?

學術論文的可讀性與影響力研究*
——基于人文社會科學學科差異的視角

2023-11-10 11:53伍丹煒劉宇
數字圖書館論壇 2023年9期
關鍵詞:情報學可讀性管理學

伍丹煒 劉宇

(1. 云南大學歷史與檔案學院,昆明 650091;2. 云南大學新聞學院,昆明 650504)

學術論文作為傳播研究成果的知識載體,肩負著促進知識發展、引導社會思潮等重要使命。在學術研究與社會不斷互動重構的背景下,研究成果的傳播范圍已逐漸從相關領域的專業人士拓展至社會上對嚴肅文本有濃厚興趣的業余人群。這無疑提高了對研究人員寫作水平的要求,即在撰寫論文的過程中提高文本的可讀性,讓讀者更容易理解作者知識框架的構建過程、內容以及研究成果的社會價值[1]。然而,可讀性作為評價論文質量的一個指標尚未受到學界的普遍支持與認可,但它對知識傳播的實質性影響不容忽視。本研究將借助荊溪昱等[2]的可讀性公式分別計算論文摘要及全文的可讀性,并利用被引頻次作為測量論文傳播效果的指標進行回歸檢驗,以探索學術文本可讀性對論文知識傳播效果的影響,為提高學術交流的有效性提供新的視角及建議。

1 文本可讀性相關研究

通常而言,研究內容能滿足讀者的閱讀需求是論文獲得認可與引用的前提。高影響力的論文不僅要有契合時代發展的研究話題,其文字表述還要通暢、所傳達的內容信息要能使讀者產生共鳴。為衡量閱讀材料的難易程度,學界已經產出大量有關可讀性測評工具的研究。

1.1 可讀性工具的研發

可讀性又稱為易讀性,是指文本材料所包含的影響讀者有效使用的所有要素及其之間相互作用的總和[3],用于反映信息易于被發現、被接受和被理解的程度[4]。20世紀20年代,美國教育界為衡量教材難度、找到適合當時中學生學習的教材,開始關注教材的可讀性研究[5]。在現實需求的推動下,針對英語文本的可讀性公式逐漸走入大眾視野。Vogel等[6]引入桑代克詞表,將學生的閱讀成績作為因變量,通過逐步回歸的方法研制出明確文本難度的可讀性公式,該公式包含4個預測變量,即詞表中的不同詞語數、詞表中的介詞數、詞表之外的詞數及75個樣本句中的簡單句數。隨后,多元線性回歸成為研制可讀性公式的重要統計方法,大量科學、客觀的可讀性公式在Vogel等的研究基礎上不斷涌現,如Flesch Reading Ease、SMOG Grading、Flesch-Kincaid Formula等,它們被廣泛應用于教材課本、國家政策等閱讀材料的可讀性測量。隨著研究的深入,這些公式的研究范式逐漸趨于統一,主要通過測量詞匯、句法、篇章等文本特征衡量文本可讀性[7]。20世紀90年代后,計算機的應用為文本可讀性公式的深入研究提供了技術支持。Crossley等[8]通過自然語言處理工具提取與文本理解和閱讀速度相關的語言特征,開發出了預測文本可讀性的新模型,并通過對比預測結果發現新模型比經典可讀性公式解釋更準確。此外隨著大規模語料庫的建設與深入研究,一系列自動化的在線分析工具如Coh-Metrix[9]等逐漸產生,降低了人工計算帶來的誤差概率與成本。

英語可讀性工具的研制帶動了其他語言的相關研究。盡管漢語、日語這類語言的結構與英語差異較大,但是一些學者仍根據這些語言自有的特點展開了研究。例如,Yang[10]以繁體文本為樣本,用難詞比、完整句子數及平均筆畫數3個預測變量研制出了第一個漢語文本的可讀性公式。荊溪昱等[2]以臺灣地區中小學12個年級的中文教材為研究樣本,選用課文長度、平均句長、常用字占比、詩歌文體及文言文體來擬合每個學期的教材難度,其提出的公式被認為是當前漢語可讀性公式中最權威的可讀性公式[11]。由于漢語可讀性的相關研究公式起步較晚,且漢語與英語的語言特點截然不同,當前漢語文本可讀性研究仍以研制可讀性公式為主[6],例如:郭望皓[12]通過問卷調查的方法,篩選出平均句長、漢字難度以及詞匯難度3個對外漢語文本難度的影響因素,并通過CRITIC加權賦值法計算了各因素的權重系數,擬合出對外漢語文本的可讀性公式;李萍[13]則對荊溪昱等的公式進行創新,將專業術語作為衡量指標引入漢語可讀性計算公式。直至2020年,針對漢語的可讀性公式有將近30個[14]。

1.2 可讀性工具的應用

當前有關文本可讀性的研究除可讀性工具開發等理論研究外,還有一部分研究集中在可讀性工具的應用上。初始階段,可讀性工具的應用主要集中在教育學領域對教材難易程度的預測方面,由于閱讀在社會生活中的重要作用,可讀性工具的應用逐漸擴展至商業、醫療等諸多領域[15]。逯東等[16]以2007—2016年A股上市公司為研究對象,發現年報可讀性越低的上市公司面臨的融資約束越強??虑嗟萚17]構建具有高/低可讀性的兩組健康信息網頁作為實驗刺激材料,通過眼動實驗檢驗了在線健康信息可讀性對信息加工績效的影響效應,發現可讀性可以不同程度作用于總注視時間、注視點個數以及首次進入時間3個認知負荷因素,從而間接地影響信息加工績效。

隨著可讀性工具在各領域的廣泛應用,一些學者也開始關注文本可讀性與論文影響力之間的關系。早期,學者主要通過外顯的定性評價特征來評估論文的影響力。Hartley等[18]研究了心理學領域文本可讀性及其影響力之間的關系,通過比較經典論文與對照論文(同刊同期論文)的可讀性發現,文本可讀性正向影響著論文的重要性排序,但與其被引頻次之間沒有顯著關系。Sawyer等[19]以4種市場營銷期刊上的論文為研究對象,通過對比獲獎/未獲獎論文的文本可讀性來判斷文本可讀性與論文影響力的關系,發現獲獎論文比未獲獎論文更具可讀性。隨著引文分析技術的普及,被引頻次作為衡量論文影響力的指標被廣泛應用。Van Wesel等[20]使用FRES可讀性公式分別對社會學、普通內科和應用心理學論文的摘要、全文進行可讀性測量,發現在社會學中全文可讀性顯著負向影響被引頻次、在普通內科學中摘要可讀性顯著負向影響被引頻次、在應用心理學中全文可讀性顯著負向影響被引頻次。Lei等[21]使用了FRE和SMOG兩個指標測量了情報學領域2003—2012年期刊論文的摘要、全文可讀性與標準化被引頻次之間的關系,發現可讀性與被引頻次之間的相關關系不顯著。陳練文等[22]則利用SMOG、FKG、ARI及FOG 4個可讀性公式分別測試了計算機和圖書情報學科的摘要及全文的可讀性,發現高被引期刊的可讀性得分高于低被引期刊,這一點在摘要上表現得更為明顯。Jin等[23]采用39個詞匯和句法復雜性指標來衡量2012年和2018年發表在Science上的550篇論文摘要的可讀性,并采用另類注意力評分來衡量讀者的在線注意力,結果表明摘要的可讀性與網絡關注顯著相關,且這種關系受學科和發表時間的顯著影響。

目前文本可讀性研究在國內仍是一個新興領域,其中對文本可讀性公式的探索主要集中在計算機語言學學科[24];而在可讀性工具的應用方面,鮮有學者關注到文本可讀性與學術論文影響力之間的關系?;诖?,本文運用現有的可讀性工具,展開對漢語文本可讀性與論文影響力關系的研究,以填補國內可讀性相關研究的空缺。

2 研究設計

2.1 數據來源

以中國知網(CNKI)期刊全文數據庫為數據源,分別選擇圖書情報學、新聞傳播學以及管理學3個學科的代表性期刊(《中國圖書館學報》《情報學報》《新聞與傳播研究》《國際新聞界》《管理世界》《南開管理評論》)所收錄的論文作為樣本。李樵[25]的研究顯示,新聞傳播學與管理學是與圖書情報學知識交流最為緊密的兩個相關學科。使用這3個學科的典型論文作為研究樣本不僅可以降低以某一學科論文為樣本帶來的“以偏概全”風險,能夠更為全面地展示國內社會科學界文本可讀性的特點,也可以比較不同學科之間文本可讀性與論文影響力之間關系的差異。于2023年3月4日在CNKI數據庫抓取2016—2020年6種期刊發表的論文作為研究樣本,并采集了樣本論文的作者信息、期刊信息、摘要文本、全文文本及被引頻次等信息。剔除會議報道等非研究性的記錄,并分別計算樣本摘要及正文的可讀性,最終得到3 214個研究樣本。

2.2 研究方法

2.2.1 因變量

使用被引頻次作為測量論文影響力的變量。隨著數據庫在學術領域的廣泛應用,讀者對研究成果的關注度可以通過被引頻次更加真實客觀地反映出來,這在一定程度上解決了定性評價數據收集成本高、評價結果片面等問題。

現有研究發現被引頻次并非呈正態分布[26-27],而作為典型的計數變量,被引頻次在本研究中還存在過離散現象(均值為58.71,方差為102.153),因此負二項回歸模型更適用于此次分析。使用SPSS 24軟件的廣義線性模型擬合負二項回歸。

2.2.2 自變量

理想狀態下,被引頻次被視為一種測量研究內容有用性的工具變量,可用于描述科學知識的擴散軌跡[28]。實際的引文動機卻很復雜,受到許多社會因素的影響。Wang等[29]在設計預測高被引論文工具時提出,高引用的特征可以歸納為質量機制和可見性機制,其中可見性機制是指通過影響論文可見性影響論文被引頻次的因素集合,例如在知名期刊上發表或由知名人士撰寫的論文更容易被讀者關注,從而增加了這類論文被引用的機會?;诖?,設置了“期刊是否為權威期刊”以及“第一作者的工作單位級別”,分別控制了期刊聲望及作者聲望兩個社會因素對被引頻次的干擾。此外,由于被引頻次是一個累積的變量,新發表的論文與發表年齡較長的論文相比存在被引劣勢,還設置了論文年齡(截至2023年的論文發表時間)來控制這一影響。

盡管越來越多的研究發現論文外部的社會因素是被引頻次的重要影響因素,但是學界實際更關心論文本身的知識內容是否可以預測論文未來的學術影響力[30-31]。當前已有學者通過提取論文內容特征的方式來評價論文的內容質量。例如,Stremersch等[32]使用論文在期刊目次中的順序、是否獲得期刊年度優秀論文獎以及論文長度(頁數)作為論文質量的測量指標,發現在市場營銷領域這3個測量指標與論文的被引頻次顯著相關。然而上述研究僅從論文的某些具體特征出發判斷論文的內容質量,忽略了論文主要由文字構成的事實。論文的摘要及全文作為作者傳達知識的核心載體,其文本內容往往是讀者判斷論文引用價值的重要因素。如前所述,由于荊溪昱等的可讀性公式在學界的認可度較高,使用該可讀性公式分別計算了樣本論文摘要及全文的可讀性,以期探索論文摘要及全文的可讀性對其被引頻次的影響??勺x性公式如式(1)所示。

式中:R為可讀性數值;X1為文本總字數;X2為平均句長;X3為常用字比;X4為詩歌文體;X5為文言文體[10]。由于研究樣本是學術論文,不存在詩歌文體和文言文體,X4、X5取值均為0。此外公式中的常用字是指臺灣地區小學的495個常用繁體字,而研究樣本均為大陸文本,將相關內容替換為國家《通用規范漢字表》中的一級漢字表。最終計算得到的R值越大表示越不易理解,即可讀性越低。

研究樣本來自于圖書情報學、新聞傳播學及管理學3個學科,因此將學科分類這一變量設置為研究模型的調節變量。雖然3個學科均從屬于社會科學,但不同學科在知識傳播途徑、學者引用偏好、學科規模等方面存在諸多差異,因此不同學科被引頻次在數據級上可能存在差異,難以直接用于比較[33-34];此外,不同學科之間的寫作方式和話語風格也存在一定差別,這也可能會影響文本內容的可讀性。因此,有必要考察不同學科之間文本可讀性與被引頻次之間的差異。

3 數據分析與發現

3.1 學術文本可讀性的變化

2016—2020年論文摘要及全文的R值變化如圖1所示??傮w而言,全文R值比摘要高(即全文比摘要更難閱讀);同時,兩者均表現出越來越難讀的跡象,尤其是全文閱讀難度在2018—2020年明顯提升。

圖1 2016—2020年樣本論文摘要及全文R值變化趨勢

不同學科論文摘要R值的變化趨勢如圖2所示。雖然圖1顯示2016—2020年論文摘要R值的變化趨勢并不明顯,但3個學科論文摘要R值的變化趨勢與均值變化趨勢并不一致。新聞傳播學論文摘要的R值主要呈現下降趨勢,表明其摘要隨著時間的推移變得越來越容易閱讀;管理學論文摘要的R值呈現明顯上升趨勢;圖書情報學論文摘要的R值變化趨勢比較平緩,但是波動較大,而且最高摘要R值均出現在圖書情報學。整體上看,圖書情報學論文的摘要一直最難讀,新聞傳播學論文的摘要一直最易讀。

不同學科論文全文R值的變化趨勢如圖3所示。3個學科論文全文的R值均有所提升:圖書情報學的提升速度最快,管理學次之,新聞傳播學較為平緩。整體上看,管理學論文全文R值最高,圖書情報學論文全文R值最低,也就是說管理學論文的全文最難讀、圖書情報學論文的全文最易讀。

3.2 文本可讀性與被引頻次

根據文獻綜述分析,被引頻次的影響因素復雜,且測量方式存在差異。為了更科學地展示研究變量的測量方式,根據變量的類型對其進行了描述性統計。

表1所示為分類變量的描述性統計信息。在控制變量中,非權威期刊的論文占比略多,這符合權威期刊版面緊俏、發文量有限的現實;第一作者的工作單位以高校為主,其中985高校的第一作者數量最多,占比約為52%,表明由于樣本期刊均是各學科內的一流期刊,論文發表中存在“頭部機構固化”現象[35]。在調節變量中,管理學論文數量最多,約占40%,而圖書情報學論文數量最少,約占28%,表明管理學的發文量更大。

表1 分類變量信息

表2所示為連續變量的描述性統計信息。因變量被引頻次的極差較大,呈明顯的離散分布現象??刂谱兞恐?,論文年齡呈輕微的正偏態分布,意味著每年發文量略微下降。預測變量中,摘要R值與全文R值都呈現出正偏態分布,說明其取值主要為較小的數值。

表2 連續變量信息

表3所示為論文被引頻次影響因素的負二項回歸模型。模型一納入了論文年齡、權威期刊以及單位級別3個變量,對可能影響被引頻次的核心性社會因素進行控制;模型二增加了摘要R值以及全文R值兩個預測變量,用于考察文本可讀性對被引頻次的影響;模型三納入了調節變量學科;模型四檢驗了學科對摘要R值、全文R值與被引頻次關系的調節作用。Omnibus檢驗顯示4個模型均顯著有效,同時隨著模型不斷納入新的變量,模型的皮爾遜卡方值也在不斷減小,說明模型整體的解釋力在不斷上升并收斂。

表3 被引頻次影響因素的負二項回歸模型

模型一顯示論文年齡、權威期刊以及單位級別均顯著影響論文的被引頻次。具體而言,發表時長越長的論文被引頻次越高(β=0.168,P<0.001),論文年齡每增加一年論文的被引頻次增加一個單位的優勢比的概率會增加18.4%。相對于發表在權威期刊上論文,非權威期刊論文的被引頻次增加一個單位的優勢比的概率低49.2%。相對于在985高校任職的第一作者,在其他單位任職的第一作者的論文被引頻次增加一個單位的優勢比的概率低21.4%。

模型二顯示在控制論文年齡、權威期刊及單位級別3個變量的情況下,兩個預測變量均顯著影響論文的被引頻次。具體而言,摘要R值越高論文的被引頻次越低,摘要R值每增長一個單位,論文被引頻次增長一個單位的優勢比的概率就會減少1.9%,即摘要越容易閱讀,論文被引用的可能性越高。而全文R值越高論文的被引頻次越高,全文R值每增長一個單位,論文被引頻次增長一個單位的優勢比的概率會增加2.7%,即越難讀的論文被引頻次反而越高。

模型三顯示在控制了論文年齡、權威期刊及單位級別和摘要R值、全文R值的情況下,學科對被引頻次的影響也十分顯著。具體表現為,相對于管理學論文而言,圖書情報學和新聞傳播學論文的被引頻次增加一個單位的優勢比的概率分別低70.0%、66.5%。

模型四在模型三的基礎上考察了學科對摘要R值、全文R值和被引頻次之間關系的調節作用。結果表明,學科對摘要R值、全文R值與被引頻次的關系都有一定的調節作用。具體而言,在摘要R值對被引頻次的影響過程中,圖書情報學與管理學之間存在顯著的學科差異(β=0.036,P=0.030),即圖書情報學的摘要R值增加一個單位引發被引頻次也增加的概率比管理學高3.7%。在全文R值對被引頻次的影響過程中,新聞傳播學與管理學之間存在顯著的學科差異(β=0.008,P=0.043),即新聞傳播學的全文R值增加一個單位引發被引頻次也增加的概率比管理學高0.8%。

值得注意的是,在納入調節變量學科前,摘要R值對被引頻次有顯著影響(如模型二所示);當模型納入學科變量后,摘要R值對被引頻次的影響不再顯著(β=-0.007,P=0.297),這說明摘要R值對被引頻次的影響被學科差異對被引頻次的影響覆蓋。在4個模型中,3個控制變量均顯著影響著論文的被引頻次,這一特征與已有研究結果相符,說明權威效應和時間效應對被引頻次具有穩定的影響效果[36-37]。

4 文本可讀性對被引頻次的影響

如前所述,雖然國外已有學者關注并研究論文可讀性與被引頻次的關系,但以漢語學術文本為對象的可讀性研究還很缺乏;已有研究關于可讀性與被引頻次之間關系的實證結果并不一致,導致兩者關系的研究結論仍存在爭議。本研究的價值就在于以漢語文本為樣本,揭示了學術文本可讀性與被引頻次之間的關系;同時,將學科作為調節變量,以探索不同學科之間文本可讀性的變化規律以及文本可讀性對被引頻次的影響。

4.1 摘要可讀性對被引頻次的影響

根據前文分析可知,2016—2020年樣本論文摘要的可讀性呈輕微的下降趨勢。加入學科變量后對這一趨勢展開了進一步分析,發現不同學科的摘要可讀性變化趨勢也存在較大差異,主要表現為:圖書情報學及管理學的摘要逐漸變難讀,而新聞傳播學摘要卻逐漸易讀;相對于其他兩個學科而言,管理學摘要可讀性每年的變化幅度更為明顯。這一發現與Gazni[38]的研究結果相似,即有些學科的摘要可讀性明顯不如其他學科,而且摘要可讀性在被調查的時間段里一般不會出現太大的變化。摘要是一篇論文的內容濃縮,是讀者閱讀全文的重要前提。不同學科話語模式的差異引發了摘要可讀性的學科差異,在短期內同一學科話語模式相對穩定,則摘要可讀性具有穩定性。管理學是一個學科范式比較混雜的學科,存在“管理科學與工程”和“工商管理”兩大基本的話語模式?!豆芾硎澜纭吩?019年開始增設“管理科學與工程”專欄,這可能是管理學的摘要可讀性與全文可讀性在2019年、2020年發生突變的重要原因。

由模型二可知,在控制論文年齡、權威期刊及單位級別的條件下,摘要越容易閱讀的論文被引頻次越高。但在加入學科變量后,摘要R值的主效應不再顯著,圖書情報學與管理學的摘要可讀性及被引頻次之間的關系存在顯著的學科差異。圖4展示了學科對摘要R值與被引頻次關系調節作用的簡單斜率檢驗結果[39]。由圖4可知,隨著摘要R值的提升,論文的被引頻次逐漸降低,即圖書情報學和管理學中,摘要越容易閱讀的論文被引用的可能性越高。相對于管理學來說,圖書情報學的斜率更大,即在圖書情報學中摘要越易讀,提升被引頻次的效果越明顯,因此相對管理學來說,圖書情報學中的調節作用表現為增強作用。

圖4 學科對摘要R值與被引頻次關系的調節作用

4.2 全文可讀性對被引頻次的影響

如前所述,與摘要相比,樣本論文的全文R值的增長趨勢較為明顯。加入學科變量對這一趨勢進一步分析發現,3個學科全文R值均表現為逐年增長趨勢。這與國內社會科學研究日益規范化、定量研究方法日益普及有很大關系。

由模型二及模型四可知,與摘要R值不同,加入學科變量后全文R值對被引頻次的主效應一直顯著,表明全文可讀性對被引頻次的影響效應比較穩定,越難讀的論文被引頻次越高。新聞傳播學與管理學論文的全文可讀性及被引頻次之間的關系存在顯著的學科差異。圖5展示了學科對全文R值與被引頻次關系調節作用的簡單斜率檢驗結果。如圖5所示,隨著全文R值的提升,論文的被引頻次逐漸升高,即新聞傳播學和管理學論文都表現為全文越難閱讀,被引頻次越高的特點;而相對于管理學來說,新聞傳播學的斜率更小,即在新聞傳播學中全文低可讀性對提升被引頻次的效果沒有管理學顯著,因此相對管理學來說,新聞傳播學中的調節作用表現為抑制作用。

5 結語

可讀性是論文質量的一個重要特征,本研究通過量化文本內容可讀性的方式探索學術論文的文本可讀性對論文影響力的影響,對作者進行論文寫作以及科研評價具有重要參考價值。研究使用荊溪昱等的可讀性公式分別計算了樣本論文摘要及全文的可讀性,并運用負二項回歸模型檢驗了論文摘要及全文可讀性與被引頻次之間的關系。研究發現,在控制論文年齡、權威期刊及單位級別的情況下,摘要易讀而全文難讀的論文被引頻次較高??勺x性與被引頻次之間的關系受到學科的調節,即相對于管理學來說,若圖書情報學論文摘要難讀,則論文被引頻次更容易減少,新聞傳播學論文全文可讀性對被引頻次的影響不如管理學顯著。

作為傳播論文知識的兩個核心部分,摘要和全文扮演了兩種不同的角色。摘要作為讀者閱讀論文的前提,其易讀性積極地影響著論文被引,這意味著作者應該盡可能用簡潔、直接的語言描述研究的核心內容,以達到快速吸引讀者注意的目的;而全文為讀者提供更詳盡的知識信息,影響著讀者對知識結構嚴謹度、研究成果有用性等的感知和評價,作者在撰寫全文時應將研究步驟和方法盡可能詳細地展示在讀者眼前,以滿足讀者的閱讀需求,獲得更多的認可與支持。本研究在以下兩個方面還存在一定缺陷。首先,對文本可讀性的量化依賴于可讀性計算公式,然而計算公式利用的可讀性指標主要取決于文字內容的特征,實際上文本可讀性還受到記錄載體[40]、個人教育水平[41]等因素的影響??勺x性計算公式提供的可讀性指標從客觀層面揭示文本自身存在的難易度差異,而忽略個體因素帶來的影響。其次,僅選擇了社會科學中的圖書情報學、新聞傳播學以及管理學論文作為研究樣本,對于自然科學文本可讀性的發展及其對論文傳播的影響需進一步的對比研究。

猜你喜歡
情報學可讀性管理學
開放與融合:公安情報學進入情報學方式研究*
“天人合一”的管理學啟示
可讀性
張瑞敏金句背后的管理學知識
構建中國特色的情報學
淺談管理學
對增強吸引力可讀性引導力的幾點思考
淺談對提高黨報可讀性的幾點看法
聯邦快遞的管理學
在增強地方時政新聞可讀性上用足心思
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合