?

作者學術經驗與被引頻次的關系探討

2024-01-29 08:43張麗華姚長青
情報工程 2023年5期
關鍵詞:末位發文經驗

張麗華 姚長青

1. 中國科學技術信息研究所 北京 100038;

2. 山西財經大學 太原 030006

引言

論文被引頻次預測是科學計量學的熱門研究話題。面向預測的論文被引頻次影響因素研究已積累了豐富的研究成果。這些影響因素大致4 類:(1)論文相關因素。包括標題長度、論文長度、論文主題、參考文獻數量、文獻類型、參考文獻多樣性、是否受基金資助、是否開放獲取等。(2)作者相關因素。包括學術經驗、性別、年齡、國籍、隸屬機構、作者人數、合作、h 指數、累積被引量、作者發文量等。(3)期刊相關因素。包括期刊影響因子、期刊發文量、期刊總被引量、期刊語言等。(4)其它。包括出版時間、論文下載量、社交媒體轉發、評論等。

本研究主要關注作者相關因素中的“作者學術經驗”。由于研究人員之間的天賦存在較大差異,導致學術經驗和論文被引頻次之間的關系并不十分密切,但仍然存在這樣的共識:作者學術經驗很重要[1]。Sun 等[2]發現作者對研究工作的影響比機構更大。作為一個預測論文被引頻次的關鍵因素,作者學術經驗測度指標主要包括4 種:(1)發文量指標。如作者在目標論文之前已發表的論文數量。(2)引用數指標。如作者在目標論文之前已經獲得的總被引次數、作者在目標論文之前已發表論文的平均被引頻次。(3)學術年齡指標。學術年齡等于學者最新論文的發表年份減去第一篇論文的年份之差加1。(4)作者狀態指標。如作者是否為高被引學者。(5)綜合指標。如作者在目標論文之前的H 指數、第一作者的H 指數等。

已有部分研究從論文產出角度探索了學術經驗與論文被引頻次之間的關系。Hanssen 等[1]使用作者發文量測度學術經驗,發現學術經驗對論文被引頻次有顯著的正向影響,但是這種影響會隨著經驗水平的提高而迅速減弱。也就是說,年輕的研究人員能夠相對較快地學會高水平研究所需的技能與知識。有經驗的研究人員將產出更高質量的研究,并最終導致該研究被更頻繁地引用。Walters[3]使用第一作者在2001—2002 年的發文量、第一作者在2001—2002 年發文量的被引用次數,以及第一作者2001—2002 年論文被引用次數除以發文量3 個指標測度作者的學術經驗,并探討學術經驗與論文被引頻次的關系,結果表明第3 個指標對因變量論文被引用次數具有顯著影響。Peng 和Zhu[4]發現第一作者發文史是論文被引頻次的重要預測因素,其中發文史是指論文發表年與數據檢索年之間的時間差。相反,Ruan 等[5]認為第一作者發文史對單篇論文發表5 年后的被引頻次預測貢獻很小。

還有些學者從論文被引角度分析作者經驗與論文被引頻次的關系。Dalen 等[6]使用作者累積被引頻次來表示作者學術經驗,結果發現作者學術經驗是論文被引用次數的最佳預測因素。Bornmann 和Daniel[7]研究了作者狀態(author’s status,即作者是否為ISIHighlyCited.com 收錄的高被引學者)對論文被引頻次的影響,結果發現,作者中高被引學者越多,則論文的被引頻次越高。Fu 和Aliferis[8]在測度學術經驗時使用了第一作者的發文數、第一作者的累積被引用次數、末位作者的發文數和末位作者的累積被引用次數4 項指標,分析其與論文被引頻次的關系,結果表明末位作者的累積被引用次數與第一作者的累積被引用次數指標對論文被引用頻次有顯著正向影響。程子軒等[9]在構建學術論文被引頻次預測模型時,選擇了作者數量、作者h 指數、作者發文量、作者論文的被引頻次4 類10 個作者特征指標,經過相關分析與逐步回歸發現,代表作者學術經驗的第一作者發表論文的篇均被引量指標能夠很好地預測論文被引頻次。Wang 等[10-11]發現,第一作者在目標論文之前的h 指數是影響引用的關鍵因素。Abramo 等[12]分析了高產作者與高被引作者之間的關系,發現兩者中度相關,高產作者與生產高被引論文的概率存在一定相關性。同時,大約一半高被引論文的作者是發文量排名前10%的作者。Danell[13]使用作者已發表論文數和已發表論文的引用率定量測度作者過往記錄,分析這兩個指標能否預測論文的影響力。結果表明,已發表論文的引用率是論文影響力的重要預測因素。相反,已發表論文數反而不重要。Ruan 等[5]發現第一作者的總被引頻次、篇均被引頻次、H 指數均不是預測論文被引頻次的重要指標。

實際上,在分析作者學術經驗與論文被引頻次關系時,不同學者得出了不同的結論。Onodera 和Yoshikane[14]總結了影響論文被引頻次的不同因素,本文截取了與作者學術經驗相關的因素(表1),從表1 中可以看到,作者發文量、作者被引量、作者狀態這3 個表示作者經驗的指標與論文被引頻次的關系在不同的研究中得出不同的結論。這一方面表明當同一主題的不同研究結論存在差異時,應關注不同研究對象、視角與方法的差異,另一方面也表明本文能夠在現有研究基礎上豐富作者經驗與論文被引頻次之間的關系研究。

表1 影響論文被引頻次的作者相關因素

同時,在現有的作者學術經驗指標中,除了第一作者,較少考慮其他作者角色,如末位作者、單一論文作者以及第一作者與單一作者論文分別對應的論文數與被引用次數。此外,已有研究多是從單篇論文層面關注作者學術經驗與論文被引頻次之間的關系,這表現為被解釋變量通常是單篇論文的被引頻次,解釋變量則為該篇論文所對應的特征,如作者人數、期刊影響因子、作者在這篇論文之前的發文量等。較少從作者層面,尤其是作者整個職業生涯所有學術論文的匯聚層面探討學術經驗與論文被引頻次之間的關系。

因此本研究旨在從作者層面探討作者學術經驗與論文被引頻次的關系。我們選擇斯坦福大學John P. A. Ioannidis 教授團隊發布的“高被引科學家數據庫”中的194439 名科學家為研究對象,主要解決以下2 個問題:(1)當作者擔任不同角色時,學術經驗與論文被引頻次之間的關系是否存在差異?(2)作者層面作者經驗與論文被引頻次呈現出怎樣的關系?通過對這2 個問題的回答,有助于更深入地探討學術經驗與論文被引頻次的關系,使研究機構在聘用、晉升科研人員時合理考慮科研人員的學術經驗。

1 數據來源與方法

2022 年11 月3 日,斯坦福大學John P.A. Ioannidis 教授團隊發布開放獲取的2022 年“高被引科學家數據庫”(第五版,https://elsevier.digitalcommonsdata.com/datasets/btchxktzyw/5)。該數據庫2019 年7 月6 日發布了第1 版,每年更新1 版,第2 版和第3 版的發布時間分別是2020 年10 月8 日和2021 年10 月19 日。2022 年的情況較特殊,分別于10 月10日和11 月3 日更新了第4 版和第5 版。這兩版的主要區別在于研究子領域的劃分方法與數量,其余計量指標沒有發生變化。該團隊指出,第5 版更合適,應該取代第4 版。

“高被引科學家數據庫”包括“年度影響力數據集”(single recent year dataset)和“職業生涯影響力數據集(1960—2022)”(career-long database)兩個排名。通過遴選出基于c 值(c-score)或子領域排名前2%的前10 萬名科學家,來自22 個學科領域及174 個子領域的200196 名科學家入選“2022 年度影響力數據集”,194983名科學家入選“職業生涯數據集”。本研究通過對數據集的清洗,最終選擇第5 版“職業生涯數據集”中的194439 名科學家為研究對象。數據集中包括豐富的計量指標信息,包括科學家姓名、機構、國家、發表第一篇論文年份、最近一篇論文年份、總被引頻次、h指數、hm指數、作者排名最高的領域、子領域等。

本研究擬解決的第1 個問題是當作者擔任不同角色時,論文被引頻次是否存在差異。根據署名位置,作者角色可以劃分為獨著、第一作者、末位作者以及除此之外的其他作者。其中,獨著作者說明研究工作的構思、設計、分析與論文撰寫全部由作者一人完成,作者是論文的全部貢獻者。第一作者是合著論文的主要貢獻者,他/她不僅應該是課題主要觀點的擁有者,而且除特殊情況外還必須是科研課題的具體操作者和文章的主要執筆者[19]。末位作者一般是高級作者[20],為“指導、監督和保證所報道作品的真實性”以及“對作品的科學準確性、有效方法、分析和結論承擔責任”的個人[21]。當然,在論文作者署名完全按照貢獻度大小排序時,末位作者也可能對論文的貢獻度最小。其他作者是指非獨著、非第一、非末位作者的其他作者。其他作者的貢獻度一般按照署名位次依次減小。本研究選擇對論文做出重要貢獻的獨著作者、第一作者和末位作者進行研究。

我們采用方差分析方法觀察同一作者扮演不同角色時被引頻次是否存在差異。首先為194439 名科研人員根據角色不同建立3 組數據,分別是獨著作者組、第一作者組和末位作者組。接下來依次進行不同組及組與組之間的正態性、方差齊性檢驗,根據檢驗結果選擇合適的假設檢驗方法,本文中選擇Kruskal-Wallis 秩和檢驗方法進行單因素方差分析,最后根據分析結果得出不同組被引頻次是否存在差異的結論。

本研究擬解決的第2 個問題是探討作者層面學術經驗與被引頻次的關系。論文被引頻次服從偏態分布,泊松回歸和負二項回歸是針對偏態分布的常用模型。但泊松分布要求數據的總體方差等于均值,一般現實世界的數據較難滿足這一要求。因此,本研究采用負二項回歸分析作者經驗與論文被引頻次的關系。同時,負二項回歸也是其他學者研究這兩個變量關系的常用方法[6-7,14,22]。本研究在使用負二項回歸模型時采用了馬薩諸塞大學阿默斯特分校(University of Massachusetts, Amherst)Sachin Date 的 研 究:https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。負二項回歸的基本操作步驟為:(1)對數據集進行泊松回歸擬合,獲得擬合率向量λ;(2)對數據集進行aus OLS 回歸擬合,獲得α 的值;(3)使用第2 步中獲得的α 對數據集進行負二項回歸擬合;(4)使用擬合的負二項回歸模型進行預測;(5)檢驗負二項回歸模型的擬合優度。

進行負二項回歸分析采用的指標見表2。學術經驗我們選擇了3 個指標,學術年齡、h指數和hm指數。學術年齡和h 指數是經典的用于衡量作者經驗的指標。hm指數[23]主要用于h 指數在多作者論文中存在不公平的問題,是利用論文平均作者數量標準化之后的指標。其計算方式類似于h 指數,科學家的hm篇論文至少被引用了hm次,其他論文的被引次數都少于hm。只不過在計算論文數量時,將論文數量除以該篇論文的作者人數。例如一篇論文有3 名作者,則對每名作者來說,其發文量等于1/3。此外,在作者層面,計算引用影響指標時排除自引更合理[24]。因此本研究中涉及的所有引用指標均排除了作者自引。

表2 學術經驗與論文被引頻次指標

選擇控制變量時主要考慮了以下方面:(1)作者發文量。一般來說,作者發表的論文數量越多,則其總被引頻次可能越高。發文量是影響作者經驗與被引頻次關系的重要因素。(2)作者角色的差異。當作者處于不同角色時,其對研究的貢獻也存在很大的差異。如第一作者是研究的最大貢獻者,而末位作者可能是論文的通訊作者,也可能對研究的貢獻最小。根據署名位置,作者角色可以劃分為獨著、第一作者、末位作者、其他作者(指除獨著、第一作者、末位作者之外處于其他署名位置的作者)。本研究考察了作者在其職業生涯中,處于第一作者、末位作者等不同角色時的發文量與被引頻次的關系。(3)研究的多樣性。本研究主要從施引文獻的角度考慮研究的多樣性,不同的施引文獻數量越多,可以認為該研究涉及的主題越多樣。多樣的研究主題可能為研究帶來更多的引文。(4)Scopus 停止收錄的論文數量與引用頻次。期刊會因不當出版行為被Scopus 停止收錄。停止收錄可能說明期刊中的論文存在質量問題。通過停止收錄論文與引文分析,可以清楚地了解作者被引用頻次的來源。

由于自變量和控制變量之間的原始數據差別較大,因此對其進行標準化處理。標準化方法采用最大最小標準化方法(min-max normalization)。這種方法簡單易理解,不改變數據分布,采用的公式為

其中,Y是指標的標準化值;X為指標的原始值;X_max 與X_min 分別對應指標的最大值和最小值[25]。

本研究中所使用的數據分析工具為EXCEL,SPSS 和Python。

2 研究結果

2.1 變量描述性統計

對本研究中涉及的15 個變量進行描述性統計分析,見表3。從表3 中可以看出,tct 的離散程度較高,說明不同作者在1960-2021 年發表論文的總被引頻次差別較大。3 個自變量中,aa 主要考查科研人員的職業生涯長度,均值為35,最長的職業生涯與最短的職業生涯相差68年。hm指數與h 指數相比,其均值與方差都更小,這與hm指數的計算方法有關,其是在h 指數的基礎上對論文平均作者人數的標準化。

表3 變量的描述性統計

在控制變量中,第一作者(fp,fpc)、末位作者(lp,lpc)的發文量和被引量均值高于獨著作者(sp,spc)。這與研究中合作現象越來越普遍的趨勢一致。Dr 是研究的多樣性指標,也是一個均值和方差都很大的指標。ncp 是未被引用的論文數量,其均值是總發文量均值的15.9%。這說明從平均水平來看,相比于至少被引用1 次的論文而言,高被引科學家群體未被引用的論文數量在職業生涯的總發文量中占少數。Stp,stpc 是從未被Scopus 數據庫停止收錄的角度考察其對被引頻次的影響,總體來看,論文被Scopus 停止收錄現象較不常見,但可以從另一個獨特視角考察科學家的影響力情況。

2.2 方差分析結果

方差分析用于解決不同角色的作者發文量和被引頻次是否存在差異的問題。應用方差分析需要滿足3 個條件:(1)各樣本相互獨立;(2)各對比組資料服從正態分布;(3)各總體方差相等,即方差齊[26]。高被引科學家數據集中各個科學家個體相互獨立,滿足條件1。我們使用Q-Q 圖來檢驗sp,fp,lp,spc,fpc 和lpc 指標是否服從正態分布(圖1、圖2)。Q-Q 圖是根據樣本數據的分位數與理論分布(如正態分布)的分位數的符合程度繪制的。如果實際數據服從正態分布,則所有分位數應該落在截距為樣本均值,斜率為樣本標準差的直線上。從圖1、圖2 可以看出,不同作者角色的發文量與被引頻次指標并不服從正態分布。

圖1 作者角色發文量指標Q-Q 圖

圖2 作者角色被引量指標Q-Q 圖

本研究通過繪制殘差圖來檢驗方差齊性(圖3、圖4)。如果擬合值和殘差的散點隨機分布在一個水平帶之內,沒有離群點,而且其離散程度基本上一樣,表示滿足方差齊性的要求。從圖3、圖4 中可以看出,作者角色的發文量和被引頻次指標不滿足方差齊性的前提要求。

圖3 作者角色發文量指標的殘差圖

圖4 作者角色被引頻次指標的殘差圖

因作者角色相關的6 個指標不滿足正態性和方差齊性的前提條件,本研究選擇Kruskal-Wallis 秩和檢驗進行單因素方差分析。經過計算,sp,lp 和fp 的統計量H 等于196993.5,p值為0.0,說明不同作者角色發文量不全相等。為了找出sp 與lp、sp 與fp、lp 與fp 之間究竟是哪兩個均值不相等,我們采用Tukey HSD 方法進行多重比較。結果表明,sp,lp 與fp 的均值兩兩之間均存在顯著差異。由此我們可以得出結論:同一作者在扮演不同角色時其發文量存在顯著差異。采用相同的方法,我們對spc,lpc和fpc 進行Kruskal-Wallis 檢驗,統計量H 等于179298.9,p 值為0.0。多重比較也顯示其均值兩兩之間存在顯著差異。因此,同一作者在扮演不同角色時其發表論文的被引量也存在顯著差異。

2.3 負二項回歸結果

建立負二項回歸模型之前需要判斷自變量、控制變量之間是否存在共線性問題。因多數變量不滿足正態性要求,此處選擇spearman 相關系數。11 個控制變量、3 個自變量兩兩之間的相關系數見表4—表7。相關系數大于0.6 以藍色底紋表示。從表4 中可以看出,除fp,fpc,stp指標之外,其余控制變量均存在與其他變量相關系數較高的情況。自變量aa 與所有控制變量均不相關。H 指數與np,lpc,dr 存在相關關系。而hm指數與np,lp,lpc,dr 存在相關關系。多個變量之間存在較高相關系數,提示由這些變量建立的回歸模型可能存在共線性問題。

表4 控制變量之間的spearman 相關系數

表5 自變量aa 與控制變量之間的spearman 相關系數

表6 自變量h 與控制變量之間的spearman 相關系數

表7 自變量hm 與控制變量之間的spearman 相關系數

為了解決共線性問題,采用逐步回歸進行變量篩選。逐步回歸的基本思想將全部自變量按其對因變量的影響程度大小,從大到小地依次把自變量引入方程。每引入一個自變量,就要對它作檢驗,有統計學意義才引入。當新的自變量進入方程后,就對方程中當時所含有的全部自變量進行檢驗,一旦發現不具有統計學意義的自變量就立即剔除[26]。經過回歸分析并結合變量的實際意義,本文最后選擇如下變量加入負二項回歸模型:(1)在以aa 為自變量的模型中,包括所有控制變量;(2)在以h 指數為自變量的模型中,控制變量包括dr,lpc,fpc,lp,np,fp,spc,ncp,stpc;(3) 在以hm指數為自變量的模型中,控制變量包括dr,lpc,fpc,np,lp,ncp,fp,spc,sp。

各模型的回歸結果見表8—表10。我們為每個自變量構建了兩個模型,模型1 中只包括控制變量,模型2 中包括控制變量與自變量。分別對兩個模型進行檢驗,并計算其對數似然值。接下來檢驗2 個模型對數似然比,χ2 統計量等于模型1 和模型2 對數似然值差值的2 倍。若則拒絕原假設,說明作者經驗顯著影響被引頻次,反之,則說明不存在顯著影響。

表8 作者學術經驗aa 與被引頻次負二項回歸結果

表10 作者學術經驗hm 與被引頻次負二項回歸結果

從表8—表10 中我們可以看出:

(1)采用3 個自變量時,模型2 的擬合度均優于模型1。這表現為當自變量為aa、h 指數和hm指數時,模型1 與模型2 對數似然比說明作者學術經驗對論文被引頻次存在影響。

(2)當自變量為aa 時,其回歸系數為0.7839,自變量為h 指數時,其回歸系數為9.9299,而自變量為hm指數時,回歸系數為4.2814。說明作者學術經驗與論文被引頻次均為正向關系。即作者學術經驗越多,則其論文被引頻次越高。其次,采用不同指標衡量作者學術經驗時,學術經驗與論文被引頻次呈現的量化關系密切程度有所不同。

(3)在控制變量中,dr 的回歸系數在模型中均大于14,是回歸系數的最大值,說明研究的多樣性是學術經驗與論文被引頻次之間關系的最大影響因素?;貧w系數第二大的指標為fpc,其值均大于8,說明其對論文被引頻次為正向影響,即第一作者發文量的被引頻次指標越大,論文被引頻次越高。當自變量使用不同指標時,np 對論文被引頻次的影響情況有所不同,當使用aa 指標與hm指標時,作者總發文量對論文被引頻次有正向影響,而使用h 指數時,則對論文被引頻次有負向影響。除此之外,當自變量為aa 時,第一作者論文數量(fp)和未被引用的論文數量(ncp)對論文被引頻次有顯著負向影響。當自變量為h 指數時,獨著論文被引頻次(spc)對論文被引頻次有顯著正向影響,而末位論文作者被引頻次(lpc)則有顯著負向影響。當自變量為hm指數時,獨著論文數量(sp),獨著論文被引頻次(spc)以及第一作者論文數量(fp)越大,則論文被引頻次越低。

3 總結與討論

本文以高影響力科學家為研究對象,從科研人員整體職業生涯的視角探討作者學術經驗與論文被引頻次的關系。主要結論如下:

(1)當作者擔任獨著作者、第一作者和末位作者等不同角色時,論文被引頻次之間存在顯著差異。從方差分析結果來看,sp,lp 與fp的均值兩兩之間、spc,lpc 和fpc 均值兩兩之間均通過了顯著性檢驗。從表3 中也可以看出,spc、fpc 和lpc 的均值分別為401.07、1384.95和2376.42??梢娔┪蛔髡叩恼撐谋灰妙l次更高,其次為第一作者,最后為獨著作者。末位作者一般為資歷更高的學者。這也驗證了“資歷更高的學者其論文被引頻次更高”的結論[4]。

(2)使用負二項回歸分析作者學術經驗與被引頻次關系時發現,無論自變量采用學術年齡、h 指數還是hm指數,其回歸系數均是一個較大的正數,說明作者學術經驗確實對論文被引頻次產生了積極的影響。作者學術經驗積累得越多,其論文被引頻次值越大。也就是說,我們從高影響力科學家數據集的角度再次驗證了兩者之間的正向影響關系。這與Hanssen 等[27]的研究結論一致。

(3)研究多樣性是影響論文被引用頻次的最主要因素。本文中研究多樣性是指作者在1960—2021 年論文的不同施引論文的數量。研究多樣性對應著科學計量學中更泛化的概念“學科多樣性”。最常用的學科多樣性指標包括跨領域引用指數、信息熵、布里淵指數和Rao-Stirling 等[28]。目前學科多樣性與論文被引頻次的關系尚未有明確結論,仍需進一步深入研究[29]。本文經過分析發現,不論使用哪個自變量,研究多樣性dr 的回歸系數在所有自變量和控制變量中均為最大值,說明研究多樣性是影響論文被引用頻次的最主要因素,該結論進一步豐富了學科多樣性與論文被引頻次關系理論。

(4)作者學術經驗與論文被引頻次的量化關系受數據集選擇、學術經驗計算方法的影響。我們通過負二項回歸分析發現,作者學術經驗與論文被引頻次之間確實存在影響關系。但這種影響關系到底有多大,在使用不同的學術經驗指標時呈現出了不同的結果。同時,本研究選擇的高影響力科學家數據集,與使用其他數據集分析二者關系時呈現出的結果也不完全相同。因此,我們在分析此類研究主題時,務必仔細選擇數據、指標、方法,若要進行對比分析,則應注意數據集、指標、方法的可比性。

未來我們將從以下方面繼續開展學術經驗與論文被引頻次的關系研究:第一,本文研究對象僅涉及高影響力科學家,未來我們將選擇其他科研人員群體與高影響力科學家進行對比分析;第二,本文中作者角色涉及獨著作者、第一作者和末位作者,并未涉及除這三種角色之外的其他作者,如在研究中起領導與協調作用的通訊作者,以及人數眾多的中間作者,未來將開展作者角色的更細致分析;第三,本文只是從定量的角度分析二者關系,對于二者背后的相互影響機制及深層次原因還需要通過個案分析、定性分析來實現,未來可將定性與定量方法結合以獲得更客觀的分析結論。

猜你喜歡
末位發文經驗
數 值 進 舍 規 則
2021年第20期“最值得推廣的經驗”評選
10條具體舉措! 山東發文做好返鄉留鄉農民工就地就近就業
經驗
2018年第20期“最值得推廣的經驗”評選
校園拾趣
爺孫趣事
以牙還牙
末位對齊與數位對齊
神秘的冪的逆運算
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合