?

集成傳統學術評價和Altmetrics指標的論文高被引預測研究

2023-11-10 11:53吳冰齊思賢
數字圖書館論壇 2023年9期
關鍵詞:影響力層面社交

吳冰 齊思賢

(同濟大學經濟與管理學院,上海 200092)

學術論文作為科學研究成果的主要形式之一,是公認的知識傳播的重要載體。隨著科學技術的不斷發展,全球范圍內發表的學術論文數量逐年指數級增長。對學術論文影響力的評價關系著學術論文的影響力以及學術研究者自身價值,由此成為研究機構或團體研究能力的重要評判標準[1]。

高被引論文和高被引學者近年來引起廣泛關注。不少學術服務權威機構依托自身學術數據庫推出學術論文高被引影響力相關榜單,其中科睿唯安(Clarivate Analytics)每年發布的ESI(Essential Science Indicator)高被引論文和高被引學者榜單受到全球范圍的廣泛認可?;谄煜耊eb of Science數據庫中的學術論文和引文數據,Clarivate Analytics構建了學術論文的科學績效指標ESI,評選出不同學術領域以及學科中被引頻次排名靠前的學術論文和學者。由此,國內外很多研究機構和組織都依托ESI,將高被引論文的數量和高被引學者的數量視為科研水平和科研實力的象征[2-3]。與此同時,伴隨著Web 2.0的興起和社交媒體平臺的流行,社交媒體和網絡平臺及時傳播與交流科研成果,從而對更廣泛的社會公眾產生影響,由此Altmetrics應運而生。以在線環境和網絡平臺的公開數據源為基礎的Altmetrics指標可以為度量學術成果的社會影響力提供參考[4-5],但目前融合Altmetrics指標的高被引影響因素研究較少。

本研究基于引用理論,首先將學術層面指標與Altmetrics指標結合,構建論文高被引預測指標;其次,選取Clarivate Analytics旗下知名的Web of Science數據庫,以經濟學與商業學科的論文集合為研究對象;最后,采用機器學習模型預測論文高被引,旨在充分挖掘論文高被引的影響因素及其影響程度。在理論上,一方面拓展了預測論文高被引的研究視角,另一方面有助于構建和完善學術成果的多維評價體系。在實踐上,研究結果可以分別從學術層面和網絡傳播層面,為提升學術成果綜合影響力和完善學術成果綜合評價方法提供指導方向。

1 文獻綜述

1.1 論文高被引相關研究

從被引頻次出發,當前對高被引論文的定義和劃分采用絕對閾值和相對閾值兩種方式[6]。以絕對閾值劃分時,固定數值是評價高被引論文的基準,將一時段內被引頻次在固定數值以上的論文認定為高被引論文。在絕對閾值劃分方式下,判定變得直接高效,但有可能出現學科領域之間高被引論文的分布差異性,因為學術論文引用率高的學科領域會產生大量的高被引論文,而學術論文引用率低的領域內高被引論文會很稀缺。與絕對閾值劃分方式不同,相對閾值的判別邏輯是以學術論文所在學科領域為比較范圍,將該學科領域內被引頻次相對較高的論文視為高被引論文。

隨著論文高被引判定標準逐漸明晰,研究者從不同的學科領域出發,在統計分析的基礎上,從作者維度、期刊維度和論文維度分析高被引論文的特征[7-8],以深入探討論文高被引的影響因素及其原因[9-11]。

1.2 Altmetrics

伴隨社交媒體的發展,越來越多的研究人員通過使用社交媒體開展學術活動,Altmetrics應運而生,可以用于衡量學術研究成果的社會影響力[12]。Altmetrics為測度論文影響力提供補充評價指標,其數據來源廣泛,有著高社會公眾參與度,涵蓋博客、新聞網站、政府平臺、社交媒體和在線文獻管理軟件等不同平臺,因此Altmetrics指標不僅可以從社交媒體角度解讀學術成果的社會影響力,還具有數據源開放、數據獲取免費、數據反饋及時和更新速度快的優勢[13]。2010年以來,Altmetrics的數據集成服務商以及指標工具逐漸發展,由此研究者開始關注Altmetrics指標,研究和評估Altmetrics指標在衡量學術成果影響力方面的價值。

論文被引領域的Altmetrics相關研究主要有兩大方向。①從Altmetrics指標數據出發,將其視為學術成果社會評價的數據來源,以構建評價學術成果影響力的Altmetrics綜合指標體系,由此將來自Altmetrics平臺的綜合評分及其指標數據作為研究對象,驗證了Altmetrics指標的合理性[14]。②將Altmetrics指標引入論文被引研究,探究Altmetrics指標與論文被引之間的關系以及影響機制,證實在不同學科領域中Altmetrics指標和論文被引頻次呈現出一定的相關性,由此說明Altmetrics指標可以作為傳統文獻計量指標的重要補充。在此基礎上,選取特定期刊的文獻,自定義高被引閾值,融合Altmetrics指標和傳統文獻計量指標預測論文高被引。然而,研究對象的選取范圍不廣,研究數據的代表性有待提升[15]。

1.3 綜述評述

被引頻次是學術成果的重要評價指標,高被引論文引起廣泛關注,由此圍繞論文高被引問題,目前研究主要關注論文、期刊和作者這3個維度涵蓋的學術層面影響因素,不斷豐富和完善學術層面的指標及其內涵。隨著Web 2.0和社交媒體的不斷發展,來自網絡和社交媒體平臺的數據為學術影響力評價提供了補充,由此以Altmetrics指標為代表的社會影響力評價指標為學術成果評價提供了新的視角。雖然已有研究證實Altmetrics指標與論文被引頻次之間存在一定的相關性,并進一步應用Altmetrics指標預測論文被引頻次,但目前將學術層面因素與社會層面因素結合的論文高被引影響因素研究較少。

因此,本研究從ESI高被引論文出發,基于當前豐富的Altmetrics應用服務帶來的開放、豐富和可獲取的數據,將Altmetrics指標與論文學術層面的指標相結合,借助機器學習算法[16],分別從學術層面和社會網絡傳播層面探究論文高被引的影響因素及其重要性,為完善學術成果的評價體系提供理論依據。

2 基于引用過程概念模型的論文高被引影響因素

2.1 引用過程概念模型

引用理論主要包括規范引用理論和社會建構主義引用理論[17]。規范引用理論認為引用行為表示對同行的認可,更多的引用意味著更大的認可,由此引用主要取決于引用者對被引文獻的感知價值。規范引用理論假設引用出于對同行的認可,但社會建構主義引用理論質疑這一假設的有效性,認為引用是復雜的過程,人們更傾向于引用由學科領域內被認為更權威或更有聲望的作者發表的文章,作為研究結果和知識主張的論據支持。

綜合規范引用理論和社會建構主義引用理論的實證研究,研究者提出了由三大核心要素組成的引用過程概念模型,包括被引文獻、引用過程、施引文獻[17]。作為核心要素之一的被引文獻包含內容特征、作者特征、期刊特征以及感知價值4個部分,其中感知價值可以分為5類:認知價值、功能價值、條件價值、社會價值和情感價值。認知價值定義為作者對被引文獻滿足知識需求或信息需求的感知效用;功能價值定義為被引文獻對施引文獻做出貢獻的感知效用;條件價值是指感知效用與社會群體或個人的特征有關;社會價值定義為特定社會群體對被引文獻的感知效用;情感價值定義為被引文獻引起的積極或消極情感的感知效用。

由此基于引用過程概念模型,針對被引文獻這一要素,從內容特征、作者特征、期刊特征以及感知價值4個方面對論文高被引的影響因素展開討論,其中:內容特征、作者特征、期刊特征為學術層面的影響因素;由于感知價值體現了被引文獻的社會影響,可以用表征社會影響的Altmetrics指標來衡量。

2.2 基于引用過程概念模型的學術層面影響因素

在內容維度,論文內容質量是論文被認可的最重要因素,論文的外部特征從形式和內容方面概括和展示了論文的特點,對論文被引情況有一定程度的影響[11],與此同時,論文的早期被引特征也對論文被引預測有重要作用[18-20]。由此,從特征完備性和代表性出發,選取具有代表性的論文層面的特征[21-22],包括論文頁數、作者數量、參考文獻數量、首次被引的時間間隔、首次被引當年被引頻次和首次被引兩年內被引頻次。

在作者維度[23],作者的學術聲譽和影響力對論文早期被關注有重要的影響,尤其第一作者的學術聲望和產出[24-25]經常被認為是論文影響力的關鍵影響因素。隨著對作者維度因素的挖掘,實證研究表明論文合作者的學術產出或學術聲望對論文的被引和傳播也有顯著的影響[19]。由此,選取具有代表性的作者指標,統計在當前高被引論文發表之前作者的各維度指標值,包括一作論文數、一作總被引頻次、一作H-index、合作者最大論文數、合作者最大總被引頻次、合作者最大H-index。

在期刊維度,從雙向選擇的角度出發,在學術成果的傳播過程中學術影響力高的期刊更容易吸引高質量的論文,同樣高質量的論文也更傾向于在高影響力期刊上發表。研究發現,期刊的聲譽和學術影響力對論文高被引起到決定性作用[10]。由此,選取具有代表性的期刊特征,包括期刊總被引頻次、期刊影響因子、期刊五年影響因子和期刊發文數。其中,與影響因子相比,五年影響因子更能反映期刊的長期影響力,因為它考慮了引用時滯。此外,根據Web of Science數據庫提供的評價指標,期刊維度的指標還包括期刊即時指數、被引半衰期、特征因子得分和影響力得分。其中,即時指數是指期刊當年發表論文的平均被引水平,衡量了期刊短期內的熱度和受關注程度。

2.3 基于引用過程概念模型的Altmetrics指標

以在線環境和網絡平臺的公開數據源為基礎,Altmetrics數據應用服務提供商提供多平臺多渠道的數據收集服務,使得Altmetrics指標不斷豐富和完善,為度量學術成果的影響力提供了補充性指標。

由于社交網絡中的信息傳播具有及時性和迅速性,學術成果在社交媒體平臺中的被提及量、被收藏量等具有一定相關性[26],為了避免同類型指標高度相關對論文高被引預測結果的影響,對各類指標進行保留或合并處理,選取具有代表性的Altmetrics指標,具體包括社交平臺提及量、百科提及量、在線閱讀平臺讀者數、搜索引擎檢索量、開放新聞站點提及量、同行評議平臺提及量。

3 數據獲取

3.1 學術平臺選取

選取Web of Science數據庫中的ESI高被引論文為研究對象。首先,Web of Science是全球具有權威性的大型在線文獻檢索平臺,數據庫收錄了萬余種期刊中的超千萬篇論文。ESI一般以10年為計算周期,每兩個月更新一次,從各個角度對國家/地區科研水平、機構學術聲譽、科學家學術影響力以及期刊學術水平進行全面衡量,由此ESI高被引論文和高被引學者榜單為學界廣泛接受和認可,具有權威性和代表性。其次,ESI劃分了22個專業領域,根據每個領域的學術論文的被引用情況進行科學排名,提供篩選高被引和高熱度論文的各種層次,有助于快速查找特定領域的高被引論文集合。最后,所有ESI高被引論文及其相關信息都可以在Web of Science中快速檢索,因此高被引論文具有可得性。

3.2 Altmetrics指標平臺選取

選取Altmetric LLP平臺提供數據作為論文Altmetrics指標數據的來源。首先,Altmetric LLP平臺是目前市場上最大的Altmetrics服務提供商,其旗下產品集成了從眾多渠道收集到的數據,可全面衡量學術成果。在此基礎上,通過加權將不同數據源集成到一起,得出論文的綜合性指標,由此數據涵蓋面廣且具有代表性。其次,作為最早的Altmetrics服務提供商,Altmetric LLP平臺的Altmetric Explorer和Altmetric API分別提供了DOI和PubMed ID等標識符來追蹤學術成果,研究者可根據自身的需求申請相應的權限,進而獲取所需的Altmetrics指標數據集合,因此數據可得性高。

3.3 論文集合的獲取

選取來自Web of Science數據庫中經濟與商業學科領域的論文集合作為研究對象:一方面是由于這個領域的論文發表數量可觀,另一方面是由于這個學科領域與Altmetrics指標表征的網絡傳播和社會影響緊密相關。

基于2022年4月的ESI榜單,篩選出經濟與商業學科領域的高被引論文集合,以Web of Science數據庫的主標識符WOS號為檢索標識,識別出共3 340篇高被引論文,發表時間范圍為2012—2022年,平均每篇被引178次。在此基礎上,以DOI為標識,根據高被引論文及其作者信息,通過Web of Science數據庫檢索獲取作者之前發表的所有學術論文;將DOI作為關鍵字關聯Altmetrics指標數據,得到30 916條論文數據記錄;進行數據清洗,排查異常值和重復值,最終得到27 953篇論文的數據,其中高被引論文共有4 403篇,非高被引論文共有23 550篇。

4 論文高被引預測

4.1 描述性統計分析

對論文維度的指標進行描述性統計,如表1所示。在論文早期被引特征中,論文首次被引的時間間隔最小值為0,即發表當年即被引用,論文整體首次被引的時間間隔平均為1.57年。論文首次被引當年被引頻次平均為3.36次,2020年發表于The New England Journal of Medicine的文章“Use of CAR-Transduced Natural Killer Cells in CD19-Positive Lymphoid Tumors”首次被引當年被引頻次最高,為164次,因其作者涉及社科領域而被收錄至本數據集。論文首次被引兩年內被引頻次最大為601次,是2021年發表于Asian Economic Papers的“The Global Macroeconomic Impacts of COVID-19:Seven Scenarios”。由此可見,與疫情相關的研究引起了社會的廣泛關注。

表1 論文維度指標的描述性統計數據

對作者維度的指標進行描述性統計,如表2所示。合作者最大論文數均值是一作論文數均值的近3倍,說明高被引論文的合作者處于持續發表論文的狀態。在論文影響力方面,第一作者之間總被引頻次差距很大,而H-index基于被引論文數計算,因而標準差相對較小。

對期刊維度的指標進行描述性統計,如表3所示,不同期刊的影響力水平相距甚遠。Nature期刊總被引頻次最大,總被引頻次為915 939次。Scientific Reports期刊發文數最大,總發文數為21 179篇。

表3 期刊維度指標的描述性統計數據

對Altmetrics層面的6個指標進行描述性統計,如表4所示。Altmetrics指標數據來自多個開放社交媒體和網絡平臺,不同平臺數據的覆蓋度各不相同。在社交平臺被提及、在開放新聞站點被提及、在搜索引擎被檢索、在百科被提及、在在線閱讀平臺被閱讀、在同行評議平臺被提及的論文分別有3 806(13.62%)、679(2.43%)、747(2.67%)、27 953(100.00%)、27 953(100.00%)、8 722(31.20%)篇。百科和在線閱讀平臺數據覆蓋度最高,但標準差較大,說明論文在這兩個平臺上的影響力有較大差異。

表4 Altmetrics指標的描述性統計數據

4.2 預測與分析

4.2.1 預測模型應用

以隨機的方式將完整的27 953篇論文的數據按7∶3的比例劃分成訓練集和測試集,模型在訓練集基礎上學習后,對測試集數據進行預測,并通過k折交叉驗證的方式獲得穩定的模型效果,以進行模型的評估。

集成模型中,隨機森林(Random Forest,RF)、Adaboost和LGBM(Light Gradient Boosting Machine)目前被廣泛用于預測論文被引[11],并且預測效果良好,因此應用這3個模型預測論文高被引。首先,設計兩個預測論文高被引的方案:方案一僅使用學術層面指標,方案二組合學術層面指標和Altmetrics指標。接著,比較兩個方案預測結果的均方根誤差(Root Mean Square Error,RMSE)[27],發現增加Altmetrics指標后,RF、Adaboost和LGBM的RMSE分別降低了16.8%、12.5%、20.3%。因此,相較于僅使用學術層面指標,結合Altmetrics指標的預測效果更優。最后,根據方案二組合學術層面指標和Altmetrics指標,分別采用RF、Adaboost和LGBM預測論文是否高被引,3個模型的評估指標[17]如表5所示。LGBM對論文高被引的預測效果優于其他兩個模型,這是由于LGBM能較好控制模型復雜度,并能同時處理數據稀疏和數據集樣本不均衡問題。因此,LGBM將用于Shap值分析,進一步探究各指標對論文高被引的影響程度。

表5 模型的評估比較結果

4.2.2 Shap值分析

Shap值通過衡量特征的邊際貢獻度對模型進行解釋,同時又能以可視化的形式對模型進行全局和局部分析,因此可用于解釋模型中各個特征的貢獻[28]。

應用LGBM預測論文高被引,得到的Shap值如表6所示。在線閱讀平臺讀者數、期刊被引半衰期、首次被引兩年內被引頻次對論文高被引的貢獻排名前3,Shap值分別為1.41、0.27、0.20。在線閱讀平臺讀者數對預測論文是否高被引的正向影響最大,說明讀者數越多,論文越有可能成為高被引論文。Altmetircs指標中,開放新聞站點提及量和搜索引擎檢索量對預測結果影響甚微,Shap值為0.01。百科提及量和參考文獻數量的Shap值分別為-0.05和-0.25,這說明百科提及量和參考文獻數量都會對論文被引產生負面影響[29-30]。

表6 各指標的Shap值

4.3 研究結論與實踐建議

4.3.1 研究結論

首先,研究組合學術層面指標和Altmetrics指標,提升了對論文高被引的預測效果,這是由于Altmetrics指標代表著論文在社會網絡中的傳播影響力。尤其對于經濟與商業學科領域的研究論文,通過利用社交媒體促進社會層面的傳播與交流,可提高被引用的可能性。

其次,研究發現Altmetrics指標中的在線閱讀平臺讀者數的Shap值最大,隨后是期刊被引半衰期、論文首次被引兩年內被引頻次、一作總被引頻次。在線閱讀平臺讀者數是論文高被引的最重要影響因素,這是因為在線閱讀平臺的研究者數量眾多,閱讀數越多意味著社會影響越大,論文也就更容易被研究者關注并引用。

再次,研究數據集合中的論文在社交媒體、開放新聞站點、同行評議平臺、搜索引擎中的數據覆蓋度雖然不足100%,但是相關指標對論文被引仍產生一定的影響,并且其影響程度與數據覆蓋度為100%的論文首次被引的時間間隔、論文首次被引當年被引頻次和期刊特征因子得分相同。由此說明,在開放新聞站點或搜索引擎中被提及或檢索對論文而言十分重要。

最后,Altmetrics指標中,百科提及量對論文高被引有負面影響,這可能是由于百科提及有一定的滯后性,納入的論文未及時受到關注而未能被進一步引用。與此同時,參考文獻數量對論文高被引也有負面影響,這說明高被引論文通常引用適當數量的參考文獻。

4.3.2 實踐建議

在提升學術成果綜合影響力方面,無論是學者個人還是研究團體、研究機構,都應重視在社交媒體和在線閱讀平臺上的交流,打通學術平臺與社交媒體平臺,由此擴大在社會網絡傳播方面的影響力,提高綜合的知名度,以進一步提升在學術界的影響力。

在完善學術成果綜合評價方法方面,除了需要關注學術層面的評價指標,還應關注學術成果在社交媒體平臺中的傳播力和影響力。學術成果在社會群體中產生的影響有著累積效應,由此應將社會大眾對學術成果的關注度納入評價范圍,進一步完善學術成果評價體系,識別并傳播更具價值和影響力的學術內容。

5 結語

在研究視角方面,以往研究集中關注學術層面特征。隨著Altmetrics的發展,雖然已有研究在構建Altmetrics指標體系的基礎上研究網絡傳播對論文被引的影響,但是將學術層面指標與Altmetrics指標相結合,研究論文高被引影響因素的研究較少。因此,本研究基于引用理論,整合學術層面指標與Altmetrics指標,構建預測論文高被引的綜合指標體系,并通過實證研究說明了集成Altmetrics指標的必要性和可行性。

在研究數據方面,以往研究通常單獨使用Web of Science數據庫或Altmetrics平臺數據,本研究選取Web of Science數據庫作為學術層面指標的數據來源,選取Altmetric LLP平臺作為Altmetrics指標的數據來源,由此整合學術數據源與網絡傳播數據源,促進了領域的融合。

在研究數據集方面,以往研究通常針對某一特定期刊或者特定年份的論文集,因而數據集的規模和代表性都存在一定的局限性。本研究選取經濟與商業學科ESI高被引論文集,反向獲取高被引論文第一作者的所有學術論文,將兩個集合集成在一起作為研究對象,使得數據集更具多樣性和代表性,由此更好地發揮機器學習算法的優勢,有效探究論文高被引的影響因素及其影響程度。

本研究的不足之處包括以下兩個方面。首先,主要選取了Web of Science數據庫中的經濟與商業學科論文,未來研究可以選取來自不同領域、由不同學術數據庫收錄的論文,以獲得普適性的結論。其次,Altmetrics指標數據主要來自Altmetric LLP平臺,雖然這個平臺提供了較為全面的網絡傳播開源數據,但是平臺僅提供2010年后的公開數據,未來研究可以考慮根據論文發表時間段動態建模。

猜你喜歡
影響力層面社交
社交之城
社交牛人癥該怎么治
社交距離
你回避社交,真不是因為內向
天才影響力
黃艷:最深遠的影響力
健康到底是什么層面的問題
高三化學復習的四個“層面”
策略探討:有效音樂聆聽的三層面教學研究(二)
3.15消協三十年十大影響力事件
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合