?

計算機科學中的“睡美人”文獻特征分析及識別方法研究

2023-01-26 20:43臨清市新時代文明實踐服務中心郭艷霞
內江科技 2022年6期
關鍵詞:子類睡美人分布圖

◇臨清市新時代文明實踐服務中心 郭艷霞

雖然絕大多數的科學出版物都是在發表后的最初幾年里被引用的,但也有一些有趣的論文—被稱為“睡美人”,在發表后的幾年里被引用的次數并不多,但隨后卻突然開始被大量引用。在這項工作中,我們關注在計算機科學領域的“睡美人”。我們選出了5000多名計算機科學中的“睡美人”,并根據他們的子領域和他們的引文概況來描述他們。我們還提出了一種早期識別“睡美人”的方法,該方法試圖根據出版物是否可能是“睡美人”文獻對其進行分類。

1 引言

科學文獻是科技工作者交流的主要手段,科學引文的數量是衡量科學文獻的重要指標??茖W引文隨時間變化,呈現一定得特性。絕大多數論文在發表后的最初幾年被引用,然后呈指數衰減,但很少有特別受歡迎的論文能隨著時間穩步積累被引用。人們還觀察到另一類有趣的論文—那些在發表后幾年沒有被大量引用,但突然開始被引用的論文,通常被稱為“睡美人”文獻[1]。

對論文的“晚喚醒”或“晚識別”現象早有研究。然而,幾乎所有之前的研究都集中在基礎科學的論文上,但在計算機科學領域對“睡美人”文獻的研究非常稀少。

在這項工作中,我們使用從微軟學術搜索抓取的大型論文數據集,我們識別和描述了計算機科學中超過5000個“睡美人”文獻。我們發現“睡美人”文獻中有各種子類,它們在各個方面的行為都不同。例如,雖然一些“睡美人”文獻在喚醒后被引用的次數繼續增加,但許多其他“睡美人”文獻在幾年后被引用,然后被引用次數再次下降。研究表明,“睡美人”文獻的許多特性取決于計算機科學領域的相關子領域。例如,大多數“睡美人”文獻來自的子字段“算法和理論”和“科學計算”。這些“睡美人”文獻中的許多在較長的時間后蘇醒(與其他子領域的“睡美人”文獻相比);然而,一旦他們醒來,他們經常被計算機科學的其他子領域引用。相比之下,來自子領域“自然語言和語音”和“硬件和體系結構學”通常只引用自他們自己的子領域。

2 相關工作

理解科學論文的引文增長動態一直是文獻計量學中一個有趣的問題[2]。在研究計算機科學論文的有效生命周期的引文動力學時,一個廣義的觀察結果[3]揭示,在發表論文之后,在最初的兩到三年內,引文收集的頻率會有一個初始增長(增長階段),隨后是一個恒定的峰值,也就是說,進入引用的頻率在接下來的一到兩年里變得停滯(飽和階段),然后,在文章的剩余生命周期中出現最終的下降(衰退階段),然后逐漸地,在某個點上觀察不到進一步的活動(廢棄階段)。然而,我們本論文的動機源于Ruiz-Castillo[4]提出的一個基本問題與科學計量學相關的內容如下:“不同科學的引文分布是非常相似還是相當不同?”

Chakraborty[3]在早期的工作中引入了計算機科學領域中科學文章的各種引用分布圖的想法。他們提出了一種新的引文增長模型來模擬這些不同的引文分布。在接下來的工作中[14],他們展示了如何使用這些概要信息來預測一篇文章在其發表時的未來被引數。其提出了一個兩階段的分層學習框架,在第一階段使用基于規則的方法將被試論文的引文輪廓映射到一個類別;然后在第二階段,對只屬于映射類別的論文進行訓練,預測該論文未來的被引次數。他們還通過分析論文的引文分布和上下文屬性(如關鍵詞、主題等)來量化論文(相對于領域)的跨學科性。

關于論文“晚醒”或“晚認”現象的研究很少。Garfield[5]是第一個提供此類論文例子的研究者。后來,Glanzel[6]估計了這種延遲識別,并揭示了這種現象的有趣特征。Raan首先創造了“睡美人”這個詞,指的是識別延遲的論文。李江等人[7]分析了分析了諾貝爾獎得主論文的引文曲線,發現了識別延遲的文章。最近,杜建等人[8]引入了一種無參數方法來識別科學中的“睡美人”文獻。

Li and Shi[9]提出了一套基于引證譜增長速度的新標準來從諾貝爾獎得主的文章中檢測天才文章。然而,他們提出的標準也有一些特別的選擇。例如,該標準不適用于很少被引用或從未被引用的文章。一篇文章至少被引用9次,在發表10年和50年后至少被引用90次,分別滿足該準則。

Li等人[10]研究了四個特殊的案例,“睡美人”似乎被紡線傷到,進入睡眠,然后被王子喚醒。他們還選擇了一些特別的標準來鑒別“睡美人”—某段時間(至少5年)平均被引用次數少于2次,而在接下來的4年里平均被引用次數超過20次。在另一項研究中,Li和Ye[11]提出了三個標準—基于平均水平的標準、基于四分位數的標準和無參數的標準,以此來區分“睡美人”。van Raan[12]進一步研究了“睡美人”的兩個重要性質:①“睡美人”的時間依賴分布、作者特征、期刊和領域;②“睡美人”的認知環境。他研究的是物理、化學和工程科學論文,并觀察到一半的“睡美人”論文是面向應用的。從上述討論中可以明顯看出,不同的研究使用了不同的標準來識別“睡美人”文獻。屈文建等人[13]對高被引文章引文曲線進行了分析。

3 “睡美人”的數據集和識別

本節描述計算機科學論文的數據集,以及我們如何從該數據集識別“睡美人”文獻。

3.1 計算機科學論文數據集

我們使用了一個從微軟學術機構抓取的計算機科學論文的大數據集搜索(MAS)。具體來說,我們收集了截至2012年MAS檢索的所有計算機科學領域發表的論文。該數據集包含200多萬篇論文的數據。對于每一篇論文,數據集包含論文的詳細信息(例如,標題、作者、發表地點和年份、關鍵詞),以及本文引用的其他論文的名稱。此外,每篇論文都映射到計算機科學的一個或多個子領域。計算機科學共有24個子領域,如“算法與理論”、“科學計算”、“人工智能”、“網絡與通信”等,每篇論文都會提到一個或多個子領域。

在這項研究中,我們關注的是1950年至2011年期間的引文,對此我們有近乎完整的數據。此外,我們決定把重點放在受歡迎的論文上,只考慮了那些至少被引用20次的178383篇論文(到2011年為止)。

3.2 標準化引文分布圖的計算

3.3 識別“睡美人”文獻

接下來,我們從論文的規范化引用分布圖中識別“睡美人”文獻。Raan于2004年提出了識別“睡美人”文獻的三個維度:①睡眠期間的持續時間;②睡眠深度,即睡眠期間的平均被引次數;③喚醒強度,即睡眠后4年的累計被引次數。在上述三個維度中,我們只考慮前兩個維度來標識“睡美人”文獻。我們不考慮第三個維度,因為“睡美人”文獻在覺醒后的年份中可能有非常不同的引文分布圖。

具體來說,如果一篇論文在其發表后的前10年,其規范化引文分布圖中的所有數據點都小于0.20,我們就認為該論文是一篇“睡美人”文獻。換句話說,我們關注的是睡眠期至少為10年的論文,睡眠期的平均年被引次數最多為其峰值的20%。請注意,我們從過去的一系列工作中調整了這些標準。通過這個過程,我們將5086篇論文確定為“睡美人”文獻(占我們數據集中所有論文的2.85%,這些論文至少被引用20次)。

值得一提的是,對于大多數情況,我們實際上考慮了一個靈活的標準。例如,前10年的標準化引用計數被認為是。發布后的時間窗口為年。標準中的靈活性最終產生了與上面所述差不多的一組“睡美人”文獻。

有人可能會反對我們的標準化程序,如果一篇論文從發表之日起就得到越來越多的關注,隨后又被多次引用,那么在最初幾年的比例就會變得相對較小,通過我們的方法,它可能會被誤認為是“睡美人”文獻(這類論文通常被稱為“常青”論文,而不是“睡美人”)。為了交叉驗證已確定的5086篇“睡美人”文獻中是否存在此類論文,我們進一步測量了每個已確定的“睡美人”文獻在其休眠時間(發表后的前10年)的原始引用計數。我們沒有發現任何“睡美人”文獻在睡眠時間被引用超過50次。因此,我們得出結論,我們的歸一化方法沒有錯誤地將普通文獻甚至是常青的文章檢測為“睡美人”文獻。

4 “睡美人”文獻特征描述

在本部分中,我們將根據前面所述的方法來描述“睡美人”文獻的特征。

4.1 “睡美人”文獻與計算機科學子領域關系分析

如前所述,數據集中的每篇論文都映射到的一個或多個子字段計算機科學。我們統計了識別的5086個“睡美人”文獻在不同子字段中的分布情況。在“睡美人”文獻中,“算法與理論”和“科學計算”的子領域占50%以上,而“人工智能”和“科學計算”的子領域占50%以上,“自然語言和言語”占了另外22%。我們還注意到,對于“睡美人”文獻的三個子類中的每個子類,跨不同子字段的分布幾乎保持相同。

我們統計了某一子領域(包括在我們的數據集中)的所有論文中有多少部分是“睡美人”文獻。同樣,來自“算法與理論”和“科學計算”子領域有更高比例的論文成為“睡美人”文獻,這可能是因為這些論文貢獻的算法/方法后來在計算機科學的不同子領域中得到了應用。有趣的是,盡管“信息檢索”這一子領域的“睡美人”文獻比許多其他子領域少,但這一子領域的論文成為“睡美人”文獻的比例高于許多其他子領域。

4.2 基于喚醒后引文分布圖的“睡美人”文獻類型分析

我們首先檢查不同“睡美人”文獻的引用分布圖在它們被喚醒后看起來是否相似或不同。為此,我們應用以下啟發式方法檢測“睡美人”的引文分布圖中的峰值:①高峰應該是一個局部最大值,兩側的高度比最多(或等于)小峰高;②峰值的高度應該是至少70%的全球最大峰高;③連續兩個峰應該相隔2年以上,否則,他們被視為一個峰值。有趣的是,我們根據喚醒后引文分布圖的峰值數量觀察到“睡美人”文獻的三個不同子類。

(1)單峰特征。這些“睡美人”文獻在蘇醒后逐漸積累被引次數,導致被引輪廓出現峰值,隨后被引次數下降。這個子類占所有已識別“睡美人”文獻的43.8%。

(2)多峰特征。這些“睡美人”文獻的引文輪廓有多個峰,峰間間隔為幾年(占全部“睡美人”文獻的37.9%)。

(3)這些“睡美人”文獻的被引分布隨時間持續上升,至少持續到2011年(直到我們有完整的被引數據為止)。這個子類包含18.3%的“睡美人”文獻。

4.3 “睡美人”文獻最終被引用的次數與其他類型的論文比較分析

我們比較了“睡美人”文獻的總被引次數(從至少被引20次的論文中選出)和在我們的數據庫里的178383篇論文中,至少有20引用的文章。一般來說,“睡美人”文獻最終比其他類型的論文獲得更多的引用。例如,25%的“睡美人”文獻被引用100次或100次以上,而在所有論文中這一比例不到11%。因此,“睡美人”文獻雖然得到認可的時間較晚,但比其他論文更受歡迎。

我們還比較了三類“睡美人”文獻的總被引頻次。在“睡美人”文獻中,單調遞增的子類通常被引次數最多,其次是多峰,然后是單峰。

5 結束語

我們對大量的計算機科學出版物數據集進行了實證分析,以理解和預測“睡美人”文獻。我們發現了跨越計算機科學的各個子領域的5000多個“睡美人”文獻,并根據他們醒來后的被引分布圖,以及他們被引的不同子領域的數量,描述了這些“睡美人”文獻的特征。后期,我們將繼續探究識別“睡美人”文獻的新方法,更大限度地挖掘“睡美人”文獻的價值。

猜你喜歡
子類睡美人分布圖
水中睡美人
Java面向對象編程的三大特性
漢語兒童早期子類名詞獲得研究
貴州十大地質公園分布圖
中國癌癥分布圖
Java類的繼承
浙江省第一批省級特色小鎮分布圖
人生真相
《睡美人怕什么》等
Java 多態性淺析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合