?

科學中的“睡美人”與“曇花一現”現象評述

2016-12-29 19:27李江
大學圖書館學報 2016年3期
關鍵詞:睡美人

李江

摘要 “睡美人”現象是科學論文中存在的一種特殊現象,指論文剛發表時幾乎被忽視,很少被引用,但若干年之后,突然被大量引用?!皶一ㄒ滑F”現象與“睡美人”現象正好相反,指論文剛發表時立即引起關注,但持續時間很短,很快被人遺忘。學術界對被引次數的關注主要集中在“高被引”論文。研究“睡美人”與“曇花一現”現象的意義在于將學術界的注意力吸引到“低被引”或“零被引”論文上。論文在評述這兩種引文現象的相關研究之后,解釋了他們在科研管理中的意義,并探討了進一步研究的方向。

關鍵詞 睡美人 曇花一現 遲到的認可 科學規律 定量標準

1.“睡美人”現象

科學論文中存在一種現象,即論文剛發表時幾乎被忽視,無人提及,但若干年之后,突然被大量關注,得到廣泛認可。例如,奧地利遺傳學家孟德爾(Mendel)的1866年發表的論文《植物雜交實驗》,在發表之后的30多年時間里,幾乎無人問津。直到1900年,他的發現被歐洲三位不同國籍的植物學家在各自的雜交試驗中分別予以驗證后,這篇埋沒了長達34年之久的經典文獻才被重新重視。

在1960年代,這種現象被稱為“過早的科學發現(Premature Discovery)”或“未被認可的科學發現(Resisted Discovery)”。在這一階段,學者們基于廣為人知的案例,分析了科學發現“過早”的原因。加菲爾德(Garfield)認為可以從被引次數的角度判斷一篇論文是否“過早”或“不被認可”。

自1970年代開始,人們稱這種現象為“遲到的認可(Delayed Recognition)”。同行認可是科學領域對科學貢獻的最好獎勵。這一術語更具概括性,囊括了“過早”與“不被認可”的特征。加菲爾德根據學科的發展特征解釋了“遲到的認可”產生的原因。這種定性的案例分析可以讓讀者深入了解“遲到的認可”,但因為缺乏規范的語言表述,使得同類研究難以廣泛開展起來。加菲爾德自1980年代后期開始借助定量的方法尋找“遲到的認可”,所設定的定量分析標準便是“睡美人”的雛形。

自21世紀初開始,這種現象被稱為“睡美人(Sleeping Beauty)”。在這三個不同發展階段中,現象的本質并未發生變化,變化的只是稱謂。所以上述稱謂之間并沒有替代關系?;凇八廊恕钡亩繕藴?,學者們在不同的學科中尋找“睡美人”。進而,也有學者在文獻中找到童話故事里的“王子”。在20世紀的100年里獲諾貝爾科學獎的論文中,筆者發現四個“睡美人”的特例——“公主”在沉睡之前曾活躍,被“紡錘”刺破手指后進入沉睡狀態,再被“王子”親吻后“蘇醒”。因此,將這類睡美人定義為“全要素睡美人(All Element Sleeping Beauty)”,即在其被引用的歷史中,“公主”、“王子”、“紡錘”都曾出現。

愛因斯坦(Einstein)等人在1935年發表的一篇關于量子力學的論文的被引曲線,乃典型的睡美人曲線。文章在發表30年后才逐漸被大量關注,在發表75年后才迎來被引次數的峰值(圖1)。

2.“曇花一現”現象

2005年,與“睡美人”現象相反的另一種引文現象受到關注,即論文發表之后迅速被認可,但又很快被遺忘。這種論文被稱為“流行作品(Hits)”,“流星(Shooting Star)”,也被稱為“曇花一現(Flashes in the Pan)”。筆者認為,用“曇花一現”來描述這種現象更確切,因此下文中對這種引文現象的介紹均用“曇花一現”。1969年諾貝爾生理醫學獎獲得者赫爾希(Hershey,A.D.)發表的一篇“曇花一現”的論文如圖2所示。該論文發表于1953年,發表當年達到引文曲線的峰值,兩年內被引用12次,自第3年之后累計被引用2次。作者雖獲得諾貝爾獎,但也未能阻止該論文被人們迅速遺忘的命運。

在為數不多的關于“曇花一現”論文的相關研究中,學者們以不同學科的論文為對象,比較了“曇花一現”和“睡美人”現象。以人口統計學論文為對象的研究發現:“曇花一現”和“睡美人”現象更可能出現在學科內的一流期刊中。與學者個人聲譽、“零被引”狀態等影響因素相比,期刊的聲譽是期刊論文被引次數最重要的決定因素。一流期刊既能給其刊載的論文第二次生命周期,從而導致“睡美人”現象出現;也能引發更激烈的學術討論(表現為短期內的大量引用),激烈討論過后的平靜導致“曇花一現”現象的出現。以心理學論文為對象的研究發現,與“睡美人”相比,“曇花一現”更多地出現在科學研究的熱點中。從被引曲線上看,“全要素睡美人”是“曇花一現”與“睡美人”現象引文曲線的組合。

論文通常在發表之后的3-5年時間里迎來被引次數的峰值,此后,被引次數緩慢下跌。這種論文的引文曲線通??梢杂脤嫡龖B(Lognormal)函數擬合?!皶一ㄒ滑F”與“睡美人”的引文峰值或過早或過遲,均偏離了普通論文的引文規律。那么,如何以定量的標準判斷一篇論文是“曇花一現”、“睡美人”或者普通論文呢?

3.判定“睡美人”與“曇花一現”現象的定量標準

3.1基于平均值的標準

1989年,加菲爾德為“遲到的認可”設定的標準為“高被引”論文發表之后的前5年甚至10年以上的時間被引次數較低,大約平均一年被引1次。這種基于平均值的定量研究思路為后續的研究奠定了基礎。

2003年,格蘭澤(Glanzel)等人將“遲到的認可”定義為(a)發表后3年內只被引不超過1次,或(b)5年內只被引不超過2次,之后的15年里累計被引用至少100次。按照這一標準,他們從科學引文索引(Science Citation Index,SCI)數據庫中1980年發表的54萬篇論文里,找到77篇符合條件a、29篇符合條件b的論文。隨后,將標準提高,把“累計被引用至少100次”改為“累計被引用50次且被引次數是影響因子的10倍及以上”,然后得到60篇符合條件a和16篇符合條件b的論文。他們也指出:之所以把時間窗口定義為3年或5年,是因為論文在發表后3-5年的時間里沒有被引用的話,之后基本上就不會被引用了。2004年,格蘭澤與加菲爾德將條件a中的時間窗口修改為5年,這樣,發現“遲到的認可”的概率為0.013%。

2004年,范讓(Van Raan)參照上述定量分析標準,提出了“睡美人”論文的定量標準:

(1)睡眠深度(cs),睡眠期每年被引最多1次(深度睡眠),或每年被引1-2次(淺度睡眠);

(2)睡眠長度(s),一般為5年及以上;

(3)喚醒強度(cw),睡眠期之后4年里累計的被引次數,一般應大于20次,可劃分為[20,30],[30,40],[40,50],[50,60],[>60]。

基于這3個變量的“睡美人”論文的特征包括:①深度的、長時間的睡眠之后,“睡美人”被喚醒的概率很低;②淺度睡眠的“睡美人”被喚醒的概率受睡眠長度影響較??;③喚醒強度越大的“睡美人”出現的概率越小,具體概率與睡眠深度和睡眠長度無關。

基于平均值標準對于喚醒時間的判斷并不準確12引。圖1所示的論文前31年累積被引用51次,年均被引用1.6次;此后的四年里累積被引用24次,按上述定義,可視為“睡美人”論文在第32-35年被喚醒。但是,從圖1看,該論文被喚醒的時間比理論預測更晚一些?;谄骄档臉藴实牧硪粋€不足之處在于睡眠深度值、睡眠長度值、喚醒強度值的界定比較隨意。如果這樣可行,那么,我們需要重新思考加菲爾德在1980年代提出的問題:“論文發表之后10年未被引用,之后1年被引用10次,算遲到的認可嗎?論文發表之后10年里每年被引用20次,之后1年被引用50次,算遲到的認可嗎”?

參照范讓的思路,還有學者定義了曇花一現的標準:

(1)論文發表之后2年內被引用超過10次,

(2)接下來的至少5年內每年平均被引用不超過2次。

按照這一標準,他們從58963篇諾貝爾獎獲得者的論文中找到176篇符合條件的論文(占0.3%)。圖2中的引文曲線符合這一標準。同理,基于平均值的“曇花一現”論文的定義也存在與“睡美人”相同的問題。

3.2基于分位數的標準

分位數與平均值孰利孰弊,已成為文獻計量學領域的七大話題之一。正態分布是最常見的連續型概率分布之一,如果統計樣本服從正態分布,那么觀測值應該對稱分布在樣本均值的兩側。但是,格蘭澤認為引文分布并不服從正態分布,因為絕大多數論文的被引次數在平均值以下,位于長尾的尾部。因此,他建議在選擇統計方法與指標時,應采用分位數代替平均值。

基于分位數定量研究“睡美人”論文的標準源于普賴斯(Price)寫給好友阿韋爾薩(Aversa)的私人信件。信中提到:科學論文有三種引文模式,25%的論文發表后被引次數以恒定速率增長,一直沒有下降趨勢;25%的論文發表后被引次數先快速增至峰值,然后以相近的速度遞減;還有50%的論文發表后前幾年被引次數以恒定速率增長,達到峰值后開始下降。阿韋爾薩在隨后的研究中只發現兩種基本的引文類型,即“慢增慢減”和“快增快減”;2003年,阿克斯尼斯(Aksnes)補充了第三種引文類型——“勻增慢減”,這3種引文類型與普賴斯的三種引文模式對應。2005年,范達倫(Van Dalen)和亨肯斯(Henkens)總結了上述3類引文類型,將“慢增慢減”視為“睡美人”,將“快增快減”視為“曇花一現”,將“勻增慢減”視為普通文獻,并給出了基于平均值的定量分析標準。2010年,科斯塔斯(Costas)等人參照范達倫和亨肯斯的研究,提出一套基于分位數的定量分析標準。首先,查詢目標論文的發表時間與發表之后每年的被引次數;其次,計算論文自發表至統計時累積50%的引文需要的時間(Y50%);再次,統計與目標論文同年發表的同一學科內所有論文的Y50%值,從小到大依次排列,位于25%的論文的Y50%值為P25,位于75%的論文的Y50%值為P75;最后,用目標論文的Y50%值與P25和P75比較,判斷目標論文所屬的類型:

(1)“普通”型:最常見的引文曲線,P25

(2)“曇花一現”型:發表之后被大量引用,但持續時間較短,Y50%

(3)“遲到的認可”型:被認可的時間晚于常見的引文曲線,Y50%>P25。

科斯塔斯等人統計了816萬篇論文后發現,上述三者的比例分別為70.4%、9.4%和20.2%。其中“遲到的認可”的比例遠遠超過格蘭澤等人統計的0.013%。加菲爾德所說的論文(發表之后10年里每年被引用20次,之后1年被引用50次)所獲得的認可,按照基于分位數的標準,很可能屬于“遲到”,但按照基于平均值的標準,明顯不屬于“遲到”。

基于平均值的標準更能反映論文的“沉睡”狀態,而基于分位數的標準更能反映“認可的遲到”狀態。前者的條件嚴格,符合條件的文獻數量較少;后者的條件寬松,符合條件的文獻數量過多,但統計操作難度大。同時,這兩套標準均因閾值設定過于主觀而存在缺陷。

2015年5月,柯慶等人在美國科學院院刊上提出無參數的“睡美人”論文標準。該標準考慮了引文曲線的形態和峰值出現的位置兩個要素。該標準最大的優勢是避免了基于平均值與基本分位數標準中對于參數的主觀設定(包括“年均被引次數小于2”、分位數中的“25%”與“75%”等)。該論文未提出“曇花一現”論文的無參數標準。2015年7月,孫建軍等人在第15屆國際科學計量與信息計量會議上,提出一套基于基尼系數的無參數定量標準,用于區分“睡美人”論文、“曇花一現”論文與普通論文?;嵯禂凳菧y度財富分布均衡性的指標。孫建軍等人用該指標測算被引次數的分布均衡性,以測算值的大小判斷被引次數高峰出現的位置以及被引曲線的形態,然后根據引文高峰出現的位置判斷論文是“睡美人”、“曇花一現”,還是普通論文。

4.“睡美人”與“曇花一現”現象產生的原因探討

“睡美人”現象產生的第一個原因是概念與方法超前。加菲爾德認為,孟德爾的論文《植物雜交實驗》遲遲未被認可的原因在于其“遺傳因子分離與組合”的概念與獨特的“遺傳學分析方法”均超出當時的科學認知,使其成為過早的科學發現。范讓找到了一個特別的“睡美人”案例即羅曼斯(Romans)于1986年發表的論文。這篇論文發表之后直到1994年一直沒有被引用過,但在1995年被波爾欽斯基(Polchinski)的論文(“睡美人的王子”)喚醒。梁立明等人結合超弦理論以及超弦理論的兩次革命的背景,認為羅曼斯的論文走在了時代前面,以至于同時代的科學家看不到其科學意義?!八廊恕爆F象產生的第二個原因是主觀排斥。引用過程容易受主觀因素的影響??茖W家們很可能因為一項科學發現的作者的年齡較小或學術地位不高而拒絕認可其學術貢獻。其他阻礙科學發現被及時認可的主觀因素還包括:宗教觀念、學術聲望、專長、專業協會、學術派系、年齡等等。此外,普賴斯認為作者的表達技巧也是造成不被認可的原因之一。他自己寫過一篇關于累積優勢的論文,因為用了大量的數學表達,所以論文遲遲得不到認可。望俊成等人從信息利用的角度,將“睡美人”被喚醒的過程視為信息喚醒,并總結喚醒的原因包括:信息價值被重新發現,信息的可獲得性、可見度提高,信息需求增加等等。為了弄清上述兩個原因中哪一個影響更大,科爾(Cole)從一項實證分析中發現,依據作者的年齡、所屬機構、獲獎等指標,并不足以從眾多文獻中找出“遲到的認可”的論文,因此,他認為論文的內容比作者的地位的影響更大。

“曇花一現”論文現象產生的第一個原因是技術更替。工程技術領域比人文社會科學領域出現更多的“曇花一現”論文,是因為工程技術領域所使用的技術手段頻繁出現更替。新技術手段的出現導致原有技術手段退出學者們的視野,因此,原有技術手段的相關論文不再或較少被引用?!皶一ㄒ滑F”現象產生的第二個原因是研究主題轉移。學術研究中也存在潮流。研究問題被解決或研究主題過時之后,研究注意力轉向新的主題,舊的主題不再或較少被關注。此外,論文的外在屬性也可能導致“曇花一現”現象的產生。一流期刊是一個強烈的學術信號,能催生快速引用,但并不能保證持續引用。因此,一流期刊比非一流期刊上出現曇花一現的概率更高。

5.討論

學術界對被引次數的關注主要集中在高被引的論文、作者、機構等對象。以“h指數”為代表的指標,忽略了“低被引”與“零被引”論文。對于“睡美人”與“曇花一現”現象研究的意義在于將學術界的注意力吸引到“低被引”或“零被引”論文上?!八廊恕迸c“曇花一現”論文多數是“低被引”論文,沉睡期的“睡美人”也可能是“零被引”論文?!暗捅灰迸c“零被引”論文在學術評價中的價值值得深入挖掘。

對“睡美人”和“曇花一現”論文的研究,關注的都是科學文獻的生命力與老化過程,而不僅僅是被引次數這個數值。從論文的被引曲線中,可以了解科學知識的生命周期與新老更替。從不同類型的被引曲線中,可以了解不同類型知識的生命周期的差異。因此,對論文中的“睡美人”和“曇花一現”現象的研究,可以為我們理解科學規律提供新的注腳。

關于論文的“睡美人”與“曇花一現”現象,進一步的研究應該集中在以下幾方面。

(1)探索引文狀態突變的影響機制。

在“睡美人”現象中,“王子”是誰?布勞溫(Braun)等人認為“王子”應符合以下3個條件,即“公主”沉睡后第一次引用;被引次數相對較高;與“公主”共同被引用達一定的次數的論文。但是,按照這個標準,如果不借助論文所屬領域的專業知識,很難找出唯一的“王子”。在進一步的研究中,“王子”的條件應該更嚴格,更符合學科特性?!巴踝印笔侨绾伟l現“睡美人”的?如孟德爾的同行們是如何發現他的論文《植物雜交實驗》的重要性的,這一問題似乎很難用定量的標準評判,但仍具有重要意義。

在論文的“曇花一現”現象中,學者們為何不約而同地放棄正在熱烈討論的研究主題而轉向新的研究主題?這種默契的影響因素可能包括政策導向轉移、權力干預、產業變革等,具體因素需要在進一步的實證研究中驗證。如果能揭示引文狀態突變的影響機制,就能更清楚地理解科學的運行機制,也能更準確地評判重要研究成果的價值。

(2)改進定量標準。

無參數標準是研究“睡美人”與“曇花一現”現象的趨勢,但當前已有的標準還有待進一步完善?;谄骄蹬c基于分位數的標準都因主觀的閾值設定而存在不足。無參數標準雖然避免了主觀的閾值設定,但在一些細節處理上仍存在不足。例如,柯慶等人的無參數標準只考慮了引文曲線中自論文發表至被引次數峰值的一段,而未考慮峰值過后的變化,那么,如果此后出現更高的峰值是否會改變“睡美人”被喚醒的時間。孫建軍等人的標準并未計算“睡美人”被喚醒的時間。

猜你喜歡
睡美人
《睡美人》
水中睡美人
蘑菇森林
睡美人
寂靜中的斑斕——拉威爾《鵝媽媽組曲》之《睡美人的帕凡舞曲》配器分析
睡美人
睡美人
GO GO SLEEP!睡出水光??!
《睡美人怕什么》等
睡美人(中)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合