?

基于學科期刊耦合強度的學科分類研究

2015-03-26 02:39劉筱敏武麗麗
中國科技期刊研究 2015年9期
關鍵詞:學科分類類目聚類

■張 靜 劉筱敏 武麗麗 馬 娜

中國科學院文獻情報中心北京北四環西路33號 100190

1 引言

如何將期刊進行學科定位,是期刊評估中至關重要的問題,目前解決這個問題的一般方法是依據一種學科分類體系,由相關專家或者工作者進行主觀判斷,對期刊進行學科定位。

學科分類體系是科學知識內在結構的一種外在表現,揭示了科學研究之間內在關聯,具有重要的理論研究意義和現實應用價值。以《中國圖書分類法》(以下簡稱《中圖法》)、《杜威十進分類法》、《美國國會圖書館圖書分類法》為代表的學科分類體系稱之為專家分類體系,是目前應用較廣泛的學科分類體系。專家分類體系是通過各學科領域專家對某一階段科學發展的特點以及科學發展的歷史,對學科之間的關系進行全面梳理、提煉、總結、整理,構建的表達知識之間相關關系的體系。這些專家分類體系廣泛應用于期刊、論文內容揭示,信息組織等各個方面。

專家分類體系解決了建立合適的分類體系的問題,但復雜而多層級的分類體系,是否適用于期刊的分類需求?在實際應用中,除了這些專家分類體系以外,一些機構從實用的角度出發,獨自構建了適用于自身需求的學科體系,例如,Web of Science的ESI數據庫中使用的22個學科類目,JCR-science中使用的179個學科類目,JCR的學科類目沒有層級化的結構,所有的類目之間是平行關系,這種結構更類似于主題類目。一些學者根據學科發展的特點和經驗構建的分類體系,例如Gl?nzel等人[1]在 2003年、Boyack等人[2]在 2005年分別提出的包含15個類目的分類體系。

專家分類體系凝練了人類科學研究的成果及科學研究之間豐富的關系,但從客觀性和科學發展的角度來看,專家分類體系也存在一些弊端。鑒于此,基于客觀的科學計量的學科分類體系和專業領域挖掘的研究應運而生。1936年,Cason和Lubotsky[3]就運用期刊之間的互引關系分析期刊之間的相互關系以及學科領域之間的相互影響。1953年Daniel和Louttit[4]首次在心理學領域運用期刊之間的互引關系矩陣對期刊進行聚類分析。1972年,Narin等人[5]首次根據期刊之間的相互引用關系,研究了從屬于不同學科分類的期刊之間的相互關系。之后,Narin[6]和 Leydesdorff[7-8]又運用了諸如PCA、FA等多元統計分析方法對期刊之間的互引關系進行了自下而上的凝聚式聚類分析,對聚合得到的學科分類體系與現存學科分類體系進行了驗證性研究。2004年,Leydesdorff[9-10]又提出利用 biconnected component analysis等圖論方法對來自JCR的期刊互引圖模型結構進行聚類分析。Leydesdorff等[11]在2008年同樣基于期刊之間的互引關系矩陣對科學結構做了可視化分析,并且在時間維度上研究了科學結構發展變化的趨勢。2010年和2012年,Zhang L等人[12-13]研究了基于期刊互引關系建立的學科分類體系與Gl?nzel等人建立的包含15個類目的專家系統的一致性,同時對現有專家系統的調整和改善給出參考和建議。此外,Robert等人[14]選取特定期刊的文章為研究對象,通過研究期刊文章之間的相互引用關系挖掘相應學科中的研究領域。Chaomei Chen等人[15]分別基于文章之間的相互引用關系和作者之間的相互引用關系對科學結構進行了定量分析,Howard等[16]利用作者之間的互引關系,研究隱藏在作者背后的科學結構的發展變化。

前人的研究說明了在已有學科體系框架下,可以通過互引關系,觀察學科結構的變化,修正已有的分類體系。其次,可以通過互引關系,采用各種聚類方法,形成新的分類體系。當然這種分類體系與專家分析體系比較更為簡單化,體系結構不夠豐滿。但這些研究提供了一個對于期刊分類的很好思路。

本文以中國科學引文數據庫(CSCD)數據為基礎,借助期刊之間耦合強度的計算,在《中圖法》10個自然科學一級類目框架不變的前提下,分析自然科學領域的126個二級類目之間的相關關系所體現出的新特征,通過對多種聚類分析方法進行集成學習(集成學習主要運用經典的多模型投票的策略),對現有的《中圖法》的二級類目進行合并和修正,表達適用于期刊分類的二級分類體系。

2 研究方法

2.1 相關性的度量

引證關系是科學發展規律的表現,體現了科學知識的累積性、連續性和繼承性,能夠在一定程度上反映科學結構的發展變化。本文對于學科分類的研究以期刊之間的相互引用關系為基礎,通過研究期刊之間的相似性反映學科之間的相似性,以求在已有專家分類體系的基礎上,利用引文客觀反映學科之間關系的特征,找到適應期刊特點的合適的分類體系。

文章耦合和同被引是互引關系的兩個方面的表征,是測度互引關系網絡中網絡節點相關性的兩種主要度量方法。耦合的概念最早提出是在1963年,美國麻省理工學院的Kessler教授首次使用“文獻耦合”這一術語描述文獻之間的相關關系[17]。此后,耦合強度逐漸運用在度量互引網絡中期刊之間的相關關系[18-21]以及作者之間的相關關系[22-24]的研究中。同被引的概念最早于1973年由前蘇聯情報學家 Marshakova I[35]和美國情報學家 Henry Small[25]分別提出,用于度量互引網絡中文章之間的兩兩相似性,文獻同被引的概念還被進一步引用到度量期刊之間相關關系的期刊同被引研究[15,26]以及作者同被引研究[14]中。耦合關系和同被引關系分別從互引關系的兩個方向度量了網絡節點之間的相關關系。耦合關系度量了后向的引用關系,反映了一種靜態穩定的相關關系;同被引關系度量了前向的引用關系,反映了一種動態變化的相關關系。從互引網絡的角度,耦合與同被引均為互引網絡中步長為1的相關性度量方法。

盡管側重點不同,期刊耦合強度和期刊同被引強度的強弱均可以反映學科之間的相關關系。相比較學科之間的期刊同被引強度是通過度量相同施引期刊的數量來計算學科之間的相關關系,本文選取學科的期刊耦合強度作為衡量學科之間相關關系的度量方法,通過統計期刊兩兩之間同引期刊的數量度量期刊之間的相似性,從而保證參與分析的期刊所組成的樣本盡可能增大,進而提高后續分析的精確度。

2.2 聚類方法的確定

基于互引行為的學科分類研究的本質在于互引網絡中各個網絡節點的共性與異性分析,而學科分類或者專業研究領域即為這些具有共性的節點所組成的集合的抽象概括,其中尋找共性節點集合的過程也即為聚類分析的過程。前期的研究中,聚類分析的方法可以分為三類,一類是基于多元統計思想的聚類分析方法,諸如主成分分析(因子分析)[7,16,27];一類是利用經典的聚類分析方法,層次聚類[12-14]、最小生成樹[28]等;一類是基于社會網絡建立圖模型的聚類方法[15,21,24,26]?;诙嘣y計思想的聚類分析方法將具有互引關系的節點對分別作為分析特征和分析對象,借助投影的思想將具有相同特征的節點聚集成類,但是類的劃分沒有明確的標準,類成員的選擇也沒有明確的條件,無法形成具有明確層次結構的學科分類體系?;谏鐣W絡建立圖模型的聚類方法主要從圖的角度出發以整個引用網絡作為分析對象,網絡中節點之間的相似度的度量采用超越一步相似的度量方法,可以全面的反映整個互引網絡中各個節點之間的共性和差異,但是此類方法的效果與參與分析的數據質量以及樣本量的大小有很大的關系。經典聚類方法的主要研究對象并非互引網絡,而是互引網絡中的節點所組成的集合。節點之間相似度主要是基于互引關系網絡中的步長為1的相似性度量方法確定,相比較基于社會網絡圖模型結構的聚類方法,經典聚類方法對于原始數據存在利用不充分的問題,但是經典聚類方法不受數據質量以及樣本量大小的限制。

通過研究以上聚類分析領域中的主要方法,針對《中圖法》各個一級類目下的二級類目是小樣本量的特點,所以考慮采用對樣本量要求不嚴格且對原始數據分布沒有預定假設條件的系統聚類方法和分割聚類方法兩大分類體系中的13種方法(表1),并運用機器學習中集成學習的思想,將13種方法的結果進行綜合集成,最大限度的保證聚類結果的有效性和準確度。

表1 聚類算法的選取

3 學科分類實驗和結果

3.1 數據基礎

筆者以中國科學引文數據庫(CSCD)2009—2011年數據為基礎進行計算,該數據集涵蓋1286種期刊,來自93萬篇文章的1250萬余條參考文獻數據。中國科學引文數據庫(CSCD)來源期刊的數量較少,但是引證期刊的數量較大,在度量學科相似度時,相比較學科的期刊同被引強度,學科的期刊耦合強度所覆蓋的期刊數量更大,為了提高研究結果的準確性,采用學科的期刊耦合強度作為度量學科分類之間相似度的方法。此外,中國科學引文數據庫(CSCD)來源期刊的論文均采用《中圖法》,為期刊耦合強度提供了數據基礎。

3.2 期刊耦合強度的計算

(1)統計對象為CSCD 2009—2011年來源文獻及其參考文獻中文獻類型為期刊的數據;

(2)對于中國科學引文數據庫的來源文獻(施引文獻),將其學科分類聚類到《中圖法》的二級類目下;

(3)通過施引文獻與被引文獻之間的相互引用關系形成二級學科類目—期刊組成的鄰接矩陣,為了降低鄰接矩陣的稀疏度,對于每一個學科分類,根據其引用各個期刊的引用頻次截取累積百分比小于80%的期刊作為后續分析的對象;

(4)為了避免各個期刊卷期數量、發文類型、發文量等等因素對被引頻次數據造成的影響,本文將(3)中得到的鄰接矩陣轉化為0-1型矩陣,從而消除以上因素對于期刊耦合強度計算的干擾;

(5)通過計算(4)中0-1型鄰接矩陣中各個學科分類之間的Gower相關系數,將此矩陣轉化為學科分類之間的相似度矩陣;

3.3 基于學科分類的期刊耦合強度的聚類分析

本文對于從屬于同一個一級學科的二級學科分類之間的相似度矩陣分別運用表1中列出的各種方法進行聚類分析。

(1)聚類分析過程

聚類分析是一種無監督式分析方法,最終結果并沒有明確給出類的個數,所以聚類個數的確定對最終結果具有較大的影響。為了減少聚類過程中主觀因素對聚類結果的影響,文章依據 Gap statistic[34]確定最終的聚類個數。以《中圖法》一級類目生物科學(Q類)所包含的17個二級學科類目的聚類過程為例,將Q生物科學所包含的17個二級類目運用DIANA進行聚類分析。聚類個數的Gap統計量的分布圖(見圖1)顯示聚類個數為5類或6類最佳,再對比Gap統計量的取值發現,最優的聚類個數還是6類。

通過系統聚類法DIANA所得到的17個二級類目的聚類譜系圖(見圖2)可以發現,聚類個數為6對應的聚類結果是Q綜合單獨為一類;Q-(Q-0生物科學的理論和方法,Q-1生物科學現狀與發展,Q-3生物科學的研究方法、技術,Q-4生物科學教育與普及,Q-9生物資源調查)與Q2細胞學,Q3遺傳學,Q4生理學,Q5生物化學,Q6生物物理學,Q7分子生物學,Q81生物工程學(生物技術),Q93微生物學為一類;Q1普通生物學,Q94植物學,Q95動物學,Q96昆蟲學聚集成一類;Q91古生物學單獨為一類;Q98人類學單獨為一類;Q89環境生物學單獨為一類。

圖1 Q類17個二級類目基于DIANA的Gap統計量分布圖

圖2 Q類17個二級類目基于DIANA的聚類譜系圖

表2 生物科學(Q類)17個二級類目聚類結果

通過對生物科學(Q類)運用聚類分析發現,許多二級類目之間確實存在高度相關的現象。Q89在《中圖法》中是一個交替類目,根據分類法的規則應歸入X類中,由于在CSCD論文數據中存在Q89的分類,我們遵循基本數據的特征,保留了這個二級類目,通過聚類發現Q89在Q類中保持了獨立性,這種獨立性從另一個方面證明利用互引關系可以說明學科的特征,Q89類期刊引用行為與Q類期刊引用行為存在差異。

(2)修正的《中圖法》自然學科分類體系

通過期刊耦合強度的計算,文章對《中圖法》的自然科學類目體系進行了修正,期望提供一個滿足學科分類發展特征的兼備定性特征和定量特點的學科分類體系。我們發現U(交通運輸)、V(航空、航天)兩個類目期刊數量較少,不適用二級分類體系,僅用一級類目即可。X(環境科學、安全科學)類,除X9以外,其他二級類目的期刊耦合強度極高,均可收斂到一個超級二級類目下。O(數理科學與化學)、P(天文學、地球科學)雖有一定的期刊耦合,但保持了二級類目的獨立性。Q(生物科學)類和S(農業科學)類相比較中圖法的分類體系來說變動比較大,這兩個大類中二級學科分類之間具有較強的相關性,Q類下設15個二級類目收斂為6個二級類目(見表2)。S類下設9個二級類目收斂為5個二級類目,其中S1(農業基礎科學)和S2(農業工程)聚合成一個超級二級類目;S3(農學/農藝學)、S5(農作物)、S6(園藝)和 S4(植物保護)聚合成一個超級二級類目,其他各二級類目保持不變。對Q、S類二級類目收斂的情況,我們又分析了《中圖法》中各二級學科分類的定義,發現二級類目的定義具有相似性,二級類目下設立的交替類目較多,互為交替,因此定性的定義與基于互引關系測度的相關關系具有很大程度的一致性。R(醫藥、衛生)類和T(工程技術)類的變動幅度相對不是特別大,R類中,R4臨床醫學,R5臨床各科兩個類聚合成一個與臨床實踐相關的類;T類中,TF冶金工業,TG金屬學與金屬工藝兩個二級學科分類由于都與金屬具有緊密的聯系所以聚集成一個超級二級學科分類;TN電子技術、通信技術,TP自動化技術、計算技術由于具有較強的交叉性也聚集到一起形成一個超級二級學科分類,其他各個二級類目保持不變。

(3)聚類結果的語義驗證

對《中圖法》自然學科的二級學科分類進行聚類分析的過程中,也發現了個別的與目前的經驗知識存在差異的超級二級學科分類。比如,在對醫藥、衛生(R類)學科進行聚類分析的過程中發現,盡管R74神經病學與精神病學和R76耳鼻咽喉科學兩個二級學科分類在最優聚類個數確定之后并未聚合成一個超級二級學科分類,但是在分析具體的相關矩陣過程中發現,兩個二級學科分類相對于其他的二級學科分類具有較強的相關性。鑒于此,本文將上述存在認知模糊的超級二級學科分類進行文本和語義層面的分析,分析的主要對象為具有耦合關系的施引文獻和被引文獻,主要方法為分別提取以上超級二級學科分類中具有耦合關系的施引文獻對和被引文獻集合的標題和關鍵詞等文本類數據中所包含的研究主題?;谖谋就诰蛑械闹黝}分析模型(LDA),分別對具有耦合關系的施引文獻序列對和被引文獻集合建立主題模型,從而在語義層面分析兩個二級學科分類較強期刊耦合強度的成因,為學科分類的發展研究提供參考。

通過表3可以發現,R74和R76學科具有耦合關系的施引文獻對的研究主題大部分為腦中風之后的吞咽障礙以及相關的吞咽功能障礙、呼吸睡眠障礙等并發癥的研究;被引文獻集合的研究主題與施引文獻對的研究主題基本一致,其研究主題主要集中在腦卒中之后的吞咽障礙,此外還包括耳鼻咽喉等疾病治療過程中的所涉及的神經問題研究。

表3 R74神經病學與精神病學和R76耳鼻咽喉科學耦合研究主題列表

TD和TU兩個學科的耦合研究主題,從施引文獻對方面分析主要集中在建筑科學(TU)中的巖石力學在煤礦建造、煤礦開采、煤礦安全試驗研究以及其他的建筑學理論在煤礦設計環節的理論研究;被引文獻中所包含的研究主題與施引文獻對所提取的研究主題基本吻合,更多的是相關的建筑學、力學等理論在煤礦建造和開采過程中的應用。

綜合以上對兩個超級二級學科分類的文本層面的研究發現,首先,基于期刊耦合強度的研究具有現實的意義,以上兩個超級二級學科分類的主題分析結果都顯示,這些研究主題具有一致性,包含一定的統計規律,即從知識和語義的角度分析,耦合相關性較強的學科在研究內容上具有一致性,有確定的交叉研究出現使得二者出現相關性,運用期刊耦合強度可以反映學科之間的相關關系;再者,在對超級學科分類解釋的過程中,從具有耦合關系的施引文獻對抽取主題與從被引文獻集合抽取主題的解釋能力大致一致,側面反映出具有耦合關系的被引文獻集合具有解釋新生成學科分類的能力。但是相比較被引文獻集合,施引文獻對由于數據量更豐富且包含耦合文獻之間的相關關系所以對新形成學科的解釋力度更強一些;最后,各個學科分類的相關性在不斷發展變化,基于定量分析得到的學科分類反映了科學結構的交叉融合,也在一定程度上反映了科學研究解決現實問題的客觀現實。

表4 TD礦業工程和TU建筑科學耦合研究主題列表

4 結論

科學的迅速發展促使定量描述科學發展規律的科學結構研究不斷的發展,學科分類是科學結構研究中比較重要的組成部分,基于學科之間的期刊耦合強度定量研究學科分類的發展是本文的研究目的。本文在前期研究的基礎上,將定性研究與定量研究綜合于學科分類體系的研究過程中,綜合定量研究和定性研究的優勢,以學科分類之間的期刊耦合強度作為學科之間相似度的度量,借助聚類分析的思想研究學科分類之間的關系??偨Y研究思路和方法,如下:

首先,明確研究方向,本文的學科分類體系研究建立在《中圖法》所確定的專家學科分類體系之上,所研究的學科分類的范圍為分類法所確定的所有10個自然科學的一級分類,分析的結果對于自然科學領域的學科分類具有普遍的適用性。

其次,數據分析基于大樣本量研究的數據來源為中國科學引文數據庫(CSCD),采用期刊的耦合強度充分的保證了足夠的樣本量,最大限度的擴大參與分析的數據量。

第三采用多種數據計算方法。本文對于二級學科分類之間的相關關系研究借助聚類分析的思想,聚類方案的確定充分考慮到了數據的特征、方法的特點,并且借助集成學習的思想保證聚類結果的穩定性和準確度,在分析的基礎上明確的給出了一個符合前期經驗認知同時融合了學科發展知識的修正的學科分類體系。

第四,數據計算與觀察。對其中出現的一些具有認知模糊的超級二級學科分類結果從文本分析的層面,運用主題挖掘的方法給出解釋,并發現以上認知模糊的超級二級學科確實存在一些具有統計學意義的交叉研究點,從而導致兩個學科在耦合行為上具有較強的相似性。最后,在嘗試對超級學科進行解釋過程中,本文也發現基于施引文獻和基于耦合文獻的語義解釋的結果具有一致性,在解釋能力上,施引文獻的解釋能力要更強一些,對于前期研究中如何選取分析對象解釋新得到學科分類的問題給出了論證。期望對后續的學科分類研究和應用提供一定的參考。

本文雖然給出了一個修正的學科分類體系,但是在學科分類的研究方面還存在一些不足之處,比如學科分類相關性的研究并未將整個引文網絡綜合考量;再者,分類依據來自于論文給定的中圖分類號,由于《中圖法》類目結構和分類方法,在使用過程中對類目的理解不同,可能會導致分析會所偏差;最后,不打破一級學科分類體系的研究對于發現新型交叉學科可能存在一些制約。本文期望進一步將互引網絡與文本挖掘、NLP相結合,從引文和語義兩個層面同時研究學科分類體系的發展變化,在發現更大范圍的交叉學科方面進行一些研究,從而更加科學的研究科學結構的發展變化,為科學的發展規律研究提供一定的參考。

[1]Gl?nzelW ,Schubert A.A new classification scheme of science fields and subfields designed for scientometric evaluation purposes[J].Scientometrics,2003,56(3):357-367.

[2]Boyack KW,Klavans R,B?rner K.Mapping the backbone of science[J].Scientometrics,2005,64(3):351-374.

[3]Cason H,Lubotskyl M.The influence and dependence of psychological journals on each other[J].Psychological Bulletin,1936,33(2):95-103.

[4]Daniel R S,Louititi C M.Professional Problems in Psychology[M].New York:Prentice Hall,1953.

[5]Narin F,Carpenter M,Berlt NC.Interrelationships of scientific journals[J].Journal of the American Society for Information Science,1972,23(5):323-331.

[6]Narin F.Evaluative bibliometrics:The use of publication and citation analysis in the evaluation of scientific activity[M].Washington,DC:National Science Foundation,1976.

[7]Leydesdorff L,Cozzen S E.The Delineation Of Specialties in Terms of Journals using the Dynam ic Journal Set of the SCI[J].Scientometrics,1993,26(1):135-156.

[8]Leydesdorff L.Dynam ic and evolutionary updates of classificatory schemes in scientific journal structures[J].Journal of the American Society for Information Science and Technology,2002,53(12):987-994.

[9]Leydesdorff L.Clusters and maps of science journals based on bi-connected graphs in the Journal Citation Reports[J].Journal of Documentation,2004,60(4):371-427.

[10]Leydesdorff L.Top-down decomposition of the Journal Citation Report of the Social Science Citation Index:Graph-and factoranalytical approaches[J].Scientometrics,2004,60(2):159-180.

[11]Leydesdorff L.,Rafols,I.A globalmap of science based on the ISI discipline categories[J].Journal of the American Society for Information Science and Technology,2008,60(2):348-362.

[12]Zhang L,Janssens F,Liang L,et al.Journal cross-citation analysis for validation and improvement of journal-based discipline classification in bibliometric research [J].Scientometrics,2010,82(5):687-706.

[13]張琳,梁立明,劉則淵,等.基于期刊聚類與SOOI分類體系的科學結構研究[J].科學學研究,2012,30(9):14-22.

[14]Braam RR,Moed HF.,van Raan AFJ.Mapping of Science by Combined Co-Citation and Word Analysis.I.Structural Aspects[J],Journal of the American Society for Information Science and Technology,1991,42(4):233-251.

[15]Chen CM,Ibekwe-SanJuan F,Hou JH.The Structure and Dynamicsof Cocitation Clusters:AMultiple-Perspective Cocitation Analysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.

[16]White HD,McCain KW.Visualizing a Discipline:An Author Co-Citation Analysis of Information Science,1972 - 1995[J].Journal of the American Society for Information Science,1998,49(4):327-355.

[17]Kessler MM,Bibliographic coupling between scientific Papers[J].American Documentation,1963,14(1):10-25.

[18]岳增慧,方曙.基于共鏈與共引關系的期刊結構特征比較研究[J].圖書情報知識,2013(5):72-81.

[19]曾倩,楊思洛.國外圖書情報學科知識交流的比較研究——以期刊引證分析為視覺[J].情報理論與實踐,2013,36(10):114-119.

[20]Ni C,Sugimoto C R,Jiang J.Venue-author-coupling:A Measure for Identifying Disciplines Through Author Communities[J].Journal of the American Society for Information Science and Technology,2013,64(2):265-279.

[21]邱均平,劉國微.基于期刊作者耦合的學科知識聚合研究[J].情報雜志,2014,33(4):17-22.

[22]Zhao DZ,Strotmann A.Evolution of Research Activities and Intellectual in Information Science 1996-2005:Introducing Author Bibliographic-Coupling Analysis[J].Journal of the American Society for Information Science and Technology,2008,59(13):2070-2086.

[23]邱均平,董克.作者共現網絡的科學研究結構揭示能力比較研究[J].中國圖書館學報,2013,39(1):15-24.

[24]馬瑞敏,倪超群.作者耦合分析:一種新學科知識結構發現方法的探索性研究[J].中國圖書館學報,2012,38(2):4-11.

[25]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24(4):265-269.

[26]王賢文,劉則淵.基于共被引率分析的期刊分類研究[J].科研管理,2009,30(5):187-195.

[27]Leydesdorff L.Can Scientific Journals be Classified in term of Aggregated Journal-Journal Citation Relations using the Journal Citation Reports[J].Journal of the American Society of Information and Technology,2006,57(5):601-603.

[28]Chang YF,Chen CM.Classification and Visualization of the Social Science Network by the M inimum Span Clustering Method[J].Journal of the American Society for Information Science and Technology,201162(8):2404-2413.

[29]Hartigan JA,Wong MA.A K-means clustering algorithm[J].Applied Statistics,1979,28(1):100-108.

[30]MacQueen J.Some methods for classification and analysis of multivariate observations[C].Proceedingsof the Fifth Berkeley Symposium on Mathematical Statistics and Probability,Calif:University of California Press,Berkeley,1967:281-297.

[31]Reynolds A,Richards G,de la Iglesia B,et al.Clustering rules:A comparison of partitioning and hierarchical clustering algorithms[J].Journal of Mathematical Modelling and Algorithms,1992,5(4):475-504.

[32]Everitt B.Cluster Analysis[M].London: Heinemann Educ.1974.

[33]Kaufman L,Rousseeuw PJ.Finding Groups in Data: An Introduction to Cluster Analysis[M ].New York:W iley,1990.

[34]Tibshirani R,Walther G,Hastie T.Estimating the number of data clusters via the Gap statistic[J].Journal of the Royal Statistical Society B,2001,63(2):411-423.

[35]Marshakova Shaikevich I.System of Document Connections Based on References[J].Scientific and Technical Information Serial of VINITI,1973,6(2):3-8.

猜你喜歡
學科分類類目聚類
本期練習題類目參考答案及提示
CLC與LCC類目同現映射方法研究
——以圖情領域為例*
基于K-means聚類的車-地無線通信場強研究
高校二級學院科研管理模式研究
審計學成為一級學科可行性研究
基于高斯混合聚類的陣列干涉SAR三維成像
《中圖法》(5版)“K歷史、地理”大類的修訂
中醫藥信息學教育發展歷程回顧與學科發展現狀分析
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合