?

k-means聚類算法的知識擴散對比研究

2023-08-26 04:57羅欣怡
電腦知識與技術 2023年19期
關鍵詞:對比分析管理學經濟學

羅欣怡

關鍵詞:k-means聚類算法;知識擴散;圖書情報學;管理學;經濟學;對比分析

0 引言

知識擴散最早于1924年由美國科學家Learned[1]在《美國公共圖書館與知識擴散》一書中提出。陳超美等[2]將基于引文分析的知識擴散定義為知識在科學文獻與專利中的應用和發展。在信息化社會,知識發展生產、創新轉化的重要作用日益顯著,知識擴散作為知識生產和傳播的重要組成部分,在知識創新過程中發揮著重要作用[3]。

國內外學者從不同視角對知識擴散進行了大量研究,其中用基于引文分析的文獻計量方法來定量研究知識擴散現象持續升溫,相比國外研究傾向于計量指標的創新,如Liu和Rousseau定義了學科知識擴散廣度(Field Diffusion Breadth) 和擴散強度(Field Diffu? sion Intensity) [4]。國內學者更注重于實證分析,陳吉雨[5]采用LDA主題模型方法,基于語義層次提取并分析主題詞,了解圖情領域和新聞傳播學間知識擴散情況。王立梅[6]基于引文內容構建有向網絡,研究老子思想在海外的知識擴散和發展脈絡。朱猛男等[7]基于Bass模型進行參數估計,預測學科未來發展趨勢,驗證是否擬合S型曲線。

現有實證研究主要對學科領域使用引文分析的方法為研究單元,宏觀分析某一學科向其他學科擴散情況,而針對某一具體知識在不同領域的擴散比較研究較少。k-means聚類算法作為數據挖掘領域的十大經典算法之一,在眾多領域都得到了廣泛應用,研究其在不同領域的擴散差異是有意義的。本文根據創新擴散理論,從知識擴散的過程角度,采用時序分析方法,以k-means聚類算法為具體知識實例,結合擴散指標,分析其在圖情學、管理學和經濟學領域的知識擴散差異,有利于了解各學科目前對k-means的吸收程度和不同的發展方向,能夠為分析具體知識在學科間的擴散情況提供借鑒參考。

1 研究綜述

1.1 創新擴散理論

創新擴散理論最早由Rogers 提出[8],通過對人類學、社會學、傳播學、經濟學等領域的實證分析得出:成功擴散的過程呈現鐘形正態曲線,創新的累積采納人數呈S形曲線分布。創新擴散理論的主要概念包括:采納速度、采納加速度、一階拐點和二階拐點。其中,采納速度就是某時刻新增采納者的數量;采納加速度就是某時刻擴散速度的變化量;一階拐點就是采納速度最大的點,此時的采納數約占最終采納數的50%,新增采納數最大;二階拐點就是采納加速度最大的點,擴散在此時達到臨界值,此后采納加速度放緩,但仍處于增長階段,二階拐點可用于預測知識是否成功擴散。

1.2 知識擴散研究

學術創新的擴散就是學術領域新知識的擴散[9]。從知識擴散的方向來看,知識擴散分為單向和雙向,通常從知識單元角度進行統計,知識單元主要有文獻、作者、期刊、學科等[10]。其中基于單篇文獻的研究是單向的,其余研究單元的擴散過程均為雙向?,F有實證研究主要以學科為知識擴散的單元,把文獻作為研究最細力度的分析對象,著重基礎理論研究,構建知識擴散相關評價指標,描述擴散的基本特征進行定量分析,以了解知識在其他領域的擴散情況。國外對于知識擴散研究起步較早,注重計量指標的創新。相比之下,國內學者多進行實證分析。

首先,通過擴散指標研究知識擴散情況是必備步驟。2002年Rowlands首次提出了以期刊為知識擴散的單元的期刊擴散指數(Rowlands Diffusion Index) [11]。Liu和Rousseau[4]基于 ESI 的學科分類定義了“學科知識擴散廣度”(Field Diffusion Breadth) 和“學科知識擴散強度”(Field Diffusion Intensity) ,“廣度”和“強度”分別從覆蓋范圍和采納頻次的角度描述擴散過程[10]。國內對學科知識擴散的研究,主要基于學者宋歌定義的相關擴散指標[9]。他將擴散廣度(diffusion breadth) 和擴散強度(diffusion strength) 分別定義為:采納某創新的研究領域數量和關于某創新的知識信息從一個研究領域到另一個研究領域的流量,用創新采納學科對源發學科知識的引用次數來衡量;擴散速度(diffusion rate) 指一段時間間隔內,新增的知識采納量;擴散加速度(diffusion acceleration) 指一段時間間隔內,擴散速度的變化量;擴散延時(diffusion delay) 指從知識在源發領域的提出到其他領域的應用必然存在的時間差。

此外,深入到研究內容進行知識擴散研究也是必要的。目前基于引文的知識擴散主要利用小世界、引文網絡和主路徑分析等方法,進行基于特征、基于路徑和基于測度的研究[12]。趙星等通過構建引文網絡,定量刻畫我國文科領域的知識擴散并將結果可視化[13]。但是已有知識擴散研究多是針對某個領域的擴散特征進行分析,而針對某一具體知識在不同領域的擴散情況研究相對較少。宋歌根據創新擴散理論結合分析時間流的主路徑分析方法,進行了具體知識擴散實證研究,根據擴散速度和加速度,創造性地將擴散分為四個階段[9],此后又通過繪制主題圖,細分擴散階段探究共被引分析方法在各學科的創新迭代[14]。孟文靜等[15]從工具視角展現了特定學科應用軟件解決學科問題的進程。朱猛男等[7]運用創新擴散理論分析同領域不同軟件擴散過程。

1.3 k-means 算法

k-means 算法由Mac Queen[16] 在1967 年首次提出,是一種無監督學習,同時也是基于劃分的聚類算法[17]。他給出了k-means算法的詳細步驟,并用數學方法進行了證明。初始需確定簇的個數k,通過計算每個數據點到質心的距離(通常使用歐氏距離),選擇距離最小的質心對應的簇作為該數據點的劃分,基于該劃分過程后更新簇的質心。如此迭代,直至各個簇的質心不再變化即算法收斂為止。

由于k-means算法原理簡單,實現方便,聚類效果好,模型可解釋性強等優點,成功應用于文檔聚類[18]、客戶細分[19]、異常數據檢測[20]、圖像分割[21]等眾多任務,在2006年ICDM大會上被票選為數據挖掘領域的十大經典算法第二,廣受各領域學者的青睞。但k- means算法也存在一些缺陷與不足,比如聚類結果嚴重依賴于簇中心的初始化、聚類效果對噪聲敏感、聚類可能陷入局部最優解、聚類個數如何確定等,各領域的眾多學者不斷對k-means進行改進[22-24]。

2 研究設計和實驗數據

2.1 研究思路

本文從擴散指標和研究主題兩個方面來研究具體知識k-means聚類算法在不同領域的擴散差異(圖1) 。首先,通過計算多個擴散指標,繪制擴散曲線,對k-means整體擴散和其在選定的幾個學科中的擴散情況進行縱向時序分析包括擴散廣度、擴散強度、擴散階段,以此了解所處擴散階段。依據k-means在源發領域提出的時間和不同領域首次采納k-means的時間,計算擴散延時,橫向比較各學科采納k-means的起步先后順序。然后,利用VOSviewer軟件進行共詞聚類,繪制各學科不同擴散階段的研究主題圖,從主題層面探究各學科擴散發展異同。最后,通過將知識擴散主題演變與學科論文形式的研究成果相結合,分析知識擴散趨勢的原因,進行擴散對比,總結擴散指標與擴散趨勢的變化關系。

2.2 數據獲取及預處理

根據《學位授予和人才培養學科目錄》[25](2018年版),圖書情報與檔案管理屬于管理學下設的一級學科,管理學和經濟學聯系緊密,因此本研究選取圖書情報學領域,以及同屬于管理類的管理學和相關的經濟學,作為實證分析領域。

選取Web of Science(以下簡稱WOS) 核心合集的SCI-EXPANDED和SSCI數據庫作為數據源,采用高級檢索,在“Topic”字段輸入檢索詞“k-means”OR “kmeans”以保證檢全率和檢準率,文獻類型設定為“Article”,時間跨度為1967年至2021年,檢索時間為2m0e2a3ns年在2所月有1學日科,的命研中究文題獻錄數,獲1取8 2的75數篇據,均這為些不是帶k引-文關系的Excel格式數據。進一步地,以WOS學科分類為依據,修改檢索式,Web of Science Categories字段分別設定為“Information Science & Library Science”“Management”“Economics”分別獲取k-means 在圖情學、管理學、經濟學的題錄數據97條、610條和115條。

通過對原始數據集進行探查,發現存在兩條Early Access晚于正式出版年份的異常題錄數據,論文分別于2017年和2021年正式出版,但在線發表時間為2020年和2022年。經查閱,此處為確保研究成果擴散的時效性不作處理。至此,將上述18275條題錄作為實驗數據集。

3 實證與結果

3.1 k-means 算法擴散廣度及強度

首先計算擴散廣度,了解采納k-means的學科數量和知識擴散的總體趨勢,通過分析k-means在不同學科的領域分布,檢驗擴散是否服從冪律分布。然后通過比較擴散強度,分析不同領域吸收知識的體量,與后續的擴散階段分析互為印證。

k-means在諸多領域均有應用的引證文獻,只考慮領域論文占比大于0.1%的學科,擴散廣度為168,可體現k-means算法應用于各領域的普適性。繪制散點圖(圖2) ,使用擴散強度驗證k-means在各領域的擴散服從冪律分布,即:k-means在極少數的學科領域完成了極大規模的擴散,而絕大部分的學科領域對其吸收較少。本研究選取的圖情學、管理學和經濟學擴散強度均小于1000,位于冪律曲線的“長尾”部分,數據量相近,表明學科間知識擴散情況具有可比性。

3.2 k-means 算法擴散曲線

根據擴散加速度劃分擴散階段,確定各領域目前所處的擴散階段,據此預測未來知識擴散走向,同時參考整體擴散情況與之進行比較。其中擴散速度以各學科每年應用k-means 算法的論文數計算,累積文獻數形成擴散曲線。

首先,利用擴散速度繪制各學科擴散曲線(圖3) 。根據曲線識別得到各領域目前均處于起飛階段,圖情學、管理學、經濟學在擴散階段的文獻數分別為51篇、79篇、15篇,起步階段的文獻數分別為46篇、531篇、100篇。各學科擴散曲線進入各個擴散階段均滯后于總擴散階段??傮w擴散于1991年進入起飛階段,管理學、經濟學和圖情學于 2009 年、2013年和2017 年先后進入起飛階段,成熟階段和衰退階段均未顯現??梢灶A測未來幾年,三個學科均會產出大量相關研究成果。

其次,通過識別二階拐點,將起飛階段劃分為兩個階段論述。經濟學和圖情學分別于2013年和2017 年達到二階拐點,恰為進入起飛階段的年份,表明k-means 在兩個學科的擴散一經進入起飛階段就跨越了拐點,進入加速迭代期[14]。由于達到了臨界值,其累積成果數在時間軸上將形成 S 形曲線,可以預見k-means 算法在經濟學和圖情學將實現成功擴散。而總體擴散和管理學的擴散加速度在2021年最大,此后擴散加速度是否繼續增大猶未可知,故擴散曲線暫未出現二階拐點,表明這兩個學科的知識擴散的累積采納數未達到臨界值,是否成功擴散也有待探究。此外,由于各學科的擴散速度仍在不斷增長,無法判斷何時到達 S 型曲線的一階拐點??偨Y上述情況,得到表1。

3.3 k-means 算法擴散主題識別

利用VOSviewer軟件[26]對題錄數據中的標題和摘要基于共詞進行聚類,并通過自定義同義詞詞典合并同義關鍵詞,分別繪制起步階段和起飛階段研究主題圖,探究各學科知識擴散的異同。

3.3.1 k-means 算法在圖情學的擴散主題識別

利用獲取的97條圖情學題錄數據,設置共詞閾值為3,自定義同義詞詞典,例如:將principal component amneaalnyssi聚s和類P算C法A在視圖為情同學義的詞起,步基階于段共和詞起聚飛類階得段到的k研-究主題。

得到k-means聚類算法在圖情學的起步階段包含4個研究主題、61個關鍵詞(圖4) 。研究主題1包括的關鍵詞有:time、accuracy、profile、service等。研究主題2包括的關鍵詞有:test、sample、behaviour、health 等。研究主題3包括的關鍵詞有:experimental result、algorithm、effectiveness、retrieval、combination 等,主要是對具體研究過程的描述。研究主題4包括的關鍵詞有:principal component analysis、comparison等,主要是將k-means算法與主成分分析等方法相結合,構建優化模型,同時通過對多種聚類算法的對比分析,探究各自的優劣,該主題可總結為“算法優化”。此外,各主題均將算法應用于實際場景,獲取用戶健康信息,分析用戶行為,有關信息檢索和確定用戶畫像的部分研究對k-means算法也有所涉及。

基于共詞聚類得到k-means聚類算法在圖情學的起飛階段包含4個研究主題、63個關鍵詞(圖5) 。研究主題1包括的關鍵詞有:experimental result、effec? tiveness、similarity、vector space、K-NN、identification、sentiment analysis等,除了對k-means類間相似度和聚類效果的評估外,還將其與其他聚類算法如K-NN進行比較,結合向量空間模型創新算法和進行情感分析。研究主題2包括的關鍵詞有:quality、profile、ser? vice、internet等,主要對領域內不同對象進行實例分析,重視提升服務水平和產品質量。研究主題3包括的關鍵詞有:core、correlation等,聚焦互聯網信息和商業物聯網核心知識產權。研究主題4包括的關鍵詞有:company、social network analysis、empirical analysis 等,主要進行社會網絡的實證分析,注重企業建設??傮w來說,起飛階段利用算法對具體實例的分析相比前一階段增加,各主題對此均有涉及,文檔聚類的成果采納數較多,這與圖情學的傳統研究方法多為基于引文的計量分析有關。

3.3.2 k-means 算法在管理學的擴散主題識別

利用獲取的610條管理學題錄數據,自定義同義詞詞典,例如:將GAs和genetic algorithm、ANN和arti? ficial neural network 視為同義詞,基于共詞聚類得到k-means聚類算法在管理學的起步階段和起飛階段的研究主題。

將k-means聚類算法在管理學起步階段的共詞閾值設置為3,獲得4個研究主題、71個關鍵詞(圖6) 。

研究主題1 包括的關鍵詞有:anova、consumer、firm、product、service、supply chain 等,利用方差分析進行聚類檢驗,同時將模型應用于領域實例,從公司、消費者、產品、服務和供應鏈多角度進行分析,可總結為“應用場景”。研究主題2包括的關鍵詞有:complex? ity、robustness、ability、accuracy、computational time、Monte Carlo simulation 等,主要從模型復雜度、準確性、魯棒性、時間復雜度等指標對算法進行評價,使用蒙特卡洛方法模擬數據,可總結為“算法分析”。研究主題3包括的關鍵詞有:artificial neutral network、som network、combination、costumer、market segmentation等,主要描述了知識擴散與其他學科結合的相關主題,應用人工神經網絡中的相關算法如:SOM自組織映射網絡,以提高模型效果。另外在實際應用方面,主要將k-means算法用于解決市場劃分問題,該主題可總結為“算法優化與應用”。研究主題4包括的關鍵詞有:anneal? ing、distance、fuzzy-c、optimal solution、outlier等,將k-means與模糊c-均值等聚類算法比較分析,探究各自的優劣,運用模擬退火算法,關注聚類結果的離群點,尋找目標函數全局最優解。

將k-means聚類算法在管理學的起飛階段的共詞閾值設置為14,自定義同義詞詞典,例如:將particle swarm op? tmimacizhaitnieon視和為P同SO義、詞svm,獲和得su3p個po主rt 題ve、ct8o5r 個關鍵詞(圖7) 。研究主題1包括的關鍵詞有:case study、company、cost、de? lmatainodn、shpirpod等uc,t主、s要erv描ic述e、了ide實nt例ific分at析ion的、r主e?題方向,總結為“應用場景”。研究主題t2er包、c括en的tro關id、鍵di詞sta有nce:、imiteprraotvieomn、epnot、incte no?f innetteirce aslt、gopraitrhtimcl、em sawcahrimne o lpetairmniiznagti等on。、g為e?提高算法的魯棒性,一方面從算法原理出發,關注特征和中心點的選取,重點討論中心簇距離這一參數;另一方面,在前一階段的基礎上,進一步與人工智能算法如:粒子群優化算法、遺傳算法結合,還吸收了機器學習方法進一步提高模型性能。研究主題2可總結為“算法優化”。研究主題3 包括的關鍵詞有:image-based embedded wireless sen? tsuorre 、nsevtmwo、rdkest、ecsteiolfn-、oerxgpanerizt isnygs temma、ps、enfesai?? tivity、accuracy等,涵蓋了具體案例的分析主題,建立完善專家體系,著重追蹤和挖掘用戶興趣點,以實現智能推薦來最大化用戶潛在信息價值。此外,利用準確率、靈敏度等指標評價聚類效果和穩定性。該主題可總結為“算法評價與應用”。有了更優算法作為理論支撐,案例分析的論文體量增大,研究方向趨向多樣化,對產品等前期較少或未涉及的主體研究增加,更加關注主體間的關系。結合管理學學科演進過程可知,早在1996年進入知識經濟時代便提出了知識管理的理念,管理學發展立足于創新、戰略、承諾等關鍵詞[27],故在起步階段便將算法與其他學科知識融合創新。近年用k-means算法進行分析建模在房地產、營銷等行業廣受青睞,因此k-means 算法在管理學擴散的主題變化與學科演變趨勢相符。

3.3.3 k-means 算法在經濟學的擴散主題識別

利用獲取的115條經濟學題錄數據,自定義同義詞詞典,例如:將 activity 和 choice 均視為 activity choice,基于共詞聚類得到k-means聚類算法在經濟學的起步階段和起飛階段的研究主題。

將k-means聚類算法在經濟學的起步階段的共詞閾值設置為2,獲得3 個研究主題、25 個關鍵詞(圖8) 。

研究主題1包括的關鍵詞有:difference、time、stu? dent等,研究主題2包括的關鍵詞有:activity choice、group 等,研究主題3 包括的關鍵詞有:cdm project、similarity等。各主題沒有對算法特定方面的集中描述,都涉及算法分析和少量的實例分析。經濟學對k- means的吸收時間最晚,在起步階段研究成果較少,主題也相比更為單一,停留在算法本身的時間效率、分類效果、組間差異等方面進行研究。少量實例研究圍繞學生和清潔發展機制主體,k-means算法常應用于活動選擇模型的構建過程。主題識別結果可由經濟學研究熱點得到印證,起步階段應用k-means原始算法完成具體場景的分類研究,如:金融系統風險狀態分類[28]、作物管理分區研究[29]等,并引入評價指標,對結果進行了比較和評價。

將k-means聚類算法在經濟學起飛階段的共詞閾值設置為4,獲得5個研究主題、74個關鍵詞(圖9) 。研究主題1 包括的關鍵詞有:behaviour、consumer、product、market、quality、willingness 等,主要是在實際案例中對不同主體的討論,關注客戶需求和購買意愿、調研市場、把關產品質量。研究主題2包括的關鍵詞有:PCA、time,將主成分分析與k-means 相結合。研究主題3包括的關鍵詞有:efficiency、evaluation等,主要是對算法執行效率的評估,可總結為“算法分析”。研究主題4包括的關鍵詞有:algorithm、estima? tion、index等,除了評價模型算法外,將算法模型與經濟學指標相結合,進行定量分析。研究主題5包括的關鍵詞有:case study、China、region、density、recommen? dation等,主要是對案例分析中數據來源和研究對象的描述,市場研究類型多為跨區域市場,以區域為單位的分析過程中考慮人口密度因素,研究主題1和5 可總結為“案例分析”。進入該階段后,除了對原算法的深入探討,主要將算法應用于實際案例,與前一階段相比,應用場景進一步豐富。

3.4 k-means 算法在不同學科的擴散對比分析

橫向比較各學科知識擴散主題層面的擴散趨勢和相同階段下的異同,可分析得到三個學科在吸收知識和發展路徑的共性和特點。

1) k-means 聚類算法在圖書情報學、管理學、經濟學三個學科的相同點分析。各學科在起步階段大多停留在對原始k-means算法的應用和效果評估,進入起飛階段后,通過吸納、整合多學科已有理論、方法與技術,提出改進算法和優化模型,結合領域具體實例進行研究分析,而且在起飛階段均包含服務、公司等主題詞。

2) k-means 聚類算法在圖書情報學、管理學、經濟學三個學科的不同點分析。首先,根據學科發展方向主題脈絡可知,對信息的獲取處理和再利用是圖情學的核心知識及發展方向,共詞聚類得到的關鍵詞“信息”“網絡”等是圖情學相比其他兩個學科的特有關鍵詞,也是該學科的研究熱點[30],可見知識擴散沿襲本學科的主流研究主題且存在一定的后效性。但相比其他兩個學科,缺乏跨學科實現知識迭代創新。其次,圖情學在起步階段的研究主題與經濟學類似,多是基于原始算法的應用分析。而前者相比更注重對算法效率的討論和模型的構建。猜想可能由于經濟學擴散延時晚于圖情學,期間知識本身也進一步發展,對原始算法的討論減少,創新采納學科對知識的應用更為成熟。此外,相比其他兩個學科,經濟學在起步階段共詞聚類效果較差,主題間存在交叉,說明該階段研究主題較為分散。圖情學和經濟學一經進入起飛階段,對k-means算法的創新迭代就迅速增加,但對知識采納二次創新的發展路徑大相徑庭。圖情學對知識的二次創新相比其他學科“后勁不足”——研究主題關鍵詞的豐富度無明顯增長,且對知識的吸收情況與前一階段相似。最后,管理學的主題關鍵詞數在起步階段和起飛階段都顯著多于其他兩個學科,且基于原始算法結合實際應用場景進行了較多改進,其中不乏融合多領域知識的跨學科知識交叉現象??梢妅-means 算法在該領域的研究成果最豐富,擴散效果最佳。

4 結論與展望

為比較k-means算法在圖情學、管理學、經濟學的擴散情況,本文首先從擴散指標的角度定量探究知識擴散的特點,然后基于創新擴散理論,繪制擴散曲線,比較各學科所處的擴散階段,預測k-means在各學科未來的擴散趨勢,最后繪制共詞聚類主題圖,在主題層面上定性比較分析各學科采納k-means的異同,試圖為各學科吸收融合知識進行創新迭代提供參考建議,并得出以下結論。首先,知識擴散跨學科程度越高,創新迭代效果越好。圖情學相比其他兩個學科在各擴散階段的研究主題豐富度較低,缺乏對k- means算法的二次創新。擴散延時越大,學科對知識的吸收應用成熟程度越高。經濟學擴散延時最大,在起步階段對算法原理的研究相對其他兩個學科較少,多為實例分析。其次,知識擴散的再轉化程度和該學科的知識擴散強度成正比。管理學采納k-means算法的成果數和主題數都顯著多于其他兩個學科,綜合人工智能等新興技術成果和領域需求對算法進行了優化改進,基于算法的實例分析更為深入、涉及更廣。最后,本研究的三個學科采納k-means的成果數都處于高速增長期,為促進學科迭代創新,未來研究要凝練學科內涵,積極拓展學科外延,學科間互學互鑒,加強學科交叉,將理論成果應用于實際。目前對各學科具體擴散情況的主題對比分析中,主要基于共詞聚類,缺少深入主題語義的挖掘,未來研究將結合語義信息探究知識擴散的異同。

猜你喜歡
對比分析管理學經濟學
移民與健康經濟學
“天人合一”的管理學啟示
張瑞敏金句背后的管理學知識
淺談管理學
經濟學
聯邦快遞的管理學
經濟學的優雅
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合