?

科學文獻主題建模方法及其效果評估研究

2024-04-14 02:10逯萬輝
現代情報 2024年4期

逯萬輝

關鍵詞:主題建模;LDA;Top2vec;Bertopic;科學文獻;主題識別

科學文獻是科學知識傳播與交流的重要載體和媒介,其中蘊含著豐富的語義信息和主題信息,基于特定領域的文獻數據集,挖掘和識別其中的研究主題并對其進行有效的知識關聯和主題表示,是揭示領域知識演化脈絡、探測領域研究前沿的一項基礎工作。許多學者從不同角度對科學文獻主題挖掘方法與應用進行了研究和探索,通過對科學文獻的內容特征、引文網絡、語義信息等不同維度信息的挖掘與計算,實現了科學文獻的文本聚類與主題抽取,以輔助科研人員快速把握領域研究現狀和趨勢,提升科研效率。目前,科學文獻主題挖掘技術已成為情報學與情報分析方法領域的重要技術基礎,在研究前沿探測、技術主題演化分析、新興研究領域主題結構挖掘、知識組織與知識圖譜構建、學術評價與推薦研究等方面均表現出廣闊的應用前景??茖W文獻主題挖掘方法主要來源于計算機領域的主題建模技術,該技術是一種較為通用的文本特征計算與隱性知識挖掘方法,主要應用于非結構化數據處理與分析之中。近年來,隨著深度學習算法的不斷發展和大語言模型技術的廣泛應用,Doc2vec、BERT等新的文本特征計算方法的出現為主題建模技術提供了新的實現途徑,隨之出現的Top2Vec.BERTopic等新興主題建模工具,為科學文獻主題建模提供了新的解決方案。相較于傳統主題建模方法(如LDA主題模型),新興主題建模方法在文本特征計算過程和主題建模結果上均存在較大的差異性。研究和對比不同主題建模方法的算法特點及其在科學文獻主題識別上的結果差異與優勢表現,是針對研究目標科學選擇主題建模方法開展主題挖掘實踐與應用的重要前提?;诖?,本文聚焦科學文獻主題建模方法的主題識別效果評估視角展開實驗研究,通過對不同類型主題建模技術的算法特點和建模效果進行對比分析,以期為科學文獻主題挖掘在不同應用場景中選擇合適的主題建模技術提供科學支撐。

1科學文獻主題建模研究現狀

1.1主題建模技術研究現狀

主題建模(Topic Modeling)最早產生并應用于信息檢索和自然語言處理領域,是一種數據降維和特征抽取技術,該技術引入了主題這一概念,通過掃描一組文檔并檢測其中的單詞和短語模式,將文檔集合中的詞語規約到主題維度,從而達到高維數據降維的目的,同時主題中也包含了文檔及其詞語的潛在語義信息,因此具備更強的語義表達能力。LSA(Latent Semantic Analysis,潛在語義分析)、pL-SA(Probabilistic Latent Semantic Analysis.概率潛在語義分析)和LDA(Latent Dirichlet Alocation,隱含狄利克雷分布)等都是較為常用的主題建模方法。近年來,隨著深度學習算法與大語言模型的快速發展,新興主題建模技術如Top2Vec和BERTopic等也廣泛應用于文本主題挖掘過程。

潛在語義分析(LSA),也稱作潛在語義索引(Latent Semantic Indexing,LSI),是一種較為簡單的主題建模技術,該技術最初主要用于解決語義檢索領域中一詞多義問題。潛在語義分析利用詞語的上下文信息,可以捕獲隱藏的概念或主題,操作過程中通過奇異值分解(SVD)技術將任意矩陣分解為3個獨立矩陣的乘積:M=UxSxV,其中S是矩陣M的奇異值對角矩陣。通過LSA技術將原始的文本矩陣處理后提取出k維語義空間,在保留大部分信息的同時,使得k值遠小于文檔和詞語維度,這樣用低維詞條、文本向量代替原始的空間向量,可以有效地處理大規模文本語料庫。但是由于LSA技術將文檔中的每一個詞映射為潛在語義空間中的一個點,并沒有很好地區分和解決多詞一義的問題.因此,近年來不少學者也針對此問題進行了改進。Kim S等在此基礎上結合深度學習算法提出了一種新的主題建模方法,即利用Word2vec捕獲和表示語料庫上下文信息的特性,構建了基于Word2vec的潛在語義分析方法(W2V-LSA)。概率潛在語義分析(pLSA)最初是Hofmann T在潛在語義分析(LSA)的基礎上提出的一種新的主題建模方法,該方法使用概率模型來衡量文檔、潛在語義、詞語三者之間的關系,與潛在語義分析方法相比,pLSA中的多義詞和同義詞均可在潛在語義空間中得到合理的表示。

LDA主題模型是在概率潛在語義分析的基礎上又進一步衍生出的主題建模技術,該模型為三層貝葉斯概率模型,包含“文檔一主題一詞”三層結構,實現了對文檔中隱含主題建模,并且考慮了上下文語義之間的關系。其中,主題即詞匯表上詞語的條件概率分布,與主題關系越密切的詞語,它的條件概率越大,反之則越小。LDA主題模型被提出以來,在文本分類、文本聚類、查詢檢索、話題檢測與追蹤、學術文獻挖掘、時態文本流分析等眾多領域產生了廣泛且深入的應用,已成為處理篇章級文本數據挖掘的重要工具。同時,隨著研究的不斷深入,研究人員對LDA主題模型的研究和應用也在不斷拓展,例如利用文檔作者與文章內容間的關系衍生出了作者主題模型(Author Topic Model,ATM)、通過對主題間的關系建模衍生出了相關主題模型(Correlated Topic Model,CTM) cis],以及考慮主題的時序動態演化因素所提出的動態主題模型(Dynamic Topic Model,

DTM)等。

近年來,深度學習算法與大語言模型的融合與應用不斷拓展,衍生出了Top2Vec、BERTopic等基于預訓練詞嵌入算法的主題建模技術。這類方法首先通過嵌入(Embedding)模型(如Word2Vec、Doc2Vec、BERT等)計算出文檔和詞語的向量表示,然后把它們嵌入到同一個語義空間中進行相關計算。例如,Top2Vec模型使用Doc2Vec等算法在同一向量空間中訓練詞向量和文檔向量,構造出在特定主題以及上下文環境中的詞向量,能夠在大型數據集和非常獨特的詞匯表中生成更加準確的主題向量。BERTopic采用基于BERT的深度學習預訓練模型,通過Sentence-Transformers等嵌入模型和c-TF-IDF算法對句子進行編碼和計算,實現了語義層面上的文檔主題聚類與主題表示,相較于LDA主題模型等主題建模技術,BERTopic在NPMI(Nor-malized Pointwise Mutual Information)指標上能夠表現出更好的主題識別效果。

1.2科學文獻主題建模及其應用現狀

科學文獻主題建模一直是情報研究與知識發現領域的研究熱點,特別是基于大規??茖W文獻的研究主題探測和前沿識別成為近年來情報學領域的重要研究方向。在科學文獻的主題建模過程中,主題由具有同樣研究基礎的一組文章構成,對科學文獻的主題建模實際上也就是通過科學文獻聚類并自動抽取類別標簽的過程。目前,眾多學者在此領域開展了大量工作,并且在實踐中已經拓展出廣泛應用,國際大型數據庫商愛斯維爾開發的SciVal工具在主題創建過程中,對旗下的Scopus數據庫中論文和參考文獻進行聚類后,識別形成了全域微觀主題及其顯著性指標排序,為探測全域研究前沿提供了重要的數據支撐。

在學術界,從方法論層面研究主題建模技術在科學文獻知識挖掘上的應用,并用之探索特定領域的科學研究趨勢,是當前國內外學者們關注的焦點,基于LDA主題模型的領域主題抽取與研究趨勢分析是當前學者們主要采用的方法。如Palanichamy Y等基于LDA主題模型探析國際環境科學與工程領域的主要研究趨勢和區域差異:王日芬等基于LDA主題模型比較分析了主題模型方法在全局主題和學科主題抽取中所存在的差異:Daud A等構建了基于LDA主題模型的群體層面的主題建模方法并進行了會議信息挖掘。隨著深度學習算法的興起,陳翔等通過引入分段線性表示方法和Word2Vec模型構建了動態關鍵詞語義網絡,在此基礎上利用社區發現算法識別動態網絡中的社區來表征主題,實現了信息科學領域的主題演化路徑識別,并在基于專家意見構建的領域“主題一關鍵詞”標準集上與LDA主題模型等方法對識別出的主題詞集合的差異性進行了對比。

在科學文獻主題建模及其效果評價方面,關鵬等通過對不同語料下基于LDA主題模型的科學文獻主題抽取效果進行分析,采用查全率、查準率、F值以及信息熵等定量指標對主題抽取效果進行評價后發現,摘要作為語料的LDA主題抽取的效果要優于單純使用關鍵詞作為語料的主題建模。隨著主題模型使用范圍的不斷擴大,有關主題模型建模效果評價的指標也不斷豐富,為科學使用主題建模工具、優化主題建模過程和評估主題建模效果等提供了極大的便利,但是在科學文獻主題建模的應用效果評估方面,尚未形成統一客觀的評價方法與評價準則。近年來,以LDA主題模型為代表的主題建模技術在科學文獻主題挖掘過程中被廣泛使用,但主題模型的建模效果是否優于傳統聚類技術,LDA主題模型是否是科學文獻主題建模的最優選擇,這些問題也引起了學者們關注和討論。與此同時,隨著Top2Vec、BERTopic等基于深度學習算法與大語言模型技術等新興主題建模工具的出現,相較于傳統主題模型來說,不同主題建模方法的建模效果之間的差異性如何,需要做出科學系統的對比評估。特別是在科學文獻主題建模過程中,該如何選擇最優的主題建模工具或構建最適用的主題建模方法來實現研究目標,是擺在科研人員面前的一個重要問題。從上述這些問題出發,本文將聚焦科學文獻主題建模方法的效果對比研究,通過構建實驗數據集,分別基于LDA主題模型、Top2Vec和BERTopic等算法,采用量化指標對不同建模工具的使用效果進行對比分析,以期為主題建模工具在科學文獻主題建模應用過程中提供科學的選擇依據。

2研究思路與方法

2.1研究目標與整體研究思路

為了對比不同類型主題建模技術在科學文獻主題建模過程中的實現方式和使用效果,分析不同類型語料環境下的主題建模方法對主題建模質量的影響,研究如何優化主題建模參數并提升主題建模效果,進而為面向實際科研問題的解決、選擇和構建適用的主題建模方法提供參照,是本文的主要研究目標。一般來說,主題建模過程包含主題聚類與主題表示兩個步驟,主題聚類效果反映了主題建模工具對文檔內容的挖掘深度,主題表示結果反映了主題建模工具對文檔主題的抽取效果,對不同建模工具從主題聚類效果和主題表示結果兩個方面展開研究,是完整評價主題建模工具的建模效果的必要環節?;谏鲜鏊悸?,本文重點選擇LDA主題模型、Top2Vec模型和BERTopic模型3種比較具有代表性的主題建模方法,分別在中英文科學文獻實驗數據集上展開實驗,進行主題建模效果評價。同時,為了全面反映主題建模技術的特點,本文也將采用傳統聚類算法進行聚類實驗作為對照,并與基于主題建模的聚類進行對比。本文的研究思路如圖1所示。

2.2實驗數據集構建與評估指標

為了同時反映不同主題建模技術在聚類效果與主題識別方面的效果,本文需要開展兩個方面的實驗:一是關于不同算法的聚類效果的對比和評價,即開展實驗①的相關研究。二是對不同主題建模技術在科學文獻主題建模上的應用效果評價,即開展實驗②的相關研究。為了充分展現不同主題建模工具的使用場景與效果差異,在實驗數據集的構建與選擇上,本文將分別采集科學技術領域的中、英文學術文獻數據集,構建實驗語料來展開上述實驗研究。

在評估指標的選擇上,本文采用主題內容相似度的方法來判斷主題建模過程中的聚類效果,通過計算聚類后各個主題內部文檔間的平均相似度與不同主題間的平均相似度的比值,來反映聚類結果的內聚性與耦合性特征,即以類簇內主題高相似度和類簇間主題的低相似度共同構成評價主題聚類效果的指標。該指標的最終得分與類內主題的內聚性呈正比變化關系,與跨類主題的耦合性呈現反比關系,從而實現以高內聚低耦合來評價主題聚類效果的最終指標(HCLC,High Cohesion&Low Coupling)。在主題內文檔相似度計算方法上,不同主題建模方法均分別采用向量空間模型(Vector Space Model,簡稱“VSM”)和Doc2vec算法作為文檔相似度的基礎算法,進行實驗①的聚類效果評價實驗。HCLC指標的計算方法如式(1)所示:

式中,K為聚類主題數目,n為每個類簇內文檔的數目,sim(di,d)表示類簇內兩個文檔間的相似度,通過迭代計算類簇內兩兩文檔間的相似度,得到該主題數目下各類簇內文檔的平均相似度:』7v為跨主題的文檔對數量,sim(d,d)為跨主題文檔對(m,n)的文檔相似度,通過上述兩個步驟的計算得到聚類效果。

在實驗②中,本文在現有主題建模測度指標和工具的基礎方法上,結合科學文獻主題建模的特點,選擇主題多樣性(Topic Diversity,亦稱“主題差異性”,簡稱TD)、主題語義一致性(TopicCoherence,簡稱TC)、主題穩定性(Topic Stability,簡稱TS)和主題離散性(Topic Variability,簡稱TV)等指標開展不同主題建模方法的科學文獻主題建模效果評價。

主題多樣性(主題差異性)的計算過程相對簡單,該指標通過計算主題建模結果中所有主題中不重復出現的主題詞的占比情況后得出。主題多樣性數值越小,表示模型識別出的主題信息冗余度較高;主題多樣性數值越大,則表示模型識別出了更加多樣的主題,主題多樣性(TD)的計算方法如式(2)所示:

主題語義一致性指標主要用于評估主題模型的主題連貫性。從邏輯上看,語義上高度相關的詞也應當被分配到同一個主題下。因此,連貫性衡量的是主題中各單詞彼此之間的相似程度、是否互相支撐。當前基于詞共現模式的主題連貫性已經被驗證是一種可靠的主題分類質量指標,根據詞組確認度(Confirmation)計算方法的不同,主題語義一致性的計算方法包括UCI Coherence、UMass Coherence等。有研究表明,采用Normalized PMI(NPMI)方法計算詞組確認度的主題一致性指標表現更好,因此,本文將其作為主題語義一致性(TC)評價指標來進行主題建模工具的建模效果對比研究,其計算方法如式(3)所示:

主題穩定性(TS)和主題離散性(TV)指標是基于主題建模過程數據產生的評價指標。在主題建模過程中會產生兩個矩陣,一個是主題一詞分布,另一個是文檔一主題分布。主題穩定性即在考慮主題一詞分布的基礎上產生的測度指標,其計算方法如式(4)所示:

主題離散性是在文檔一主題分布基礎上產生的主題建模效果測度指標。LDA主題模型和Top2vec模型在訓練后能夠直接得出文檔可能歸屬的多個主題以及其概率排序,而Bertopic模型則需要在模型訓練時設置“calculate _probabilities=True”參數,輸出計算過程數據來得到文檔主題分布。主題離散性指標計算使用了主題建模的過程數據,由于不同主題建模算法的文本抽樣方式不同,計算出的“文檔一主題”分布概率存在較大差異。因此,為了消除量綱差異,本文在文獻的基礎上,采用變異系數的方法對主題離散性指標進行改進,使得不同建模方法得出的主題離散性具有可比性。主題離散性計算方法如式(5)所示:

式中,D表示文檔集的規模,主題K的離散性指標可以概括為文檔集內每個文檔在該主題上的概率分布的變異系數,該值越大,表示文檔被劃分到相關主題的傾向性越強,也可以反映出文檔主題識別的質量越高。

3科學文獻主題建模方法與效果評估

3.1實驗數據描述與主題抽取

按照上述研究思路和方法,本文在開展基于LDA主題模型、Top2vec模型和Bertopic模型的科學文獻主題建模效果評估實驗過程中,分別選取中英文科學文獻構建實驗語料并進行對比試驗。其中,英文實驗語料以Web of Science(簡稱“WoS”)數據庫為數據源,檢索并下載SSCI和SCI數據庫收錄的自然語言處理領域學術文獻作為實驗對象構建英文科學文獻數據集:中文實驗語料以中國人文社會科學引文數據庫(簡稱“CHSSCD”)為基礎,按照不同學科文獻規模,等比例隨機抽取人文社會科學領域的中文學術文獻構建實驗數據集。中英文語料實驗數據集的基本信息如表1所示。

在實驗環境搭建上,以一臺硬件配置為Intel(R)

Core(TM)

i7-7700雙核3.60GHz CPU+16GBRAM的臺式計算機搭建科學文獻主題建模實驗環境,基于Python3.8編程語言,以Gensim4.3.1(LdaModel).Top2vec1.0.29和Bertopic0. 14.1等開源工具包為基礎,進行編程運算和文本數據處理,并開展主題建模實驗研究。

通過采用LDA、Top2vec和Bertopic主題模型方法對上述語料進行主題建模后,可以直觀展現不同主題建模方法的建模結果及其差異。由于在基于LDA主題模型進行主題建模時,需要在其參數中設置文檔的主題數目,并且主題數目會直接影響主題建模效果。Top2vec和Bertopic雖然不需要預先設置該參數,但是在默認參數條件下的主題建模中會出現大量的冗余主題,因此也需要在主題建模后通過主題相似度閾值的設定來實現主題歸并。在對比實驗中,為了保證不同建模工具的最終建模效果可比,本文基于困惑度指標以及主題重疊度和完整度等算法,對實驗語料文本特征進行計算,獲取文檔集內的最優主題數目范圍,并將其作為LDA主題模型的基本參數(主題數量K)進行建模;由于Top2vec模型在訓練過程中不能預設主題個數,因此需要在模型訓練完成后對基于該模型的topic_merge_delta參數進行調整,將主題間較為相似的主題進行冗余主題的合并;Bertopic模型則需在訓練完成后,用基于該模型的reduce_outliers方法將訓練過程中的離散主題再次進行合并歸類:最終使得不同主題模型識別的主題數目保持一致,從而具有可比性。

基于上述思路,分別對本文構建的中英文實驗語料進行主題建模并得到主題識別結果。通過困惑度指標以及主題重疊度和完整度等算法對文檔集內的最優主題數目進行計算,得到中文語料的最優主題數目在75+1個,英文語料的最優主題數目在62+1個,在下文中基于K-Means算法的文本聚類實驗中也將其作為類簇數目參數。通過對不同主題模型識別出的主題集合的相似度計算后發現,不同建模工具的主題識別結果表現出較大的差異性。其中,LDA模型和Bertopic模型的主題識別結果中具有相似性關系的主題占比僅為9.81%(英文語料)和7.46%(中文語料),Top2vec模型識別出主題與LDA模型和Bertopic模型的識別結果相似度均僅在2%左右,具體結果如圖2所示。該結果直觀展現了不同建模方法在主題識別與表示上的不同,但是另一方面也顯示出不同建模工具的主題詞抽取算法的巨大差異。因此,為了進一步研究和評估不同方法和工具的主題建模效果,本文接下來將對不同主題建模方法在文檔處理過程中的表現進行更深層次的對比研究,具體包含兩個方面:一方面是在文檔聚類上的表現能力:另一方面是主題詞抽取能力的對比。

3.2不同建模方法的文本聚類效果對比

前文基于不同主題建模方法和工具的主題識別結果可以看出,不同建模方法在主題識別與主題表示上存在巨大差異,這種差異一方面可能存在于主題建模前期文檔的聚類算法上,另一方面也可能存在于聚類后期的主題詞抽取與表示方面。為了進一步評估不同主題建模方法的效果與差異,本小節先對主題建模過程中的文檔聚類效果進行對比研究。

本文分別采用LDA主題模型、Top2vec模型和Bertopic模型對中英文實驗語料進行主題建模,對建模后的文檔主題分布進行提取后,實際上可以將主題建模轉化為文檔聚類。同時,采用K-Mean聚類算法對文檔進行聚類作為對比實驗,采用前文構建的HCLC指標(即High Cohesion&Low CouplingIndex)進行聚類效果評價,結果如表2所示。

從計算結果來看,在英文實驗語料中,Bertop-IC模型表現出相對較好的聚類效果,其HCLC指標得分為1.5108,經過預訓練的語言模型在科學文獻主題聚類上也展現出較好的應用表現,其次是Top2vec模型,其在英文語料上的聚類效果稍遜于Bertopic模型,但是相較于LDA算法和K-Means算法的文檔聚類表現來說表現較好,在沒有特征優化與參數調整的環境下,LDA算法的文檔聚類效果相較于K-Means算法來說,其優勢并沒有得到很好的發揮。因此,在使用LDA主題模型進行科學文獻主題建模過程中,必須結合實驗數據特征進行必要的參數優化和特征抽取以發揮其最佳效果。在中文實驗語料中,文檔聚類效果表現最優的是Top2vec模型,因為本實驗中該方法采用了基于Doc2vec的文檔相似度計算,在中文語料的復雜語義環境中該算法的優勢得到了充分發揮,其次是LDA算法,由于相較于英文文檔的詞語特征多變問題(形態、時態等),中文詞語的類型相對單一,但是語義更加復雜,因此其面向語義的文檔處理優勢在中文科學文獻主題聚類上得到了較好的表現。而Bertopic模型是基于其預訓練的文檔嵌入算法,雖然也集成了多語言模型,但是在針對科學文獻的文檔建模具體任務中,必須對其預訓練模型進一步微調(Finetune)才能發揮其最佳效果。

3.3不同建模方法的主題識別效果對比

在基于不同主題建模工具的科學文獻主題識別與主題表示的效果評估指標選擇上,本文分別采用主題多樣性(TD,也稱主題差異性)、主題一致性(TC)、主題穩定性(TS)和主題離散性(TV)4個指標來進行主題建模效果對比。為了充分對比不同方法工具的建模表現,在對中英文語料上的主題建模過程中,LDA主題模型分別采用詞袋(Bag ofWords)和TFIDF算法進行文檔特征抽取與主題建模比較;Top2vec模型則分別采用Doc2vec算法和預訓練文檔嵌入算法(分別在英文語料和中文語料中使用All-MiniLM-L6-v2和Paraphrase-Multilin-gual-MiniLM-L12-v2預訓練模型,下文均簡稱為“MiniLM”)進行文檔嵌入表示;Bertopic模型采用通用預訓練文檔嵌入算法(MiniLM和SciBert)進行主題建模。

分別采用上述3種主題建模工具(LDA、Top2vec和Bertopic)和5種文檔特征表示方法(Bagof Words、TFIDF、Doc2vec、MiniLM、SciBert)進行中英文科學文獻主題建模,并對主題建模后的主題多樣性、主題一致性、主題穩定性和主題離散性指標進行對比,結果如表3所示??梢园l現,在主題多樣性(TD)指標上,基于Doc2vec算法的Top2vec主題模型(以Top2vec-Doc2vec表示,下同)在中英文語料中均表現最優,這一指標說明基于該方法獲取的主題重合度較低,能夠獲取具有較強差異性的主題信息;在主題一致性(TC)指標上,Bertopic-SciBert模型在英文語料上表現出較好的效果,但是由于沒有對照專門的中文科學文獻大語言模型,基于通用語言模型的Bertopic主題建模的主題語義一致性指標略遜于Top2vec-Doc2vec方法;在主題穩定性(TS)指標和主題離散性(TV)指標上,Bertopic-SciBert模型在英文語料上均表現出較優的識別效果,但是對中文語料而言,在沒有垂直領域訓練模型的情況下,利用通用語言模型開展主題建模識別仍然是次優選擇,其中Top2vec-MiniLM模型的主題穩定性指標較高,Bertopic-MiniLM模型的主題識別離散性指標較高,可根據具體應用場景和目標選擇使用不同方法。通過上述研究,可以得出以下幾點結論:在科學文獻主題建模過程中,若希望獲取包含更加豐富的主題信息,優先推薦使用基于Doc2vec的Top2vec模型進行主題抽??;如果需要使最終獲取的主題信息具有更加強健的穩定性和離散性,優先推薦使用Bertopic模型進行主題建模。此外,在基于LDA主題模型進行主題建模的過程中,基于詞袋的方法和基于TFIDF特征選擇的方法在主題多樣性上存在一些差異,但是在主題一致性、穩定性和離散性等指標上的表現差異不大,如果希望建模后的主題之間具有較強差異,則優先推薦使用TFIDF進行LDA主題建模。

4研究結果與討論

針對主題建模技術的不斷發展和廣泛應用,不同建模方法和實現算法在科學文獻主題建模實踐應用上的表現情況和使用局限是本文的主要研究問題。本文通過構建中英文科學文獻實驗數據集,選擇LDA主題模型、Top2vec和BERTopic等算法工具,以及基于詞袋和TFIDF的特征提取算法,結合Doc2vec算法、All-MiniLM-L6-v2和SciBert等文本預訓練模型,對不同主題建模方法和工具的建模效果進行了實驗和對比。通過對不同主題建模方法工具的文本聚類效果和主題識別結果的多樣性(差異性)、一致性、穩定性、離散性等指標計算,本文得出以下幾點結論:①不同建模工具的主題識別結果表現出較大的差異性,在不同建模工具識別的主題上,LDA模型和Bertopic模型的主題識別結果中具有相似性關系的主題僅占比9.81%(英文語料)和7.46%(中文語料),而Top2vec方法識別出主題與LDA和Bertopic的結果相似度均在2%左右;②在文檔的主題聚類效果上,Top2vec模型在中文語料上的聚類效果較好.BertoDic模型在英文語料上的聚類效果較好,LDA主題模型必須結合實驗數據特征進行必要的參數優化和特征抽取才可以發揮其最佳效果;③在主題識別結果與主題表示方面,基于Doc2vec算法的Top2vec工具在科學文獻主題識別的主題多樣性(主題差異性)指標上的表現相對最優,能夠獲取具有較強差異性的主題信息;在主題語義一致性指標上,Bertopic-SciBert模型在英文語料上表現出較好的效果,基于通用語言模型的Bertopic-MiniLM方法在中文語料上的主題識別效果略遜于Top2vec-Doc2vec方法;采用文本預訓練模型(MiniLM)的不同主題建模方法(Top2vec、Bertopic)的主題識別結果在主題穩定性和主題離散性指標上的表現均優于傳統建模方法。

在具體應用過程中,主題多樣性、主題一致性、主題穩定性和主題離散性指標不僅可以用于評測主題模型的建模效果,也可以將之應用于主題建模參數優化。例如,在基于LDA主題模型和Ber-topic模型的主題建模過程中,主題數目優化是模型訓練中最為關鍵的基礎問題,不同主題數目對建模效果影響巨大,實際使用過程中可以結合主題多樣性、主題一致性、主題穩定性和主題離散性指標等評估指標評價建模效果并優化模型訓練參數:Top2vec雖不能直接設定主題數目,但是也可以基于建模結果的各類評估指標并結合其“topic_merge_delta”參數來調整和優化最終的主題建模信息。本文的不足之處在于未構建和使用基于中文科學文獻的文本預訓練模型,伴隨著大語言模型技術的快速發展和廣泛應用,基于大語言模型技術的科學文獻自動化處理技術已是大勢所趨,后續需要加快實現科學文獻的預訓練模型研發,并將之應用于科技情報業務具體實踐,這是當前的重要工作,也是未來科技情報研究的重要方向。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合