?

一種基于LDA模型的新興主題識別與探測方法

2024-04-21 12:08吳東雪沈桂蘭

吳東雪 沈桂蘭

摘 要:新興主題識別是科技研究領域識別新興技術的重要方式,高效精準地識別新興主題是早期辨識新興技術研究方向的前提.提出一種基于LDA模型的新興主題識別與趨勢預測方法,通過LDA模型提取科技文獻中的研究主題,構建主題強度、主題新穎度和復合主題關注度的指標體系識別新興主題,采用Prophet模型預測新興主題的主題強度,探測未來發展趨勢.以智慧農業領域最近14年的科研文獻為數據集,對提出的識別和探測方法進行驗證,識別出了5個新興主題,并預測了未來3年的發展趨勢,同時驗證所提方法的有效性.

關鍵詞:主題識別;最優主題數;新興主題識別指標;Prophet模型

中圖分類號:TP399文獻標志碼:A文章編號:1000-2367(2024)02-0072-09

隨著新一輪科技革命到來,產業急劇變革,全球技術競爭日趨激烈.新形勢下,如何選擇國家的科技發展戰略,確定重點發展領域是各國政府面臨的重要問題.掌握科學前沿理論和技術發展動態,可以在有限的資源支持下高效地推動科學技術進步.新興主題是新出現的一組由多個關鍵詞或詞組表示的主題領域簇,代表著科學研究中極具發展潛力的研究方向或趨勢[1.識別新興主題是對科學前沿、技術前沿以經濟和社會發展導向進行戰略性探索的有效手段,新興主題識別和預測方法的研究已經成為研究者關注的熱點.

早期主要是通過科技文獻的引文網絡分析或關鍵詞分析進行新興主題識別[2-5,但引文網絡分析時間滯后、缺少動態更新,關鍵詞分析主題相對片面、缺少語義解讀,識別出來的新興主題往往準確性不高、可解釋性不強,且無法預測新興主題未來發展趨勢.近年來,以潛在狄利克雷分布模型(latent dirichlet allocation,LDA)為代表的主題建模及其改進方法[6-8,以概率形式從科技文獻中抽取大量主題信息,能高效快捷地挖掘科學領域中的主題方向而廣受關注.周云澤等[9對自動駕駛領域的專利和論文文獻進行LDA主題建模識別該領域的新興技術,吳勝男等[10提出了Co-LDA主題模型和鏈路預測相結合的方法預測核心主題關聯機會,張振青等[11采用PhraseLDA模型對領域學科交叉主題進行識別,ALATTAR等[12將LDA模型看作一個過濾器,用按時間戳識別刪除舊主題,保留新主題的方法識別新興主題.但是上述研究忽略了LDA模型中最優主題數的設定,識別出主題往往存在較高的同質性,而且這些研究也未對識別出的新興主題的未來發展趨勢進行預測.另外,進行新興主題識別時,還應該關注新興主題的關鍵特征.新興主題具有概念新、影響力大、增長快、成長潛力大的特點,PORTER 等[13根據這些特點構建了新興主題指標識別體系,但是缺乏針對LDA主題概率的指標量化表示.

為提升新興主題的識別與趨勢分析的準確性與有效性,本文提出一種基于LDA主題模型的新興主題識別與探測的方法,主要貢獻包括:(1)改進模型評估方法,優化LDA模型主題抽取結果;(2)構建新興主題識別指標體系,設計適用于主題概率模型的指標量化計算方法;(3)在指標量化基礎上,使用先知神經網絡Prophet模型對新興主題未來三年的趨勢發展預測;以智慧農業領域科技文獻為數據集進行仿真實驗,驗證了方法識別和預測的有效性和準確性.

1 基于LDA模型的主題抽取

LDA是詞-主題-文檔三層結構的經典概率生成模型14,以“主題”為語義中介,將詞與文檔連接起來,認為每一個文檔集都是一組潛在主題的集合,其原理如圖1所示.LDA通過引入α、β兩個參數作為Dirichlet分布的超參數,分別生成主題的多項分布Θ和詞的多項分布φ,對于文檔集M中的一篇有N個詞的文檔m,主題分布Θ中的主題Z以某個概率選定了這個文檔,同時從主題Z對應的詞分布φ中選中某個概率詞W,過程重復N次,就產生了文檔m.在這個過程中,通過文檔-主題概率分布和主題-詞概率分布實現詞-主題-文檔的語義結構關聯.

LDA模型的概率主題分布可以抽取科技文獻中潛在主題信息,其中最優主題數目的確定對主題抽取至關重要.困惑度是經典的最優主題數目判定指標,該指標關注模型泛化能力,實際應用中存在提取主題數量較大,主題間相似度高的問題.為平衡模型的泛化能力以及主題抽取效果,提出了Perplexity-Var(P-V)指標,在進行困惑度計算的基礎上輔以主題方差、復合困惑度和主題相似度來確定最優主題數[15,計算公式如下:

其中,D是文本數據集,P(D)是數據集的困惑度,T是數據集中LDA抽取的主題,Var(T)是數據集的主題方差.P越小,LDA的泛化能力越好.主題方差越大,LDA主題抽取的效果越好,同時P-V指標就越小.綜上,當P-V指標最小時,其主題數對應的LDA主題模型識別主題的效果最優.

困惑度P(D)的基本思想是給測試集賦予較高概率值的語言模型泛化效果更好,困惑度越小,模型對新文本具有越好的預測作用,計算公式如下:

其中,語料庫中的數據集D中共M篇文檔,wd表示文檔d中的詞,p(wd)即文檔中詞wd產生的概率,Nd表示每篇文檔d中的單詞數量.

主題方差Var(T)是各個主題分別與其均值之間的距離平方和的平均數,衡量了主題之間的穩定性和差異性,當Var(T)越大時,主題間的差異性越大,主題區分度越好,計算公式如下:

其中,T表示LDA抽取的主題,為主題-詞概率分布均值,DJS表示JS散度(Jensen-Shannon divergence),度量各個主題和其均值之間的偏離程度,K表示主題數目.

2 新興主題識別指標體系

新興主題通常是研究內容上具有較高的新穎性,具有一定的話題規模,并能夠吸引新的學者進行研究的主題.構建了包含主題強度、主題新穎度、復合主題關注度的新興主題識別指標體系.

2.1 識別指標

2.1.1 主題強度

主題強度是一種抽象的屬性,可以用不同的量化計算方法,如按照包含主題的論文數量計算以及根據發文量和被引量計算等[16,因LDA模型提取的主題是文檔主題概率形式,直接采用主題文檔數量方式量化計算存在偏差,這里定義主題強度(Ts)為該主題在某時間節點內所有的文檔主題概率的總和.

其中,pi表示主題s內的第i個文檔的文檔主題概率.

2.1.2 主題新穎度

主題新穎度一般根據主題的年份信息確定,某個主題的年份越新,其新穎性越高.選取各個主題下概率大于等于10%的文檔作為主題的支持文檔[17,用主題內所包含文檔的平均年份作為主題新穎度Ns的度量,即:

其中,n表示主題s內文獻數量;yi表示第i篇論文的發表年份.

2.1.3 復合主題關注度

主題關注度是測度主題對研究者的吸引力大小,可以用相關文獻指數[18表示,即主題相關的文獻數量與對應年份下平均主題相關文獻數量的比值來表示,計算公式如下:

其中,ds代表主題s的相關文獻數量;Mt=ctn代表時間窗口t下平均主題相關文本量,ct為t年的相關文本總數,n為t年的主題數.

主題關注度也可以表現為作者關注指數,用主題相關的作者數量與對應年份下平均主題相關作者數量的比值來表示,計算公式如下:

其中,nts表示時間窗口t下某個主題s所有作者數量和,Nt表示時間窗口t內平均主題相關作者數量,Nt=Atn,At為t年的相關作者總數量,n為t年的主題數.

復合主題關注度T′s綜合考慮指標的變異性和沖突性,將相關文獻指數和作者關注數進行復合加權,計算公式如下:

其中,權重α和權重β由CRITIC客觀賦權法[19確定.

2.2 識別主題類型判定

根據主題強度和主題新穎度的值,將識別出主題進行類型劃分,包括新興主題、潛在新興主題、非成長型主題和熱門主題4類,以主題強度和主題新穎度值的均值為原點,繪制出主題類型的判定坐標系,如圖2所示.

在判定坐標系中,第一象限是新興主題,具有一定的話題規模,研究內容具有較高的新穎性;第二象限的是潛在新興主題,主題強度不高,但具備一定的主題新穎度,有吸引研究者進入研究,具有成為新興主題的潛力;第三象限是非成長型主題,具有一定的成長停滯性,其話題規模和新穎度都較小,吸引研究者關注的潛力也相對較??;第四象限的是熱門主題,具有較大的話題規模,但主題新穎度相對較低,對研究者的吸引度相對低.

3 新興主題的識別與預測

新興主題識別與預測的方法流程如圖3所示,主要包括數據獲取和預處理、基于LDA主題模型的主題提取、識別指標計算、新興主題識別與預測.

3.1 新興主題的識別

新興主題識別的具體的步驟如下:

步驟1 準備領域科技文獻數據集.

步驟2構建領域詞典,提取論文摘要進行分詞、去停用詞操作,并構建文檔數據集的詞頻—逆文檔頻率(term frequency-inverse document frequency,TF-IDF)模型,計算每篇文檔的TF-IDF向量值.

步驟3 訓練不同主題數的LDA主題模型,并計算模型對應的Perplexity-Var指標,選取令Perplexity-Var值最低的主題數為最優主題數.

步驟4 根據最優主題數進行LDA主題建模,提取領域內研究主題.利用主題詞概率分布確定主題高概率主題詞進行主題內容解讀.

步驟5 利用文檔主題概率分布確定主題所屬文檔,計算各個主題的主題強度和主題新穎度及所有主題強度和主題新穎度的均值.

步驟6 以主題的強度和新穎度的均值為坐標軸的原點,繪制主題類型判定坐標系.

步驟7 根據主題強度值和主題新穎度值將每個主題劃分到對應的象限.位于第一象限的新興主題和第二象限的潛在新興主題是要關注的主題.

步驟8 計算復合關注度的權重α和β,確定復合關注度的計算方法.

步驟9 計算所有主題關注度均值,對步驟7中篩選出的主題進行二次篩選,篩選出大于主題關注度均值的主題,作為最終新興主題的識別結果.

3.2 新興主題的預測

Prophet先知神經網絡[20是目前時間序列分析21的熱門工具,與ARIMA[22模型、LSTM[23神經網絡模型等主流的時間序列模型相比,Prophet 模型具有自動性好、可解釋性強、可擴展性強、訓練速度快等優點.作為一個加法模型,其假設觀測變量的規律滿足如下公式:

y(t)=g(t)+s(t)+h(t)+εt, ???(9)

其中,g(t)為非周期性的增長的趨勢項,s(t)是周期因素項,h(t)為節假日因素項,εt是滿足正態分布的誤差項.

模型訓練中趨勢項g(t)選擇分段線性進行趨勢預測,不考慮周期因素和節假日因素的影響,分段線性函數滿足以下公式:

g(t)=(k+a(t)Tδ)t+(m+a(t)Tγ), ???(10)

其中k+a(t)Tδ表示增長速率,m+a(t)Tγ表示線性的偏移.考慮到時間序列中可能的突變點,引入了指示函數a(t),δ和γ表示突變點對趨勢函數的斜率和偏移量影響的大小,參數T控制趨勢靈活度.

具體的預測步驟如下:

步驟1 以年為時間片計算新興主題的年度主題強度,組成主題強度序列;

步驟2 將主題強度序列劃分已知序列和待預測序列;

步驟3 設置Prophet模型參數,構建預測模型,利用R-squared和平均絕對誤差指標分別驗證模型擬合度和預測準確率;

步驟4 設定模型準確率閾值,如果模型準確率大于閾值,則使用該模型對未來3年的主題強度進行迭代預測;

步驟5 如果模型準確率小于閾值,則重新訓練模型.

4 新興主題識別與探測的應用研究

將提出的方法應用到智慧農業技術領域,識別該領域的新興主題并預測未來的發展趨勢.

4.1 數據集及預處理操作

在中國知網中以“智慧農業”“農業物聯網”為主題檢索詞進行智慧農業技術領域的期刊文獻檢索,時間跨度為2009-2022年,獲得1 710篇科技文獻.

預處理操作主要針對文獻摘要進行的文本預處理,首先使用正則表達式剔除掉論文摘要中的非中文字符,包括特殊符號、數字、標點、英文字符等,然后在以論文的關鍵詞作為領域字典的基礎上,進行分詞、去停用詞處理,最后采用TF-IDF模型對語料進行向量化處理.

4.2 智慧農業領域研究主題提取

對預處理后的文獻語料首先進行LDA主題建模,為使抽取的主題和主題詞更具代表性,設置主題分布的先驗參數α=0.01,詞分布的先驗參數η=0.01,然后利用Perplexity-Var的計算選取最優主題數.計算了主題數量為1到20之間的Perplexity-Var指標值,結果如圖4所示,可以看出,當主題數量為9時,Perplexity-Var值最小,模型泛化能力與主題區分度相對較好.

每個主題提取了前20個關鍵詞,對應的主題詞表如表1所示.

4.3 新興主題的識別與發展趨勢預測

4.3.1 主題強度和新穎度的計算

對利用LDA提取的9個主題分別計算出其主題強度的值和主題新穎度的值,主題強度的均值為0.11,大于均值的有主題3、主題4、主題5、主題6、主題8;說明智慧農業領域的技術較新,各個主題新穎度普遍較高,但略有差異,大于均值的有主題1、主題4、主題5、主題7和主題8.

以主題強度和新穎度的均值為原點,繪制主題分布坐標系,對每個主題進行分類劃分,結果如圖5所示.主題4、主題5、主題8的位于第一象限,為新興主題;主題1和主題7位于第二象限,為潛在新興主題;位于第三象限的主題2和主題9是非成長型主題;位于第四象限的主題3和主題6為熱門主題.

4.3.2 復合主題關注度計算

在確定新興主題和潛在新興主題后,計算復合主題關注度對新興主題進行二次篩選,主題相關文獻指數和主題作者關注指數隨年份變化的結果如圖6和圖7所示.利用CRITIC客觀賦權法計算得到的相關文獻指數和作者關注指數的權重,如表2所示.復合的主題關注度計算結果如表3所示,平均主題關注度約為9.16,高于均值的有主題3~6以及主題8(黑色字體).

4.3.3 新興主題的識別

通過包括主題強度、主題新穎度和復合主題關注度在內的新興主題識別指標體系的篩選,最終確定主題4(物聯網技術在智慧農業的探索應用)、主題5(智慧農業下的數據來源以及利用)、主題8(示范基地的帶動以及由單點到面的推廣)為新興主題;主題1(吸引企業助力發展智慧農業)和主題7(智能裝備以及服務體系優化)為潛在新興主題.

從主題識別內容上看,涵蓋了在智慧農業的試點示范階段,研究者對于智慧農業在綜合運用移動互聯網、物聯網、智能控制、無線傳感等現代信息技術上的探索以及如何有效推廣和助力智慧農業發展上的探索.

4.3.4 新興主題發展趨勢預測

利用Prophet模型進行2022年至2024年的3年發展趨勢預測.

為了驗證模型性能,先進行樣本內預測,利用訓練集中2020年之前的主題強度序列進行2021年的預測.模型訓練中的趨勢增長模型選擇分段線性函數進行預測,即設置參數growth='linear',不考慮周期因素和節假日因素的影響,設置weekly_seasonality = False,daily_seasonality = False,其他參數使用模型默認.

模型的擬合度優劣采用R方(R-squared)進行衡量,R方越接近于1,模型擬合度越好.選擇平均絕對誤差(mean absolute error,MAE)進行預測偏差評估,MAE值越小,預測效果越好.出于對主題強度發展偏差的考量,設定MAE值小于10時,模型預測有效.

2021年的主題預測結果如表4所示,其中R方為0.995,說明模型擬合效果優良;MAE值為6.97,在設定的閾值范圍內;主題4、主題1和主題7的實際值均在預測區間內,主題5和主題8在預測區間外,但根據其主題內容判斷數據融合應用以及在政策推動下,主題5和主題8近期獲得的關注度較大,有超出模型預測區間的可能.總體來看,Prophet模型可以進行2022-2024年的趨勢預測.

將預測區間設為2022-2024,預測結果如表5所示,可以看出5個主題在未來3年的主題強度區間值均呈逐漸上升趨勢,表明這些主題會持續獲得領域內研究者的關注和探究.

5 結 語

圍繞新興主題識別和探測,首先對新興主題識別的研究以及主要方法進行了梳理,然后基于LDA主題模型,利用Perplexity-Var指標確定的最優主題數進行主題抽取,最后通過新興主題識別指標體系的篩選識別出新興主題,并利用Prophet模型對新興主題未來發展趨勢進行預測.以智慧農業領域的文獻數據為實驗數據集,經過實驗驗證,最終確定了3個新興主題和2個潛在新興主題,反映了當前智慧農業領域的研究發展前沿及未來3年的發展趨勢.

構建的包含主題抽取最優數目確定、識別指標體系優化以及利用Prophet模型進行趨勢分析的新興主題的識別與趨勢預測方法是對新興主題識別和預測進行的有益探索,實驗結果較好地反映了智慧農業領域內的新興主題及發展趨勢,表明識別和預測方法的有效性,能夠達到優化和探索新興主題識別和趨勢分析的目的.

當前研究尚存在一定的不足.首先,限于篇幅和研究精力,數據源只選擇了科技論文文獻,未考慮專利文獻數據、基金項目數據、網評文本數據等;新興指標測量上只考慮了文獻本身的發表年份、作者、關鍵詞、摘要等文本內容特征,忽略了文獻之間的引文特征.在以后的研究中,數據源可采用論文、專利等多源數據從不同角度反映領域主題的發展情況;指標識別體系上可從文本內容特征、結構特征、引用特征等多角度進行指標構建以更好、更全面、更客觀地進行新興主題識別;此外,在新興主題的趨勢發展分析上也可嘗試用不同的參數設置進行趨勢優化探索.

參 考 文 獻

[1]WANG Q.A bibliometric model for identifying emerging research topics[J].Journal of the Association for Information Science and Technology,2018,69(2):290-304.

[2]LI H Y,CUI L,CUI M,et al.Active research fields of acupuncture research:a document co-citation clustering analysis of acupuncture literature[J].Alternative Therapies in Health and Medicine,2010,16(6):38-45.

[3]SMALL H,BOYACK K W,KLAVANS R.Identifying emerging topics in science and technology[J].Research Policy,2014,43(8):1450-1467.

[4]陳新亞,李艷.近20年來我國教育技術研究的熱點與前沿:基于7種CSSCI期刊的文獻計量分析[J].現代教育技術,2020,30(12):12-19.

CHEN X Y,LI Y.The hotspots and frontiers of Chinese educational technology research in the lastest 20 years:based on the bibliometric analysis of 7 CSSCI journals[J].Modern Educational Technology,2020,30(12):12-19.

[5]曹琨,吳新年,靳軍寶等.基于共詞和Node2Vec表示學習的新興技術識別方法[J/OL].[2023-10-10].http://kns.cnki.net/kcms/detail/10.1478.G2.20221125.1824.012.html.

[6]VAYANSKY I,KUMAR S A P.A review of topic modeling methods[J].Information Systems,2020,94:101582.

[7]嚴宇宇,陶煜波,林海.基于層次狄利克雷過程的交互式主題建模[J].軟件學報,2016,27(5):1114-1126.

YAN Y Y,TAO Y B,LIN H.Interactive topic modeling based on hierarchical dirichlet process[J].Journal of Software,2016,27(5):1114-1126.

[8]WANG J Y,ZHANG X L.Deep NMF topic modeling[J].Neurocomputing,2023,515:157-173.

[9]周云澤,閔超.基于LDA模型與共享語義空間的新興技術識別:以自動駕駛汽車為例[J].數據分析與知識發現,2022,6(S1):55-66.

ZHOU Y Z,MIN C.Identifying emerging technology with LDA model and shared semantic space—case study of autonomous vehicles[J].Data Analysis and Knowledge Discovery,2022,6(S1):55-66.

[10]吳勝男,田若楠,蒲虹君,等.基于社交媒體的醫藥領域關聯主題預測方法研究[J].數據分析與知識發現,2021,5(12):98-109.

WU S N,TIAN R N,PU H J,et al.Predicting related medical topics from social media[J].Data Analysis and Knowledge Discovery,2021,5(12):98-109.

[11]張振青,孫巍.基于特征測度和PhraseLDA模型的領域學科交叉主題識別研究:以納米技術的農業環境應用領域為例[J].數據分析與知識發現,2023,7(7):32-45.

ZHANG Z Q,SUN W.Interdisciplinary subject recognition based on feature measurement and PhraseLDA model—case study of nanotechnology in agricultural environment[J].Data Analysis and Knowledge Discovery,2023,7(7):32-45.

[12]ALATTAR F,SHAALAN K.Emerging research topic detection using filtered-LDA[J].AI,2021,2(4):578-599.

[13]PORTER A L,GARNER J,CARLEY S F,et al.Emergence scoring to identify frontier R&D topics and key players[J].Technological Forecasting and Social Change,2019,146:628-643.

[14]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[15]關鵬,王曰芬.科技情報分析中LDA主題模型最優主題數確定方法研究[J].現代圖書情報技術,2016(9):42-50.

GUAN P,WANG Y F.Identifying optimal topic numbers from sci-tech information with LDA model[J].New Technology of Library and Information Service,2016(9):42-50.

[16]白敬毅,顏端武,陳瓊.基于主題模型和曲線擬合的新興主題趨勢預測研究[J].情報理論與實踐,2020,43(7):130-136.

BAI J Y,YAN D W,CHEN Q.Trend prediction of emerging topics based on topic model and curve fitting[J].Information Studies:Theory & Application,2020,43(7):130-136.

[17]MANN G S,MIMNO D,MCCALLUM A.Bibliometric impact measures leveraging topic analysis[C]//Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries.New York:ACM,2006:65-74.

[18]李松繁,黃永,楊金慶.基于BERT的農業領域前沿研究主題識別方法研究[J].情報工程,2021,7(5):100-114.

LI S F,HUANG Y,YANG J Q.Research on frontier research topic recognition method in agriculture field based on BERT[J].Technology Intelligence Engineering,2021,7(5):100-114.

[19]顏惠琴,牛萬紅,韓惠麗.基于主成分分析構建指標權重的客觀賦權法[J].濟南大學學報(自然科學版),2017,31(6):519-523.

YAN H Q,NIU W H,HAN H L.Objective weight method based on principal component analysis to establish index weight[J].Journal of University of Jinan(Science and Technology),2017,31(6):519-523.

[20]TAYLOR S J,LETHAM B.Forecasting at scale[J].The American Statistician,2018,72(1):37-45.

[21]HOSSAIN M M,ANWAR A H M F,GARG N,et al.Monthly rainfall prediction at catchment level with the facebook prophet model using observed and CMIP5 decadal data[J].Hydrology,2022,9(6):111.

[22]HAN F S,ZHANG C X,ZHU D L,et al.Talent cultivation of new ventures by seasonal autoregressive integrated moving average back propagation under deep learning[J].Frontiers in Psychology,2022,13:785301.

[23]FENG S F,FENG Y.A dual-staged attention based conversion-gated long short term memory for multivariable time series prediction[J].IEEE Access,2021,10:368-379.

An emerging topic identification and detection method based on LDA model

Wu Dongxuea, Shen Guilanb

(a. College of Applied Arts and Sciences; b. Bussiness College, Beijing Union University, Beijing 100191, China)

Abstract: Emerging topic identification is an important way to identify emerging technologies in the field of science and technology research, and efficient and accurate identification of emerging topics is the premise of early identificating emerging technology research direction. An emerging topic identification and trend prediction method based on LDA model is proposed. It extracts research topics from scientific literature by LDA model, constructs an index system of topic strength, topic novelty and composite topic attention to identify emerging topics, and uses Prophet model training to predict topic strength of emerging topics. Based on the data set of scientific research literature in the field of smart agriculture in the last 14 years, the proposed recognition and detection methods are verified. Five emerging topics are identified, and the development trend in the following three years is predicted. The validity of the proposed methods is verified.

Keywords: topic identification; optimal topiccount; emerging topic identification indicators; Prophet model

[責任編校 陳留院 趙曉華]

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合