基于LDA主題模型的多數據庫主題詞挖掘算法

2023-09-20 11:25彭燦華韋曉敏

計算機仿真 2023年8期

彭燦華,韋曉敏

(1. 桂林信息科技學院信息工程學院,廣西桂林 541004;2. 桂林電子科技大學計算機學院,廣西桂林 541004)

1 引言

在信息網絡不斷普及和互聯網技術飛速發展的背景下,網絡中數據不斷增多,各大數據庫中的數據量呈直線上升趨勢,數據庫中存在的數據具有無組織、隨意性和口語化等特點,增加了數據檢索的時間,用戶在數據庫中獲取所需數據的難度較大[1],主題詞挖掘是檢索數據庫數據的有效方法之一,研究數據庫主題詞挖掘算法具有重要意義。在此背景下,如何縮短用戶在數據庫中檢索關鍵信息的時間和難度成為目前亟需解決的問題,針對上述問題,一些專家和學者提出了數據庫主題詞挖掘算法,通過挖掘數據庫主題詞獲取對應的文檔和數據[2]。

辛春花[3]等人計算了數據在數據庫中的優先級,根據計算結果建立數據優先級模型,并將強化學習算法引入模型中,建立treap數據結構,采用generateRule程序對treap數據結構展開遍歷,獲取主題詞,該算法的挖掘結果困惑度較高,存在挖掘精度低的問題。張孝飛[4]等人針對數據庫中存在的短文本,制定文本擴充策略將其轉變為長文本,在此基礎上,采用語義詞典擴展數據的語義概念,并根據數據在數據庫中的結構特點為其分配權重,結合數據共現度提取主題詞,該算法在文本擴充過程中容易引入噪聲數據,對后續的主題詞挖掘產生影響,增加了挖掘時間,存在挖掘效率低的問題。

為了解決上述方法中存在的問題,提出融合LDA主題模型的數據庫主題詞挖掘算法。

2 數據預處理

2.1 數據去噪

為了避免主題詞挖掘過程中受到噪聲數據的干擾,需要對數據庫中存在的數據展開去噪處理。

在數據分解初期自適應噪聲完備集合經驗模態分解方法存在虛假模式,為了解決這個問題,對其改進,提出ICEEMDAN方法,對數據庫數據展開去噪處理,該方法將特殊的噪聲Rm[ξ(i)]加入數據分解后的第m層IMF中,期望數據庫中的數據與第一次添加噪聲之間具有相同的信噪比。數據在分解后期存在的噪聲振幅相對較小,引入經驗模態分解方法[5-6]處理剩余模式中存在的噪聲,采用ICEEMDAN方法分解數據庫數據的過程如下:

1)將白噪聲R1[ξ(i)]加入原始數據u中,獲得數據u(i)：

u(i)=u+χ0R1[ξ(i)]

(1)

式中,χ0代表噪聲R1[ξ(i)]對應的信噪比;ξ(i)代表加入數據的第i個白噪聲。

2)采用ICEEMDAN方法分解后,獲得數據的第1階分量IMF1：

(2)

式中,r1代表數據的余項;Q(·)代表局部均值函數;K代表在數據中加入噪聲的次數。

3)繼續分解數據,獲得第2階分量IMF2;

4)同理,獲得數據庫中數據的第m層分量IMFm。

在數據分解的基礎上,進一步對數據進行離散處理,曲波變換與小波變換相比具有方向性和多分辨率等優點[7-8],通過曲波變換可以降低Curvelet算法的速度冗余度,設vD(j,l,k)表示離散Curvelet變換過程中的離散曲波系數,可通過下式計算得到:

(3)

根據離散處理結果通過Wrap算法對數據庫中存在的數據展開二維傅里葉變換[9-10],獲得二維頻域[n1,n2]。通過二維頻域[n1,n2]和窗在尺度和角度(j,l)中獲得離散曲波系數vD(j,l,k)。

結合曲波變換和ICEEMDAN方法對數據庫中的數據u展開去噪處理:

u=c+σ

(4)

式中,σ代表隨機噪聲;c代表有效數據。

根據數據稀疏去噪特點,將數據庫中存在的數據u作為可稀疏的觀測數據,將隨機噪聲σ作為不可稀疏的數據,在數據去噪過程中,將數據中存在的噪聲處理為重構數據與觀測數據的殘差,通過下式完成數據的去噪處理:

(5)

2.2 數據聚類處理

為了提高數據庫主題詞挖掘效率,對去噪后的數據展開聚類處理,具體過程如下:

1)設den(c)表示去噪后數據c在數據庫中的局部密度,其計算公式如下:

(6)

式中,KNN(c)代表數據c在數據庫中的k近鄰集合;dist(c,y)代表數據c與數據y之間的距離度量值,den(c)的值越大,表明數據周圍存在的數據越密集。

設η(c)代表數據在數據庫中的密度權重,其表達式為:

η(c)=den(c)ε(c)

(7)

式中,ε(c)代表數據c在數據庫中與高密度數據之間的距離最小值,可通過下式計算得到:

(8)

2)結合殘差分析方法[11-12]和線性回歸方法根據數據的密度權重η(c)挑選初始聚類中心,建立聚類中心預選集Aset。

根據數據密度權重η(c)對集合Aset中存在的聚類中心展開降序排序,獲得集合Aset＿D。

3)在集合Aset＿D中提取部分對象作為當前數據庫的聚類中心。劃分集合Aset＿D中剩余的聚類中心,將其存儲到高密度且距離最近數據所在的簇中。

結合戴維森堡丁指數和輪廓系數建立數據庫聚類的聚類中心優化模型:

(9)

式中,Ui代表優化模型在迭代過程中獲得的輸出值;DCi代表聚類過程中數據聚類結果對應的戴維森堡丁指數;DBi代表輪廓系數,DCi、DBi的計算公式如下:

(10)

(11)

式中,Dn代表數據庫的聚類數量;mean(Dt)代表聚類中心與數據j之間的平均距離;center(Dt)代表數據j在數據集的聚類中心;dist(·)代表距離函數;s(j)代表在相同簇中數據j與其它數據之間存在的平均距離;n(j)代表數據j與其它聚類中數據之間的最小距離。

3 數據庫主題詞挖掘算法設計

在數據預處理的基礎上,結合圖模型和LDA主題模型實現數據庫的主題詞挖掘。所提方法通過LDA主題模型獲取主題中文檔與詞的分布,以此獲取文檔與詞、詞與詞的主題相關性,LDA主題模型如圖1所示。

圖1 LDA主題模型

在LDA模型中,數據庫中的文檔可通過詞構成的向量得以描述,以此在數據庫中挖掘文檔的主題信息[13-14],通過下述過程建立LDA模型:針對數據庫中存在的文檔f,f與主題之間符合多項式分布,詞匯表與主題中存在的詞也符合多項式分布,上述分布中分別存在超參數χ、β對應的先驗分布。隨機抽取文檔主題分布κ中存在的主題,之后抽取主題詞分布φ中存在的詞,多次迭代上述抽取過程,獲得存在M個詞的文章,建立LDA模型的概率模型a(κ,x,e|β,χ):

(12)

式中,a(·|·)代表概率分布函數。

在概率模型的基礎上,獲得主題中詞對應的概率分布a(k|e):

(13)

式中,Vek代表主題k中詞e出現的次數。

設a(k|f)表示主題k中文檔f對應的概率分布,其表達式如下:

(14)

式中,Vfk代表主題k賦予文檔f的數量。

引入余弦相似度根據上述概率分布計算結果,計算文章與詞,詞與詞的相關性sim(e,f)、sim(e1,e2):

(15)

用帶權無向網絡圖G=(V,E)描述數據庫中存在的文檔,圖中的節點V即為文檔中存在的詞,連接節點之間的邊E即為詞之間的聯系,得分D(bi)可通過下式計算得到:

(16)

式中,μ代表阻尼因子;ot(bj)代表節點bi指向的節點構成的集合。

在數據庫主題詞挖掘過程中,建立的圖節點為文檔中存在的短語,上述過程計算得到的余弦相似度sim(e1,e2)即為詞之間的相關性[15-16],連接兩個短語的邊對應的權重Qsim(a1,a2)即為余弦相似度sim(e1,e2)的最大值:

Qsim(a1,a2)=max[sim(ei,ej)]

(17)

拆分文檔中存在的短語,獲得若干個單詞,在此基礎上,計算文章與節點之間的相關性,通過下式獲取節點對應的跳轉概率Qsim(a,f):

Qsim(a,f)=max{sim(ei,f)}

(18)

通過上述過程,建立最終的帶權無向圖D(ai):

(19)

詞語中存在的信息量與長度之間成正比,因此在數據庫主題詞挖掘過程中需要參考詞語的長度。主題詞的挖掘同樣與詞語在文檔中出現的位置有關,通常情況下,關鍵詞會出現在一篇文章的前半部分,如首段、摘要和標題等。因此根據詞語的長度信息和在文章中的位置信息通過下式計算每個詞語在文檔中的最終得分LD(ai),選取得分最高的詞語,作為主題詞,完成數據庫主題詞挖掘:

(20)

式中,p(ai)代表詞語在文檔中出現的位置;l(ai)代表詞語對應的長度。

4 實驗與分析

為了驗證融合LDA主題模型的數據庫主題詞挖掘算法的整體有效性,需要對其展開相關測試。本次測試所用的數據集1和數據集2分別由python爬蟲和Google瀏覽器采集。

為提高數據庫主題詞的挖掘效率,需要對數據集中的數據展開聚類處理,通過聚類處理便于后期在各個類別中挖掘主題詞,可縮短挖掘時間?，F采用融合LDA主題模型的數據庫主題詞挖掘算法、文獻[3]算法和文獻[4]算法對數據集1和數據集2展開聚類處理,處理結果如圖2所示。

圖2 不同算法的數據聚類結果

由圖2可知,所提算法可準確的完成數據集1和數據集2的聚類處理,而文獻[3]算法和文獻[4]算法的聚類結果存在誤差,說明傳統方法的數據聚類能力較差,不利于有效挖掘數據庫主題詞。

困惑度perplexity是評估數據挖掘結果的指標,perplexity越低,表明挖掘結果模糊程度越小,挖掘精度越高:

(21)

加速比speedup可以衡量算法挖掘主題詞的效率,其計算公式如下:

(22)

式中,A代表節點數量;σ代表在整個挖掘過程中算法訓練時間所占的比例。

現采用困惑度perplexity和加速比speedup對所提算法、文獻[3]算法和文獻[4]算法的主題詞挖掘性能展開測試,測試結果如表1所示。

表1 不同算法的挖掘性能

分析表1中的數據可知,在數據庫主題詞挖掘測試過程中,無論是數據集1還是數據集2所提算法均有較高的加速比,表明所提方法可在短時間內在數據庫中完成主題詞的挖掘,且所提算法的困惑度是三種算法中最低的,表明所提算法的挖掘結果模糊程度較小,具有較高的挖掘精度,因為所提算法在數據庫中展開了去噪處理,消除了噪聲對主題詞挖掘過程產生的影響,提高了挖掘精度。

5 結束語

主題詞挖掘可以在數據庫海量數據中獲取用戶所需信息,針對目前數據庫主題詞挖掘算法存在的數據分類精度低、挖掘結果困惑度高和挖掘效率低的問題,提出一種融合LDA主體模型的數據庫主題詞挖掘算法,該算法首先對數據庫中的數據展開了去噪處理,其次對數據分類,在不同數據類別中利用LDA主體模型實現主題詞的挖掘,可有效降低挖掘結果的困惑度,縮短挖掘時間,與目前的數據庫主題詞挖掘算法相比,具有良好的挖掘性能,主要體現在挖掘效率和挖掘精度等方面,促進了數據庫技術的發展。