?

基于文本融合特征的突發事件子話題聚類研究

2023-10-31 09:39蘆子涵鄭中團
智能計算機與應用 2023年10期
關鍵詞:文檔語義聚類

蘆子涵, 鄭中團

(上海工程技術大學 數理與統計學院, 上海 201600)

0 引 言

話題檢測與追蹤(Topic Detection and Tracking,TDT) 是美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)于1996年開展的語言信息研究項目[1],曾在評測會議上對話題等相關要素進行了定義,認為話題是由一個種子事件或活動,和全部與之直接關聯的后續事件和活動構成[2]。 而在國內,曾有學者定義子話題為話題內一組相關事件的集合,是話題內所有事件集合的一個子集[3]。 近年來,突發事件時有發生。 譬如2022 年“3·20”東航航班墜機等事故災難事件、2022 年6 月河北唐山打人等社會安全事件、2021 年“7·20”河南特大暴雨等自然災害事件與至今仍時有發生的2020 年新冠肺炎疫情等公共衛生事件。與此同時,隨著網民規模的擴大與社交平臺的普及,像新浪微博這樣傳播范圍廣、普及率高的社交網絡平臺逐漸成為突發事件的曝光口。 社會大眾可自由地在網絡平臺上發表自身對突發事件的看法或評論,從而形成網絡輿情。 由于突發事件具有不確定性、危害性等特點[4],通常會給社會大眾帶來負面的心理沖擊。 如若不能針對性地根據社會大眾對于某一突發事件所關注的不同子話題來引導積極的輿論走向,并建立輿情治理機制,則會放大社會大眾的負面情緒,引起不必要的激進言論,甚至會對政府機構造成不良影響。 現有研究大多基于事件這一粒度進行話題聚類,而忽略了同一事件下不同側面的更細粒度子話題的研究。 因此,如何有效地挖掘某一事件中的潛在子話題,逐漸成為了新興研究熱點,也對輿情管控相關部門實現輿情精準化管控具有重要現實意義。

本文針對以往話題聚類大多基于事件這一層次,而忽略了同一事件下更細粒度子話題的研究,且文本特征表示上缺乏上下文語義信息的缺陷,提出一種基于LDA 文檔-主題分布與Doc2Vec 句向量融合的文本表示方法與文本相似度計算方法,最后通過Single-Pass 增量聚類算法實現同一突發事件下子話題聚類。

1 相關研究

目前,在話題挖掘領域,多以基于概率主題模型的話題發現、基于文本特征表示的話題聚類兩種為主要途徑與方法。 概率主題模型是對文本中隱含主題的一種非監督建模方法,其認為一篇文檔中的每個詞都是通過以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞的方式得到的。 早期,為解決TF-IDF 文本模型的缺陷,利用奇異值分解將高維共現矩陣映射到低維潛在語義空間的潛在語義分析模型(Latent Semantic Analysis,LSA)被提出。 因其計算復雜度高且缺乏概率基礎,Hofmann[5]在1999 年將LSA 的思想引入到概率模型中,提出概率潛在語義分析模型(Probabilistic Latent Semantic Analysis,PLSA)。 2003 年,Blei 等[6]基于貝葉斯思想,認為文檔-主題概率分布是服從狄利克雷概率分布的隨機變量,提出了潛在狄利克雷模型(Latent Dirichlet Allocation,LDA)。 在話題挖掘領域,LDA 主題模型也成為目前最為成熟的概率主題模型。 由于概率主題模型以詞袋模型為基礎,通常忽略了單詞與單詞之間的語義信息,導致語義缺失、主題可解釋性差等問題。 基于此,趙林靜等[7]通過HowNet 常識知識庫計算單詞間的語義相似度,來調整LDA 主題模型中的超參數β, 提出SS-LDA 模型以提高主題挖掘的精度。 居亞亞等[8]為解決LDA 主題模型語義連貫性較差等問題,在LDA框架下引入GRU 模型加入單詞—單詞和文檔—單詞語義相似度來引導建模,提出了SDS-TM 模型。閆盛楓[9]利用詞嵌入技術進行語義向量編碼,以此來合并同語義信息主題詞并調整主題詞分布及權重,增強了主題模型的語義表達性。 也有學者通過優化LDA 主題建模結果實現子話題的挖掘。 如:周楠等[10]基于PLSA 模型得到每個子話題下不同的詞頻分布,通過相似子話題合并、子話題更新優化主題建模結果,解決了傳統方法的子話題區分度差等缺陷。 夏麗華等[11]將概率主題模型融合詞共現關系,提出GPLSA 方法對原始子話題進行合并與更新,解決了描述同一產品的文檔十分相似,難以保證子話題差異性的問題。

聚類是一種十分重要的非監督學習技術,其任務是按照某種標準或數據的內在性質及規律實現樣本的聚類[12]。 在話題挖掘領域,話題聚類基于文本的特征表示或文本間的相似度,將目標文檔分為若干個簇,使得每個簇內文本間的相似度盡可能高,不同簇間文本的相似度盡可能低。 因而,眾多研究者基于文本特征表示或文本相似度進行話題發現。 史劍虹等[13]利用隱主題模型挖掘微博內容中隱含主題—文檔分布作為文本特征表示,并基于K-means++聚類實現話題發現。 顏端武等[14]針對微博文本高維稀疏與上下文語義缺失等問題,以LDA 文檔—主題分布特征和加權Word2Vec 詞向量特征構建文本融合特征,并通過K-means 聚類實現主題聚類。肖巧翔等[15]提出一種基于Word2Vec 擴充文本和LDA 主題模型的Web 服務聚類方法,將短文本主題建模轉化為長文本主題建模,進而通過K-means 算法更準確地實現了服務內容主題聚類。 趙愛華等[16]針對子話題間文本相似度高的特點,引入主題特征詞相關性分析,提出一種改進的文本相似度計算方法,并基于Single-Pass 增量聚類實現新聞話題子話題挖掘。 李湘東等[17]針對LDA 建模結果較泛化的缺陷,將LDA 建模結果主題—特征詞分布作為文本較粗粒度的特征,將TF-IDF 向量作為文本較細粒度的特征來融合表示文檔,采用知網語義詞典得到文本相似度,通過Single-Pass 聚類實現國內各地時事新聞子話題劃分。

綜上,子話題挖掘多以LDA 主題模型建模、LDA 主題模型建模結果優化、基于文本特征表示的話題聚類為主要方法。 其中,對于評論短文本LDA主題模型具有文本向量高維稀疏、缺乏上下文語義信息等缺陷;改進的LDA 主題模型以引入外部知識庫來修改超參數β來引導建模,通用性低且計算復雜度高。 基于文本特征表示的話題聚類多以事件為層次進行主題發現,而忽略了同一事件下更細粒度、更深層次的子話題聚類研究。 基于此,本文提出一種基于LDA 文檔-主題分布與Doc2Vec 句向量融合的文本特征表示方法與文本相似度計算方法,通過Single-Pass 增量聚類算法實現同一突發事件下子話題聚類。 一方面,上述文本融合特征不僅通過LDA 文檔—主題分布提取了全局主題信息,同時也通過句向量的構建提取了局部上下文語義信息以補充LDA 主題模型語義信息的缺乏。 另一方面,不同于大多話題所基于的事件層次,針對同一事件下子話題相似度高、區分度低的問題,本文給出了一種同一事件下更細粒度、更深層次的子話題聚類方法。

2 預備知識

2.1 LDA 主題模型

主題模型是一種用來發現一系列文檔中隱含主題的無監督統計模型,認為一篇文檔中的每個詞都是以一定概率而選擇某個主題,并從該主題中以一定概率而選擇某個詞所生成的。 如圖1 所示,LDA主題模型是2003 年被Blei 等人[6]提出的文檔—主題—單詞的三層貝葉斯主題模型。 該模型以詞袋模型為基礎,認為一篇文檔是由詞所組成的集合,而詞與詞之間沒有語義聯系與順序。 其能夠將一篇文檔表示為隱含主題的多項分布,即該文檔屬于每個主題的概率;將主題表示為詞集上的多項分布,即該主題下各個詞出現的概率。 與其他概率主題模型不同的是,LDA 主題模型基于貝葉斯思想,認為文檔—主題分布θd的先驗分布為Dirichlet 分布,即θd =。 主題—詞分布βk的先驗分布為Dirichlet 分布,即βk =。

圖1 LDA 主題模型Fig.1 LDA topic model

在LDA 主題模型中,通常使用Gibbs 采樣算法[18]來進行求解。α,η作為已知的先驗輸入,目標是得到各個zd,n、wd,n對應的整體文檔—主題分布與主題—詞分布。

2.2 Doc2Vec 模型

為表達整條文本評論或整篇文檔的特征,常將由Word2Vec 得到的詞向量進行向量拼接,此方法導致信息損失較大,得到的新向量不能涵蓋豐富語義信息內容[19];或將由Word2Vec 得到的詞向量進行平均求和,但此方法未考慮到詞與詞之間的語序信息,一定程度上忽略了文本上下文語義信息。Mikolov 等 人[20]在Word2Vec 的 基 礎 上 提 出 了Doc2Vec 模型, 以期構建文檔的向量化表示。Word2Vec 模型本質上一個具有輸入層、隱藏層、輸出層的三層神經網絡結構,其包含CBOW(Continue Bag of Words)與Skip-Gram 兩種學習模型。 CBOW模型根據所輸入的目標詞上下文單詞的One-Hot向量表示來輸出對目標詞的預測,而Skip-Gram 則是輸入當前詞來預測上下文詞。

與Word2Vec 不同的是,Doc2Vec 模型在訓練過程中增加了段落向量Paragraph id,進而可以結合上下文詞訓練文本,從而得到句向量和文本向量[21]。在Doc2Vec 模型中,段落向量與單詞一樣首先將被映射成一個句向量Paragraph Vector,其次將段落向量與上下文詞語所映射成的向量累加或拼接起來,作為輸出層的輸入。 由于Paragraph Vector 在同一個文檔的每一次訓練中是共享的,因此隨著文檔每次滑動窗口取上下文單詞訓練的過程中,Paragraph Vector 作為輸入層向量的一部分每次都將被訓練,向量所儲存的段落信息將會越來越準確。 Doc2Vec模型同樣包含PV-DM(Distributed Memory)與PVDBOW(Distributed Bag of Words)兩種學習模型。 本文擬采用PV-DM 模型,如圖2 所示。 PV-DM 模型根據所輸入目標詞的上下文單詞來預測目標詞,而PV-DBOW 則是輸入當前詞來預測上下文詞。

圖2 Doc2Vec 模型Fig.2 The model of Doc2vec

3 基于文本主題與語義融合特征的子話題聚類

3.1 思路與流程

本文針對同一突發事件下子話題具有相似度高而區分度低的特點,同時考慮到LDA 主題模型以詞袋模型為基礎,其構建的單一主題特征常忽略文本語義信息的問題,重點構建基于文本主題特征與文本語義特征的文本融合特征向量,并對上述兩種不同特征的文本相似度進行線性結合,從而通過Single-Pass 增量聚類實現突發事件下子話題聚類。首先,以新浪微博平臺為數據來源,爬取突發事件評論文本構建語料庫,并對數據進行清洗、分詞、去停用詞等預處理;其次,在全局主題層面通過LDA 主題模型提取文檔—主題分布以表達文本主題特征,在局部語義層面通過Doc2Vec 模型提取文檔句向量以表達文本語義特征,從而構建文本融合特征;然后將基于KL 距離與余弦相似度線性結合計算融合特征相似度,以度量文本相似度;最后通過Single-Pass 增量聚類實現子話題聚類。 具體流程如圖3 所示。

圖3 研究思路與流程Fig.3 Research process

3.2 文本融合特征的構建

假設預處理后的突發事件評論文本語料庫D ={d1,d2,…,dn},其中n為語料庫中評論文本的數目。 首先,通過LDA 主題模型提取文本主題特征。LDA 主題模型所提取的主題信息為T ={t1,t2,…,tk},K為主題個數,通常由人為自主設定,本文將采用困惑度這一指標來確定最優主題個數。 本文采用Gibbs 采樣算法求解LDA 主題模型,在初始時刻為每個單詞隨機地賦予主題,其次,對于每個文本d中的每個詞,通過Gibbs 采樣公式獲取其所對應的主題。 Gibbs 采樣公式如式(1)所示:

其中,n(dk)表示在第d個文本中第k個主題詞的個數,n(kv)表示第k個主題中第v個詞的個數。

重復上述采樣過程直至Gibbs 采樣收斂,即可得到所有詞的采樣主題。通過統計每個文本d對應詞的主題計數, 每個文本d可表示為θd ={(t1,θt1) ,(t2,θt2) ,…,(tk,θtk)} 的 文 檔—主 題 分布,完成文本主題特征的提取。 其次,通過Doc2Vec模型提取文本語義特征。 本文采用Doc2Vec 中的PV-DM 模型,使用Python 中Gensim 庫的Doc2Vec接口來訓練語料庫,從而得到語料庫中每個文本d的句向量表示Sd =[s(d,1),s(d,2),…,s(d,m)].

由于基于詞袋模型的LDA 主題模型所提取的主題特征往往忽略了文本語義信息,而Doc2Vec 模型所訓練的文本句向量能夠補充性地提取上下文語義信息,彌補LDA 主題特征的這一缺陷。 因此,本文將基于LDA 主題模型與Doc2Vec 模型所提取文本主題特征與文本語義特征進行橫向拼接,構建文本融合特征矩陣ST。

3.3 文本相似度計算

文本相似度的計算是子話題聚類的前提,本文將基于KL 散度與余弦相似度計算文本主題概率分布相似度與句向量相似度,并將二者進行線性組合,從而得到本文所構建的融合特征相似度,即文本相似度,式(2):

其中,di與dj表示評論文本。

3.3.1 基于KL 距離的文本主題特征相似度

KL 距離(Kullback-Leibler Divergence,KL)用來衡量相同事件空間里的兩個概率分布的差異情況,又被稱為相對熵。 在本文中,評論文本di的文檔—主題分布表示為p(t),評論文本dj的文檔—主題分布表示為q(t),p(t) 與q(t) 的概率分布越相似,則兩者之間的KL距離越?。?6]。p(t) 與q(t) 之間的KL距離如式(3) 所示:

考慮到KL距離具有非對稱性,交換p(t) 與q(t) 的位置后結果大不相同,參考文獻[9]的做法,可采用公式(4)計算文檔—主題概率分布之間的距離:

3.3.2 基于余弦相似度的文本語義特征相似度

針對通過Doc2Vec 模型訓練所提取的表征文本語義特征的句向量,采用余弦相似度來計算文本語義特征相似度,如式(5)所示。

其中,Sdi、Sdj為評論文本di、dj的文本語義特征。

3.4 子話題聚類算法流程

本文采用Single-Pass 增量聚類[22]實現子話題聚類,該算法是話題檢測中一種常用算法,又稱單通道法。 在Single-Pass 算法中,需要自主預設一個聚類閾值,對于所輸入的評論文本,計算當前評論文本與已有話題聚類簇之間的相似度,若相似度大于預設的聚類閾值,則將該評論文本判為已有話題聚類簇;否則,將該評論文本作為簇核心創建新的話題簇。 本文將所構建的文本融合特征與文本相似度計算嵌入Single-Pass 聚類算法中,具體算法流程見表1。

表1 子話題聚類算法流程Tab.1 The process of sub-topic clustering algorithm

4 實驗與分析

本文將以新浪微博為數據來源,以“鄭州地鐵7.20 事件”為突發事件評論語料庫進行3 組實驗。第一組實驗采用困惑度(Perplexity)評價指標,得出1~10 個主題下的困惑度值,從而確定最優主題數;第二組實驗采用F1 值尋找能夠使F1 值達到最高的聚類閾值,從而確定最佳聚類閾值σ; 第三組實驗生成3 種評論文本特征向量,其中包括LDA 文檔—主題分布向量、Doc2Vec 句向量以及本文的融合特征向 量, 采 用查 準 率(Precision)、 召 回 率(Recall) 與F1 值對比3 種文本特征向量子話題聚類效果,以驗證基于本文融合特征子話題聚類的有效性。

4.1 突發事件概述與數據預處理

2021 年7 月20 日,河南鄭州發生罕見特大暴雨。 當日晚19 時左右,據鄭州本地廣播官方微博@MyRadio 發布的微博稱,鄭州地鐵5 號線雨水倒灌,車廂內積水已到達乘客胸部,數名乘客被困。 隨后該條微博被澎湃新聞官方微博@澎湃新聞轉發,轉發人次5.2 萬,評論人次3.7 萬,事件爆發。 截至當日晚間22 時左右,消防救援人員陸續疏散被困人員500 余人。 7 月21 日上午,鄭州地鐵官方發布稱此次事件導致12 人遇難。 隨后,兩名個人用戶發布博文稱有乘客鄒某、沙某仍失聯。 26 日,乘客鄒某、沙某確認遇難。 27 日上午,鄭州官方發布此次事件最終導致14 人遇難,再次引起一波輿論高潮。 2022年1 月21 日,國務院調查組調查認定鄭州地鐵5 號線亡人系責任事件,是造成重大人員傷亡與財產損失的突發事件。

本文以“鄭州地鐵5 號線”、“多人被困”等為關鍵詞,以2021 年7 月20 日19 時—2021 年7 月31日22 時為時間區間,每2 小時為一個時間段,利用Gooseeker 集搜客數據抓取器采集數據,共采集到6 657條評論文本作為語料庫。 每條評論文本包含5個字段:用戶ID、發布時間、評論內容、點贊數與評論數。 對語料庫進行以下預處理操作:

(1)數據清洗。 去除與話題不相關的評論文本,剔除特殊字符如表情、評論圖片等;

(2)人工標注。 結合鄭州地鐵5 號線事件期間微博熱搜內容,對評論文本進行話題標注,以便后續有效性驗證;

(3)分詞。 采用Python 中Jieba 庫對評論文本進行分詞,同時加載分詞詞典以識別該事件特定詞;

(4)去停用詞。 根據停用詞表去除標點符號、語氣助詞等詞語。

4.2 評估指標

本文采用查準率(Precision)、召回率(Recall)、F1 值來對比3 種文本特征向量子話題聚類效果,其值越高,說明方法效果越好。

查準率(Precision) 是指預測為屬于子話題Ci的評論文本中,實際屬于子話題Ci的評論文本比例;召回率(Recall) 為實際屬于子話題Ci的評論文本中,被預測為屬于子話題Ci的評論文本比例。

其中,C為子話題簇個數。

整體聚類效果采用F1 對各個子話題的聚類效果求平均的方式來度量。

4.3 實驗結果與分析

4.3.1 實驗1 確定最優話題個數

在LDA 主題模型提取文本主題特征中,主題個數的選取能夠直接影響到特征提取效果。 若僅依賴人為設定,LDA 主題模型的性能將無法保證。 因此,本實驗采用困惑度(Perplexity)評價指標來確定最優主題個數。 困惑度常被用來衡量概率分布或概率模型樣本的優劣性[23]。 在自然語言處理中,可用于LDA 主題模型,確定最優主題個數,如式(8)所示:

其中,V表示語料庫D中所有詞的集合;N表示語料庫中評論文本的數量;Wd表示評論文本d中的詞;Md表示每個評論文本d中的詞數;p(Wd) 表示文本中詞出現的概率。

實驗中根據“鄭州地鐵7.20 事件”期間新浪微博熱搜詞條,擬定1 ~10 區間內的整數為實驗主題數,得到困惑度變化如圖4 所示。

圖4 確定最優主題個數Fig.4 The determination of the optimal number of topics

通常情況下,困惑度隨著主題數量的增加而呈現遞減的規律。 困惑度越小,意味著主題模型的生成能力越強[24]。 通過圖4 可以看出,當T =8 時LDA 主題模型困惑度最小,因此本文將主題個數T設定為8。

4.3.2 實驗2 確定最佳聚類閾值

實驗中采用4.2 節所描述的F1 值來計算不同聚類閾值下聚類效果的優劣。 經多次實驗,當聚類閾值小于0.3 時,所有評論文本被聚類為同一簇,聚類閾值過小。 因此,本實驗中擬定聚類閾值在σ∈(0.3,1) 這一區間內,分別進行6 次實驗,得到F1值變化如圖5 所示。 可以看出,當聚類閾值σ =0.52時,聚類效果最好,此時的F1 值為0.724,因此本文將確定聚類閾值σ為0.52。

圖5 確定最佳聚類閾值Fig.5 The determination of threshold value in clustering

4.3.3 實驗3 對比實驗與分析

為驗證本文基于融合特征表示的子話題聚類方法的有效性,對于LDA 主題模型所提取單一文本主題特征文檔—主題分布、Doc2Vec 模型提取單一文本語義特征句向量、3.2 節所表述的文本融合特征分別進行Single-Pass 子話題聚類實驗,并采用精確率、召回率、F1 值來度量聚類效果的優劣。 實驗結果見表2。

表2 實驗3 結果對比Tab.2 The result of test 3

依據表2 中數據分析可知:

(1)基于單一文本語義特征的子話題聚類的F1值為67.3%。 Doc2Vec 模型通過三層神經網絡根據所輸入的目標詞來預測目標詞的上下文單詞,從而得到副產物句向量與詞向量。 一方面,相比將一條評論文本中每個詞的詞向量進行求和或加權平均求和來表示整條文本評論的方法,Doc2Vec 能夠給出整條文本評論的文檔向量化表示,能夠避免前者忽略單詞在句子中的語序問題;另一方面,相比于LDA 主題模型基于詞袋模型,Doc2Vec 模型能夠有效提取文本中的語序及上下文語義信息。 但未考慮文本的全局信息,因而在F1 值位于另外兩種特征子話題聚類之間。

(2)基于單一文本主題特征的子話題聚類的F1值為64.4%,相較于另外兩種特征F1 值最低。 LDA主題模型將文本表示為維數為主題個數的多項分布,從而提取文本全局主題特征。 LDA 主題模型所基于的詞袋模型忽視了文本中單詞的語序與語義表達,對于同一突發事件下相似度高、區分度差的評論文本而言,雖能夠提取文本的主題特征,但僅用LDA 主題特征來進行相似背景子話題聚類,則難以發揮LDA 主題模型的優勢與作用。

(3)基于融合特征的子話題聚類方法相較于單一特征聚類效果最佳,F1 值達72.4%。 融合特征考慮到同一突發事件下子話題具有相似背景詞而導致區分度差的特點,且LDA 主題模型所提取主題特征基于詞袋模型,缺乏語義信息,從文本主題層面與語義層面融合LDA 文檔—主題分布與Doc2Vec 句向量,改善了單一特征進行子話題聚類的缺陷,能更加全面有效地表達文本特征,從而提高同一突發事件下子話題聚類效果。

5 結束語

本文提出的基于文本融合特征的子話題聚類方法,結合LDA 主題模型提取的文本主題特征與Doc2Vec 模型提取的文本語義特征構建一種文本融合特征,并通過Single-Pass 增量聚類實現子話題聚類。 研究中使用本文方法,以新浪微博為數據來源平臺,對“鄭州地鐵7.20 事件”這一突發事件評論文本進行實驗分析。 在對比實驗中,采用F1 值與兩種單一特征子話題聚類進行聚類效果評估。 實驗結果表明,融合特征能更加全面地表達文本特征,改善了單一特征進行子話題聚類缺乏上下文語義信息及忽略語序的問題,有效地提高了突發事件中子話題聚類的準確率。

受各方面因素所限,本文還存在一定的局限與不足。 在突發事件網絡輿論中,網民往往帶有濃烈的正向或負向的情感色彩。 因此,在文本的特征表達中,如何提取評論文本的情感特征并將其進行融合處理,從而更有效地進行子話題挖掘,在后續的研究中仍有待進一步深入和突破。

猜你喜歡
文檔語義聚類
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
語言與語義
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
基于RI碼計算的Word復制文檔鑒別
“上”與“下”語義的不對稱性及其認知闡釋
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一種層次初始的聚類個數自適應的聚類方法研究
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合