?

基于專家混合與領域特征的網絡謠言識別模型*

2023-12-18 17:25安全徐國天中國刑事警察學院
警察技術 2023年6期
關鍵詞:謠言卷積專家

安全 徐國天 中國刑事警察學院

引言

隨著互聯網的快速發展和廣泛應用,以微博為代表的社交媒體平臺已成為人們獲取政治、金融和健康等信息的重要渠道。然而,社交媒體平臺在方便人們分享信息的同時,也為網絡謠言傳播提供了新渠道。2023年7月21日,公安部召開新聞發布會,自開展為期100天的網絡謠言打擊整治專項行動以來,全國公安機關共偵辦案件2300余起,整治互聯網平臺企業近8000家,依法關停違法違規賬號2.1萬余個,清理網絡謠言信息70.5萬余條[1]。謠言發布者利用熱點新聞的熱度散布虛假信息,混淆視聽,給社會帶來實際威脅的同時,也會削弱公眾對政府和媒體的信任。

為了打擊網絡謠言,學者們曾采用機器學習算法,將謠言檢測視為二分類問題,從文本內容和用戶個人資料等信息中提取各種類型特征[2]。這些特征可以包括詞頻、詞向量和句法結構等,之后對提取的特征進行學習,從而建立分類檢測模型。傳統的機器學習方法側重于人工提取特征來對謠言進行檢測。例如,2011年,Castillo等人[3]利用文本、主題和傳播特征來研究Twitter新聞的可信度,并構建決策樹分類模型;2015年,Ma等人[4]提出動態時間序列結構模型,該模型能夠抓取多種社會語境特征隨時間的變化,在網絡謠言傳播早期階段展現出強大的識別能力;2016年,曾子明等人[5]定義了用戶可信度和微博影響力特征,并提出融合LDA和隨機森林的謠言識別模型。

機器學習算法在特征提取與選擇過程中,不僅耗費大量的人力、物力與時間,且獲取特征的魯棒性也不足。隨著網絡謠言規模和復雜性增加,深度學習方法應運而生。2016年,Ma等人[6]將謠言文本內容輸入到循環神經網絡中,利用隱層向量表示文本信息并輸入到分類器中,得到分類結果;2017年,Feng等人[7]對新聞內容進行建模,將向量拼接成一個矩陣并用卷積神經網絡提取文本特征,最終將嵌入向量輸入到分類器中進行檢測;2019年,Ma等人[8]利用對抗學習方法訓練生成器和判別器,擴展訓練數據。將生成內容和原始內容輸入到分類器中進行檢測,提升模型的魯棒性和分類準確率;2021年,南瓊等人[9]構建了中文多領域虛假新聞數據集Weibo21,并提出多領域虛假新聞檢測模型MDFEND,該模型利用注意力機制提取新聞的內容和領域特征,通過門控網絡對特征表示進行聚合,從而進行多領域虛假新聞檢測工作;2022年,耿唯佳等人[10]融合TextCNN和TextRNN模型,挖掘文本語義和時序特征,對兩種特征進行加權融合,實現對網絡謠言的識別;2023年,吳越等人[11]提出了基于并行圖注意力網絡的謠言檢測方法ParallelGAT,該模型分別使用BiCAT和MIGAT模塊獲取謠言的傳播和知識特征,最終通過聚合模塊生成的特征向量進行謠言檢測。

早期,由于網絡謠言數據量少,研究者們將不同數據混合用于檢測工作[12]。然而,這種方式忽略了不同領域間謠言的差異,例如,健康類謠言的高頻關鍵詞有“新冠”“醫院”和“病毒”等;事故類謠言的高頻關鍵詞有“地震”“火災”和“車禍”等。隨著數據量的增加,研究者們開始根據謠言所屬領域進行檢測工作[13]。在疫情期間,“喝白酒,能夠預防新冠病毒感染”等無根據言論在社交媒體平臺上層出不窮。研究者們利用深度學習模型開展有關新冠病毒網絡謠言的檢測工作,并取得顯著進展[14]。以ELECTRA模型為例,在COVID-19FakeNews數據集上訓練后準確率可達94.8%[15]。然而,將這類模型應用于其它領域謠言時,檢測效果則會大打折扣。

現有的網絡謠言檢測方法多是利用單一領域的大量數據來訓練模型。這些模型在相應領域的性能較高,但在實際生活中面對多個領域數據,此類模型泛用性不足,實用價值也隨之降低。為了進一步研究和開發適用于多樣化情境下的網絡謠言檢測模型,提高檢測的精度和覆蓋率,本文提出一種基于專家混合和領域特征的謠言識別模型WMTC。模型采用WoBERT預訓練模型,將謠言的文本內容轉化為向量表示,選擇改進的多尺度TextCNN模型作為“專家模型”進行特征提取,之后根據謠言所屬領域對特征進行加權融合并輸入分類器中進行檢測。實驗結果表明,該模型的性能要優于其它混合、單領域和跨領域謠言檢測模型。

一、網絡謠言檢測模型

(一)預訓練模型WoBERT

BERT是GoogleAI研究院[16]于2018年發布的一種預訓練模型。傳統BERT模型采用WordPiece分詞操作,會將文本分割成較小的子詞來加快訓練速度。但對于中文來說,BERT會將每一個漢字都切分開,訓練的結果就是孤零零的漢字向量。在現代漢語中,以字為單位建模無法表達詞語或者短語中包含的豐富語義信息,這也造成BERT在很多中文任務上的表現并不理想。2020年,有研究人員發布了基于詞顆粒度的中文語言預訓練模型WoBERT[17]。該模型會使用結巴分詞對輸入的內容進行“預分詞”操作,如果詞匯在分詞表中則保留,否則將其切分為字。最后,將詞序列拼接起來,作為最后的分詞結果。實驗結果表明,WoBERT在中文文本分類等任務上的性能要優于Google發布的中文BERT。因此,本文選用WoBERT作為預訓練模型。

(二)改進的多尺度TextCNN模型

相較于傳統的卷積神經網絡,TextCNN網絡結構簡單,僅包含一個卷積層和一個池化層,使用Softmax來進行分類。模型的參數數目少,訓練速度快,對文本數據的淺層特征提取能力很強。但在長文本領域,TextCNN受限于卷積核大小,較長文本可能會被截斷或忽略部分信息,并且該模型是基于局部窗口進行卷積和池化操作,因此無法充分捕捉到全局語義和上下文信息。

2014年,Google公司發布的GoogLeNet[18]采用Inception模塊來優化卷積神經網絡,即分別使用池化和卷積操作來縮小特征圖尺寸,再將兩者得出的特征圖組合起來,這種做法既增加了網絡的寬度和深度,又減少了模型的參數量,降低了過擬合風險。本文借鑒Inception模塊的思想,對TextCNN進行改進:在原有卷積層前添加池化核和卷積核,增加通道數并對文本信息的淺層特征進行提取。然后,并行使用多個不同尺寸的卷積核對特征進行進一步提取,并使用零填充保持維度不變。最后,將卷積層輸出的特征疊加后進行最大池化,得到特征向量。改進的多尺度TextCNN模型,如圖1所示。

(三)混合專家模型

混合專家模型的核心思想是將多個專家模型組合成一個大型集成模型。從結構角度來說,混合專家模型可以分為兩個部分,分別是專家模型和門控網絡,專家模型是多個獨立子模型組成的集合,每一個子模型被稱為一個專家模型。專家模型之間相互獨立,學習相同或不同的特征,本文選用多尺度TextCNN作為專家模型;門控網絡通過學習參數決定哪些專家模型應該對特定輸入數據或任務負責,從而將多個專家模型的預測結果進行加權組合,得到最終的輸出結果。使用混合專家模型可以顯著提高模型在處理復雜任務時的性能,但是卻存在著負載不平衡的問題:在最初的幾個樣本上表現較好的專家模型會被門控網絡分配更高的權重,并得到更充分的優化,而其余專家模型無法被充分訓練。2021年,Simiao等人[19]提出負載不平衡本質上是由門控網絡造成的,該問題源自于門控網絡的初始化或優化過程,因此使用隨機門控網絡可以從根本上解決負載不平衡問題。

(四)基于專家混合和領域特征的謠言識別模型WMTC

本文在WoBERT和多尺度TextCNN的基礎之上,結合混合專家模型提出一種基于專家混合和領域特征的謠言識別模型WMTC,整體框架如圖2所示。

模型的工作流程如下:

對數據進行預處理,將網絡謠言文本內容作為WoBERT的輸入,編碼后得到一組詞向量W={W1,…,WN},N為編碼后詞向量序列的長度。選用多尺度TextCNN作為專家模型,一個專家模型提取的特征只能包含部分信息,無法覆蓋謠言內容的全部特征。為了獲取各個領域中謠言內容的高質量表示,模型利用專家混合的優勢,同時使用多個專家模型(T=5)對謠言內容進行特征提取。每個專家模型可以表示為公式(1):

其中,W是輸入每個專家模型的詞向量,βi是模型參數,T是專家模型數量,則每個專家網絡提取的特征可表示為公式(2):

將網絡謠言的領域標簽作為WoBERT的輸入,編碼后得到一組領域向量X={X1,…,Xd},然后,將領域向量輸入多層感知機生成專家模型的權重向量。最后,與均勻分布生成的隨機矩陣A相乘,使權重向量α具有一定的隨機性并進行Softmax歸一化。權重向量α可以表示為公式(3):

使用權重向量α={α1,α2,…αi}(1≤i≤T)來對不同專家模型獲取的特征表示進行聚合,各維度代表不同專家模型在不同領域所占權重。最終獲得謠言內容的特征向量可表示為公式(4):

使用有Softmax輸出層的MLP作為分類器,交叉熵作為損失函數,y為預測值,yi為真實值,則有公式(5)和公式(6):

本文模型將WoBERT和多尺度TextCNN相結合,充分利用了它們各自的特點:WoBERT作為一種強大的預訓練語言模型,能夠充分理解文本內容的上下文信息,并捕捉詞匯、句法和語義的豐富信息。WoBERT豐富的詞向量表示,可以幫助TextCNN模型更好地理解和刻畫文本的語義和上下文關系?;旌蠈<夷P涂梢愿鶕W絡謠言所屬的領域生成不同的權重來調整不同專家模型的貢獻,從而顯著地提高了模型的泛用性和準確率。

二、實驗設置

(一)數據集

本文使用中科院計算技術研究所,數字內容合成與偽造檢測實驗室的Weibo21數據集進行網絡謠言檢測實驗。該數據集是中文文本數據,包含2014年12月至2021年3月,微博社區管理中心官方帳戶認定的網絡謠言,以及同時期經睿鑒識謠平臺鑒定的真實新聞。每條數據包含網絡謠言的文本內容、評論和時間戳等多個維度的信息,共有4488條網絡謠言和4640條真實新聞,涵蓋科技、軍事、教育、災害、政治、健康、金融、娛樂、社會共9個領域。

在數據預處理階段,首先,對數據進行篩選,僅保留文本內容、所屬領域和標簽3個特征;然后,使用正則表達式對文本內容中的特殊符號、亂碼文字和emoji表情進行去除;最后,對數據集進行隨機化,將得到隨機數據集按照6:2:2劃分為訓練集、驗證集和測試集。

(二)實驗環境及參數設置

本文實驗環境為一臺運行內存為32GB,硬盤空間為1TB,搭載2.30GHz的12th Gen Intel CoreTMi7-12700H處理器,GPU為NVIDA GeForce RTX 3060(顯存6GB),安裝Windows11操作系統的電腦。編程語言和平臺版本為Python3.7.13,集成開發環境采用PyCharm Community Edition 2022.2,主要使用的深度學習庫為pytorch1.12、transformers4.27.3、numpy1.19.5。

本文模型可分為WoBERT、多尺度TextCNN和分類器三部分。在WoBERT模型部分,選用的預訓練模型為WoBERT Plus,嵌入維度設置為768。在處理文本數據時,限制文本序列的最大長度為170個標記;在TextCNN部分,模型第一層池化層的池化核尺寸為768*5,第1層卷積核尺寸為768*5,第二層卷積核尺寸分別為1*1、3*1、5*1、10*1和15*1。在兩層之間進行批量歸一化并使用ReLU作為激活函數,最終輸出維度為256;在分類器部分,包含線性層、BatchNorm和Dropout層,其中Dropout概率設置為0.2,選用ReLU作為激活函數;整個訓練過程中,用于數據加載器中的工作線程數指定為4。經過實驗和模型調優后,本文在模型使用Adam優化器來自動調整學習率和權重衰退,其參數初值分別選定為0.0001和5e-6。在綜合考慮計算資源、內存限制和模型復雜度后,本文選定批量大小為64。通過觀察模型的收斂情況,本文選定模型訓練的epoch為20。

(三)模型評價標準

在使用深度學習模型進行分類任務時,通常使用精確率(Precision)、召回率(Recall)和F1分值(F1 Score)來評判模型性能的好壞。根據三種指標構成的混淆矩陣結構見表2。

其中,TP表示被模型檢測為網絡謠言,并且檢測正確的樣本數量;FP表示被模型檢測為網絡謠言,但是檢測錯誤的樣本數量;FN表示被模型檢測為真實新聞,但是檢測錯誤的樣本數量;TN表示被模型檢測為真實新聞,并且檢測正確的樣本數量;N則表示TP、FP、FN、TN的總和,代表測試數據集中所有樣本的數量。

在本文中,以上三種指標的具體評價方式如下:

(1)精確率表示所有被預測為網絡謠言的樣本中,預測正確的樣本數量所占比例,如公式(7)所示。

(2)召回率表示所有網絡謠言樣本中,預測正確的樣本數量所占比例,如公式(8)所示。

(3)F1分值是精確率和召回率的加權平均值,如公式(9)所示。

精確率體現了模型對真實新聞的區分能力,精確率越高,模型對真實新聞的區分能力越強;召回率體現了模型對網絡謠言的識別能力,召回率越高,模型對網絡謠言的識別能力越強;F1分值是兩者的綜合,F1分值越高,模型越穩健。

三、實驗結果及分析

(一)基準模型

為了評估本文提出的WMTC模型在謠言檢測任務中的實際效果,在實驗中使用經過上述預處理后的數據集,與其它基準模型的檢測效果進行比較。為了確?;鶞誓P徒Y果的公正性,本文在進行單領域基準模型的實驗時,每次使用1個領域的數據對模型進行訓練并進行試驗;在進行混合基準模型實驗時,使用所有領域的數據對模型進行訓練,并分別對每個領域進行試驗。本文實驗采用的基準模型有:

(1)BERT:使用相同的預訓練模型WoBERT Plus,并將模型參數設置為凍結狀態;

(2)TextCNN:使用多尺度TextCNN模型進行試驗,模型與專家模型結構保持一致;

(3)MMoE[20]:多任務學習模型,MMoE在MoE的基礎上進行改進,對每個子任務都引入一個門控網絡,以此來捕獲不同子任務之間的差異性。使用該模型進行試驗時,將不同領域網絡謠言內容視為不同子任務進行建模;

(4)EDDFN[21]:該模型引入一種無監督技術,選擇一組未標記的信息新聞記錄進行人工標簽,可以聯合保存新聞記錄中的特定領域和跨領域知識,以檢測來自不同領域的網絡謠言;

(5)MDFEND:該模型使用TextCNN作為專家模型,將謠言內容作為門控網絡的輸入,并通過注意力機制來提取謠言的領域特征為專家模型分配權重。

(二)實驗結果對比

WMTC模型與其它基準模型在Weibo21數據集上的實驗結果見表3至表5。

(三)實驗結果分析

通過比較WMTC模型與其它基準模型的實驗結果,可以得出如下結論:

(1)比較單領域和混合檢測模型的結果,可以發現,混合檢測模型的3項性能均高于單領域檢測模型。說明收集多個領域的網絡謠言對模型進行訓練,有助于提高模型的性能和魯棒性;

(2)比較混合和跨領域檢測模型的結果,可以發現,跨領域檢測模型的3項性能均高于混合檢測模型,說明了網絡謠言的領域特征對模型訓練的重要性;

(3)比較WMTC和MMOE模型的結果,可以發現,不同領域的網絡謠言之間存在著一定的聯系,可以利用其它領域的數據來提高特定領域的檢測效果;

(4)比較WMTC和MDFEND模型的結果,可以發現,使用隨機矩陣可以緩解混合專家模型的復雜不平衡問題,從而提高模型性能;

(5)比較模型的召回率和精確率,可以發現,選用的模型除MMOE模型外,均對網絡謠言的區分能力比較強;

(6)WMTC模型在對網絡謠言內容進行特征提取的同時,按照謠言所屬領域對特征進行聚合,有效對謠言內容和領域之間的關系進行建模。因此,在Weibo21數據集上,WMTC模型綜合性能優于其他模型,證明了該模型的有效性和優越性。

四、結語

本文針對現有的網絡謠言檢測模型在多樣化情景下性能低的問題,提出了一種基于專家混合和領域特征的謠言識別模型WMTC。模型使用WoBERT和多尺度TextCNN對謠言文本內容進行高質量的提取,之后結合領域信息生成權重,對專家模型提取的特征進行聚合。實驗結果表明,WMTC模型在Weibo21數據集上的綜合表現優于現有的單領域、混合以及跨領域謠言檢測模型。但模型仍存在一些不足之處,需要進一步研究和改進,現實中社交網絡平臺上,往往充斥著各種類型的網絡謠言,本模型僅能對網絡謠言的文字內容進行識別,無法識別圖片和視頻信息。因此,針對網絡謠言檢測引入圖像信息處理技術是未來需要進一步研究和改進的方向。

猜你喜歡
謠言卷積專家
中國使館駁斥荒謬謠言
致謝審稿專家
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
當謠言不攻自破之時
基于傅里葉域卷積表示的目標跟蹤算法
謠言
請叫我專家
謠言大揭秘
專家面對面
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合