?

基于超級網絡理論的謠言檢測模型研究

2023-02-08 06:06郭曉晨

郭曉晨

(安徽工商職業學院 管理學院,合肥230041)

隨著計算機技術的飛速發展,新浪微博等幾個主流的社交網絡平臺為人們自由發表意見提供了渠道.這些社交網絡平臺在帶來了便利的同時,也帶來了一些嚴重的安全問題,而謠言檢測則是其中一個關鍵的研究領域.謠言的傳播會引起嚴重的社會問題并擾亂公共秩序,因此設計和優化能夠準確、及時地檢測謠言極其重要.現有的謠言檢測模型一般基于用戶信息或帖子內容等特征進行研究[1-3],但是仍然缺少系統的模型聯合考慮多種特征來進行謠言檢測.本研究基于超級網絡理論提出了一種新穎的謠言檢測模型,構建了一個三層的超級網絡以描述微博帖子的特征,并基于此提出了一個謠言分類器以進行謠言檢測.

1 謠言特征

Twitter和新浪微博是兩個主要的微博平臺,而不同平臺(數據集)中的謠言之間存在著差異.由于現有的大多數研究都將Twitter作為研究對象,因此將新浪微博平臺作為研究對象,探討謠言檢測問題.微博辟謠公眾號所提供的年度謠言統計信息有益于我們的特征選擇過程,主要考慮以下三類主要特征.

第一類是與用戶有關的特征.微博用戶的大部分信息(例如性別、年齡、賬號類型、位置、關注數和關注度)都可以直接在個人頁面找到.此外,用于發布微博的客戶端程序類型也是一個顯著的特征.大多數傳播謠言的用戶實際上只是一些被謠言蒙蔽了雙眼的普通用戶,因此對這一特定用戶群的檢測是重要的研究重點領域.

第二類特征是與內容有關的特征.與微博內容相關的特征包括了內容是否包含網址、問號出現的頻率、任意詞和暫定詞的數量,其中大部分是根據關鍵詞計算的.與內容有關的特征是判斷某個微博帖子是否為謠言的重要依據.另外,諸如轉發和評論數量等內容擴散特征也是需要考察的重要因素.

第三類是與心理有關的特征.基于心理的特征對于在線情感分析非常重要,因此考慮將此類特征應用于謠言檢測中.之前的研究普遍認為只有擁有負面情緒的帖子才能成為謠言,然而一個帖子所包含的心理很復雜,部分謠言也可能會有積極的情緒.

2 謠言檢測模型

2.1 超級網絡模型

超級網絡可以全面描述復雜的關系,運用超級網絡理論可以從微博帖子中挖掘和發現更多有用的信息.此外,得益于超級網絡獨特的多層次、多維度、多屬性的優勢,可以更好地反映互聯網輿情的復雜性和動態性.[4]建立了一個具有三層子網絡的超級網絡:社交子網絡、心理子網絡和關鍵詞子網絡,創建謠言的謠言檢測系統,如圖1所示.

圖1 超級網絡模型

在本超級網絡中,所有子網絡都是無向網絡.位于同一子網絡內的邊是正常邊,連接不同子網絡的邊稱為超級邊.一條超級邊表示一個完整的帖子,其中包括該帖子的用戶、心理和內容.[5]如圖1所示,超級邊(虛線)所表示帖子是由用戶a1發表的帖子,其心理為p1,由關鍵字k1、k3和k4組成.分別用矩陣S、P和K來表示不同子網絡中的鄰接關系,其中矩陣元素的值為0表示節點之間沒有連接,元素值為1表示有連接.對于社交子網,社交矩陣是根據用戶之間的關注關系建立的.例如,在圖1中,用戶a2關注了用戶a1,因此Sa1a2=Sa2a1=1.采用基于詞典的方法判定帖子的心理,考慮的心理情緒包括認同、否認、懷疑、憤怒和興奮.在大多數情況下,一條帖子可能會包含不止一種心理情緒,例如,憤怒和否認心理經常同時出現.心理矩陣P是根據一個帖子所包含的情緒來建立的.如圖1所示,p1和p2同時出現在一個帖子中,所以有Pp1p2=Pp2p1=1.在關鍵詞子網中,建立了謠言詞典.該詞典以微博辟謠公眾號近期檢測到的謠言為關鍵詞,經過分詞處理后,選取出現頻率最高的前200個詞組成詞典.基于謠言詞典來構建的關鍵詞矩陣,如圖1所示,帖子包含關鍵詞k1、k3和k4,因此有Vk1k3=Vk3k1=Vk4k1=Vk1k4=Vk3k4=Vk4k3=1.

2.2 超級網絡特征

基于謠言檢測超級網絡,可以創建一組新的特征,稱為基于超級網絡的特征,即社會子網聚類系數、心理復雜性、謠言關鍵詞密度和超級邊相似度.社會子網聚類系數衡量特定用戶在社交子網內的聚集程度,其計算方式為

(1)

其中:Ci是用戶i的聚類系數,k是連接到用戶i的用戶數,n是這k個用戶之間實際存在的邊數.心理復雜性反映了帖子的心理復雜程度,其計算方式如下所示:

(2)

其中:Φm是帖子m的心理復雜度,Pim是帖子m中的第i個心理,N是帖子m內的心理總數.謠言關鍵詞密度代表帖子內謠言關鍵詞的密度,其計算方式為

(3)

其中:Ωm為帖子m的謠言關鍵詞密度,khm為帖子m中包含的第h個謠言關鍵詞,M為帖子m內謠言相關關鍵詞的總數.超級邊相似度反映了帖子的相似程度.首先定義帖子m和帖子o之間的Jaccard系數,其計算方式為

(4)

基于該系數,定義了一個相似度矩陣B.基于相似度矩陣,可以通過下述公式計算超邊的相似度:

(5)

其中:Πm度量超邊m的相似度.

2.3 檢測分類過程

采用超級網絡模型對特征進行分類,以獲得所選特征的結構.對于第二組特征,盡管超級網絡理論對特征結構建立過程做出了貢獻,但它也允許我們提出一些新的特征,這些特征可以衡量不同子網絡內部和之間的關系,而這些是以前的工作尚未考慮的.結合上述的社交子網聚類系數、心理復雜度、謠言關鍵詞密度和超級邊相似度,最終選擇了29個特征.

提出的謠言檢測模型架構如圖2所示.首先,采用爬蟲技術從微博網站中獲取數據.選擇了幾個熱門話題,根據一些相關的關鍵詞,抓取了所有相關的微博帖子,其中包括用戶信息和內容.每個主題的所有帖子構成一個數據集,然后根據微博辟謠公眾號發布的經過驗證的所選話題的謠言,將每個數據集分為兩個方面:真實帖子和謠言.此外,本模型還有識別異常用戶的功能.

圖2 謠言檢測流程

考慮以下四類情況:發布謠言的普通用戶、發布謠言的異常用戶、發布真實信息的普通用戶和發布真實信息的異常用戶.根據與用戶有關的特征和社交子網聚類系數,將每個數據集分為兩組:正常用戶和異常用戶.由此可知,這是一個二元分類問題.使用樸素貝葉斯、神經網絡、支持向量機和邏輯回歸這四種機器學習方法來訓練用戶分類器.

利用與心理有關的特征、與內容有關的特征和基于超級網絡的特征(除社交子網聚類系數外),結合上述四種機器學習方法,訓練謠言分類器進行正常用戶群和異常用戶群內的謠言檢測.

3 實驗評估

實驗所使用的數據集包含了三個熱點話題的75 580個帖子及相應的用戶帳戶信息.將每個數據集分為訓練數據集和測試數據集.為了評估所提出的謠言檢測模型的準確性,使用了準確度α、精確度β、召回率χ和 Fa-度量η四個指標,其定義如式(6)所示.選擇了兩個現有的謠言檢測模型(即EveRumor謠言檢測模型[4]和ML-based謠言檢測模型[5])與提出的SNTRumor進行比較.

(6)

每個算法進行50次實驗,取平均值作為最終結果.表 1展示了不同算法的檢測性能結果.由結果可知,無論是使用哪一種分類器,所提出的SNTRumor模型都具有最好的表現.與EveRumor和ML-based相比,SNTRumor不僅考慮了用戶、內容和心理特征,還考慮了超級網絡的特征,因此可以有效提高謠言檢測的性能.

表1 檢測結果對比

4 結語

本文系統地將超級網絡理論應用于謠言檢測問題中,提出了謠言檢測模型.提出了一組新的特征,重點關注不同特征之間的關系,以全面描述微博帖子.由實驗結果可知,與現有的模型相比,提出的謠言檢測模型表現出更好的性能.在未來的研究中,將考慮更多的經典理論來探討謠言檢測問題,并通過改進分類方法來提高檢測性能.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合