?

基于多層次深度模型的社交網絡核心謠言傳播節點識別*

2024-01-19 11:18李元張棲朱建明焦建彬
中國科學院大學學報 2024年1期
關鍵詞:謠言節點特征

李元,張棲,朱建明,焦建彬?

(1 中國科學院大學電子電氣與通信工程學院, 北京 100049; 2 中國科學院大學應急管理科學與工程學院, 北京 100049) (2022年3月18日收稿; 2022年6月6日收修改稿)

數字時代的到來使世界各地人們的聯系變得更加緊密和容易。在眾多的協作、分享和交流渠道中,社交網絡已成為人們生活中離不開的一種重要社交工具。公眾能用社交平臺關注當下熱點事件、表達對熱門話題的觀點并分享自己的興趣和生活,這種信息快速共享和轉發的方式大大加快了信息融合的速度和規模。但是,信息的傳播并不總是可靠的。為了賺取流量或其他某種目的,不斷有人在社交平臺中散布大量謠言。謠言是一種未經證實的信息,可能會帶來傷害或威脅[1]。大量事實證明社交網絡已成為謠言滋長的溫床[2]。不僅如此,Vosoughi等[3]研究表明,利用謠言的吸引力和在線社交網絡的廣泛影響力,謠言比事實信息傳播得更快、更廣。這勢必會給社會帶來恐慌和直接或間接的經濟損失。因此,在謠言擴散前,識別是否存在核心謠言傳播節點以及誰是核心謠言傳播節點,對于預防和控制謠言傳播具有重要的理論和現實意義。

謠言控制已成為社交網絡研究領域的一個重要分支。過去的研究多數是基于影響最大化的思想,從阻塞點[4-6]、阻塞邊[7-8]以及尋找關鍵節點傳播正面信息[9-11]這3個方面進行謠言事后控制。無論是哪種控制策略,其核心目的是通過某種算法尋找或識別關鍵的、有影響力的節點或邊。其中貪婪算法是一種重要的方法,其核心思想是計算每個節點的影響力,并依次選擇邊際影響力最大的,直到選出K個最有影響力的節點[12-15];雖然貪婪算法有效性較高,但特別耗時。因此具有較低時間復雜度的啟發式算法得到了學者的廣泛研究[16-18]。此外,也有學者通過分析用戶檔案信息[19]、觀察用戶在特定時間窗口的活動模式[20]等方法識別網絡中的惡意用戶;還有不少學者從圖論結構中心性的角度[21-23]描述了節點的重要性;隨著人工智能的發展,有的學者利用特征工程[24]的方法在特定場景中尋找重要節點[25-27];此外,逐漸有學者開始嘗試深度學習方法,例如圖卷積網絡(graph convolutional network,GCN)[28],可將關鍵節點識別問題轉換為分類、聚類或預測問題[29-32]。

相比事后控制,對謠言的事先控制,能在盡可能早的時間實現從源頭上進行謠言阻斷,指數級地縮小全網監控范圍,從而降低系統運行和維護成本,進一步推進實現人防和機防的聯合響應,更好地阻止謠言傳播。而實現事先控制的關鍵是識別核心謠言傳播節點。因為核心謠言傳播節點可能是謠言傳播的潛在來源或引爆節點。這里,我們將謠言傳播節點定義為那些可能參與傳播謠言的用戶?!昂诵摹笔侵敢环N影響力,“核心謠言傳播節點”是指傳播謠言的用戶中影響力較大的用戶。實驗中將謠言傳播節點影響力前10%的用戶視為核心謠言傳播節點。在社交平臺中,識別核心謠言傳播節點具有4大難點:一是傳播謠言的用戶與眾多沒有參與傳播謠言的用戶建立了許多緊密的聯系,這種聯系加強了謠言傳播者的網絡融合性與隱蔽性;二是謠言話題具有復雜性和高維性;三是由于謠言事件發生的時間較短、隨機性大、刪除率高,因此無法有效地進行重要數據提取,導致現有公開數據集普遍面臨數據樣本稀疏、正負樣本分布不均衡的問題;四是識別核心謠言傳播節點這一問題目前還沒有得到足夠的重視,這主要是因為缺乏關于謠言傳播節點的標注數據集。

基于此,提出一種多特征多層圖卷積網絡(MSF-GCN)模型的核心謠言傳播節點識別方法。模型主要基于GCN,將特征工程和網絡工程的方法結合起來,將節點靜態屬性和動態屬性、謠言傳播的時序信息、節點的關系網絡整合起來一并納入神經網絡中進行學習。為解決謠言數據樣本分布不均,樣本數量缺乏這一問題,在進行量化計算時,設計了兩階段學習框架:第1階段是GCN的預訓練模型,它能針對特定下游任務,實現對整個場景的大概認知和知識提取;第2階段是特征增強的GCN學習模型,它通過高斯采樣技術,很好地擴展了樣本集的特征,提升了小樣本空間的致密性,促使神經網絡的多層局部響應機制更好地發揮出來。通過與支持向量機(support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)和邏輯回歸(logistic regression,LR)3種基線方法的對比可知,MSF-GCN學習框架在基本沒有增加計算量的情況下,不僅提高了識別類,而且實現了學習精度的顯著提升。

綜上所述,這項研究的創新性有以下3點:

1)通過對社交網絡中用戶動態和靜態特征進行挖掘和提取,利用多層神經網的局部響應機制,有效地識別出核心謠言節點,從而實現謠言的事先控制。

2)提出一個多維特征下圖卷積網絡的雙層學習框架,它將用戶特征表示與網絡結構特征相結合,既能處理節點靜態/動態屬性特征、語義特征和時序特征,又能處理節點的網絡結構特征。

3)在MSF-GCN模型的雙層學習結構中,通過預訓練學習,對基本數據集進行特征提取。然后利用特征增強技術,對特征空間進行高斯采樣,顯著增加了特征樣本數。這不僅解決了小樣本分布不均、樣本數量缺乏的問題,而且使過擬合問題得到了緩解。

1 數據及特征提取

首先對實驗選用的數據集進行簡要說明,接著詳細解釋如何將原始微博數據集轉化為識別核心謠言傳播節點的實驗數據集。然后給出核心謠言傳播節點的定義,并從實驗數據集中提取3種不同類型的特征集,作為所提模型算法的原始輸入。最后介紹所提MSF-GCN學習模型的關鍵技術。

1.1 實驗數據集的獲取

實驗所用的數據集來源于清華大學Aminer團隊編寫的新浪微博公開數據集[33]。這個公開數據集是隨機選擇100個用戶作為種子用戶,然后依次收集他們的關注者及關注者的關注者??偣彩占?70萬用戶和他們之間的40億個關注關系,平均每個用戶有200個關注者。對于每個用戶,同時收集他們的相關人物屬性及最近1 000條微博(發布+轉發)。

為將原始數據轉化為所需的謠言數據,實驗采用關鍵字篩選的方式,選出2類不同的謠言微博(原微博+轉發微博)作為實驗數據集。它們分別是“溫州動車事故”(話題A)和“中國兒童嘗試吃轉基因大米”(話題B)。將參與這2個話題發布或轉發的用戶分為2大類,一類是支持謠言并繼續發布和轉發不實言論的謠言用戶uR,一類是不相信謠言并發布和轉發反謠言微博的反謠言用戶uAR。在數據提取過程中,對抽取數據做了細致的人工標注。各話題具體統計信息見表1。

表1 實驗數據集的統計量Table 1 The statistics of the experimental data set

抽取出的用戶屬性用UP={ui,Pi}表示,其中Pi表示謠言話題中用戶ui的靜態屬性和行為

屬性。靜態屬性包括節點的性別Gen(ui)、認證情況Ver(ui),及注冊時間Reg(ui);行為屬性包括節點的微博轉發數Ret(ui)、微博原創數Pos(ui)、關注數Fol(ui)及粉絲數Deg(ui)。因此Pi=[Gen(ui),Ver(ui),Reg(ui),Deg(ui),Fol(ui),Ret(ui),Pos(ui)]。需要指出的是,由于一些用戶被系統封禁,原數據集中無法獲取到該類用戶屬性特征,因此將這類用戶視為異常節點,將其刪除。

另外,用戶的歷史微博內容用HC={ui,Ci}表示,其中Ci表示單個用戶ui在社交平臺上的微博歷史文本信息,包括原始微博內容和轉發微博內容。

1.2 核心謠言傳播節點的定義

基于以上實驗數據集,進一步對謠言用戶進行細分。同時,給出以下2個定義。

決定謠言用戶影響力的2個因素是擴散范圍(粉絲數)的大小和參與謠言(發布或轉發)的時間。越早參與謠言話題的傳播,對謠言的擴散更有助力。先在同類謠言微博中,對謠言用戶的參與時間進行時序化處理,對應得到謠言用戶的時序數(見定義2)。再將用戶粉絲數量乘以時序數的衰減因子,即用下式來衡量每個謠言用戶的綜合影響力

(1)

定義2時序s:指在同一謠言話題下,用戶參與轉發謠言的時間序列。

對同一類謠言微博按發布時間的先后進行排序,將其持續時間的取值范圍分為k+1個等寬的區間,從0開始依次標記,落在第i個區間的用戶的時序值用si表示,過程如圖1所示。沒有參與的用戶時序值設為+∞。

圖1 謠言微博時序處理過程Fig.1 Timing sequence process of rumor microblogs

根據上述定義,利用公式(1)可將實驗數據集中謠言用戶分為核心謠言傳播節點與非核心謠言傳播節點。最終得到3類用戶,如表2所示。這也是實驗的最終預測分類值。

表2 3類用戶的數據統計Table 2 Data statistics of three types of users

1.3 模型特征集的提取

1.3.1 節點屬性特征矩陣的構建

大量研究表明個體的異質性在謠言傳播中起著關鍵作用,所以在構建模型的過程中,特別考慮了節點屬性的作用。用戶屬性中包含節點的靜態屬性和行為屬性,從中提取出模型能夠識別的數據特征,并用于表示學習。

節點的粉絲數Deg(ui)可用于刻畫度中心性Deg_Cen(ui),它反映該用戶信息擴散的能力以及在網絡拓撲中的重要性。關注數Fol(ui)可用于表示節點獲取信息的范圍。認證情況和性別是節點身份的一種象征,文中分別用認證用戶和性別在原始數據集中的比例表示節點的認證特征Ratio_Ver(ui)與性別特征Ratio_Gen(ui)。另外,微博轉發數Ret(ui)、微博原創數Pos(ui)和時間3個維度的組合可用來構造用戶的活躍程度Act(ui),反映節點在一定時長內參與話題討論的多少,其計算方式如下

(2)

T(ui)=Text-Reg(ui).

(3)

其中:T(ui)代表一個時間跨度,即用戶注冊時間到數據獲取時間中間的時長;Text指獲取數據的時間。

最后,通過上述分析,可以得到每個用戶的靜態及動態屬性的特征向量:Fa=[Ratio_Gen(ui),Ratio_Ver(ui),Deg_Cen(ui),Fol(ui),Act(ui)],其中a為用戶屬性特性向量的維度5。整個網絡系統中用戶的特征表示可設為X=n×Fa,其中n為網絡中的節點數。

1.3.2 節點的歷史內容特征矩陣的構建

用戶發布的微博內容在一定程度上可以反映出用戶在某個時間段的興趣和觀點。因此在構造用戶的歷史內容特征矩陣時,選取節點的歷史微博信息HC={ui,Ci}來提取相應的內容特征。將用戶所有歷史微博內容以文本形式存儲后,經過文本向量化Doc2vec算法,可輸出用戶歷史文本的特征矩陣D=n×Fb,其中n表示網絡中節點數,Fb表示每個節點的歷史文本內容Ci特征向量,b為歷史內容特征向量的維度。

1.3.3 節點的局部時序鄰域網絡矩陣的構建

qi=-si+c,

(4)

(5)

(6)

例如圖2,若要為節點a(da=3)提取一個規模為S=6的鄰域矩陣,則需先提取a的所有1階鄰居b(1-hop,db=1)、c(1-hop,dc=2)和d(1-hop,dd=3),由于1階鄰居數為3,達不到S-1的規模,則繼續提取a的2階鄰居e(2-hop,de=1)、f(2-hop,df=0)和g(2-hop,dg=2)。從2階鄰居中尋找出度更大的鄰居e和g,就能得到節點a規模為6的鄰接矩陣Aa。假設目標節點

圖2 時序鄰接矩陣的生成Fig.2 Generation of timing sequential adjacency matrix

2 模型方法

MSF-GCN模型是將識別核心謠言節點的問題轉化為一個三分類的預測模型,3類分別是核心謠言傳播節點、非核心謠言傳播節點和反謠言傳播節點。整個預測模型主要由輸入層、隱藏層、全連接層、輸出層及損失函數構成。

2.1 輸入層

由于節點屬性特征值存在量綱的不同,為提升模型的卷積速度和精度、避免過擬合,實驗中采用下式max-min標準化方法對節點的每個屬性特征值進行歸一化處理

(7)

從而得到標準化后的節點屬性特征矩陣X′。

這樣每個目標節點的表示可以用屬性特征矩陣與歷史行為特征矩陣拼接而成,因此,輸入層特征矩陣可表示為F(a,b)=(X′,D),其維度是a+b。

(8)

2.2 隱藏層

隱藏層也稱圖卷積層,它是一種利用圖結構和特征向量學習節點表示向量的半監督算法。該層定義如下

(9)

其中:Hi為GCN第i層的節點特征表示,Wi和bi表示第i層的訓練權重和偏差參數,σ為非線性激活函數。在實驗中,模型設置了2層GCN,選擇ReLu(x)=max(0,x)作為這2層的激活函數,H0為節點的特征矩陣F(a,b)。與此同時,為避免過度擬合,在這層還應用了Dropout[34]技術。

2.3 全連接層

模型中設計了3個全連接層(fully connected layers,FC)用于進行GCN下游任務學習。每個全連接層利用ReLu非線性函數激活。同樣,在前2個全連接層采用了Dropout技術,以避免過擬合。

2.4 輸出層和損失函數

全連接層的輸出被送入LogSoftMax分類器。整個模型的輸出為Z=In(P(uk,k,uAR)),將輸出的分類結果與真實數據集中的標簽進行比較,利用下式優化似然損失

(10)

綜上所述,模型整體框架圖如圖3所示。

圖3 模型框架圖Fig.3 Model frame

3 實驗與實驗結果

實驗使用的是Window64位系統,處理器為Intel(R) Core(TM) i7-9700 CPU@3.00 GHz,內存32 GB。在對比實驗中,選取SVM、KNN和LR 3個基線方法。

3.1 超參數設置

在模型框架中,訓練集和測試集比例為8∶2。用戶歷史文本特征維度設為300,即Fb中b=300;實驗中對目標節點采樣了S=50的鄰域網絡。由于用戶屬性特征維度a=5,因此,輸入層中特征矩陣F(a,b)=(X′,D)中每個節點的特征維度為305維。

模型的前2層是圖卷積層,后3層是全連接層,所有參數使用Adam優化器[35]訓練得到,各層具體參數見表3。初始學習率設置為0.001,權值衰減為5e-4。當訓練算法迭代到第10個epoch時,將學習率調為0.000 1。最終運行訓練算法20個epoch時,通過early stopping方法[36]選出效果最好的模型。最終輸出經過Logsoftmax處理,完成核心謠言傳播節點、非核心謠言傳播節點及反謠言傳播節點的預測任務。

表3 模型參數Table 3 Model parameters

3.2 實驗過程

3.2.1 預訓練

由于小樣本問題(樣本不足和樣本不平衡)的存在,模型會產生過擬合且缺乏泛化能力,因此在實驗中對模型做了預訓練,以完成對已有知識的抽取。將訓練數據集放入模型,通過BP算法[37]得到模型參數,并且在預訓練結束后得到數據通過GCN層后的特征表示,作為下一步高斯采樣的輸入。3類訓練樣本數分別為509、4 592和2 053,3類樣本特征表示個數也依次對應。需注意的是,若預訓練的epoch設置太低,模型還未充分學習,抽取到的知識自然是有限的;若epoch設置太高,模型雖然在訓練集表現會越來越好,但是測試集上會表現得很差,這時候抽取到的知識是偏頗的,缺乏泛化能力。根據未做預訓練之前模型在數據集上的擬合情況,實驗將epoch設為3。

3.2.2 高斯采樣

3.2.3 訓練過程

3.3 實驗結果

實驗首先對MSF-GCN模型中加入預訓練和高斯采樣這2項技術帶來的影響和效果做了驗證。在MSF-GCN模型和傳統GCN模型(不加入預訓練和高斯采樣)下,訓練集、測試集的準確率和損失值隨著epoch數的增加,變化趨勢如圖4所示。2組實驗的模型參數一致。圖4(a)和4(b)顯示,隨著訓練的進行,傳統GCN模型在訓練集上準確率上升,但在測試集上,準確率會逐步降低。但損失值在訓練集和測試集的變化趨勢卻呈相反情況,這種情況說明了過擬合的出現。而圖4(c)和4(d)顯示,MSF-GCN模型雖然前3個epoch在測試集上準確率比原始GCN低,損失值比原始GCN高,但是隨著訓練次數的增加,準確率在訓練集和測試集都有所提高,且最終模型在測試集上的準確率超過傳統GCN模型20%左右。MSF-GCN模型之所以在最開始表現得不如傳統GCN,是因為它降低了模型對某些特征的依賴,更復雜的特征空間使得最開始學習稍微困難。但是隨著學習的進行,模型從訓練集提取到更豐富的知識后,在測試集中面對未知的特征,也能做出更合適的判斷。最終,實驗結果證明預訓練和高斯采樣能夠有效解決小樣本帶來的過擬合和缺乏泛化性的問題。

圖4 MSF-GCN與傳統GCN模型對比Fig.4 Comparison between MSF-GCN and traditional GCN models

此外,還對MSF-GCN模型的有效性做了實驗驗證。這里選用SVM[38]、KNN[39]、LR[40]3種方法作為基準對比方法,并采用4種度量指標,分別是Precision、Accuracy、Recall以及F1-score。MSF-GCN模型與3種基準方法在4種度量指標下的差異如表4所示。結果顯示MSF-GCN模型的有效性最好。在3種基準方法中,SVM效果最好,LR稍差,KNN效果最差。主要原因是KNN在預測時,需要考慮訓練集中的每一個點,而當預測到稀有類別時,大量無關類別的點也會被考慮進去計算距離;LR和SVM都會增加與分類關系較大的數據權重,降低與分類關系較小的點的權重,但SVM通過支持向量來影響決策面,具有一定的稀疏性,因此效果較好。然而,MSF-GCN模型不僅考慮用戶的個人屬性特征,還考慮用戶之間的關系,同時對小樣本特征進行了補充,因此表現出最好的效果。

表4 不同模型下的預測效果評價指標Table 4 The evaluation statistics of different models

4 總結與未來工作

本文基于特征學習、節點的網絡結構、歷史文本特征和時間特性,構造了一個識別核心謠言傳播節點的三分類預測模型。目標是提前鎖定謠言傳播中會發揮關鍵作用的節點,以實現有效識別、偵測、防控謠言傳播,達到事先控制的目的。在這項工作中,提出MSF-GCN模型,通過模型預訓練和特征增強的技術,使模型比基線模型能更好地識別核心謠言傳播節點。同時,MSF-GCN模型的整體性能表明了該方法的有效性。在未來的研究中,計劃構造新的模型算法擴展這項研究,例如圖注意網絡、殘差網絡等。另外,由于謠言話題的復雜性和高維性,在謠言分類下研究群體行為也將成為未來研究的一個重要方向。

猜你喜歡
謠言節點特征
CM節點控制在船舶上的應用
中國使館駁斥荒謬謠言
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的門窗節點圖快速構建
如何表達“特征”
不忠誠的四個特征
當謠言不攻自破之時
抓住特征巧觀察
謠言
謠言大揭秘
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合