?

利用AFW-BPNN模型實現微博真偽信息識別*

2024-01-02 07:44曹弘毅
西安工業大學學報 2023年6期
關鍵詞:偏置神經元權重

馮 楠,曹弘毅,李 妮

(西安醫學院 衛生管理學院,西安 710021)

微博平臺具有用戶數量大、主觀性強以及傳播鏈長的特點,通過引發了社會多元主體的參與,形成了一個復雜的信息傳播網絡,這種復雜性造成信息識別困難。有意散播的謠言嚴重威脅社會秩序[1],因此,對微博信息進行準確識別在提高用戶信任方面發揮著重要作用。研究表明,虛假信息呈現出多種形式,其主要特點包括以下幾個方面:信息發布者通常選擇匿名身份,以此來規避個人或法律責任[2];虛假信息在語言風格上具有情緒化特點,借助讀者情感的復雜性來加強信息的影響力[3];虛假信息往往缺乏來自官方渠道或可信媒體的實證資料[4]。這些特點使虛假信息具有一定的誤導性。

在識別方法上,國內外學者提出了許多有效的識別模型。文獻[5]提出了一種基于圖卷積網絡(GCN)的虛假信息識別模型。該模型采用了引入圖結構信息的方式,有效地利用了信息傳播網絡中的關系信息,取得了較高的準確率。文獻[6]提出了一種基于知識增量的虛假信息檢測方法。該方法將已有的真實信息與未知信息進行比對,通過發現其差異性來識別虛假信息,取得了較好的效果。文獻[7]提出了一種基于卷積神經網絡(CNN)的虛假新聞識別模型。該模型采用了不同的卷積核對文本進行特征提取,并將多種特征融合起來進行識別,相比于傳統方法實現了更好的分類結果。文獻[8]提出了一種基于深度卷積神經網絡和關聯矩陣分解的虛假信息識別模型。該模型通過學習關鍵特征和互動模式,提高了虛假信息的有效性和魯棒性。文獻[9]中提出了一種基于深度學習和情感分析的虛假新聞識別模型。該模型結合了文本內容和情感信息,有效地提高了真假信息的分類準確率。

在特征選擇上,學者們主要通過三方面的特征進行識別。其中,文本特征是指微博文本內容的相關特征。文獻[10]研究了一種分析和檢測評論垃圾信息的方法,即通過比較評論文本與其他評論或原始文本的相似度來識別不真實評論。文獻[11]提出了一種基于圖文一致性的方法,通過比較網絡上流傳的圖片、文本和視頻等信息的一致性,來判斷其真偽程度。文獻[12]提出基于語言結構和情感極性的方法,則是利用自然語言處理技術來挖掘文本信息的結構特征和情感色彩,從而進行虛假評論的識別。用戶特征是指微博賬號的相關特征。文獻[13]提出了一種基于評論產品屬性情感傾向評估的虛假評論識別研究。他們通過分析用戶評論產品的行為和情感傾向,結合用戶的一些基本信息,如關注量、粉絲量、發帖頻數和互動次數等因素,來識別虛假評論。文獻[14]]提出的微博用戶特征分析與分類研究,則是通過對用戶的認證信息、性別、年齡、地域等因素進行分析,可以有效識別出潛在的虛假賬號。傳播特征是指微博信息傳播時的相關特征。網絡傳播時信息的擴散方式受網絡拓撲結構的影響,因此通過分析微博信息傳播網絡的結構屬性,可以有效地識別虛假信息[15]。文獻[16]提出的融合用戶歷史傳播信息的微博謠言檢測,則是基于用戶之間的社交關系,通過分析用戶歷史上的傳播信息,來判斷當前信息是否真實。

然而,現有研究往往只側重于某一方面的特征提取,難以反映微博信息的全貌。本文提出綜合考慮微博信息的多元特征可提高信息真偽的識別精度。綜合考慮文本、用戶和傳播三方面的特征,更全面地反映微博信息的真實情況,從而有效解決微博真偽信息識別問題。

1 方法構建

1.1 模型設計

BP神經網絡作為一種深度學習的方法,對煙葉褐變程度[17-18]、農產品質量評估[19]、人臉圖像識別[20]等方面具有較好的識別精度,可以利用BP神經網絡自動識別系統替代人工識別。本文采用BPNN模型來綜合考慮微博信息的多個特征,包括文本、用戶和傳播三方面的特征,并充分考慮三者之間的相互關系。

在提取微博信息的文本特征、用戶特征和傳播特征的基礎上,將不同的類型的特征進行融合,合并作為輸入變量,建立基于BPNN模型的微博信息的識別模型,如圖1所示。

圖1 微博信息真偽識別模型構建

1.2 方法理論

在BP神經網絡中,權重(W)和偏置(B)是用來調整和更新神經元之間連接強度的參數。神經網絡的學習和優化過程涉及到一種稱為反向傳播(Backpropagation)的算法。

反向傳播算法基于梯度下降的優化原理,通過計算模型預測輸出與實際輸出之間的誤差,然后根據誤差來更新權重和偏置。具體而言,算法首先進行前向傳播,將輸入樣本數據通過權重和偏置的線性變換和激活函數映射,得到模型的輸出值。然后計算輸出值與實際標簽之間的誤差,這個誤差可使用各種損失函數來度量,例如交叉熵損失(Cross-Entropy Loss)。

反向傳播算法從輸出層開始,根據鏈式法則計算每一層對應的梯度。通過計算梯度,我們可以知道在當前權重和偏置情況下,每個參數對誤差的貢獻程度。然后,根據梯度和學習率(Learning Rate),我們可以更新權重和偏置的數值,使其朝著減小誤差的方向進行調整。具體計算步驟如下:

① 前向傳播(Forward Propagation)

計算每個神經元的加權和:對于第i層的第j個神經元,計算加權和

Z[i][j]=∑(Z[i-1][k]*W[i][j][k])+B[i][j],

(1)

式中:Z[i-1][k]為前一層第k個神經元的輸出;W[i][j][k]為連接第i-1層第k個神經元和第i層第j個神經元的權重;B[i][j]為第i層第j個神經元的偏置。

應用激活函數g()對加權和進行非線性映射,得到當前神經元的輸出

A[i][j]=g(Z[i][j])。

(2)

② 計算損失(Loss)

(3)

③ 反向傳播(Backpropagation)

初始化梯度矩陣dW和dB,將其設置為零矩陣。從輸出層開始,逐層反向計算每個神經元的梯度。對于輸出層第i個神經元,計算其梯度

dZ[L][i]=?L/?A[L][i]*g′(Z[L][i]),

(4)

其中:?L/?A[L][i] 為損失函數對輸出層第i個神經元輸出的偏導數,g′()為激活函數的導數。

對于隱藏層(第L-1層)第j個神經元,計算其梯度

dZ[L-1][j]=∑(W[L][i][j]*dZ[L][i])*

g′(Z[L-1][j]),

(5)

其中W[L][i][j]為連接第L層第i個神經元和第L-1層第j個神經元的權重。根據梯度,更新權重和偏置

對于第i層第j個神經元的權重W[i][j][k],更新規則為

W[i][j][k]=W[i][j][k]-α*
A[i-1][k]*dZ[i][j],

(6)

其中α為學習率,A[i-1][k]為前一層第k個神經元的輸出。

對于第i層第j個神經元的偏置B[i][j],更新規則為

B[i][j]=B[i][j]-α*dZ[i][j]。

(7)

重復上述步驟,直到計算出所有層的梯度并更新完所有的權重和偏置。通過多次迭代和反向傳播,神經網絡可以逐漸學習到輸入數據中的特征,并優化權重和偏置的數值,以提高對輸入數據的預測能力。

2 數據來源與處理

2.1 數據來源

通過采集新浪微博數據管理中心的熱門話題數據,內容涵蓋娛樂、生活、體育等多個領域。該數據集共包括1 000個樣本,根據信息、用戶、話題和傳播路徑中的屬性特征[21-22],選取了11個指標構建用戶信息的數據集。這些指標包括:文本特征、用戶特征和傳播特征,包括文字長度、詞語重復率、感嘆詞數量、賬號ID、粉絲數、關注量、轉發次數、時間差等多方面的因素。

2.2 特征提取

2.2.1 文本特征提取

在連續詞袋模型(Continuous Bag-of-Words,Text-CBOW)的基礎上引入貝葉斯假設算法,建立改進的Text-CBOW算法,Text-CBOW模型生成的詞向量可以用于各種自然語言處理任務,詞向量可以作為這些任務的輸入特征,提高模型的性能和泛化能力。如圖2所示。

圖2 Text-CBOW算法流程圖

Text-CBOW算法由輸入層、隱藏層、輸出層連接而成,利用基于概率統計的共軛矩陣窗口來提取特征詞匯。本文采用頻率算法(Term Frequency-Inverse Document Frequency,TF-IDL)將微博不同長短的語句進行詞性分割,用one-hot將語句編碼為[0,1,1,1,0,0,1]形式的向量,記錄分割后的名詞、動詞和形容詞等詞頻,根據PageRank公式計算不同詞匯的權重,將權重高的作為關鍵詞。計算公式如下

(8)

其中,PR(Ti)是微博文本中存在的詞匯,C(Ti)是微博中的詞匯數量。

2.2.2 用戶特征提取

DeepFM模型適用于稀疏特征的提取,常用于User ID和Item ID的特征分析。用戶特征涉及社會多方面的交互聯系,本文以微博用戶的賬號信息為依據,采用DeepFM算法提取用戶的屬性特征。用戶信息對于微博的真偽檢測至關重要[23-24],提取內容包括用戶賬號、性別、省份和粉絲數等方面的個人信息,以及瀏覽內容、發文頻率、轉發次數等方面的行為特征。

DNN模型提取用戶信息的高維特征,可不經過embedding層的向量壓縮,能同時學習用戶屬性和行為方式的組合特征。DNN計算公式如下

ypred=sigmoid(yFM+yDNN)。

(9)

2.2.3 傳播特征提取

以微博謠言的傳播時間為依據,采用時間序列預測模型(Autoregressive Integrated Moving Average Model,ARIMA)提取微博傳播的時間差特征。微博虛假信息從產生到消亡是一個隨時間變化的過程,而虛假信息的爆發期具有迅猛、短暫的特點[25-26]。ARIMA的關鍵步驟如下

(10)

其中p為微博傳播事件的自回歸項數,q是移動平均項數。

虛假信息一經傳播,會相應地出現一系列辟謠言論,且辟謠消息擴散更快。因此,距離虛假信息的時間越長,是虛假信息的可能信越小,將當前微博評論時間距離源微博的發布時間作為時間差特征。時間差特征的計算如下

T=T評論-T發布。

(11)

2.2.4 權重自適應特征融合

權重自適應特征融合方法可以將不同特征進行融合,并根據其重要性給予不同的權重,能夠實現特征表達并提高識別精度[20]。下面是對11個特征進行融合的計算公式和過程說明。

1) 歸一化處理:對每個特征進行歸一化處理,將其轉化到一個相同的尺度上。假設特征集合為X={x1,x2,…,xn},其中xi表示第i個特征。對于每個特征xi,可以使用如下的歸一化公式

(12)

2) 向量交叉乘積:將每個特征xi與其他所有特征進行向量交叉乘積運算,并將結果保存在一個矩陣M中。矩陣M的維度為n×n,其中n為特征的數量。具體地,矩陣M的第i行第j列的元素表示特征xi與特征xj的向量交叉乘積的結果。向量交叉乘積可以用如下公式表示

cross productij=normalizedxi*
normalizedxj。

(13)

3) 相乘后的權重:在求得矩陣M后,需要為每個特征指定一個權重。權重可以根據特征的重要性進行設定,或者使用其他自適應的方法來計算。假設特征權重的集合為

W={w1,w2,…,wn},

(14)

其中wi為第i個特征的權重??梢詫⒕仃嘙中的每個元素與對應的特征權重相乘,得到加權后的結果。具體地,矩陣M的第i行第j列的元素與特征權重wi和wj的相乘可以表示為

weighted productij=cross productij*wi*wj。

(15)

通過以上三個步驟,可以使用權重自適應特征融合方法將給定的11個特征進行融合,并得到交叉相乘后的融合結果,以便更好地反映特征之間的關系。

3 結果與討論

3.1 特征提取結果

文中收集了1 000條微博信息,并提取了各種特征,包括文本特征、用戶特征和傳播特征。其中,文本特征包括微博長度、詞語重復率和感嘆詞數量,用戶特征包括賬號ID、粉絲數和關注量,而傳播特征則考慮了轉發次數和時間差等因素。這些特征已經整理并列于表1中。旨在通過整合多元化的特征,構建出一個精準、全面且有一定信息量的微博信息識別模型。

表1 特征提取結果

3.2 研究結果

從圖3中的特征權重值可以觀察到,重復率(特征編號2)和人稱比例(特征編號4)的權重值分別為0.20和0.15,相對其他特征來說較大。這表明重復率和人稱比例在微博真偽信息的識別中具有較高的重要性,對最終的識別結果有較大的貢獻。除了重復率和人稱比例這兩個特征外,其他特征的權重值在0.05~0.1之間。這些特征的權重值相對較小,說明它們對于微博真偽信息的識別作用相對較弱。

圖3 適應權重分析

需要注意的是,特征權重的大小并不一定直接決定特征本身的重要性,它們的大小也受到模型訓練過程的影響。因此,在BPNN模型中,我們需要進行多元特征融合,以提高微博真偽信息識別的準確性和魯棒性。

該BPNN模型以1 000個樣本11個特征構成的[11*1000]矩陣作為輸入變量,因變量矩陣在Matlab中編輯為

target=zeros(1 000,2);

target=(1:700,1);

target=(701:1 000,1)。

在隱藏層通過調整神經節點個數來提升識別精度,得到最優識別精度的節點個數為8,輸出結果為真偽兩種類別。模型架構如圖4所示。

圖4 BPNN模型架構

設置訓練集、驗證集、測試集的比例為70%∶15%∶15%,以貝葉斯算法對BPNN模型反復訓練,通過試錯法調整迭代次數為50次,大大提高了模型的收斂精度。在訓練集、驗證集、測試集和全樣本中,模型的識別準確率分別為:94.1%,93.3%,98.0%,94.6%。識別結果如圖5所示。

圖5 BPNN模型識別結果

為了進一步評估模型的性能,可以根據ROC曲線的形狀來判斷模型的準確性。曲線在左上角的接近于上邊界表示了模型的較高真陽性率和較低假陽性率,這是一個理想的情況。根據圖6的結果顯示,在訓練集、驗證集、測試集和全樣本中,ROC曲線都位于對角線的左上方,這表明模型的擬合效果非常出色。同時,代表真偽類型的“Class1”和“Class2”的ROC曲線幾乎與上邊界重合,這說明構建的BPNN模型在預測微博信息的真偽方面具有很好的性能。

圖6 BPNN模型評估

4 結 論

1) 以1 000條微博事件信息樣本為研究對象,進行識別訓練。其中真實信息700條和不實信息300條。針對微博信息的屬性特點,分別提取文博的文本特征、用戶特征、傳播特征,包含文字長度、復制比、情感極性、關注度、時間差等11個參數。選用提取的特征參數,以數字“1”“2”分別代表真實信息和虛假信息,建立了微博信息真偽的識別模型。在微博用戶興趣識別的研究中,圖像,博文和用戶標簽合成的多模數據比單一模塊的數據分類識別精度能夠提高10%。在微博用戶社交信任評估中,將四個不同的因素通過熵權法來統一量化,可以提高可信節點的識別。鑒于融合特征在一定程度上能夠提高識別精度,本文在建模過程中,利用自適應權重的方法將11個因素的特征向量相互融合,并建立了微博真偽信息識別的BPNN模型。

2) 在微博信息的分類識別結果上,相關學者通過擴展上下文特征和匹配特征詞的方法,對微博中的災害信息識別正確率達到74%。在公共衛生事件中,通過引入用戶歷史特征和情感特征,使用DNN網絡對謠言識別準確率達到94%。而另一項研究中,引入時空特征的二元邏輯回歸模型,在公共衛生事件中的謠言識別準確率達到98%。由此可見,針對微博的具體內容特征,需要采取合適的特征提取和模型方法,才能達到最優的識別精度。本文設置訓練集、驗證集、測試集的比例為70%∶15%∶15%,采用貝葉斯算法訓練,將[11*1 000]的輸入特征矩陣轉化為[2*1 000]的分類矩陣,整體預測效果提升到94 .5%。

3) 文中的理論意義在于完善了信息識別的方法。具體體現為:與已有單一特征(文本特征、用戶特征和傳播特征)識別方法相比,本文建立的基于BPNN模型的微博真偽信息識別研究,將單一的微博特征運用自適應權重法轉化為融合特征,進而更好地適用于模型訓練和真偽識別。

猜你喜歡
偏置神經元權重
基于40%正面偏置碰撞的某車型仿真及結構優化
基于雙向線性插值的車道輔助系統障礙避讓研究
《從光子到神經元》書評
權重常思“浮名輕”
為黨督政勤履職 代民行權重擔當
躍動的神經元——波蘭Brain Embassy聯合辦公
基于公約式權重的截短線性分組碼盲識別方法
一級旋流偏置對雙旋流杯下游流場的影響
基于二次型單神經元PID的MPPT控制
毫米波導引頭預定回路改進單神經元控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合