?

互聯網社交平臺輿論趨勢預測算法研究

2023-12-12 11:30王海兮吳喆熹馬軍
應用科技 2023年6期
關鍵詞:立場輿論趨勢

王海兮,吳喆熹,馬軍

中國電子科技集團公司第三十研究所,四川 成都 610041

2022 年7 月Facebook 的月活躍用戶數為29.34 億,是全球最活躍的社交媒體平臺,Twitter平臺緊隨其后。 本文以全球主要輿論平臺為研究對象[1],通過分析其特定話題下的輿論趨勢,識別輿情傳播關鍵節點、預測輿論未來走向,能夠為把握國際輿情走勢、認清國際輿論環境提供重要支撐。

輿論趨勢預測通常從輿情分析入手,預測未來網民觀點立場變化。然而由于社交媒體活躍用戶量大、涉及內容數據多以及社交網絡本身異構性、輿情發酵多變性等因素眾多,預測結果往往精度不高。在輿情分析中,主要通過話題檢測分析、基于內容的情感分類分析等技術實現網絡輿情的監測。張君第[2]通過獲取言論信息,利用基于詞向量的神經網絡模型對 Twitter 帖子情感進行分類,實現對輿情的監測;劉純嘉[3]在面向高校輿情的中文文本情感傾向性分析時,提出融合漢字形態學特征和HowNet 的文本情感分類方法和一種基于注意力膠囊網絡的文本情感分析方法;岳亞南[4]在研究面向輿情文本的情感傾向性分類時,針對現有深度學習方法詞性信息利用不充分問題,提出了一種融合詞性和自注意力機制的情感傾向性分類模型。在輿情趨勢預測分析中,劉定一等[5]提出了融合微博熱點分析和長短期記憶神經網絡的輿情預測方法,采用網絡熱點分析技術計算微博熱度分值并預測未來熱度值。彭思琪等[6]將評論文本的情感值作為演變預測的對象,利用情感詞和輿情事件中評論文本的語義相似度,對情感時間序列進行預測,能較好地實現輿情事件中評論文本的情感演變預測。

基于以上調研和分析發現,輿情分析和趨勢預測的分析和判斷大多是分析帖子情感傾向[7],并對情感傾向性進行預測[8]。本文擬通過構建基于話題發帖內容、評論賬號屬性和評論內容等信息的輿論趨勢走向預測神經網絡模型,從用戶社交賬號針對特定話題的觀點立場分析入手,設計一種基于量化計算的輿論場趨勢預測分析方法,預測用戶社交賬號立場觀點趨勢變化值,得到輿論趨勢走向拐點,實現對輿論趨勢的精確預測。

1 輿論趨勢預測算法總體思路

傳統輿論趨勢分析的方法[9-12]通常是基于用戶社交影響力構建傳播評估模型,以用戶間影響力判斷信息能否傳播,從而分析輿論趨勢變化,通過用戶間歷史交互行為關系、信息傳播關系挖掘關系擴散特征,構建傳播評估模型,分析輿論趨勢。該方法并未綜合考慮信息內容、主題匹配度等因素對輿論趨勢變化的影響,因此對輿論趨勢預測考慮不夠全面。

為了解決如何對特定主題實現有效輿論走向判斷的問題,本文構建了輿論趨勢預測算法。其技術構思是通過分析特定話題的所有評論用戶立場以及立場趨勢變化,綜合利用社交賬戶人物畫像、個體言論內容、主題內容等特征,量化分析以上因素對輿論走向的影響度,構建輿論趨勢走向預測模型,最終實現特定話題下輿論走向的有效預測。本技術方案的總體流程如圖1 所示。

圖1 輿論趨勢預測總體技術方案

2 基于話題的用戶數據獲取

數據是一切分析的基礎,本文研究的輿論趨勢預測算法需要根據特定話題,獲取社交平臺下該話題的主貼內容、評論內容以及評論賬號基本信息等。話題是指用戶發帖時討論的共同主題,以Facebook 平臺為例,可以通過話題標簽搜索出所有討論該話題的帖子。Facebook 話題標簽是隨話題或短語輸入 #(數字符號),并將其添加至帖子中的短語,Facebook 話題標簽示意見圖2。

確定特定話題后,在Facebook 社交網絡平臺根據話題關鍵詞搜索帖子,基于Scrapy 爬蟲框架構建網絡爬蟲。通過已有賬號資源,利用RabbitMQ 實現多節點分布式數據采集,采集與話題相關的主貼以及評論內容,包括發表言論的社交賬戶基本信息、行為信息、內容信息等,作為進行用戶觀點立場分析的基礎數據。

3 基于話題的用戶觀點立場分析

基于獲取的基礎數據進行用戶立場檢測,并開展立場趨勢變化分析。本文的用戶立場檢測主要是針對當前話題,檢測帖子評論者的用戶立場,立場分為對該話題支持、反對、中立3 種態度。

傳統的立場檢測技術通常將發文內容與主題內容的一致性作為重點考量對象,通過判別一致性分析發文者所持立場。然而該技術在復雜多變的實際場景中分析效果欠佳。

詞向量技術已廣泛應用于文本語義提取[13],本文經過對互聯網社交平臺評論內容和評論用戶屬性分析發現,評論用戶本身所屬陣營對其立場影響作用不可忽視,可作為用戶觀點立場分析的一個因素。因此本文提出在構建立場分析模型時,分析獲取評論用戶屬性信息,分析其所屬陣營,形成外部知識,再結合評論內容、話題內容提取語義進行綜合分析,最終實現評論內容立場檢測。其實現的運行邏輯分為以下3 個步驟:

1)觀點挖掘模塊從文件系統提取“文本數據”,而后根據預先設定的字典將文本中的文字和文字在字典中對應的數字進行映射,即Token 化,然后逐條輸入至Pre-trained StBERT 模型,通過多個Transformer 層學習到文本信息的抽象表示。

2)將數字序列輸入已預訓練好的StBERT 模型,即Pre-trained StBERT,得到數字序列的特征表示,而后取這一特征表示以及特征化后的用戶所屬陣營信息,共同輸入至Softmax 分類器進行立場識別,立場分為贊同、中立、反對3 種,分別對應分值1,0,-1。

3)通過Softmax 分類器形成1 個三元組數值,分別表示贊同、中立、反對對應的概率,概率最高的即為該文本針對某一主題的實際觀點,最后將立場分值附加到最初的文本數據后面,形成“文本+立場”的新的數據結構。

用戶觀點立場檢測通過自然語言處理技術,構建多因素的分類模型,立場檢測原理如圖3 所示。通過分類模型分析出當前評論文本內容對話題的立場傾向是“支持”、“反對”還是“中立”,分析原始數據樣例如圖4 所示,最后一列label 是給當前評論定義的立場。

圖3 用戶立場檢測原理

圖4 原始數據樣例

分析單個評論的立場后,需要對立場人數總體占比進行統計,而后構建立場趨勢預測模型,實現對立場占比趨勢變化進行預測。立場占比是對該主題下所有評論的立場趨勢分析,為某時間段歸屬于某立場的帖子數與某時間段的總帖子數的比值,立場占比趨勢如圖5 所示。其趨勢變化實現邏輯為各立場支持的評論帖子分析立場后,加入各立場集合。當有新用戶評論時,根據其所持觀點加入對應集合;當已發言用戶再次發言,如所持觀點不變,則集合不變,如所持觀點改變,則在原集合中刪除該人員,添加到其所持新立場的人員集合。

圖5 各立場人數占比隨總發帖量的趨勢變化

4 構建輿論趨勢走向判斷規則樣本集

由于影響立場趨勢變化的因素非常多,且大多是定性的分析,因此構建趨勢預測模型最大的挑戰是如何定量分析影響趨勢變化的因素。本文構建了影響趨勢變化的樣本特征,并根據特征重要程度構建了樣本打分機制,實現了影響因素的定量分析;而后可以根據構建的樣本作為語料,用于輿論趨勢預測模型的訓練。

根據前期分析,影響趨勢變化的因素包括話題發帖內容、評論賬號屬性和評論內容3 個。評論內容特征是根據bert_sentence 模型輸出,該模型由bert 模型經過下游語言任務(情感分類等)大量語料樣本訓練而成。這里將評論中的發文內容輸入bert_sentence 模型,輸出是768 維的語義向量,表征評論內容的語義。同時也將話題發帖內容輸入模型,得到768 維語義向量,表征話題以及立場。評論賬號特征包括賬號基本屬性、行為屬性等12 維,最后的樣本特征是由評論賬號特征特征(12 維)、發文內容語義特征(768 維)、話題語義特征(768 維)組成,我們通過樣本特征計算出樣本分數作為訓練樣本,構建輿論趨勢走向預測模型,具體步驟如下。

1)趨勢平滑。對各立場人數占比隨總發帖量的變化的趨勢曲線進行Savitzky-Golay filter 平滑[14],使用最小二乘法將數據的一個小窗口回歸到多項式上,然后使用多項式來估計窗口中心的點,最后窗口向前移動一個數據點,重復這個過程。這樣繼續下去,直到每個點相對于鄰居都進行了最佳調整,如圖6 所示。

圖6 趨勢圖曲線平滑示意

2)趨勢圖曲線拐點檢測[15]。采用基于滑動窗口算法,該方法依賴于單個變化點檢測程序并將其擴展以找到多個變化點。算法實施時,2 個相鄰的窗口沿著信號滑動,計算第一窗口和第二窗口之間的差異。當這2 個窗口包含不相似的片段時,計算得到的差異值將會很大,檢測得到一個拐點。在離線設置中,計算完整的差異曲線并執行峰值搜索過程以找到拐點索引。對平滑后的趨勢曲線進行拐點檢測標注,如圖7 所示。

圖7 平滑曲線拐點檢測示意

3)趨勢段選取[16]?;趫D7 的趨勢曲線標注的拐點,計算曲線中上升幅度最大的一段作為樣本提取出來,與該趨勢曲線同立場的評論標注為正樣本,其他立場的評論標注為負樣本,遵循此規則給各評論打標簽。此標簽作為趨勢影響力得分的考量,如圖8 所示。

圖8 趨勢段選取示意

樣本趨勢走向判斷規則由某個評論社交賬戶基本信息得分和本次評論社交賬戶對立場趨勢影響力得分2 部分構成。人物畫像得分Suser計算方法為

式中:Sproperty為人物賬戶屬性得分,包含粉絲量、發帖量等;wproperty為基本屬性權重比例;Sbehavior為行為屬性得分;wbehavior為行為屬性權重比例。

樣本得分Sfinal計算方法為

式中:Slabel為本次評論社交賬戶對立場趨勢的影響力得分,Wlabel為趨勢影響力得分權重比例,Wuser為人物賬戶屬性權重比例。其中Slabel得分規則如下:本次評論成功影響了一位其他立場人員的評論,該評論得4 分;本次評論成功增加了本立場人數,該發言得3 分;本次評論未能增加本立場人數,該評論得2 分;本次評論使本立場人數降低,該評論得1 分。

5 構建輿論趨勢走向預測神經網絡模型

輿論趨勢的變化是非常前沿且發散的問題,其包含的影響因素多且廣。神經網絡模型具有高復雜性,能夠擬合高維復雜函數,所以在此選擇神經網絡模型作為輿論趨勢預測模型。

模型輸入特征有3 部分內容:人物賬戶屬性特征、評論內容語義特征和主題立場語義特征。針對任務賬號屬性特征分析,由于人物賬戶屬性特征多由人工挖掘定義,在分析時為了覆蓋面廣、不遺漏,會盡量考慮多維度構建特征,但在特征建模時可能會產生一些冗余特征,這部分冗余特征對結果貢獻度不高,但增加了維度,加大了計算量,所以需要進行特征篩選,根據各特征重要程度剔除冗余特征。人物賬戶屬性特征的篩選通過進行機器學習xgboost 的模型訓練,根據各特征重要程度選擇。隨機劃分樣本,將80%樣本作為訓練集,20%樣本作為測試集,訓練機器學習xgboost 模型,輸出特征重要程度,如圖9 所示,以此作為依據進行人物賬戶屬性特征選擇。

評論內容語義特征是根據bert_sentence 模型輸出,該模型由bert 模型經過下游語言任務(情感分類等)大量語料樣本訓練而成。這里將評論內容輸入bert_sentence 模型,輸出是768 維的語義向量,表征評論內容的語義。同時也將主題立場內容輸入模型,得到768 維語義向量,表征主題以及立場。人物賬戶屬性特征包括行為熱度、關系熱度、好友數、潛水值、性別等數值特征。最后的樣本特征是由人物畫像特征(12 維)、發文內容語義特征(768 維)和topic/label 語義特征(768 維)這3 部分構成。這3 部分特征維度不盡相同,目前能夠處理多領域信息的有推薦系統中的DSSM 雙塔模型,通過參考該模型架構,根據3 部分輸入的內容維度進行神經網絡模型結構構造,提出了一種輿論趨勢走向預測神經網絡模型(trend forcast neural network,TFNN),經過2 層全連接層加上1 層激活層后,將3 部分進行concat 操作,再經過全連接層加激活層,其原理結構如圖10 所示。

圖10 TFNN 模型結構示意

TFNN 模型經過訓練后,均方誤差(mean squared error,MSE)為 0.144,均方對數誤差(mean squared log error,MSLE)為 0.018,均方根對數誤差(root mean squared logarithmic error,RMSLE)為0.136,均方根誤差(root mean squared error,RMSE)為 0.380,平均絕對誤差(mean absolute error,MAE)為 0.216,平均絕對百分比誤差(mean absolute percentage error,MAPE)為 0.165,絕對誤差中位數(median absolute error,MedianAE)為 0.152,絕對百分比誤差中位數(median absolute percentage error,MedianAPE )為0.125。訓練中各指標隨訓練代次(iteration)變化過程如圖11 所示。

圖11 TFNN 模型訓練過程指標變化

6 結束語

本文研究的輿論趨勢預測算法,通過綜合考慮評論內容、主題、評論賬戶屬性等多種因素,制定了樣本輿論趨勢判斷規則,同時提出了一種新的引導輿論趨勢走向預測神經網絡模型,實現了輿論趨勢走向預測,能夠對新時期網絡社會的科學治理和媒體平臺輿論趨勢走向判斷提供科學、有效的決策建議。

猜你喜歡
立場輿論趨勢
立場
趨勢
設計立場和手工生產關系的辯證認識
武術研究的立場
阿桑奇突然被捕引爆輿論
初秋唇妝趨勢
突發事件的輿論引導
SPINEXPO?2017春夏流行趨勢
趨勢
誰能引領現代輿論場?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合