?

基于情感字典的輿情監測與傾向分析研究

2022-04-29 22:05張盛然趙恩興
客聯 2022年2期
關鍵詞:網絡輿情

張盛然 趙恩興

摘 要:隨著互聯網技術的飛速發展和使用人群的快速增加,越來越多的人群通過互聯網來表達自己觀點。網絡輿情作為社會輿情的網絡反映,成為社會輿情的最主要的構成之一。如何對輿情的情感傾向分析,并正確引導輿情,給政府和企業帶來了前所未有的挑戰。針對網絡一些輿情,引入一套基于Python爬蟲,設計數據抓取算法。建立情感字典,主要基于Hownet基礎情感字典、互聯網網絡情感字典表情符號情感字典3類。在此基礎上進行相關的情感監測與傾向分析,對政府和微博意見主流之間的微分博弈進行Stackelberg 均衡判斷同一個話題用戶評價的正向積極的比例。最后根據政府是否實施合理管控后對輿情的發展趨勢進行對比判斷。

關鍵詞:網絡輿情;情感字典;微分博弈

一、Python爬蟲

建立的輿情數據抓取模型基于其爬蟲技術。在垂直領域獲得輿情數據或有明確的輿情導向需求時,過濾掉無用的數據并挖掘有價值的輿情信息。網絡爬蟲是一種從互聯網抓取數據信息的自動化程序。對各種異常進行相應處理與應對、錯誤重試等系列操作,使得爬取能夠可持續高效的運行,最后形成一個互聯網內容的鏡像備份。首先對要爬取數據界面,獲取網頁的源代碼,采用正則表達式提取信息。根據網頁節點屬性、CSS 選擇器或XPath來提取輿情網頁信息的庫,如 Requests、pyquery、lxml等,高效快速地從中提取網頁輿情信息。最終將其保存為 CSV 格式文件。由于 HTTP 協議是無狀態的,而服務器端的業務必須是要有狀態的。通過獲取服器端生成的Cookie,以key/value 保存到制定目錄下的文本文件內,添加在請求頭部。具體實例選取了微博作為對象,針對微博熱門話題、微博熱門評論和微博熱門用戶3部分進行輿情信息抓取,其中針對微博熱門話題,設計抓取了用戶 ID、用戶名、轉發數、評論數、點贊量、發表時間、來源設備;針對微博熱門評論,設計抓取了評論時間、用戶 ID 、用戶名、評論內容、用戶年齡、用戶性別、用戶所在地。

二、輿情信息篩選模型

在提取了網民評論的特征向量時,建立特征向量空間的訓練集。SVM 具有根據有限樣本找到最優解的能力,能夠避免神經網絡中的局部極值問題而得到全局最優點和高維特征處理能力。選擇支持向量機作為區分輿情篩選的分類器。最后利用最佳分類參數所構成的超平面對待所測文本中的特征向量進行判別。特征空間中線性可分,然后再利用線性分類進行求解,即非線性分類是建立在線性分類基礎上的。構建SVM支持向量機的過程一共分為5部分。分別為獲取語料庫、文本分詞處理、構建特征向量、算法設計和生成分類器模型。

三、情感字典建立與情感分析

在建立輿情控制模型前,首先需要判斷輿情的情感傾向。通常情況下,情感是對外界事物是否滿足自己的所需從而產生的態度體驗。其核心部分由一系列情感詞和情感短語以及它們的情感極性和強度組成。然而,現有的情感詞典并不適用于最新的情感分析。用戶經常使用非正式的新詞,如“好颯”,“ 666 ”等詞匯。這些用于傳達了豐富的情感信息,對情感分析尤為重要。因此首先針對目前主流的網絡討論平臺建立特定的情感詞典,主要可以分為正面情感詞典、負面情感詞典這兩類。避免了人工檢測和注釋等方法的成本高,耗時長的弊端。建立的情感成本字典主要分為 Hownet 基礎情感字典、互聯網網絡情感字典表情符號情感字典、程度副詞情感字典和否定詞情感字典 5 種。根據董振東教授所建立的知網體系,建立Hownet基礎情感字典;互聯網飛速發展隨之產生了許許多多的網絡詞匯。這些新興詞匯具有精簡且口語化的特點。與傳統詞匯不同但卻體現很強烈的感情色彩,匯集的網絡新詞主要來源于網站“小雞詞典”,整理出該網站中網絡詞匯及其詞匯釋義 3562個,通過將爬取下來的詞匯與其釋義轉化,構建互聯網網絡情感字典;網絡用戶傾向于利用表情標記來表達或加強自己的情感表達,因此,通過整理將表情符號的“[]”去除后,提出其中的漢字,并將提取出的漢字與之前構造的情感詞典匹配。結果得到正面表情標記 70個,負面表情標記 85個。最后將得到的表情標記分別加入本文的輿情正面情感詞典與負面情感詞典。

四、基于微分博弈模型的輿情控制方法

在分析輿情傳播中,本文主要以重大話題或突發事件來進行研究分析。當話題熱度足夠時,傳播的速度趨勢也會較之其他話題更加明顯。通常政府在突發事件的應急管理中占據主動地位。政府先采取措施和行為,而微博的輿論主體根據政府的行為和制定的措施與政策來選擇自己的輿論策略和期望要求,微博意見主流在做出決策之前,是能夠預先了解政府的行為和制定的政策與措施的。由此可知,政府與微博意見主流之間存在一個不完全信息動態博弈,同時,政府能夠了解微博意見主流的輿論策略和期望要求。政府和微博意見主流之間的微分博弈存在一個Stackelberg均衡。

五、基于線性加權的輿情等級處理

使用線性加權和法作為網民評論的輿情評價函數,對于每一個輿情目標賦權系數,權系數取決于當下輿情目標的重要性覺得,使用之前對輿情信息模型進行篩選和輿情數據抓取模型進行數據爬取,整理得到數據集后,按各目標的重要性賦予它相應的權系數:一共選取共5個熱門話題,輸入變量為輿情傳播時間(根據發表時間進行計算)、規模量(評論數、點贊數、轉發數)、情感得分(由評論計算獲得)、評論地區(主流一線城市與其它城市)。通過對這六個變量進行線性加權計算得到輿情綜合得分,并進行輿論分級劃分。

六、結語

支持向量機具有完善的理論基礎,具有魯棒性好,適應性強和全局優化的優點,被廣泛用于小尺寸和高尺寸樣本的目標模式識別。SVM 理論提供了一種避免高維空間復雜性的方法,可以直接使用該空間的內積函數(它是一個核函數),然后在線性可分性的情況下使用求解方法直接解決高維空間的決策。相應的高維空間問題。當內核函數已知時,它可以簡化解決高維空間問題的難度。同時,支持向量機基于小樣本的統計理論,這與機器學習的目的是一致的。本情感分析過程中,發現情感詞典是最重要的資源??梢酝ǔY果和相應的分析產生決定性的影響。但是很難構建一個適合所有領域的通用情緒字典,因為情感詞通常只適用于它所適用的領域。因此可以針對不同領域進行情感詞典的推廣,這當在不同的情況下使用時,修改模型的輿情情感詞,可以使情感詞可以有相反的表達,從而適應不同的話題領域。

參考文獻:

[1]汪蘭蘭. 基于anaconda環境下的通用微博評論抓取算法. 電子世界,2020,第24期

[2] 李一嘯,羅春華. 標簽與情感性對政務微博網民參與度的影響研究. 知識管理論壇(網絡版),2019,第6期

[3] 陳藝揚,郭子雄,何文. 基于Python的信息采集系統的分析與設計. 精品,2018,第7期

作者簡介:張盛然(2001-),男,安徽省亳州市蒙城縣人,本科,研究方向:數據挖掘,機器學習。趙恩興(2001-),男,安徽省合肥市肥東縣人,本科,研究方向:數據挖掘,機器學習。

基金項目:宿州學院省級大學生創新創業訓練計劃項目資助。

猜你喜歡
網絡輿情
新媒體環境下網絡輿情預警體系研究
微博問政與回應中的政府形象塑造
試論高校大學生網絡輿情引導方略
自媒體時代下高校網絡輿情預警指標體系構建
新媒介生態環境下高職院校網絡輿情特點及研判機制思考
網絡輿情編輯能力構成因素淺析
數據挖掘技術在網絡輿情管理中的研究
“互聯網+”背景下高校平安校園建設研究
淺析網絡輿情治理
基于社會穩定視角的網絡輿情預警機制構建的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合