?

基于相對權重的網絡輿情監測系統設計*

2015-01-15 09:17潘大慶
關鍵詞:文檔頁面輿情

潘大慶

(柳州市委黨校,廣西 柳州 545006)

隨著互聯網的大量普及,網絡輿情也成為一項社會和國家安全的一個重要因素.因此對網絡輿情進行實時的跟蹤和監測,能夠讓國家及時地掌握網絡輿情的發展變化和發展規律[1-3].對于一些影響社會安定和穩定的不良網絡輿情做到及時地發現和跟蹤,能為維護整個社會的安定發揮積極的作用.

近年來國內外針對網絡輿情監測技術的研究很多,并取得了一系列的研究成果,比如:董亞倩,鄧尚民等人[4-5]以社會網絡為分析對象,研究了網絡輿情主體挖掘技術,也重點研究了高校中的輿情演變規律及安全評估指標體系.而陳新杰、呼雨等人[6]也專門對網絡輿情監測的指標體系進行了研究.

但是對網絡輿情監測技術的研究并沒有止境,隨著網絡結構的不斷變化,以及網絡輿情復雜性的日益發展,使得開展網絡輿情監測的相關技術研究,依然還需要繼續努力[7-9].筆者通過深入的研究,設計了一種基于相對權重的網絡輿情監測算法和系統.

1 輿情監測系統組成

輿情監測系統組成結構如圖1所示.該系統主要包括信息采集、信息監測和信息管理三個部分.其中信息采集又由網絡地址過濾、網絡頁面內容分析、頁面去冗、網絡爬蟲和網絡爬蟲策略深層模塊所組成.在這些功能模塊中通過網絡爬蟲按照預先設定的爬蟲策略,對整個網絡中的頁面進行自動化的獲取和分析,而且在獲取過程中,為了提高數據采集的精度,設計了網絡地址過濾和頁面去冗的功能模塊.

在網絡監測模塊中主要由文本分類、文本聚類、相對權重計算、主題監測、虛事統計和關聯事件統計等功能模塊組成.在這些功能模塊中最核心的是相對權重的計算,其作用是通過對網絡爬蟲采集到的頁面進行初步的文本分類和聚類之后,計算每一個網絡頁面它的關鍵詞的相對權重,為后期的主題檢測和事件統計奠定基礎.

信息管理模塊主要包括熱點事件記錄、熱點事件發展趨勢顯示、輿情狀態顯示、輿情關聯事件列表、輿情信息上報接口、用戶管理接口和用戶配置接口等功能模塊.在這些功能模塊中,基本上可以分為兩大類,一類是事件信息的顯示,一類是用戶接口模塊[10-11].信息顯示主要是對輿情的分類、輿情的動態變化情況、發展趨勢等特性進行顯示.而接口模塊主要接收用戶的一些管理和配置的信息,使得整個輿情監測系統能夠更好地運行.

筆者所設計的輿情監測系統,最重要的是對輿情監測部分的設計和實現,在這個功能中主要通過設計專門的輿情監測算法來實現對輿情的跟蹤和監測.

圖1 輿情監測系統組成結構Fig.1 Composition and structure of public opinion monitoring system

2 輿情監測算法設計

一篇文檔T_k中,經過分詞處理后,提取出來的關鍵詞有),所有待處理的文檔共有N篇.

利用這一分詞權重描述模型,能夠對所有待處理文檔中分詞進行權重分析和度量,為網絡輿情監測提供準確的信息支持.

輿情監測算法流程如圖2所示.在輿情監測過程中首先通過網絡爬蟲對網絡中的頁面進行采集,提取各個頁面中的內容數據,將所提取的內容數據送入相應的數據庫,數據庫中的數據都將會統計入庫文檔集合中的相關參數,比如文檔中的關鍵詞匯,文檔出自的地方,以及文本所包含的字數等等相關參數.之后對所有入庫的文檔進行頁面分詞,通過頁面分詞將整個頁面中的各個詞匯提取出來,之后按照本文所設計的分詞權重計算算法,對每個頁面中的分詞計算其相應的權重,最后再用該權重計算出整個頁面的主題權重.以此完成對整個頁面的權重計算,當對整個數據庫中的頁面數據進行依次掃描和計算之后,則可以完成對整個文庫中的統計權重的計算.最后根據預先設定的熱點事件評價閾值,對網絡中的熱點事件進行分析和判斷,最后給出輿情監測的結果.

圖2 基于相對權重的輿情監測算法流程Fig.2Process of public opinion monitoring algorithm based on relative weight

3 測試與分析

選取典型輿情事件測試數據樣本庫對筆者設計的輿情監測系統性能進行測試,測試之前對主要的評價指標進行了分析,并選取恰當的評價指標對輿情監測系統進行測試.

召回率也即查全率,是用于評價檢測系統所檢測到的結果在所有符合條件的事件比率,其計算公式如下所示:精度是衡量檢測系統所有預警事件的準確性,其計算公式如下:

除此之外,還有漏報率和誤報率也可以衡量檢測系統的性能.漏報率是指系統對真實輿情事件的漏報比率,誤報率是指系統預警的輿情事件錯誤概率,這兩個指標的計算公式分別如下:

從計算公式可以看出,在實際的應用過程,漏報率和誤報率都可以由召回率和精度兩個指標計算得到,因此在實際測試評價檢測系統性能時,一般只采用召回率和精度兩個指標.根據本文所選取的輿情監測測試樣本數據,測試結果如表1所示.

表1 輿情監測系統測試結果Tab.1 Test results of the public opinion monitoring system

從測試結果可以看出,筆者所設計的輿情監測系統,在對給定的測試文檔中,能夠準確地發現測試文檔中的熱點事件,其對事件的檢測精度大于92%.而在檢測過程中其召回率大于91%,這一測試結果表明,筆者所設計的輿情監測算法,能夠有效地檢測和發現網絡中熱點事件.并且由于筆者所設計的輿情監測算法計算速度快,因此能夠實現對熱點事件的實時跟蹤的應用.

4 結語

網絡輿情監測對維護網絡世界的和平,乃至整個現實世界的安定都有著重要的作用.雖然目前也有很多技術和方法用于網絡輿情監測,但是由于網絡的復雜性,導致目的網絡輿情技術往往具有一定的局限性[12-13].有的時候面對一些復雜網絡,其得到的輿情監測效果并不理想.筆者通過設計基于相對權重的網絡輿情監測技,能夠動態的去調整和適應未知的網絡環境,以及網頁內容的動態變化,從而確保所設計的網絡輿情監測系統能夠具有較高的輿情監測精度.

[1]劉建軍,王威.試論大學生網絡輿情的預警機制[J].高校輔導員,2010(4):5-9.

[2]王曉蘭.2010年中國微博客研究綜述[J].國際新聞界,2011(1):24-26.

[3]謝海光,陳中潤.互聯網內容及輿情深度分析模式[J].中國青年政治學院學報,2006(3):95-100.

[4]董亞倩,鄧尚民.基于社會網絡分析的網絡輿情主體挖掘研究[J].情報資料工作,2011(6):45-49.

[5]董亞倩.高校網絡輿情演變規律及安全評估指標體系構建研究[D].淄博:山東理工大學,2012.

[6]陳新杰,呼雨,蘭月新.網絡輿情監測指標體系構建研究[J].現代情報,2012,32(5):4-8.

[7]金兼斌.網絡輿論調查的方法和策略[J].河南社會科學,2007(4):118-121.

[8]繆志波.淺析微博時代高校網絡輿情的監測與引導[J].當代教育論壇,2012(1):118-121.

[9]姜勝洪.網絡輿情熱點的形成與發展、現狀及輿論引導[J].理論月刊,2008(4):34-36.

[10]劉繁榮,劉華寶.突發公共事件網絡輿情的政府應對[J].中共南昌市委黨校學報,2011,9(2):43-46.

[11]馬賓.高校校園網絡輿情及預警機制研究[J].科技視界,2012,1(3):91-93.

[12]劉巧英.信息生命周期管理隊圖書館信息服務的啟示[J].圖書館學研究,2006(8):57-59.

[13]劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統工程,2011(6):9-14.

猜你喜歡
文檔頁面輿情
刷新生活的頁面
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
消費輿情
基于RI碼計算的Word復制文檔鑒別
輿情
輿情
輿情
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
Web安全問答(3)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合