?

基于微博信息的輿情語料庫構建與應用研究*

2016-12-27 09:15楊麗英
辦公自動化 2016年22期
關鍵詞:語料語料庫輿情

楊麗英

(山西大學商務學院信息學院太原030031)

基于微博信息的輿情語料庫構建與應用研究*

楊麗英

(山西大學商務學院信息學院太原030031)

隨著互聯網技術的成熟以及Web的飛速發展,微博,微信等社交網絡已經成用戶情緒反饋、情感溝通的重要輿論渠道,因此社交網絡輿情的分析處理成為國內外研究熱點之一。針對微博內容以及在線評論進行語料收集和初步整理,構建微博輿情語料庫,并且對語料庫的應用方面進行了探討。.

微博文本 輿情信息 語料庫構建

一、引言

隨著我國民主化進程的推進,國內外發生的一般或重大突發事件,都能夠在互聯網上引起絕大多數網民的持續關注,公眾對某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點形成一定的輿情。因此,網絡輿情已經成為影響社會治理的一支重要力量。網絡輿情是主要通過微博,BBS論壇、新聞跟貼、轉貼,微信公眾平臺等實現并加以強化。對微博輿情的研究不斷擴大,有情報學方面的研究,也有計算機語言處理方面的研究。

語料庫和詞典作為自然語言信息處理方向重要的基礎資源,與信息技術之間有著相輔相成的關系。中文語料庫經過近幾年的發展,在建設與應用方面都做了大量的工作。同時,由于社交網絡的出現,短文本形式的信息大量涌入人們的生活中。這就意味著傳統的語料庫已經不足以應付現在的理論研究,傳統的研究方法在短文本分類上也體現出缺陷和不足[1]。而大規模的短文本語料涵蓋了人們對各種化會現象中的各種立場與觀點,因此在輿情調查、熱點話題題的挖掘發現、新詞發現、話題識別等領域有著重要的應用前景。所以,微博輿情語料庫的構建對于信息處理領域是一個十分重要的研究方向。

本文針對各種專業短文本語料庫和通用短文本語料庫的缺少,構建小規模的微博輿情信息實驗語料庫。通過新浪API獲取微博短文本數據,搜集微博信息。并對語料庫進行一定的加工處理,如分類類別、主題和內容建模構建等工作。最后,對構建的語料庫應用進行探討。

二、微博輿情語料庫的構建分析

1、微博及微博輿情含義

微博,又稱微型博客,是一個基于社交網絡關系的信息獲取、分享和傳播的平臺。用戶以140字(含標點字符)為限更新信息,以互聯網和關注機制為基礎,實現信息的即時發布和快速傳播。

微博輿情是指個人或者各種社會群體、組織,通過微博平臺對自己關心或與自身利益緊密相關的各種公共事務所表達的多種情緒、態度和意見的總和[1]。一系列如“山東疫苗案”、“魏則西事件”以及“南海仲裁案”等微博輿情事件,若不能及時被識別和引導,將會對網絡環境甚至社會穩定造成嚴重危害。

2、建設微博輿情語料庫的意義

微博等社交網絡已經成為媒體傳播、信息發布、用戶情緒反饋、情感溝通的重要渠道,越來越多的用戶喜歡發布微博來分享他們的觀點和情感,龐大的用戶群以及由此產生的海量信息蘊含著巨大的社會價值和商業價值,同時也為自然語言處理研究帶來了新的機遇和挑戰。

微博輿情語料庫的建立是適應城市信息化建設的需求。第一,通過該語料庫可以盡早地、準確地、全面地掌握微博輿情發生情況和發展趨勢,為相關政府及時采取應急措施以及引導輿論方向等提供科學決策依據;第二,為計算語言學等自然語言處理關于微博信息的研究提供語料資源。

三、微博輿情語料庫的組織

1、微博輿情語料的收集

本文研究的微博語料庫,選取新浪微博內容作為原始標注語料,相對于其他語料庫,本文微博語料文本的選擇原則是所屬領域無關,事件分布面廣。在選取的過程中從2016年1月至2016年12月,共12個月的數據中進行隨機選取,同時每個月選取的微博數量大致相同,結合人工處理,留下格式較為規范的微博作為原始標注語料

對于挖掘處理、數據分析,自然語言處理而言,數據的提取都是首要一步。數據抓取技術目前有很多,主要的web數據抓取技術[2]有:

(1)基于API進行數據采集,一般來說,各網站提供的API的語言支持有多種類型,如Java Script API、C語言python script API等,同時包含的類別豐富,每個類別的使用方法和屬性都有詳細的文檔介紹。目前,提供網絡接口API來共享數據的形式也成為數據共享的一個典型代表;

(2)網絡爬蟲,爬蟲技術能夠智能的提取并挖掘網絡數據,網絡爬蟲的工作原理是通過程序獲取頁面的源文件,然后采用其中一個URL作為起點再逐一的獲取各網頁上的數據內容,即通過從某一頁面捕獲數據的同時也獲取頁面上的其他鏈接。然后重復之前的操作過程,直到將所有的網頁都抓取完成。

本文通過新浪API提供的各種接口結合網絡爬蟲獲取短文本微博數據。

2、微博輿情信息分類原則

分類對于語料庫建設來說是必不可少的一部分,對每篇文檔進行類別標注首先要規定整個語料庫的類別。本語料庫分為9個類別:娛樂、體育、政治、科技、音樂、房產、環保、醫療健康、其它等。

3、微博采集內容

以新浪微博作為研究平臺,分析知微博中的信息主要劃分為兩大類:一類是用戶信息,另一類是微博信息。其中,用戶信息主要包括用戶所在地,用戶擁有粉絲數,用戶所發微博數,用戶的認證類別;微博信息是指微博用戶發表的一篇微博的信息集合,包括微博正文、微博屬性信息、微博引用信息。其中微博的屬性信息包括微博發布時間、發布渠道、微博轉發及評論次數;這里發布渠道指發布微博的各類終端,包括各類手機客戶端,計算機網頁客戶端,例如:iPhone,Android等;轉發次數為數字表示,記錄的是該微博被直接轉發的次數;評論次數也是數字表示,是針對該微博發表評論的用戶數目;微博的引用信息是微博引用的原始微博項的信息,包含被引用微博的除時間和發布渠道外的其他信息。具體內容如表1所示。

表1 微博內容

4、微博輿情語料編碼

編碼是對信息進行分類標引和檢索的工具,本文的編碼從微博特點和語料庫兩方面入手,并參考了《中文新聞信息分類及代碼》以及人民日報語料庫編碼規則[3],以方便計算機檢索、計算和管理。

一篇微博信息的完整編碼為:類目編碼+微博編碼,全部代碼共12位,具體為:分類號(1位字母)+日期編號(8位數字)+微博編號(3位數字)。例如:編號為A20160314000的新聞語料。它表示娛樂類(A)中微博,發布時間是2016年3月14日,文檔編號000表示是此事件的第一篇微博。

5、微博輿情語料的加工處理

微博語料的加工處理數據的預處理需要進行分詞,詞性標注,采用已有的分詞工具進行,還需要清除網頁上的噪音數據,例如:用戶賬號:表情符號,URL,最后通過進行詞頻統計,去除停用詞等。具體過程如圖1所示。

四、突發事件新聞語料庫的典型應用

1、微博輿情話題識別和追蹤方法研究數據支撐

根據微博輿情語料庫,可以構建話題模型,調整話題特征項,進而對突發事件進行在線識別;可以訓練文本識別模型,從自動學習和統計規律等研究。另外,語料庫的構建可以為推薦系統、信息挖掘系統、智能決策系統、檢索工具等提供第一手數據資料和實踐基礎。

2、微博輿情語料庫在城市智能信息研究中的應用探討

作為一種嘗試,在My Eclipse平臺上,采用Java語言,建設微博輿情話題識別和追蹤平臺,通過語料庫的實現了:用可視化的方法實現了數據的獲??;并且通過微博輿情話題和追蹤平臺進行微博輿情監測,獲悉微博輿情的發展,進行有效引導、掌控其發展態勢,引導微博熱點話題的走向,及時發現微博輿情危機,最大程度減少社會負面影響,緩和微博輿情不良形勢,穩定社會安全,促進我省和諧社會的建設和發展

五、結語

本文以微博輿情信息為背景,把中文信息處理技術、智能信息檢索與機器學習方法結合在一起,研究了微博語料庫的組織、加工處理方法、分類體系和編碼等內容。研究結果對語料庫的建設、以及為相關政府及時采取應急措施并引導輿論方向等提供科學決策依據。

[1]李明德,張宏邦.微博輿情:模式、表征與趨勢[J].情報雜志,2013(7):49-53.

[2]吳文岫.短文本分類語料庫的構建及分類方法的研究[D].安徽大學,2015.

[3]俞士汶,段慧明,朱學峰,等.北京大學現代漢語語料庫基本加工規范[J].中文信息學報,2002,16(5):49-64.

[4]陳向陽,陳麗萍,姜振國.基于API接口的騰訊微博數據挖掘[J].現代計算機(專業版),2015,09:47-50.

[5]黃斯琪.基于微博平臺的社交網絡輿情分析方法[D].南京郵電大學,2015.

[6]莫祖英.微博信息研究熱點分析[J].圖書館學研究,2015,06:2-8.

Research on the Establishment and Applications of Public Sentiment Corpus Based on Micro-blog Information

Yang Liying
(Information Faculty,Business College of Shanxi University Taiyuan 030031)

With the rapid development of Internet technology and Web,micro-blog,WeChat,etc,social networks have become an important source for public users emotional feedback,emotional communication.The social network public opinion analysis has become one of the hot research both at home and abroad.In this paper,according to the micro-blog content and online reviews,collection and reorganize data,build micro-blog public opinion corpus,discuss the application of the corpus.

Micro-blog textPublic sentiment information Corpus construction

G206

A

161103-7411

1、2015年山西大學商務學院科研基金項目《面向微博高校網絡輿情熱點話題識別方法研究》(2015010)

2、2016年山西省重點研發計劃項目《微博輿情話題識別與追蹤方法研究及平臺構建》(201603D321112).

楊麗英(1982~),女(漢族),山西省太原市人,山西大學商務學院教師,碩士學位,研究方向:計算機應用技術。

猜你喜歡
語料語料庫輿情
基于語料庫的清末民初日源外來詞漢化研究
面向低資源神經機器翻譯的回譯方法
《語料庫翻譯文體學》評介
可比語料庫構建與可比度計算研究綜述
數字輿情
數字輿情
消費輿情
國內外語用學實證研究比較:語料類型與收集方法
語篇元功能的語料庫支撐范式介入
英語教學中真實語料的運用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合