?

基于內容的微博興趣度分析

2016-05-19 11:15陳磊肖基毅劉志明
電腦知識與技術 2016年7期
關鍵詞:微博

陳磊++肖基毅++劉志明

摘要:微博用戶可以將他們接收到的信息傳遞給他們所有的粉絲,這被稱為轉發。當用戶發現特別有趣并且值得分享的消息時便會進行轉發動作。因此,轉發反映出在微博社區中人們關心的內容,并且我們可以把它作為興趣度的一個函數。在本工作中,我們分析了幾個大型微博消息集的基于內容的特征,并訓練了一個預測模型,對給定的微博消息,基于內容預測它被轉發的可能性。從模型學習到的參數中,我們推斷出有可能引起轉發的內容特征。因此我們可以了解到哪些內容特征可以使消息變得有趣和值得轉發。

關鍵詞:微博;轉發;主題模型;內容特征;興趣度

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)07-0154-04

A Content-based Analysis of Interestingness on Microblog

CHEN Lei, XIAO Ji-yi, LIU Zhi-ming

(University of South China, Hengyang 421001, China)

Abstract: Users can forward any messagethey receive to all of their followers on the Microblog.This is called a retweet. When users find a message particularly interesting andworth sharing with others, they will retweet. Thus, retweets reflect what the users considers interesting on microblog, and can be usedas a function of interestingness.In this paper, we analyzecontent-based features on several large collections of Microblog messages, and train a prediction model. For a given tweet, we forecast its likelihood of being retweeted basedon its contents. From the parameters learned by the model we deducefeatures that contribute to thelikelihood of a retweet. As a result we can know whatmakes a message on Microblog worth retweeting and interesting.

Key words: tweet;retweet; topic model; content feature; interestingness

1 概述

微博平臺允許用戶通過短消息來分享信息,發出的消息可以傳遞給那些訂閱了作者消息的人們。在微博環境中,這種訂閱被稱為關注。這種粉絲-關注結構在微博用戶中形成了巨大的網絡,在這種網絡中,消息的接收者可以將它傳遞給自己的粉絲,這被稱為轉發。通常來說,如果用戶覺得一條消息有趣并且值得同別人分享,就會進行轉發。

近年來,基于微博的研究工作成為國內外研究的熱點。一些研究計算了基于社會網絡的微博用戶影響力,例如,使用PageRank算法,粉絲數量,轉發和主題趨勢的數量[1]。這些主要是對粉絲的數量和影響力之間的相關性方面的研究。在這種情況下,一個典型的結論就是擁有活躍粉絲的人際關系良好的用戶更有可能被轉發。在這種設定中,微博內容會被忽視或減小為一些簡單因素?;诰W絡的分析可能會暗示出誰有可能會寫出有趣的微博消息,但不能指出整個微博社區對什么東西感興趣。因此在本文中,我們主要討論微博本身的內容,并且訓練了一個預測模型,單純的根據微博本身的內容來預測它被轉發的可能性。從模型學習到的參數中我們推斷出導致微博被轉發的內容特征,進而推斷出微博環境中那些有趣的微博消息的特征。

為了實現這個目的,我們分析了一個大型微博消息集的基于內容的特征。這些特征包括是否為直接信息,URL的存在,標簽,用戶名,表情,疑問標記和感嘆標記,以及有強烈積極或消極暗示的詞組。這些特征可以直接從微博文本中提取,并且不需要進一步處理。

因此,在本文中,我們完成兩個工作:

l 研究哪些微博會被轉發的問題,我們主要根據一組廣泛的內容特征和文本信息,這些文本信息獨立于微博用戶在社交網絡中的位置以及微博的時間戳等等。我們證明了預測哪些微博會被轉發是可行的。

l 通過分析預測模型學習到的參數,我們確定出那些對微博的轉發有較強貢獻的特征,這使我們可以進一步研究在微博社區中,哪些內容是有趣的。

2 研究背景及相關工作

新浪微博是成立于2009年的微博平臺,它允許超過2億用戶分享微博消息:每條微博消息不能超過140個字符。用戶可以關注其他用戶來獲取他們的微博。如果一個用戶覺得一條微博很有趣,他可以把這條微博傳遞給自己的粉絲,這種行為被稱為轉發。通常用戶會轉發那些有趣的或與他們粉絲有關的內容[2]。按照慣例,轉發會用特殊的關鍵字來表示,例如RT和via。轉發的目的通常是向自己的粉絲傳播信息。根據Kwak等人的工作[3],不管微博的首發者擁有多少粉絲,任何被轉發的微博都可以平均傳遞給1000名用戶。

2.1 微博分析

近年來針對微博進行了許多研究,一些研究基于社交網絡確定博主的影響力,例如使用PageRank算法,粉絲數,轉發數,以及熱門話題[4-,6]。這些研究觀察粉絲數與用戶影響力的相關性。

Boyd等人[2]對Twitter的轉發功能retweet做了細致的分析,探討人們如何轉發,為什么轉發以及轉發什么的問題。

Suh等人[5]指出環境特征,包括圖形結構的基本方面,例如粉絲數和關注數(用戶關注的人數),賬戶年齡,受歡迎的微博數量,微博總數及發布頻率,也會影響微博是否被轉發。這種分析同時考慮了內容特征的因素,該研究證實了URL和標簽的存在與微博是否被轉發有很大關系。

Hong等人[7]將轉發數作為衡量用戶受歡迎程度的一個因素,并且提供了機器學習技術來預測新消息被轉發的頻率。作者分析了信息文本,時間信息,消息和用戶的元數據,以及作者的社交網絡圖,并將這些作為預測微博是否被轉發的參數。

Kwak等人[3]發現基于粉絲數的排名算法與PageRank算法非常相似,但基于微博轉發數的排名算法卻與PageRank算法不同,因此得出結論:興趣度不一定與社會地位相關。在與PageRank算法的對比中,Weng等人[6]定義了TwitterRank算法來評價用戶。盡管這些方法可以用來預測一條微博的受歡迎程度,但它們不能用來尋找那些有趣的微博,因為它們是基于用戶排名和環境信息,而不是基于內容。Welch等[8]則改進了Weng等的做法,通過用戶之間的轉發關系代替關注關系。

總的來說,這些工作指出,微博被轉發的可能性是基于微博所處的環境(粉絲數和關注數,微博的發布時間,賬號年齡)和微博內容的基本特征(URL,用戶名,標簽,情感特征)。我們將會更加強調內容,并且將會分析一組基于內容的特征。

2.2 微博數據集

在我們的實驗中,我們使用兩個新浪微博數據集,它們已經在相關工作中被使用。表1中列出了它們的關鍵屬性和統計數據。所有的數據集包括微博用戶,微博內容,以及微博的轉發數。

其中,數據集一為訓練集,用來學習模型的參數。數據集二為測試集,我們使用預測模型來對微博是否會被轉發進行預測。

URL,用戶名和標簽:如果沒有進一步的分化,我們考慮微博中存在的典型的特殊條目,它們就是URL,用戶名和標簽。微博中使用用戶名來直接提及某些用戶,或是為了標出某位用戶以便討論他。標簽用來標記特定主題,它們既可以寫在消息行中,也可以附在消息后。URL通常用來指示被討論文字的地址。在新浪微博中,用戶名和標簽可以用特定語法來標識,即@用戶名和#標簽的形式。我們用字符串http:來標識URL。

相關工作已經認識到URL,用戶名和標簽對轉發行為的影響,由于這些是單純的基于內容的特征屬性,我們同樣把它們考慮到我們的設定之中。

感嘆和疑問標識:我們在微博的末尾使用感嘆標識“!”和疑問標識“?”來作為兩個二進制的特征屬性。人們在交流中使用感嘆標識來表示隱含的強烈情感,在一般的文本中,它用來標識感嘆詞。疑問標識在所有的文本中都用來表示疑問,并希望得到回應。由于這兩種符號的多次使用,我們不能簡單的斷定,在所有的情況下,一個疑問標識都表示疑問,一個感嘆標識都表示一種強烈的情感。但是,在消息末尾使用這些符號作為標識符是一種恰當且直接的方法。

任何用戶收到這兩種形式的消息,都會做出反應。為了擴大范圍,尋求專家給出答案,問題可以被傳遞。用戶也會轉發感嘆句來表示支持。

積極詞匯和消極詞匯:我們從表3中給出的預定義列表來尋找積極詞匯和消極詞匯。最近的研究發現,在新浪微博中,表示積極情感和消極情感的詞匯會影響社交互動。并且我們推測,它們在影響微博興趣度的問題上也會起到一定作用。

表情:表情是表示情感的短字符串。我們從語法上解析微博,來發現諸如:-)的積極表情和諸如:-(的消極表情,我們也給出了兩個值為二進制的屬性,如表3所示。

3.2 模型分析

4 結果分析

一旦我們訓練好邏輯回歸模型,我們就可以得到表示影響微博被轉發可能性的特征權重。通過觀察這些權重,我們就可以知道,在新浪微博中,哪些因素會影響轉發行為,并且可以推斷出用戶對哪些內容感興趣。

通過計算一條新消息的特征屬性,使用公式(1)我們可以得出新消息被轉發的概率。這個概率可以用于兩個方面:預測微博是否會被轉發,以及衡量微博的興趣度。

4.1 權重訓練

為了驗證學習模型的參數,我們根據微博的時間戳,將微博數據集分為訓練集和測試集。在訓練集中,我們分析大量的微博內容,從而學習到每個內容特征的權重,如表4所示。

4.2 權重分析

我們建立的模型并不做簡單的隨機預測,而是計算給定微博被轉發的概率,因此我們可以對模型的權重進行分析。表4列出了在訓練數據集上對不同屬性使用邏輯回歸得到的權重。一個二進制屬性i的權重可以表示成具有該屬性的微博的對數概率:

從學習到的屬性的權重中,我們可以觀察到一些有趣的信息:

l 直接消息:相應屬性的極大的負權重表明,直接消息不太可能被轉發。這個結果符合我們的直覺,用戶對私人信息不感興趣。這些直接發送給某一特定用戶的消息并不能引起其他用戶的轉發。

l 標簽、用戶名和URL:帶有標簽、用戶名和URL的微博更有可能被轉發。這個結論已經取得了相關方法,這些方法單獨考慮了這些屬性。

l 積極表情和消極表情:包含像:-)這種積極表情會降低微博被轉發的可能性,而包含:-(這種消極表情卻會增加微博被轉發的概率。通過把消極表情與消極情感聯系起來,可以得出結論:用戶對壞消息更感興趣。

l 積極詞匯和消極詞匯:積極詞匯和消極詞匯都會使微博更有可能被轉發。在這種情況下,積極詞匯具有更大影響。一個可能的解釋是:用戶不太愿意轉發那些帶有粗魯詞匯的微博。

l 感嘆號和疑問號:以感嘆號結尾的微博不太可能被轉發,但以疑問號結尾的微博卻很有可能被轉發。這說明在微博社區中人們對回答問題及尋求答案有著強烈的興趣。

4.3 轉發預測

利用在訓練集中學習到的權重,我們可以通過公式(1)計算特定微博的轉發概率。表5列出了測試集中10條微博的預測情況及真實情況。

利用我們的學習模型,對測試集中的大量微博進行預測,對比結果可知,預測精度大約為90%,實驗結果符合我們的預期。該結果也驗證了我們上面的結論,即微博的哪些內容特征會提高轉發率,哪些會降低轉發率。

5 總結

在本文中,我們介紹并評價了一種預測微博消息轉發概率的方法。這個方法基于新浪微博平臺的轉發功能,并把它作為衡量微博興趣度的一個指標。為了克服環境誤差,比如用戶的社交網絡或時間戳,我們使用了一種單純的基于內容特征的學習方法來預測微博被轉發的可能性。為了捕捉文本內容,我們使用了微博的一些內容特征屬性,比如URL,標簽,用戶名,疑問號和感嘆號,表情,積極詞匯和消極詞匯。

在以后的工作中,我們會把更多的特征屬性考慮到本方法中來,同時我們會將情感分析的方法運用到我們的模型中,例如考慮微博文本中詞條的情感度以及包含在URL網頁中的文本內容。鑒于我們的觀察結果,情感是一個值得深入研究的話題。運用情感分析的方法將大大提高微博轉發的預測精度。同時,使用微博平臺作為問答系統的適用性也是進一步研究的一個方向。

參考文獻:

[1] Cha M, Haddadi H, Benevenuto F, et al. Gummadi. Measuring user influence in Twitter: the million

follower fallacy[C]. Proc. Int. Conf. on Weblogs and Social Media, 2010: 10-17.

[2] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet:Conversational aspects of retweeting on Twitter[C]. Hawaii Int. Conf. on System Sciences, 2010: 1-10.

[3] Kwak H, Lee C, Park H,et al. What is Twitter, a social network or a news media?[C].Proc. Int. World Wide Web Conf., 2010: 591-600.

[4] Romero D M, Galuba W, Asur S, et al. Huberman.Influence and passivity in social media[C]. CoRR,abs/1008.1253, 2010.

[5] Suh B, Hong L, Pirolli P, et al. Want to be retweeted? large scale analytics on factors impacting retweet in Twitter network[C].Proc. Int. Conf. on Social Computing, 2010: 177-184.

[6] Weng J, Lim E P, Jiang J, et al. TwitterRank:Finding topic-sensitive influential twitterers[C]. Proc. Int.Conf. on Web Search and Data Mining, 2010: 261-270.

[7] Hong L, Dan O, Davison B D. Predicting popular messages in twitter[C]. WWW (Companion Volume), 2011: 57-58.

[8] Welch J,He D, Schonfeld U,et al.Topical Semantics of Twitter Links[C]//Proceedings of WSDM11,2011.

[9] Naveed N,Gottron T.Bad News Travel Fast:A Content-based Analysis of Interestingness on Twitter[C] //Proceedings of the 3rd International Web Science Conference,2011.

[10] Hosmer D W, Lemeshow S. Applied logistic regression[M]. John Wiley and Sons, 2000.

猜你喜歡
微博
何以解憂?基于社交媒體大數據的睡眠健康公眾敘事研究
打造醫院里的“主流媒體”
事實與流言的博弈
重大突發事件中微博之力不微
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合