?

社交網絡用戶標簽預測研究

2016-05-04 02:52邢千里劉奕群馬少平
中文信息學報 2016年2期
關鍵詞:列表標簽對象

劉 列,邢千里,劉奕群,張 敏,馬少平

(清華大學 智能技術與系統國家重點實驗室,清華信息科學與技術國家實驗室(籌),清華大學 計算機系,北京 100084)

社交網絡用戶標簽預測研究

劉 列,邢千里,劉奕群,張 敏,馬少平

(清華大學 智能技術與系統國家重點實驗室,清華信息科學與技術國家實驗室(籌),清華大學 計算機系,北京 100084)

隨著社交網站的流行以及用戶的大規模增加,社交網絡用戶行為分析已經成為社交網站進行網站維護、性能優化和系統升級的重要基礎,也是網絡知識挖掘和信息檢索的重要研究領域。為了更好地理解社交網絡用戶添加個人標簽的行為特征,該文基于大約263萬個微博用戶的真實數據,對用戶標簽的分布進行了研究和分析。我們主要考察了用戶標簽的宏觀分布特征,以及用戶標簽與關注對象的標簽分布之間的聯系,發現微博用戶給自己添加標簽時,在開始階段傾向于使用反映個性的標簽,之后會出于從眾心理而選用大眾化標簽。我們將研究發現運用到基于關注關系的標簽預測算法中,結果證實相關分析對于社交網站的標簽推薦等課題具有一定的參考意義。

社交網絡;用戶行為分析;標簽預測

1 引言

近幾年,國內外互聯網上逐漸興起一大批社交網站,在國外以Twitter、Facebook為代表,在國內則以新浪微博、騰訊微博、人人網等為代表,隨著用戶規模的不斷擴大,這些網站逐步成為眾多網民獲取信息、發表意見、制造輿論的主要途徑。以微博為例,據最新CNNIC統計報告顯示[1],截至2012年12月底,中國微博用戶規模達3.09億,較2011年底增長5 873萬,增幅達到23.5%,網民中的微博用戶比例由2011年底的48.7%增長到2012年底的54.7%。微博已經成為了中國網民使用的主流應用,龐大的用戶規模進一步鞏固了其網絡輿論傳播中心的地位。

如何為用戶提供優質的服務,幫助用戶及時高效地獲取所需信息,最大規模地吸引用戶群,一直是社交網站所關注的重點。用戶行為分析是了解用戶行為習慣和使用意圖的主要方法之一。社交網站提供的服務多種多樣,導致用戶行為的種類也具有多樣性,常見的用戶行為包括發布原創信息、轉發、評論、添加標簽等,這也進一步導致了用戶信息的復雜多樣。針對其中一種或多種信息進行分析,均可以挖掘出許多有價值的發現,而本文則主要著眼于對用戶添加個人標簽的行為特征進行分析。個人標簽是用戶根據自身情況對自己標注的文本內容,可以反映用戶的身份、特長、愛好、專業領域等信息,多為字數較少的詞或者短語。研究用戶標簽的分布特征,可以為社交網站的標簽推薦、專家搜索、用戶分類等應用提供一定參考。

本文通過對大約263萬個微博用戶的信息進行分析,主要研究兩個方面的特征:一是用戶標簽分布的宏觀特征;二是用戶標簽與其關注對象的標簽分布之間的聯系。與以往工作不同的是,我們在分析過程中,重點考察了用戶標簽列表不同位置上的標簽分布情況。通過分析,我們希望能夠了解用戶添加個人標簽的行為特點,為社交網站相關應用的算法優化提供一定依據和方向。

以下內容首先介紹了本研究課題的相關工作;然后介紹了新浪微博的個人標簽功能和本研究使用的數據集;接著,從兩個方面對用戶標簽的分布進行特征分析;再嘗試將相關發現運用到基于關注關系的標簽預測算法中;最后給出工作總結和啟示。

2 相關研究工作概述

近幾年,對于社交網絡的相關研究一直是國內外信息檢索領域的熱門課題。國外學者在做相關研究時大多以Twitter作為研究對象,而國內學者則比較喜歡用新浪微博作為研究對象。盡管Twitter和新浪微博在功能上有很多相似之處,但也存在一些差異,比如Twitter提供了話題標簽功能,卻沒有提供個人標簽功能,而新浪微博則同時向用戶提供了話題標簽和個人標簽功能。這也導致在標簽預測方面的研究主要是針對文檔標簽或者資源標簽[2-3],針對用戶標簽的研究則相對較少。

許多關于社交網絡的研究是通過建立反映用戶興趣的描述文檔,對用戶進行個性化的內容推薦或好友推薦,因此,如何建立準確的描述文檔對于個性化服務的質量有著重要的影響。一般建立用戶文檔的方法是從用戶發布的內容中提取關鍵詞,如Weng[4]等人在TwitterRank中使用的topic model,或者根據他人對某個用戶的描述建立關鍵詞列表,如Ghosh[5]等人使用Twitter的list功能建立專家搜索系統。這些方法都是從側面建立用戶描述,并沒有使用用戶對自己的描述信息,導致結果會出現一定偏差。而新浪微博提供的個人標簽功能可以看做是用戶感興趣話題的直接反映,因此研究用戶的個人標簽對于建立更準確的用戶描述有重要意義。2011年,陳淵[6]等人針對微博用戶提出了一種標簽推薦方法,他們根據用戶的關注人數、粉絲人數和發布的微博數對用戶群體進行分類,針對不同群體分別使用關注對象的標簽集合、粉絲的標簽集合或從微博中提取的關鍵詞等作為標簽推薦的依據。他們針對個別用戶進行了實驗,結果表明這種方法具有一定的效果。與以往工作不同的是,本文主要分析了用戶添加個人標簽的行為特征,特別是針對不同位置的標簽分布進行分析,相關發現可以為進一步的標簽預測、專家尋找、用戶分類等研究提供一定的參考依據。

3 分析數據介紹

本研究使用的用戶數據集是在2011年9月至2012年5月之間抓取的2 631 061個新浪微博用戶信息,包含用戶的ID、個人標簽、關注關系等。新浪微博雖然為用戶提供了添加個人標簽的功能,但限制每個標簽最多包含七個中文字符,且每個用戶最多只能添加十個個人標簽。比如創新工場CEO李開復先生(微博地址: http://weibo.com/kaifulee)為自己添加的十個標簽是“風險投資”、“微博控”、“創新工場”、“教育”、“科技”、“電子商務”、“移動互聯網”、“創業”、“IT互聯網”、“世界因你不同”。

圖1展示了數據集中擁有不同數量標簽的用戶所占比例。

由圖1可以看到,大約40%的用戶給自己添加了至少一個標簽。而在有標簽的用戶集合中,有一至九個標簽的用戶數目分布比較平均,而有十個標簽的用戶則相對較多,占有標簽用戶的20%左右??梢圆聹y,一個用戶在填寫或者修改個人標簽信息時,如果看到了新浪微博提示的“最多十個標簽”,便會不自覺地給自己添加滿十個標簽,使有限的“資源”得到充分利用。

基于上述數據集合,我們可以從多種角度對微博用戶的標簽分布進行深入的分析和研究,考察社交網絡用戶添加個人標簽的行為特征。注意,為了避免英文字母的大小寫影響分析結果,我們在分析之前將數據集中的英文字母統一做了小寫處理。

圖1 擁有不同數量標簽的用戶所占比例

4 用戶添加個人標簽的行為分析

4.1 用戶標簽的宏觀分布分析

由于微博用戶在添加個人標簽時,除了字數限制外,在內容上并沒有嚴格的限制,所以不同用戶添加的標簽在內容上可能會多種多樣。同時,有一些標簽可能會出現在許多用戶的標簽列表中,被大量用戶共享。我們首先從以下幾個角度分析用戶標簽分布的宏觀特征。

4.1.1 不同標簽的標簽數分布

經過統計,數據集中的所有用戶共有標簽 6 395 232個,平均每個用戶有2.43個標簽。除去重復的標簽,數據集中共包含900 119種不同的標簽。這些不同的標簽在數據集中出現的次數差異很大,比如出現次數最多的標簽“音樂”共出現了195 542次,而僅出現一次的標簽則有698 275種,占所有不同種類標簽的77.58%。圖2顯示了不同種類標簽出現次數的分布。

圖2 用戶標簽出現次數分布

由圖2可以看出,除去一些出現次數較多的標簽,大多數標簽出現的次數與標簽種類數呈指數分布關系。絕大部分標簽出現次數很少,我們將這些標簽視為少數用戶特有的“個性標簽”,例如,有96.23%的標簽僅出現了十次或十次以下;另一小部分標簽在數據集中則大量出現,被許多用戶共享,我們將這些標簽視為“大眾標簽”。表1給出了在數據集中出現次數最多的十種大眾標簽,及它們的出現次數在所有標簽總數中所占的比例。

由表1可以看到,大眾標簽大多是大家普遍關注的話題,比如電影、美食等,而且多與娛樂、休閑有關。僅前十種大眾標簽就占了所有標簽的20%左右,可見其出現次數之多。

表1 出現次數最多的10種標簽

4.1.2 不同位置的標簽熵

我們在研究過程中發現,用戶標簽列表不同位置上的標簽分布是不同的,而且存在一定規律性。為了觀察用戶標簽列表的不同位置上標簽的分布差異,我們將有標簽的用戶按照標簽數(1至10個)進行分類,計算了每一類用戶在不同位置上的標簽熵。計算公式如式(1)所示。

(1)

其中,假設一個集合中共有n個不同的標簽,pi代表第i個標簽在該集合中出現的頻率。

圖3顯示了在數據集上求標簽熵的結果。圖中每條曲線代表擁有特定標簽數的一類用戶,橫軸代表標簽在用戶標簽列表中所處的位置。

圖3 標簽列表中不同位置的標簽熵

觀察圖3中的每一條曲線可以看到,對于每一類用戶而言,隨著標簽位置由前至后,標簽熵呈現明顯遞減的趨勢。這說明在用戶標簽列表中,靠前的位置標簽的分布比靠后的位置更加離散。而比較圖2中不同曲線的高低可以看到,對于同一標簽位置而言,基本上標簽數越多的用戶群對應的標簽熵越高。說明標簽數越多的用戶群在某一位置上的標簽分布相對離散,而標簽數少的用戶在同一位置上的標簽分布則相對集中。猜測其原因,可能是用戶標簽列表中位置靠前的標簽包含更多反映用戶特點或者個性的標簽,而靠后的標簽則包含更多大眾化的標簽,進一步猜想,用戶在添加個人標簽時,在開始階段會傾向于添加個性標簽,而之后則會出于從眾心理添加大眾化的標簽。為了更好地證實這一猜想,下面一節我們將舉例統計大眾標簽在用戶標簽列表不同位置所占的比例。

4.1.3 不同位置的大眾標簽比例

我們以表1中的大眾標簽為例,統計了在標簽列表的不同位置上,排名前幾位的標簽出現次數在該位置所有標簽個數中所占的比例之和,結果如圖4所示。圖中sum3、sum5、sum10分別代表在表1中排名前三、前五、前十的標簽所占的比例之和。

觀察圖4可以看出,在標簽列表越靠后的位置,大眾標簽在數量上所占的比例越大, 而且基本呈現隨位置線性增長的趨勢。這也符合之前的猜想,即用戶在給自己添加標簽時,在添加完反映個性的標簽后,會傾向于使用大眾化的標簽填充自己標簽列表。

4.2 用戶標簽與其關注對象的標簽分布之間的關系分析

圖4 若干流行標簽(如表1所示)在不同位置的分布情況

上面我們分析了用戶標簽宏觀分布的一些特征,下面我們通過分析用戶標簽與其關注對象的標簽分布之間的關系,進一步考察用戶添加個人標簽的行為特征。

4.2.1 用戶標簽在其關注對象的標簽集合中出現的情況

新浪微博作為一個社交平臺, 其最大的特色就是用戶可以自由地關注感興趣的其他用戶,并隨時瀏覽關注對象發布的微博。因此關注關系在一定程度上說明了用戶之間的相似性,而這種相似性也可能體現在用戶標簽上。我們對擁有不同標簽數的用戶群分別統計了平均每個用戶有多少比例的標簽會出現在其關注對象的標簽集合中,作為對比,我們對每個用戶隨機選取了和其關注對象個數相等的若干非關注對象,并做了相同的統計。圖5顯示了統計結果。

從圖5中可以看出,無論一個用戶的標簽數是多少,基本上其將近一半的個人標簽會出現在關注對象的標簽集合中,對其標簽與非關注對象的標簽的重復度僅為30%左右,這反映了具有關注關系的用戶在興趣、專業等方面存在一定的相似性。

圖5 用戶標簽在其關注對象和非關注對象的標簽中出現的平均比例

4.2.2 不同位置的標簽在用戶關注對象的標簽集合中出現的情況

為了進一步考察用戶標簽和關注對象的標簽分布之間的關系,我們對擁有特定標簽數(1—10個)的用戶群,分別統計了在標簽列表不同位置上的標簽出現在其關注對象標簽集合中的平均比例和平均次數,結果如圖6和圖7所示。圖中每條曲線代表擁有特定標簽數的一類用戶,橫軸代表標簽在用戶標簽列表中所處的位置。

觀察圖6和圖7可以看出,對于一個用戶而言,他的標簽列表中位置越靠后的標簽,在其關注對象的標簽集合中出現的可能性越大,而且出現的平均次數也比位置靠前的標簽多。還可以觀察到,圖6和圖7中的曲線基本都呈現出近似的線性上升趨勢。結合4.1.3的分析,某一位置的大眾標簽所占比例會隨著位置由前至后近似線性增加,而相對于個性標簽,大眾標簽更可能被有關注關系的用戶共享,這也就導致了上述兩幅圖中的曲線呈現出近似線性上升的趨勢。這一結果進一步說明了用戶在添加個人標簽時,會傾向于先添加個性標簽,而越往后則越傾向于使用大眾標簽。

5 基于關注關系的標簽預測

為了更好地觀察上述發現對于社交網絡用戶的標簽預測等工作的參考意義,本文提出了一種基于關注關系的標簽預測算法,并通過比較說明上述發現的應用價值。

5.1 基于關注關系的標簽預測算法

算法的基本思想是使用微博用戶所有關注對象的標簽集合作為依據對用戶做標簽預測,同時將用戶標簽列表不同位置的標簽分布特征考慮進預測過程。

具體而言,假設用戶A關注了n個用戶B1、B2、……、Bn。其中,用戶Bi有m個標簽,按照在Bi標簽列表中的先后順序依次記為Ti,1、Ti,2、……、Ti,m,m的取值范圍是1~10。對標簽Ti,j按照式(2)賦予權重:

(2)

其中,α為可變系數。按照式(2),Bi的標簽所得到的權重會隨著位置由前至后線性增加,而Bi的所有標簽獲得的權重之和正好等于Bi的標簽個數m。

將A所有關注對象的標簽集合中相同標簽獲得的權重累加,并根據最終得到的標簽權重對用戶A所有關注對象的標簽按權重由高到低進行排序,取權重較高的若干標簽作為預測結果。

5.2 三種作為對照的標簽預測算法

? 對照算法一:在5.1算法的基礎上使用權重如式(3)所示。

(3)

? 對照算法二:在5.1算法的基礎上使用權重如式(4)所示。

(4)

? 對照算法三:將在全體數據集中出現次數最多的若干大眾標簽按照出現次數由多到少排序,作為預測結果。

其中,前兩種對照算法是在5.1算法的基礎上改變權重公式得到的。按照式(3),Bi的所有標簽會得到相同的權重1;按照式(4),Bi的標簽所得到的權重會隨著位置由前至后線性減小。兩個公式均保證Bi的所有標簽獲得的權重之和等于m。

5.3 算法預測結果與分析

對于有特定標簽數(1~10個)的每一類用戶群,我們都從數據集中隨機抽取了1萬個用戶作為測試樣本。使用5.1算法和5.2中提到的三種對照算法對測試集中的10萬個用戶做標簽預測,限制最多預測30個標簽。

我們將預測結果與用戶的原始標簽(預測標簽屬于原始標簽集合則視為正確結果)比較,計算了三種方法的MAP值(Mean Average Precision),結果如圖8所示(α=0.2,β=1)。圖中MAP0、MAP1、MAP2和MAP3分別代表使用5.1算法、對照算法一、對照算法二和對照算法三得到的預測結果的MAP值。圖中橫軸代表用戶的標簽數。

圖8 具有不同標簽數的用戶預測結果的MAP

對比圖8中MAP0、MAP1、MAP2的值可以看出,使用式(2)得到的預測效果最好,式(3)次之,式(4)最差。MAP0是在MAP1的基礎上使用戶標簽列表中位置靠后的標簽獲得較高的權重得到的預測結果,結合上文對用戶添加標簽的行為特征的分析,可以發現MAP0的計算過程會使位置靠后的大眾標簽獲得更高的權重,從而被“正確”地預測出來或者在預測結果的列表中獲得更高的排序,因此使用式(2)得到的MAP值要高于使用式(3)得到的結果。而使用式(4)則會使位置靠后的大眾標簽獲得較低的權重,同時位置靠前的個性標簽得到較高的權重,因此預測結果的MAP值低于另外兩種方法。

但是,整體而言,這三種基于關注關系的預測算法做標簽預測的效果均不理想,MAP值都在0.1至0.18之間。對比MAP0和MAP3可以發現,除了對標簽數小于3的用戶做預測的結果差別較大外,二者基本相同,MAP0略高于MAP3。這說明5.1算法預測出的正確標簽大多都是大眾標簽。

6 結論與啟示

本文通過對以新浪微博為代表的社交網絡用戶數據的分析,研究了用戶在社交網絡環境下添加個人標簽的行為特征,挖掘了用戶標簽分布的宏觀特征、用戶標簽與其關注對象的標簽分布之間的關系等。經過分析,我們發現,在系統限制了標簽個數的情況下,大多數用戶會傾向于添加標簽到不能再添加為止。而在添加標簽的過程中,用戶在開始階段一般會添加一些反映個人身份、專業特長、興趣愛好等信息的個性標簽,而在最后則會處于從眾心理,選擇一些大眾化的標簽填充自己的標簽列表。這導致了用戶標簽在標簽列表不同位置上分布的差異性——位置靠前的標簽更可能是個性標簽,而位置靠后的標簽則更可能是大眾標簽。我們將此發現運用在一個基本的基于關注關系的標簽預測過程中,結果顯示這一發現對于提高標簽預測的準確率有一定的參考價值。如果要將這一發現運用于社交網絡中的專家搜索,可以想象,在設計算法的過程中,應該更加重視用戶標簽列表中位置靠前的標簽,因為這些標簽更能反映用戶的專業、特長等信息。

研究社交網絡用戶添加個人標簽的行為特征以及用戶標簽的分布特點,對于社交網絡的標簽預測、專家用戶推薦、用戶分類等課題的研究均有一定的參考意義,也能夠幫助社交網站改進算法,向用戶提供更優質的服務。在今后的工作中,我們將進一步挖掘用戶標簽的相關信息,并嘗試將發現運用到多種實用任務中,為優化社交網絡的服務提供更多的參考。

[1] 中國互聯網絡信息中心.第31次中國互聯網發展狀況報告[R],2013.

[2] 孫憲策.基于內容的社會標簽推薦與分析研究[D].清華大學博士學位論文,2010.

[3] 袁柳,張龍波.基于概率主題模型的標簽預測[J].計算機科學,2011,30(7):175-180.

[4] Jianshu Weng, Ee-Peng Lim, Jing Jiang, et al. TwitterRank: finding topic-sensitive influential twitterers [C]//Proceedings of the 3rd ACM international conference on Web search and data mining (WSDM ’10). ACM, New York, NY, USA, 2010: 261-270.

[5] Saptarshi Ghosh, Naveen Sharma, Fabricio Benevenuto, et al. Cognos: crowdsourcing search for topic experts in microblogs [C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval (SIGIR ’12). ACM, New York, NY, USA, 2012: 575-590.

[6] 陳淵, 林磊, 孫承杰, 等. 一種面向微博用戶的標簽推薦方法[J].智能計算機與 應用,2011, 1(50): 21-26.

[7] Aditya Pal, Scott Counts. Identifying topical authorities in microblogs[C]//Proceedings of the 4th ACM international conference on Web search and data mining (WSDM ’11). ACM, New York, NY, USA, 2011: 45-54.

[8] Q Vera Liao, Claudia Wagner, Peter Pirolli, et al. Understanding experts’ and novices’ expertise judgment of twitter users[C]//Proceedings of the 30th ACM conference on human factors in computing systems (SIGCHT). 2012: 2461-2464.

[9] Meeyoung Cha, Hamed Haddadi, Fabricio Benevenuto, et al. Measuring user influence in Twitter: The million follwer fallacy [C]//Proceedings of the 4th international AAAI conference on Weblogs and social media. 2010.

[10] I Weber, C Castillo. The demographics of web search [C]//Proceedings of the 33rd international ACM SIGIR conference on reaearch and develpment in information retrieval. 2010, 179: 523-530.

User Behavior Analysis of Person Tags in SNS

LIU Lie, XING Qianli, LIU Yiqun, ZHANG Min, MA Shaoping

(State Key Laboratory of Intelligent Tech. & Sys.,Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)

With the popularity of social network sites (SNS) and the massive increase in SNS users, the behavior analysis of SNS users is of substantial importance in website maintenance, performance optimization and system upgrade. It’s also a very important research area of network knowledge mining and information retrieval. For a better understanding of the user behaviors in adding tags for themselves in SNS, this paper analyses the distribution of user tags based on the data of about 2.63 million Weibo users. This paper investigates the macroscopic distribution characteristics of user tags, and the relation of tag distributions between a user and the people he follows. We reveal that when Weibo users add tags for themselves, they tend to use tags which can reflect their characteristics in the beginning, then, they tend to select popular tags out of a herd mentality. We applied research findings to a tag prediction algorithm based on following relationships, and the results prove that the correlation analysis provides certain reference significance to tag recommendation in social networks.

SNS; user behavior analysis; tag prediction

劉列(1991—),本科生。E?mail:lieliu213@gmail.com邢千里(1987—),博士研究生,主要研究領域為信息檢索。E?mail:xingqianli@gmail.com劉奕群(1981—),博士,副教授,主要研究領域為信息檢索。E?mail:yiqunliu@tsinghua.edu.cn

1003-0077(2016)02-0056-08

2013-09-15 定稿日期: 2014-03-15

TP391

A

猜你喜歡
列表標簽對象
涉稅刑事訴訟中的舉證責任——以納稅人舉證責任為考察對象
學習運用列表法
判斷電壓表測量對象有妙招
擴列吧
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
攻略對象的心思好難猜
區間對象族的可鎮定性分析
讓衣柜擺脫“雜亂無章”的標簽
列表畫樹狀圖各有所長
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合