?

微博網絡用戶的活躍性判定方法

2018-10-19 03:03仲兆滿戴紅偉
中文信息學報 2018年9期
關鍵詞:冷啟動活躍社交

仲兆滿, 戴紅偉, 管 燕

(1. 淮海工學院 計算機工程學院,江蘇 連云港 222005;2. 江蘇金鴿網絡科技有限公司 大數據事業部, 江蘇 連云港 222005)

0 引言

起初,微博主要用于人們社交的需求,通過“關注”(follow)在微博網絡上很容易形成類似于現實社會的交往圈子。但目前,微博已成為面向大眾的輿論平臺,已成為網民獲取信息的重要途徑之一,越來越多機構及公眾人物都通過微博來發布或傳播信息。

面向微博網絡的推薦系統,總體上可以分為兩類: (1)微博信息推薦,根據用戶的興趣取向,從微博網絡海量的信息中挖掘出用戶感興趣的內容推薦給用戶,避免了用戶在微博網絡上漫無目的地查詢信息,比如高明等人[1]基于LDA主題模型推斷微博的主題分布和用戶的興趣取向,提出了微博網絡上用戶感興趣微博的實時推薦方法,Chen等人[2]綜合微博的主題分布因子、用戶在社交網絡中的影響力特征、微博的內容特征以及微博的受歡迎程度等特征為用戶提供個性化搜索結果;(2)用戶推薦,根據用戶的背景、興趣愛好、關注領域,為用戶推薦志同道合的朋友,比如文獻[3-5]都從不同側面研究了微博網絡上相似用戶的推薦方法。

社交媒體上雖然有大量用戶,但已有研究表明,用戶的活躍度符合冪律分布,即只有少量用戶是活躍的,大多數用戶是非活躍的(冷啟動的)。Zeng等人[6]公開的研究成果認為,大約20%的用戶是活躍的。文獻[7]在研究用戶的標簽時,通過對新浪微博的1.4億用戶統計,發現標簽數小于5的用戶占用戶總數的93.8%,從用戶標簽的角度來講,活躍用戶不到10%。因為從微博網絡上獲取冷啟動用戶的相關信息很少,無論是給冷啟動用戶推薦微博信息,還是推薦相似用戶,都成為非常困難的工作。

有些文獻提出了為冷啟動用戶尋找替代用戶的信息挖掘方法。比如,Akcora等[8]在計算社交網絡用戶的相似度時綜合了用戶的背景信息和網絡結構,在Facebook平臺統計發現,64%的用戶缺少背景信息的描述,提出了從用戶朋友已有的數據中,自動推理出用戶的一些可能的背景信息;Lin等[9]使用了Twitter上的社交信息(關注者-followers)幫助解決APP推薦的冷啟動問題。

可見,在微博推薦系統中,如果用戶是活躍的,可以直接基于用戶的歷史信息進行微博信息或者用戶的推薦,而對于冷啟動用戶,可以使用替代用戶的方法進行推薦。用戶活躍性的判定是推薦系統的首要工作。然而,關于用戶活躍性判定的研究文獻很少,少有的幾篇文獻中對冷啟動用戶的判定方式非常粗糙,普遍認為如果用戶的評論信息量少于一定的閾值就認為該用戶是冷啟動的。比如,文獻[10-11]認為用戶評論的信息量少于5條的是局部冷啟動用戶,文獻[12]認為用戶發表的信息量少于20條的為局部冷啟動用戶。這些方法,沒有考慮用戶發表信息的質量,沒有考慮微博等社交媒體用戶具有的社交關系特征。

針對微博網絡的用戶活躍性判定問題,本文進行了系統的研究,創新性主要體現在: (1)面向微博網絡,提出了衡量用戶活躍性的四類指標: 背景、社交關系、發表內容質量及社交行為,不再僅僅局限于用戶評論數量的多少,這樣做能更好地體現微博類社交媒體的特性;(2)在綜合的考慮微博用戶各類活躍性因素的基礎上,提出了用戶活躍性判定的整套流程,以及用戶與活躍用戶集/冷啟動用戶集的差異度計算模型。

本文后續內容安排如下: 第1節介紹了已有的相關研究工作;第2節詳細地闡述了本文所提方法的原理和流程,包括相關定義,微博用戶活躍性判定的四類指標,用戶與用戶集的差異度計算模型;第3節使用了準確率、召回率及F值從用戶活躍性判定的效果、不同指標的權重等方面進行了實驗的比較與分析,以驗證本文所提方法的有效性;第4節對本文進行了總結,探討了該方法的優缺點,以及未來的研究方向。

1 相關工作

推薦系統的方法總體分為兩類[13]: (1)基于內容的推薦,根據用戶ui的歷史信息,如評價、分享、收藏過的文檔等,構造用戶ui偏好模型,將屬性相似度高的項目向用戶ui做出推薦??梢钥闯觯?基于內容的推薦技術從項目角度出發,尋找相似項目;(2)協同過濾推薦,構建用戶—項目評價矩陣,計算用戶間的相似度,將與用戶ui相似度高的用戶評分高的項目向用戶ui做出推薦??梢钥闯觯?協同過濾推薦技術從用戶角度出發,尋找相似用戶。

但是,如果一個新的項目在評分矩陣中很少有用戶為它評價,或者一個新用戶在評分矩陣中很少對項目進行過評價,則無法使用推薦算法實現有效的推薦,這就是推薦系統中經典的冷啟動問題[14]。

為了解決用戶冷啟動問題,一些研究者提出了基于用戶之間信任關系的推薦思想[15-16]。這種推薦思想考慮了網絡用戶之間的關系,根據用戶的直接或間接信任用戶預測其對項目的評分。

Ocepek等人[17]將用戶的冷啟動分為兩種情況: (1)用戶沒有任何評論信息,稱為絕對冷啟動(absolute cold start);(2)用戶有很少的評論信息,稱為局部冷啟動(partial cold start),并分為五種情況,有1條、2條、3條、4條和5條評論信息的分別記為CS1、CS2、CS3、CS4和CS5??梢?,Ocepek等人是將小于等于五條評論信息的用戶作為局部冷啟動用戶。

于洪等[18]針對完全新項目,即不存在任何一個用戶曾經對該項目評價過,在充分考慮用戶、標簽、項目屬性、時間等信息的基礎上,獲得個性化的預測評分值,用于解決新項目冷啟動的問題,并提出了積極用戶(喜歡去關注并評價新事物的用戶)和消極用戶(比較喜歡去關注已經被很多用戶評價過的事物)的概念,進一步用時間權重進行區分。

Pereira等[12]提出了一種基于同步聚類和學習技術的混合推薦方法(SCOAL),針對絕對冷啟動用戶和局部冷啟動用戶進行了實驗分析,核心問題是將某個冷啟動用戶劃分到合適的類里去,選取的用戶特征僅僅是用戶的評論信息條數,將發表信息少于20條的視為局部冷啟動用戶。

已有判定用戶活躍性的指標單一、方法粗糙,普遍認為發表信息量等于0的為絕對冷啟動用戶,小于α條的直接認定為局部冷啟動用戶,除此之外的用戶都認定為活躍用戶,文獻[10-11,17,19]都將α設為5,而文獻[12] 將α設為20。

2 微博用戶的活躍性判定方法

2.1 相關定義

定義1微博網絡[3],形式化描述為一個六元組: MBN={U,MBlog,EUMB,EUU,FUMB,CUMB},其中,U為微博上的注冊用戶集;MBlog為用戶發表的微博集(含原創、轉發或者評論的各類微博);EUMB={e=(ui,mblogj)ui∈U,mblogj∈MBlog}為用戶與其所發表微博的連接邊集;EUU={ui→uj)|uifollowsuj}為用戶通過關注而形成的連接關系集,通過follow關系容易得到用戶的粉絲關系集;FUMB={(ui,mblogj)|ui∈U,uiforwarded mblogj}是用戶與其所轉發的微博的關系集;CUMB={(ui,mblogj)|ui∈U,uicommented on mblogj}是用戶與其所評論的微博的關系集。

定義2微博用戶[3],形式化描述為一個六元組:ui={ui_Name,ui_Bg,ui_MBlog,ui_Follower,ui_Followee,ui_Visitor},其中,ui_Name為微博的用戶名,是微博網絡中用戶的唯一標識符;ui_Bg為微博網絡上的用戶背景,不同微博網絡背景有所差異;ui_MBlog為用戶在微博網絡上發表的微博集;ui_Follower為用戶的關注集;ui_Followee為用戶的粉絲集;ui_Visitor為用戶的訪客集,訪客類用戶指沒有與用戶ui構建關注和粉絲關系,但與ui進行了微博互動,包括發表微博時的“@”、轉發或者評論行為。

依據定義2,可以容易地獲取用戶ui的關注數量|ui_Follower|及粉絲數量|ui_Fans|。

定義3用戶背景,在微博網絡上,用戶具有的自身信息的描述及系統自動賦予的級別,包括簡介、學習工作經歷、興趣標簽、微博等級等,稱為用戶的背景。

定義4用戶社交關系,在微博網絡上,用戶通過關注(follow)關系構建了緊密的社交圈子,在這種社交圈子中用戶擁有的粉絲及關注稱為用戶的社交關系。

定義5用戶發表信息質量,在微博網絡上,用戶發表的微博信息(包括原創和評論的內容)、發表信息的受眾稱為用戶發表信息質量。

定義6用戶社交行為,在微博網絡上,用戶轉發、點贊、收藏等行為稱為用戶社交行為。

定義7冷啟動用戶,在微博網絡上,用戶在背景、社交關系、發表信息質量、社交行為等諸多方面都不活躍的用戶稱為冷啟動用戶。

定義7與已有的冷啟動用戶定義的不同體現在,在衡量冷啟動用戶時,用戶發表信息質量只是特征之一。不同的社交行為都是用戶在微博網絡上的活躍性體現,包括轉發、點贊、收藏等社交行為。用戶背景的完善程度、用戶的微博等級也能反映用戶的活躍程度。此外,用戶的活躍性還受社交關系的影響,在微博網絡上用戶的社交關系(關注/粉絲)能夠反映用戶的活躍程度,比如用戶ui經常更新關注對象,或者經常有其他用戶關注用戶ui。 定義7給出的微博用戶活躍性判定的指標更為全面、更加準確,比如用戶ui發表微博信息很少,但其社交行為比較頻繁,那么用戶ui的活躍性也比較高。

又如,用戶u1發表了5條信息,已有的方法將u1判定為冷啟動用戶,用戶u2發表了6條信息,已有的方法將u2判定為活躍用戶。但用戶u1發表的5條信息可能質量較高,引起了大量的閱讀、轉發行為,而用戶u2發表的6條信息,都是簡短的評論,質量較低。用戶u1發表信息產生的影響力遠遠大于用戶u2,用戶u1相比用戶u2更為活躍。

2.2 微博用戶活躍性判定方法流程

任意給定一個用戶ui,判斷其是屬于活躍用戶,還是冷啟動用戶,該問題的判定流程如下:

(1) 輸入用戶ui;

(2) 計算用戶ui發表信息的質量IQui,如果IQui<α,則ui是冷啟動用戶,轉步驟(6),如果IQui>β,則ui是活躍用戶,轉步驟(6),否則,將ui標識為邊緣用戶mui(即用戶發表信息質量沒有明顯的特征),轉步驟(3);

(3) 對于邊緣用戶mui,借助其他用戶集進行判定。在微博網絡上任意采集n個用戶,依據用戶發表信息的質量,將n個用戶劃分為兩個集合: 活躍用戶集(簡記為AU)和冷啟動用戶集(簡記為IAU);

(4) 分別提取邊緣用戶mui及用戶集AU、IAU與活躍性相關的四類指標,計算用戶mui與AU的差異度diversity(mui,AU),用戶mui與IAU的差異度為diversity(mui,IAU);

(5) 如果diversity(mui,AU)>diversity(mui,IAU),則mui是活躍用戶,否則mui是冷啟動用戶;

(6) 輸出判定結果,即用戶ui是屬于活躍用戶,還是冷啟動用戶。

步驟(2)判定用戶ui的活躍性可以描述為式(1)。

其中A(ui)為用戶的活躍性表示,inactive表示用戶ui是冷啟動的(非活躍的),active表示用戶ui是活躍的,marginal表示用戶ui是邊緣的,即還沒能明確判定出其屬于活躍的,還是冷啟動的,(α,β)為決策閾值對。

α值用于直接確定用戶是否是冷啟動的,參考文獻[10-11,17,19],定義α=5。β值用于直接確定用戶是否是活躍的,為了選出真正的活躍用戶,應該讓β的取值偏大(本文中β=30)。 對于模棱兩可的用戶,可以歸為邊緣用戶,進一步使用其他指標判定其活躍性。

步驟(2)中的用戶發表信息質量計算的方法,詳見2.3.1小節的論述。

步驟(3)采集用戶時,n的取值盡量大,這樣更能進行顯著性分析。

步驟(4)提取與用戶活躍性相關的四類指標,進行差異度計算,詳見2.3節的論述。

該問題的解決思路,同樣可以用于批量用戶的活躍性判定問題: 任意給定k個用戶,判定k個用戶的活躍性。如果k大于一定的閾值,則不需要采集其他用戶,直接將k個用戶劃分為冷啟動用戶集和活躍用戶集,否則,需在微博網絡上采集其他的用戶。所不同的是,由于是對多個用戶的活躍性進行判定,當一個用戶加入活躍用戶集/冷啟動用戶集時,需要更新對應的用戶集的相關指標。

2.3 微博用戶活躍性的差異度計算模型

對于邊緣用戶mui,僅僅根據其自身發表的信息質量難以直接將其判定為是活躍用戶,還是冷啟動用戶,尤其對于與冷啟動閾值α比較接近的用戶,強制性地根據用戶發表信息的質量判定某用戶是否為冷啟動用戶,勢必造成判定結果的偏差。

Balcan[20]等人研究了人類的流動性(human mobility)和傳染病地域擴散之間的關系。人類動力學研究啟發我們,盡管每一個人的行為具有隨機性和不可預測性,但是在群體結構上具有較強的規則性,這為判定用戶的活躍性提供了基礎。

在2.2節闡述的流程中,根據冷啟動閾值α、活躍用戶閾值β,可以將一些活躍性是否明顯的用戶直接分為兩個集合,基于這兩個集合,利用兩個集合的群體特征,對邊緣用戶mui進行活躍性的判定。

對微博網絡上的用戶而言,我們提出的邊緣用戶mui與活躍用戶集AU的差異度計算模型如圖1所示。

圖1所示的計算模型中,Profilemui指用戶的背景,SRmui指用戶的社交關系,PCmui指用戶的發表信息質量,SBmui指用戶的社交行為,在分別提取邊緣用戶mui、活躍用戶集AU的四類指標的基礎上,可以計算mui與AU的差異度。

圖1 邊緣用戶與活躍用戶集的差異度計算模型

類似于圖1所示的計算模型,可計算邊緣用戶mui與冷啟動用戶集IAU的差異度。

結合2.1節微博用戶的背景、社交關系、發表信息質量、社交行為的定義,我們給出微博網絡上四類指標的具體計算方法。

2.3.1 用戶背景及其差異度計算

微博網絡上,微博等級是用戶活躍和榮譽的見證,隨著用戶在微博網絡上的探索和成長,等級會隨之增長。不同的微博網絡,關于“等級”的設置不同,比如,對新浪微博而言,其“等級”共分24個,能體現微博用戶背景的豐富程度、發表微博信息的活躍程度等指標。用戶mui的微博等級值用如式(2)方式量化。

其中,levelmui代表用戶mui的當前等級,maxlevel表示某微博平臺上的最高等級。

在用戶眾多的背景信息中,用戶的標簽是自定義描述職業、興趣愛好的關鍵詞。用戶在微博網絡上定義自己的標簽時,既可以在微博網絡的標簽庫中選取,也可以人工輸入。已有的文獻普遍認為用戶標簽在描述用戶的興趣偏好時有重要的參考價值,比如文獻[21-22]。通過標簽,可以讓更多人找到自己,讓用戶找到更多同類。用戶mui的標簽值用如式(3)方式量化。

其中,tagmui代表用戶mui的標簽個數,maxtag表示某微博網絡上最大標簽個數。比如,新浪微博,每個用戶最多可添加十個標簽。

用戶mui的Profilemui計算方法如式(4)所示。

活躍用戶集AU的ProflieAU計算方法如式(5)所示。

用戶Profilemui與用戶集ProfileAU的差異度計算方法如式(6)所示。

2.3.2 用戶社交關系及其差異度計算

用戶在微博上,通過關注形成了緊密的社交圈子,社交關系是微博網絡上用戶互動的基礎。對于任意一個用戶mui,可以方便地得到其關注(follower)的數量、粉絲(followee)的數量。

關注(follower)的數量可以反映用戶mui對微博網絡上其他用戶的關注程度,被關注用戶發表的信息將會直接推送給用戶mui,增加了用戶mui獲取信息的可能性。用戶mui關注的用戶越多,說明其獲取信息的量越大,越可能在微博網絡上進行社交活動(包括轉發、收藏、點贊等社交行為)。而粉絲(followee)的數量可以反映用戶mui在微博網絡上對其他用戶的影響力,粉絲數越多,說明用戶mui在微博網絡上越有影響力,其有可能越活躍。

用戶mui的SRmui計算方法如式(7)所示。

SRmui=num(follower+followee)/maxnum (7)

其中,num(follower+followee)表示用戶mui的關注和粉絲之和,maxnum表示在收集的所有用戶中,粉絲數和關注數之和最大的用戶的粉絲數和關注數之和。

活躍用戶集AU的SRAU計算方法如式(8)所示。

SRmui與SRAU的差異度計算方法如式(9)所示。

diversitySR(SRmui,SRAU)=|SRmui-SRAU| (9)

2.3.3 用戶發表信息質量及其差異度計算

用戶在微博網絡上發表信息時,有原創、評論兩種方式。用戶發表的一條信息的質量計算方法如式(10)所示。

式(10)中,將用戶發表信息區分為兩種情況,對于原創內容,考慮信息的長度及信息的附加值,信息長度越長,包含的信息量越大,用戶花費在微博平臺的時間也越長。附加值包括發表內容引起的轉發數、評論數及點贊數。

一條信息infor1的附加值的計算方法如式(11)所示。

其中,comment、forward及like分別表示信息infor1的評論數、轉發數及點贊數。

用戶mui發表信息的質量計算方法如式(12)所示。

活躍用戶集AU的IQAU計算方法如式(13)所示。

IQui與IQAU的差異度計算方法如式(14)所示。

2.3.4 用戶社交行為及其差異度計算

用戶在微博網絡上,可以對其他用戶發表的微博進行轉發、點贊、收藏等社交行為,這種行為雖然沒有發表微博信息包含的信息量大,但也能反映用戶在微博網絡上的活躍程度。

目前,微博網絡上任意一個用戶的點贊數量及點贊內容對其他用戶是開放的,但無法獲取用戶收藏的微博數量及轉發的數量。所以,本文只使用了點贊這類社交行為。

用戶mui的SBmui計算方法如式(15)所示。

其中,num(like)表示用戶mui的點贊次數,maxnum表示所有收集到的用戶中,點贊次數最多的用戶的點贊次數。

用戶集AU的SBAU計算方法如式(16)所示。

SBui與SBAU的差異度計算如式(17)所示。

2.3.5 微博用戶活躍性的差異度計算

在2.3.1至2.3.4小節分別得到邊緣用戶mui與活躍用戶集AU的背景差異度diversityProfile(Profilemui,ProfileAU)、社交關系差異度diversitySR(SRmui,SRAU)、發表信息質量差異度diversityIQ(IQui,IQAU)和社交行為差異度diversitySB(SBui,SBAU)的基礎上,可以得到用戶mui與活躍用戶集AU的總體差異度,如式(18)所示。

diversity(bui,AU)=

λ1×diversityProfile(Profilemui,ProfileAU)

+λ2×diversitySR(SRmui,SRAU)

+λ3×diversityIQ(IQmui,IQAU)

+λ4×diversitySB(SBmui,SBAU)

(18)

式(18)中,λ1、λ2、λ3和λ4用于調節用戶背景、社交關系、發表信息質量及社交行為在計算差異度時的權重,λ1+λ2+λ3+λ4=1。 如果λ1=0,λ2=0,λ4=0就轉化為完全依靠用戶發表的信息質量計算用戶差異度。

在這四類指標里,發表信息質量及社交行為是用戶直接在社交媒體上從事的活動,體現活躍性的作用更大,而用戶背景、社交關系說明用戶有可能在社交媒體上從事更多的活動,體現一定的活躍性。因此,四類指標的權重在進行實驗時,進行了有指導性的設置。在3.5節對λ1、λ2、λ3和λ4的取值進行了實驗比較。

3 實驗及分析

3.1 實驗數據

目前,還沒有用于微博用戶活躍度判定的公開語料。本文選取了新浪微博進行實驗的統計與分析。截止2015年9月,新浪微博用戶已經達到2.12億,在微博網絡上發表信息已經成為用戶日常的網絡生活中的重要組成部分。

本文選取了學術研究、企業管理、教育、文化、軍事五個領域進行實驗數據的采集與分析。在新浪微博搜索框中輸入領域關鍵字進行檢索,然后單擊“找人”按鈕,選取了“個人認證”及“普通用戶”兩類用戶,使用HtmlUnit進行采集。五個領域獲取的認證及普通用戶情況見表1所示,共計8 188個用戶。

表1 實驗選用的五個領域[注] 2015年5月28日執行完采集。

在這8 188個用戶中,少數的用戶是微博“大V”,一個用戶就有大量的粉絲,這類用戶不具有普遍的代表性,所以刪除掉粉絲數大于1 000的微博“大V”用戶,最終剩下8 063個用戶。

對五個領域8 063個用戶,進一步獲取他們的背景、關注數、粉絲數、原創微博、評論內容、社交行為等信息。對原創微博、評論內容的采集時間限定在2015年1月1日至2015年5月28日,共計5個月。

在8 063個用戶中,發表信息量小于等于5個的選取了300個,發表信息量大于30個的選取了300個,發表信息量大于5個且小于30個的選取了300個,共計選用900個用戶參與實驗分析。

3.2 四種實驗方法

目前有關用戶活躍性判定的研究文獻較少,我們選用了四種方法進行實驗的對比分析。

方法一對于發表信息量小于5的用戶直接判定為冷啟動用戶,其他的用戶都判定為活躍用戶,類似于文獻[10-11,17,19]闡述的內容,簡記為InforNum5;

方法二對于發表信息量小于20的用戶直接判定為冷啟動用戶,其他的用戶都判定為活躍用戶,類似于文獻[12]的論述, 簡記為InforNum20;

方法三本文提出的方法,對于發表信息質量小于閾值α(α=5)的用戶直接判定為冷啟動用戶,其他的用戶都判定為活躍用戶,簡記為InforQuality5;

方法四本文提出的方法,對于發表信息質量小于閾值α(α=5)的用戶直接判定為冷啟動用戶,大于閾值β(β=30)的用戶直接判定為活躍用戶,其他的都作為邊緣用戶,進而使用邊緣用戶與冷啟動用戶集、活躍用戶集的差異度判定方法,簡記為UA4Index,參照3.5節的實驗結果,四類指標的權重設置為λ1=0.1、λ2=0.2、λ3=0.4、λ4=0.3。

3.3 評價指標

使用準確率P、召回率R及F值對實驗結果進行評價,三類評價指標分別介紹如下。

本文對實驗的標準答案的確定方法如下:

(1) 對于發表信息小于等于2的263個用戶,直接作為冷啟動用戶;

(2) 對于發表信息大于等于30的300個用戶,作為活躍用戶;

(3) 對于發表信息在3~29之間的337個邊緣用戶,使用Pooling技術確定標準答案,具體步驟如下:

① 選取三名與本研究工作相關的研究生,使其理解微博網絡上活躍用戶與冷啟動用戶的基本概念;

② 為三名研究生提供337個用戶的背景(微博等級、標簽)、社交關系(粉絲數、關注數)、發表的信息(原創微博、評論)、社交行為(點贊),每名研究生根據自己的理解,將337個用戶劃分到兩個集合,一個是活躍用戶集AU,另一個是冷啟動用戶集IAU;

③ 獲得三名研究生關于活躍用戶集及冷啟動用戶集的并集,得到兩個Pool;

④ 再由本文的兩位作者,對同一用戶劃分到不同Pool的情況進行人工區分,即每個用戶最終只能劃分到一個類別中。

經過Pooling過程后,337個邊緣用戶中有126個是活躍用戶,211個是冷啟動用戶。最終900個用戶中活躍用戶集AU=474,冷啟動用戶集IAU=426。

3.4 四種方法判定用戶活躍度的效果比較

使用3.2節介紹的四種實驗方法,3.3節介紹的評價指標,對900個用戶,得到的用戶活躍性判定結果如表2所示。

表2 四種方法得到的用戶活躍性判定結果

從表2可見,四種方法中,本文提出的方法UA4Index得到的效果最為理想,F值達到0.84,說明在微博類社交媒體上綜合地考慮各類指標比單純的使用用戶發表信息的數量判定用戶的活躍性更為有效。方法InforNum20得到的F值為0.58,效果最差,主要原因是把冷啟動判定的閾值設置過大,導致本來屬于邊緣的用戶武斷地判定為了冷啟動用戶。方法InforNum5得到的結果為0.68,方法InforQuality5得到的結果為0.75,說明了直接使用發表信息的質量比使用用戶發表信息的數量效果來得更好,提高了7%。

3.5 四類指標權重取值對判定結果的影響

在這四類度量指標里,發表信息質量及社交行為是用戶直接在社交媒體上從事的活動,體現活躍性的作用更大,而用戶背景、社交關系說明用戶有可能在社交媒體上從事更多的活動,體現更大的活躍性。因此,四類度量指標的權重系數在進行實驗時,進行了有指導性的設置。如果沒有任何指導,四類指標,每類指標的變化范圍即使取{0,0.1,0.2,…,1.0}(步長為0.1)共11種情況,四類指標共需進行114=14 641次實驗。

我們設置的四類指標取值范圍分別為λ1=[0,0.3]、λ2=[0,0.3]、λ3=[0.3,0.6]、λ4=[0.3,0.6](步長分別為0.1),共進行了44=256次實驗。

表3列出了評價指標F值得分比較高的12條數據對應的四類指標的權重取值情況。

表3 12條數據對應的四類指標的權重取值

對四類指標不同的變化組合的256次實驗中,F值最高為0.84,可以認為F值偏差在0.1范圍的都是非常合理的。因此,關于四類指標的權重給出三組參數的取值建議,第一組:λ1=0.1、λ2=0.1、λ3=0.4、λ4=0.4;第二組:λ1=0.1、λ2=0.1、λ3=0.5、λ4=0.3;第三組:λ1=0.1、λ2=0.2、λ3=0.4、λ4=0.3。 當然,拓寬F值的偏差范圍,四類指標的權重組合形式更多一些。

3.6 用戶活躍性判定對用戶推薦的影響

為了進一步檢驗本文所提用戶活躍性判定方法的有效性,以微博網絡用戶推薦為出發點進行實驗分析。

微博網絡上用戶之間的推薦受到多個因素的影響,我們前期的研究成果綜合地考慮了用戶發表內容相似性、交互相關性、社交關系(粉絲和關注)相關性等指標,提出了新穎的相似用戶計算方法,具體方法詳見文獻[3],該方法記為URNoActive。在此基礎上,我們將用戶活躍性作為其中的指標引入,即只有當用戶是活躍的,系統才會進一步計算用戶的相似度并進行推薦,該方法記為URByActive。因為,用戶在微博網絡上構建關注關系,本意是建立社交圈子、分享生活體驗和增進社交能力。對于冷啟動用戶而言,難以達到在微博網絡上社交目的,在推薦時價值不大。

在數據集的使用上,3.1節介紹的數據集是圍繞學術研究、企業管理、教育、文化、軍事五個領域采集的,采集的用戶之間已經有明顯的領域相關性。對參與實驗的900個用戶,我們進一步地采集了這些用戶發表的信息、背景、粉絲、關注等信息。

表4列出了使用兩種方法(URNoActive和URByActive)得到的關注用戶推薦結果。

表4 兩種方法得到的用戶推薦結果

由表4可見,添加了用戶活躍性判定再進行用戶相似度計算和推薦的方法URByActive,可以在一定程度上改善用戶推薦的效果,P、R和F值分別提高了0.05、0.02和0.03。主要原因是在選取推薦用戶時,考慮到用戶在微博網絡上發表信息、構建社交圈子的情況,這些行為暗示了被推薦用戶可能是活躍的。但同時,我們也發現,兩種方法在推薦效果上都不是非常好,主要原因是微博網絡用戶眾多,即使在話題興趣、社交圈子上有較高的相似性,但彼此之間并不知道,并沒有構建關注關系,這也是微博網絡上研究用戶推薦的原因之一。

4 總結

本文針對已有方法簡單地根據用戶發表信息的數量判定用戶是否活躍的粗糙方式,在綜合的分析影響微博網絡用戶活躍性的背景、社交關系、發表信息質量及社交行為等各類指標的基礎上,提出了系統的用戶活躍性判定流程、全面的用戶活躍性的差異度計算模型,并選取了主流的新浪微博進行了實驗分析比較。

本文主要是面向微博網絡進行了所提方法的理論分析與實驗比較,在實際應用中,針對不同的社交媒體,需考慮不同媒體的差異,對四類指標可以進行壓縮或者擴展,從而為不同的社交媒體給出合適的用戶活躍性計算模型。

文獻[3]在進行微博相似用戶推薦時,沒有考慮用戶的活躍性,將本文提出的活躍用戶判定方法應用于用戶推薦的前期,即先判定用戶的活躍性、選取活躍用戶,然后再計算用戶的相似度進行推薦,明顯地改善了推薦的效果。文獻[22]在挖掘用戶興趣、計算用戶興趣相似度時,根據社交媒體的特點,將用戶興趣區分為基于背景信息的靜態興趣和基于生成內容的動態興趣,更合理地揭示了用戶的興趣特征。其提出的用戶背景信息中的標簽對于判定用戶的活躍性有一定的參考價值,本文將用戶標簽的豐富程度作為判定用戶活躍性的指標之一。

對于該問題的研究,我們認為如下內容還需進一步加深: (1)影響用戶活躍性的指標,除了本文提出的四類指標外,是否還有其他指標能夠體現用戶的活躍性,從而更加全面地評價用戶的活躍性;(2)將本文所提方法計算出的用戶活躍性,與實際的應用場景結合,在實踐中進一步檢驗所提方法的有效性,比如應用到多個社交媒體的推薦系統中。

致謝感謝江蘇金鴿網絡科技有限公司為本研究提供的實驗數據集。

猜你喜歡
冷啟動活躍社交
輕型汽油車實際行駛排放試驗中冷啟動排放的評估
社交牛人癥該怎么治
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
聰明人 往往很少社交
基于學習興趣的冷啟動推薦模型
社交距離
活躍在抗洪救災一線的巾幗身影
你回避社交,真不是因為內向
這些活躍在INS的時髦萌娃,你Follow了嗎?
軍事技能“冷啟動”式訓練理念初探
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合