?

基于分層社區的社交網絡異常事件檢測模型研究

2020-04-14 04:54王龍
電腦知識與技術 2020年4期

王龍

摘要:社交網絡的數據中蘊含著大量有關現實中各種事件的信息。使用異常事件檢測模型準確及時地發現社交網絡上傳播的異常事件信息,對于實現智慧城市感知社會異常動態事件,有效提高社會管理應對效率具有關鍵作用。本文定義了基于社交網絡的有權無向圖,根據異常事件的特征對社交網絡中事件進行了主題分類和篩選,構建了一個基于分層社區的異常事件檢測模型,從而可以實現對城市區域異常事件的檢測。

關鍵詞:社交網絡分析;異常事件檢測;分層社區

中圖分類號:TP393

文獻標識碼:A

文章編號:1009-3044(2020)04-0017-03

Research on anomaly Detection Model of Social Network Based on Hierarchical Community

WANG Long

(Guangdong Medical University,Zhanjiang 524023,China)

Abstract:Social network data contains a lot of information about various events in reality.Using anomaly event detection model to accurately and timely discover the information of abnormal events spread on social networks plays a key role in realizing smart cities' percep-tion of social abnormal dynamic events and effectively improving social management response efficiency.This paper defines a hierarchical community of social network abnormal events Based on the weighted undirected graph,classifies and filters the events in social network according to the characteristics of abnormal events,constructs an abnormal event detection model,and realizes the detection of abnormal events in urban areas.

Key words:social network analysis;abnormal event detection;hierarchical community

1 概述

隨著以微博、微信為代表的社交網絡的廣泛應用,已經取代了傳統媒體和個人網站等手段,成為人們發布和分享信息的主要平臺。每天都有大量社會事件通過社交網絡進行傳播,這些事件主題的性質類別多種多樣,包含娛樂動態,社會事件,政治新聞以及自然災害等。社交網絡用戶在發現有興趣的事件發生時習慣于在社交網絡平臺上發表自己的觀點或報告事件的發生,分析和挖掘社交網絡中積累的大量數據中的事件主題特征,對于在智慧城市感知建設中社會異常事件的檢測具有極大的價值。

目前各類流行的社交網絡應用中的信息都具有碎片化、數據量大、時效性高,用戶聚合度不平衡的特點,且討論主題不受時空的限制,使用人工檢測方式不能及時有效地發現和挖掘相關事件。因此,面向社交網絡中的討論主題實現異常話題檢測,借助事件檢測技術來及時、準確地獲取網絡中傳播的異常事件描述,對于建設智慧城市感知系統,高效地獲取信息,掌握社會環境的實時動態具有現實意義。

2 異常事件檢測

社交網絡上傳播的文本數據簡短,且多為不規范的網絡用語,往往帶有大量噪音數據。利用網絡爬蟲技術可以實現對社交網絡頁面信息的爬取,獲得原始文本數據集。將獲得的文本數據按照時間空間序列排列,然后根據異常事件特征對文本數據進行預處理,濾除干擾和無用信息,可以構造異常事件特征文本庫。

在現有事件檢測相關研究多在熱點事件發現,沒有明確異常事件的時空特征,忽略了兩者的特點。異常事件的特點是在事件發生前的相關話題強度很低,基于時間空間序列的話題強度突然升高,在單位事件區域內的升高頻率明顯很高。而熱點事件,類似娛樂新聞事件,具有一定的持續度和話題強度,單位事件區域內頻率升高較為平穩。

完成異常事件檢測,首先要識別出關鍵的異常特征詞,完成事件詞向量的構建。同時識別社交網絡中的權威活躍節點用戶,然后根據相關詞語出現的關聯度來描述話題主題的傾向,根據發布信息的社交網絡用戶活躍性和權威性來描述話題聚合程度,構建事件分層社區來歸類事件類別。而現有社交網絡檢測事件中監測節點沒有區分權威性和活躍度指標、面對所有節點檢測效率不夠、非活躍用戶對結果產生噪音數據影響,存在識別錯誤情況。因此需要高效判別社交網絡中信息發布的權威活躍節點,還要識別非活躍用戶和劃分基于事件信息的分層主題社區、異常事件過濾等問題,從而建立一個相對實用的異常事件檢測方法。實現了社交網絡中異常事件話題的發現,使得在異常事件發生時能夠對事件全局有更好地掌握。

3 異常事件檢測模型

一般的,描述一個事件可以用一組可唯一描述事件的相互密切關聯的特征詞的集合。這樣事件檢測的工作就演變為從若干段文本中將可以描述特定事件的一組特征詞找出來。當某一或某一類特定事件發生時,與此事件相關的特征詞在事件發生的單位時間內出現頻率會迅速增加,與此事件相關的一組特征詞組的出現頻率也會同時迅速增加。從詞之間的語義和關聯性看,詞組在社交網絡文本中同時出現的頻率必定很高,且其中一個詞的出現對另一個詞地出現影響非常大,存在著強關聯關系。為了描述事件的這些特征,可建立有向加權圖,以子圖或社區的形式表示事件。

雖然社交網絡的文本數據數量大且噪聲多,但通過異常特征詞的共現關系能夠很好地捕捉特征詞之間的語義關系,以特征詞共現關系構建的加權有向圖為基礎,可選用其中的關鍵節點來檢測事件信息,實現基于權威活躍節點用戶的事件分層社區發現算法。算法舍棄了大量噪聲文本構成的主題社區,降低了事件發現的復雜度。同時,不同事件社區的檢測互不干擾,能很好地處理異常事件社區發現。該模型中可用LDA分布作為用戶在事件上的分布,事件初始LDA分布,事件在詞語上為多項式分布。LDA分布和多項式分布互為共輒分布,可簡化模型的推導。

3.1 基本概念

事件數據:

實體間在特定時間地點發生的相互作用稱為事件。事件數據包括主體、客體、行為、時間、地點等信息。

異常事件:

基于智慧城市感知中的異常事件是指異于平常發生,造成或者可能造成社會影響或危害,需要采取處置措施予以應對的自然災害、事故災難、公共衛生事件和社會安全等事件。

社交網絡中事件異常特征:

社交網絡中的異常事件具有突發特征,是在社交網絡中先前若干時間段內該事件很少被用戶討論或者被討論頻次呈現平穩分布,但是在當前時間段內以高頻次出現的事件,與熱點事件應當有所區分。社交網絡中的熱點事件往往是在一段時間內受到持續關注和討論的事件,具有一定的持續性,與異常事件有很大區別。

基于主題關聯度的分層社區分類:

設有描述社交網絡的有向無權圖G=(V,E),其中V代表用戶節點集合,且共有n個用戶節點,E代表用戶有向關系集合,eij代表連接Vi、Vj兩節點的有向邊。若將網絡G劃分成K份,G即為K個節點集合。若劃分成具備對于每個都滿足節點集合p內的節點主題關聯強度密集、和節點集合p外主題關聯強度稀疏的特點,那么就叫p為G的基于主題關聯程度的社區分類。

3.2 基于詞頻組共現關系的有向加權圖

設G是一個有向加權圖,G=(V,E,W),V是G的特征詞節點,表示可以描述一段文本的特征詞組,E是圖中有向邊的集合,表示各詞組之間語義的共現關系,W是權值集合,表示詞組節點之間的關聯強度。當使用向量空間模型描述圖G時,可構建文本特征詞組矩陣。詞組矩陣的一行表示一段描述一個話題的相關文本,矩陣的列表示特征詞庫中的一個詞,矩陣元素則是對應特征詞的語義關聯度權值。矩陣中每一行文本向量的維度都等同特征詞庫的規模。若行向量空間中有D個文本向量,則D是描述事件話題的文本集合。di是第i個文本向量,V的絕對值是事件特征詞庫的大小。Sij則是對應的第j個詞出現在第i個文本中的權值。

其中,vfkj是詞vj出現在文本中的頻率,dvfj是詞vj的逆頻率。L為平滑因子。

利用權值閾值判斷可將G中低頻詞和常用詞節點過濾掉,將剩余的詞組節點構建為G。若任意兩個詞在同一或多段文本中出現,則在兩個節點詞之間添加一條有向邊,邊的方向從關聯強度大的節點i指向關聯強度小的節點j,這一有向邊的權值是關聯強度系數pij。

nij表示含有特征詞i和j的文本數量。ni表示包含特征詞i的數量。nj表示包含詞組j的數量。N是特征詞庫中的總文本數量。

在計算關聯強度系數pij的公式中,反映了一個特征詞出現在文本中時引起另一個特征詞在同一段文本中出現的可能性。公式的第一項會隨著含有特征詞Vi和Vj的文本數量的增大而增大,第二項會隨著含詞組Vj的文本數量的增加而減小。關聯強度系數的大小也描述了詞組之間的語義相關程度和關聯強度,這對事件的分層社區劃分很有意義。

3.3 分層社區的耦合程度

每一個包含權威節點的詞組集合都是一個事件社區,因為G,是一個加權有向圖網絡,可以標識出G中的權威節點??梢葬娪妙愃朴嬎憔W頁排名的算法來尋找G中的權威節點。對于G中的節點,可計算節點權威指數:

其中Wjj為節點為vi和vj間的權值,In(vi)為從節點vi指向的節點集合,Out(vi)為指向vi的鄰居節點集合。d在0到1的開區間取值,取0.85。在描述一個事件的詞語集合中,越是權威的詞出現的頻率越高,和集合中其他詞共現的頻率也越高,同時和其他詞的關聯強度也會越強。G,結構中,計算岀的詞語節點權威指數ws(v)也越高。因此可以根據網絡節點的得分ws(vi)排序來標識權威節點序列。

基于G圖的分層社區檢測就是將緊密連接的節點劃分到同一個社區,使得社區內部節點耦合緊密,社區間的節點耦合稀疏??梢杂蒙鐓^分層指數來衡量社區的耦合程度,社區分層指數取值介于-1和1之間,衡量了社區內部節點與社區節點相比的耦合程度。社區分層指數越高,說明社區內部的節點耦合越緊密,社區間的節點耦合越稀疏。定義G,圖社區分層指數:

Aij表示有向邊的權值,k是與節點i相連的所有邊的權值之和。是閾值參數,m是G中所有邊權值之和。

3.4 基于分層社區的事件檢測

分別初始化每一個關鍵節點為一個只包含節點自身的事件社區,然后考察每一個事件社區Ck的相鄰節點Vj,嘗試將其加入社區。若該節點加入能使社區的分層指數增大,則將Vj加入,否則不加入,如此循環直到沒有節點加入為止。這樣實現基于K個權威節點的事件社區發現,減少了非權威無關節點的事件社區檢測工作量,不會提取包含大量噪聲的事件社區。同時K個事件社區的提取可以同時進行,提高了效率。由于考察節點加入某個社區,社區分層指數的變化量計算為:

其中,∑in是社區C內部所有邊的權值和,∑tot是社區C內部節點與外部節點直連邊的權值和。kin是與節點i相鄰邊的權值和,虹是節點i與社區C內部節點相連邊的權值和。

算法實現:

輸入:有向加權圖G=(V,E,W),關鍵節點序列:KV={v1,v2,……vk}

輸出:事件社區向量:C={C1,C2,……C})

根據K個節點初始化生成K個事件社區;C1={v1},C2={v2,……Ck={vk};

for Ci(i=l,......k)do

for Ci的每一個鄰居節點vj do

if ?S〉閾值 then

Ci=Ci U Vj

endif

endfor

endfor

算法輸入為K個節點序列,輸岀是K個事件社區向量。由于在有向圖中,若描述同一事件的詞語之間關聯程度強,將會劃分到同一社區,若不同事件的描述詞語之間關聯性較強,將會劃分到不同社區。算法通過考察K個關鍵節點,以社區分層指數來劃分事件社區。有利于使社區內部緊密耦合,社區間盡量松散,從而使描述相同事件的關聯性強的詞語劃分到相同事件社區中。

通常一個事件很可能有多個關鍵節點,導致不同的事件社區很有可能描述的是同一事件。因此在檢測出異常事件的社區后,要合并重復的事件社區。這部分工作可以利用通過有監督學習的轉換模型將事件社區轉換為詞向量,使用余弦相似度來衡量兩個向量之間的相似程度:若兩個向量的相似度大于0.5,則合并向量。

4 結束語

本文對社交網絡的事件發現算法模型進行了研究。分析了一種基于加權有向圖的分層社區異常事件檢測算法,通過關鍵特征詞的共現關系構建一個加權有向圖,特征詞之間的分層指數作為其權值,邊的權值則反映了它們之間的關聯強度。描述相同事件的詞在圖中會聚合為事件社區。每一個事件視為該有向圖的一個子圖或者社區。實現了基于關鍵節點的事件分層社區檢測,圖中有向邊權值量化了詞語的關聯程度,更利于事件檢測。在檢測事件之前先標識了圖中的權威活躍節點,只分析提取k個關鍵節點的事件子圖,有效降低了復雜度。通過指定關鍵詞節點的方法很容易將算法修改為指定事件檢測的算法。

參考文獻:

[1] 李洋,陳毅恒,劉挺.微博信息傳播預測研究綜述[J].軟件學報,2016,27(2):247-263.

[2] 李彪.微博中熱點話題的內容特質及傳播機制研究——基于新浪微博6025條高轉發微博的數據挖掘分析[J].中國人民大學學報,2013,27(5):10-17.

[3] 丁晟春,龔思蘭,李紅梅.基于突發主題詞和凝聚式層次聚類的微博突發事件檢測研究[J].現代圖書情報技術,2O16(Z1):12-20.

[4] 葉川,馬靜.多媒體微博評論信息的主題發現算法研究[J].現代圖書情報技術,2015(11):51-59.

[5] 曾金,陸偉,丁恒,等.基于圖像語義的用戶興趣建模[J].數據分析與知識發現,2017(4):76-83.

[通聯編輯:光文玲]

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合