王學賀
(菏澤醫學??茖W校計算機教研室 山東菏澤 274030)
基于主題擴展的校園論壇熱點話題發現方法與系統
王學賀
(菏澤醫學??茖W校計算機教研室 山東菏澤 274030)
文章首先給出了基于話題檢測實現論壇熱門話題發現的基本方法,再針對論壇文本稀疏性造成的漏報率高的問題,提出了基于主題擴展的話題發現方法,最后設計并實現了一個BBS熱點話題發現原型系統。實驗結果表明文章提出的方法和系統可以有效地監控校園論壇上出現的熱門話題。
話題檢測;BBS;主題擴展;單遍聚類算法
隨著互聯網技術的發展,越來越多的用戶通過互聯網來發表自己的觀點、想法、意見和建議,形成網絡輿情。校園論壇(BBS)作為高校文化建設的重要組成部分,既是展現校園特有文化的網絡平臺,也是師生交流的重要平臺。統計發現,越來越多的師生習慣于在校園論壇上發表自己對學校管理的意見和看法。因此,對校園論壇有效監控、及時發現論壇上出現的熱點話題對于掌握師生思想動態、維護學校穩定具有非常重要的作用[1]。
校園論壇話題發現研究引起了國內外研究者的廣泛關注[2],并提出了一系列有效的方法。JXu等人[3]基于馬爾科夫的方法實現了一種在線BBS論壇話題發現方法,有效監測了論壇出現的熱門話題。唐國等人[4]在發現BBS熱點主題的基礎上,實現了一種層次文本聚類方法。TXu等人[5]實現了基于神經網絡的預測話題熱度的方法,取來了不錯的效果。蔣凡等人[6]首先建立了回復鏈,然后抽取具有影響力的詞語,最后通過對這些詞語聚類實現BBS論壇中主題的發現。趙艷紅等人[7]在給出了用于BBS話題檢測的基本模型的基礎上,實現了基于功率譜的話題檢測方法,并提出了一種基于時間信息進行話題預測的方法[7]。
由于校園論壇中的帖子屬于用戶產生內容(User Generated Content,UGC),帖子內容長短不一,數據稀疏現象比較嚴重,導致很多與話題相關的帖子不能及時被檢測到,嚴重影響了話題發現系統的性能。為此,本文在給出了論壇熱點話題發現的基本方法基礎上,針對論壇帖子內容的數據稀疏現象,提出了基于主題擴展的話題發現方法,并設計實現了一個用于論壇話題發現的原型系統。
1.1 面向論壇熱點話題發現的系統模型
為了能及時發現論壇上出現的熱點話題,以便對網絡輿情及時加以控制,本文設計了如圖1所示的系統模型。本系統首先爬取論壇上的數據,然后進行預處理操作,并將處理后的數據存放在數據庫中,最后通過對數據進行分析得出的BBS中的熱點話題呈現給用戶。
圖1 系統架構圖
如圖1所示,系統共包含三個模塊,數據獲取及預處理模塊(M1)、熱點話題發現模塊(M2)以及校園熱點話題發現原型系統模塊(M3),各個模塊的主要功能為:
①數據獲取及預處理模塊(M1):師生發表的帖子是散布在論壇的各個角落,為了實現熱點話題的發現,首先需要將這些散布在各個角落的數據匯總在一起。M1模塊主要是通過網絡爬蟲爬取校園論壇上的數據,并對數據進行預處理,將數據存放在數據庫中,為后續熱點話題的發現奠定數據基礎。
②熱點話題發現模塊(M2):該模塊是系統的核心部分,主要是發現熱點話題,對話題和帖子表示模型、相似度計算、話題發現算法、熱度計算方法等內容展開分析,同時提出了一種基于主題擴展的話題發現算法。
③校園熱點話題發現原型系統模塊(M3):本文開發了一個原型系統用以展示熱點話題發現的結果,方便用戶瀏覽。
1.2 熱點話題發現的基本方法
本文用于論壇話題發現的流程如圖2所示,從圖中可以看出,熱點話題發現方法包括話題和帖子模型、話題和帖子相似度計算、熱點發現算法和熱度計算等多個問題,本節將從以上幾個方面介紹本文用于熱點話題發現的基本方法。
圖2 論壇話題發現流程
1.2.1 帖子和話題表示模型
本文使用向量空間模型表示帖子。假設P是一個經過預處理的論壇帖子,k1,k2,…kn是出現在P中的不同的詞,那么P可以表示成:P=(k1,w1;k2,w2;…;kn,wn),wi是ki在P中的權值,TFIDF公式計算得到,其中,tfi是ki在P中的詞頻,N是系統已經檢測過的帖子的數量,ni是檢測過的所有帖子中包含關鍵詞ki的帖子的個數。
話題采用中心向量模型表示。假設T是一個話題,P1,P2,…Pm是屬于這個話題的帖子,則T的建模過程如下:根據文檔頻次DF從m個帖子中選擇代表這個話題的特征項,假設抽取的特征項為δ1,δ2,…,δb,然后根據公式(1)計算每個特征項在每個帖子中的權值,最后通過“簡單平均”的方式計算特征項最終的權值。
1.2.2 話題和帖子相似度計算方法
在本文實現的校園論壇話題發現系統中,采用余弦函數計算話題和帖子之間的相似度。假設P=(wp1,wp2,…,wpb)、T=(wt1,wt2,…,wtb)分別表示帖子P和話題T的向量,那么P和T基于余弦函數的相似度如下所示:
其中,b是話題向量空間模型的維度,而wpi和wti分別表示特征項在帖子和話題模型中對應的權值。
1.2.3 基于單遍聚類算法的話題發現方法
本文基于單遍聚類算法實現話題發現,假設待檢測的帖子集合為{ } P1,P2,P3,…Pa,單遍聚類算法的過程如下:
網絡論壇中的帖子長度不一,屬于一種異構文本。對于某些比較短的帖子,其中含有的內容非常少,簡單依據這種帖子的內容進行相似度計算,會導致很多帖子不能被檢測到,使得系統的漏報率很高。通過瀏覽論壇帖子我們發現,當一個用戶發表了一個帖子之后,其他用戶會對這個帖子進行回復,而回復的內容是圍繞帖子展開的。為此,本文提出了基于主題擴展的話題發現方法,其基本思想如下:
①假設R1,R2,…Rc是對帖子P的回復,那么我們將執行P→{ } P+R1+R2-…+Rc操作,其中→代表內容擴充,+表示將內容進行拼接,拼接后的內容記為P1。
②將P1表示為向量空間模型,其中特征項是P1中出現的不同詞,而權值采用公式(1)計算。
③采用單遍聚類算法實現話題發現,具體過程見1.2節。
為了驗證本文話題發現方法的有效性,我們設計并實現了一個熱點話題發現原型系統。該系統選取海天一色論壇(http://www.htys.cc/)作為話題監測的平臺。整個系統分為4個模塊(見圖3)。
圖3 論壇話題發現原型系統框架
①論壇數據獲取模塊:通過網絡爬蟲獲取“海天一色”校園話題板塊中的帖子,并抽取帖子元數據,包括帖子發表時間、發表者、內容、回復信息等,并且封裝成合適的格式以便進行存儲和其他處理。
②論壇數據存取模塊:將封裝好的校園話題數據存儲到相應的數據庫中。實現過程中我們采用了比較精簡的SQLite3數據庫,共建立了5個表用來存放相應的數據。
③論壇數據發現模塊:該模塊主要是后臺運行,從已經獲取的數據中依據話題檢測方法實現論壇話題發現。
④前臺顯示界面:該模塊主要實現對已經發現話題的可視化,方便用戶查看。
4.1 語料及評測標準
為了驗證本文提出方法的有效性,從論壇上收集了6850條帖子,并對帖子所描述的話題進行了人工標記,共標記13個話題。實驗中,隨機抽取了4800個帖子及其話題標注作為訓練語料,其余作為測試語料。
實驗采用漏報率、誤報率和歸一化檢測開銷作為評價標準。如果用表1數據表示微博話題檢測中第i個話題的檢測結果,那么第i個話題的漏報率Miss(i)和誤報率Fallout(i)將分別用公式(3)和公式(4)定義:
表1 參數定義
系統的平均漏報率Pmiss和平均誤報率Pfallout及歸一化檢測開銷(CDet)Norm可以分別由公式(5)、(6)、(7)定義:
其中,CMiss表示話題發現系統漏報一個帖子的開銷,Cfallout表示話題發現系統誤報一個帖子的開銷,Pnon-target=1-Ptarget。在話題檢測與跟蹤研究中,CMiss、Cfallout及Ptarget通常取值1.0,0.1,0.02。顯然,歸一化檢測開銷越小表示話題檢測系統的性能越好。
4.2 實驗與結果分析
為了驗證本文實現的話題發現方法的有效性,我們設計了以下兩組實驗:
①在訓練語料中訓練了原型系統,在θ取不同值時進行了訓練,結果如表2所示。
表2 訓練結果
通過分析表2所示結果,可以看出當θ取0.20時系統的效果最好,所以后續所有的實驗都是在θ=0.20設定下進行。
②為了驗證提出的基于主題擴展的話題發現方法的有效性,在測試語料中對比了話題發現基本方法與基于主題擴展話題發現方法的性能,結果如表3所示。
表3 測試結果
圖4給出了以上兩種方法在13個話題上的性能表現。
通過分析表3的測試結果和圖4的對比圖,可以發現基于主題擴展的話題發現方法可以較好地降低歸一化檢測開銷,證明主題擴展的方法可以有效解決論壇數據的稀疏性問題,進而改善話題發現系統的整體性能。
4.3 熱點話題發現原型系統運行結果
為了進一步證明本文提出方法的有效性,我們設計并開發了原型系統,系統首先進行數據抓取,然后以XML或者SQLite格式文件進行存儲,接著在后臺進行話題發現,最后將結果呈現給用戶。圖5給出了系統發現的熱點話題。
圖4 系統結果對比圖
圖5 熱點話題發現結果展示
本文主要面向校園論壇的熱點話題方法,在給出了用于話題發現的基本方法的基礎上,提出了用以解決論壇文本數據稀疏性的基于主題擴展的論壇話題發現方法,最后設計并實現了一個原型系統。實驗結果表明,本文提出的方法和系統能有效監控BBS上出現的熱點話題。后續將進一步面向異構論壇異構文本的帖子和話題表示模型進行深入研究,并對話題發現的速度進一步進行提升,更好地改善話題發現系統的性能。
[1]曹麗娜,唐錫晉.基于主題模型的BBS話題演化趨勢分析[J].管理科學學報,2014,17(11):109-121.
[2]劉驊,朱慶華.基于標題的BBS熱點話題挖掘—以南京大學小百合BBS為例[J].現代情報,2013,33(1):162-165.
[3]JXu,H Li,Y Zhao,BHe.Online High-Quality Topic Detection for Bulletin Board Systems[J].Ieice Transactions on Information &Systems,2014,97(2):255-265.
[4]唐果,陳宏剛.基于BBS熱點主題發現的文本聚類方法[J].計算機工程.2010,36(7):79-81.
[5]T Xu,M Xu,H Ding.BBSTopic's Hotness Forecast Based on Back-Propagation Neural Network[J].International Conference on Web Information Systems&Mining,2010(1):57-61.
[6]蔣凡,高俊波,張敏,王煦法.BBS中主題發現原型系統的設計與實現[J].計算機工程與應用,2005,31:151-153.
[7]趙艷紅,聶哲.基于內容分析的中文BBS話題檢測系統的設計與實現[J].計算機應用與軟件,2011,28(6):242-246.
Hot topic detectingmethod and system ofCampus BBSbased on themeexpansion
Wang Xue-he
(Division ofComputer Science,HezeMedicalCollege,Heze 274030,Shandong)
The basicmethod ofbulletin board hot topic findingwasgiven based on the realization of topic detection and a topic findingmethod was proposed based on topic extension in connection with the high rate of false negatives caused by the sparsity of bulletin board text.Finally a primitive type system of BBS hot topic finding was designed and realized.The experimental results showed that themethod and the system proposed can effectivelymonitor thehot topicsappeared in BBS.
topic detection;BBS;topic expansion;single-pass clustering
10.16249/j.cnki.54-1034/c.2016.02.018
TP391.1
A
1005-5738(2016)02-110-007
[責任編輯:張建偉]
2016-07-13
王學賀,男,漢族,山東鄆城人,菏澤醫學??茖W校計算機教研室副教授,主要研究方向為計算機軟件與理論。