?

基于樸素貝葉斯的Web文本分類及其應用

2017-03-06 20:28包小兵
電腦知識與技術 2016年30期
關鍵詞:文本分類數據挖掘

摘要:Web文本分類在網絡信息過濾、信息推薦等方面有廣泛的應用。介紹了Web文本分類的基本理論與方法,結合貝葉斯分類算法,對文本分類語料庫的數據進行具體的分類實驗并進行分析討論,取得了一定的效果。

關鍵詞:數據挖掘;樸素貝葉斯;文本分類

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)30-0220-02

Web Text Classification and its Application Based on Na?ve Bayesian

BAO Xiao-bing

(Chizhou College Department of Mathematics and Computer Science,Chizhou 247000,China)

Abstract:Web text classification has been widely used in network information filtering, information recommendation and so on.Introduces the basic theory and method of Web text classification,The data of the text classification corpus are classified and analyzed with Bayesian classification algorithm,Achieved a certain effect.

Keywords:Data mining; Na?ve Bayesian;Text classification

隨著計算機以及互聯網技術的快速發展,對于擁有海量數據的網絡世界,蘊含著巨大潛在價值的知識,人們迫切需要從這些海量的數據中獲取有用的知識和信息,希望能對這些海量的數據進行自動分類、組織和管理。而這些知識有很多是以Web文本的形式存在的,如何自動、準確、高效地進行Web文本分類是文本挖掘的重要的研究內容之一。

信息檢索被認為是Web文本挖掘的前身,但是位于Internet上的信息,一方面規模巨大,并且缺乏結構化,對于這些非結構化或半結構化的復雜的Web數據,在做文本分類之前,還需要對獲取的文本進行特征提取和表示,然后再使用文本分類技術進行快速、自動的分類。

本文主要分析和討論了基于樸素貝葉斯(Na?ve Bayesian)方法的Web文本分類的相關理論,并使用中文自然語言理解平臺[1]上的文本分類語料庫,進行具體的實驗分析。

1 Web文本分類方法

1.1 Web文本分類概述

文本分類是在預定義的分類體系下,根據文本的特征,將給定文本歸類的過程,而文本的特征涉及對文本的理解,因此涉及眾多的學科領域。Sebastiani用下面的數學模型描述文本分類。

定義函數[Φ:D×C→{T,F}],其中[D={d1,d1,…,dD}]表示待分類的文本文檔,[C={c1,c1,…,cC}]為預定義分類體系下的指標集。設[T]和[F]值表示為二元組[],分別表示文本[dj]屬于類[ci]和文本[dj]不屬于類[ci]。在文本分類中涉及兩個最重要的問題:文本表示與分類器設計。那么對于來自網絡的Web文本分類系統可以簡單地表示為圖1。

1.2 Web文本表示

Web文本和其他文本類似,由文字、詞語和標點符號組成,要使用計算機來表示文本,首先需要選擇一種好的表示方式,并且要求該表示方法能盡可能準確地反映文本的主題、內容和結構等。

當前比較常見的表示方法是由G.Salton等人于60年代末提出的向量空間模型(VSM)。在VSM中,用由特征二元組組成的特征向量表示文本[dj],記為[dj=(t1,ω1j),(t2,ω2j),…,(ts,ωsj)],其中[(tk,ωkj),1≤k≤s]表示特征[tk]的二元組,[ωkj]表示文本[dj]中特征[tk]的權重,[s]為特征集合的大小。那么對文本的比較、分類等操作就可以轉換成特征向量組間的操作,使問題變得簡單且易于實現。

1.3 Web文本特征選擇及特征權重計算方法

使用VSM模型對Web文本進行文本表示,得到的特征向量維數一般會非常高,為提高性能,需要對特征向量進行特征選擇以降維,那么面臨的問題是,應該選擇哪些特征,以及應該賦予這些特征多大的權重,以希望經約簡的特征向量更好地體現文本的內容、主題等?當前比較常見的方法有:信息增益(IG)、卡方、文檔頻度(DF)、互信息(MI)、特征強度(TS)等。本文主要使用文檔頻度的方法進行討論,該方法是最基本且最簡單的一種方法,統計在多個文檔中出現特征[tk]的次數,次數越多的特征被認為越關鍵,故被保留。

文本特征權重的計算方法常見的有布爾權值、絕對詞頻(TF)、倒排文檔頻度(IDF)、TF.IDF權值、熵權值等,本文使用絕對詞頻[tfij]衡量文本特征權重。

對于Web文本,在文本表示之前,需要對文本進行分詞。分詞之后的文本詞表中包含很多對文本特征表示無意義的詞,還需要對其進行約簡,去除虛詞、數量詞等不能體現文本特征的詞。而對于重復出現的詞,會有兩種情況:一種是通用的名詞、動詞,不具特征性,應去掉;第二種是恰好能反映文本的特征的詞,應該保留,并且統計記錄其頻數,用VSM模型進行表示。然后再使用文本特征選擇及特征權重計算方法對建立的VSM模型進行優化,得到結構化的數據,為下一步分類做好準備。

2 貝葉斯分類算法基本理論

貝葉斯分類算法是基于統計學的方法,可以預測類成員關系的可能性。實踐表明貝葉斯分類算法有非常高的準確率并且計算速度較快。貝葉斯分類算法基于概率論中的著名的貝葉斯定理[2]。

定理1設樣本空間[S],[n]個互斥事件成為[S]的一個劃分:[S=A1,A2,…,An],[AiAj=0,i≠j],[X]是[S]中任意一個事件,則有:

[P(AiX)=P(XAi)P(Ai)P(X)]

設[D]是訓練元組集(包含類標號),其中的元組用[n]維向量[X=x1,x2,…,xn]表示,屬性集記為[DA=A1,A2,…,An]。設有[J]個類[C1,C2,…,CJ],根據貝葉斯定理,分類算法將預測給定元組[X]屬于的類。分別計算后驗概率[P(CiX)],找到最大值,其中先驗概率[P(Ci)]通過學習訓練元組得到,考慮到[P(X|Ci)]的計算是復雜并且開銷非常大的,故做了類條件獨立的樸素假設,即是

該分類算法被稱為樸素貝葉斯分類[3](NBC)。

2.1 Web文本分類數據的預處理

為實驗的方便,使用中文自然語言理解平臺[1]由復旦大學提供的文本分類語料庫,包含有財經、科技、教育、電腦、房產、人才、汽車、體育、衛生、娛樂10個類別共951個文本。對所有的951個文本的每個文本分詞,分別生成相應的文本詞表,如圖2所示。

然后進行去詞約簡,去除虛詞、數量詞等不能體現特征的詞,去除那些不具有特征性但卻重復出現的通用的名詞、動詞,記錄反映文本特征的詞及詞頻,每個文本可以表示成一條VSM模型元組,最終所有的文本處理完成后生成一個矩陣,稱為詞頻矩陣,最后一列加上類屬性,本實驗詞頻矩陣是[951×13353],如表1所示。再進行降維處理,最終的詞頻矩陣部分如表2所示。

3 應用實驗

3.1 Web文本分類

為使用貝葉斯算法對文本分類,首先對詞頻矩陣進行離散化處理,離散化規則如表3所示。

最后,對表2的詞頻矩陣[D951×252]進行數據離散化處理的結果如表4所示。

實驗的硬件平臺:Pentium E2160 1.8GHz處理器,1G內存;開發環境:Visual Studio 2005,使用盤古分詞[4]的C#開源代碼。使用樸素貝葉斯算法進行學習、分類,實驗結果如表5所示。

實驗表明,對非訓練數據的分類準確性不高,這說明該數據集的高稀疏性會使所構建的分類器的泛化能力還不夠好,還有待提高。

4 結論

針對來自網絡的Web本文,使用基于樸素貝葉斯的分類算法對其進行自動分類,本文做了如下工作:1)概述了Web文本分類的相關方法以及貝葉斯分類理論;2)通過具體的實驗,給出了Web文本分類的詳細過程,包括分詞、約簡、降維、訓練、分類等,實驗結果較好;3)針對高維稀疏數據的非訓練數據分類效果還不夠理想,還有待進一步研究。

參考文獻:

[1] 中文自然語言理解平臺[DB/OL].http://www.nlp.org.cn/

[2] 李賢平.概率論基礎[M].北京:高等教育出版社,1997.

[3] Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業出版社,2007:201-206.

[4] 盤古分詞開源代碼[CP/OL].http://pangusegment.codeplex.com。

[5] 鄭慶華,劉均,田鋒,等.web知識挖掘:理論、方法與應用[M].2010:3-5.

[6] 包小兵,翟素蘭,程蘭蘭.基于信息熵加權的局部離群點檢測算法[J].計算機技術與發展,2012(7).

[7] 邵昌昇,樓巍,嚴利民.高維數據中的相似性度量算法的改進[J].計算機技術與發展,2011,21(2).

猜你喜歡
文本分類數據挖掘
基于并行計算的大數據挖掘在電網中的應用
基于組合分類算法的源代碼注釋質量評估方法
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合