基于類信息的TF-IDF權重分析與改進①

2021-10-11 06:47姚嚴志李建良

計算機系統應用 2021年9期

姚嚴志,李建良

(南京理工大學理學院,南京 210094)

隨著網絡的普及,網絡上時刻都在產生大量的文本信息,為了滿足用戶面對海量文本時多樣化的需求,對文本信息進行有效的分類就顯得至關重要.在文本分類領域中,用向量空間模型表示文本的方法應用尤為普遍.用向量空間模型表示文本,需經過分詞、特征選擇、權重計算等步驟,而權重計算方法的優劣直接影響著分類算法的性能表現.權重計算的方法多種多樣,常用的包括文檔頻率、信息增益、互信息、卡方分布、TF-IDF 等[1].

TF-IDF 算法自提出以來,因其算法相對簡單和有較高的準確率及召回率,一直受到廣泛應用[2].但該算法的權重計算僅考慮了特征詞的詞頻和逆文檔頻率等,仍還有許多可改進的空間.因此,很多學者分析TFIDF的缺陷,對其進行了相應的改進.How 等[2]提出利用Category Term Descriptor (CTD)來改進TF-IDF,考慮不同類別的文檔數可能存在數量級的差距,以改善類別數據集偏斜所引起的誤差;徐冬冬等[3]引入逆類頻率因子和類別比率因子用以修正TF-IDF 權重算法,得到基于類別描述的TF-IDF-CD 方法,葉雪梅等[4]針對新詞識別對分類結果的影響,提出了基于網絡新詞的改進文本分類TF-IDF 算法;許甜華等[5]通過引入去中心化詞頻因子和特征詞位置因子以加強特征權重的準確性.

本文使用TF-IDF 算法計算特征詞權重,對特征詞在不同規模文檔集中的權重加以比較,具體分析了特征詞的類信息對于權重的影響,并在此基礎上提出一種新的衡量特征詞的類間、類內分布信息的改進方法.改進方法增加兩個新的權值,類間離散因子和類內離散因子,將其與經典的TF-IDF 算法結合,進而提出了改進的TF-IDF-DI 算法.改進的權重計算方法有效改善了TF-IDF 算法對類信息不敏感的問題.本文通過樸素貝葉斯模型對改進后的算法的分類性能進行驗證.實驗證明,改進后的權重算法在測試數據集上的表現,在準確率、召回率和F1 值上均優于經典的TF-IDF 算法.

1 經典的TF-IDF 算法及權重分析

1.1 經典的TF-IDF 算法

TF-IDF 算法作為計算特征項權重的算法,在文本分類中的應用極為廣泛,其主要思想為:在某一特定文檔中,某詞語的出現頻率越高,且數據集中包含該詞語的文檔數越少,說明該詞語越是能標志文檔內容的屬性,其權重自然也就越大[6-9].計算公式如下:

其中,w(tj,di) 表示特征詞權重;id f(tj,di)表示特征詞在文檔di中的出現頻率;N表示文檔集中的文檔總數;nj表示文檔集中出現特征詞tj的文檔數.

在使用時考慮到文檔長度不同對權值計算的影響,我們通常會對公式做歸一化處理[10],得到公式如下:

1.2 TF-IDF 算法的權重分析

傳統TF-IDF 并不能很好的區分類間和類內分布所帶來的影響.類間分布指的是特征詞在不同類別間的分布情況,通常認為集中分布于某個類別的特征詞,相比于在各個類別均勻分布的特征詞,更能體現該類別的內容屬性;類內分布指的是特征詞在某類別內的分布情況,通常認為在某類別內各文檔均普遍出現的特征詞能夠更好的表現該類別的內容屬性,反之對于僅出現于類別內一小部分文檔的特征詞,往往特征詞只是體現了該小部分文檔的內容屬性,我們應適當降低其權重.

我們使用IMDB 語料庫進行實驗來說明以上問題.IMDB 語料庫收集了50 000 條來自互聯網的嚴重兩極分化的電影評論,我們從中分別隨機抽取200、500、1000 條評論,根據式(2) 計算特征詞的TFIDF 權重,并進一步計算特征詞在正類評論、負類評論中的平均TF-IDF 權重.為保證實驗的隨機性,我們重復以上實驗多次,并計算特征詞的平均TF-IDF 權重.表1是部分特征詞在不同文檔集的權重.

表1 部分特征詞在不同文檔集的平均TF-IDF 權重

在實驗中我們發現大部分特征詞在不同的文檔集中使用TF-IDF 算法計算的權重均有較大差別,能夠較好的體現特征詞的內容屬性,如表1中的特征詞“awkward”.但是我們也發現部分特征詞在有些文檔集中的TF-IDF 十分接近,如特征詞“fighting”在樣本容量為500的文檔集和特征詞“sincere”在樣本容量為1000的文檔集中,它們在正類和負類的評價中的TFIDF 權重都極為接近.我們進一步統計分析了此類權重接近的特征詞在正類評論和負類評論中的詞頻和文檔頻率.表2從不同容量的文檔集中選取了部分TF-IDF權重接近的特征詞,并分別比較了其在正類評論和負類評論中的詞頻、文檔頻率信息.

通過表2可以發現部分特征詞的TF-IDF 權重極為接近,但其在不同類別的詞頻、文檔頻率卻有著較大的差異.這說明在該情況下TF-IDF 算法并不能很好的反映特征詞的類間、類內的分布信息,因此提出一種新的衡量特征詞的類間、類內分布信息的方法就顯得尤為重要了.

表2 部分TF-IDF 權重接近的特征詞在正類評論和負類評論中的詞頻、文檔頻率

2 改進的TF-IDF 算法

文獻[11]提出了改進的TF-IDF-DI 方法通過變異系數,即特征詞詞頻在類間、類內的分布標準差與均值之比來描述其類間、類內離散程度,但仍有其缺陷:當特征詞在各類別中的平均出現頻率或特征詞在某類別中的各文檔的平均出現頻率較小,以至趨近于0 時,即使微小的擾動也會導致也會對系數產生巨大的影響,不利于準確描述特征詞的類信息.

本文提出一種新的類間、類內離散程度的描述方法,進而提出了改進的TF-IDF-CI 算法.我們引入特征詞的類間離散度因子CIac和類內離散度因子CIic.CIac通過特征詞在不同類別文檔集的詞頻的分布標準差來描述特征詞的類間分布信息;CIic通過特征詞在類別ck內的詞頻與類別ck內實際包含該特征詞的文檔的詞頻之差描述特征詞的類內分布信息.通過類信息的引入,改進的算法加強了區分特征詞類別分布信息的能力.下面分別給出衡量類間離散度CIac和類內離散度CIic的方法:

其中,S(tj) 指特征詞tj在各類別之間的詞頻的分布標準差;s(tj,ck)指特征詞tj在類別ck的詞頻與類別ck中實際包含該特征詞的文檔的詞頻之差,計算方法如下:

其中,TF(tj,ck) 表示特征詞tj在類別ck中的出現頻率;表示特征詞tj在各類別中的平均出現頻率;N(ck)表示類別ck中的文檔數;n(tj,ck) 表示類別ck中包含特征詞tj的文檔數;C為文檔集的總類別數.

在式(3)-式(6)中,我們給出了類間離散因子CIac和類內離散度因子CIic的計算方法.易發現特征詞tj在不同類別中的分布標準差越大時,特征詞tj越能體現不同類別的內容屬性,分類能力越強;特征詞tj在類別ck中的詞頻與特征詞tj在類別ck中實際包含該特征詞的文檔中的詞頻,兩者之差越大時,說明特征詞tj是更突出表現了類別ck中部分文檔的內容屬性而不是類別ck的整體的內容屬性,分類能力越弱.可見特征詞的分類能力與CIac成正比,與CIic成反比.基于此我們得到了改進的TF-IDF-CI 算法:

其中,W(tj,di,ck)是改進的特征權重;w(tj,di)為式(2)中計算所得的特征詞tj在文檔di中的權重.

同樣采用表1中所使用的文檔集進行實驗,表3給出部分特征詞根據改進的TF-IDF-CI 算法在不同文檔集中計算所得的特征權重,并與TF-IDF 算法計算的權重進行對比.

通過表3的對比容易發現,改進的TF-IDF-CI 算法有效改善了TF-IDF 算法并能很好的反映特征詞類間、類內的分布信息的問題.如特征詞“fighting”在樣本容量為500的文檔集和特征詞“sincere”在樣本容量為1000的文檔集中,使用TF-IDF 算法的計算的特征權重極為接近,但使用TF-IDF-CI 算法則得到了有效的改善.同時,通過實驗也可發現如“awkward”等使用TF-IDF 算法可以很好區分的特征詞,在使用TF-IDF-CI 算法計算特征權重時亦不會有很大的偏差.

表3 部分特征詞在不同文檔集的TF-IDF 權重與TF-IDF-CI 權重對比

3 實驗分析

實驗使用的語料庫是搜狗新聞數據語料庫,該語料庫包含來自搜狐新聞的健康、體育、社會、娛樂等18 個頻道的新聞數據.實驗選取了健康、教育、軍事、汽車、體育5 類共5000 篇文檔作為訓練樣本,另選取500 篇文檔作為測試樣本.

分詞使用的是Hanlp的StandardTokenizer 分詞器.同時還對分詞后的數據集進行去體停用詞的處理,將常用的停用詞(的,并不,而且等) 進行過濾.為驗證改進的TF-IDF-CI 算法對分類性能的影響,實驗分別采用經典的TF-IDF 算法、TF-IDF-DI 算法、改進的TFIDF-CI 算法計算特征詞的權重,并使用樸素貝葉斯算法進行文本分類,評估指標使用準確率(Precision,P)、召回率(Recall,R)、F1 值3 個指標[12].分類器在測試集上的分類性能分別如表4所示.

表4 不同權重算法的分類性能對比(%)

通過實驗結果,可以發現使用改進的TF-IDF-CI 算法對特征詞權重進行計算,并使用樸素貝葉斯算法對文本進行分類,準確率、召回率和F1 值都相比于經典的TFIDF 算法有了一定的提升,其中類別“健康”的提升最為明顯,F1 值較TF-IDF 提升了約6.42%,較TF-IDF-DI 提升了約3.23%.這說明改進的TF-IDF-CI 算法相比于TF-IDF 算法,較好的考慮了特征詞的類間、類內的分布信息,能很好的分辨出集中分布于某類別且在該類別內相對均勻出現的特征詞,從而達到了提升分類性能的效果.

4 總結與反思

本文以特征詞權重的計算方法為研究對象,總結了現有的一些方法,并著眼于使用相對廣泛的經典的TF-IDF 算法,對國內外研究者在TF-IDF 算法的研究成果進行了介紹.本文對TF-IDF 算法在不同的文檔集中的表現做了具體的分析對比,針對TF-IDF 算法未能很好區分特征詞類間、類內分布的問題,做了詳細的研究.基于此本文提出了一種新的衡量特征詞類間、類內分布信息的方法,提出了基于類信息的改進的TFIDF-CI 算法.最后通過樸素貝葉斯模型對改進后的算法的分類性能進行驗證.實驗發現,改進的TF-IDFCI算法不論在準確率、召回率、F1 值上,均優于經典的TF-IDF 算法,由此證實了改進算法的有效性.

當然本文仍有不足之處:首先本文的實驗均在均衡的數據集上進行實驗,改進的TF-IDF-CI 算法在數據集偏斜時的表現還需要進一步實驗,以驗證其性能[2];同時TF-IDF-CI 算法仍還有改進空間,如將特征詞在文本內的分布信息,即其位置信息進一步納入特征權重的考慮范疇,這也是筆者今后要研究的內容.