?

基于正則化貪心森林算法的情感分析方法研究

2021-11-13 06:10張貫虹陳婷婷
合肥學院學報(綜合版) 2021年5期
關鍵詞:分詞決策樹分類器

吳 彤,張貫虹,陳婷婷

(合肥學院人工智能與大數據學院,合肥 230601)

近年來,隨著移動終端設備的普及,以及互聯網的快速發展,人們享受著智能化帶來的便利。與此同時,各大社交APP的使用也逐漸成為大家必不可少的獲取信息的方式,人們可以隨時隨地的在社交媒體上瀏覽最新最熱點的新聞事件、娛樂信息,并且會對自己感興趣的信息進行評價,而這些評價在情感色彩上持有正面、負面、中立等不同極性。大眾對于熱點事件的輿論傾向對社會、企業和個人都具有非常重要的作用,相關管控部門需要對社會關注的焦點做出第一時間回應,并對輿論方向做出正確的引導,因此對評論進行情感分析顯得十分重要。微博作為當下最熱門的社交平臺之一,用戶的數量愈加龐大,隨之產生的信息也與日俱增。于是,對微博文本信息的挖掘研究也成為近年來的研究熱點。

情感分析[1],又稱為傾向性分析或意見挖掘,是自然語言處理中的一項基本任務。關于文本情感分析的方法主要有基于情感詞典的分析方法和基于機器學習的分析方法兩大類。[2]基于情感詞典的文本情感分析方法主要是利用情感詞典對關鍵詞進行極性和強度標注,從而進行情感分類,但是基于情感詞典的分類方法由于構建的詞典往往只針對特定的領域,所以對跨領域的文本情感分析的效果不是很好,而且考慮到詞典中的情感詞不夠豐富,基于情感詞典的方法通常對短文本和特定領域的文本信息處理結果更好?;跈C器學習的文本情感分析方法一種是以統計學為基礎的建模方法,不需要建立情感詞典,利用統計學相關知識選取特征詞,將文本矩陣化,再采用有效的模型方法進行分類,從而減少了人工獲取語言規則的錯誤性和不完備性。因此,對于微博評論的跨領域和多樣化來說,基于機器學習的方法更適合進行情感分析。

1 相關研究

在處理文本分類問題中,傳統方法是通過有監督學習方式,用詞袋(Bag-of-words,BOW)模型對分類器進行訓練。Pang等[3]對電影評論進行情感分析,對比了樸素貝葉斯、支持向量機和最大熵三種方法,表明了支持向量機的文本分類效果最好。張月梅等[4]提出一種基于隨機森林和K近鄰的混合算法實現文本分類。在解決中文微博短文本問題上,郝苗苗等[5]采用了基于情感詞典的權重規則算法,構建了微博情緒詞典,對微博評論進行分析和預測,取得良好的效果。此外,還有研究者針對文本數據不平衡問題基于集成學習方法對文本進行分類。Almeida等[6]在解決情感分類問題時采用了多分類集成方法,實驗取得良好的效果。Zhang等[7]對固定規則、加權組合和元分類三種集成技術進行比較,得出基于加權組合的效果最好。朱軍等[8]基于情感詞典和集成學習的情感分析方法將積極類的準確率和消極類的召回率提升了6.9%和8.8%,取得了較好的分類效果,但是實驗數據量較小。

微博評論的文本多為短文本信息,對于該短文本,由于其樣本的不平衡性和數據的稀疏性,使用傳統的機器學習算法會使情感分析效果下降。因此,通過集成學習的方法來提高文本分類的準確率是可行的辦法。集成學習的思想就是將多個弱分類器進行線性組合之后產生一個新的強分類器,目前集成學習方法主要有兩種:基于Bagging的集成學習方法和基于Boosting的集成學習方法。隨機森林就是比較典型的一個基于Bagging的集成學習算法,Boosting算法常見的有Adaboost、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)等。另外,Rie Johnson等[9]提出了一種在GBDT算法上對正則化改進的正則化貪心森林算法(Regularized Greedy Forest,RGF),增加顯式的正則函數來防止過擬合,也是本文所采用的作為情感分析的方法。

本文提出使用基于RGF的微博評論情感分析模型,通過集成學習的方法對決策樹進行提升。對比傳統機器學習方法貝葉斯分類、決策樹、隨機森林、基于Adaboost的集成方法以及本文用到的RGF集成學習方法,通過外賣評論數據、微博爬取的評論數據以及電商數據三種數據集對比實驗,以準確率、召回率和F1值作為評定標準,通過大量的實驗證明RGF模型在情感分析上能取得良好的效果。結果證明,使用正則化貪心森林的算法模型進行微博短文本情感分析,對比其他模型有較好的分類效果。

2 RGF原理及方法

RGF算法是在GBDT算法上進行改進的一種算法。GBDT是一種廣泛應用的Boosting算法[10],GBDT通過加法模型,即基函數的線性組合,經過多次迭代,不斷減小訓練過程產生的損失值來擬合非線性函數,最終達到將數據分類或者回歸的效果。但是GBDT的不足之處是,每次迭代都會學習出一棵決策樹,而每次迭代只優化新產生的樹以及過擬合問題,這樣單棵樹與整個森林分隔開來,沒有利用好決策樹的本身的性質,并且GBDT缺少顯示的正則化,針對以上問題Rie Johnson等提出了RGF算法。

RGF是一種決策森林,它的核心思想是:每次迭代不再只對新建樹優化,而是對整個貪心森林進行學習,并且新增決策樹后對全局參數進行優化,增加顯式的正則函數來防止過擬合。[11]

在一棵決策樹中,從樹的根節點x到樹的子節點v形成的一條路徑即為一條分類規則,對于該分類規則用公式可以表示為

(1)

其中,I(x)取值為0和1,當括號中結果為真時取1,否則取0。因此,當bv(x)=1時,說明x經過決策樹的判斷能夠到達v節點,否則不能到達。每個樣本在決策樹分類的過程中,都在樹的非葉子節點處進行某個特征維度值的二元測試,將樣本數據與閾值進行對比,對比后的結果進入下一層再進行判斷,最后到達葉子節點,如下圖1所示。

圖1 決策樹流程圖

上圖中從Root根節點到紅色節點的過程中,每一層都要經過閾值判斷 ,所以紅色節點可以表示為bv(x)=I(x[2]≤t2)I(x[1]≤t1)。在單棵決策樹中,每個節點v都可以表示成其子節點的組合,如bv(x)=bv1(x)+bv2(x),而決策森林模型就可以表示成葉節點的組合模型

(2)

其中,av表示v節點的權重,當v不是葉子結點的時候值取0,F則表示決策森林。有了該模型表示,正則化貪心森林算法就可以直接學習整個貪心森林,而不是只學習新增的決策樹。

RGF在構建決策森林時,定義了一個損失函數Q=L(hF(x),Y)+R(hF),其中R(hF)是正則化項,L(hF(x),Y)根據處理的問題進行定義,本文定義的損失函數為:

(3)

3 基于RGF算法的情感分析研究

本文針對微博熱點事件的評論數據,提出基于正則化貪心森林算法的情感分類模型,情感分析步驟流程圖如下圖2所示。

圖2 情感分析流程圖

首先,對數據集使用NLTK工具包進行文本預處理,包括分詞、去除停用詞、去除重復數據、去除空值數據、去除特殊字符等,然后再將清洗好的數據進行特征提取,根據數據產生詞頻,選取特征時選取文本中出現的高頻詞,具有代表性,也是影響其分類結果的重要因素。然后再把每句話進行分詞,本文分詞采用的是分詞工具jieba分詞[12]中的精確模式,分詞后的數據根據詞頻向量化。在特征提取部分主要是采取常用的詞袋模型(Bag-of-words,BOW)[13]對文本進行特征提取,然后使用TF-IDF算法[14,15]計算權重,并賦予特征值,tf是詞頻,其公式表示為

(4)

idf是逆文檔頻率,其公式表示為

(5)

TF-IDF為tf和idf的乘積,用來表示一個字詞在一個文件中的重要程度或者一個文件在整個語料庫中的重要程度,公式如下:

(6)

其中nij表示單詞i在文本j中出現的頻率;nj表示文本的單詞總數;|D|表示語料庫中的文本數;|Di|表示在語料庫中出現單詞i的文本總數。接著將提取的特征進行向量化表示,然后通過不同的分類器進行訓練。與以往傳統機器學習方法不同的是,在建立模型時選擇的是利用RGF算法進行建模,實驗將數據集按4∶1隨機分為訓練集和測試集,進行訓練及預測。

4 實驗與分析

4.1 實驗設置

本文進行實驗的語料庫不僅包括爬取的微博數據,另外加了兩組已經處理好的標準語料庫的數據:電商評論數據和外賣數據,進行有監督的情感分析。情感標簽統一為兩分類,正面和負面,數據集統計信息如下表1所示。實驗使用RGF模型和其他四種基準模型分別對三種語料庫進行訓練,通過評價指標對其結果進行分析評估。

表1 數據集統計信息

4.2 評價標準

實驗采用的評價標準為準確率(Acc)、召回率(Recall)和F1值(F1)。準確率表示了測量值與標準值的接近程度,召回率表示數據集中的正面數據多少被正確預測了,F1值綜合前兩個指標,用來對整體進行評估。其計算公式表示為

(7)

(8)

(9)

其中Tp、Tn、Fp、Fn表示的意義如下表2。

表2 混淆矩陣

另外,使用準確率、召回率和F1值折線圖直觀的顯示,方便觀察五種分類器的優劣。

4.3 實驗結果與分析

本次實驗,訓練及預測采取多組實驗對比的形式來說明所提出方法的有效性。分別選用決策樹[16],貝葉斯[17],增強多項式貝葉斯,隨機森林[18]和本文所提出的RGF模型對數據進行訓練,并且使用這五個分類模型對三種語料庫分別訓練和預測。各方法介紹如下:

決策樹:將數據切分成80%訓練集和20%測試集,使用jieba分詞器對三類數據進行分詞并去除停用詞,將分詞結果轉換成TF-IDF模型,并使用決策樹對源文本進行分類,最后利用三種不同的語料庫訓練決策樹分類器。

貝葉斯:將數據切分成80%訓練集和20%測試集,使用jieba分詞器對三類數據進行分詞并去除停用詞,將分詞結果轉換成TF-IDF模型,并使用貝葉斯算法對源文本進行分類,最后利用三種不同的語料庫訓練貝葉斯分類器。

增強多項式貝葉斯:將數據切分成80%訓練集和20%測試集,使用jieba分詞器對三類數據進行分詞并去除停用詞,將分詞結果轉換成TF-IDF模型,并使用多項式貝葉斯作為弱分類器,通過Adaboost集成算法對其加強,對源文本進行分類,最后利用三種不同的語料庫訓練增強多項式貝葉斯分類器。

隨機森林:將數據切分成80%訓練集和20%測試集,使用jieba分詞器對三類數據進行分詞并去除停用詞,將分詞結果轉換成TF-IDF模型,并使用隨機森林算法對源文本進行分類,最后利用三種不同的語料庫訓練隨機森林分類器。

RGF:將數據切分成80%訓練集和20%測試集,使用jieba分詞器對三類數據進行分詞并去除停用詞,將分詞結果轉換成TF-IDF模型,并使用RGF算法對源文本進行分類,最后利用三種不同的語料庫訓練RGF分類器。

實驗將本文提出的方法與幾種基準模型進行對比,在數據的爬取、預處理、特征提取、向量化一致的前提下,分類時分別選用了決策樹、多項式貝葉斯、增強多項式貝葉斯、隨機森林以及本文基于RGF算法的增強分類器對文本進行情感分析,實驗結果對比如下表3、表4和表5。

表3 各種分類方法在三個數據集上的結果(準確率)

表4 各種分類方法在三個數據集上的結果(召回率)

表5 各種分類方法在三個數據集上的結果(F1值)

圖4 不同分類器對分類效果的影響

從上表可看出,本文提出的基于RGF算法模型的方法進行情感分析結果優于其他方法的效果。另外,在不同的數據集上進行訓練和預測的結果也有所不同。從準確率來看,微博數據在五種分類器預測的準確率整體低于外賣數據和電商數據,分析原因可能是微博數據集相較于其他兩個更為不平衡,數據整體極性偏向于正面。但是在正負面語料接近1∶1的電商數據中就取得不錯的效果,準確率達到了88.7%。對比直接使用決策樹進行情感分類,使用RGF算法在準確率上整體提高了4%左右,效果比較理想。從F1值來看,微博數據使用RGF算法對比使用貝葉斯方法提升了1.6%,對比決策樹算法提升近4%,而對于電商數據效果不是特別明顯,結果表明,RGF算法在針對不平衡數據集時和其他分類器相比分類效果更為明顯。

除此之外,針對微博數據集,從不同分類器對分類效果的準確率、召回率和F1值折線圖上可以更為直觀的看出使用RGF算法進行情感分類效果明顯優于其他分類器。對微博不平衡短文本數據集,本文采用的方法在準確率上提高了3.6%,在F1值上提升了3.6%,證明通過正則化貪心森林算法對微博評論文本進行情感分析能夠提高分類的效果,驗證了該方法的有效性和可行性。

猜你喜歡
分詞決策樹分類器
基于決策樹和神經網絡的高血壓病危險因素研究
分詞在英語教學中的妙用
基于樸素Bayes組合的簡易集成分類器①
基于特征選擇的SVM選擇性集成學習方法
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
決策樹和隨機森林方法在管理決策中的應用
基于差異性測度的遙感自適應分類器選擇
決策樹多元分類模型預測森林植被覆蓋
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合