?

基于雙三元組網絡的易混淆文本情感分類方法

2024-03-26 02:52程世杰張海豐
中文信息學報 2024年1期
關鍵詞:三元組類別分類

徐 瑞,曾 誠,程世杰,張海豐,何 鵬

(1.湖北大學 計算機與信息工程學院,湖北 武漢 430062;2.湖北大學 人工智能學院,湖北 武漢 430062;3.湖北大學 網絡空間安全學院,湖北 武漢 430062;4.湖北大學 智慧感知系統與安全教育部重點實驗室,湖北 武漢 430062)

0 引言

近年來,隨著網絡媒體的迅速普及,人們在諸多平臺上留下了大量含有主觀感情色彩的評論,對這些評論數據進行情感傾向分析,可以挖掘出用戶有效的觀點信息。

當前預訓練技術使得情感分類任務取得了突破性進展[1],但由于語言的復雜性和多樣性,情感分類數據集中包含著較多難以學習的易混淆文本。此類文本個性特征不鮮明,通常包含較多的混淆詞,因與被混淆類別之間特征相似度較高而難以被準確區分。分類模型往往傾向于區分易分類文本,對易混淆文本的分類效果不佳,因此整體的訓練效果受到了一定影響。易混淆文本示例如表1所示。

表1 易混淆文本示例

傳統的文本向量化方法 Word2Vec和GloVe忽略了文本上下文語境信息,在面對易混淆文本時無法處理一詞多義問題。預訓練模型BERT通過捕獲句子上下文信息可以消除詞的多義性,但未能挖掘出易混淆文本的深層語義特征,下游任務想要準確識別出真實類別同樣困難。

易混淆文本屬于困難樣本的研究范疇,困難樣本目前的解決思路是從數據分布和模型結構兩個方面進行優化[2]。Wang等[3]利用數據增強方法對困難樣本進行擴充,平衡簡單樣本和困難樣本之間的數據比例,但模型分類能力提升有限;Shrivastava等[4]提出困難樣本挖掘算法,將篩選出的困難樣本加入到新的訓練批次進行訓練,但此方法一般用于困難樣本中困難負樣本的挖掘。相較于數據層面的處理,Lin等[5]提出Focal Loss損失函數,對困難樣本賦予更大權重,使得模型更加關注于難分類的樣本,但也造成了模型容易受到噪聲的影響。事實上,對于困難樣本中的易混淆文本的處理,本質是希望其與同類別文本的距離盡可能相近,與被混淆類別文本的距離盡可能遠。對此,Jiang等[6]利用有監督對比學習模式針對于困難負樣本進行損失優化,增大不同類別之間的距離;而Cai等[7]在行人重識別領域利用三元組網絡的特點,有效地拉近了同類別樣本間的距離,又與混淆類別樣本保持了區分度。

但是傳統的三元組樣本選擇方式在同類別特征之間仍有明顯的差異,有進一步提升的空間。鑒于此,本文提出一種針對易混淆文本的雙三元組網絡情感分類方法(Double Triplet Network for Sentiment Classification,DTN4SC),針對文本情感分類領域的語義特色,在數據層面和模型結構上同時進行優化。該方法在傳統模型構建的分類器上,利用改進的雙三元樣本組構建方式,將得到的樣本組合傳入三元組網絡進行針對訓練,使模型深入挖掘混淆文本的深層語義信息;同時參考困難樣本挖掘思路將篩選出的易混淆文本動態加入到下一批次訓練中,以降低數據中易混淆文本產生的負面影響,提升模型的分類效果。本文的主要貢獻包括兩個方面:

(1) 提出了一種針對易混淆文本的雙三元組網絡情感分類方法,對模型訓練過程中篩選出的易混淆文本進行針對訓練,使用改進的雙三元樣本構建方式可有效降低數據中易混淆文本產生的負面影響,最大化地挖掘數據中潛在的情感信息,提升模型的分類性能。

(2) 本文設計的針對易混淆文本方法具備通用性,可兼容不同結構的深度語言模型,在多個分類模型上效果表現良好。

1 相關工作

1.1 情感分類

情感分類是指分析、總結和判斷文本中情感信息并將其劃分成各類情感傾向的研究方法,是對文本所表達的觀點、態度的類別劃分[8]?,F有的文本情感分類方法主要分為3類: 基于詞典和規則的方法、基于機器學習的方法和基于深度學習的方法[9]。

基于詞典和規則的情感分類方法[10-11]利用構建的情感詞典或者人工規則,提取文本中情緒相關的觀點詞進行情感計算。但由于情感詞典構建難度較大,通用性較差,同時存在人工設計的知識庫和判斷規則無法解決不同領域的問題[12],使得基于情感詞典和規則的方法魯棒性較低,分類效果不理想。對此研究人員開展了基于機器學習的情感分類方法的研究,Pang等[13]使用支持向量機(Support Vector Machine,SVM)、最大熵算法(ME)、樸素貝葉斯算法(NB)和n-gram等算法分別實現對電影影評和旅游博客評論的分類,隨后研究人員利用不同機器學習模型對情感數據展開了一系列實驗。但基于機器學習的情感分類方法依賴于人工篩選的特征,并且難以學習到較深層的語義信息,因此泛化能力和遷移學習能力較差。

相較于基于機器學習的方法,基于深度學習的方法不需要人工提取特征,其會自動挖掘出文本表征中更加深層的語義特征。Blunsom等[14]利用卷積神經網絡(Convolutional Neural Networks,CNN)對Twitter文本進行情感分析研究;Wang等[15]則利用長短時記憶(Long Short Term Memory,LSTM)網絡存儲長文本的特性,在Twitter文本上情感分類效果更好。此外,多種網絡模型的融合結構也被相繼提出,Lai 等[16]提出了結合CNN與BiGRU的網絡模型,充分利用了兩個模型各自的優勢。為了捕捉數據特征的內部相關性,挖掘文本的關鍵特征,注意力機制[17]也被引入NLP領域,其與TextCNN、LSTM等模型融合后,有效降低了對外部信息的依賴程度,提升了模型的分類效果。隨著預訓練技術的快速發展,大量自然語言處理領域的研究人員逐漸采用BERT等預訓練模型對文本進行向量表征來完成下游的情感分類任務。BERT模型采用雙向Transformer結構,相較于傳統Word2Vec等詞向量方法,它突破了單向語言模型的局限,面對情感文本中的易混淆文本,可以更好地表示文本特征,因此本文采用BERT模型作為基準編碼器來進行文本特征提取。

盡管上述深度學習方法在情感分類任務中有著不錯的表現,但是部分文本存在個性特征不鮮明、情感傾向易混淆等問題,仍然制約模型的整體分類效果。這些易混淆的文本在經過詞嵌入模型后,分類層無法有效地識別其真實類別,因此對于易混淆文本的進一步研究是不容忽視的。

1.2 易混淆文本

易混淆文本在一定程度上制約了現有模型的分類效果,如圖1所示,易混淆文本大部分集中在分類決策線周圍,模型對其特征差異性不敏感,無法有效識別出真實類別[18]。

圖1 易混淆文本

在文本情感領域中,易混淆文本是由于情感傾向模糊或者包含較多的混淆詞而導致類別被混淆的文本,如何有效地避免易混淆文本對模型的負面影響,是一個棘手的問題。宋等[19]在BERT模型中引入Focal loss損失函數,在一定程度上提高了對易混淆文本的分類能力,但沒有充分利用易混淆文本;Xu等[20]通過圖神經網絡結合注意力機制的方式來學習易混淆法律文本間的特征差異,在法律文本中得到不錯的效果,但其缺點是忽略了同類型法律詞條之間的關聯性。因此,如何在擴大混淆類別距離的同時,對同類別文本進一步聚類,是研究易混淆文本的重要思路。事實上,三元組網絡可以很好地解決這個問題,其在行人重識別領域中處理行人重疊混淆問題時表現突出。因此,本文同樣采用三元組網絡對易混淆文本進行針對性訓練,并根據文本情感數據的特性進行優化改進。

1.3 三元組網絡

三元組網絡由孿生網絡發展而來,在人臉識別領域中,由于人臉結構相似導致模型對不同樣本特征差異不敏感,對此,Chopra等[21]提出孿生網絡,使用兩個結構相同、參數共享的神經網絡,向網絡中輸入一個正例人臉圖片和負例人臉圖片,經過計算得到兩個樣例的特征相似度,通過訓練可以有效地增大不同類別間的距離。

但孿生網絡對基準樣例較為敏感,無法在區分不同類別之間距離的同時識別同類別中的樣本。對此,Hoffer提出三元組網絡[22]使用基準樣例、正例和負例組成訓練組,利用三個參數共享的神經網絡模型提取輸入特征,最后進行三元組損失計算,有效地解決了孿生網絡中對同類別個體識別能力較差的問題。如圖2所示的三元樣本組,這樣構建的目的是綜合考慮同類樣本和非同類樣本,因此三元組網絡在多個任務上效果比孿生網絡表現出色。尤其是針對行人重識別[23],三元組網絡可以很好地跟蹤重疊行人的軌跡,同樣可以利用三元組網絡對易混淆文本的特征信息與其他文本進行特征相似度對比,挖掘出豐富的語義信息。

圖2 三元樣本組

同時Chen等[24]在構建三元組時,在傳統三元訓練準則上多加入一個負樣本,發現能更好地實現類內差異的縮小以及類間差異的增加。受該工作啟發,本文設計出雙三元組網絡,分別從易分類文本和普通文本中構建出兩對三元樣本組并賦予不同的權重,相較于傳統隨機挑選樣本構造的三元組,在度量不同類別文本的同時,本文方法更加關注從易分類文本中挑選出的樣本,以此深入挖掘出簡單樣本和易混淆樣本的共性情感特征。

2 基于雙三元組網絡的情感分類方法

本節詳細闡述所提出的基于雙三元組網絡的易混淆文本情感分類方法DTN4SC,其總體訓練流程如圖3所示。該流程包括3個部分: ①分類模型的構建; ②易混淆文本與易分類文本篩選; ③基于雙三元組網絡的易混淆文本針對性訓練。

圖3 DTN4SC方法訓練流程圖

首先,基于BERT模型構建分類器,對輸入文本編碼后經過非線性激活層得到文本的深層特征語義,再添加分類層對文本進行初步分類,得到每個類別的預測概率;然后,設計出文本特征篩選器,根據各類別預測情況過濾出易混淆文本和易分類文本的語義特征;隨機從易分類文本中挑選正例樣本和負例樣本與易混淆文本,構建出第一個三元樣本組。同樣,隨機在普通文本中挑選正例樣本和負例樣本與易混淆文本構建出第二個三元樣本組,將兩對易混淆三元樣本組以不同權重分別送入三元組網絡得到雙三元組損失函數,并加入到交叉熵損失中來提高易混淆數據在模型中的影響程度;同時,將本批次篩選出的易混淆文本加入到下一批次繼續進行訓練,進一步學習同類數據間的相似性和易混淆數據的差異性。

2.1 基于BERT模型構建分類器

BERT模型采用雙向Transformer編碼器結構,利用大規模無標注語料庫進行訓練。在模型訓練階段,為了能夠有效學習到雙向編碼的能力,BERT采用了掩碼語言模型(Masked Language Model,MLM)和下句預測(Next Sentence Prediction,NSP)任務,使其能夠充分學習到句子中上下文的語境信息,并盡量避免過擬合問題的產生??紤]到在情感分類任務中使用BERT模型作為編碼器分類效果良好,因此本文采用BERT作為特征提取器得到輸入文本的語義表示,然后進一步提取特征并進行分類,BERT模型結構如圖4所示。

圖4 BERT分類模型

輸入文本si=<[CLS],e1,e2,…,et,[SEP]>,其中si表示該訓練批次第i條樣本,et表示為輸入文本中的第t個字,[CLS]和[SEP]分別作為輸入文本的開頭和結尾標志。如式(1)所示,當文本序列經過BERT編碼器后,hi∈d輸出向量蘊含了整個句子的語義信息,如式(1)所示。

hi=fbert(si)[0]

(1)

其中,W1∈d×d和W2∈M×d為權重矩陣,W3∈M為參數矩陣,類別預測概率中最大值即為當前輸入文本si的類別預測值。

2.2 易混淆文本和易分類文本的篩選

輸入文本經過上述所構建的分類器得到不同類別的概率預測情況,此時設計出篩選函數過濾出易混淆文本和易分類文本。對于易混淆文本而言,由于分類器難以從當前文本序列中學習到正確類別的個性特征,導致與被混淆類別特征向量相似度較高,兩者預測分數十分接近;而易分類文本是模型能夠較快學習到特征的文本,預測標簽與真實標簽誤差較小,此類文本也被定義為簡單樣本[5],普通文本則為上述兩類文本以外的其他文本。從損失函數角度分析,訓練過程中易混淆文本損失較大,易分類文本損失較小,為此,本文引入了針對這兩種文本的篩選策略。

易混淆文本篩選策略如式(4)所示,λ為超參數表示混淆類別分數閾值。類別預測概率前二的差值在閾值λ之內的文本會被篩選器判別為易混淆文本,此時篩選出此文本的特征向量。

(4)

易分類文本的篩選策略類似,為了進一步挖掘易混淆文本中潛在的情感信息,篩選出易分類文本與易混淆文本特征,充分對比學習,提升分類器對易混淆文本的學習能力,篩選易分類文本規則如式(5)所示。

(5)

其中,μ為超參數,為易分類文本的分數閾值,本文設置策略為二分類數據集值為0.7,七分類值為0.3。在實際訓練過程中,為了讓模型進一步關注易混淆文本,對其施加更高的權重,本文將篩選出來的易混淆文本加入到下一批次繼續訓練,以達到擴充易混淆文本數據的目的。

2.3 基于雙三元組網絡的訓練策略

針對易混淆文本訓練策略,首先隨機從易分類文本中挑選正例樣本和負例樣本與易混淆文本構建出第一個三元樣本組,同樣隨機從普通文本中挑選正例樣本和負例樣本與易混淆文本構建出第二個三元樣本組;接著,分別通過三元組網絡得到雙三元損失函數,同時賦予第一項損失函數更高的權重損失,以此使得訓練目標拉近基準樣例和正例的距離,同時使基準樣例遠離負例,設計如式(6)所示加權雙三元組損失(Weighted Double Triplets Loss,WDTL)函數。

(6)

其中,[z]+=max(z,0),前一項稱為強推動,由易分類文本中挑選構建;后一項為弱推動,為普通文本中挑選構建。為了讓模型深入挖掘出易分類文本中的特征以供易混淆文本學習,設置前一項權重大于后一項,即β小于1。δ1和δ2是超參數,為訓練過程中設置的閾值參數,a為基準樣例,p+和n+分別為易分類文本中構建的正例樣本和負例樣本,p-和n-分別為普通文本中構建的正例樣本和負例樣本,d(a,p)和d(a,n)分別表示基準樣例與正例的距離、基準樣例與負例的距離。本文選用歐氏距離作為距離度量方式,將樣本特征向量映射到歐氏距離空間以實現三元組學習的目標。

在訓練微調階段,本文設計使用了基于三元組損失函數優化過的目標函數。在對易混淆文本,針對訓練的同時保證普通文本不受影響,目標函數如式(7)、式(8)所示。

Lwdtl為雙三元組損失,Lce表示傳統交叉熵(Cross Entropy,CE)損失。cm為預測類別屬于類別m的概率;gm是指示變量,如果文本預測類別和真實類別相同則為1,否則為0,α為超參數,用于調節雙三元組損失權重。

3 實驗與分析

3.1 實驗設置

3.1.1 實驗數據集

為檢驗所提方法對易混淆文本的分類性能,本文使用微博情緒分類數據集nlpcc2014、外賣評論數據集waimai_10k以及譚松波博士整理的評論數據集ChnSentiCorp作為實驗數據集。

數據集nlpcc2014來源于NLPCC2014任務中微博評論情緒識別,包含7種情感標注,其中happiness類別3 301條、like類別5 760條、anger類別2 086條、sadness類別2 712條、fear類別363條、disgust類別3 751條、surprise類別1 061條。數據集waimai_10k來源于百度外賣用戶用餐評價,其中正向情感數據有4 001條,負向情感數據有7 987條。數據集ChnSentiCorp來源于譚松波收集關于酒店、筆記本和書籍相關的語料評論,其中,正向情感數據有5 322條,負向情感數據有2 444條。各數據集詳情如表2所示,實驗數據按照8∶1∶1的比例劃分為訓練集、測試集和驗證集。

表2 數據集統計信息

3.1.2 實驗參數設置

本文實驗參數主要包括BERT模型參數、易混淆篩選器超參數和雙三元組損失參數,具體模型參數配置如表3所示。

表3 模型參數配置

根據不同數據集的具體特征,對易混淆篩選器混淆類別閾值λ和三元組損失加權超參數α進行了參數敏感性分析,最終選取最優的參數作為實驗參數,各數據集表現最優參數如表4所示。

表4 不同數據集參數

3.2 評價指標和對比實驗

3.2.1 評價指標

本文采用準確率(Acc)和F1值對分類結果進行評價,計算如式(9)~式(12)所示。

其中,TP(True Positive)表示事實為正樣本預測為正,FP(False Positive)表示事實為負樣本預測為正,TN(True Negative)表示事實為正樣本預測為負,FN(False Negative)表示事實為負樣本預測為負。

3.2.2 對比實驗

為評估所提方法針對易混淆文本的分類效果,本文以BERT作為基準編碼器,并選取部分在困難樣本領域和易混淆文本中表現較好的方法與之進行對比實驗。

(1)EDA[3]: 通過對易混淆文本進行數據增強,平衡數據比例,提高模型對易混淆文本學習能力。

(2)Focal-Loss[19]: 構建困難樣本損失函數,緩解了少量易混淆文本和大量普通文本對分類器學習貢獻度不同的問題。

(3)OHEM[25]: 使用在線困難樣本挖掘的Add模式,直接將篩選出的易混淆文本加入到訓練數據,相較于Replace模式效果更好。

(4)Noisy-HEM[26]: 利用余弦距離過濾混淆文本,進行損失優化,同時微調階段之前加入噪聲提高泛化能力。本文選取該方法中的損失優化作為對比實驗。

(5)H-SCL[6]: 對易混淆文本進行有監督對比學習,相較于無監督對比學習方法UCL(Unsupervised Contrastive Learning),其隨機采樣性能更好。

3.3 實驗結果與分析

不同方法在三個數據集上的準確率(Acc)和F1值如表5所示。由實驗結果可知,針對易混淆文本處理后的模型普遍優于基準模型BERT,在準確率和F1值上都得到了一定的提升。其中,本文方法DTN4SC相比于其他所列舉方法,在三個公開數據集上整體表現更好。對于waimai_10k數據集和nlpcc2014數據集,本文方法對基準模型效果提升最大,F1值分別提升了2.35%和3.16%。而對于ChnSentiCorp數據集,本文方法相較于Noisy-HEM方法效果欠佳。分析結果發現ChnSentiCorp數據集的平均長度為140,而waimai_10k和nlpcc2014數據集平均長度分別為40和50,短文本所含信息量少,其他方法很難學習其中的個性特征,而本文方法可以挖掘并對比同類和非同類之間的相似性和差異性,因此在對短文本的處理上會優于其他方法;而長文本中所含信息豐富,各個方法都能較好地學習到文本中的特征模式,對基準模型BERT的提升效果相近,其中Noisy-HEM方法效果最佳。

表5 各方法在不同數據集上的結果 (單位: %)

同時,為驗證本文方法對不同分類模型的兼容性,進一步說明本文方法對文本混淆問題的改善情況,分別使用近年來發布的其他模型LSTM、BERT-BiGRU[27]和XLNET-RCNN[28]替代本文所選分類模型進行實驗,結果如表6所示。實驗結果表明,將基準模型BERT替換為其他分類模型,本文方法依然能使分類效果得到明顯的提升,對數據中易混淆文本進一步聚類,可以明顯提升模型的分類性能,驗證了本文方法不僅兼容大型預訓練模型,而且也兼容傳統模型。同時,實驗結果表明,在情感分類問題的研究中,對文本混淆問題進行處理是十分必要的。

表6 DTN4SC方法在其他模型上的效果 (單位: %)

3.4 參數敏感性分析

為測試易混淆文本篩選器閾值α和三元組損失權重參數λ對DTN4SC方法性能的影響。以數據集waimai_10k為例,本文選取了不同參數對模型進行訓練,繪制不同閾值和權重參數的三維曲線圖如圖5所示。

當易混淆篩選器類別閾值α選取為0.04,且三元組損失權重λ選為0.3時,模型性能此時表現最優。這是由于: ①當篩選器閾值選取過小時,篩選器無法過濾出大部分易混淆文本,針對訓練效果較差;當篩選器閾值選取過大時,篩選器誤將普通樣本識別為易混淆文本,減弱了模型的泛化能力。②由于易混淆文本在總體樣本中占比不大,合適的三元組權重可以保證模型的性能。

為了深入挖掘出易混淆文本語義特征,本文在設計三元損失函數時構建了兩組三元樣本組。對此,進一步說明所提出的雙三元組損失函數相較于傳統三元組損失函數的性能效果,以此驗證本文方法對混淆文本的改善程度,本文選取nlpcc2014數據集中易混淆的happiness、like和surprise三個類別,使用t-SNE算法(t-distributed Stochastic Neighbor Embedding)對測試集輸出的特征可視化處理,結果如圖6所示。

圖6 nlpcc2014測試集數據可視化

圖6(a)為基準模型BERT訓練過后在nlpcc2014測試集上happiness、like和surprise三個類別特征向量的二維空間表示,測試集數據在嵌入空間的分布情況較為散亂,文本混淆問題突出,模型的分類性能受到制約。圖6(b)使用傳統三元組損失構建模型進行訓練,相較于圖6(a)不同類別之間距離有了明顯的差異,但happiness和like類別交錯堆疊問題突出,類內之間距離較為分散。圖6(c)為使用本文方法DTN4SC優化后的模型,明顯看出同類別之間的距離得到了拉近,混淆問題得到明顯改善,離群文本也得到了減少,這說明對易混淆文本進行了修正加強了模型對情感數據的區分能力。但事實上,采用三元組損失無法消除樣本的錯誤移動,只能約束和抑制這種負面趨勢,因此圖6(b)和圖6(c)仍有不少互相交錯的離群樣本。

3.5 消融實驗

為進一步說明所提方法的合理性,本文進行了消融實驗。

實驗一是分別設計了使用傳統三元組損失構建的方法和“去除易混淆文本動態加入下一批次步驟”的方法,消融實驗結果如表7所示。從表中可以看出,相較于傳統三元組損失函數構建的模型,本文提出的加權雙三元組損失函數對模型的提升效果更加明顯,對易混淆文本區分能力更強。同時,如果去除易混淆文本動態加入下一批次步驟,模型的分類性能會有一定的下降,證明了所提方法的合理性和有效性。

表7 消融實驗結果 (單位: %)

實驗二是進一步探索出在不同混淆數據比例下的對比實驗。

易混淆文本篩選器閾值決定了對混淆文本的容忍程度,不同數據集由于文本特性信息不同、質量和長度不同,導致篩選器閾值最優參數也不同,在其他超參數為最優參數下,探究數據集混淆比例在什么范圍時,本文方法對基準模型的性能提升較大,實驗結果如圖7所示。不同篩選器閾值對基準模型的性能提升差異明顯,但篩選器閾值選取范圍在0.03~0.1之間時,模型整體性能提升較為理想??s小了對不同數據集調參時選擇合適閾值超參數范圍,提高本文方法的適用性。

圖7 不同混淆比例下的準確率

4 總結與展望

本文針對情感分類任務中易混淆文本對模型性能的影響,提出了基于雙三元組網絡的情感分類方法DTN4SC。該方法在構建易混淆三元樣本組合時,更加關注易分類文本的個性特征,充分挖掘同類樣本之間的共有特性,并減弱混淆樣本帶來的負面影響;同時,將各批次篩選的易混淆加入到下一批次進行訓練,進一步提高模型的分類能力和泛化能力。在三個公開的中文情感分類數據集上的實驗結果充分證明了本文所提方法的有效性和合理性。但也存在著一些不足之處,比如易混淆篩選器閾值參數需要針對不同數據集進行微調設置,缺乏靈活性。在下一步工作中,將嘗試對根據數據集整體樣本的平均距離生成自適應的權重,進一步實現對易混淆文本檢測的優化。

猜你喜歡
三元組類別分類
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
分類算一算
特征標三元組的本原誘導子
關于余撓三元組的periodic-模
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
服務類別
論類別股東會
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合