基于prompt tuning的中文文本多領域情感分析研究*

2024-01-24 14:38趙文輝吳曉鸰HOONHeo

計算機工程與科學 2024年1期

趙文輝,吳曉鸰,凌捷,HOON Heo

(1.廣東工業大學計算機學院,廣東廣州 510006;2.三星電機,韓國水原 16674)

1 引言

隨著互聯網的發展,人們生活的各個領域都與互聯網產生了緊密的聯系,人們會在各個互聯網平臺發表評論。通過分析這些文本中的情感傾向,挖掘有價值的信息,是自然語言處理中一個重要的研究方向。

目前情感分析方法主要基于情感詞典、機器學習和深度學習。深度學習常用的神經網絡模型有卷積神經網絡CNN(Convolutional Neural Network)、循環神經網絡RNN(Recurrent Neural Network)、長短期記憶LSTM(Long Short-Term Memory)網絡和門控循環單元GRU(Gated Recurrent Unit)。這些模型均被廣泛應用到情感分析任務中。Kalchbrenner等[1]提出把 CNN 應用于自然語言處理,并設計了一個動態卷積神經網絡模型,以處理不同長度的文本。Monika等[2]提出使用循環神經網絡模型RNN對序列信號進行建模,通過在網絡模型中引入記憶單元來處理長期依賴關系,同時能避免RNN 的梯度消失問題。

近年來,預訓練語言模型PLM(Pre-trained Language Model)飛速發展,相繼提出了BERT(Bidirectional Encoder Representations from Transformers)[3]、RoBERTa(Robustly optimized BERT pretraining approach)[4]和T5[5]等基于Transformer的模型。因為PLM通過自注意力機制解決一詞多義的問題,同時還能捕獲詞與詞、句與句之間的高維情感特征,加上巨大的模型規模與從大規模預訓練語料中獲得的通用知識,微調PLM的全模型參數后進行情感分析取得了非常優異的性能,成為了情感分析的主流方法[6-8]。Man等[9]提出使用BERT模型作為文章特征提取模型,并利用深度卷積神經網絡提取文章的局部信息,效果好過傳統深度學習模型的。梅俠峰等[10]提出了結合ALBERT(A Lite BERT)和BiFASRU-AT(Bidirectional built-in Fast Attention Simple Recurrent Unit-ATtention)的情感分析模型,借助預訓練模型賦予詞上下文動態語義,解決了一詞多義問題;再采用雙向內置快速注意力簡單循環單元BiFASRU對上下文進行建模,模型獲得了較高的F1值。

然而,情感文本的表達方式與文本所屬領域密切相關,不同領域的情感描述之間有著明顯的差別。例如,“這真的把我看哭了?！边@句話,描述一部電影可能是感動而哭的積極評價,而若是放在餐飲領域,則可能是因為菜品賣相太差的消極評價。因此,直接將某特定領域訓練的情感分析模型應用于其它領域會存在適應度不佳的問題[11]。傳統的模型微調(model tuning)方法對多個不同領域進行情感分析,需要對每個領域分別建模。比如,楊修遠等[12]提出了一種自適應多領域知識蒸餾框架,分別訓練多個不同領域的BERT教師模型;然后,利用基于多領域對應的多個BERT模型,對單個學生模型進行進一步的蒸餾學習。而訓練各個領域對應的情感模型,需要保存每個領域對應的大量參數,這將會極大地耗費存儲空間,如圖1a所示。

Figure 1 Comparison of multi-domain sentiment analysis methods based on model fine-tuning and prompt tuning圖1 基于模型微調與基于提示微調的多領域情感分析方法對比

Brown等[13]提出了prompt design(或priming),可通過給出任務描述或者幾個范例來調動GPT-3模型,模型無需微調,可直接應用于下游任務。這種方法無需為每個下游任務訓練相應的模型參數,單個模型可以同時服務于許多不同的任務。在當今模型參數量持續增加的情況下,“凍結”預訓練模型的方法產生了巨大的影響。然而這種通過人工設計的prompt和少量范例來調動模型的方法,在下游任務上的性能遠遠落后于模型微調的。

近期,有研究人員提出了自動生成(設計)prompt的方法。Shin等[14]提出了一種在下游任務訓練數據的指導下,搜索多個離散的模型基本輸入單元(token)組成prompt的算法。雖然這優于人工設計的prompt,但其效果與模型微調的仍有差距。

Li等[15]提出了前綴微調(prefix tuning)方法,凍結模型參數并在編碼器中的每層加入了“前綴”。與人工設計和自動生成的prompt不同的是,“前綴”完全由可微調的自由參數組成,與離散的token不是一一對應的。此方法在生成任務上取得了優異的結果。后來,Hambardzumyan等[16]將可訓練參數僅添加到掩碼語言模型(Masked Language Model)的輸入和輸出子網絡中,簡化了上述方法,在分類任務上取得了尚可的結果。

Lester等[17]提出了prompt tuning,進一步簡化了prompt的形式,此方法保持模型凍結,僅僅把k個可微調的token添加到輸入文本的前端作為soft prompt,不同的下游任務學習不同的soft prompt。當模型規模變得很大時,prompt tuning的效果接近于模型微調的,但在中小型的模型中,prompt tuning的效果與模型微調的還存在較大差距。值得注意的是,實驗中發現,對prompt使用不同的初始化方法,對最終的效果有很大的影響。

因此,一些研究工作中提出,在prompt應用到下游任務之前,先用有監督或自監督學習的方法進行訓練得到一個或幾個prompt,作為下游任務prompt的初始化,取得了非常好的效果。Gu等[18]提出了PPT(Pre-trained Prompt Tuning),通過自監督學習的方法訓練prompt作為下游任務的初始化,在少樣本學習(few-shot learning)中的效果顯著。幾乎同時,Vu等[19]提出了SPoT(Soft Prompt Transfer),首先在一個或多個有標注的數據集上訓練soft prompt,作為下游任務prompt的初始化,此方法在全量數據學習中效果優于模型微調的。但是,在應用于下游任務進行prompt tuning時,訓練步數竟然達到了驚人的218(262 144),需要耗費大量的計算資源,而且在訓練步數較少時,SPoT的效果與模型微調的還存在一定差距。

以上方法,要么效果無法與模型微調的媲美,要么訓練步數過多導致耗費巨量的計算資源。因此,本文提出了MSAPT(Multi-domain Sentiment Analysis approach based on Prompt Tuning),把prompt tuning進行適當調整,應用于多領域情感分析,并通過訓練一個情感分析“通才模型”,減少下游任務中的訓練步數,同時保留其僅微調少量參數即可達到模型全參數微調效果的優點。

MSAPT首先為情感分析的各個領域設計hard prompt添加到輸入文本中,同時也添加soft prompt,再為情感分析預訓練一個統一的 “通才模型”,在下游的各領域文本學習中,保持模型凍結,通過提示微調(prompt tuning)使模型學習到各領域情感文本的特征,如圖1b所示。因為預訓練“通才模型”會被反復用到各個不同領域的情感分析任務中,所以MSAPT保持了prompt tuning參數高效的優點,僅需保存一個模型和一些參數量遠遠小于模型的prompt。本文還設置了4個消融實驗,分別對適應特定領域的prompt tuning、hard prompt、soft prompt的長度和中間訓練數據集的大小進行消融,探索這4個因素對情感分析效果的影響。綜上所述,本文的主要工作概括如下:

(1) 提出了MSAPT,把prompt tuning進行適當調整后應用到多領域情感分析,僅保存一個模型和一些參數量遠遠小于模型的prompt,即可進行高效的多領域情感分析,并且其效果能與模型微調的相媲美。

(2) 設計hard prompt幫助模型識別不同的情感領域,并提供了在特定情感領域中檢索合適的hard prompt的方法。

(3) 在對下游各領域文本進行prompt tuning時,訓練的輪次(epoch)數固定在10,總共的訓練步數控制在1 960～17 980,在減少訓練步數的同時,效果可與模型全參數微調的相媲美。

(4) 在消融實驗中證明了添加hard prompt、進行prompt tuning對改善情感分析效果存在顯著作用;增加中間訓練數據集的大小有助于提升方法在下游各領域情感分析任務中的效果;soft prompt的長度對模型效果有顯著影響。

2 基于prompt tuning的文本情感分析方法

本文遵循使用T5模型將NLP(Natural Language Processing)任務統一為“text to text”形式的方法[5],同樣把多領域情感分析轉換為文本生成任務。對于T5的模型微調,通常將分類任務建模為Prθ(Y|X),即給定輸入文本X,預測類標簽token序列Y的概率,其中θ是T5模型由編碼器和解碼器[20]構成的Transformer模塊的參數。

prompt是添加在輸入文本X前端的一系列token,可看做是為模型預測Y輸入的額外信息。prompt可分為離散的prompt和連續的prompt。人工設計或自動生成的prompt由模型詞匯表中的token構成,其參數化為模型參數θ中詞向量表的一部分,固定且不可微調。因此,尋找最佳的prompt需要通過人工設計或搜索算法來完成,這2種方法都不可微[21],所以它是離散的prompt,或稱為hard prompt。

Figure 2 Comparison of input forms of multi-domain sentiment analysis based on model fine tuning and prompt tuning圖2 基于模型微調與基于prompt tuning的多領域情感分析輸入形式對比

2.1 為輸入文本添加prompt

2.1.1 為輸入文本添加hard prompt

為了使模型能更好地學習到不同領域情感文本的特征,受到hard prompt可以將幾個不同的任務統一為一個任務的啟發[22],MSAPT在輸入文本X的前面添加了人工設計的hard prompt,記為H。hard prompt表示該情感文本的所屬領域和待選的情感標簽,如一個電影領域三分類的情感文本的H可表示為:“領域:電影;標簽:消極,適中,積極;文本:”,如圖2b所示。將標簽詞以多選的形式放入到H中,目的是增強H的可擴展性。未來隨著分類類別的增多,可以將新增的情感標簽添加到H中,比如細粒度情感分析的標簽詞“憤怒”“開心”“嫉妒”等。值得注意的是,MSAPT以“領域:”“標簽:”和“文本:”3個固定的詞幫助模型區分輸入中的不同信息,又因為H是添加在輸入文本X之前的,所以在H的最后加上了“文本:”。同時,因為H由離散的token組成,所以由模型參數θ中詞向量表的參數進行參數化,不可學習更新。在為輸入文本添加hard prompt后,可將多領域情感分析任務建模為Prθ(Y|[H;X])。

2.1.2 為輸入文本添加soft prompt

連續的prompt消除了prompt由模型參數θ初始化的限制,可自由選擇初始化形式,包括隨機初始化、用詞匯表中的高頻詞初始化和用標簽詞初始化等。關鍵是,連續的prompt的向量空間是連續的,所以它是可微的,可通過反向傳播更新參數尋找最佳的prompt。因為可微調,所以又稱為soft prompt。

得到一個“通才模型”后,為了能讓模型在未知領域或數據集中學習到相應的情感文本特征,MSAPT在輸入文本和hard prompt前面添加了soft prompt,記為P,如圖2b所示。P的參數獨立于T5模型,而且可通過學習更新,記為θP。在為輸入文本添加soft prompt后,可將多領域情感分析任務建模為Prθ;θP(Y|[P;H;X])。

2.1.3 輸入矩陣

輸入一個含有n個token的句子{x1,x2,…,xn},T5模型首先把這些token向量化,形成一個矩陣Xe∈Rn×e,其中e是詞向量的維度。然后將soft prompt參數化為矩陣Pe∈Rp×e,其中p是soft prompt的長度;將hard prompt參數化為矩陣He∈Rh×e,其中h是hard prompt的長度。最后將Pe、He、Xe依次連接,形成單個矩陣[Pe;He;Xe]∈R(p+h+n)×e作為最終的輸入,經過編碼器和解碼器最終輸出Y,如圖3所示。

Figure 3 Formation of input matrix圖3 形成輸入矩陣

2.2 多領域情感分析方法

通過Prθ;θP(Y|[P;H;X])可以看出,MSAPT目標是通過優化參數θ和θP,最大化預測正確Y的概率。為了提高prompt tuning的性能,并且減少soft prompt在下游各領域情感分析任務中的訓練步數,本文改進了SPoT方法,將模型訓練分為了2個階段。第1個階段訓練“通才模型”,不凍結模型任何參數,即θ和θP都進行更新。第2個階段應用到下游特定領域或數據集,凍結模型參數θ,僅更新θP,即prompt tuning。prompt tuning因為微調的參數較少,具有擬合慢的特點。在第1階段訓練“通才模型”擬合情感分析的通用知識,在prompt tuning階段僅需擬合特定領域的情感特征,從而可以減少prompt tuning步數,且不會導致對情感特征的欠擬合。

Figure 4 Flow chart of multi-domain sentiment analysis method圖4 多領域情感分析方法流程圖

多領域情感分析方法流程如圖4所示。首先,為訓練“通才模型”準備大量的情感分析文本,并加入soft prompt和hard prompt,為了方便下文闡述,把修改后的數據集命名為中間訓練數據集。接著,在語言模型預訓練和對下游各領域情感分析任務進行prompt tuning之間加入一個中間訓練階段,基于中間訓練數據集,把原T5模型訓練為一個無特定領域的情感分析“通才模型”。但是,必須強調的是,若此時直接應用于下游任務,還無法達到模型微調的效果,詳見本文4.1節。與SPoT方法不同,本文方法在這個階段沒有凍結T5模型,對θ和θP都在進行更新。最后,在應用到下游各領域的情感分析任務時,先將在交叉驗證集上表現最好的hard prompt加入到文本中,并且凍結模型參數θ,僅微調θP,即通過prompt tuning學習該領域的文本情感特征,因為在這個過程中模型參數不變,所以只需要存儲訓練好的特定于該領域的soft prompt而不是整個模型的參數,即一個領域存儲一個soft prompt。

MSAPT保留了prompt tuning的優點,因為其反復利用一個統一的“通才模型”,只需為下游各領域或特定數據集選擇適合的hard prompt,訓練并存儲特定于各領域的soft prompt,即用一個固定的模型和一些參數量很小的soft prompt進行多領域的情感分析。若設置soft prompt的長度p=50,則其參數量為768×50=38400。base版本的T5參數量約為2.4億,所以soft prompt的參數量僅為模型參數量的1.5。

3 實驗與結果分析

本文對游戲、外賣、書籍、衣服和酒店等多個領域的文本進行情感極性預測,涉及的數據集介紹詳見3.1.2節。傳統微調方法需要為每個領域訓練相應的模型參數,耗費存儲空間。MSAPT先通過中間訓練數據集訓練一個“通才模型”,再通過prompt tuning學習上述各領域相應的情感特征。

3.1 實驗設置

本文實驗的T5模型使用瀾舟科技開源的中文預訓練語言模型Langboat/mengzi-t5-base[23],模型版本為base。本節中的所有soft prompt的長度p都設置為50。

3.1.1 “通才模型”的訓練數據

為了訓練一個情感分析的通用模型,本文構建了一個由174萬條情感分析數據組成的數據集,即中間訓練數據集。這個數據集由公開的simplifyweibo_4_moods、yf_amazon、yf_dianping和douban_movies數據集組成。通過有監督學習使原T5模型轉換為一個適用于各領域的情感分析“通才模型”。

Figure 5 Computing method of the score圖5 分數的計算方法

3.1.2 測試數據與評價標準

為了驗證本文方法的有效性,分別評估了MSAPT在全量數據學習和少樣本學習2種情況下的效果。在實驗過程中發現,若從中間訓練數據集中隨機篩選一部分樣本用于評估測試,因為模型在這些領域已經進行了大量的學習,效果遠好于模型微調的。所以,為了增強實驗結果的說服力,本文避免使用上述數據進行評估測試。全量數據采用的數據集有:online_shopping_10_cats、game-taptap、waimai_10k、NLPCC14-SC、ASAP_SENT和ChnSentiCorp[24]。少樣本學習采用的數據集是EPRSTMT[25]。本文分別就32個樣本和160個樣本的情況進行了測試。二分類任務的極性標簽為消極和積極,三分類任務增加適中(neutral)情感標簽。測試數據集涉及的情感領域有游戲、外賣、微博、衣服、手機、水果、電腦、書籍、DVD、牛奶和酒店等。本文把這些數據集都劃分為訓練集、交叉驗證集和測試集。對于一些標簽為分數的數據集,則轉換為三分類的情感分析任務。

因為數據集中各類情感樣本數量基本平衡,所以本文直接采用正確率來評估各方法在數據集上的效果,并計算每種方法的分數。

為了方便直觀地看出每種方法的效果,本文定義了一個分數,表示一種方法相對于被比較的所有方法的平均性能提升了多少,計算方法如圖5所示。假設有3種方法:M1、M2、M3,有3個測試數據集T1、T2、T3,axy表示在數據集Tx上方法My的正確率,x,y∈{1,2,3}。首先計算T1、T2、T3上所有方法的平均正確率{A1,A2,A3},如圖5a所示;再計算M1、M2、M3在T1、T2、T3上相對平均正確率提升的百分比,并計算每種方法的平均值即為M1、M2、M3的分數SM1、SM2、SM3,如圖5b和圖5c所示。本文認為在各個測試集的正確率相差較大時,分數相比直接計算平均正確率更能代表方法的性能。

3.1.3 基線方法

本文將所提出的MSAPT與以下微調方法進行對比:

(1)隨機初始化的prompt tuning:隨機初始化soft prompt,直接在測試數據集上訓練,下文記為RIPT (Random Initialization Prompt Tuning)。

(2)SA-SPoT(Sentiment Analysis SPoT):將SPoT應用于多領域情感分析,通過中間訓練數據集訓練一個soft prompt,作為應用在測試數據集上的soft prompt的初始化(訓練epoch數也固定為10)。

(3)model tuning:模型微調是優化模型的標準方法,模型的全部參數都會更新。本文將MSAPT與T5、BERT、RoBERTa 3種模型的全參數微調方法進行對比。為了對比的公平性,BERT和RoBERTa也采用了base版本。BERT采用hugging face的Transformers庫中開源的“bert-base-chinese”版本。RoBERTa采用哈工大訊飛聯合實驗室開源的“RoBERTa-wwm-ext”版本[26]。

3.1.4 實驗環境與參數選取

本文實驗環境參數如表1所示。

在全量樣本(full sample)測試數據集上的訓練參數設置如下:對于MSAPT、RIPT和SA-SPoT,在測試數據集上固定進行10個epoch的訓練,初始學習率為5e-2,預熱比例為0,批處理大小為20,優化器為AdamW[27],損失函數為交叉熵函數;對于model tuning,在測試數據集上固定進行3個epoch的訓練;BERT和RoBERTa初始學習率為1e-5,T5初始學習率為1e-4,預熱比例為0.1,批處理大小為20,優化器為AdamW,損失函數為交叉熵函數。每一輪保存一個checkpoint,選用在交叉驗證集上正確率最大的checkpoint在測試集上測試,將測試結果作為最終結果。

Table 1 Experimental environment parameters表1 實驗環境參數

在少樣本測試數據集上的訓練參數除了epoch數和批處理大小不一樣外,其他與在全量樣本測試數據集上的訓練參數保持一致。對于MSAPT、RIPT和SA-SPoT,訓練epoch為100,批處理大小為8。對于model tuning,訓練epoch為8,批處理大小為16。

在中間訓練數據集上的訓練參數設置如下:對于MSAPT,初始學習率為1e-4,預熱比例為0,批處理大小為16,優化器為AdamW,損失函數為交叉熵函數;對于SA-SPoT,初始學習率為5e-2,預熱比例為0,批處理大小為20,優化器為AdamW,損失函數為交叉熵函數。

3.2 實驗結果及分析

為確保實驗的可對比性,降低隨機誤差,本文選取3次冷啟動實驗的平均結果作為最終實驗結果。

3.2.1 全量樣本學習的結果與分析

本節比較了6種方法在6個全量樣本數據集上的表現,結果如表2所示。在表2中,分別用加粗和下劃線突出性能最佳和次佳的方法。

從表2可以看出:

(1)本文提出的MSAPT在3個數據集上獲得了最佳的性能,分數在6種方法中第二高,稍低于RoBERTa模型微調的,但超過了T5和BERT模型微調的。

(2)SA-SPoT在比較少的訓練步數下,平均效果相比隨機初始化的prompt tuning提高了3.05%,但仍無法達到模型微調的效果。MSAPT改進了SA-SPoT方法訓練步數過多的問題,依靠“通才模型”對通用文本情感特征進行擬合,解決了SA-SPoT方法欠擬合的問題,在較少的訓練步數下能達到甚至超過一部分模型微調的效果。

本文提出的MSAPT在對游戲、外賣、書籍、衣服和酒店等多個領域的文本進行情感極性預測時,先通過“通才模型”對通用文本情感特征進行擬合,再進行prompt tuning,以適應各領域的情感特征,從而提高預測準確率。如表3所示,模型在學習游戲領域特有的文本情感特征前,會將帶有很多正向詞匯的語句預測為積極評論(錯誤),而在對該領域prompt tuning后,則能分辨出該評論指示游戲為抄襲,轉而預測為消極評價(正確)。同樣地,剩下的領域中也存在大量的這種情況。prompt tuning擬合各領域情感特征后能糾正“通才模型”的錯誤預測結果,提高預測準確率?？梢?MSAPT僅需保存一個模型和一些參數量遠小于模型的soft prompt,其效果就能媲美甚至超過模型微調的。

3.2.2 少量樣本學習的結果與分析

本節比較了6種方法在2個少樣本數據集上的表現,結果如表4所示。

Table 2 Experimental results based on full sample learning表2 基于全量樣本學習的實驗結果 %

Table 3 Comparison of predicted results of sentimentpolarity before and after using prompt tuning表3 prompt tuning前后情感極性預測結果對比

通過分析表4可以得出以下結論:

(1)無論是在32個還是160個樣本的數據集上,MSAPT都獲得了最佳的效果。因為SA-SPoT和MSAPT都經過了大量情感分析數據的訓練,受益于遷移學習,在少樣本學習中表現很好。值得注意的是,MSAPT的效果依然比SA-SPoT的好。

(2)MSAPT在少樣本學習的多領域文本情感分析任務中依然表現優秀,效果遠好于模型微調的。

4 消融實驗

本節設置了4個消融實驗,分別對適應特定領域的prompt tuning、hard prompt、soft prompt的長度和中間訓練數據集的大小進行消融,探索這4個因素在MSAPT中對情感分析效果的影響。除了soft prompt長度的消融實驗外,其他消融實驗均設置soft prompt的長度p=50。除了4.1節中的實驗,本節其它實驗均在中間訓練數據集上訓練過,所以本節把從中間訓練數據集分割出來的2個數據集加入到4.2節～4.4節測試評估使用的數據集中,這2個數據集涉及的領域分別是電影和大眾點評。

4.1 prompt tuning的消融實驗

本節設置了3組實驗。第1組是“通才模型”(在中間訓練數據集上訓練出的適用于各領域的情感分析統一模型)直接應用于下游各領域情感分析任務,而不進行適應特定領域文本情感特征的prompt tuning。第2組是先把下游的6個不同領域情感分析數據集的訓練集和交叉驗證集融合為一個大的下游情感分析數據集,用原T5模型在此數據集上進行模型全參數微調,并選出交叉驗證集上效果最好的,分別在6個數據集的測試集上進行測試。第3組實驗將第2組實驗的原T5模型換為“通才模型”,其它設置均與第2組的相同。因為MSAPT的優點是利用一個統一模型進行各領域情感分析而無需保存多個大模型,所以設置第2組和第3組實驗的目的是:驗證在只有一個統一模型的情況下,prompt tuning的效果(MSAPT的)好于模型直接在各領域集合的數據集上訓練(第2組和第3組的)。

各組實驗結果如圖6a所示,分數如表5所示,各個數據集上的詳細結果見表6。通過分析可知,直接把“通才模型”應用于下游各領域的效果是最差的,但這也展現了“通才模型”強大的零樣本學習能力。將原T5模型在6個數據集組成的大數據集上訓練,其效果稍好于T5模型在各個數據集上訓練的效果,但若要應用到新領域的數據集,則需重新訓練模型,可擴展性差。雖然第3組實驗受益于遷移學習[28,29],效果好于第2組的,但仍然不及prompt tuning的效果,同樣具有可擴展性差的缺點?？梢?MSAPT不僅能更方便地應用到不同領域的情感分析任務中(凍結模型參數),而且能使模型更好地適應下游各領域的情感文本特征。

4.2 hard prompt的消融實驗

為了證明在文本中添加hard prompt能提高方法性能,本節設置了一組不添加hard prompt的實驗,并在全量數據集和少樣本數據集上進行了測試。實驗結果如圖6b所示,分數如表7所示,各個數據集上的詳細結果見表8。通過分析可知,在文本中添加hard prompt能顯著提升方法的效果,因為其能指示情感文本的所屬領域和待選的情感標簽,有利于調動模型這一部分的知識。

Table 4 Experimental results based on few-shot learning表4 基于少量樣本學習的實驗結果 %

Table 5 Score of each group of prompt tuning ablation experiments表5 prompt tuning的消融實驗各組分數表

Figure 6 Results of ablation experiment on each dataset圖6 消融實驗在各組數據集上的結果

Table 6 Results of ablation experiments of prompt tuning

Table 7 Score of hard prompt ablation experiments表7 hard prompt消融實驗分數

Table 8 Results of hard prompt ablation experiments表8 hard prompt消融實驗結果 %

4.3 soft prompt長度的消融實驗

本節設置了3組實驗,分別把soft prompt的長度p設置為5,10和20,其它實驗設置保持不變,目的是探索soft prompt長度對方法效果的影響。實驗結果如圖6c所示,分數如表9所示,各個數據集上的詳細結果見表10。通過分析可知,soft prompt的長度對MSAPT的效果存在比較顯著的影響,當soft prompt的長度從20增加到50的時候,方法效果仍有比較明顯的提升。相比Lester等[17]的方法,MSAPT在soft prompt長度超過20時,不是只會產生邊際收益,而是仍然存在較大的性能提升,原因是訓練步數固定且較少,同時減少訓練參數會導致對下游領域的情感特征欠擬合,所以MSAPT中增加soft prompt的長度非常有必要。

Table 9 Scores of hard prompt ablation experiments表9 soft prompt長度消融實驗分數

Table 10 Results of ablation experiments of the length soft prompt 表10 soft prompt長度的消融實驗結果 %

通過分析還發現,當soft prompt的長度從5增加到10和從10增加到20的時候,方法效果提升較大,而從20增加到50的時候,提升幅度減小,這說明在MSAPT中soft prompt增加到一定長度以后再增加長度,也會像Lester等[17]的方法一樣,只會產生邊際收益。

4.4 中間訓練數據集大小的消融實驗

為了探究中間訓練數據集大小對MSAPT性能的影響,本節設置了2組實驗,分別把中間訓練數據集的大小調整為原來的1/2和1/10,其它實驗條件保持一致,在全量數據集和少樣本數據集上進行了測試。實驗結果如圖6d所示,分數如表11所示,各個數據集上的詳細結果見表12。

通過分析可知,增加中間訓練數據集的大小,能提升MSAPT的性能,其原因是更大的中間訓練數據集能使模型學習到更多情感分析的知識,能更好地泛化到各領域情感分析任務中。

Table 11 Scores of ablation experiments of the size of intermediate training dataset表11 中間訓練數據集大小的消融實驗各組分數

Table 12 Results of ablation experiments of the size of intermediate training dataset表12 中間訓練數據集大小的消融實驗結果 %

5 結束語

本文提出了一種基于prompt tuning的多領域情感分析方法MSAPT,并在多個數據集上驗證了該方法的效果。在全量數據學習和少樣本學習的多領域中文文本情感分析任務中,保持模型凍結,僅在下游各領域情感分析任務中學習各領域適應的soft prompt,保存一個模型和一些參數量遠遠小于模型的prompt,即可進行高效的多領域情感分析,效果媲美甚至超過模型微調的。相比于把一個模型在多個領域的數據集上訓練,MSAPT不僅效果更好,而且具有易擴展的優點。在文本中添加hard prompt,指示情感文本的所屬領域和待選的情感標簽,有利于調動模型這一部分的知識,提升方法的效果。其次,soft prompt的長度對MSAPT的情感分析效果存在比較顯著的影響,不過仍然會在到達特定長度后,僅產生邊際效益。通過增加中間訓練數據集的大小,能使模型學習到更多情感分析的知識,更好地泛化到各領域情感分析任務中,提升MSAPT的性能。本文僅在句子級情感分類任務上進行了實驗。在接下來的工作中,將嘗試將模型應用到方面級的情感任務中,還將嘗試探索在soft prompt長度較短時,通過其他方法使其效果逼近soft prompt長度較長時的效果。