?

基于多策略強化學習的低資源跨語言摘要方法研究

2024-02-29 04:39馮雄波黃于欣賴華高玉夢
計算機工程 2024年2期
關鍵詞:越南語源語言目標語言

馮雄波,黃于欣,賴華,高玉夢

(1.昆明理工大學信息工程與自動化學院,云南 昆明 650504;2.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650504)

0 引言

數據是直接決定能否訓練出高性能神經網絡模型的關鍵因素,使用大規模、高質量的跨語言摘要數據訓練有利于模型生成更高質量的摘要,但是在跨語言摘要中數據稀缺是1 個公認的問題[1]。目前在跨語言摘要生成研究工作中,大多使用單語翻譯構造跨語言摘要數據。此類方法簡單便捷,但是在如越南語這種資源匱乏的語言上,機器翻譯的表現并不理想。因此,使用翻譯方法構建漢越跨語言摘要數據會產生較大的噪聲。近年來的研究結果表明[2-3],相比傳統的統計模型,神經網絡模型對噪聲數據十分敏感。ZHU 等[2]在漢英跨語言摘要上提出采用數據篩選的方法提升機器翻譯構造跨語言摘要數據的質量。相比漢英,基于機器翻譯構造的漢越跨語言摘要數據噪聲更多,對數據過濾時既要保證數據的質量又要保證數據的數量,即使過濾掉一部分錯誤嚴重的噪聲數據后,留下的數據集仍無法避免噪聲。

本文針對漢語-越南語以及越南語-漢語跨語言摘要數據,提出基于多策略強化學習的低資源跨語言摘要方法。使 用ROUGE[4]、BERTScore[5]與Mgfscore[6]對單語翻譯得到的偽漢語-越南語以及越南語-漢語跨語言摘要數據進行噪聲過濾,提高數據集質量。通過對不同情況下的數據集進行噪聲分析,發現選詞不當和實詞缺失是常見的錯誤類型,分別占據最大的錯誤比例。針對選詞不當,本文在解碼器生成目標摘要詞語時,通過與源語言摘要詞相關性匹配設計強化學習獎勵,避免翻譯不準確的詞帶來噪聲產生影響。針對實詞缺失,本文在解碼器生成目標摘要詞語時,以源語言摘要中的詞語作為基準,根據缺失詞語的重要程度設計缺失懲罰。受文獻[7]的啟發,本文基于強化學習思想,引入真實的源語言摘要來指導目標摘要的生成,采用不同策略從生成詞相關性與缺失度組合設計強化學習獎勵,同時,與傳統的交叉熵損失函數相結合,構建目標函數來優化模型。

1 相關工作

1.1 跨語言摘要

跨語言摘要任務是輸入漢語(越南語)文檔自動生成越南語(漢語)簡短摘要的任務。傳統的跨語言摘要任務通常采用先翻譯再摘要[8]或者先摘要再翻譯[9-10]的技術框架,但通常會受翻譯模型和摘要模型錯誤傳遞的影響,在低資源語言上效果還不理想?;谏窠浘W絡的跨語言摘要任務通常將其看作1 個類似機器翻譯任務,不同之處在于機器翻譯輸入和輸出的信息量不變,而跨語言摘要需要對信息進行壓縮和翻譯。針對低資源跨語言摘要任務通常有2 類方法:1)基于零樣本學習的摘要方法,針對源語言文檔到目標語言摘要數據集缺乏問題,AYANA 等[11]提出使用預先訓練好的機器翻譯模型與標題生成模型作為教師網絡來指導跨語言標題生成模型,同時學習翻譯能力和摘要能力,實現零樣本條件下跨語言摘要的生成,DUAN 等[1]在沿用單語摘要模型作為教師網絡來指導跨語言摘要模型參數學習的基礎上,在學生網絡中增加對教師網絡注意力權重的學習;2)基于機器翻譯和摘要的多任務聯合學習方法,利用機器翻譯模型與單語摘要等模型聯合訓練來彌補訓練數據稀缺問題。ZHU 等[12]基于Transformer 文本生成框架,提出端到端跨語言摘要模型,跨語言摘要與單語摘要、跨語言摘要與機器翻譯任務進行聯合訓練,在編碼端進行參數共享,在訓練過程中2 個任務進行交替訓練學習跨語言摘要生成能力。此外,研究人員還引入RTT(Round-Trip Translation strategy)的方法,基于機器翻譯模型對單語數據集進行翻譯,并使用ROUGE 進行打分過濾低質量翻譯數據,構造中英語言對上的跨語言摘要數據集。CAO 等[13]為實現更好的跨語言對齊,利用生成對抗網絡對齊源語言與目標語言2 個單語摘要模型中的上下文表征,在進行單語摘要訓練的同時達到雙語對齊的目的。BAI 等[14]認為跨語言摘要與機器翻譯聯合學習的方法雖然可以通過共享編碼器參數來增強跨語言摘要性能,但是2 個任務的解碼器相互獨立,無法很好地建立跨語言摘要與機器翻譯任務的對齊。因此,本文提出一種解碼器改進方法,同時解碼源語言和目標語言摘要,提升解碼器對2 種語言的解碼能力,相比聯合學習使用2 個獨立解碼器取得更好的結果。以上工作大多基于機器翻譯對單語數據集進行翻譯構造偽平行的跨語言摘要數據集,但都是中、英等大語種,機器翻譯性能較好,翻譯錯誤較少,但是對于低資源翻譯效果有限的語言研究較少,對于機器翻譯可能帶來的噪聲問題缺乏有效的分析和處理手段。

1.2 強化學習

強化學習在機器翻譯、文本摘要等文本生成任務上的應用較多,主要是通過全局解碼優化來緩解曝光偏差問題[15-16]。在摘要 任務上,PAULUS 等[17]提出將真實摘要與生成摘要間的ROUGE 值作為強化學習獎勵對模型進行獎勵或懲罰,使用線性差值方式將該獎勵與交叉熵相結合作為訓練目標函數,在一定程度上緩解曝光偏差問題。B?HM 等[18]認為ROUGE 在詞匯多樣性表述的摘要上與人工評價相關性較差,基于ROUGE 值作為強化學習獎勵的可靠性較低,因此提出采用源文本和生成摘要作為輸入,從人工評分的摘要中學習獎勵函數,取得相比ROUGE 值作為獎勵更優的結果。YOON 等[19]基于語言模型計算生成摘要與真實摘要間的語義相似度作為強化學習獎勵,改善了詞粒度匹配ROUGE 的獎勵獲取方式。針對跨語言摘要任務,DOU 等[7]提出用源語言摘要和生成目標語言摘要間的相似度作為強化學習獎勵來約束模型,以生成更好的摘要。受該工作啟發,本文認為通過更好地建模源語言摘要和生成摘要之間的相關性,能夠充分利用純凈沒有噪聲的源語言摘要來緩解翻譯帶來的噪聲問題。

2 數據分析與研究

2.1 數據集構建

本文分別構建漢語-越南語跨語言摘要以及越南語-漢語跨語言摘要2 個數據集。在漢語-越南語跨語言摘要數據集中,采用LCSTS[20]前20 萬個數據進行回譯得到漢語-越南語跨語言摘要數據集(Zh-Visum)。越南語-漢語跨語言摘要數據集是通過從越南網(Vietnam+)、越南新聞社、越南快訊、越南通訊社等多個新聞網站收集越南語單語數據集,并進行清洗和翻譯得到,最終獲得約11.579 8 萬條越南語-漢語跨語言摘要數據集(Vi-Zhsum),其中,采用谷歌翻譯。

盡管通過翻譯構建跨語言摘要數據集是一種簡便快捷的方法,但是數據集的質量極大程度受機器翻譯性能的約束。為此,基于回譯后的數據,本文采用ROUGE[4]、BERTScore[5]與Mgfscore[6]對回譯數據進行數據過濾,在ROUGE 篩選中,計算ROUGE-1、ROUGE-2、ROUGE-L 的平均值作為最終得分,而在BERTScore 與Mgfscore 評估中則采用F1 值得分。以漢語-越南語跨語言摘要數據篩選為例,具體操作流程如圖1 所示。

在Zh-Visum 數據集中,過濾掉得分最低50%的數據,留下10 萬條漢語-越南語跨語言摘要數據。而Vi-Zhsum 的回譯質量相對較高,過濾掉得分最低30%的數據,剩下8.1 萬條越南語-漢語跨語言摘要數據。數據集過濾前后回譯得分詳細信息如表1 所示,RG 表示使用ROUGE 指標過濾的數據集。

表1 各數據集回譯得分信息 Table 1 Information of back-translation score on each datasets

2.2 數據分析

從表1 可以看出,對回譯數據的過濾有效提升漢語-越南語以及越南語-漢語2 個跨語言摘要數據集的質量,但是進一步對漢越跨語言摘要進行分析發現,數據中完全正確的句子占比較小,而在訓練模型中需要高質量、大規模的數據。因此,即使對數據進行過濾也只能去除那些低質量數據(錯誤嚴重),無法避免數據集中的弱噪聲(錯誤不嚴重)。本文進一步對機器翻譯構造的跨語言數據進行噪聲分析,根據文獻[21]中劃分的類型進行統計,具體噪聲類型如表2 所示。隨著機器翻譯系統性能的提升以及對本文噪聲數據類型的分析,發現譯文與原文意思相反與數量詞/時間詞問題錯誤占比很小。因此,在該數據的噪聲類型結果統計中剔除了譯文與原文意思相反和數量詞/時間詞問題錯誤噪聲。

表2 CWMT2013 劃分常見類型錯誤 Table 2 Common type error of CWMT2013 division

本文在漢語-越南語與越南語-漢語跨語言摘要數據集上各抽取100 句標準源語言摘要與目標語言摘要進行人工標記,對過濾前后的數據進行噪聲類型統計,得到的結果如表3 所示。其中,Filter-No 表示未過濾,Filter-RG、Filter-Bert 和Filter-Msf 分別代表使用ROUGE、BERTScore 和Mgfscore 進行數 據過濾。Zh-Visum 過濾50%數據,Vi-Zhsum 過濾70%數據。

表3 漢語-越南語跨語言摘要數據集噪聲類型占比 Table 3 The proportion of noise types in the Chinese-Vietnamese cross-lingual summarization datasets %

從表3 可以看出:

1)在構造得到的跨語言摘要數據集中沒有錯誤的句子占比較小,雖然通過評價指標過濾數據能提高數據的正確率,但是無法避免噪聲數據,這也是在提高數據集質量后,仍須進一步進行噪聲下跨語言摘要生成方法研究的原因。

2)針對未過濾時正確句子的占比,在Vi-Zhsum中明顯高于Zh-Visum,其原因為Vi-Zhsum 是基于越南語新聞網站爬取的單語數據翻譯得到的。雖然越南語新聞摘要數據長度大于LCSTS 摘要數據,但是新聞數據大多表達句式規整且通俗易懂,機器翻譯在此類數據集上翻譯表現更好。

3)Zh-Visum 數據集的噪聲類型占比最大的是選詞不當與實詞缺失。使用ROUGE 與BERTScore 數據篩選后,選詞不當的占比下降較為明顯。由此可見,在該數據集中部分屬于選詞不當類型的句子錯誤嚴重,這是因為LCSTS 是在新浪微博上獲取以標題作為摘要的短文本摘要數據集,此摘要中大多中文詞語表達短小精悍,而機器翻譯往往對此類文本理解容易出現偏差,翻譯時常忽略部分實詞,所以在Zh-Visum 中一半以上的噪聲均來自選詞不當與實詞缺失。相比Zh-Visum 數據集,在Vi-Zhsum 數據集中詞序不對的錯誤占比較高。Vi-Zhsum 是由較長的文本翻譯而來,而機器翻譯對于長文詞語間邏輯順序理解能力較弱,翻譯時容易出現語序錯誤。

4)此外,使用評價指標篩選后命名實體識別錯誤類型占比增大。一方面,BERTScore 是一種基于子詞的評價方法,基于詞級的數據篩選方法對命名實體錯誤不敏感;另一方面,在漢語-越南語與越南語-漢語跨語言摘要數據集中,命名實體大部分為人名、地名,此類錯誤大部分按諧音翻譯出現偏差。相比其他噪聲類型,該類型給句子帶來的噪聲較弱。

根據上述分析,在漢語-越南語短文本和越南語-漢語長文本的跨語言摘要數據集中,噪聲類型占比最大的都是選詞不當與實詞缺失。因此,對數據進行篩選以提高通過翻譯生成的偽數據質量,并繼續弱化噪聲是非常必要的。

3 多策略強化學習的漢越跨語言摘要方法

多策略強化學習的漢語-越南語跨語言摘要模型結構如圖2 所示。

圖2 多策略強化學習的漢語-越南語跨語言摘要模型Fig.2 A cross-lingual summarization model for multi-strategy reinforcement learning of Chinese-Vietnamese

針對漢語-越南語跨語言摘要中監督信號的噪聲問題,本文提出一種多策略強化學習方法來改善漢語-越南語跨語言摘要的生成。在Transformer[22]模型的基礎上,該方法通過源語言摘要和目標語言生成摘要之間的詞相關性和詞缺失度設置獎勵來結合強化學習函數和最大似然估計函數作為訓練目標,以提高生成摘要的質量并減少噪聲對偽目標語言摘要的影響。

3.1 交叉熵損失

在基于Transformer 架構的傳統跨語言摘要模型中,給定訓練集,A代表源語言,B代表目標語言。對每個文檔XA進行高維向量映射得到輸入文檔序列XA={x1,x2,…,xN},并輸入編碼器進行編碼得到文檔序列的向量表征H={h1,h2,…,hN}。最后,解碼器依據給定的H進行解碼,解碼器依次生成摘要序列YB={y1,y2,…,yM}。在該過程中使用生成摘要YB與標準摘要間的最大似然估計作為優化目標。交叉熵損失函數定義如下:

其中:M為YB摘要的長度。

3.2 強化學習策略

在詞相關性方面,使用源語言摘要序列YA=直接評估目標語言生成摘要詞匯質量預先使 用fast-align[23]工具對 漢語-越南語雙語平行語料對齊,得到每個源語言詞匯與目標語言詞匯間的相關度表示,記為。如式(2)所示,使用t時刻生成的目標語言摘要詞匯,與中的每個源語言摘要詞匯YA匹配,記為,即:YB與每 個源語言摘要詞匯的相關度值,具體操作如圖2 中間部分。

其中:sim 為相關性計算,本文使用fast-align 工具對漢語-越南語進行雙語對齊,并計算2 種語言之間詞匯的相關性;sum 表示求和。

在詞缺失度方面,計算源語言摘要YA=中每個詞匯重要程度,記為,也可使用該詞在上下文中的重要程度來匹配生成摘要詞匯的重要程度或詞缺失程度,如式(3)所示:其中:使用詞頻-逆文本頻率指數(TF-IDF)計算詞匯重要程度。在詞相關性中,如t時刻生成的目標語言摘要詞匯能匹配到對應源語言摘要序列YA中的詞匯時,則將源語言摘要中所匹配到詞語的重要程度記為 生成摘要的的重要程度。當t時刻生成摘要匹配不到YA中詞匯時,則認為生成摘要中該詞缺失,此時將YA中未匹配到詞的重要程度記為生成摘要中的詞缺失度,從而避 免偽目標語言 中重要詞缺失對模型學習造成的影響。

在跨語言摘要模型中,將跨語言摘要模型看作1 個智能體(Agent),每個解碼t時刻得到的上下文表征向量以及前t-1 時刻生成的摘要可以看作智能體中環境(Environment),從候選詞表中選取哪個詞作為解碼t時刻生成的摘要詞,即為智能體的1 個動作(Action),而選擇哪個詞是依據策略(Policy)產生的,即概率分布函數。當智能體生成摘要時,模型就會得到1 個獎勵(Reward),記為R(YB,YA)。本文采用式(4)計算期望獎勵。其中,使用生成摘要中每個詞匯與目標語言中對應詞匯的相關度和缺失度來評估當前生成摘要的質量,從而避免偽目標語言摘要中噪聲產生的錯誤指導。

在強化學習的訓練過程中,其目標是最大化期望獎勵,在強化學習損失中定義如下:

其中:Y代表所有可能生成的候選摘要,這是1 個指數級別的搜索空間。在實際操作中,常從概率分布函數P(YB|XA,θ)中采樣1 個序列YS來優化上述期望獎勵,但由此也帶來期望獎勵而存在較高的方差。此時,引入1 個基線獎勵來減小梯度方差,采取與文獻[24-25]相同的方法來解決該問題。在強化學習的目標訓練中,使用自我批判策略梯度訓練算法,在訓練時采用2 個策略生成摘要:依據條件概率函數P(YB|XA,θ)從中隨機采樣得到YS;貪婪解碼得到YG。由此,1 個摘要句的強化學習訓練目標定義如下:

最后,本文采用線性插值的方式混合交叉熵損失函數和強化學習訓練目標函數,得到跨語言摘要模型的混合訓練目標函數,如式(7)所示:

其中:γ表示交叉熵損失函數與強化學習訓練目標函數在混合目標函數中的比例因子。

4 實驗與結果分析

4.1 數據集

為驗證該模型的有效性,本文采用第2.1 節方法構造的20 萬個Zh-Visum 與11.579 8 萬個Vi-Zhsum數據集進行基礎實驗。在數據篩選后,得到1 個包括10 萬個樣本的漢語-越南語跨語言摘要數據集(Zh-Visum)和1 個8.1 萬個樣本的越南語-漢語跨語言摘要數據集?;诖?,通過對數據集進行劃分,詳細數據信息如表4 所示。采用不同的過濾方式對漢語-越南語和越南語-漢語跨語言摘要數據集進行處理,其中,Bert 表示使用BERTScore 過濾漢語-越南語跨語言摘要數據集,Mgf 表示使用Mgfscore 過濾越南語-漢語跨語言摘要數據集,RG 表示使用ROUGE指標過濾的數據集。在本文中,為了公平比較,同一語種下的測試集保持不變。

表4 實驗數據詳細信息 Table 4 Details information of experimental datas

其中,Zh-Visum(Filter)數據集為基于BERTScore指標過濾的數據;Vi-Zhsum(Filter)數據集為使用基于Mgfscore 指標過濾的數據。

4.2 評價標準

本文采用2 個評價指標來測評跨語言摘要系統生成摘要的質量。與大多數摘要工作相同,一種是基于統計方法ROUGE[4],計算標準摘要與生成摘要間的N-Gram 共現程度,計算式如式(8)所示:

其中:G為生成摘要;Ref 為標準參考摘要;N-Gram為N元詞組;Countmatch(N-Gram)為生成摘要與標準摘要中的N元詞組重疊個數;Count(N-Gram)為標準摘要中N元詞組個數;N常設置為1,2,L(最長公共子序 列)。本文使 用ROUGE-1、ROUGE-2、ROUGE-L 評價生成摘要的質量,分別簡寫為RG-1、RG-2、RG-L。

文獻[5]提出基于深度語義匹配的評價方法BERTScore,使用預訓練語言模型計算生成句與參考句間的語義相似度。在中文中,預訓練模型使用“bert-base-chinese”計算得分;在越南語中,預訓練模型使用“bert-base-multilingual-cased”,使 用BERTScore 計算時,生成摘要中的“<unk>”替換為BERT 詞表中的“[UNK]”。

4.3 實驗設置

本文采用PyTorch 框架實現模型代碼。在模型結構上,使用多層Transformer 編碼器和解碼器結構,每層都采用8 個多頭注意力機制,隱層向量維度設置為512,前饋神經網絡設置為1 024。采用Adam 作為模型優化器,參數β1=0.9,β2=0.98,∈=10-9。使用teach-forcing 策略,平滑因子 設置為0.1,Dropout 設置為0.1。當模型解碼時,采用束搜索策略(Beam search),beam size 設置為5。與文獻[26-27]方法相同,對于帶強化學習策略的模型,本文均使用未過濾的Zh-Visum 與Vi-Zhsum 數據進行參數初始化,然后使用過濾后的數據繼續訓練模型。

4.4 基準模型

為驗證多策略強化學習的漢語-越南語跨語言摘要方法的有效性,本文在Zh-Visum(Filter)與Vi-Zhsum(Filter)數據集上對以下基線模型訓練并進行比較。

Sum-Tra 是一種傳統的跨語言摘要方法,對輸入的源語言文本進行自動摘要生成,對生成的摘要再進行翻譯得到目標語言摘要。

Tra-Sum 與Sum-Tra 類似,是一種兩步式的跨語言摘要方法,首先進行源語言文檔到目標語言文檔的翻譯,在將目標語言文檔輸入到自動摘要模型,得到目標語言摘要。在Sum-Tra 與Tra-Sum 中,本文采用谷歌作為機器翻譯模型,摘要模型采用無監督的抽取式方法LexRank。

NCLS[2]是一種基于Transformer 框架的 端到端神經網絡的跨語言摘要模型。

LR-ROUGE 與本文提出的方法類似,但使用ROUGE-L 得分計算獎勵期望。

LR-MC 是本文所提的跨語言摘要模型,將交叉熵與強化學習相結合作為優化目標,其中,期望獎勵根據源語言摘要與生成目標語言摘要間的詞缺失度與詞相關性計算得到。

4.5 結果分析

本文從不同角度設計實驗,驗證漢語-越南語跨語言摘要基于多策略強化學習方法在噪聲數據下的有效性。首先,對比本文提出不同策略的強化學習方法與基線模型的效果;然后,探究基于強化學習設計的詞相關性獎勵與詞缺失度懲罰對噪聲下模型性能的提升效果,各部分對模型的影響;其次,研究交叉熵損失函數和強化學習訓練目標函數之間的比例因子對模型性能的影響,分別使用噪聲過濾前后的數據訓練模型,探究神經網絡模型在不同數據下的表現;最后,針對不同模型生成的摘要進行實例分析。

4.5.1 與基線模型對比結果

本節所提的模型與基線模型的對比結果如表5所示,加粗表示最優數據,其中,γ為交叉熵損失與獎勵期望間比例因子,當γ=1 時,即不加入強化學習獎勵。

表5 不同模型的實驗結果對比 Table 5 Experimental results comparison among different models

從表5 可以看出,本文提出的多策略強化學習跨語言摘要方法與基線模型相比在漢語-越南語和越南語-漢語跨語言摘要數據集上的性能均取得了提升,其中,與端到端的跨語言摘要模型NCLS 相比,LR-MC(γ=0.6)在Zh-Visum(Filter)跨語言摘要數據集上RG-1、RG-2、RG-L 分別提升0.71、0.67、0.64;在Vi-Zhsum(Filter)跨語言摘要數據集上RG-1、RG-2、RG-L 分別提升0.84、0.44、0.70,說明本文模型與傳統端到端模型相比能夠有效弱化漢語-越南語跨語言摘要數據集中噪聲的干擾,提升跨語言摘要模型性能。與利用ROUGE-L 作為強化獎勵的LRROUGE 方法相比,本文模型在RG-1、RG-2、RG-L 和BERTScore 上均取得了提升,說明利用源語言摘要與生成摘要的單詞相關性和單詞缺失度來設計強化學習獎勵能夠有效減弱漢語-越南語和越南語-漢語跨語言摘要數據中噪聲的干擾,從而提升跨語言摘要模型的性能。在真實的數據上對使用噪聲數據訓練后的模型進行繼續訓練,模型性能得到進一步提升,相較而言RG-2 的提升較大,這是由于真實數據中偽摘要文本質量更高、句子連貫性更好,因此生成的摘要較之前得到了進一步提升。相比直接使用交叉熵損失函數優化模型時,加入本文所提的多策略獎勵期望能有效弱化噪聲,其中,在Zh-Visum 數據集 下RG-1、RG-2、RG-L 和BERTScore 分別提 高0.59、0.44、0.73 和0.20;在Vi-Zhsum(Filter)數據集下RG-1、RG-2、RG-L 和BERTScore 分別提 高0.63、0.18、0.36 和0.21。使用真實的源語言摘要計算獎勵期望,相比與RG-L 計算獎勵期望與交叉熵損失函數混合來優化模型性能夠得到進一步提升,說明本文提出的多策略強化學習方法無論是在漢語-越南語跨語言摘要數據集或是越南語-漢語跨語言摘要數據集下都有較好的表現,同時在噪聲數據下的短文本和長文本摘要任務中也表現出較優的性能,在一定程度上弱化偽目標語言摘要中噪聲帶來的影響。

4.5.2 消融實驗

為驗證本文提出的基于詞相關性與詞缺失度的強化學習獎勵對模型性能的影響,采用各單一模塊進行試驗,結果如表6 所示。其中,LRmis 為只計算生成摘要缺失度作為期望獎勵,LRcor 為只計算生成摘要相關性作為期望獎勵,γ均為0.6。

表6 消融實驗結果 Table 6 Results of ablation experiments

從表6 可以看出,只計算源語言真實與目標語言生成摘要間的缺失度計算獎勵期望時(LRmis),性能下降較為明顯。僅使用相關性計算獎勵時(LRcor),性能下降較小。本文認為這是由2 個方面原因造成的:1)只使用缺失度時,模型得到的信息較為單一;2)缺失度只針對實詞缺失這一噪聲類型設計的,從第2.2 節中噪聲數據的分析中可以得知,實詞缺失占比小于選詞不當。

4.5.3γ參數實驗

γ參數實驗結果如表7 所示。從表7 可以看出,當獎勵期望與交叉熵損失函數相結合的參數γ為0.6時,模型性能最好。當γ值較大(γ=1.0)時,即不加入強化學習獎勵時,模型在所有指標上的性能較低,表明強化學習獎勵對模型的性能有積極的影響。隨著γ值的減少,即獎勵期望的比例增加,模型性能并沒有發揮到最優。結合實驗結果對解碼的測試集數據觀察,發現當獎勵期望的比例增加時,解碼得到的未登錄詞占比增大,這是造成生成摘要質量下降的主要原因。本文認為使用強化學習獎勵作為優化目標函數,基于源語言的詞級獎勵中包含更多詞級信息,并不包含目標語言詞語間的邏輯關系與語序特征。相比與短文本漢語-越南語跨語言摘要在長文本越南語-漢語跨語言摘要中,長文中的詞序以及詞語間的邏輯屬性關系占比更大,這也是在越南語-漢語跨語言摘要中增加獎勵期望的比例時模型性能下降更多的原因。因此,即使本文設計的基于源語言詞級獎勵對噪聲有較優的弱化作用,但不建議單獨使用該獎勵期望來訓練模型。將獎勵期望與交叉熵損失相結合,在弱化噪聲的同時也可以更好地學習到目標語言詞語間的語序信息,進一步提升漢語-越南語和越南語-漢語跨語言摘要模型性能。

表7 γ 參數實驗結果 Table 7 Experimental results of γ parameter

4.5.4 探究噪聲數據對模型性能的影響

為充分探究噪聲數據對神經網絡模型的影響,在本實驗中,使用基礎的Transformer 框架進行噪聲數據對比實驗,結果如表8所示。All表示使用20萬個未過濾的漢語-越南語跨語言摘要數據和11.579 8萬個未過濾的越南語-漢語跨語言摘要數據進行訓練;Filter-Bert/Mgf 表示訓練數據采用過濾后的數據進行訓練,其中漢語-越南語跨語言摘要數據集使用BERTScore 方式進行過濾,越南語-漢語跨語言摘要數據集使用Mgfscore 方式進行過濾;Random 表示從未過濾數據集中隨機抽取相同數量的數據進行訓練。

表8 在不同數據下的實驗結果 Table 8 Experimental results under different datas

從表8 可以看出,神經網絡模型對噪聲數據較為敏感。為訓練出更好的模型,需要過濾掉噪聲數據。在漢語-越南語跨語言摘要數據集中,噪聲數據的比例較高,經過篩選后使用前10 萬個高質量數據進行訓練比使用20 萬個未過濾數據訓練的模型更有效地生成可讀性高的摘要。相對而言,越南語-漢語跨語言摘要數據的總量相對較小,但質量相對較高,過濾掉前30%的數據訓練模型在RG-2 和RG-L指標上略遜于使用全部數據訓練的模型。然而,不管在哪個數據集下,噪聲都會對模型產生負面的影響。因此,必須從噪聲數據出發對漢越跨語言摘要研究進行探索。

4.5.5 實例分析

表9 所示為不同摘要模型生成的摘要示例。從表9 可以看出,以“2 ca cách ly ngay sau khiAn Giang.76 ca ghitrongTP.Trong71 capháttrong khu cách lykhuphong.Nam có11.289 ca ghitrongvà 1.689 ca.catínhngày 27/4nay:9.719 ca,trongcó 2.280…(譯文:進入安江后立即隔離了2 病例。胡志明市國內記錄76 例,其中71 例已隔離或封鎖。越南國內累計11 289 例,境外輸入1 689 例。4 月27 日至今新增病例9 719 例,其中2 280 例已治愈……)”以越南語-漢語摘要任務為例,相較于其他摘要模型,本文模型生成的摘要質量更高,語義更連貫,且提供的信息更加完整,在內容上更加接近參考摘要。在未使用過濾數據訓練的基礎模型(Transformer-all),生成的摘要信息較少。經過使用高質量數據繼續訓練模型后,各個模型都試圖生成更加豐富的信息,然而,只有本文所提的多策略強化學習漢越跨語言摘要模型才能生成關鍵信息:“迄今為止越南已記錄#名患者”。

表9 不同漢語-越南語跨語言摘要模型生成的摘要示例 Table 9 Examples of summaries generated by different Chinese-Vietnamese cross-lingual summarization models

5 結束語

針對漢語-越南語跨語言摘要中的噪聲、偽目標摘要中選詞不當與實詞缺失2 種噪聲類型,本文提出一種多策略的跨語言摘要方法用于漢語-越南語跨語言摘要?;趶娀瘜W習技術,使用真實源語言摘要和偽目標語言摘要作為基準,通過計算源語言摘要與生成摘要的相關性和缺失度來計算期望獎勵,弱化噪聲干擾;保留傳統的偽目標語言與生成摘要間的交叉熵損失,以學習目標語言間的詞序關系;通過將強化學習損失函數和交叉熵損失函數相結合,優化模型訓練目標,改善直接使用偽目標語言摘要訓練模型時噪聲數據對生成摘要質量的負面影響,從而提高生成摘要的質量。實驗結果表明,引入真實的源語言摘要來設計多策略強化學習方法,能夠有效提升跨語言摘要模型在噪聲數據下的性能。后續將該方法擴展到其他數據集和任務中,例如針對機器翻譯數據噪聲問題,利用本文方法來降低噪聲數據對機器翻譯模型性能的影響。

猜你喜歡
越南語源語言目標語言
納蘇彝語越南語親屬稱謂特征及其文化內涵異同研究
林巍《知識與智慧》英譯分析
淺析日語口譯譯員素質
教材插圖在英語課堂閱讀教學中的運用及實例探討
漢語經歷體標記“過”及其在越南語中的對應形式
跨文化視角下對具有修辭手法諺語英譯漢的研究
現代漢語與越南語存在句否定形式與情態特征的比較研究
以口譯實例談雙語知識的必要性
概念任務下中英雙語者非目標語言的詞匯通達
多媒體英語學習法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合