?

基于融合策略的機器翻譯自動評價方法

2018-10-19 03:13馬青松張金超
中文信息學報 2018年9期
關鍵詞:評測譯文機器

馬青松,張金超,劉 群

(1. 中國科學院 計算技術研究所 智能信息處理重點實驗室,北京 100190; 2. 中國科學院大學,北京 100049; 3. 騰訊科技(北京)有限公司,北京 100080; 4. 都柏林城市大學,都柏林 愛爾蘭)

0 引言

機器翻譯自動評價旨在為機器翻譯系統提供快速、可靠的質量評估。近些年來,隨著機器翻譯技術的發展,自動評價也受到越來越廣泛的關注。機器翻譯自動評價方法通常通過計算機器譯文和參考譯文的相似度來衡量機器譯文質量,不同的自動評價方法從不同的角度計算二者之間的相似度。比如,基于詞匯的自動評價方法中,BLEU[1]和NIST[2]統計機器譯文和參考譯文的共現N元組,Meteor[3]和GTM[4]捕捉機器譯文和參考譯文之間的詞對齊信息,WER[5]、PER[6]和TER[7]計算從機器譯文到參考譯文的編輯距離?;诰浞ǖ淖詣釉u價方法主要比較機器譯文和參考譯文在淺層語法結構[8]、依存句法結構[9]或成分句法結構[10]上的相似度。

雖然各個評價方法都不盡完美,但它們都各自從不同的角度衡量機器譯文和參考譯文的相似度,反映機器譯文在不同評價角度上的質量。那么,多角度的評價將會更全面地反映機器譯文的真實質量。一個直接又有效的方法,就是利用各個評價方法的評分,把它們融合成一個新的評價方法。各評價方法的評分代表對機器譯文在不同角度上的評價,融合后新的評價方法是對機器譯文的多角度綜合評價。

文獻[11]提出尋找最優組合的方法,各個評價方法按照與人工評價的相關度降序排列,依次嘗試加到最優集合里,如果能提高最優集合的性能則加入;否則不加入。這是一種無參數的組合方法。另外,也可以采用有參數的組合方法,最直觀的就是線性組合,基本形式如式(1)所示。

(1)

其中,wi表示第i個評價方法xi的權重。

文獻[11]中的無參數組合方式是一種貪心算法,可能會得到局部最優的組合。為了避免這種情況的發生,我們提出有參數的融合自動評價方法,采用機器學習算法進行訓練,并進行多方面的實驗探索,主要包括以下幾個方面。

(1) 根據人工評價方法的不同,我們提出兩種融合自動評價方法,分別是DPMFcomb和Blend,實驗表明Blend性能更好;

(2) 在Blend上,對比使用支持向量機(SVM)[12]和全連接神經網絡(FFNN)兩種機器學習算法的性能,實驗發現在當前數據集上,使用SVM效果更好。

(3) 進而在SVM基礎上,探索融合不同的評價方法對Blend的影響,為Blend尋找在性能和效率上的平衡。

(4) 把Blend推廣應用到其他語言對上,驗證了它的穩定性及通用性。

后續組織結構如下: 第一節介紹模型方法,第二節介紹實驗,第三節介紹Blend參加WMT17評測的結果,第四節進行總結。

1 基于融合策略的自動評價方法

我們首先介紹兩種人工評價方法,相對排序(relative ranking,RR)和直接評估(direct assessment,DA);然后介紹分別使用RR 和DA指導訓練的兩種融合自動評價方法: DPMFcomb和Blend。

1.1 兩種人工評價方法

在WMT評測任務的發展過程中,先后使用兩種人工評價方法,分別是相對排序(RR)和直接評估(DA)。本節中我們將分別介紹這兩種人工評價方法。

相對排序的人工評價方法,讓評價者對同一個源端句子的五個不同機器譯文進行1~5排名,從1到5表示機器譯文質量依次下降,并且允許并列排名。表1是RR評價結果的一個示例,它表示對編號為103的句子,評價者給五個機器譯文(MTsys1-5)的排名結果。

直接評估(DA)[13]給出對機器譯文絕對的評分,在給定一個機器譯文和一個相應的參考譯文情況下,評價者通過衡量機器譯文在多大程度上充分表達了參考譯文的含義,拖動表征機器譯文質量的取值范圍為1~100的滑動條給出評分。每個評價者的評分都要通過嚴格的質量控制,并做歸一化處理。最后,每個機器譯文的評分Score是多個評價者評分(歸一化后的評分)的平均值。表2表示評價者使用DA方法對不同編號句子的機器譯文的評分。

表2 直接評估(DA)結果的示例

相對排序從2008年WMT自動評價任務開始時使用,一直到2016年,積累了多年的數據。相對排序能在一定程度上反映機器譯文的質量,但它有兩個明顯的缺點。首先,相對排序只提供五個給定機器譯文的相對排名,這只反映它們之間的相對質量高低,不能反映它們各自的整體質量。其次,相對排序存在人工評價者間的一致性較低的問題[14],這降低了相對排序的可靠性。與相對排序相比,直接評估能給出機器譯文的絕對評分,且設計一系列措施保證其可靠性。因此在WMT17評測任務中,直接評估已經取代相對排序,成為唯一的人工評價方法。

1.2 DPMFcomb: 相對排序(RR)指導訓練的融合自動評價方法

DPMFcomb使用RR人工評價數據,以各個評價方法的評分為特征,使用SVM進行訓練,是一個與人工評價一致性很高的自動評價方法。DPMFcomb融合的評價方法,包含Asiya[15][注]http://asiya.lsi.upc.edu/工具中目標端為英語的默認評價方法,包括55個基于詞匯、句法和語義的自動評價方法(如BLEU,NIST等),以及另外三個自動評價方法,分別是ENTF[16],REDp[17][注]DPMFcomb在WMT15評測中融入REDp,在WMT16評測中沒有融入REDp。下文實驗使用DPMFcomb在WMT16評測中的配置。和DPMF[18]。

若把RR給出的 1 到 5 的排名看作五個不同的類別,那么DPMFcomb的訓練過程就可以看作是多分類問題,因此可以用SVM[12]進行訓練。SVM是Vapnik等人于1995年提出的一種學習器,可以用于分類和回歸分析。以線性分類問題為例,SVM可以從訓練數據中學習找到一個最優超平面(圖1的中間一條直線),實現線性分類。對于線性不可分問題,SVM通過引入核函數對當前空間進行非線性變換,在高維空間實現線性分類。

圖1 SVM尋找最優超平面

具體的,DPMFcomb使用SVMrank,訓練數據如表3所示,第一列是目標類別,即RR排名;第二列表示句子編號;從第三列開始,每列代表一個特征,即為融入的各個評價方法的評分。

表3 DPMFcomb的訓練數據格式

在排序任務中,在測試階段SVM生成的預測值可以轉化為對測試集的排序;而在機器翻譯評價任務中,自動評價方法通常給出機器譯文的質量分數,所以此預測值不必再轉化,可直接表示為DPMFcomb對機器譯文的評分,如式(2)所示。

(2)

其中,w和b是模型參數,φ表示使用的核函數,xi表示融入的第i個評價方法的評分。

DPMFcomb參加了WMT15-16評測的自動評價任務,連續兩年獲得目標端為英語的語言對中與人工評價的平均一致性最高的成績,其設置及結果可以參考文獻[19-20]。

1.3 Blend: 直接評估(DA)指導訓練的融合自動評價方法

我們提出DA指導訓練的融合自動評價方法,命名為Blend,它可以利用任意的自動評價方法的優點,形成一個新的基于融合策略的自動評價方法[注]https://github.com/qingsongma/Blend。

Blend與DPMFcomb的基本思想一致,但二者在訓練數據及訓練方法上并不相同。Blend分別使用回歸支持向量機(SVM regression)和全連接神經網絡(FFNN)訓練,找到使其性能最優的訓練方式。

(1) 使用libsvm[21]中的SVM regression訓練時,訓練數據如表4所示。

表4 Blend的訓練數據格式

其中,第一列表示目標值,即為DA評分;之后每列代表一個特征,即融入的各個評價方法的評分。最終Blend評分如式(3)所示。

(3)

(2) FFNN是由輸入層、隱含層(一層或多層)和輸出層構成的神經網絡模型,其隱含層和輸出層的每一個神經元與相鄰層的所有神經元連接(即全連接),如圖2所示。

圖2 全連接神經網絡(FFNN)模型圖

當Blend采用FFNN的訓練時,輸入層的每個輸入表示各個評價方法的評分,輸出層的輸出為Blend對機器譯文的評分。設輸入層有M個輸入節點,隱含層有N個節點,輸出層是一個節點,則有:

其中,xi表示i個輸入節點的輸入值,即第i個評價方法的評分;wij表示第i個輸入節點到第j個隱含層節點的權重;f(·)表示激勵函數;wj表示第j個隱含層到輸出層的權重;bj和b表示偏置值;Score是輸出層的輸出,代表Blend對機器譯文的評分。

2 實驗

我們進行了四組實驗: (1)探索基于相對排序數據的DPMFcomb和基于直接評估數據的Blend在目標端為英語的語言對上的表現,對比兩種模型的性能; (2)分別實現基于SVM和FFNN的Blend訓練方法,對比二者性能; (3)實驗了融合不同種類的自動評價方法,為Blend尋找在性能和效率上的平衡; (4)在其他語言對上驗證Blend的有效性。模型評價指標是模型輸出與標準人工評價分數的皮爾遜(Pearson)一致性系數。

2.1 實驗設置

我們在WMT16評測任務中目標端為英語的各語言對上和英語—俄語語言對上測試。DA評價數據從WMT15-16評測任務中獲得,數據量情況如表5所示。因為目前只有少數有限的DA評價數據,當我們測試WMT16中每一個目標端為英語的語言對(560句)時,使用WMT16的其他目標端為英語的語言對和WMT15的所有目標端為英語的語言對數據進行訓練(共4 800句)。對于英語—俄語語言對,我們使用WMT15的英語—俄語數據(500句)訓練,在WMT16的英語—俄語(560句)上測試。

表5 WMT15-16評測任務DA評價數據量

使用SVM regression訓練時,訓練數據和測試數據的特征都歸一化到[-1,1]區間。我們使用epsilon-SVR,選擇RBF核函數,epsilon設置為0.1。使用FFNN訓練時,訓練集與測試集保持與使用SVM regression時一致,并從訓練集中隨機抽取500句作為開發集,其他設置在下文中詳細介紹。

2.2 Blend與DPMFcomb的對比實驗

在WMT16評測中,DPMFcomb融合57個自動評價方法,使用SVMrank,從WMT12-WMT14評測任務的所有目標端為英語的語言對中,根據RR評價結果,抽取約445 000的訓練數據。為了對比,Blend融合同樣的57個自動評價方法,使用SVM regression,從WMT15-WMT16的目標端為英語的語言對上,抽取4 800句訓練數據進行訓練,訓練得到的模型稱為Blend.all。

表6和表7分別列出了系統級和句子級的Pearson一致性系數。表6顯示Blend.all在WMT16的目標端為英語的語言對中,在系統級上與人工評價的平均一致性(0.951)達到最高,超過了當年評測中表現最好的兩個自動評價方法,MPEDA(0.941)和BEER (0.920)。表7列出WMT16評測的目標端為英語的語言對中,Blend.all和另外兩個表現最好的自動評價方法DPMFcomb和EMTRICS-F在句子級上的Pearson系數。DPMFcomb在WMT16評測的目標端為英語的語言對上表現最好,說明融合評價方法的有效性。表7顯示Blend.all在所有目標端為英語的語言對的平均Pearson系數最高。值得一提的是,雖然Blend.all的訓練集遠遠少于DPMFcomb的訓練集,Blend.all的平均Pearson系數(0.641)卻高于DPMFcomb(0.633)。

所以,以上結果說明在WMT16評測的目標端為英語的語言對中,DA指導訓練的Blend,在性能上優于RR指導訓練的DPMFcomb。這在一定程度上是由于DA數據比RR數據可靠: RR數據只反映機器譯文間的相對質量,且存在評價者間一致性較低的問題;而DA數據給出機器譯文的絕對評分,并且設計一系列措施保證其可靠性。因此,我們后面的實驗在Blend上進行。

表6 在WMT16評測數據上各自動評價方法的10K系統級的Pearson系數

表7 在WMT16評測數據上各自動評價方法的句子級Pearson系數

2.3 Blend分別使用SVM regression和FFNN的對比實驗

Blend設計分別使用SVM regression和FFNN訓練的對比實驗,從中選擇一個更優的訓練方式。首先,我們在捷克語—英語上嘗試多組實驗,尋找使得Blend在使用FFNN訓練時的最優實驗參數設置。實驗結果如表8所示。

表8(a)探索使用不同的數據形式,即原始數據(各個評價方法的評分)、使用libsvm中的svm_scale(表8中記為svm_std)歸一化數據,以及Z值數據。不同的數據形式,分別與一層或兩層全連接神經網絡組合,其他設置相同,具體如下: 采用SGD優化方法,學習率設為0.01,使用sigmoid激勵函數,隱層維度設為57(與輸入向量維度一致,即為融入的評價方法的個數)。由表8(a)可知,2NN-orgin,即使用原始數據及兩層神經網絡的實驗設置,與DA人工評價的Pearson一致性系數最高。表8(b)首先在2NN-orgin基礎上嘗試不同的隱層維度,分別為64、128、256、512和1024。實驗發現當隱層維度為256時,Pearson系數相對較高。之后在2NN-orgin-256上增加L1、L2正則項,其Pearson系數有所增加;繼而將 sigmoid分別換為tanh和ReLU激活函數,發現使用tanh時效果有明顯提升。表8(c)在表8(b)基礎上,把三種數據形式與設置為0.5的dropout分別組合,發現當使用svm_scale與dropout組合設置時,Pearson系數再次顯著提升。表8(d)嘗試不同的dropout值,發現當其設置為0.1時效果最好;繼而嘗試更深的網絡層數,發現效果稍微下降。

所以,我們采用2NN-svm_std-256-L-tanh-drop0.1的實驗設置,記作Blend.NN,并采用此設置在其他到英語端的語言對上實驗,其結果與使用SVM regression訓練得到的模型Blend.all比較,結果如表7所示。由表7可知,在當前數據集上,Blend使用SVM的訓練方式(Blend.all,0.641)略優于使用FFNN(0.639),由此可以說明SVM在小數據集上就有較好的表現,我們下文的實驗均在SVM regression上進行。

表8 各模型在WMT16的捷克語—英語上的Pearson系數

(a)

(b)

(c)

(d)

2.4 Blend在性能和效率上的平衡

原則上,為獲得與人工評價數據更高的一致性,Blend能夠融入更多數量的自動評價方法。然而,是否有些評價方法在性能上沒有對Blend起很大的作用,同時還降低了Blend的效率呢?為了探尋這點,我們把Asiya工具中適用于目標端為英語的語言對的默認自動評價方法分為三類,分別是基于詞匯、基于句法和基于語義的評價方法。下文中Blend.lex只融合了默認的基于詞匯的自動評價方法,Blend.syn和Blend.sem分別表示只融合了基于句法和基于語義的自動評價方法。Blend.lex包含25種自動評價方法,但實際只有九種自動評價方法[注]分別是BLEU,NIST,GTM,METEOR,ROUGE,Ol,WER,TER和PER。,因為其中有些自動評價方法只是一種自動評價方法的不同變種。Blend.syn和Blend.sem分別包含17種和13種自動評價方法,但實際各自對應三種不同的自動評價方法(詳見文獻[15])。

在WMT16評測的句子級實驗結果如表9所示。Blend.all,包含Asiya所有默認的評價方法,在五個目標端為英語的語言對(共6種)上與人工評價的一致性,以及平均一致性達到最高。然而,值得注意的是: Blend.lex在句子級上與人工評價的平均一致性與Blend.all相比僅差0.009,而Blend.syn和Blend.sem的性能遠低于Blend.all,甚至低于Blend.lex?;诰浞ê突谡Z義的自動評價方法通常比較復雜,耗時較長。經測試,基于詞匯、句法和語義的評價方法在服務器上的平均用時為19.3ms/句、85.5ms/句和181.4ms/句[注]CPU: AMD Opteron(TM),8核,8線程;內存: 96GB。Blend.lex的性能與Blend.all相當,所以Blend可以只融合Asiya工具中基于詞匯的評價方法,在達到高性能的同時提高效率。

我們又繼續增加了四種其他的自動評價方法到Blend.lex中: CharacTer[22], 一種基于字符的自動評價方法;BEER[23],一種融入多角度特征的自動評價方法;DPMF和ENTF(在DPMFcomb的實驗中證明了它們的有效性)。新增的四種自動評價方法分別從字符、句法等角度衡量機器譯文質量,且都方便使用。表10說明Blend.lex+4(0.640)的性能優于Blend.lex(0.632),并且與表9中的Blend.all(0.641)非常接近,可以作為Blend在性能和效率上的一個很好的平衡。

表9 在WMT16評測數據上Blend融合不同類型的評價方法時的句子級Pearson系數

表10 在WMT16評測數據上Blend.lex加入4個不同類型的評價方法時的句子級Pearson系數

2.5 Blend在其他語言對上的實驗

Blend可以適用于任何語言對,只要融入的評價方法支持這種語言對。因為目前除了目標端為英語的語言對外,只有英語—俄語的DA評價數據,所以我們在WMT16評測的英語—俄語語言對上實驗來說明這一點,其句子級一致性結果如表11所示。

表11 在WMT16評測的英語—俄語語言對中各自動評價方法的句子級Pearson系數

Blend.default融合Asiya提供的適用于英語—俄語的默認自動評價方法,共20個,實質為九種[注]與Blend.lex一樣的9種。。模型在500句訓練集上訓練得到。Blend.default+2在Blend.default基礎上,只加入BEER和 CharacTer,在句子級的Pearson系數上取得很大提升,從0.613上升到0.675。BEER是在WMT16評測中英語—俄語的最好的自動評價方法(0.666),此實驗結果顯示,BEER可以在性能上給Blend帶來很大提升,同時Blend可以進一步提升性能已經很好的自動評價方法,再一次說明融合策略的有效性。

3 Blend在WMT17評測上的結果

Blend參加了WMT17評測的自動評價任務。在目標端為英語的語言對中,提交Blend.lex+4,其訓練數據包括WMT15和WMT16所有目標端為英語的語言對的數據,共5 360句。在句子級上,Blend在所有七種目標端為英語的語言對中,均獲得了第一名的成績;在系統級上,在六種目標端為英語的語言對(共七種)中取得了第一名的成績;在10K系統級(10 000個翻譯系統)上,在兩種目標端為英語的語言對(共七種)中獲得了第一名。

此外,Blend參加了英語—俄語語言對的自動評價任務,提交Blend.default+2,訓練數據包括WMT15和WMT16兩年英語—俄語的數據,共1 060句。Blend在英語—俄語語言對中,取得在句子級上第五(與最高的一致性系數相差0.058)、系統級第一、10K系統級上第二的成績。WMT17評測結果的詳細報告參見文獻[24] ,Blend的系統報告參見文獻[25]。文獻[25]是本文提出的融合評價方法系列探索性工作的一部分,本文相比于文獻[25],有更系統的探索、實驗和分析。

4 總結

本文提出基于融合策略的自動評價方法,融合多個自動評價方法,以形成一個新的、與人工評價有更高一致性的自動評價方法。根據人工評價方法的不同,我們提出兩種融合自動評價方法,分別是DPMFcomb和Blend,實驗結果表明: 使用DA指導訓練的Blend,即使在較少的訓練數據上,其性能也優于DPMFcomb;在Blend上,對比使用SVM和FFNN兩種機器學習算法的性能,發現在當前數據集上使用SVM效果略好(此結論僅限于當前數據集);我們進一步探索了在SVM基礎上融合不同的評價方法對Blend的影響,為Blend尋找在性能和效率上的平衡;在多個語言對上進行了實驗,證明了Blend的穩定性及通用性。該文提出的Blend方法參加了WMT17評測,取得了多項第一的優異成績。

猜你喜歡
評測譯文機器
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
機器狗
機器狗
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
攻坡新利器,TOKEN VENTOUS評測
未來機器城
弟子規
Canyon Ultimate CF SLX 8.0 DI2評測
弟子規
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合