?

基于多任務學習的跨語言信息檢索方法研究

2023-01-19 04:04代佳洋
關鍵詞:多任務特征提取文檔

代佳洋,周 棟

(湖南科技大學 計算機科學與工程學院,湖南 湘潭 411201)

隨著互聯網的發展與全球化進程的推進,信息數量飛速增加,用戶在非母語條件下進行檢索的需求也逐漸提高。如何使用戶便捷高效地獲取其他語種的信息成為研究的熱點[1]。借助跨語言信息檢索(cross-language information retrieval, CLIR)技術,用戶可以使用母語直接檢索多種其他語言的信息,因而跨語言檢索技術的研究有重要的現實意義。

傳統的信息檢索通常通過簡單的關鍵字匹配,或是依賴人工編制特征進行檢索[2-3]。前者效果較差,后者過程復雜且成本高昂。近些年,深度神經網絡技術的突破使得神經檢索模型在單語言信息檢索領域獲得了巨大的成功。例如,Pang等[4]提出MatchPyramid模型,將查詢和文檔交互構成一張“圖”,使用多層卷積提取查詢和文本的交互信息進行檢索。Xiong等[5]提出KNRM模型,首先生成查詢和文檔的交互矩陣,然后通過不同均值的高斯核提取交互矩陣上不同級別的余弦相似度,最后匯總相似度信息進行檢索。相比人工編制特征的傳統方法,深度神經網絡能自動提取數據特征,一方面降低了特征提取的難度,另一方面能獲取人工難以提取的復雜特征[6]。

神經檢索模型在單語言檢索任務中取得的成功,使得一些學者開始關注其在跨語言檢索領域的潛力[7-8]。例如,Yu等[7]嘗試在跨語言詞嵌入(cross-language word embedding, CLWE)空間中使用現有的神經檢索模型執行CLIR任務,其實驗結果表明,現有的神經檢索模型可以不經修改,直接在CLWE空間中工作。CLWE通過將不同的語言映射到同一個向量空間中實現[9]。Bonab等[8]認為不同語種間詞的不一致影響了神經檢索模型在跨語言嵌入空間下的性能,因而提出一種稱為Smart Shuffling的跨語言嵌入方法,以生成更高效的跨語言嵌入空間,實驗結果表明,經彌合后的跨語言嵌入明顯提升了神經檢索模型的效果。

相關研究表明,神經檢索模型的性能與文本特征提取的效果有關[10]。目前,在跨語言條件下使用神經檢索模型的相關研究大多使用單任務學習,這導致模型提取的文本特征較為單一。另外,在跨語言條件下,不同語言在語法、單詞等方面的差異進一步加大了文本特征提取的難度[11]。以上原因限制了神經檢索模型在跨語言檢索任務中的運用。

不同任務的特征提取模式、噪聲形式等通常是不同的[12],通過多任務學習可以使模型獲得層次更豐富、噪聲更低、泛化性更強的特征,從而提升模型性能。例如,Liu等[13]構建了一個多任務神經網絡,同時執行文本分類和信息檢索的特征提取,然后利用提取出的文本特征進行檢索,實驗結果表明,多任務學習能明顯增強模型的特征提取能力,從而增強檢索效果。

本文提出一個結合文本分類任務與跨語言檢索任務的多任務學習方法,并使用外部語料庫進一步提升文本特征的豐富度。具體來說,該方法將外部語料、查詢和文檔通過預訓練的跨語言詞向量模型轉換為詞向量,然后將其輸入到一個基于雙向門控循環(bidirectional gated recurrent units, Bi-GRU)網絡的文本分類模型中以提取文本特征,其中,外部語料的文本特征用于執行文本分類任務,而查詢和文檔的文本特征被輸入到神經檢索模型中用于執行跨語言檢索任務。本文的主要貢獻如下:

1)提出一個基于多任務學習的跨語言信息檢索方法,并在CLEF 2000-2003數據集的4個語言對上進行實驗,證明方法的有效性。

2)研究文本分類任務對神經匹配檢索模型的輔助機制,為在CLIR模型中使用多任務學習提供一定的參考。

3)研究外部語料庫對于CLIR任務的促進作用。

1 相關工作

跨語言信息檢索的任務流程通常分為3步[14]:統一查詢和文檔的語種、提取文本特征、執行檢索。根據統一查詢和文檔語種方法的不同,CLIR模型通??梢苑譃椋夯诜g的CLIR模型[15-20]和基于語義的CLIR模型[7,8,21-27]。

1.1 基于翻譯的CLIR模型

基于翻譯的CLIR模型是目前最主流的CLIR模型[28-29],其通過對查詢或文檔進行翻譯以進行語種統一。早期往往使用人工翻譯、詞典等手段,近些年,由于機器翻譯領域的突破,基于翻譯的CLIR模型已經逐漸轉向使用機器翻譯。

例如,Elayeb等[15]提出一個結合詞典和機器翻譯的CLIR模型,首先借助外部詞典對查詢中的實體詞進行精確翻譯,然后利用翻譯后的實體詞,輔助機器翻譯模型對查詢進行翻譯。相比僅使用機器翻譯,該模型的翻譯精度更高,檢索效果更好。黃名選等[16]提出一種結合查詢擴展和查詢翻譯的CLIR方法,該方法使用剪枝策略挖掘加權關聯規則,然后根據規則提取高質量擴展詞對查詢進行擴展,再翻譯擴展后的查詢用于CLIR任務。Ture等[17]構建一個用于CLIR任務的分層翻譯系統,將翻譯任務分為短語、語法、語義3個層級,然后整合3個層級的翻譯結果,相比直接翻譯整個句子,這個立體翻譯模型輸出的翻譯更適用于CLIR任務。Azarbonyad等[18]提出一種通過LTR(learn to ranking)技術同時使用多個翻譯資源的方法,該方法使用多個獨立的翻譯資源對查詢進行翻譯,然后通過LTR選取數個最優的翻譯并將其組合以獲取最終翻譯結果,結果表明,LTR可成功地組合不同翻譯資源以提高CLIR性能。梁少博等[19]通過抽取雙語數據集中的命名實體構建雙語詞典,并使用提問式翻譯策略實現查詢和文檔的統一。Chandra等[20]建立一個雙向翻譯系統來執行CLIR任務,這個雙向翻譯系統將文本翻譯之后再反向翻譯回原來的語種,通過反向翻譯的結果對翻譯系統的效果進行評估以改善其質量,結果表明,反向翻譯提升了翻譯的質量,從而改善了CLIR任務的表現。

1.2 基于語義的CLIR模型

基于翻譯的CLIR模型的準確性依賴于翻譯的準確性[30],但不同語種間的詞匯通常難以完全匹配,翻譯模型的性能會因詞匯不匹配導致的翻譯錯誤而受損[7],影響檢索效果。而基于語義的CLIR模型在應對詞匯不匹配的問題時效果更好?;谡Z義的CLIR技術是指通過語義模型,將2種不同的語言在語義上進行統一后再執行IR任務。由于近些年深度學習技術的發展,基于語義的CLIR模型展現出極大的發展潛力。

馬路佳等[21]提出一種基于跨語言詞向量和查詢擴展的CLIR方法,該方法使用跨語言詞向量建立漢語查詢到蒙古文查詢之間的映射,然后使用3種不同的查詢擴展方法對翻譯后的蒙古文查詢進行擴展和篩選,再執行CLIR任務。Litschko等[22]提出一種使用多個單語言語料庫進行無監督學習訓練CLWE并進行CLIR的方法。具體來說,通過GAN誘導2個單語詞向量進行對齊,彌合不同語言間的語義鴻溝以生成CLWE空間,然后通過TbT-QT和BWE-Agg模型完成CLIR任務。TbT-QT利用CLWE將每個查詢詞翻譯成與其最接近的跨語言鄰居詞,然后使用查詢似然模型進行單語言檢索。BWE-Agg通過匯總查詢和文本的CLWE獲得查詢和文檔嵌入的余弦相似度,再使用相似度對查詢和文檔進行排名。

Yu等[7]利用CLWE把查詢和文檔映射到同一個語義空間中,再通過神經匹配模型進行檢索,實驗結果表明,傳統的神經匹配模型能夠不經過修改直接在CLWE空間中工作。Bonab等[8]提出一種稱為Smart Shuffling的跨語言嵌入方法,該方法通過彌合不同語言間的差異以生成更高質量的跨語言嵌入空間,有效改善神經檢索模型在CLIR中的表現。鄒小芳等[23]提出借助中間語義空間對平行語料進行建模的方法,實驗結果表明,在中間語義空間中對語料進行建模的穩定性較高,檢索效果更好。

近些年深度學習領域的突破,使得許多新技術得以在CLIR領域中運用,但其中大部分方法都僅使用單任務學習,導致提取的文本特征較為單一,這限制了神經檢索模型在CLIR任務中的效果。因而本文嘗試使用多任務學習技術增強文本特征的提取,從而改善神經檢索模型在CLIR任務中的表現。

2 框架與方法

首先給出CLIR任務的定義:

q=γquery(qo),

(1)

d=γdoc(do),

(2)

f(q,d)=g(ψ(q),φ(d),η(q,d))。

(3)

式中:qo和do是原始查詢和文檔;γquery和γdoc是轉換查詢和文檔使其語義統一的模型;q和d是語義統一后的查詢和文檔;ψ和φ是提取查詢和文檔特征的函數;η是提取查詢和文檔交互的函數;g是相關性計算函數,它基于查詢和文檔的特征以及它們的交互關系來計算兩者的相關性得分。在本文方法中:γquery和γdoc是預訓練的跨語言詞向量模型,通過將查詢和文檔映射到統一的詞嵌入空間中對查詢和文檔進行建模;ψ和φ是文本分類模型中的Bi-GRU層;η和g是神經檢索模型。

圖1是本文模型的總體框架,由以下3個部分組成:

圖1 總體框架Fig. 1 Overall framework

1)文本分類模型(輔助任務):該模型通過外部語料進行訓練。利用預訓練的跨語言詞向量模型將外部語料轉換為詞向量后,通過神經網絡提取文檔的特征并進行分類。圖1中的文本特征提取層本質上是一個Bi-GRU層。整個模型具體結構在2.1節給出。

2)共享的文本特征提取層:本層為文本分類模型的特征提取層,本文通過在CLIR模型中共享該層以進行多任務學習,即CLIR任務的文本特征提取工作由該層完成。查詢與文檔通過預訓練的跨語言詞向量模型轉換為詞向量后,使用該共享特征提取層提取文本特征,供神經檢索模型使用。雖然本模型中的跨語言詞向量層也是共享的,但是該層是一個固定的詞向量層。

3)神經檢索模型(主任務):為了驗證本文提出的多任務學習方法的可靠性,使用數個不同的基于交互的神經檢索模型進行實驗,其計算流程基本相同。首先,利用文本分類模型提取的查詢和文檔特征,計算兩者間的交互關系并提取信息;然后,將其輸入深度神經網絡中執行檢索任務;最后,輸出查詢和文檔的匹配分數。

2.1 文本分類模型

在文本分類任務上,本文使用HAN(hierarchical attention network)模型[31],其結構如圖2所示。

圖2 HAN模型Fig. 2 HAN model

HAN是一個雙層文本分類模型,第一層為詞編碼層,通過詞編碼向量計算每個句子的編碼向量;第二層為句子編碼層,利用每個句子的編碼向量計算出整個文檔的編碼向量,最后通過文檔編碼向量預測文檔的類別。具體來說,其計算流程如下:

首先,將文檔每個句子中每個詞轉換為詞向量,然后再輸入到詞編碼層的Bi-GRU層中,獲得每個單詞的隱藏向量:

vij=Word2vec(wij),

(4)

sij=Bi-GRU(vij)。

(5)

獲得每個單詞的隱藏狀態后,通過注意力層將其整合為句子的編碼向量:

uij=tanh(Wwhij+bw),

(6)

(7)

(8)

式中:Ww和bw為待學習參數;uw是一個隨機初始化的向量,通過其與uij的點乘來計算對應單詞的注意力權重αij;si為句子i的編碼向量。

獲得所有句子的編碼向量后,將其逐個送入句編碼層的Bi-GRU層中,獲得每個句子的隱藏狀態,再通過注意力層進行整合,從而獲得整個文檔的編碼向量:

hi=Bi-GRU(si),

(9)

ui=tanh(Wshi+bs),

(10)

(11)

(12)

最后利用這個編碼向量預測文本分類,y是文本分類任務的輸出:

y=Softmax(v)。

(13)

2.2 共享的文本特征提取層

現有的神經檢索模型通常利用查詢和文檔的文本特征來捕捉兩者之間的匹配關系以進行檢索,其性能與文本特征的提取效果直接相關。在單任務學習的模式下,模型只能學習一個任務的特征模式,導致提取的文本特征較為單一,從而影響對查詢與文檔之間匹配關系的捕捉。在跨語言環境下,不同語種間的差異進一步增加了捕捉匹配關系的難度。

為此,本文將文本分類任務和CLIR任務結合進行多任務學習,通過使用HAN模型的一個文本特征提取層進行CLIR任務的特征提取,使該層同時學習不同的特征提取模式,從而改善特征提取工作的效果。具體來說,本文使用HAN模型句編碼層中的Bi-GRU模型提取文本特征,把查詢和文檔轉換為詞向量后直接送入句編碼層的Bi-GRU中,不經過詞編碼層,獲得每個詞的隱藏狀態后也不通過句注意力層整合。這是因為HAN模型的詞編碼層是獨立處理每個句子的,CLIR任務的文本無法進行此處理,如果通過句注意力層整合隱藏向量,將會影響后續交互矩陣的構建。

檢索任務特征提取的計算流程如下:

vqi=Wordvecquery(wqi),

(14)

sqi=Bi-GRU(vqi),

(15)

vdj=Wordvecdoc(wdj),

(16)

sdj=Bi-GRU(vdj)。

(17)

當模型進行訓練時,該共享特征提取層將接受不同優化目標的訓練,從而同時學習文本分類任務和CLIR任務的特征模式和噪聲規律,使輸出的sqi和sdj含有層次更豐富的文本特征。此外,分類文檔的語料內容會沿著Bi-GRU傳遞,使sqi和sdj一定程度上含有了外部語料的特征信息,這進一步增加了文本特征的豐度。

2.3 神經IR模型

IR模型取得成功的原因主要歸功于2點:多層次匹配模式的學習和端到端的詞表征學習[7]。因此,本文選擇了2種具有代表性的神經IR模型進行實驗: MatchPyramid和KNRM。

MatchPyramid(MP)是一個基于交互的神經IR模型,該模型首先在單詞級別上進行匹配,通過計算每個查詢詞和每個文檔詞的交互,獲得一個交互矩陣。然后,將這個交互矩陣當作一張“圖”,將檢索任務轉換為一個“圖像”識別任務,對交互“圖”進行多層卷積。最后,利用卷積生成的交互向量計算查詢與文檔的匹配程度。MP能夠在短語、句子、段落等不同層級上捕捉查詢與文檔的匹配關系。

KNRM模型采用查詢-文檔的交互矩陣表征查詢和文檔間的交互(類似于MP),但它使用不同均值μ的高斯核將交互“分類”為不同級別的余弦相似度,然后整合不同級別的余弦相似度以計算查詢和文檔的相似度。KNRM允許梯度穿過高斯內核進行反向傳播,因此這個模型支持端到端的詞表征學習。

這2個模型的計算流程相似,如圖3所示,都是首先提取文本特征,然后根據文本特征構建交互矩陣,再利用神經網絡提取交互矩陣捕捉到的交互信息,最后計算查詢和文檔的相似度。這2個模型的計算流程可以抽象為

圖3 神經檢索模型Fig. 3 Neural retrieval model

Sscore=model(sq,sd)。

(18)

式中:

sq=[sq1,sq2,…,sqn];

(19)

sd=[sd1,sd2,…,sdm]。

(20)

sqn和sdm分別為文本特征提取層輸出的查詢中第n個詞的狀態向量和文檔中第m個詞的狀態向量。

2.4 損失函數

(21)

由于本文選取的數據集使用二元的相關性標記,故對CLIR任務使用Hinge loss,其具體定義為

LΘ(q,d+,d-)=max(0,1-s(q,d+)+s(q,d-))。

(22)

式中:q是查詢;文檔d+與查詢q相關,而文檔d-與查詢q不相關;s(q,d)表示模型預測(q,d)間的匹配分數;Θ表示神經網絡中的可學習參數。

最終,模型的損失函數為

L=LΘ+Lc。

(23)

3 實驗

3.1 實驗平臺

本文實驗的硬件平臺CPU為AMD Ryzen7 3700X,GPU為NVIDIA RTX 3070;操作系統版本為Windows10 1909;使用的軟件為Python 3.6,深度學習框架Pytorch 1.2.0。

3.2 實驗設置

3.2.1 數據集

對于CLIR任務,本文使用CLEF 2000-2003數據集進行訓練和評估,這個數據集的統計信息如表1所示。查詢和文檔之間的關系使用0或1進行標記,1為相關,0為不相關。本文共選用4個語言對:EN→FR、EN→ES、EN→DE、EN→RU,前者為查詢的語種,后者為文檔的語種。為了保證計算效率,將每個查詢保留前50個詞,每個訓練集保留前500個詞。所有的查詢和文檔均轉換為小寫,且刪除了標點符號。

表1 CLEF 2000-2003數據集的基本統計數據Tab. 1 Basic statistics of CLEF 2000-2003 data set

對于文本分類任務,本文使用了XNLI-MT數據集。該數據集是一個多語種自然語言推斷數據集,每條數據由一個句子對和一個真實標記構成,模型需要判斷出2個句子之間的關系,可能的結果有3種:蘊含、無關、矛盾。使用該數據集的原因是其語種足夠豐富,實驗結果表明,文本分類模型能夠在這個數據集上正常工作。XNLI-MT數據集的每個句子截斷到50個詞。

本文使用MUSE(multilingual unsupervised and supervised embeddings)對Wiki語料庫訓練出的單語言詞向量進行無監督對齊以獲得CLWE。

為了保證實驗結果的可靠性,本文采用帶有驗證和測試集的5折交叉驗證:將數據集劃分為5組,并進行5輪實驗,每輪抽取之前沒有抽取過的1組數據作為驗證集,1組作為測試集,剩余的3組作為訓練集。最終結果取5輪實驗的平均值。

3.2.2 對比算法

為了檢驗本文多任務學習方法對于神經檢索模型的提升效果,本文按照Yu等[7]的實驗設置,使用工作在跨語言詞向量上的神經檢索模型KNRM和MP作為對比算法,這2個模型均有一些變體。根據Yu等[7]的實驗結果,在CLWE空間中,使用基于余弦相似度的版本效果最好,因而本文使用基于余弦相似度的KNRM、MP模型,并將其分別命名為MP-Cosine、KRNM-Cosine。

另外,為了證明在使用同樣跨語言詞向量的情況下,本文提出的多任務學習方法能使神經檢索模型的性能優于目前的非神經CLIR方法,本文還使用3種基于CLWE的非神經CLIR模型作為對比算法,分別為BWE-Agg-Add、BWE-Agg-IDF和TbT-QT。這幾個算法是近幾年非神經檢索模型的研究成果,均基于跨語言詞向量對查詢和文檔進行統一。

MP-Cosine:該模型基于查詢表征和文檔表征間的相似度計算其交互,并將全部交互信息構成一張交互圖,再通過多層卷積,捕捉查詢和文檔間多級別的交互信息,最后輸出查詢和文檔的匹配。

KRNM-Cosine:該模型與MP模型類似,采用查詢-文檔的交互矩陣表征查詢和文檔間的交互,但它使用不同均值μ的高斯核將交互分為不同級別的余弦相似度,以獲得不同級別的交互信息,然后將不同高斯核輸出的向量加權,或者最終的向量交互,再通過這個向量計算出查詢和文檔的相似度。

BWE-Agg-Add:通過匯總查詢和文檔的CLWE獲得查詢和文檔的表示向量,然后根據查詢和文檔向量的余弦相似度進行排序,從而獲得檢索結果。BWE-Agg-Add使用簡單計算均值的方法匯總查詢和文檔的嵌入。

BWE-Agg-IDF:同BWE-Agg-Add,但BWE-Agg-IDF使用單詞的TF-IDF進行加權來匯總CLWE,以獲得查詢和文檔嵌入。

TbT-QT:該模型將CLWE作為查詢翻譯資源,通過CLWE將源語言轉換為目標語言中最接近的單詞,然后使用查詢似然模型進行檢索。

3.3 多任務學習模式

對于多任務學習(multi-task learning, MTL),由于CLIR任務輸入的語種不同,本文使用2種輔助任務設置:一種是執行英語文本的分類任務,即與查詢(Query)的語種一致;另一種是執行其他語種文本的分類任務,即與文檔(Doc)語種一致。再根據使用神經檢索模型的不同,將其分別命名為MP-MTL-Query、KNRM-MTL-Query、MP-MTL-Doc和KNRM-MTL-Doc。

3.4 超參數設置

對于MP模型,按照原論文的設置使用單層卷積,其內核大小設置為3×3,動態池大小設置為5×1,內核計數設置為64。對于KNRM模型,內核數設置為20,每個高斯內核的標準偏差設置為0.1。

每個正樣本采樣5個負樣本,每次采樣隨機選擇被標記為不相關的文檔。在設置batch size為60的條件下,使用隨機梯度下降法,設定初始學習率為0.001進行優化,最多訓練20個epoch。為了提高訓練的效率,本文使用Early Stopping。但為了優先保證CLIR任務的訓練質量,Early Stopping根據CLIR任務的損失LΘ進行,而不是總損失函數L。

4 結果與分析

4.1 實驗結果

實驗結果如表2和表3所示,表2為CLIR任務(主任務)的MAP值,表3為文本分類任務(輔助任務)的精確度。

表2 CLEF任務的MAP值Tab. 2 MAP value of CLEF task

表3 文本分類任務的精確度Tab. 3 Accuracy of text classification tasks

4.2 結果分析

由表2可知,相比直接運行在CLWE空間中的MP和KNRM模型,使用本文提出的多任務學習方法后,除了一組實驗的MAP值低于對應的單任務學習實驗之外,其余各組實驗均有明顯提升。其中,提升幅度最大的實驗分組為工作在EN→RU語對上的MP-MTL-Query分組,MAP值提高了0.188;而提升幅度最小的是工作在EN→DE語對上的MP-MTL-Doc分組,其MAP值提高了0.012。這表明本文提出的多任務學習方法是有效的。另外,無論是否使用多任務,神經檢索模型的效果均優于非神經檢索模型。但2種不同的多任務學習方式沒有明顯的性能區別,即多任務方法的提升效果沒有隨著輔助任務輸入語料的語種變化而發生改變,這表明,外部語料對改善文本特征提取的貢獻較小。

相比MP模型,本文的多任務學習方法對KNRM模型的提升更大。經過計算,使用MP模型的多任務學習實驗組的總體平均提升為0.066,而使用KNRM模型的多任務實驗組的總體平均提升為0.144。如前文所述,KNRM的優勢在于其可以端到端地訓練詞表征。根據文獻[5]描述,如果禁止KNRM訓練詞表征,則其性能會受到較大影響,即高效的詞表征能更明顯地增強KNRM模型的性能,這證明本文的多任務學習方法改善了文本特征提取的效果。

在4個語言對中,EN→RU語言對的提升最明顯。由表1可知,CLEF 2000-2003的俄語數據集僅有37個查詢,平均每個查詢僅有4.08個正樣本,即俄語數據集僅有151個正樣本,每輪學習時為5倍負采樣,并且使用五折交叉學習,這使得實際參加訓練的樣本僅有761條,極大地影響了神經檢索模型(尤其是KNRM模型)的性能。在引入多任務學習之后,多模式特征的捕捉和外部語料起到了數據增強的作用,從而使得神經檢索模型的性能獲得了明顯提升,表明多任務學習在低資源跨語言檢索領域有著巨大潛力。

由表3可知,在使用多任務學習后,HAN模型在文本分類任務上的精度有所下降,這可能是因為CLIR任務的文本特征干擾了文本分類任務的執行,也可能是因為模型訓練時的Early Stopping以CLIR任務的損失為計算標準,導致HAN模型欠擬合或過擬合。

4.3 多任務學習的提升機制研究

本節繪制各個神經檢索模型在測試階段的epoch-MAP曲線,以了解多輔助任務對于主任務的提升機制。由于使用的語言對和神經檢索模型各不相同,各組實驗的epoch-MAP曲線沒有表現出統一的模式,但仍然可以得出以下幾個結論:

與4.2的結論一致,多任務學習改善了神經檢索模型的性能。由圖4和圖5可知,多任務學習模式的神經檢索模型的epoch-MAP曲線普遍高于單任務學習模式曲線,這表明多任務學習的神經檢索模型不僅在最終性能上優于單任務學習的神經檢索模型,而且在整個訓練期間的性能都優于單任務方法。

圖4 使用MP模型時所有語言對測試的epoch-MAP曲線Fig. 4 Epoch-MAP curves of all language pairs during testing for MP model

圖5 使用KNRM模型時所有語言對測試的epoch-MAP曲線Fig. 5 Epoch-MAP curves of all language pairs tested for KNRM model

從圖4(d)和圖5(d)可以看出,由于俄語數據集的規模過小,在沒有使用多任務學習時,模型的性能幾乎不會隨著學習的進行而獲得提升,這表明神經檢索模型本身很難提取小規模數據集的文本特征。而使用多任務學習方法提取文本特征之后,在不改變數據集規模的情況下,神經檢索模的性能有了明顯提升。這證明本文的方法對神經檢索模型的提升更多來自于更高效、更精確的特征捕捉。

使用本文提出的多任務學習方法后,神經檢索模型的收斂速度有明顯提高,大部分多任務學習的分組在epoch 6~8即可到達較高的MAP;而單任務學習的神經檢索模型通常在10個epoch的訓練左右到達較高的MAP。由于使用了Early Stopping,各多任務實驗組和對應的單任務學習對照組在訓練中觸發Early Stopping時的epoch如表4所示。由于本文使用五折交叉訓練,故表4記錄的epoch值為5輪訓練的均值。經計算,相比單任務學習,多任務學習實驗組的收斂速度平均提高了24.3%。這表明,多任務學習還提高了神經檢索模型的訓練效率,使其能更快訓練到最佳狀態,這是本文的多任務學習方法有效的另一個原因。

表4 提前終止訓練時的epoch值Tab. 4 Epoch when training is terminated early

如4.2節所述,不同外部語料對各組實驗沒有展示出明顯的性能影響,即外部語料的貢獻有限,這個結論在epoch-MAP曲線上得到了一定程度的驗證。一部分實驗組的epoch-MAP曲線在MTL-Query和MTL-Doc呈現了類似的趨勢,而另一部分則是完全不同的模式,即外部語料對本文的多任務學習方法沒有特定的影響模式。

5 結語

本文提出一種基于多任務學習的跨語言信息檢索方法,利用文本分類模型捕捉CLIR任務所需的特征,并通過外部語料對其進行補充,最后利用捕捉的特征在基于匹配的神經檢索模型上執行CLIR任務。相比僅進行單任務學習的跨語言神經檢索方法,多任務學習方法獲取到的特征層次更加豐富,能有效地提高神經檢索模型的效果。在4種不同語言對上進行的實驗表明,本文提出的多任務學習方法使神經檢索模型的MAP值提高0.012~0.188,并使模型的收斂速度平均提高了24.3%,證明了本文方法的有效性。

由于現階段跨語言神經檢索模型的表現欠佳,本文方法為跨語言環境下使用經典的單語神經檢索模型提供了一定參考。此外,在俄語數據集上的結果表明,本文方法在數據集規模較小的情況下對神經檢索模型的提升幅度更多,因此該方法在低資源跨語言檢索領域存在巨大潛力,這為今后研究的方向提供了指引。另外,實驗結果表明,外部語料在本文方法中的貢獻有限,未來可以考慮提出一種不依賴于外部語料的多任務CLIR方法,例如使CLIR語料能同時應用于文本分類模型和神經檢索模型,這將增強多任務學習在CLIR領域的實用性。

猜你喜歡
多任務特征提取文檔
數字時代的注意困境:媒體多任務的視角*
淺談Matlab與Word文檔的應用接口
結合自監督學習的多任務文本語義匹配方法
有人一聲不吭向你扔了個文檔
面向多任務的無人系統通信及控制系統設計與實現
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于中心化自動加權多任務學習的早期輕度認知障礙診斷
基于Daubechies(dbN)的飛行器音頻特征提取
Word文檔 高效分合有高招
Bagging RCSP腦電特征提取算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合