?

基于要素關聯圖的漢越跨語言事件檢索方法

2024-04-02 03:42趙周穎余正濤黃于欣陳瑞清朱恩昌
現代電子技術 2024年7期
關鍵詞:文檔關聯檢索

趙周穎,余正濤,黃于欣,陳瑞清,朱恩昌

(1.昆明理工大學信息工程與自動化學院,云南昆明 650500;2.昆明理工大學云南省人工智能重點實驗室,云南昆明 650500)

0 引 言

漢越跨語言事件檢索旨在根據輸入的中文事件查詢短語,檢索出相關的越南語新聞事件文檔[1]是跨語言輿情事件檢測、跨語言新聞推薦以及跨語言事件追蹤等后續任務的基礎。

跨語言事件檢索是一種特殊的跨語言信息檢索任務。近年來,在傳統的跨語言信息檢索方面已經取得了較好的進展,主流方法包括以下三種:基于機器翻譯的方法、基于跨語言/多語言詞嵌入的方法以及基于多語言預訓練語言模型(諸如mBERT[2]、XML-R[3]等)的方法。其中,基于機器翻譯的方法利用神經機器翻譯將查詢和文檔映射到同一語義空間,然后進行單語檢索?;跈C器翻譯的方法在一定程度上解決了不同語言的語義鴻溝問題,但是基于機器翻譯的方法嚴重依賴于神經機器翻譯的準確性,容易引起詞不匹配和翻譯歧義問題,特別是對于差異較大的低資源語言(如中文和越南語),機器翻譯誤差直接影響檢索結果。為了解決這些問題,研究者提出了基于預訓練跨語言詞向量的跨語言信息檢索方法[4],其核心思想是利用跨語言詞向量將不同語言的語義映射到同一語義空間中,從而解決跨語言檢索問題。然而,基于跨語言詞向量的方法由于忽略了詞序和上下文信息,導致查詢或待檢索文本的語義表示不準確,并且在不同語種間的語義表示空間映射過程中容易引起誤差傳播,從而影響檢索模型的性能。隨著多語言預訓練語言模型如mBERT[2]和XML-R[3]的出現,基于多語言預訓練語言模型的方法[5-6]成為了目前跨語言信息檢索的主要方式。

現階段,在跨語言事件檢索方面的相關研究還較少。文獻[7]提出了一種基于詞向量的越漢跨語言事件檢索方法,該方法首先利用詞向量構建事件關鍵詞的漢語語義特征向量,然后計算越語的事件關鍵詞的特征翻譯向量,最后通過計算語義特征向量之間的相似度完成跨語言關鍵詞對齊,從而實現查詢關鍵詞的自動翻譯,實現跨語言事件檢索。文獻[1]提出一種融入事件實體知識的漢越跨語言新聞事件檢索模型。綜上所述,目前跨語言事件檢索仍然面臨著以下兩個方面的挑戰:

1)跨語言事件檢索的核心是計算事件查詢短語與查詢文檔中描述的核心事件之間的匹配度。然而事件短語和查詢文檔中往往包含大量的實體,目前漢越實體翻譯效果還不理想,基于翻譯的跨語言事件檢索會帶來較大的誤差級聯。

2)目標語言(越南語)的新聞文本較長,中文事件查詢短語與越南語的查詢文檔長度不一,表達差異較大,且查詢文檔中往往會包含大量與其描述的核心事件無關的噪聲文本,現有的模型不能很好地捕捉事件匹配特征,難以對其進行準確匹配。

為了解決上述兩個問題,本文提出了基于要素關聯圖的漢越跨語言事件檢索方法。該方法首先預訓練一個漢越雙語詞嵌入來解決跨語言語義鴻溝問題;然后,抽取查詢文檔中的關鍵信息(關鍵詞和實體)并構建文檔要素關聯圖;最后,通過引入一個圖編碼器對構建的要素圖進行編碼,生成結構化的事件信息來增強傳統的事件檢索模型。在自建數據集上的實驗證明,本文提出的方法優于傳統的基線方法,有效驗證了本文所提方法的有效性。

1 漢越雙語詞嵌入預訓練

本節主要介紹漢越雙語詞嵌入的預訓練方法。漢越跨語言詞向量預訓練的目標是學習漢語詞嵌入矩陣X和越南語詞嵌入矩陣Y之間的映射,首先在漢語和越南語語料中訓練詞嵌入矩陣X和Y,將種子詞典表示為二進制矩陣D;接下來找到最優雙語映射矩陣W*,使映射的漢語詞嵌入矩陣Xi*W和越南語詞嵌入矩陣Yj*之間的歐氏距離平方和最小化。

式中:Xi*表示第i個漢語詞嵌入;Yj*表示第j個越南語詞嵌入。如果第i個漢語詞與第j個越南語詞對齊,則Dij= 1。

接下來對詞嵌入矩陣X和Y進行歸一化和中心化預處理操作,將W構建為正交矩陣(WWT=WTW=I)以防止單語性能下降,同時能提供更好的雙語映射。最小化歐氏距離平方等價于最大化點積,優化后的公式為:

式中:Tr(·)表示主對角線所有元素之和;W*=UVT為最優正交解;XTDY=UΣVT為XTDY的奇異值分解。

最后使用映射源語言嵌入和目標語言嵌入之間的點積作為相似度度量,最終詞嵌入映射以一種自我學習的方式迭代,直至收斂,完成漢越雙語詞嵌入映射。

2 要素關聯圖增強的漢越跨語言事件檢索模型

本節主要介紹提出的基于要素關聯圖的漢越跨語言事件檢索模型,模型結構如圖1 所示。模型主要分為三個部分:首先根據文檔構建要素關聯圖,每一個節點代表一個關鍵短語;然后將查詢-節點匹配特征輸入圖神經網絡并根據查詢結果計算文檔相關性分數;最后采用加權策略融入雙語文檔相似度,實現漢越跨語言事件檢索。

圖1 基于要素關聯圖的漢越跨語言事件檢索模型結構圖

2.1 構建要素關聯圖

本節主要介紹如何基于輸入越南語文檔構造要素關聯圖。首先從原文檔中抽取實體、關鍵詞等重要要素作為圖的節點來構建要素關聯圖。要素關聯圖可以有效表征整個文檔的關鍵核心信息。對于每個查詢q=[w(q)1,…,w(q)i,…,w(q)M],w(q)i為查詢中第i個詞,M表示查詢長度,從文檔D中抽取實體、關鍵詞作為要素關聯圖的節點,所有的節點集合可表示為{w(d)1,w(d)2,…,w(d)n},n為節點個數。每個節點特征為其詞嵌入與查詢詞嵌入之間的交互信號,使用余弦相似度矩陣S作為交互矩陣,定義如下:

式中:e(d)i為查詢詞向量;e(q)j為節點詞向量;cos 為余弦計算。

通過節點之間的語義相似度和包含關系來確定要素關聯圖的邊。為了緩解梯度爆炸或梯度消失的問題,將鄰接矩陣歸一化為=D-12AD-12,D為對角矩陣并且Dij=Σj Aij。

2.2 基于圖的文本匹配特征提取

本文采用圖注意力網絡來獲得關鍵詞圖的表征,其具體的操作步驟如下:

1)狀態更新

用查詢-文檔交互矩陣初始化節點狀態:

式中:j表示短語圖中第j個節點;S:j表示交互矩陣S的第j列。

以圖2 為例,對于節點“中英貿易”,它的鄰接節點只有節點“英國脫歐”和節點“經濟發展”,但不代表這兩個節點對該節點具有一樣的重要性。

圖2 要素關聯圖

因此,在進行鄰居特征聚合時,通過圖注意力層計算每個節點相對于其相鄰節點的相互重要性程度,從而更新節點狀態。節點的輸入特征h={h1,h2,…,hn},n表示節點個數。為了獲得足夠的表達能力,將節點特征經過線性變換以得到更高層次的特征。具體策略為:將權重矩陣W應用于每個節點,并對每個節點執行自注意力機制,然后通過注意力系數計算節點k對節點j的重要程度,計算公式如下:

式中:αjk為節點k到節點j的注意力系數;“;”表示向量拼接;σ代表激活函數;注意力機制是一個單層的前饋神經網絡,由權重向量aT進行參數化。

歸一化的注意力系數用于計算與它們相對應的特征,得到每個節點的最終輸出特征h={h1,h2,…,hn},計算公式如下:

式中:hj表示節點j的輸出特征;Ni表示節點i的鄰接節點;αjk為注意力系數。

2)特征選擇

直觀上看,相似度越高,關聯可能性越大。因此,在查詢維度上執行k-max-pooling 策略,并為每個查詢項選擇前k個信號,避免模型受到文檔長度的影響。計算公式如下:

式中:i∈[1,M],表示查詢中第i個詞;H:,i表示特征矩陣H第i列。

2.3 匹配度計算

獲得信息匹配特征xi后,需要將其轉化為實際的相關得分進行訓練??紤]到不同的查詢詞可能具有不同的重要性,在查詢詞級別采用注意力網絡對查詢詞的重要性進行建模,它為每個查詢詞生成一個權重,控制該查詢詞的相關性得分,最終得到更合理的相關性分數。通過詞嵌入學習查詢中的詞權重,使用查詢詞向量作為門控函數的輸入,計算公式如下:

式中:gi表示詞權重;eqi為第i個查詢詞向量;wg表示術語門控網絡的權重向量。

最后利用權重共享的多層感知機對每個查詢詞進行評分。

式中:Wx、bx為可訓練參數。

選擇雙鉸鏈損失函數對模型參數進行優化:

式中:q為查詢;d+為相關樣本;d-為不相關樣本。

最后在源語言文檔匹配分數基礎上與雙語相似度進行加權求和,得到目標語言每篇文檔的相關性得分:

式中:rel源語言為源語言相關性得分;Sim 為源語言和目標語言相似度分數;“*”表示乘法;α為超參數,設置為0.6。根據相關性分數進行降序排列,從而得到查詢的雙語文檔排序列表。

3 實驗數據與結果分析

3.1 數據集

本文實驗數據為從互聯網爬取的漢越熱點新聞事件文檔,包含政治、經濟、社會、科技、文化等五類新聞事件,其中包含漢語和越南語文檔各6 500 篇,訓練集4 500 篇,測試集和驗證集各1 000 篇。每篇文檔包括標題和正文兩部分,根據事件內容構建了相同數量漢語查詢和越南語查詢,采用查詢和文檔的相關性分數進行排序,查詢和文檔的相關性由人工標注,其中1 代表查詢與文檔相關,0 代表查詢與文檔不相關。查詢與候選文檔數統計信息如表1 所示。為了進行評估,將語料按照8∶1∶1 的比例隨機分成訓練集、開發集和測試集,分別用于模型的訓練、超參數的調優和模型的評估。

表1 實驗數據統計

3.2 評估指標

本文采用NDCG[8]和mAP[9]作為實驗的評價指標,具體的計算公式如下:

式中:k表示前k個排序文檔集合;rel(i)表示排序列表中第i個查詢與文檔的相關度;IDCG@k由IDCG@k根據相關度對文檔降序排序后得到。

式中:N表示相關文檔總數;position(i)表示第i個相關文檔在檢索結果列表中的位置。mAP 表示多個返回結果的平均準確率。

3.3 實驗設置

實驗環境及參數設置詳情如表2 所示。其中,詞嵌入維度設置為200,圖注意網絡的層數設置為3,k-maxpooling 中k值設置為40,滑動窗口大小為7,訓練批次大小為64,學習率為0.001,采用Adam 優化器進行優化。

表2 實驗環境及參數設置

3.4 實驗結果分析

為了驗證所提出模型的有效性,選取以下多個基線模型進行對比,實驗結果如表3 所示。

表3 與基線模型的對比實驗結果

BM25:BM25 算法是在融合TF-IDF 特征的基礎上計算查詢句與文檔相關性的一種算法,首先計算每個查詢詞與文檔的相關度,再對得到的所有的詞與文檔的相關度進行加權求和,最后計算出最終的查詢句與文檔之間的相關度值。

RankSVM[10]:RankSVM 模型把文檔檢索問題進行轉化,變成了pairwise 的分類問題,然后針對此分類問題利用SVM 模型進行求解。

KNRM[11]:KNRM 模型首先利用查詢句向量和文檔向量構建交互矩陣M,然后引入K個核函數,通過核函數池化的方式計算查詢句與文檔的相似程度。

PACRR[12]:DRMM 方法忽略文本位置信息,PACRR使用卷積網絡提取詞項的依賴關系,通過RNN 整合特征,能較好地保留文本位置信息。

BERT-MaxS[13]:使用BM25 模型計算查詢句與文檔的相關度值,并將文檔切分為句子集合分別與查詢句進行拼接,使用基于BERT 的檢索模型計算查詢句與每個文檔句的相關度值。

EEK[1]:該方法通過查詢翻譯,將跨語言事件檢索問題轉化為單語事件檢索問題,并提出融入事件實體知識來提升跨語言事件檢索性能。

由表3 的實驗結果可以看出:本文模型比其他基線模型性能更好,與傳統模型BM25 相比,基于神經網絡的模型在NDCG@5、NDCG@10、mAP 評價指標均有顯著提升;在基于交互的神經排序模型中,與KNRM 模型相比,PACRR 模型在NDCG@10、mAP 指標比KNRM 提升了0.3%和1.4%,提升效果不大,而PACRR 引入了詞位置信息,采用卷積操作來捕捉局部詞序關系,說明位置信息和運算操作并不能很好地提升事件查詢-文本匹配效果。新聞事件排序是針對事件粒度信息的文本匹配,本文所提模型從事件粒度進行文本匹配,效果優于基于局部交互的模型,NDCG@10、mAP 指標比PACRR 分別提高了7.2%、8.1%,由此證明了通過融入事件要素關聯圖可以有效建模查詢文本的全局語義信息。

3.5 消融實驗

3.5.1 不同GCN 層數下實驗性能對比

為了研究圖神經網絡層數下模型的表現效果,設置了不同的卷積層數進行對比實驗,實驗結果如圖3所示。

圖3 不同圖層數對模型性能的影響

由圖3 可以看出,與0 層的模型相比,僅通過1 層網絡就顯著地提高了模型的性能,說明在圖中傳播關鍵短語信息有助于理解查詢交互和文檔級詞關系,查詢文檔匹配信號可能會受到文檔內的詞關系影響。2 層網絡比1 層網絡模型性能有小幅度提升,但當疊加層數進一步增加時,模型的性能略有下降。原因可能是節點從鄰居節點接收到更多的噪聲,增加了參數訓練的負擔,過多的傳播也可能導致過度平滑的問題??偟膩碚f,使用上下文信息和不使用上下文信息之間存在巨大的差距,漢越新聞事件數據集上,圖層數在2 層時達到峰值。實驗結果也證明考慮關鍵短語級交互和文檔級詞匯關系對于漢越雙語新聞事件排序很有必要。

3.5.2 不同k值下實驗性能對比

為了研究k-max-pooling 中k的取值對模型性能的影響,對k取值為10、20、30、40、50 時的實驗結果進行對比,如圖4 所示。

圖4 不同k 值對模型性能的影響

通過圖4 可以得到,當k取值從10 取到40,模型性能穩定增長。通過增大k值,可以將匹配信號多的相關項與匹配信號少的無關項進行區分。當k繼續增大,呈現下降的趨勢,說明較大的特征維數會帶來負面影響。k值越大,可能對文檔長度有偏置,文檔越長,匹配信號越多??傮w來看,圖中沒有明顯的急劇升降,說明模型對k值的選取不是很敏感。同時,選取不同k值取得的性能均超過基線模型,這表明匹配信號是在特征選擇前一個階段基于圖的交互過程中獲得的。

3.5.3 不同α值在匹配度加權計算上的性能對比

為了探究模型中超參數α的不同值對模型性能的影響,本文設置了不同α值在本文模型上進行實驗,實驗結果如表4 所示。

表4 閾值α 對中文查詢實驗性能的影響

從表4 的實驗結果可以看出:雖然當閾值低于0.6時,在三個指標上的性能都有明顯降低,但在閾值從0.1提升到0.5 過程中,實驗性能逐漸提升,在一定程度上驗證了融入事件要素關聯圖可以有效捕獲查詢文檔中的核心事件信息;當閾值大于0.6 時,模型性能開始出現下降,可能原因是當增加源語言關鍵短語的文檔相關性得分時,使排序過于依賴單語的相似性,弱化了雙語之間相似度,反而在最終的排序結果上并不理想。

4 結 語

為了實現漢越跨語言事件檢索,本文提出了一種基于要素關聯圖的漢越跨語言事件檢索方法。對于一對查詢-文檔,將文檔轉換為事件關聯圖的形式,通過節點中詞與查詢詞的交互分配節點匹配特征;然后通過圖神經網絡傳播匹配信號;接下來對查詢進行k-max-pooling策略選擇,將其特征輸入神經網絡層中以估計相關分數;最后在單語相關分數的基礎上加權計算雙語文檔相似度分數,得到最終雙語文檔檢索排序結果。實驗結果表明,本文的雙語模型達到了單語模型的準確率,在漢越新聞事件排序中取得了很好的效果。

猜你喜歡
文檔關聯檢索
淺談Matlab與Word文檔的應用接口
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
有人一聲不吭向你扔了個文檔
“一帶一路”遞進,關聯民生更緊
2019年第4-6期便捷檢索目錄
奇趣搭配
智趣
基于RI碼計算的Word復制文檔鑒別
專利檢索中“語義”的表現
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合