?

基于ColBert-EL 和MRC 模型的零樣本實體鏈接

2022-06-23 09:17王雪瑩程路易
智能計算機與應用 2022年6期
關鍵詞:排序編碼樣本

王雪瑩,程路易,徐 波

(東華大學 計算機科學與技術學院,上海 201620)

0 引言

實體鏈接任務的目標是將文本中的實體指稱項鏈接到知識庫中對應的實體,是許多信息抽取和自然語言理解等應用的重要組成部分,因其解決了命名實體的詞匯歧義。傳統的實體鏈接解決方案通常假定在測試中要鏈接的實體在訓練過程中已經見過,但是在實際應用中,這種假設往往并不成立。要鏈接的實體往往在訓練集中沒有出現過,并且每個實體也沒有很多的結構化先驗信息,如別名表、先驗概率、結構化數據等,僅有一段關于實體的摘要信息。這種情況被稱為零樣本實體鏈接。

當前零樣本實體鏈接方法主要采取兩階段的策略,如圖1 所示,第一階段是候選實體生成,其目標是快速找到文本中實體指稱項在知識庫中的候選實體集合;第二階段是候選實體排序,其目標是對候選實體進行精準的重排序,并返回得分最高的實體作為指稱項匹配的實體。然而,這些方法主要存在2 個問題。第一個問題是在候選實體生成階段,由于過分追求效率,對指稱項所在文本和實體摘要進行單獨編碼,沒有充分考慮兩者之間的交互,導致召回率不高;第二個問題是在實體排序階段,只是單獨地考慮了每個候選實體和指稱項的關系,未將所有候選實體作為一個整體進行考慮,這在一定程度上影響了整體的精度。

圖1 兩階段零樣本實體鏈接方法Fig.1 Two-stage zero-shot entity linking method

綜前問題所述,本文提出了一種基于ColBert-EL 和MRC 模型的零樣本實體鏈接方法。在候選實體生成階段,針對指稱項所在文本和實體摘要缺乏交互的問題,提出了一個基于ColBert的變種方法-ColBert-EL,既可以讓指稱項所在文本和實體摘要進行充分交互,又可以快速地檢索。在候選實體排序階段,針對所有候選實體沒有整體考慮的問題,本文將其建模成一個多項選擇問題,并提出了一個基于機器閱讀理解的模型來對結果進行統一排序。

研究中,在公開的零樣本實體鏈接數據集ZESHEL上進行了實驗,與基線方法的結果相比,在候選實體生成階段,召回率提升了5.9%,在候選實體排序階段,準確率提升了4.12%。實驗結果驗證了本文提出方法的有效性。

1 相關工作

零樣本實體鏈接可以分為候選實體生成和候選實體排序兩個階段。在候選實體生成階段,主要分為基于詞義的方法和基于語義的方法。例如,文獻[6]中使用BM25 基于詞義的方法來生成候選實體。但這種方法存在詞匯不匹配問題,這會導致模型在一開始就把正確答案排除在外,導致召回率過低,在后一階段即使使用復雜的模型也無法找到正確答案。文獻[7]中使用了BERT 等基于語義的方法來生成候選實體?;舅悸肥菍⒅阜Q項所在文本和實體摘要使用BERT 進行單獨編碼,最后計算兩者的相似性。然而這種方法沒有充分考慮兩者之間的交互,依然會導致召回率不高。

在候選實體排序階段,目前的零樣本實體鏈接方法主要采用Cross-encoder 的方法進行重排序。研究時將實體指稱項所在文本和每個候選實體的摘要進行拼接后,利用Bert 編碼器得到拼接后句子的編碼,再通過一個全連接層輸出匹配的分數。最后取所有候選實體中分數最大者作為當前實體指稱項應該鏈接的實體。但是這種方法是單獨考慮每一個候選實體的,在整體的精度上的表現有待加強。

2 方法

2.1 任務定義

2.2 候選實體生成

本文提出了一種基于ColBert的變種方法-ColBert-EL 用于生成候選實體。ColBert 最早用于信息檢索領域,主要用于估計查詢和文檔的相關性。其基本思路是先對文本中的每個詞向量和實體摘要中的每個詞向量進行獨立編碼,然后采用一種后期交互(Late Interaction)的方式來計算指稱項和候選實體的相似度,考慮到了匹配的效率,又讓文本和摘要進行了充分交互。本文對其原始模型的輸入進行了重新設計,使其能夠用于實體鏈接任務。ColBert-EL模型結構如圖2 所示。

圖2 ColBert-EL 模型結構圖Fig.2 Structure diagram of ColBert-EL model

對于每個實體指稱項,其具體表示形式為:

實體及其摘要的具體輸入形式為:

得到實體指稱項和實體相關詞向量的編碼后,編碼器將輸出編碼通過一個沒有激活函數的線性層。該層減小每個詞向量編碼的輸出維度,使其小于Bert 編碼器的隱藏層維度,用于控制ColBert-EL的計算成本。最后,每一個輸出編碼將會用范式被歸一化。這樣做的優點是任意2 個編碼的點積的結果將落在[-1,1]范圍內,等同于兩者的余弦相似度。

綜上,當給出T=[,,…,m],T=[,,…,e]后,得到實體指稱項和實體編碼的方式如下:

當得到實體指稱項和實體相關信息的編碼后,利用公式(3)計算實體與當前實體指稱項的相關性分數:

也就是,先計算實體指稱項的每一個詞編碼與實體所有詞向量編碼的余弦相似度,選出最大者作為實體指稱項當前詞編碼的最大相似度分數。將實體指稱項每一個詞編碼的最大余弦相似度分數相加,便得到當前實體與實體指稱項的相關性分數。

2.3 候選實體排序

候選實體排序的目標是對實體指稱項的每個候選實體進行重新排序,選出與實體指稱項相關性最大的候選實體,并將其當作實體指稱項應該鏈接的實體。該過程的輸出結果直接決定了整體框架的好壞。因此,本文使用了一個基于機器閱讀理解(MRC)的模型來充分考慮指稱項文本和候選實體摘要之間的交互,并且考慮了全部的候選實體。MRC 模型結構如圖3 所示。

圖3 MRC 模型結構圖Fig.3 Structure diagram of MRC model

具體來說,對于每一個候選實體,研究將實體的摘要信息和指稱項所在文本進行拼接,拼接結果如下所示:

這種輸入形式使得實體指稱項和候選實體的信息通過編碼器得到更深層次的交互,更好地捕捉到實體指稱項和實體之間的語義信息和句法特征,從而能夠更好地完成鏈接的任務。

此后,研究將輸入送進Bert 編碼器得到每個詞向量的編碼,再取其中第一位的輸出送入一個線性層,最終得到一個標量、即候選實體與實體指稱項的相關性分數,具體計算見公式(4):

其中,T是實體指稱項與實體拼接后的輸入;(·)是將輸入進行編碼的編碼器;(·)是只保留第一位編碼的函數;(·)是將一維向量轉變為標量的線性層。

為了通盤考慮全部的候選實體,將全部候選實體的相關性分數輸入到一個層,并取得分最高的候選實體作為實體指稱項應該鏈接的實體。計算公式如下所示:

其中,e表示第個候選實體。

2.4 訓練

ColBert-EL 模型的訓練過程如下:模型的輸入是三元組,e,,這里是實體指稱項及其上下文,e是實體指稱項的正例實體,是實體指稱項的負例實體。正例實體是由數據集給定的,而負例實體是通過TF-IDF 技術計算得到的,是和正確實體的摘要最相似的7 個實體摘要。ColBert-EL 模型是一個二分類任務,模型參數是通過二元交叉熵損失函數來進行優化的。

MRC 模型的訓練過程如下:構建了2 種不同的訓練集來訓練MRC 模型。第一種是通過用ColBert-EL模型生成的候選實體來訓練MRC,第二種是通過用TF-IDF 技術生成的候選實體來訓練MRC。在對MRC 進行訓練時,如果數據中實體指稱項的正確實體不包含于候選實體集合中,則將丟棄這條數據。由于利用TF-IDF 技術生成的候選實體集合中實體指稱項的候選實體個數并不總是相同的,就可將候選實體個數相同的實體指稱項數據放到一個批次中,用于對MRC 模型的訓練。本文構建模型的參數是通過交叉熵損失函數來優化的,其中負例是候選實體集合中的所有非正例實體。

2.5 檢索優化

ColBert-EL 模型采用后期交互的方式,對每個可能的實體進行詳盡的評估是極其消耗計算資源的。由于文中只關注其中分數較高的部分實體,為了加快檢索效率,先通過一個粗粒度的匹配算法快速從整個實體集合的離線索引中找到Top個相似實體,再使用ColBert-EL 算法對這些實體進行相似度計算。

3 實驗

3.1 實驗準備

本文實驗中使用的數據集是ZESHEL,這是由文獻[6]在提出零樣本實體鏈接任務時從維基百科文檔中創建的。數據集一共劃分了16 個領域,每個領域內的實體數量范圍從10 k 到100 k 不等。訓練集、驗證集、測試集分別擁有8、4、4 個不同的領域,包含的實體指稱項個數分別是49 k、10 k、10 k。研究中選用Bert-base作為ColBert-EL 模型和MRC模型的基礎編碼器,選用AdamW作為優化器。

3.2 對比方法

本文的方法主要是評估零樣本實體鏈接系統的鏈接性能。研究時分別評估了兩階段模型的表現并與目前最優的方案做比較。在候選實體生成階段,與文獻[6]提出的BM25 模型和文獻[7]提出的Biencoder 模型進行比較;在候選實體排序階段,又與文獻[7]中的Cross-encoder 模型進行了比較。

3.3 評估指標

模型預測的結果最終會被歸為以下4 類:為將正類預測為正類數;為將負類預測為負類數;為將負類預測為正類數;為將正類預測為負類數。

對候選實體生成模型評估的指標為召回率(),該值可由如下計算公式求得:

對候選實體排序模型評估的指標為和。的計算公式可寫為:

是對候選實體集合中包含正確實體的測試集中的樣例在實體鏈接系統上的表現,即評估時不考慮那些候選實體集合中不包含正確實體的測試集實體指稱項數據。而是指實體鏈接系統在所有測試集上的表現。

3.4 候選實體生成實驗評估

ColBert-EL 模型在訓練集上訓練之后,挑選在驗證集上表現最好的模型用來對測試集數據進行測試。在候選實體的選取中,基線選擇將實體輸入的位編碼與實體指稱項輸入的位編碼做點積以獲取兩者之間的相似度。與之相比,研究中充分利用了實體指稱項和實體輸入的每一位詞向量的編碼表示,計算了每一個可能的實體與實體指稱項之間的相關性。同時,復現了基線的模型,并得到了基線模型在測試集4 個領域的表現。實驗證明,本文提出的模型精度優于基線,測試集總體表現詳見表1,各個領域表現詳見表2。

表1 訓練集/測試集前64 位召回率Tab.1 Recall@64 on train/test set %

表2 測試集各領域前64 位的召回率Tab.2 Recall@64 on each domain within test set %

3.5 候選實體排序實驗評估

在用ColBert-EL 模型為每個實體指稱項評估完前個實體、并得到64 個候選實體后,就在這些候選實體上訓練了MRC 模型,且在測試集上對MRC 模型進行了測試,結果見表3。由表3 可知,本文研究在端到端的精度上超越了基線的精度。

表3 MRC 模型非標準化精度Tab.3 The Unnormalized Accuracy of MRC model

為了進一步驗證MRC 模型的有效性,研究又在文獻[7]提供的候選實體集上對MRC 進行了訓練。由于在用TF-IDF 技術為實體指稱項生成實體的時候,每個實體指稱項的候選實體個數不總是一致的,因此本文將候選實體個數相同的數據放到同一批次中進行訓練。具體的分數見表4。

表4 MRC 模型標準化精度Tab.4 The Normalized Accuracy of MRC model

4 結束語

本文提出了一種基于ColBert-EL 和MRC 模型的零樣本實體鏈接方法。在候選實體生成階段,為了加快檢索效率,研究中先通過一個粗粒度的匹配算法快速從整個實體集合的離線索引中找到Top個相似實體,再使用ColBert-EL 算法對這些實體進行相似度計算。在候選實體排序階段,則考慮了全部的候選實體,將其建模成一個多項選擇問題,提出了一個基于機器閱讀理解的模型來對結果進行統一排序。本次研究中在零樣本實體鏈接數據集ZESHEL 上分別對候選實體生成和候選實體排序兩階段的效果進行評估,實驗結果驗證了本文提出方法的有效性。

猜你喜歡
排序編碼樣本
住院病案首頁ICD編碼質量在DRG付費中的應用
恐怖排序
節日排序
高效視頻編碼幀內快速深度決策算法
直擊高考中的用樣本估計總體
隨機微分方程的樣本Lyapunov二次型估計
基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
七年級數學下冊期末檢測題(B)
不斷修繕 建立完善的企業編碼管理體系
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合