?

基于多任務學習的短文本實體鏈接方法

2022-03-12 05:56朱艷輝梁文桐歐陽康孔令巍黃雅淋
計算機工程 2022年3期
關鍵詞:多任務短文閾值

詹 飛,朱艷輝,梁文桐,張 旭,歐陽康,孔令巍,黃雅淋

(1.湖南工業大學 計算機學院,湖南 株洲 412008;2.湖南省智能信息感知及處理技術重點實驗室,湖南 株洲 412008)

0 概述

實體鏈接是知識圖譜構建[1]和應用[2]過程中的關鍵技術,在智能問答、信息檢索等知識圖譜的相關領域得到廣泛應用[3]。實體鏈接任務的目標是將文本中的實體指稱指向知識庫中的特定實體,從而明確文本中實體指稱的含義。實體鏈接通常分為候選實體生成和候選實體排序兩個階段,候選實體排序是實體鏈接過程中的研究重點。候選實體排序階段對實體指稱和候選實體集中的所有候選實體進行相關度排序,選擇相關度最大的候選實體作為實體指稱對應的鏈接實體。

已有的實體鏈接方法主要針對長文本語境[4],針對短文本的實體鏈接方法研究較少。隨著社交平臺的發展,越來越多的網絡文本以短文本的形態呈現,面向短文本的實體鏈接方法具有重要的研究價值。面向短文本的實體鏈接與面向長文本的實體鏈接有所不同,短文本的特點是文本上下文缺失、表達不正式、語法結構不完整等。短文本的這些特點導致傳統的實體鏈接方法針對短文本實體鏈接的效果有待提高。

針對短文本的特點,可以將多任務學習[5]引入短文本實體鏈接過程中。多任務學習是機器學習領域的一個分支[6],多個相關的任務并行學習,不同任務之間共享部分模型參數。多任務學習在機器學習的很多應用領域均取得了優秀的成果[7-9],如自然語言處理(Natural Language Processing,NLP)[10]和計算機視覺(Computer Vision,CV)[11]。與傳統的單任務學習相比,多個任務的并行學習能夠使模型學到更加通用的底層表達,從而提高模型的泛化能力,優化模型在主任務中的表現。實體指稱的類別是實體鏈接過程中的重要信息[12],對短文本實體鏈接任務起積極作用,所以將實體分類任務作為輔助任務進行多任務學習。

為解決信息不充分導致的短文本實體鏈接準確率較低的問題,本文提出一種基于多任務學習的短文本實體鏈接方法。通過構建基于多任務學習的短文本實體鏈接模型,將實體分類任務作為短文本實體鏈接的輔助任務進行多任務學習。輔助任務能夠緩解短文本實體鏈接過程中信息不充分的問題,促使模型學習到更加通用的底層表達,從而提高模型的泛化能力,優化模型在短文本實體鏈接任務中的處理效果。

1 相關工作

1.1 多任務學習

多任務學習是機器學習的一種學習模式,其目的是利用多個相關任務中包含的信息來提高模型在各個任務中的泛化能力和性能。多任務學習包含一組相關任務ym,m∈M,第i個任務的訓練集為Ti,包含Ni個樣本,如式(1)所示:

其中:x(i,j)和y(i,j)表示第i個任務中的第j個樣本及其對應的標簽。

定義M中各個任務對應的模型分別為fm(x;θ),m∈M,多任務學習的聯合目標函數為所有任務損失函數的線性加權,聯合目標函數的計算式如式(2)所示:

其中:li(·)為第i個任務的損失函數;ηi是第i個任務的權重;θ表示模型中包含的所有參數。各個任務的權重可以根據該任務的重要程度及優化優先度來賦值。

多任務學習的難點在于各個任務之間共享機制的設計。常用的參數共享策略主要有硬共享模式和軟共享模式,層次共享模式和共有-私有模式也被針對特定任務提出。硬共享模式是使用范圍較廣的共享模式,不同任務的神經網絡模型共享底層網絡部分,然后針對每個任務設置特定的私有網絡層。硬共享能夠通過多個相關任務的協同訓練獲取更加通用的底層表達,從而提高模型泛化能力,優化模型在目標任務上的表現。軟共享模式中各個任務并不顯式地共享模型結構,但每個任務均可以從其他任務中學習部分信息來優化當前任務的表現。

1.2 實體鏈接

當前對實體鏈接的研究大多基于深度學習方法[13-15],基本思路是使用神經網絡模型來計算實體指稱上下文和候選實體上下文之間的語義匹配程度。許多研究人員將候選實體排序問題轉化為二分類問題進行處理,對于給定實體指稱對應的候選實體,用二分類器來判斷該候選實體是否為當前實體指稱對應的鏈接實體。PHAN 等[16]首次將雙向LSTM 和注意力機制引入實體鏈接任務中,對實體指稱左側和右側的上下文分別獨立地進行編碼,在當時取得了較優的性能。LIU 等[17]將一種新的注意力機制引入實體指稱上下文的編碼過程,從而能夠捕獲實體指稱周圍的重要文本片段。SIL 等[18]將深度學習方法和相似性模型相結合,能夠有效獲取實體指稱上下文與目標候選實體的相似度。

隨著短文本實體鏈接的需求增長,近年來一些研究人員針對短文本語境的實體鏈接方法進行了研究。GU 等[19]提出一種多輪多選擇閱讀理解框架來解決短文本實體鏈接問題,首先利用實體指稱的上下文在搜索引擎中進行查詢,然后使用選擇模塊從查詢所得的候選實體中識別正確的鏈接實體。ZHANG 等[20]提出基于局部注意力機制的短文本實體鏈接方法,通過對實體指稱的上下文與候選實體的描述文本進行拼接,將短文本轉換為長文本,并引入局部注意力機制來緩解長距離依賴問題,強化局部的上下文信息。本文將多任務學習思想引入短文本實體鏈接過程中,以實體分類任務作為輔助任務進行多任務學習,緩解短文本實體鏈接過程中的信息不充分問題。

2 基于多任務學習的短文本實體鏈接模型構建

本文提出的基于多任務學習的短文本實體鏈接模型整體結構如圖1 所示,由BERT 編碼器、實體分類模塊和實體鏈接模塊構成。

圖1 基于多任務學習的短文本實體鏈接模型Fig.1 Short text entity linking model based on multi-task learning

模型的參數共享模式采用硬共享模式,實體分類模型和實體鏈接模型共同使用BERT編碼器部分。BERT編碼器與實體分類模塊構成實體分類模型,與實體鏈接模塊構成短文本實體鏈接模型。模型訓練期間,實體分類和短文本實體鏈接任務交替進行,實體指稱上下文和該實體指稱對應的候選實體上下文作為實體鏈接任務的輸入,實體指稱上下文作為實體分類任務的輸入。來自兩個任務的梯度信息均會傳遞到共享的BERT 編碼器部分并更新模型參數,從而得到更加通用的底層表達。根據式(2),將多任務學習模型的損失函數定義為:

其中:α和β為超參數,分別表示實體鏈接模塊的損失和實體分類模塊的損失在總的損失中所占的比重,較大的參數值會在訓練時引導模型優先學習當前任務,用于防止單個損失過大對模型整體訓練產生負面影響;Llink和Ltype分別表示實體鏈接模塊和實體分類模塊的損失。

2.1 候選實體生成

常用的候選實體集構建方法是將實體指稱對應的所有候選實體加入候選實體集中[20],分別計算每個候選實體上下文與實體指稱上下文的相關度,若所有候選實體相關度得分的最大值大于給定閾值,則認為相關度最大的候選實體為實體指稱對應的正確鏈接實體。若所有候選實體對應的相關度均小于閾值,則認為該實體指稱在知識庫中沒有對應的實體。

對上述候選實體集構建方法進行改進,首先將實體指稱對應的所有候選實體加入候選實體集中,然后對候選實體集增加候選實體“NIL”,NIL 表示實體指稱在知識庫中沒有對應的實體,將NIL 也作為一個候選實體參與訓練過程,其對應的候選實體上下文記為“未知實體”。預測時,取相關度最大的候選實體作為實體指稱對應的實體。若NIL 對應的相關度最大,則認為該實體指稱在知識庫中沒有對應的實體。

2.2 BERT 編碼器

預訓練語言模型近年為NLP 領域的發展做出了很大貢獻,本文使用BERT[21]預訓練語言模型作為共享編碼器,其強大的語言表征能力可以提高下游實體鏈接和實體分類任務的性能。BERT 模型結構如圖2 所示,以雙向Transformer 編碼器作為模型的基本組成單元。

圖2 BERT 模型結構Fig.2 Structure of BERT model

模型的輸入是詞嵌入、位置嵌入和句子嵌入3 個部分的和,詞嵌入為中文文本中每個字對應的向量,位置嵌入包含每個字的時序信息,句子嵌入用來區分輸入的兩個句子。位置嵌入的計算式如式(4)和式(5)所示:

其中:Ppos表示字符在文本中的位置;i表示詞向量的位置序號;dmodel表示詞向量的維度。

將疊加之后的向量輸入Transformer 編碼器中,從而得到最終的包含語義信息的隱藏層向量,將隱藏層向量輸入下游的任務模塊進行相應任務的訓練。

2.3 短文本實體鏈接模塊

本文將短文本實體鏈接問題轉換為二分類問題進行處理。短文本實體鏈接模塊采用基于BERT 的實體鏈接模型,模型架構如圖3 所示。首先對實體指稱構建對應的候選實體集,候選實體集構建方法見2.1 節。候選實體集構建完成后,對候選實體集中的候選實體依次進行訓練。將實體指稱上下文和候選實體上下文以[SEP]分隔符隔開并輸入BERT,然后將BERT 輸出的CLS 位置向量與實體指稱對應的開始和結束位置向量拼接作為下一層全連接層的輸入。接著,之后再經過Dropout 層與全連接層得到模型最終輸出,使用sigmoid 函數進行激活,最終得到實體指稱和當前候選實體的相關度概率得分y,把實體指稱上下文與候選實體上下文的相關性問題轉化為二分類問題進行處理。將實體鏈接模型得到的實體指稱與候選實體的相關度概率得分y與預先設定的閾值K進行比較,若y大于閾值K,則認為該候選實體是正確的鏈接實體,否則認為不是。若候選實體集中有多個候選實體的相關度概率得分大于閾值K,則取y值最大的候選實體作為正確的鏈接實體。

圖3 基于BERT 的實體鏈接模型Fig.3 Entity linking model based on BERT

2.4 實體分類模塊

本文使用的CCKS2020 評測任務二數據集中,每個實體指稱均有對應的類別,而實體指稱的類別是實體鏈接過程中的重要信息,因此,將實體分類任務作為輔助任務幫助模型學習到更加通用的底層表達,從而提高模型的泛化能力,優化模型在短文本實體鏈接任務中的表現。圖4 所示為實體分類模塊的模型架構。

圖4 實體分類模型Fig.4 Entity type model

數據集中的實體指稱共有24 類,故將實體指稱分類問題看作24 分類問題。將實體指稱上下文輸入BERT,然后將BERT 輸出的CLS 位置向量與實體指稱對應的開始和結束位置向量拼接作為下一層全連接層的輸入,之后再經過Dropout 層與全連接層得到模型最終輸出,使用Softmax 函數進行激活,得到實體指稱的類別概率分布。

3 實驗結果與分析

為證明本文所提方法的有效性,根據不同的候選實體生成方法、不同的閾值K以及是否使用多任務學習模型分別進行短文本實體鏈接實驗。

3.1 實驗數據

本文選用CCKS2020(2020 全國知識圖譜與語義計算大會)評測任務2 提供的數據集。該數據集包括標準數據集和知識庫。標準數據集由訓練集、驗證集和測試集組成,整體標注數據大約10 萬條,按8∶1∶1 比例分配,3 份數據均通過百度眾包標注生成。標注數據集主要來自于:真實的互聯網網頁標題數據、視頻標題數據、用戶搜索query。

數據集中的知識庫來自百度百科知識庫,知識庫中的每個實體均提供了實體名稱,實體對應的概念類型,以及與此實體相關的一系列二元組信息。

3.2 評價指標

給定短文本輸入Text,此Text 中有N個實體指稱:MText={m1,m2,…,mN},每個實體指稱鏈接到知識庫的實 體id 為EText={e1,e2,…,eN},實體鏈接系統輸出的鏈接結果為,則實體鏈接的準確率、召回率和F 值定義如式(6)所示:

3.3 實驗環境

本文實驗采用的操作系統為Ubuntu,CPU 為Intel?CoreTMi7-9700K @ 3.60 GHz,GPU 為NVIDIA RTX 2080Ti(11 GB),Python3.6 版本,Tensorflow 版本為1.13.1。

3.4 參數設置

本文所使用的BERT 為包含12 層transformer 的BERT-base,學習率為1×10-5,最大序列長度為256,訓練batch_size 為8,實體鏈接模塊和實體分類模塊損失的權重α和β為1。

3.5 結果分析

3.5.1 候選實體生成實驗

對不同的的候選實體生成方法進行實驗,記候選實體集中不包含“NIL”實體的候選實體生成方法為方法1,候選實體集中包含“NIL”實體的候選實體生成方法為方法2。Model-signal 代表采用2.3 節中的基于BERT 編碼器的單任務實體鏈接模型,Modelmulti 代表本文提出的基于多任務學習的短文本實體鏈接模型。2 個模型使用不同候選實體生成方法時取得的實體鏈接F 值如表1 所示。

表1 兩種候選實體生成方法對應的實體鏈接結果Table 1 Entity linking results corresponding to the two candidate entity generation methods

由表1 可知,Model-signal 和Model-multi 兩個模型采用方法2 進行實體鏈接實驗得到的F 值均高于采用方法1 得到的F 值。

分析實驗發現,相當一部分候選實體集中并不存在實體指稱對應的正確鏈接實體,且該部分候選實體集中與實體指稱相關度最大的候選實體所取得的相關度概率得分仍然較小,此時實體指稱對應的正確鏈接實體應為NIL,通過閾值K的取值實驗解決此類問題。

3.5.2 閾值K的取值實驗

設定閾值K,將實體鏈接模型得到的實體指稱與候選實體的相關度概率得分y與閾值K進行比較,若y大于閾值K,則認為該候選實體是正確的鏈接實體,否則認為不是。若候選實體集中有多個候選實體的相關度概率得分大于閾值K,則取y值最大的候選實體作為正確的鏈接實體。各模型的實體鏈接F 值隨閾值K的變化情況如表2 所示,實驗結果如圖5 所示。

圖5 各模型實驗結果Fig.5 Experimental results of each model

表2 實體鏈接F 值隨閾值K 的變化情況Table 2 Change of entity link F value with threshold K

由表2 和圖5 可知,各模型在候選實體生成方法取方法1 時,F 值隨閾值K的增大呈上升趨勢,當達到最大值后呈下降趨勢,Model-signal 和Model-multi模型均在閾值K=0.25 時F 值達到最大;在候選實體生成方法取方法2 時,F 值隨閾值K的增大呈下降趨勢,Model-signal 和Model-multi 模型均在閾值K=0時F 值達到最大。

3.5.3 對比實驗與分析

單任務和多任務學習模型的實體鏈接F 值對比實驗結果如表3 所示。由表3 可知,對于候選實體生成方法,將NIL 實體加入候選實體集中的方法2優于方法1;Model-multi 模型的表現優于Model-signal 模型?;诙嗳蝿諏W習的短文本實體鏈接方法在采用兩種候選實體生成方法時的表現均優于相同結構的單任務模型,多任務模型在采用方法2進行候選實體生成且閾值K=0時取得最優F 值0.894 9?;诙嗳蝿諏W習的短文本實體鏈接方法優于相同結構的單任務模型,這證明了本文提出的基于多任務學習的短文本實體鏈接方法的有效性。

表3 對比實驗結果Table 3 Results of comparative experiments

4 結束語

針對短文本中信息不充分導致實體指稱和候選實體相關度計算依據不足的問題,本文提出一種基于多任務學習的短文本實體鏈接方法。實體指稱的類別是實體鏈接過程中的重要信息,對短文本實體鏈接任務具有積極作用,因此將實體分類任務作為輔助任務進行多任務學習。實驗結果表明,基于多任務學習的短文本實體鏈接方法能夠有效提高短文本實體鏈接的F 值,輔助任務的引入緩解了短文本實體鏈接過程中的信息不充分問題。多任務學習思想在短文本實體鏈接任務上的有效性對于自然語言處理領域的其他任務也有一定的啟發意義。本文方法需要用到知識庫中的實體類別信息,下一步將對面向中文的實體分類任務進行研究,提高該方法的泛化能力。

猜你喜歡
多任務短文閾值
數字時代的注意困境:媒體多任務的視角*
結合自監督學習的多任務文本語義匹配方法
土石壩壩體失穩破壞降水閾值的確定方法
面向多任務的無人系統通信及控制系統設計與實現
采用紅細胞沉降率和C-反應蛋白作為假體周圍感染的閾值
KEYS
Keys
基于Reworks操作系統的信息交互軟件設計
基于遲滯比較器的雙閾值穩壓供電控制電路
一種改進的小波閾值降噪方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合