?

基于協同注意力和遞歸隨機游走的實體鏈接方法

2022-09-07 03:20李圣杰史一民
計算機應用與軟件 2022年8期
關鍵詞:文檔局部實體

李圣杰 周 新 史一民

(大連海事大學信息科學技術學院 遼寧 大連 116026)

0 引 言

語言表達的歧義性使得同一詞語在不同的上下文中有多種不同的語義,如“華盛頓”可能表示一個州、一個人名、一個大學名,亦或是一個湖泊名。實體鏈接(Entity Linking, EL)則將一個文檔中的指稱(mention)鏈接到知識庫(Knowledge Base, KB)中的相應實體。實體鏈接為處理語言表達的歧義性提供了一種解決方案,在互動問答[1]、信息抽取[2]和語義搜索[3]等眾多領域發揮重要作用。然而,在大數據時代,數據呈現數據量大、表達多樣性和數據價值密度低等特征導致這項任務越來越具有挑戰性。實體鏈接包含三個子任務:(1) 指稱探測,識別出可能需要被鏈接的文本片段;(2) 候選實體生成,即為文檔中的每個指稱在知識庫中找到相應的一組候選實體;(3) 實體消歧,通過計算指稱和候選實體之間的得分,依據得分排序選擇最可能的候選實體為最終結果。相比于指稱探測和候選實體的生成,實體消歧任務更具有挑戰性,因此受到學者的熱切關注。依據實體鏈接時僅關注單個指稱還是考慮一個文檔中所有指稱間的語義相關性,實體鏈接的方法主要分為單一實體鏈接和集成實體鏈接。單一實體鏈接根據單個指稱和候選實體的相關性來實現實體鏈接。早期實體鏈接方法多屬于單一實體鏈接,Nguyen等[4]利用維基百科錨文本等信息計算指稱和候選實體的相關性;Francis-Landau等[5]使用卷積神經網絡(CNN),分別學習文本文檔和規范實體頁面的表示,計算指稱和相應候選實體之間的相似度,然后再融合多種特征進行實體鏈接。單一實體鏈接只利用單個指稱的相關信息,忽略了文檔中實體之間的聯系,實體鏈接的準確性并不是很高。針對這一不足,研究者提出了集成實體鏈接方法,Guo等[6]利用重啟隨機游走算法進行集體消歧;Cao等[7]利用圖卷積神經網絡(GCN)進行集體消歧;Xue等[8]提出RRWEL方法,使用隨機游走實現了實體鏈接決策的一致性。然而,大多數集成實體鏈接方法,在嵌入指稱和候選實體的相關性信息時,它們的表示是有限制性的,沒有揭示注意力的焦點,這樣的表示相當于“黑匣子”。近幾年來,注意力機制被廣泛應用到實體鏈接中。Lazic等[9]使用EM算法提取最有區別的指稱上下文單詞以消除歧義;Ganea等[10]使用基于神經網絡的指稱上下文的注意機制。然而,這些方法只注意到指稱的上下文,而忽略了注意力機制的其他方面,如:候選實體描述的注意。

本文的主要貢獻如下:

(1) 在指稱的上下文和候選實體的描述中使用協同注意力,聚焦對實體鏈接最有用的單詞,揭示注意力的焦點。

(2) 使用遞歸隨機游走策略將局部兼容性和實體之間的一致性結合起來實現集成消歧。

1 問題定義

給一個包含n個指稱的文檔Di,每一個指稱mi與知識庫KB中的一個候選實體集合ε(mi)={e1,e2,…,ek}對應。文檔Di中的所有指稱組成指稱集m(Di),文檔Di中所有指稱的候選實體組成候選實體集合E(Di)。表1給出實體鏈接的具體符號含義。形式上,可以將實體鏈接(Entity Linking,EL)定義為:在給定文檔的指稱集中,目標是找到相應的實體分配:

Γ:m(Di)→E(Di)

(1)

示例1文檔“by the use ofwarmbloodhorse … by the use ofdrafthorse and Arabian … is usually bay,chestnut, brown or black in color”有“warmblood”“draft”和“chestnut”三個指稱?!皐armblood”對應的候選實體集合為{warmblood};“draft”對應的候選實體集合為{Draft horse、constriation};“chestnut”對應的候選實體集合為{Equine coat color,color}。通過相關實體鏈接的計算,這兩個指稱應該被鏈接到候選實體“Draft horse”和“Equine coat color”而不是“constriation”和“color”。

表1 實體鏈接的符號定義

2 相關工作

實體鏈接主要考慮了四種類型的特征(如表2所示):(1) 先驗知識重要性,實體的先驗知識重要性或者是指稱和候選實體之間的先驗知識重要性,在任何一種情況下,得分都是根據先前的重要性估算的。(2) 上下文相似性,計算指稱上下文與候選實體描述之間的文本相似性,指稱和實體的上下文提供了有利于消歧的附加信息。(3) 指稱和候選實體的相關性、實體的類型和字符串的比較也有助于消歧。(4) 文檔中所有實體鏈接決策之間的一致性,測量一對實體之間的語義相關度。

表2 實體鏈接的特征

根據對每個指稱單獨進行消歧還是一個文檔中的所有指稱集體進行消歧,實體鏈接的方法主要分為單一實體鏈接和集成實體鏈接兩種。前者更高效,后者的準確率更高。早期實體鏈接任務主要利用單一實體鏈接方法,近年來,集成實體鏈接方法逐漸成為研究的熱點[21]。

(1) 單一實體鏈接方法。單一實體鏈接分別對每一個指稱進行消歧,并將實體消歧看作是一個排序問題,最后選擇得分最高的候選實體。單一實體鏈接方法主要使用了四個特征中的候選實體和指稱的先驗知識重要性、上下文相似性和指稱-候選實體的相關性。傳統單一實體鏈接方法使用手工定義的特征計算指稱和候選實體之間的相似性,通常是基于上下文的統計和詞匯匹配,例如,指稱和候選實體之間字符串的相似性、指稱對應各候選實體的先驗概率、知識庫中指向候選實體的鏈接數等。手工定義的特征只包含淺層的信息。隨著深度神經網絡的興起,發現深度神經網絡可以學習到更多的抽象特征,彌補了傳統方法的不足。最近的研究大多采用卷積神經網絡(CNN)和長短記憶網絡(LSTM)來獲取實體更多的潛在語義特征[5,22-23]。單一實體鏈接方法可以形式化地表示為融合多個特征的形式:

(2)

式中:fk(ej,mi)可以是上下文無關或者上下文相關的特征,λk為相應的特征權重。

單一實體鏈接方法只考慮到單個指稱,忽略了指稱之間的關聯,因此,研究者提出一種集成實體鏈接方法,集成實體鏈接方法考慮到了一個文檔中所有實體之間的相關性。

(2) 集成實體鏈接方法。有效地消除歧義需要將局部兼容性(包括先驗的重要性、上下文相似性和指稱-候選實體的相關性)和所有實體的全局一致性結合起來,將文檔中的實體鏈接決策聯系在一起。集成實體鏈接方法假設同一文檔中的指稱共享相似主題,考慮到了一個文檔中的所有指稱之間的關系,最大限度地提高整個文檔中實體的主題一致性。最常見的方法是建立一個圖來模擬指稱和實體之間,實體和實體之間的相似性??梢岳脠D的一些算法如:PageRank[24]和隨機游走[8,25]等計算所有實體的全局一致性。集成實體鏈接方法目標函數可表示為:

(3)

式中:φ(mi,ej)為指稱和候選實體的局部兼容性,如式(2)所示;ψ(Γ)為在文檔中所有實體之間的一致性函數;Γ為一種解決方案表示指稱-候選實體對的集合。

Deep-ED(Ganea等[10])使用指稱上下文的注意機制,把深度LBP(循環置信傳播)方法應用到集成實體鏈接方法中。而本文不僅使用指稱上下文和候選實體描述的協同注意力機制,擴大了注意范圍,而且把遞歸隨機游走應用到集成實體鏈接方法中。Le等[25]在Ganea等[10]的基礎上,增加了隱關系信息。而本文使用協同注意力機制,將遞歸隨機游走應用于全局訓練問題中。Guo等[26]提出了一種貪婪的集成命名實體消歧算法,該算法利用消歧圖上隨機游走傳播引起的概率分布之間的互信息。該方法未利用注意力機制,而Att-RRW方法使用了協同注意力機制,聚焦對實體鏈接最關鍵的信息。通過上述幾個對比方法可以看出,它們在獲取指稱和候選實體之間的語義信息時,沒有揭示注意的焦點,沒有使用或較少使用上下文的注意力,實體鏈接效果有待提高。Att-RRW方法在用神經網絡獲取指稱和候選實體之間的語義信息的過程中,加入協同注意力機制,揭示注意力的焦點,修剪掉指稱上下文和候選實體描述中沒有用的單詞。本文在指稱上下文和候選實體描述采用了協同注意力機制,擴大了注意的范圍,并且使用遞歸隨機游走實現一個文檔中的所有指稱共同進行消歧,增強了實體鏈接的效果。

3 Att-RRW方法

Att-RRW由局部兼容性和集成實體鏈接兩部分構成,其架構如圖1所示。局部兼容性通過注意力機制獲取最相關的指稱上下文和候選實體描述,然后采用卷積神經網絡(CNN)挖掘指稱和候選實體的深層語義關系,計算單個指稱和候選實體的局部相關性;集成實體鏈接首先計算候選實體之間的語義相關性,依據指稱和候選實體的局部相關性、所有實體間的語義相關性,采用遞歸隨機游走策略實現所有實體鏈接決策的全局一致性。

圖1 Att-RRW方法架構

3.1 局部兼容性

3.1.1協同注意力

指稱上下文和候選實體描述都包含著大量有關實體鏈接的信息,但是指稱上下文和候選實體描述中每個單詞對消歧的影響是不同的。針對這一現象,本文在指稱上下文和候選實體描述中引用協同注意力機制,揭示了注意力的焦點。從指稱上下文和候選實體描述中過濾掉沒有用的單詞,選擇相關性最強的單詞作為修剪后的指稱上下文和候選實體描述。首先,使用Word2vec[27]進行詞的嵌入,每個詞由h維的向量表示。然后,使用式(4)得出指稱上下文Ci和候選實體描述Bj的相似性得分。

(4)

式中:Wa∈Rh×h是一個參數矩陣。按行歸一化親密度矩陣Z,為指稱上下文Ci的每個單詞在實體描述Bj中產生一個注意力相關性得分Lc(式(5))。類似地,按列歸一化親密度矩陣Z,為實體描述Bj的每個單詞在指稱上下文Ci中產生一個注意力相關性得分Lb(式(6))。

Lc=softmax(Z)

(5)

Lb=softmax(ZT)

(6)

利用注意相關矩陣Lc和Lb分別計算Ci和Bj的注意概率,概率公式如式(7)-式(8)所示。

u(c)=whcHc

(7)

u(b)=whbHb

(8)

式中:Wb,Wc∈Rh×h、whc,whb∈Rh都是參數矩陣;u(c)∈RK包含指稱上下文Ci中的每個上下文向量ci的注意力得分;u(b)∈RM包含候選實體描述Bj的每個候選實體描述向量bj的注意力得分。本文在指稱上下文中根據u(c)選擇得分最高的前R≤K個單詞作為修剪后的指稱上下文,如式(9)所示,同理,u(b)得分最高的前Z≤M個單詞組成修剪后的候選實體描述如式(10)所示。

(9)

(10)

α=softmax(u(c)′)

(11)

β=softmax(u(b)′)

(12)

3.1.2指稱和候選實體的相關性

類似于Xue等[8]提出的RRWEL方法,首先計算出指稱mi與候選實體ej的相關性得分φ(mi,ej),φ(mi,ej)被定義為:

φ(mi,ej)=σ(Wlocal·(Ss(mi,ej)⊕Sc(mi,ej)))

(13)

式中:σ(·)是Sigmoid函數;Wlocal是特征向量的權重;⊕表示融合;Ss(mi,ej)指的是一些統計特征,包含候選實體的先驗概率、候選實體和指稱字符串的編輯距離[7];Sc(mi,ej)表示聯合五個元素之間的余弦相似度。Sc(mi,ej)計算式表示為:

(14)

歸一化相關性得分獲得一個條件概率P(ej|mi),得到指稱和候選實體的局部兼容性得分,其計算式表示為:

(15)

3.2 集成實體鏈接

集成實體鏈接考慮所有指稱-實體鏈接決策的全局一致性,需要計算候選實體之間的語義相關性以及指稱-實體匹配對的全局關聯性。

3.2.1候選實體之間的語義相關性

候選實體之間的相關性得分。其計算式表示為:

SR(ei→ej)=WLM+SR1

(16)

(17)

式中:WLM表示基于維基百科鏈接的度量;對于兩個候選實體頁面pi=(ti,Bi)和pj=(tj,Bj),使用超鏈接數來計算語義相關性得分;I和J分別是鏈接到KB中pi和pj的所有實體集合;W是整個KB中所有的實體數量。

同時,基于CNN語義表示獲得它們之間的余弦相似度SR1,考慮到兩個候選實體之間的語義相關性得分依賴于它們相應指稱的相對距離,本文用其實體的位置嵌入posi補充傳統實體頁面pi=(ti,Bi)。在這里,按照Vaswani等[28]提出的方法定義指稱mi的嵌入位置posi。SR1的計算如式(18)所示。

SR1=cos(xei⊕xti+posi,xej⊕xtj+posj)

(18)

3.2.2遞歸隨機游走

本文構建一個實體圖G=(V,E),其中:V表示所有的候選實體,E表示候選實體之間的邊,包含候選實體之間的相關性信息,本文采用式(16)計算它們之間的相關性。

接下來,引入了遞歸隨機游走層來傳播EL證據,目的是有效地捕獲EL決策之間的相互依賴性。隨機游走是一種隨機過程,為了實現遞歸隨機游走,需要定義一個歸一化后的轉移矩陣A,Aij是從實體ei轉移到實體ej概率,計算式表示為:

(19)

式中:Nei表示與實體ei直接相連的實體集合。

利用轉移矩陣A,式(20)闡述了遞歸隨機游走的過程。

r(k+1)=(1-λ)Ar(k)+λr(0)=

(1-λ)A(k)·r(0)+λr(0)

(20)

式中:r(k)是第k次迭代時指稱mi的預測實體分布;k表示迭代次數;λ表示可調參數,實驗最后選取λ的數值為0.5;r(0)=P(*|mi)表示僅利用了指稱和候選實體的局部兼容性。很明顯,對于k個隨機游走層,可以在隨機游走傳播的基礎上方便地傳播k次證據,經過實驗驗證之后,k的最佳取值為5。

3.2.3模型訓練

為了將EL決策之間的實體一致性與指稱-候選實體的上下文局部兼容性結合起來。本文利用了基于馬爾可夫鏈的隨機游走過程的收斂性[29]。具體而言,在多輪EL證據傳播之后,指稱的預測實體分布將趨于收斂。如果不同EL決策之間的相互依賴已經很好地嵌入到Att-RRW模型中,那么P(*|mi)≈A(k)P(*|mi)。為了保持指稱mi在第k次EL傳播中的一致性,應該使得P(*|mi)≈A(k)P(*|mi)之間的差值最小。本文給出學習過程的目標函數:

(21)

L=(1-γ)·Lc+

(22)

(23)

在對模型進行訓練時,首先使用Lc對方法進行預訓練,然后用L對模型進行微調。

4 實驗與結果分析

4.1 數據集

本文采用多個流行的數據集驗證Att-RRW方法的有效性。EL數據集特征如表3所示,其中:MN表示指稱的數量;DN表示文檔的數量;AMD表示平均每篇文檔中的指稱數量。

表3 數據集特征的具體數值

(1) AIDA-CoNLL:最大手動標注的數據集之一[16],包含946個文檔的訓練集(AIDA-train)、216個文檔的驗證集(AIDA-A)和231個文檔的測試集(AIDA-B)。

(2) MSNBC(MSB):由Guo等[26]清理和更新,包含20個文檔。

(3) ACE2004:由Guo等[26]清理和更新,包含36個文檔。

(4) WNED-CWEB(CWEB):從ClueWeb和Wikipedia中自動抽取[31],因此不太可靠,數據相對較大,有320個文檔。

4.2 候選實體的選擇

在實驗過程中,為了減少實驗的時空復雜度,在每一個指稱mi的候選實體集合中,按照Ganea等[10]提出的方法,僅保留7位候選實體。本文在此基礎之上,對于每一個指稱mi,利用式(15)選出得分最高的前4位作為候選實體。

4.3 實驗設置

4.3.1參數設置

在實驗中,使用數據集AIDA-train進行訓練,AIDA-A進行驗證,使用AIDA-B和其他的數據集進行測試。使用最新的英文維基百科轉儲作為本文引用的KB。

表4展示實驗相關參數設置。在輸入端[5],使用標準Word2vec工具包[27]在維基百科上對單詞嵌入進行預訓練,向量維數設置為300、上下文窗口大小為21、負樣本數為10、迭代次數為10。本文首先選取一個指稱在文檔中的前后各20個單詞作為指稱上下文,然后根據式(9)選擇得分最高的10個單詞作為修剪后的指稱上下文。大多數候選實體描述文檔的文本內容是不超過200個單詞的,所以本文首先選取候選實體描述的前200個單詞,然后根據式(10)選取得分最高的前100的單詞作為修剪后的候選實體描述。為了學習輸入指稱和候選實體的上下文表示,采用窗口大小為3×3的64個濾波器和ReLU激活函數的CNN,學習指稱和候選實體的分布式表示。

表4 實驗參數設置

4.3.2實驗環境設置

本文實驗環境為:Windows7 64位系統,物理內存為64 GB,使用獨立顯卡芯片:NVIDIA GeForce RTX 2080 Ti,顯存容量為11 GB。使用深度學習框架Pytorch進行實驗代碼編寫。

4.4 評價指標

本文采用F1值對實體鏈接結果進行評價,評價標準如式(24)-式(26)所示[32]。

(24)

(25)

(26)

式中:P為實體鏈接的準確率;R為實體鏈接的召回率;DPactual為真實結果;DPexpected為實體鏈接得到的結果。

4.5 結果分析

4.5.1Att-RRW和相關工作的對比實驗

由于在AIDA-CoNLL數據集上使用AIDA-train數據集進行訓練,所以,首先在AIDA-B測試數據集上進行性能比較,實驗結果如表5所示。對比現階段流行的實體鏈接方法發現,Att-RRW的F1值高于Deep-ED[10]和RWNED[26]的方法,略低于Ment-Norm[25]的方法,他的方法中用到了實體之間潛在的關系信息,這種增量信息可以用來提升本文方法。

表5 AIDA-B數據集上不同方法的F1值

為了更加全面地驗證Att-RRW方法的實驗效果,除了AIDA-CoNLL數據集,本文還在另外三個數據集上進行驗證,實驗結果如表6所示。對比其他三種實體鏈接方法,Att-RRW在MSNBC、 ACE2004、CWEB三種數據集上都取了最優異的效果,平均(Avg)F1值都提高了2百分點左右。其中,MSNBC數據集中EL任務的F1超過95%,比其他方法提升了2百分點;針對ACE2004數據集,Att-RRW實現EL任務的F1為91.3%,而對比方法的F1值均低于90%;由于CWEB數據集上數據相對較大,含有較大的噪聲,因此在CWEB數據集中,Att-RRW的F1值最低,超過了80%,其他方法的F1值均低于80%。表6的實驗結果進一步驗證了Att-RRW方法的有效性和優越性。

表6 不同數據集上EL不同方法的F1值(%)

表7為一個案例。noA-local方法表示Att-RRW方法在局部兼容性環節計算單個指稱和候選實體的局部相關性時刪除協同注意力機制,同時不包含遞歸隨機游走策略計算全局相關性,僅關注局部相關性。由于noA-local獲取的特征比較稀疏,所以導致指稱(“chestnut”)鏈接錯誤。Att-RRW可以有效地識別正確的實體,使正確的鏈接實體“Equine coat color”比其他候選實體得到更高的得分。

表7 預測實體分布的例子

基于協同注意力機制和遞歸隨機游走的實體鏈接方法(Att-RRW)不同于其他方法,不再僅從一個側面使用注意力,而是使用指稱上下文和候選實體描述的協同注意力,獲得豐富的局部信息,有效地降低指稱上下文和候選實體描述的內容稀疏性。遞歸隨機游走實現集成實體鏈接,利用指稱之間的一致性信息提升了實體鏈接方法的效果。

4.5.2不同Att-RRW方法對比實驗

Att-RRW由局部兼容性和集成實體鏈接兩部分構成,局部兼容性為了提高單個指稱上下文和對應候選實體的實體描述之間的局部相關性,引入協同注意力機制選擇最相關的單詞計算局部相關性;集成實體鏈接采用遞歸隨機游走策略提高所有指稱-實體鏈接對匹配的全局相關性,從而實現所有指稱-實體鏈接決策的全局一致性。本文進一步在AIDA-B、MSNBC、ACE2004和CWEB四種數據集中驗證協同注意力機制和遞歸隨機游走策略對Att-RRW實現EL任務準確度的影響,實驗結果如表8所示。其中,A-local方法與noA-local方法類似,表示不包含遞歸隨機游走策略的Att-RRW方法,但是在局部兼容性環節加入協同注意力機制。

表8 多種數據集上Att-RRW不同方法F1值(%)

(1) 協同注意力機制的影響。從表8中可知,對比noA-local和A-local方法,加入了協同注意力機制的 A-local方法在多種數據集下都提升EL任務的準確度。在所有數據集上,A-local方法比noA-local方法展現了更優的實驗效果,表明聚焦指稱和候選實體中更為關鍵的信息的協同注意力機制能夠提高實體鏈接的準確度,從而說明Att-RRW方法中協同注意力機制的有效性和必要性。

(2) 遞歸隨機游走的影響。對比A-local和Att-RRW方法,從表8可知,在四個數據集上Att-RRW方法能夠更好地完成實體鏈接任務,相應的F1值均比A-local方法有所提升。相對A-local局部實體鏈接方法,Att-RRW方法中遞歸隨機游走策略將局部兼容性和實體之間的一致性結合起來實現集成消歧,能夠顯著提升實體鏈接任務的準確度,從而驗證Att-RRW中加入遞歸隨機游走策略的有效性和必要性。

綜上所述,本文實驗不僅分析了Att-RRW方法的整體性能,還分析了協同注意力和遞歸隨機游走對于實驗結果的影響。通過上面的分析可以看出,Att-RRW方法的協同注意力擴大了注意的范圍,聚焦了指稱和候選實體中更為關鍵的信息。遞歸隨機游走實現了一個文檔中的所有指稱共同進行消歧。協同注意力和遞歸隨機游走都對提升實驗效果有一定的影響。在不同數據集上,與多種方法進行比較,可以看出Att-RRW總體性能是最優的。

5 結 語

為進一步提高實體鏈接的準確性,本文提出一種基于協同注意力機制和遞歸隨機游走的實體鏈接方法(Att-RRW)。協同注意力機制聚焦了對實體鏈接更為關鍵的信息,遞歸隨機游走傳遞實體鏈接的全局信息,增強了實體鏈接的效果。實驗結果和深入分析有力地證明了Att-RRW方法的有效性。

Att-RRW方法通常適用于其他類似EL的任務,如詞義消歧、跨語言消歧和詞匯選擇。集成實體鏈接方法的使用增加了實體鏈接的復雜度,未來我們將采用一些優化算法,減少方法的復雜度,同時充分利用維基百科的其他資源來優化Att-RRW中的特征選取。

猜你喜歡
文檔局部實體
基于ColBert-EL 和MRC 模型的零樣本實體鏈接
淺談Matlab與Word文檔的應用接口
日常的神性:局部(隨筆)
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
凡·高《夜晚露天咖啡座》局部[荷蘭]
實體書店步入復興期?
2017實體經濟領軍者
Word文檔 高效分合有高招
丁學軍作品
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合