?

基于類型注意力和GCN的遠程監督關系抽取

2024-02-28 01:42李衛疆
計算機工程與科學 2024年2期
關鍵詞:注意力實體標簽

張 歡,李衛疆

(1.昆明理工大學信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650500)

1 引言

關系抽取任務是信息抽取下屬的子任務。任務目標是從非結構化文本中抽取出實體關系三元組,即〈e1,r,e2〉,其中e1和e2是關系涉及到的2個命名實體,r指2個實體間的關系類型。關系抽取可用于自動問答、知識圖譜自動構建以及信息檢索等自然語言處理任務,具有非常重要的研究價值。

Mintz等[1]在2009年首次提出的遠程監督方法是近幾年的熱門研究方向。該方法通過自動對齊外部知識庫獲得大量帶有標簽的訓練數據,省去了繁瑣的人工標注過程。遠程監督方法假設:知識庫中若存在某個實體關系三元組〈e1,r,e2〉,則在自由文本中包含該實體對〈e1,e2〉的所有句子都包含r這種關系。由于假設過強,引入了大量的噪聲數據。示例如表1所示。

Table 1 Sentence label 表1 句子標簽

目前基于遠程監督的方法[2-4]在公共關系數據集上取得了很好的效果。遠程監督雖然能自動注釋足夠數量的訓練數據,但這些數據通常只涵蓋了關系的有限部分。當某些關系類型只有少量的訓練樣本時,模型的性能會顯著下降[5]。

如圖1所示,在數據集中許多關系都是長尾(long-tail)的(許多關系被標注為NA,也就是句子中給定實體對之間不存在關系),而且存在數據缺陷,造成遠程監督得到的大部分句包(Riedel等[6]的“至少一次假設”將包含同一實體對的句子組合成一個句包)中只包含一個句子,這使得句包的表示并不準確。因此,在數據方面優化遠程監督關系抽取顯得尤為重要。

Figure 1 Frequency distribution of label without NA category圖1 無NA類的標簽頻率分布[5]

為了解決單句子句包信息太少的問題,本文提出基于位置-類型注意力機制和GCN(Graph Convolutional Network)的遠程監督關系抽取模型PG+PTATT(Piecewise convolutional neural network and GCN and Position-Type ATTention)。本文的主要工作總結如下:

(1)針對存在的句包信息不足的問題,在句包層面使用與編碼方式無關的GCN進行優化,基于句包相似性將句包特征表示輸入到GCN中,通過GCN的聚合性融合歸納相似句包的高階隱含特征表示,以此得到句包全面的高階特征信息,豐富句包的特征信息。

(2)構建新的注意力機制——位置-類型注意力機制,利用實體詞與非實體詞的位置關系和類型關系進行建模,降低噪聲詞對關系抽取結果的影響,從而解決遠程監督中的錯誤標簽問題。

(3)在真實數據集NYT(New York Times)上進行了實驗。實驗結果表明了本文提出模型的有效性。

2 相關工作

為解決人工標注數據繁雜的問題,Mintz等[1]率先提出使用遠程監督方法來實現對自由文本的標注,以高效地產生大規模有標簽的數據。由于遠程監督提出的假設過于強烈,為后續任務引入了大量噪聲數據。研究人員為了解決噪聲數據問題,提出了多實例學習[2]、多標簽多實例學習[7]和注意力機制[3]等諸多方法。

隨著深度學習在關系抽取方面的應用,基于深度學習的方法取得了卓越的抽取效果[8]。Li等[9]基于標簽-標簽(label-label)和標簽-句子(label-sentence)的關系,構建了一個新的標簽圖來捕獲標簽之間的知識;通過關系感知注意力為噪聲句子分配權重,從而降低噪聲句子的影響。E等[10]提出帶噪聲的強化學習,將參數化噪聲添加到神經網絡權重中,能有效改善遠程監督關系提取的效果。Amin等[11]將句子級關系抽取擴展到句包級多實例學習,并提供一種簡單的數據編碼方案捕獲潛在的關系,來減少遠程監督中的噪聲。

另外,在研究中也常常使用多實例學習、選擇性注意力機制來解決遠程監督數據集中的long-tail問題。Han等[4]提出了一種新的層次注意力方案從粗細粒度方面著手識別更有效的實例,以解決long-tail問題。Zhang等[5]提出使用知識圖嵌入和圖卷積網絡學習隱式和顯式關系知識,并通過粗到細的知識感知注意力機制將關系知識整合到關系提取模型中,最后通過分布頂端的數據來豐富類的知識以提高尾部數據差類的性能。Li等[12]通過層次關系協作和關系增強注意力來同時處理錯誤標簽和long-tail問題。Cao等[13]提出從未標注的文本中學習關系原型,通過遷移學習來促進long-tail關系的提取。Heng等[14]提出利用輔助 BGRU(Bidirectional Gated Recurrent Unit)來提高特征提取性能,在處理long-tail關系方面的表現也相當出色。

近幾年,外部信息作為輔助信息能夠進一步提升關系抽取效果,為研究人員提供了新的研究方向。Vashishth等[15]使用知識庫中的附加信息對關系分類施加軟約束。Wang等[16]提出基于循環分段殘差網絡框架,并聯合嵌入中的實體類型來獲取句子上下文的潛在表示。Bai等[17]提出將實體類型信息集成到關系抽取模型中,結合句子級注意力和類型注意力來改善關系抽取模型的性能。Chen等[18]提出利用類型感知映射內存模塊對獲得的依賴信息進行編碼,不僅利用了依賴類型信息,還能區分可靠的依賴信息和嘈雜的依賴信息進行降噪處理。Heng等[14]提出了一種動態雙多頭注意力,學習實體類型信息,動態生成多頭查詢向量,提供細粒度信息來過濾噪聲。

以上解決long-tail問題的研究多數采用的是基于注意力機制的方法[4,5,12],通過為相關信息賦予注意力權重,從而能夠識別類似關系。注意力機制的計算公式因研究人員考慮的角度不同而各有不同,且基于經過編碼的向量進行計算,不能適用于其他關系抽取模型。本文提出利用可復用性高的GCN來實現句包間相似特征信息聚合,直接提供句包間細粒度的關系知識。該方法與編碼方式無關,只需句包表示能夠正確輸入到GCN中即可,因此通過GCN來解決long-tail問題的方法是可重復使用到其他關系抽取任務中的。

此外,為了緩解遠程監督帶來的錯誤標簽影響,不同于其他只使用實體類型的模型,本文同時考慮了每個單詞的類型和非實體詞相對于實體詞的位置關系對關系抽取的影響,構建以實體詞為中心的位置-類型注意力機制,為句中單詞分配相應的權重,從而達到降低噪聲詞影響的目的。

3 PG+PTATT模型

針對遠程監督,Riedel等[6]在Mintz等[1]提出假設的基礎上,提出“至少一次假設(at-least-once assumption)”。該假設表述如下:若2個實體詞之間存在某種關系,那么在所有這2個實體詞共現的句子中,至少有一句表達了這種關系。在此假設下,遠程監督將所有具有實體對〈e1,e2〉的句子都標注為關系r,并將這些句子組合成一個句包,然后在句包中解決錯誤標簽的問題。本文模型結構如圖2所示,第j個句包為bagj={s1,s2,…,sn},其中s1,s2,…,sn為句子,n為句子個數。句包中的句子經過編碼之后,在輸入PCNN(Piecewise Convolutional Neural Network)之前使用位置-類型注意力機制對句子向量進行優化,然后經過PCNN和GCN得到每個句包的最終表示。

Figure 2 Structure of the proposed model PG+PTATT圖2 所提模型PG+PTATT結構

3.1 編碼層

將源句的每個輸入詞轉換為嵌入層中的詞嵌入WE(Word Embedding)和位置嵌入PE(Position Embedding)的組合。詞嵌入是將文本中的每個單詞映射到一個k維實值向量的單詞分布式表示,它可以捕捉單詞的句法和語義屬性。對于每個句子使用嵌入查找表將句子中的單詞映射到實值向量中得到句子的詞嵌入向量表示T={t1,t2,…,tm},m為句子中的單詞個數,維度為dT。

Figure 3 Example of relative position圖3 相對位置示例

3.2 注意力層

在編碼層已得到的S上利用位置-類型注意力機制基于位置和類型的關系為句子特征向量添加影響因子權重,得到句包中每個句子的最終表示S′i。隨后將矩陣S′i輸入卷積部分。PCNN通過提取輸入向量的3個局部特征并將3個特征拼接在一起,接著通過句子級注意力來對句包中的句子加權,為不同的句子賦予不同的權重,從而削弱噪聲句子的影響,最后得到每個句包的初步表示。

下面介紹位置-類型注意力機制處理句子向量得到高階注意力特征的過程。

e1和e2作為句子T={t1,t2,…,e1,…,e2,…,tm}中的不同實體,在關系抽取中識別這2個實體詞間對應的關系類型時,句子中其他非實體詞會對結果存在影響。為了得到更準確的關系抽取結果,需要進一步計算非實體詞的影響權重,以區分非實體詞對實體詞間關系的影響程度。

非實體詞與實體詞之間最簡單的關系就是位置關系,也是目前研究中使用最多的關系信息。一般來說,距離實體詞越近的單詞能夠表達實體對之間關系的可能性越大。因此,本文利用句子中的實體詞與非實體詞的相對距離計算非實體詞的影響權重。表2展示的是句中非實體詞對實體詞的距離序列。

Table 2 Example of distance sequence of non-entities to entities

得到非實體詞相對于實體詞的距離序列后,通過式(1)計算非實體詞的影響權重,得到位置影響因子f1。

(1)

其中,x表示d1和d2序列中的某一個值,μ是期望,σ是標準差。

同時,由于句子中存在介詞、冠詞等無關詞匯,且無關詞匯與實體詞間的距離并不能反映出對實體的影響,而僅利用位置關系計算單詞的影響權重并不能完全代表單詞在關系抽取中影響權重。本文引入單詞的類型進一步計算單詞的影響權重。例如,如果2個實體的類型分別是“人(PEO)”和“電影(FILM)”,那么這2個實體之間很可能存在“導演”的關系??梢妴卧~的類型能夠暗示出2個實體間的關系。

表3所示是關系抽取中部分實體詞的類型標簽舉例。根據實體類型標簽可以得到句子的類型序列,利用句子的類型序列計算非實體詞對實體間關系的影響,同時在注意力機制中加入類型關系可以進行一步解決無關詞匯造成的噪聲影響以及利用實體詞類型所隱含的信息避免關系出現錯誤識別。表4展示的是句子的類型序列示例。

Table 3 Type marks of partial entities

Table 4 Example of type sequence of sentences

通過單詞類型標簽得到句中單詞的類型序列后,利用式(1)計算單詞的影響權重,得到類型影響因子f2。

在分別得到位置影響因子f1和類型影響因子f2后,通過式(2)得到最后的影響因子f。

f=σ(W2f2σ(W1f1+b1)+b2)

(2)

其中,W1和W2為可學習參數,b1和b2為偏移值,σ(·)為激活函數。

然后利用Softmax函數對影響因子進行歸一化處理,得到位置-類型注意力矩陣α,如式(3)所示。最后對句子表示S進行加權處理得到最終句子表示S′,如式(4)所示:

α=Softmax(f)

(3)

S′=∑α⊙S

(4)

其中,⊙代表逐元素相乘。

3.3 聚合層

GCN是一種簡單有效的基于圖的卷積神經網絡。由于它可以通過圖節點之間的信息傳遞有效地捕獲數據之間的依賴關系,因此被廣泛用于處理對象之間關系豐富的數據。GCN直接作用于圖,網絡的輸入是圖的結構信息和圖中節點的特征表示。對于圖中的每個節點,GCN通過融合節點附近其他節點的屬性來獲得節點的特征表示向量。

統計顯示,在遠程監督數據集 NYT上,80%的句包中只包含一個句子,而單獨使用句子級注意力機制的效果并不好,單句子句包還存在特征信息不足的問題,在進行特征訓練時會嚴重影響模型的抽取效果。經過實踐后發現,大多long-tail關系在數據集頭部存在類似的關系類型,所以不同句包之間有可能存在類似的隱含特征。為了豐富當前句包的特征信息,可以融合其他相似句包的隱含高階特征?;诰浒g特征相似性,本文提出通過GCN聚合相似句包的高階隱含特征,以此得到句包更準確全面的特征信息。這種方法不關心不同句包之間是不是具有相同的關系標簽,只在乎它們之間是否具有足夠的特征相似度。

本文使用余弦函數來計算2個句包的相似度,如式(5)所示:

β=similarity(bagj,bagz)

(5)

其中,j,z∈{1,2,…,batch_size},β為計算得到的2個句包間的相似度。

本文針對句包使用GCN進行優化,基于句包間的相似度,利用GCN聚合相似句包的高階隱含特征,得到句包隱含的高階特征。算法1描述了構造相似圖的過程。

通過算法1得到句包相似圖后,將其輸入GCN,在l層 GCN 中,Hl表示節點在l層的特征向量。一個圖卷積操作如式(6)和式(7)所示:

(6)

(7)

(8)

4 實驗及結果分析

4.1 數據集

本文在廣泛使用的遠程監督數據集NYT上評估所提出的模型。該數據集是 Riedel等[6]在 2010 年發布的,其中的數據文本為紐約時報New York Times標注語料。本文使用2005年至2006年的數據作為訓練集,使用2007年的數據作為測試集。本文使用的是處理過的數據集,即刪除了訓練集和測試集中的重復句子。該數據集總共包含39 528個唯一實體和52個關系,還有一個NA關系表示句子中的給定實體對之間不存在關系。數據集具體統計信息如表5所示。

Table 5 Statistics information of NYT dataset

4.2 評估指標

與其它文獻中使用的評價指標一樣,本文采用F1值(PR曲線)作為本文實驗的評估標準來呈現實驗結果。F1值的計算如式(9)所示:

(9)

其中,Precision是精確率,Recall是召回率。F1值反映的是對精確率和召回率的綜合考量。

另外,本文還使用P@N(top-NPrecision)來評估不同模型的性能。

在這個評價指標中,N表示前N個實體對,即模型在預測前N個實體對的關系時,能夠正確預測的比例。例如,P@100表示模型在預測前100個實體對的關系時,能夠正確預測的比例。為了計算P@N,本文會隨機選擇句包中One/Two/All句子,然后評估模型在這些句子中預測實體關系的能力。這里的One/Two/All句子是指:

(1)One句子:只選擇1個句子進行評估。

(2)Two句子:選擇2個句子進行評估。

(3)All句子:選擇所有句子進行評估。

4.3 參數設置

實驗沿用之前研究所使用的參數,詳細參數設置如表6所示。

Table 6 Parameters setting

4.4 基線模型

經過綜合考慮,本文選取的基線模型包括經典遠程監督模型、解決long-tail問題的模型和使用實體相關信息的模型。具體如下:

(1)PCNN+ATT(ATTention)[3]:在PCNN多實例學習的基礎上加入選擇性注意力,以解決錯誤標簽的問題。

(2)PCNN+ATT+SL(Soft-Label)[19]:采用軟標簽來緩解錯誤標簽問題,實現了在實體對級的降噪。

(3)PCNN+BAGATT(BAG ATTention)[20]:使用句袋內注意力處理句子級別的噪聲,并使用句袋間注意力處理句袋級別的噪聲。

(4)SeG(Selective Gate)[21]:提出選擇性門機制以緩解選擇性注意力在單句子句包方面的缺陷。

(5)PCNN+HATT(Hierarchical ATTention)[4]:利用先驗關系層次信息,計算層次結構中每一層的選擇性注意力,并連接所有圖層進行最終分類以解決long-tail問題。

(6)CoRA(Collaborating Relation-augmented Attention)[22]:在關系增強的注意力網絡基礎上,引入層次關系之間共享的協作關系特征,以促進關系增強過程,平衡long-tail關系的訓練數據。

(7)HiRAM(Hierarchical Relation-guided type-sentence Alignment Model)[23]:從成對和分層的角度利用實體類型中的結構化信息來改善遠程監督關系抽取效果,以分別減輕錯誤標簽和long-tail問題帶來的影響。

(8)RESIDE(Relation Extraction utilizing additional SIDE information)[15]:利用KB(Knowledge Base)的額外邊信息來改進關系提取,使用實體類型和關系別名信息,在預測關系的同時施加軟約束。

(9)GRUCapNet[14]:提出動態的雙多頭注意力機制,通過學習實體類型信息動態生成多頭查詢向量,獲得細粒度信息以區分正確的實例和噪聲。

4.5 實驗結果與分析

為了驗證所提模型的有效性,本節將其與上述基線模型在數據集NYT上進行比較,實驗結果如圖4和表7所示。從圖4中可以觀察到,本文模型F1值在一定程度上優于其他基線模型F1 值。在top-N精確度方面,與對比模型(SeG、CoRA、GRUCapNet和HiRAM)相比,性能也相差不大。

Table 7 top-N experimental results

Figure 4 PR curves圖4 PR曲線

與除PCNN+BAGATT以外使用注意力機制的模型相比,本文模型性能上有較大的提升,這表明本文提出的使用GCN聚合方法能夠有效解決單句子句包特征信息過少的問題,從而提高模型性能。與PCNN+BAGATT模型、PCNN+HATT模型相比,本文模型性能上相差的不大。這是因為PCNN+BAGATT模型使用的是句袋級別的注意力機制來解決錯誤標簽,在一定程度上緩解了long-tail問題帶來的影響。

在使用注意力機制和實體描述信息方面,本文模型F1值大約提高了1.5%。這表明在模型中加入類型注意力信息是有效的。從圖4可以看到,使用實體描述信息比單獨使用注意力機制的性能更好,可見實體描述信息所提供的背景知識可以提高注意力機制模塊的性能。與RESIDE相比,本文提出的模型性能高于RESIDE的,這說明與實體描述信息相比,實體類型是更精確的信息,能夠使模型捕獲更準確的實體語義。

從表7可以看到,對比模型與本文模型在性能上沒有顯著差異。SeG采用選擇性門機制代替選擇注意力機制,性能達到了最優。而CoRA使用關系增強注意力,GRUCapNet使用雙多頭注意力,本文模型使用的是位置-類型注意力機制,雖然對注意力機制改進了許多,但仍然存在局限。HiRAM、GRUCapNet和本文模型都使用了實體的類型信息,模型性能都有一定程度的提升,進一步說明實體相關信息有利于改善關系抽取效果。

5 模型分析

5.1 參數比較

本文是基于句包之間的特征相似度來解決long-tail問題,所以本節測試與相似度計算有較大影響的參數batch_size和st對模型性能的影響。batch_size是指一個批次中數據量的大小,在計算特征相似度時是依次計算某一個句包與batch_size中其他所有句包的相似度。batch_size的值越大,則可能有越多的相似句包,進而影響模型的性能。此外,batch_size的大小還影響模型的優化程度和速度。st是相似度閾值,計算特征相似度時,若超過該閾值,則視為句包相似。閾值的設定關系到最后得到相似句包的數量,關系到最后聚合得到的句包特征信息。表8展示的是batch_size∈{64,128,256}時對模型性能的影響。表9展示的是st∈{0.999,0.999 9,0.999 99}時對模型性能的影響。

Table 8 Impact of batch_size

Table 9 Impact of st

從表8和表9可以看到,batch_size和st對模型性能的影響。通過實驗發現,當batch_size=128,st=0.9999時,模型性能達到最佳。

5.2 位置-類型注意力的影響

本節通過實驗來確定位置關系和類型關系對模型性能的影響程度,并評估位置-類型注意力機制的有效性。實驗結果如表10所示。

Table 10 Impact of attention mechanism

從表10可以看出,位置、類型和位置-類型3種注意力機制都有提升模型性能的作用,且使用位置-類型注意力機制的實驗結果相較于其他2種注意力機制的更好。通過實驗結果驗證了同時考慮句中單詞的位置和類型,能夠進一步強化或弱化單詞的影響,在獲得更多信息的同時更好地解決噪聲詞的問題。

5.3 GCN的影響

基于句包間的相似性和GCN的聚合性,本文利用GCN聚合相似句包的隱含高階特征,得到句包隱含的高階特征。在NYT數據集上進行了實驗來驗證GCN的有效性。但是,在GCN聚合的過程中可能會引入新的噪聲信息。因為GCN本身的思想是信息的聚合與傳播,圖中的一個節點可能會聚合到與它相距甚遠的節點信息,這種信息的聚合對節點本身不一定有用。本文通過實驗來測試GCN聚合過程中噪聲帶來的影響。實驗結果如表11所示。

Table 11 Impact of GCN

從表11可以看到,GCN能夠得到句包的全面高階特征,從而有效提高模型性能,且經過去噪的GCN聚合的模型性能最好。

6 結束語

本文介紹了一種基于類型注意力和GCN的遠程監督關系提取模型。該模型提出使用圖卷積網絡聚合相似句包的特征信息以豐富句包信息,從而解決由long-tail數據引起的單句子句包信息不足的問題;還提出在進入分段卷積神經網絡前先施加位置-類型注意力權重來緩解句子中噪聲詞帶來的影響,以得到更好的句子表示,進而提高模型效率。從在NYT數據集上的實驗結果來看,與之前的一些模型相比,該模型性能取得了顯著的改進。未來將繼續探索以下內容:(1)如何同步解決句中關系的重疊問題;(2)進一步改進本文提出的注意力機制,進而探索注意力機制的多樣性。

猜你喜歡
注意力實體標簽
讓注意力“飛”回來
前海自貿區:金融服務實體
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
“揚眼”APP:讓注意力“變現”
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
A Beautiful Way Of Looking At Things
標簽化傷害了誰
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合