?

基于RoBERTa-Effg-Adv的實體關系聯合抽取方法

2024-03-25 02:11姚飛楊劉曉靜
計算機技術與發展 2024年3期
關鍵詞:三元組嵌套實體

姚飛楊,劉曉靜

(青海大學 計算機技術與應用系,青海 西寧 810016)

0 引 言

實體關系抽取是自然語言處理領域中一項重要的基礎任務,其目的是從結構化、半結構化和非結構化數據中抽取形如<主體,關系,客體>的實體關系三元組。實體關系抽取任務是知識圖譜構建、智能推薦、問答系統等眾多自然語言處理任務的重要基礎工具[1]。因此,實體關系抽取任務準確度的高低決定了自然語言處理領域下游任務效果的好壞。

實體關系抽取以流水線方法和聯合抽取方法這兩類方法為主[2]。流水線方法將實體關系抽取分為命名實體識別和關系抽取這兩個獨立的任務,先對實體進行識別,再對實體之間的關系進行抽取[3]。流水線方法中每個獨立的子任務都依賴前一個任務的結果作為當前任務的輸入,這種方法存在著曝光偏差和誤差傳播等問題[4]。與流水線方法相比,聯合抽取方法把三元組抽取看成一個整體任務,可以進一步利用兩個任務之間存在的潛在信息,從而獲得更好的抽取效果[5]。因此,聯合抽取方法成為了當前實體關系抽取領域研究的主流方法。

雖然上述方法在中文實體關系抽取領域取得了較好的效果,但由于中文語言本身的特點,存在嵌套實體的問題,給實體之間的關系抽取帶來了挑戰。為了更好地獲取文本的上下文語義信息,同時更好地提取嵌套實體之間的關系信息,該文提出了RoBERTa-Effg-Adv的實體關系聯合抽取模型。與傳統關系三元組抽取方式不同,該模型采用實體關系五元組抽取思想,將關系抽取任務分為主客體識別,頭關系抽取和尾關系抽取,模型使用多頭識別嵌套實體的方式,可有效抽取中文文本中重疊三元組。模型結合PGD(Projected Gradient Descent)[6]對抗訓練算法,有效提升了模型的抗擾動能力。

該文是在中文領域中進行的實體關系聯合抽取研究,聚焦瞿曇寺壁畫中涉及到的宗教領域中的命名實體識別與實體關系抽取。面向瞿曇寺壁畫領域的實體關系聯合抽取研究是瞿曇寺壁畫知識圖譜的建立和基于瞿曇寺壁畫知識圖譜的智能問答系統研究的基礎任務。

主要貢獻如下:

(1)通過對專業書籍掃描和手工標注數據等方式構建了瞿曇寺壁畫領域的實體關系聯合抽取數據集。

(2)在自制的數據集和公開的數據集上的實驗證明,RoBERTa-Effg-Adv模型通過多頭識別嵌套實體,并將關系三元組拆分成五元組抽取,通過對抗訓練提升模型魯棒性,在精確率、召回率和F1值指標上表現較佳,驗證了模型的有效性。

1 相關工作

近年來,深度學習的發展推動了關系抽取方法的不斷進步,基于深度學習的實體識別和關系抽取已成為主流研究手段[7]。早期,實體關系抽取以流水線的方式為主,即在命名實體識別已完成的基礎上再進行實體之間關系的抽取任務。

Socher等人[8]在2012年將循環神經網絡(RNN)應用到實體關系抽取領域中的關系分類,該方法利用循環神經網絡對語句進行句法解析,經過不斷迭代,從而得到句子的向量表示。這種方法有效地考慮了句子的句法結構。除RNN關系分類的方法外,Zeng等人[9]在2014年將卷積神經網絡(CNN)應用到關系抽取領域,利用卷積深度神經網絡(CDNN)來提取文本語義特征。由于傳統的RNN無法處理長期依賴,以及存在梯度消失、梯度爆炸等問題,Yan等人[10]在2015年提出了基于長短時記憶網絡(LSTM)的句法依存分析樹的最短路徑方法進行關系抽取研究。

流水線式的實體關系抽取方法中每個獨立的任務的輸入依賴于前一個任務的輸出,因此存在任務之間丟失信息,忽視了兩個子任務之間存在的關系信息[11],也可能會產生冗余信息等這些由誤差傳播引起的問題。實體關系聯合抽取方式可以有效利用兩個任務之間的潛在信息,同時也避免誤差傳遞等問題。Wei等人[12]在2019年提出一種基于聯合解碼的實體關系抽取模型CasRel。CasRel是層疊指針網絡結構,由編碼端和解碼端組成。編碼端使用BERT[13]模型對輸入數據進行編碼,所獲取的字向量能夠利用詞與詞之間的相互關系有效提取文本中的特征;解碼端主要包括頭實體識別層、關系與尾實體聯合識別層。該模型會先對頭實體進行識別,然后在給定關系種類的條件下對尾實體進行識別。CasRel模型存在曝光偏差問題。Wang等人[14]在2020年提出一種單階段聯合提取模型TPLinker,該模型解決了曝光偏差和嵌套命名實體識別問題。與CasRel模型不同,TPLinker模型用同一個解碼器對實體和關系進行解碼,同時對實體和關系進行抽取,保證了訓練和預測的一致性。蘇劍林在2022年提出基于GlobalPointer[15]的實體關系聯合抽取模型GPLinker。GPLinker模型將實體關系三元組抽取轉變為實體關系五元組(Sh,St,P,Oh,Ot)抽取,其中,Sh,St表示主實體的頭和尾,P表示關系,Oh,Ot表示尾實體的頭和尾。與TPLinker模型相比,GPLinker模型計算速度更快,而且顯存占用更少。饒東寧等人[16]在2023年提出一種基于Schema增強的中文實體關系抽取方法。該方法采用字詞混合嵌入的方式融合字與詞的語義信息來避免中文分詞時邊界切分出錯所造成的歧義問題,并利用指針標注的方式解決關系重疊問題。該方法通過提取出每個數據集的Schema進行合并作為先驗特征傳入模型中,以解決實體冗余及關系種類遷移問題[16]。

2 數據集的制作

本研究制作了瞿曇寺壁畫領域的實體關系聯合抽取數據集REDQTTM(Relation Extraction Dataset of Qu Tan Temple Murals)。REDQTTM原始數據文本來自研究瞿曇寺壁畫的相關專業書籍,對這些書籍進行掃描,并進行光學字符識別(Optical Character Recognition,OCR),從而獲得機器可讀的語料庫。之后,按照預定義的實體和關系種類,使用標注工具對這些文本進行人工標注。標注工具選擇BRAT(Brat Rapid Annotation Tool)[17],BRAT是基于Linux的一款應用于WebServer端的文本標注工具。通過對文本進行手工標注,最終得到后綴名為ann的標注文件。

實體在ann文件的格式由5列組成,第一列表示實體的編號,第二列表示實體的預定義類別,第三列表示實體在文本的開始下標,第四列表示實體在文本的結束下標,最后一列表示該實體所對應的文本。關系在ann文件的格式由4列組成,第一列表示關系的編號,第二列表示關系的預定義類別,第三列表示Subject實體的實體編號,最后一列表示Object實體的實體編號。

REDQTTM總共包含了18種實體類型。瞿曇寺壁畫中的神像體系主要有以下類別,分別是佛像、菩薩像、祖師像(或稱上師、尊者)、本尊像、護法神像和佛母像[18]。這些神像體系都包含在REDQTTM的實體類別中。瞿曇寺壁畫對神像的刻畫十分詳細,包括對神像的法器、服飾、坐騎、臺座等細節展示,這些在REDQTTM中都有對應的實體種類。表1給出了REDQTTM中部分預定義的實體種類。

表1 部分實體類型和舉例

REDQTTM中包含11種關系類型。表2給出了REDQTTM中預定義的關系種類。

表2 關系類型和舉例

通過對ann文件進行解析,最終得到本研究所需的數據集REDQTTM。REDQTTM分為訓練集和測試集,三元組的比例為8∶2左右。如表3所示,REDQTTM同樣采用json格式,text字段表示輸入文本,predicate字段表示關系類型,object_type字段表示object實體類型,subject_type字段表示subject實體類型,object字段表示object實體,subject字段表示subject實體。

表3 A sample data in REDQTTM dataset

3 模 型

3.1 模型整體結構

該文提出的RoBERTa-Effg-Adv模型包括4個部分:RoBERTa-wwm-ext[19]編碼層,Efficient GlobalPointer[15]命名實體識別模塊,關系抽取模塊和對抗訓練。模型整體結構如圖1所示,RoBERTa-wwm-ext編碼層負責將輸入的文本轉化為詞向量,作為模型后續部分的輸入。在實體識別方面,使用Efficient GlobalPointer對主體和客體進行抽取。在關系抽取方面,將關系實體三元組拆分成五元組來處理,利用Efficient GlobalPointer處理S(sh,oh|p),其中sh表示主實體的頭,oh表示尾實體的頭,p表示關系。對于嵌套命名實體識別,需要同時指定起點和結束位置。同理利用Efficient GlobalPointer處理S(st,ot|p),其中st表示主實體的尾,ot表示尾實體的尾。模型引入對抗訓練來提升模型性能,對抗訓練算法使用PGD對抗訓練策略,該對抗訓練算法采用“小步走,走多次”思想找到最優策略。

圖1 模型整體結構

3.2 RoBERTa-wwm-ext編碼層

編碼端主要負責將輸入文本轉化為詞向量,所獲取的詞向量能夠利用詞與詞之間的相互信息提取文本中的特征信息。BERT預訓練模型的架構為Transformer[20]中的Encoder,是目前使用最廣泛的編碼端模型,但原始的BERT模型不是最佳選擇。文中編碼端使用RoBERTa-wwm-ext預訓練模型,該模型是在RoBERTa[21]模型的基礎上做了一些優化,相比BERT預訓練模型,能達到更好的編碼效果。

(1)RoBERTa-wwm-ext預訓練模型在預訓練階段采用wwm(whole word masking)策略進行mask,而BERT模型是隨機進行mask,采用wwm策略的效果更好,具體示例如表4所示。

表4 wwm策略和BERT原始策略

(2)RoBERTa-wwm-ext預訓練模型取消了NSP(Next Sentence Prediction)任務。取消了NSP任務后,模型性能得到提升。

(3)RoBERTa-wwm-ext預訓練模型采用更大的 Batch Size,這樣有助于提高性能。ext(extended data)表示增加了訓練數據集的大小。

3.3 Efficient GlobalPointer命名實體識別模塊

GlobalPointer將實體的首尾視為一個整體去識別。如圖2所示,在“欲界自在天女是一位出世間護法神”這句話中,對于實體類型“佛母”,該類型實體在文本中只有一個,是“欲界自在天女”;對于實體類型“稱號”,該類型實體共有兩個,分別是“出世間護法神”和“護法神”,從這里可以看出,GlobalPointer可以識別嵌套類型實體。綜上所述,假設待識別文本序列長度為n,待識別實體個數為k,那么在該序列中會有n(n+1)/2個候選實體。在GlobalPointer中,命名實體識別任務可以看成“n(n+1)/2選k”的多標簽分類問題。如果一共有m種實體類型需要識別,那么可以看成m個“n(n+1)/2選k”的多標簽分類問題。GlobalPointer是一個token-pair的識別模型,用一種統一的方式處理嵌套和非嵌套命名實體識別。

圖2 GlobalPointer多頭識別嵌套實體示意圖

定義:

(1)

式1作為從i到j的連續片段是類型為α的實體的打分函數。其中,qi,α=wq,αhi+bq,α和ki,α=wk,αhi+bk,α是長度為n的輸入t經過編碼后得到的向量序列[h1,h2,…,hn]變換而來。得到用于識別第α種類型實體所用的序列[q1,α,q2,α,…,qn,α]和[k1,α,k2,α,…,kn,α]。

Efficient GlobalPointer主要針對GlobalPointer參數利用率不高的問題進行改進,優化了打分函數,達到了降低GlobalPointer的參數量的效果。

(2)

對于抽取部分,所有實體類型共享這部分參數,所以在公式2的基礎上,記qi=wqhi,ki=wkhi,用[qi;ki]來代替hi以此進一步地減少參數量,此時

(3)

得到的公式3作為Efficient GlobalPointer最終的打分函數,相比于公式1來說,參數利用率得到提升,參數量也降低了。

3.4 關系抽取模塊

GPLinker模型將實體關系三元組抽取轉變為實體關系五元組(Sh,St,P,Oh,Ot)抽取,其中,Sh,St表示主實體的頭和尾,P表示關系,Oh,Ot表示尾實體的頭和尾。關系抽取流程如圖3所示。

圖3 關系抽取流程

S(sh,st,p,oh,ot)=S(sh,st)+S(oh,ot)+S(sh,oh|p)+S(st,ot|p)

(4)

模型訓練時,對于標注的五元組讓公式4中S(sh,st),S(oh,ot),S(sh,oh|p)和S(st,ot|p)皆大于0,其他五元組這四項皆小于0。模型預測時,枚舉所有可能的五元組,找出S(sh,st)>0,S(oh,ot)>0,S(sh,oh|p)>0和S(st,ot|p)>0的部分,取它們的交集部分。

S(sh,st)、S(oh,ot)分別是subject實體、object實體的首尾打分函數,通過S(sh,st)>0,S(oh,ot)>0來得到所有的subject實體和object實體。至于函數S(sh,oh|p)和S(st,ot|p),則是predicate關系的匹配,S(sh,oh|p)表示以subject和object的首特征作為它們自身的表征來進行一次匹配,考慮到存在嵌套實體,需要對實體的尾再進行一次匹配,即S(st,ot|p)這一項。由于S(sh,st),S(oh,ot)是用來識別subject,object對應的實體的,用一個Efficient GlobalPointer來完成;至于S(sh,oh|p),它是用來識別關系為p的(Sh,Oh)對,也可以用Efficient GlobalPointer來完成,最后對于S(st,ot|p)這一項,處理和S(sh,oh|p)原理相同。

3.5 對抗訓練

對抗訓練是一種引入噪聲的訓練方式,可以對參數進行正則化,提升模型的魯棒性和泛化能力[22]。對嵌入層的字向量添加一些較小的擾動,生成對抗樣本,將獲得的對抗樣本再反饋給模型,從而提升模型的抗擾動能力。本研究使用的是PGD對抗訓練算法。該算法通過多次迭代,以“小步走,走多次”的策略找到最優策略,并且通過設置擾動半徑來防止擾動過大。擾動項radv的計算公式如下:

radv=ε·g(x)/‖g(x)‖2

(5)

g(x)=?xL(θ,x,y)

(6)

其中,x表示輸入,y表示標簽,θ表示模型參數,ε表示擾動半徑,L(θ,x,y)表示單個樣本的loss。

PGD算法步驟如下所示:

(1)計算x前向loss,然后反向傳播計算梯度并備份;

(2)對于每個步驟t:根據embedding層的梯度,計算其norm,然后根據公式計算出radv,再將radv累加到原始embedding的樣本上,即x+radv,得到對抗樣本;

(3)如果t不是最后一步,將梯度歸0,根據x+radv計算前后向并得到梯度;

(4)如果t是最后一步,恢復步驟1時的梯度值,計算最后的x+radv并將梯度累加到步驟1上,跳出循環;

(5)將被修改的embedding恢復到步驟1時的值;

(6)根據步驟4時的梯度對模型參數進行更新。

3.6 損失函數

損失函數選擇稀疏版多標簽分類的交叉熵損失函數。P,N分別是正負類的集合,A=P∪N,S為對應的分數。

(7)

(8)

4 實 驗

4.1 實驗環境及參數設置

實驗在Linux集群環境下進行,機器配置為5塊NVIDIA A100 80GB PCIe顯卡,代碼使用Python語言編寫。

實驗主要參數設置如表5所示。

表5 實驗主要參數設置

4.2 實驗數據集

為了驗證文中方法的有效性,先后在REDQTTM和DuIE[23]數據集上進行實驗。其中DuIE的訓練集含有173 108條句子,驗證集含有21 639條語句。

4.3 評價指標

使用精確率(Precision)、召回率(Recall)和F1值作為評估模型性能的指標。其中,精確率是模型預測正確的關系三元組數與預測出的三元組總數的比值;召回率則是模型預測正確的關系三元組數與實際三元組數的比值;F1值是精確率和召回率的調和平均值,可以對模型的整體性能進行綜合評價。Precision,Recall和F1值的計算方式如公式9~11所示。

(9)

(10)

(11)

其中,TP表示正例預測為正例的數量,FP表示負例預測為正例的數量,FN表示正例預測為負例的數量。

4.4 REDQTTM數據集檢測結果分析

該文選擇多個基線模型在REDQTTM數據集上進行對比實驗,這些模型包括CasRel模型、PRGC模型、TPLinker模型和GPLinker模型。

(1)CasRel:一種基于聯合解碼的實體關系抽取模型。該模型首先對頭實體進行識別,然后在給定關系種類的條件下對尾實體進行命名實體識別。

(2)PRGC[24]:基于潛在關系和全局對應關系的實體關系抽取模型,將關系抽取分解為關系判斷、實體抽取和主客體對齊三個任務。

(3)TPLinker:一種單階段聯合提取模型,該模型解決了曝光偏差和嵌套命名實體識別問題。TPLinker模型保證了訓練和預測的一致性,因其用同一個解碼器對實體和關系進行解碼,同時對實體和關系進行抽取。

(4)GPLinker:基于GlobalPointer的實體關系聯合抽取模型。GPLinker模型將實體關系三元組抽取轉變為實體關系五元組(Sh,St,P,Oh,Ot)抽取。GPLinker模型有著計算速度快、顯存占用少等優點。

從表6可以看出,在REDQTTM數據集上,提出的方法無論是在Precision,還是在Recall和F1上都是最優的。相比GPLinker模型,在Precision上提高了2.4百分點,在Recall上提高了0.9百分點,在F1上提高了1.6百分點??梢?提出的方法在瞿曇寺壁畫實體關系聯合抽取任務上取得了較好的效果。

表6 實驗結果

為了驗證各個模塊的有效性,在REDQTTM數據集上進行了消融實驗。-RoBERTa-wwm-ext表示不使用此預訓練模型,改為使用BERT;-Pgd表示不使用對抗訓練;-Efficient GlobalPointer表示不使用此模塊,改用GlobalPointer。實驗結果如表7所示,去掉各模塊后的性能都有所下降,驗證了各模塊的有效性。

表7 消融實驗結果

將相關文本輸入到模型,抽取文本中的實體關系三元組。表8展示了模型對關系三元組的抽取效果。三元組的抽取是建立瞿曇寺壁畫領域知識圖譜的關鍵步驟。

表8 三元組抽取結果部分示例

4.5 DuIE數據集檢測結果分析

文中模型在DuIE訓練集上訓練,在驗證集上進行評估。MultiR[25]、CoType[26]、指針標注模型[27]、FETI[28]、CasRel、字詞混合模型[29]和BSCRE[30]模型的實驗結果來自禹克強等人[30]的實驗結果,如表9所示。

表9 DUIE數據集上的實驗結果

從表9中可以看出,該文提出的方法相較于禹克強等人提出的BSCRE模型,在DuIE訓練集上,Precision,Recall和F1值分別提高了0.7百分點,3.7百分點和2.2百分點。驗證了RoBERTa-Effg-Adv模型在其它中文領域的實體關系聯合抽取任務的有效性。

5 結束語

該文自建了瞿曇寺壁畫領域的實體關系聯合抽取數據集REDQTTM,其中包含18種實體類型和11種關系類型。針對瞿曇寺壁畫領域的實體關系聯合抽取任務,提出了一種實體關系聯合抽取模型RoBERTa-Effg-Adv,其編碼端使用RoBERTa-wwm-ext預訓練模型,并采用Efficient GlobalPointer對命名實體進行識別,總體上使用實體關系五元組策略進行實體關系聯合抽取。再結合對抗訓練,提升模型整體的魯棒性。由于該數據集包含的實體關系數量較少,后期會增加更多的預定義實體關系類別和數量來擴充數據集,也會在該實體關系聯合抽取的基礎上,開展建立瞿曇寺壁畫領域的知識圖譜、基于瞿曇寺壁畫知識圖譜的智能問答等研究。

猜你喜歡
三元組嵌套實體
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
基于嵌套Logit模型的競爭性選址問題研究
特征標三元組的本原誘導子
前海自貿區:金融服務實體
關于余撓三元組的periodic-模
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
三元組輻射場的建模與仿真
一種基于區分服務的嵌套隊列調度算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合