?

基于詞匯增強和表格填充的中文命名實體識別

2024-03-20 04:31褚天舒唐球梁軍學徐睿王明陽劉濤
電子技術應用 2024年2期
關鍵詞:嵌套字符解碼

褚天舒,唐球,梁軍學,徐睿,王明陽,劉濤

(1.華北計算機系統工程研究所,北京 100083;2.中國人民解放軍93216 部隊,北京 100085)

0 引言

在大數據時代,每天都產生海量的文本數據,如何從這些存在大量冗余的數據中獲取真正有價值的知識信息顯得愈發重要。使用知識抽取方法能夠自動識別并提取所需知識要素信息,為后續的知識融合、知識加工、知識應用提供數據支撐,其中命名實體識別是知識抽取的重要任務,也是知識圖譜、數據挖掘、智能檢索、問答系統等下游任務的基礎,命名實體識別技術的研究具有重要的理論需求與現實意義。

中文命名實體識別根據粒度劃分可分為基于詞的命名實體識別、基于字符的命名實體識別和基于字詞混合的命名實體識別。與英文命名實體識別相比,中文沒有明確的單詞分隔符號,因此,中文命名實體識別存在分詞困難的問題。

基于詞的中文命名實體識別方法需要對中文文本進行分詞操作,錯誤的分詞經常導致模型對實體邊界識別效果不佳?;谧址闹形拿麑嶓w識別方法雖然能夠避免分詞錯誤帶來的影響,但忽略了詞匯本身包含的邊界信息。為了解決以上問題,基于字詞混合的方法成為了主流的中文命名實體識別方法,其中基于詞匯增強的方法是在字符編碼的基礎上引入詞典,將輸入文本與詞典進行匹配,獲取最相近的詞匯信息,再將詞匯信息融入到模型中,實現字詞融合。Zhang 和Yang[1]在長短時記憶網絡(Long Short Term Memory Network,LSTM)模型上做出改進,提出了Lattice-LSTM 模型,通過引入大型詞匯庫,將句子與詞匯庫進行匹配,獲取最相關的字符和單詞,避免了單詞分割錯誤產生的影響,然后將潛在的詞匯信息集成到基于字符的模型中。Li等人[2]使用基于跨度的平面結構代替晶格結構(Lattice),解決了Lattice-LSTM 模型無法并行計算的問題,并提出了一種新穎的字與詞相對位置編碼。Liu 等人[3]受 到BERT(Bidirectional Encoder Representation from Transformers)適配器的啟發,構造了詞典適配器(Lexicon Adapter),并利用詞典適配器將詞匯信息融合到BERT 預訓練模型中。

現有的中文命名實體識別研究多集中于平面實體識別,而在實際生活中,存在大量的嵌套實體。嵌套實體識別和平面實體識別的區別如圖1 所示,在“農行河南省分行”這個例子中,嵌套實體識別任務需要確定“河南省”和“農行河南省分行”兩個實體的邊界,并正確預測對應的類別,而在平面實體識別任務中將忽略更短的實體“河南省”,只需要判別出長實體“農行河南省分行”的實體邊界和實體類別,與平面實體相比,識別嵌套實體的實體邊界更加困難,同時也更具有挑戰。通常會根據實際需求選擇不同的實體識別任務,因此需要一個統一的中文命名實體識別模型同時滿足這兩個任務的要求。

圖1 嵌套實體識別和平面實體識別示意圖

目前,基于詞匯增強的中文命名實體識別[1-4]多使用基于序列標注的方法,在解碼階段采用條件隨機場(Conditional Random Field,CRF)解碼,對嵌套實體的識別效果不佳,有些研究對CRF 進行了創新,通過采用分層CRF 或者設置復雜標簽的方法實現對嵌套實體的識別,但存在標簽稀疏的問題。

針對上述問題,本文提出TLEXNER 模型,在編碼階段通過在BERT 模型中Transformer 層之間添加詞典適配器[3],將詞匯信息集成到預訓練模型中,為了充分利用字符與詞匯的相對位置信息,在BERT 的嵌入層仿照原有的3 種嵌入方式加入字符與詞匯組的相對位置信息嵌入。在解碼階段,不同于傳統的中文命名實體識別使用CRF 進行解碼,本文使用表格填充(Table Filling)的方法,通過條件層歸一化(Conditional Layer Normalization,CLN)和雙仿射模型(Biaffine Model)構造字符對表格,將命名實體識別任務轉化成多分類任務,能夠有效地識別平面實體和嵌套實體。

基于詞匯增強和表格填充,本文提出TLEXNER 模型實現中文命名實體的識別,本文的主要貢獻如下:

(1)將中文的平面實體識別任務中常用的詞匯增強方法用于嵌套實體識別任務中,并證明了有效性。

(2)提出將字符與詞匯組的相對位置信息集成到BERT 的嵌入層中。

(3)使用條件層歸一化和雙仿射模型構造字符對表格,使用表格填充的方法代替中文命名實體中常用的CRF 解碼方式。

(4)實驗證明了TLEXNER 模型能夠有效識別中文的平面命名實體和中文的嵌套命名實體,并且優于其他基于詞匯增強的方法。

1 相關工作

對命名實體識別的研究早期主要集中在對于平面實體的識別,后來隨著技術的進步,逐漸將重心轉移到對嵌套實體的識別,與平面實體識別相比,嵌套實體識別對實體邊界的要求更加嚴格,同時也更具挑戰?,F在主流的命名實體識別主要分為基于序列標注的方法和基于跨度的方法。

基于序列標注的方法[5-8]通常采用BIO 或者BMES的標注方式,在平面命名實體識別中取得了不錯的效果,并廣泛應用在中文命名實體識別任務中,但由于模型自身的特點,導致對嵌套實體識別效果不理想,為此,研究人員對CRF 進行了一定的變體,采用了更加復雜的標簽[9-10],或者重復使用序列標注模型,將實體識別轉換成多標簽分類任務[11-13]。

基于跨度(Span)的方法是以詞的跨度作為基本單位,為每個跨度分配標簽,因此能夠對嵌套實體進行識別,但由于預測的實體頭尾之間是相互獨立的,缺少信息交互,存在錯誤識別實體邊界的問題。Yu 等人[13]在2020 年提出使用雙仿射模型進行命名實體識別,通過雙仿射模型對實體的開始和結束標記進行評分,通過這些標記表示所有的跨度,實現嵌套實體識別。Li 等人[14]在2021 年提出模塊化交互網絡模型,同時關注單詞級別及跨度級別的信息,使用交互機制實現兩個子任務的信息共享,有效解決長距離嵌套實體識別的問題。為了更好地識別實體邊界,Shen 等人[15]通過對種子跨度使用過濾和邊界回歸的方法生成跨度建議,然后識別邊界調整后的跨度的類別。Li 等人[16]在Yu 等人[13]的基礎上,利用多粒度空洞卷積層(Multi Granularity Dilated Convolution)來捕捉不同距離的單詞間關系,然后將多粒度空洞卷積與雙仿射模型的結果拼接,構造并預測二維詞對網格,實現嵌套實體識別。

2 模型結構

本文的模型整體結構如圖2 所示,主要分為編碼階段、表格填充階段和解碼階段3 個模塊。在編碼階段,首先通過詞典適配器將詞匯信息集成到BERT 預訓練模型中,然后通過雙向LSTM 獲取詞向量表示;在表格填充階段,使用條件層歸一化和雙仿射注意力模型構造并預測字符對表格;在解碼階段通過softmax 分類器得到實體頭部和實體尾部,并預測潛在實體的類別。

圖2 TLEXNER 模型整體結構

2.1 編碼階段

2.1.1 BERT 模型

Liu 等人[3]的研究表明,使用詞典適配器將詞匯特征集成到BERT 預訓練模型中能夠提升中文命名實體識別的效果。因此,本文在BERT 模型中的第一個Transformer 層加入詞典適配器,將詞匯信息融入到底層模型中,實現字符特征與詞匯特征的融合。整體結構如圖3所示。

圖3 BERT 模型結構圖

首先,輸入的句子C由多個中文文本字符{c1,c2,…,cn}組成,使用詞典D 獲取每個字符ci所匹配的一組詞匯信息wi={wi1,wi2,…,wij}。其中wij代表第i個字符匹配的第j個詞匯。

Li 等人[2]設計了一種巧妙的位置編碼,通過一個標記(token)分配頭部位置和尾部位置的方式,確定標記的位置信息。受到這種思想的啟發,本文將字符與詞匯的相對位置信息集成到BERT 的底層中。

因為多個字符可能會匹配到同一個詞匯,為了更好識別出字符與詞匯的潛在關系,本文仿照BERT 嵌入層(Embedding)中原有的3 種嵌入方式,加入了字符與詞匯的相對位置信息嵌入(Boundary Embedding),將字符特征和字符與詞匯組的相對位置特征一同輸入到BERT模型的嵌入層中,并在嵌入層實現字符與詞匯組的相對位置嵌入。其中字符與詞匯的相對位置包含了字符位于詞匯的頭部(B)、位于詞匯的中間(M)、位于詞匯的尾部(E)以及單一字符(S)4 種情況。字符匹配詞匯及相對位置信息如表1 所示。

表1 字符匹配詞匯及相對位置信息

然后,通過詞典適配器,將字符特征向量與詞匯特征向量相結合,適配器包含了兩個輸入,字符特征向量和一組單詞向量

其中,ec表示BERT 的嵌入層,表示通過BERT 的嵌入層得到的第i個字符的向量表示,ew為預先訓練好的單詞嵌入層表示第i個字符所匹配的第j個詞匯的向量表示。

由于每個字符可能匹配多個詞匯,但每個詞匯特征對于實體邊界識別的作用并不相同,因此引入雙線性注意力(Bilinear Attention)機制,將字符向量表示與對應的詞匯組向量表示輸入到雙線性注意力模型中,根據相關性對詞匯組中的每一個詞匯特征賦予不同的權重,接著將這些詞匯特征加權為一個向量,然后將該向量添加到字符向量中,得到的輸出

其中,LA 為詞典適配器的計算過程。

為了與其他研究進行對比,本文使用的預訓練模型是基礎的BERT 模型。

2.1.2 雙向LSTM

為了進一步加強詞向量的上下文表示,本文將BERT 預訓練模型的輸出輸入到雙向LSTM 中,獲取到最終的詞向量表示。

2.2 表格填充階段

表格填充用于實體關系聯合抽取任務中[17-18],使用表格中的每一項表示兩個單詞之間的關系。受此啟發,本文將表格填充用于中文命名實體識別任務中,使用字符對分別表示實體的頭部位置和實體的尾部位置,將字符對組成的實體的類別視為字符對之間的“關系”。

由于表格具有表示一個句子中多個字符對之間關系的特點,因此嵌套實體和平面實體都可以通過表格結構進行表示。在表格的構造過程中,句子中的任意兩個字符都會進行信息交互,并計算它們之間的關系,因此能夠避免基于跨度的命名實體識別方法中存在的頭尾實體無法交互的問題。

Li 等人[16]已經在命名實體識別任務中使用了構造二維詞對表格的方法,并通過設計復雜的標簽和解碼方式,實現對非連續實體的識別。與上述研究相比,本文的研究目標是對嵌套實體和平面實體進行識別,根據研究目標的不同選擇更加簡潔的表格標簽,在解碼階段只需要預測表格的上三角區域,而非整個表格,這樣能夠提升解碼效率并且減少標簽稀疏帶來的影響。具體的字符對表格如圖4 所示。

圖4 字符對表格

圖4 中的對角線表示潛在實體的頭部,上三角區域中的每一項都代表一個字符對之間的關系,即實體的類別,縱坐標表示實體可能的尾部位置,即可能的實體邊界。如果字符對之間不存在實體關系,則用NULL 進行表示。圖中的“河南省”和“農行河南省分行”是需要識別的兩個實體,因此將實體的類別填充到表格中的對應位置,而表格中的其他項標注為NULL。

本模塊的目的是通過條件層歸一化和雙仿射模型構造高質量的表格,用來表示字符對之間的關系,然后預測表格上三角區域的每一項的值,最后通過解碼器識別出潛在實體和實體的類別。

2.2.1 條件層歸一化

使用條件層歸一化構建字符對表格T,條件層歸一化在層歸一化的基礎上,根據條件信息動態生成增益γ和偏置λ,并將這些信息集成到上下文表示。

其中,CLN 是條件層歸一化的計算過程,tij是字符對表格T 中坐標為(i,j)的得分,表示字符對(ci,cj)的關系分別是字符ci和cj對應的詞向量表示,⊙表示點乘運算,γi和λi表示與相關的 增益參 數跟偏置項,γi=+bα,λi=+bβ,μ和σ分別表 示平均值 和標準差,dh′表示詞向量的維度,μ′表示元素值為μ的與同維的常 數矩陣。

然后將結果tij和距離嵌入Ed和區域嵌入Er進行拼接,最后通過多層感知機將這些信息進行融合,生成高質量的 表格表 示

2.2.2 雙仿射模型

將詞向量H′輸入到兩個多層感知機中,分別表示實體頭部和實體尾部,然后與雙仿射矩陣相乘,構造字符對表格T′′。

其中,U,U′和b是可以訓練的參數,U代表雙仿射矩陣,b是偏置項,⊕表示矩陣拼接操作表示字符對表格T′′中坐標為(i,j)的得分,用來判斷從i個字符到第j個字符是否為一個實體。

2.3 解碼階段

在解碼階段,本文使用softmax 分類器對字符對表格中的上三角區域中的每一項進行多分類,然后根據任務的不同選擇不同的解碼方式。

在平面命名實體識別任務中,選取表格的每一行中得分最高的一項作為實體的邊界,并將該項中可能性的最大的類別作為當前實體的類別。在嵌套實體中,表格上三角區域的每一項都對應一個潛在的實體,判斷其所有滿足得分0 的字符片段C[i:j]都被視為實體輸出,與采用CRF 和CRF 的改進版本相比,采用這種解碼方式的速度更快。

3 實驗與結果分析

3.1 實驗數據

在平面實體識別任務中,本文使用的是Resume[1]和MSAR 數據集。其中,Resume 數據集來自新浪財經網關于1 027 位高級經理人的簡歷摘要數據,標注了人名、國籍、籍貫、種族等8 種實體類別。由于中文嵌套實體領域的數據集相對匱乏,因此本文構造了軍事領域的中文嵌套實體數據集(Military)。從人民網、新華網、環球網爬取近一年的軍事領域新聞,然后進行分句、篩選等數據清洗工作,接著對已經爬取的8 000 多條數據進行實體標注,預定義了部隊、人物、戰備工程、國家/地區、機構/組織、職務、時間、地點、政黨、合同/協議等15 個實體類別,標注7 萬多實體,最后按照7:2:1 比例劃分訓練集、驗證集和測試集,數據集具體分布情況如表2 所示。

表2 數據集分布情況

3.2 實驗評價指標

本文采用準確率P、召回率R和F1作為最后的評價指標,對于實體評價的標準使用精確實體匹配方式,即要求實體邊界與實體類別均識別正確。

3.3 模型參數設置

本文的實驗所使用的深度學習框架為PyTorch,版本為3.7.1,內存為32 GB,預訓練模型使用BERT 模型,實驗主要參數設置如表3 所示。

表3 實驗參數設置

3.4 實驗結果分析

本文在公開的平面實體數據集Resume 和軍事領域的嵌套實體數據集Military 上進行對比實驗和消融實驗。

3.4.1 對比實驗

(1)中文平面命名實體識別

為驗證文本提出模型TLEXNER 識別中文平面命名實體的效果,在Resume 數據集與其他先進模型進行對比,其中,FLAT[2]、SoftLexicon[4]、LEBERT[3]是主流的基于詞匯增強的模型。本文使用的方法與實驗目標與LEBERT 模型[3]相近,因此將其作為基線方法,實驗結果如表4 所示。本文提出的模型與基線方法相比,F1的值由96.08%提升為97.35%,比基線方法增加1.27%,這主要是因為本文使用表格填充的方法代替基線方法中使用的CRF 方法,使用表格填充的方法能夠得到字符對之間的關系,而這種關系有利于中文平面實體識別任務。與效果最好的模型W2NER[16]相比,準確率、召回率和F1都有提升,分別為0.81%、0.58%和0.7%。這可能是因為TLEXNER 模型中引入了外部詞典所導致。

表4 各模型在Resume 數據集實驗結果(%)

(2)中文嵌套命名實體識別

在Military 數據集上,本文提出的模型準確率達到90.28%,召回率達到93.70%,F1值達到91.96%。與先進的模型W2NER[16]相比,準確率與F1的值略有提升,分別為1.04%和0.08%,表明本文提出的模型能夠有效完成軍事領域的中文嵌套實體識別任務,召回率的值降低了0.98%。召回率降低的原因可能是TLEXNER 模型在解碼階段使用了簡單的解碼方式,即將表格上三角區域中的每一個大于0 的字符對均視為實體,因此導致了一部分字符對被錯誤識別成實體。相關實驗結果如表5所示。

表5 Military 數據集實驗結果(%)

3.4.2 消融實驗

為驗證本文提出模型的有效性,分別在Resume 數據集和Military 數據集上基于原有模型進行消融實驗。實驗結果如表6、表7 所示。

表6 Resume 數據集消融實驗結果(%)

表7 Military 數據集消融實驗結果(%)

(1)-LEX 表示不在BERT 中引入詞典信息。在Resume 和Military 兩個數據集上與原模型相比F1值分別降低0.49%和0.48%。消融實驗結果表明通過引入外部詞典,將詞匯信息集成到底層模型中,有利于中文命名實體識別任務。

(2)-CLN 表示刪除條件層歸一化。在Resume 數據集上與原模型相比,準確率降低0.62%,召回率降低0.67%,F1降低0.65%;在Military 數據集上,準確率降低1.16%,召回率降低0.74%,F1降低0.96%。消融實驗結果表明,在中文實體識別的兩個任務中使用條件層歸一化均有利于構造高質量的字符對表格。相比之下,在Military 數據集中準確率和F1值下降幅度更大,這表明相較于平面實體識別,嵌套實體識別對字符對表格的質量要求更高。

(3)-BM 表示刪除雙仿射模型。刪除了雙仿射模型后在Resume 和Military 兩個數據集上準確率、召回率和F1值都有一定程度的降低,證明了雙仿射模型對中文命名實體識別任務的有效性。而在Military 數據上F1值僅降低0.08%,與其他模塊相比降低的數值較少,表明了雙仿射模型對嵌套實體識別任務帶來的提升有限。

4 結論

本文基于詞匯增強和表格填充提出了一個中文命名實體識別的統一模型,能夠實現對平面實體和嵌套實體識別。該模型在BERT 中通過詞典適配器融合詞匯信息,并將字符與詞匯的相對位置信息集成到BERT 的嵌入層中,然后通過條件層歸一化和雙仿射模型構造并預測字符對表格,最后根據字符對表格判別實體的類別。實驗在Resume 數據集上,與當今前沿的模型相比,在準確率,召回率和F1的值均有一定提升,F1提升至97.35%,在自行標注的軍事領域數據集上,與經典的模型對比,證明了本文模型的有效性。在未來工作中,將探究能否使用空洞卷積獲取更多實體邊界信息,改善現有模型對嵌套實體的邊界識別不夠精準的問題。

猜你喜歡
嵌套字符解碼
《解碼萬噸站》
尋找更強的字符映射管理器
基于嵌套Logit模型的競爭性選址問題研究
字符代表幾
解碼eUCP2.0
一種USB接口字符液晶控制器設計
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
消失的殖民村莊和神秘字符
一種基于區分服務的嵌套隊列調度算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合