?

基于損失函數優化的命名實體識別算法研究

2024-01-15 02:49樊康男沈春鋒王池社
金陵科技學院學報 2023年3期
關鍵詞:解碼全局實體

樊康男,沈春鋒,王池社*

(1.安徽理工大學計算機科學與工程學院,安徽 淮南 232001;2.金陵科技學院網絡與通信工程學院,江蘇 南京 211169;3.南京中醫藥大學常州附屬醫院,江蘇 常州 213003)

命名實體識別(named entity recognition,NER)的主要任務是從文本中識別實體的語義類型(如個人、地點、組織等)[1],在關系抽取、實體鏈接、知識圖譜中具有重要應用[2]。NER算法通常分為三類:基于序列標注的方法[3-4]、基于跨度的方法[5-7]和基于序列到序列的方法[8-10]。這些方法都需要對預測標簽進行解碼,以獲得最終的實體。

針對預測標簽解碼,標簽的設計尤為重要?;谛蛄袠俗⒌姆椒ㄍǔ榫渥又械拿總€詞元分別分配BIO或者BILOU標簽[11-13],以表示每個詞元是否在實體內?;诳缍鹊姆椒ㄍㄟ^記錄實體的頭尾位置標簽確定實體在句子中的位置,同時記錄跨度對應的類別標簽判別實體類別?;谛蛄械叫蛄械姆椒╗10]生成不同的數字,分別表示實體詞元在句子中的位置和實體對應的類別。在這些標簽設計方法中,一個實體對應多個標簽,實體中的標簽只有全部預測正確才能獲取正確的實體,這種限制導致高標簽預測精度也可能解碼出低實體預測精度。如圖1所示,假設標簽1、標簽2解碼獲得實體1,標簽3、標簽4解碼獲得實體2。上述解碼過程存在以下兩種情況:情況1,屬于實體1的標簽全部預測正確,屬于實體2 的標簽全部預測錯誤,此時標簽的預測準確率為50%,整體的實體預測準確率為50%;情況2,實體1和實體2的標簽各有一半預測正確,此時標簽的預測準確率也為50%,但實體預測準確率為0%。因此在標簽預測精度相同的情況下,同一實體內部的標簽預測正確性一致時,整體實體預測性能更好。

圖1 多標簽組成實體示例

本文選擇W2NER[14]為基模型,采用RCL-NER算法,通過關系一致性損失(relation consistency loss,RCL)解決高標簽預測精度解碼出低實體預測精度問題;同時,在RCL中引入權重因子[15]獲得協調關系一致性損失(focal relation consistency loss,FRCL),緩解W2NER中出現的類別不平衡問題。

1 方法及實現

1.1 總體結構

RCL-NER算法總體結構如圖2所示。W2NER模型設計關系標簽,將NER任務轉換成詞元間的關系預測任務。首先輸入句子到W2NER骨干網絡獲取全局關系網格,再從全局關系網格生成實體關系網格。全局關系網格用于計算全局損失,全局損失體現句子中所有的預測關系與真實關系間的差異。實體關系網格用于計算實體損失,實體損失確保相同實體內的關系具有相近的預測得分,每個實體關系網格只表示屬于相同實體的關系。將全局損失和實體損失結合,獲取RCL,最后在RCL中引入權重因子獲得FRCL,這兩種改進的損失都可以用來代替基模型的損失函數。

圖2 總體結構

1.2 實體關系網格生成

輸入句子“I am having aching in legs and shoulders”到W2NER骨干網絡,生成的全局關系網格如圖3左側所示,全局關系網格中的結點表示詞元兩兩對應關系的向量化表示,可以看作一個三維矩陣V∈N×N×C,其中Vij表示詞元(xi,xj)間的關系向量,C表示關系類數,N表示輸入句子的長度。句子中存在兩個實體aching in legs和aching in shoulders,基于這兩個實體生成了圖3右側的兩個實體關系網格。

圖3 實體關系網格的生成

在全局關系網格中,深色結點代表句子中所有的NNW(next neighboring word)關系,即實體內部相鄰詞元間存在位置上的相鄰關系,如aching in legs實體中的詞元對aching和in、in和legs;淺色結點代表THW*(tail head word*)關系,即實體的尾部詞元和頭部詞元之間存在的尾頭關系,如aching in legs中的詞元對legs和aching。通過THW*關系可以獲得實體的頭詞元和尾詞元在句子中的位置以及實體本身的類別信息。按照所屬實體的不同,將全局關系網格中的關系劃分到兩個網格中,獲得對應的實體關系網格。

1.3 關系一致性損失

關系一致性損失由全局損失和實體損失結合得到。全局損失使用交叉熵損失,對于每個句子S=[x1,x2,…,xN],訓練目標為:

(1)

(2)

(3)

(4)

(5)

1.4 協調關系一致性損失函數

(6)

(7)

(8)

(9)

(10)

(11)

2 結果與分析

2.1 實現細節

本文在兩個公共的命名實體識別數據集(連續實體數據集CoNLL-2003[16]和不連續數據集CADEC[17])上進行實驗。所有數據集設置和W2NER[14]一致,實體關系網格只用于訓練階段,全局關系網格用于解碼實體,超參數如表1所示。

表1 超參數設置

實驗隨機種子設置為123,用于避免隨機初始化帶來的誤差。以AdamW作為優化器,實現框架使用Pytorch,在NVIDIA TESLA P100 GPU上進行訓練。使用4個指標度量性能,分別為F1、準確率(Presicion)、召回率(Recall)和關系實體轉換率(relation to entity,R2E)。R2E為自定義的指標,可表示為:

(11)

式中,F1Entity表示實體的F1值,F1Rel表示關系的F1值。

2.2 實驗結果

2.2.1 在公共數據集上的結果

使用式(4)作為RCL時,RCL記作RCLmin,FRCL記作FRCLmin。使用式(5)作為RCL時,RCL記作RCLmax,FRCL記作FRCLmax。記錄關系和實體的F1、Presicion和Recall,如表2所示。在不連續數據集CADEC上,RCL-NER使用上述4種損失函數后,相比于基模型W2NER都出現了性能提升,實體F1值最大提高了1.81個百分點。當使用FRCLmin損失時,RCL-NER達到最佳性能,指標值優于最新的不連續實體識別模型TOE。

表2 不同模型在兩種數據集上的識別結果 單位:%

在連續數據集CoNLL-2003上,RCL-NER使用上述4種損失函數后,相比于基模型W2NER(除FRCLmax外)都表現出性能提升,實體F1值最大提升了0.36個百分點。應用RCLmax損失時性能最好,指標值優于新出的統一命名實體識別模型UIE。

2.2.2 消融實驗

表3 不同模型在數據集CADEC上的消融結果

2.2.3 比較關系實體轉換率

通過記錄RCL的兩個變種在數據集CADEC和CoNLL-2003上的R2E值,驗證RCL在緩解高標簽預測精度可能解碼出低實體預測精度問題上的有效性,結果如表4所示。在CADEC上R2E最大提升了1.52個百分點,在CoNLL-2003上R2E最大提升了0.11個百分點。結果表明,RCL達到了設計之初的目標,即通過提高關系實體轉換率提升模型性能。

表4 不同模型在兩種數據集上的關系實體轉換率

表2和表4顯示,應用RCL的RCL-NER算法通過提高關系到實體的轉換率提升實體預測精度,應用RCL能夠緩解高標簽預測精度解碼出低實體預測精度的問題。

2.2.4 連續實體和不連續實體預測對比

為了驗證提出的方法對兩類實體的影響,計算了實體在CADEC上預測正確的數量。如表5所示,應用RCLmin的RCL-NER算法預測正確的不連續實體數小幅降低,預測正確的連續實體數量增加。應用FRCLmin的RCL-NER預測正確的不連續實體和連續實體數量都增加。分析認為,相較于應用RCLmin的RCL-NER算法,應用FRCLmin的RCL-NER算法可以同時保存不連續實體的跳躍特性和連續實體的連續特性。

表5 在CADEC測試集中預測正確的不連續實體和連續實體數量

2.2.5 超參β的影響

如式(4)和式(5)所示,實體關系得分可以取最大值也可以取最小值,因此存在RCLmin和RCLmax兩種RCL變體。使超參λ固定,分別設置超參β值為e-2、e-1、e-0.5和e-0.1,比較數據集CADEC上超參β對兩種變體的影響。如表6所示,RCLmax在超參β=e-2、λ=0.001時性能最好,F1達到73.30%;RCLmin在超參β=e-1、λ=0.001時性能最好,F1達到73.41%。

表6 不同超參β的識別結果 單位:%

隨著超參β的改變,應用RCLmax基準模型的實體F1值的改變更加平滑,表明RCLmax對超參不敏感。使用不同的超參β,結果相較于基模型性能都有提升,顯示RCLmax和RCLmin對超參β具有魯棒性。

相較于CoNLL-2003數據集,在CADEC數據集中應用FRCL的RCL-NER算法性能提升更加顯著,原因可能是CADEC數據集比CoNLL-2003數據集更加稀疏。如表7所示,在CADEC數據集中,單句子平均實體數為0.83,句子平均長度為16.18;CoNLL-2003中的單句子平均實體數為1.70,句子平均長度為14.38。相較于CoNLL-2003數據集,CADEC數據集中的單句子實體更加稀疏,從而加劇了類別不平衡問題。因此用于解決類別不平衡的權重因子更適用于CADEC數據集。

表7 訓練數據集中的句子和實體情況

3 結 語

本文提出了RCL-NER算法,通過改進損失函數實現同一實體內的關系具有相同的得分分布,從而提高了關系到實體的轉換率,緩解了高標簽預測精度可能解碼出低實體預測精度的問題。同時引入權重因子,降低高得分類別的得分權重占比,緩解稀疏數據集中的類別不平衡問題。消融實驗結果表明,權重因子和實體損失在改進的損失中扮演重要的角色。實驗使用的數據集的種類相較于通用的模型數量較少。不同的超參β對于性能的影響仍有待探索。未來研究應進一步挖掘算法的普適性,使算法在多種類型數據集上都具有較好的性能,同時探索超參β如何對性能產生影響。

猜你喜歡
解碼全局實體
Cahn-Hilliard-Brinkman系統的全局吸引子
《解碼萬噸站》
量子Navier-Stokes方程弱解的全局存在性
解碼eUCP2.0
前海自貿區:金融服務實體
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
落子山東,意在全局
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合