?

融合知識的文博領域低資源命名實體識別方法研究

2024-01-30 03:07李超侯霞喬秀明
關鍵詞:文博跨度命名

李超 侯霞 喬秀明

北京大學學報(自然科學版) 第60卷 第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.070

北京市自然科學基金(4224090)資助

2023–05–12;

2023–08–23

融合知識的文博領域低資源命名實體識別方法研究

李超 侯霞?喬秀明

北京信息科技大學計算機學院, 北京 100192; ?通信作者, E-mail: houxia@bistu.edu.cn

文物數據的實體嵌套問題明顯, 實體邊界不唯一, 且文博領域已標注數據極度缺乏, 導致該領域命名實體識別性能較低。針對這些問題, 構建一個可用于文物命名實體識別的數據集 FewRlicsData, 提出一種融合知識的文博領域低資源命名實體識別方法 RelicsNER。該方法將類別描述信息的語義知識融入文物文本中, 使用基于跨度的方式進行解碼, 用于改善實體嵌套問題, 并采用邊界平滑的方式緩解跨度識別模型的過度自信問題。與基線模型相比, 該方法在 FewRlicsData 數據集上的 F1 值有所提升, 在文博領域命名實體識別任務中取得較好的性能。在公開數據集 OntoNotes 4.0 上的實驗結果證明該方法具有較好的泛化性, 同時在數據集 OntoNotes 4.0 和 MSRA 上進行小規模數據實驗, 性能均高于基線模型, 說明所提方法適用于低資源場景。

文博領域; 命名實體識別; 知識融合; 注意力機制

命名實體識別(named entity recognition, NER)[1–3]用于從文本中識別并提取具有特定意義的命名實體(如人名、地名、組織機構名等), 是構建知識圖譜和自然語言處理的重要基礎。文博領域的命名實體識別是從博物館藏品中的文獻以及文物展覽介紹等相關文本中識別出文物名稱、類別、年代、作者和出土地等重要信息, 構建文博領域的知識圖譜, 有助于文物數字化研究, 也有助于文物保護、研究和展示工作, 對展現和傳承傳統文化具有重要意義。然而, 面向文博領域的命名實體識別存在領域標注數據極度缺乏以及實體嵌套問題嚴重兩大難點。

首先, 現有的深度學習網絡模型訓練需要大量標注數據, 但文博領域高質量標注數據極度缺乏。由于文博領域的專業性強, 非專業人士難以標注高質量的數據, 導致數據標注成本巨大。針對數據稀缺的問題, 學者們提出不同的解決方案, 諸如基于半監督的方法和增強句子表示方法等[4–6]。Zhang等[7]使用基于半監督的方法, 在大量無標注數據集中重復選擇高置信度高的樣本, 通過反復迭代的方式, 逐步擴大訓練集的規模。但是, 半監督方法不僅受閾值選擇影響, 并且難免有錯誤樣本, 影響模型效果。

其次, 文物名稱是文博領域的重要實體, 構成復雜, 可能包含文物的年代、款識或作者(窯口)、地域、紋飾、題材、工藝技法、形態質地、顏色和用途等很多信息, 導致實體嵌套問題嚴重。例如, 在文物名稱“登封窯白釉珍珠地刻花文字枕”中, “登封窯”代表窯口即本文定義的生產機構, “白釉”代表瓷器釉色, “珍珠地”代表表面紋飾, “枕”表示用途。

序列標注和跨度(span)識別是命名實體識別任務中兩種常用的方法。序列標注方法將整個文本視為一個序列, 在序列上對每個字進行標注, 標簽通常包括實體和非實體兩種; 跨度識別方法則將每個實體視為一個跨度, 跨度的起點和終點是該實體在文本中的位置, 目標是預測每個實體的跨度和對應的實體類型, 通過識別每個跨度的起點、終點和實體類型來完成實體識別任務。相比于序列標注的命名實體識別方法, 基于跨度識別方法的優點在于可以準確地定位實體的位置, 從而提高實體識別的準確性, 更有助于解決實體嵌套問題[8–9]。

但是, 常見的基于跨度識別方法中, 訓練數據中標注實體的分布是離散的[10], 即實體的分布概率為 1, 非實體的分布概率為 0。這種銳度明顯的離散分布不利于模型的訓練, 同時在語義層面, 這種明顯的邊界不適合文博領域的數據。例如, “明嘉靖”和“嘉靖”代表同一個意思, 不應該根據標注規則就斷定另一個候選實體的分布概率為 0。另外, 數據稀少導致的數據多樣性降低, 會加劇基于跨度識別模型的過度自信問題[11]。

針對上述問題, 本文提出一種融合知識的文博領域低資源命名實體識別方法 RelicsNER, 將類別描述語句知識融入文物文本表示, 輔助模型預測實體, 減少模型對訓練數據量的依賴。同時, 該方法在基于跨度實體識別的基礎上, 采用邊界平滑的方式進行模型訓練, 顯式地將一小部分分布概率分配給真實實體周圍的候選實體, 從而一次性地識別出內嵌于文物名中的多個實體。為了驗證 RelicsNER方法面向文博領域數據的有效性及方法的泛化性, 本文構建一個文物數據集 FewRlicsData, 并選取兩個公開數據集 OntoNotes 4.0 和MSRA 進行實驗。

1 相關工作

有一些研究工作采用序列標注的方法面向文博領域進行命名實體識別, 通?;诂F有命名實體識別工具或模型進行改進和優化[12–15], 以便適應文博領域數據的特點。例如, 楊云等[12]基于中文分詞工具, 加入文博領域的專有名詞詞典, 提高文物名稱識別的準確率; 鞏一璞等[13]使用文博領域的相關知識和特征對模型進行優化, 提升文物類別和年代等信息的識別效果。然而, 基于序列標注的命名實體識別方法很難處理文博領域數據的實體嵌套問題。

很多研究工作使用基于跨度識別的方式進行命名實體識別, 可以在很大程度上緩解實體嵌套的問題?;诳缍茸R別的方式一般分為兩步, 跨度識別和跨度分類。Yu 等[16]通過 BiLSTM 獲得單詞表示之后, 使用兩個獨立的前饋神經網絡分別表示跨度的開始和結束, 隨后使用雙仿射模型對句子中的開始、結束位置對進行打分, 最后為此跨度分配類別。Li 等[17]首次將命名實體識別任務定義為問答(QA)任務, 對于嵌套的實體, 只需回答不同的問題, 就能識別不同的實體類型, 但是每次回答一個問題的方式使得模型訓練速度緩慢。Shen 等[18]提出并行實例查詢網絡, 實現并行查詢所有的實體, 模型中的多個查詢實例在模型訓練過程中學習查詢語句的語義, 可以避免手動引入外部知識。查詢語句提供了相關標簽類別的先驗知識, 故問答形式的命名實體識別模型在零樣本學習場景下有著不錯的表現。Yang 等[5]利用注意力機制, 將類別相關的查詢語句語義融入文本表示中, 更加充分地利用標簽知識。Mengge 等[19]通過維基百科數據訓練模型的跨度識別模塊, 利用基于詞典的遠程監督策略訓練模型提取跨度的粗粒度類型, 最后通過聚類方法, 挖掘更細粒度的實體類型。Fu 等[20]在識別實體跨度之后, 根據預定義實體類的自然語言描述對提取的跨度進行分類。

2 本文方法 RelicsNER

本文提出一種融合知識的文博領域低資源命名實體識別方法 RelicsNER, 整體結構如圖 1 所示。設需要識別的實體類別集合為={1,2, …,|C|}, 為了豐富類別的語義, 本文對中每種標簽給定一個類別解釋Q, 得到集合={1,2, …,|C|} (||是文物屬性類別的數量)。例如, 對于類別“作者”, 其描述信息為“作者是指進行文學、藝術或科學創作的人”。

對文物描述文本和類別解釋進行預處理后, 分別輸入兩個 RoBERTa 編碼器網絡中。兩個編碼器在處理各自的輸入時共享模型權重, 借此可緩解類別解釋數據量不足的問題。然后, 通過注意力機制引導的語義融合模塊, 將類別解釋的知識融入文本表示中, 得到文本的增強表示。最后, 在基于跨度的解碼過程中, 使用增強嵌入來預測每個標記是某個類別的開始索引還是結束索引。同時, 通過優化損失函數, 對人工標注的數據進行邊界平滑處理, 用于緩解跨度解碼器的過度自信問題。

2.1 融合知識的增強表示

融合知識的增強表示是借助文物實體類別解釋中的知識, 對文本的表示進行增強。本文使用RoBERTa[21]預訓練語言模型, 分別編碼文物文本語句和文物屬性描述文本, 得到各自的 token 表示∈R×d和∈R|C|×m×d, 其中和分別是文物文本和文物屬性標簽描述語句的長度,是編碼器的向量維度。由于文物屬性標簽的文本數量有限, 文物屬性描述文本的編碼器共享文物文本語句的編碼器1, 計算公式如下:

=1() , (1)

=1()。 (2)

得到類別解釋的 tokenh后, 計算每個文本表示h與每個文物屬性描述語句h的注意力分數, 再把注意力分數作為權重信息, 將類別解釋的語義融入文物文本語句的 token 中, 具體做法如式(3)~ (5)所示:

圖1 RelicsNER模型結構

2.2 基于跨度的解碼模塊

RelicsNER 在 token 中融合文物類別解釋的語義信息后, 通過計算句子中某個類別開始位置或結束位置的概率, 確定該類別實體在句子中的跨度。目前, 某類別實體開始位置和結束位置的匹配方法有兩種。1)就近匹配原則[22–23]: 某類別實體的開始位置與模型預測出的最近的同類別實體的結束位置匹配。2)啟發式原則[24]: 在某類別的候選起始位置和結束位置中, 只匹配某類別實體最高概率的起始位置和結束位置。但是, 同一類別中的跨度可能是嵌套的或重疊的, 此時啟發式原則不起作用。

本文基于 Li 等[17]的方法, 通過訓練, 獲得 3 個分類器, 包括起始位置分類器、結尾位置分類器和區間匹配分類器。

結尾位置分類器 end的原理與起始位置分類器相同:

區間匹配分類器用于計算模型預測出的實體跨度是否屬于類別的概率:

2.3 邊界平滑優化的損失函數

在進行實體識別時, 如果實體邊界的分布是離散型, 容易導致基于跨度的模型過度自信, 不適用于文物數據。也就是說, 在判斷實體邊界時, 基于跨度的模型可能只考慮到少數幾個具體位置, 忽略了其他可能的邊界位置。在這種情況下, 模型很可能只關注最高概率預測實體的位置而忽略其他可能的邊界。例如, 在對句子“絳色緞緝米珠彩繡云龍海水江崖紋龍袍清嘉慶長 141 厘米通袖寬 214 厘米形制為圓領, 右衽, 斜襟, 馬蹄袖, 四開裾直身長袍式……”進行數據標注時, 將“嘉慶”指定為年號, 則算法就無法識別“清嘉慶”, 或者認為“清嘉慶”沒有年號的含義。因此, 本文借鑒 Zhu 等[10]的思想, 在 Yang 等[5]工作的基礎上, 增加邊界平滑處理之后的損失函數。具體做法是, 將標注實體的分布概率由 1 改為 1–, 其余分布概率分配給標注實體周圍的候選實體。設平滑窗口大小為, 所有離標注實體曼哈頓距離為(≤)的候選實體的分布概率總和為/。例如, 句子“藥師佛像明景泰元年銅鍍金高 85 厘米, 這是一組三世佛像……”經過邊界平滑處理后標注實體的分布概率如圖 2 所示。

損失函數的定義如下:

3 實驗

3.1 數據集介紹

由于缺乏文博領域可用于文物實體識別的公開標注語料庫, 本文從首都博物館官方網站(https:// www.capitalmuseum.org.cn)爬取 507 條非結構化文物文本, 并進行預處理, 構建一個小型文物數據集FewRlicsData。該數據集的規模為訓練集 303 句, 測試集 101 句, 驗證集 102 句。參考 CDWA(Cate-gories for the Description of Works of Art)[25]元數據標準, 確定 7 種實體類別, 文物實體類別、中文簡稱、類別解釋以及各類別數量如表 1 所示。其中, 類別解釋作為額外的知識融合在文本表示中?;诒?1 中的類別定義, 本文以 json 形式標注文物文本, 形成數據集, 數據標注實例如下。

{

“text”: “釉陶多子盒, 西晉(265-317), 長 25.6 厘米, 寬 17.1 厘米, 高 5.2 厘米, 1962 年北京西郊景王墳西晉墓葬出土首都博物館藏。泥質紅陶。明器。長方形, 共分為十個大小不等的格子。外施褐色釉, 底部有座, 并有弧形裝飾, 是魏晉南北朝時期的典型隨葬器物之一, 并且可作為中原地區墓葬分期的標準器物之一, 流行于公元 3 世紀中期至 5 世紀末期?!?

“entities”: [{

“label”: “RelicsName”,

“text”: “釉陶多子盒”,

“start_offset”: 0,

“end_offset”: 5

}, {

“label”: “Dynasty”,

“text”: “西晉”,

“start_offset”: 6,

“end_offset”: 8

}, {

“label”: “Collection”,

“text”: “首都博物館”,

“start_offset”: 112,

“end_offset”: 121

}, {

“label”: “OutOfLand”,

“text”: “北京西郊景王墳西晉墓葬”,

“start_offset”: 59,

“end_offset”: 64

}]

}

表1 FewRlicsData類別名與類別解釋

在自建的文物數據集 FewRlicsData 以及公開數據集 OntoNotes 4.0 和 MSRA 上分別進行實驗。Onto Notes 4.0 由新聞領域的文本組成, 其中標注了18 種命名實體類別, 本文采用 Meng 等[26]的切分方式。MSRA 來自新聞領域, 標注了 3 種類別的命名實體。OntoNotes 4.0 和 MSRA 這兩個數據集常用于評價命名實體識別模型的性能。

3.2 實驗設置

基于 RoBERTa-large 模型[21]實現命名實體識別模型, 將 Adam[27]作為優化算法。根據 Zhu 等[10]的實驗結果, 將分配出去的分布概率(見 2.3 節)設為0.2, 平滑窗口的大小設為 1。初始化隨機數生成器的種子值設為 42, 學習率遵循 Yang 等[5]的設置, 其他參數如表 2 所示。

采用精確度(), 召回率()和 F1 值作為文物實體識別的評價指標。代表模型識別出的實體中與實際情況相符的實體數量,表示測試集中的真實正例有多少被模型正確地識別, F1 值是精確度和召回率的綜合指標, 取決于二者的加權平衡。

3.3 實驗結果

3.3.1對比模型

為驗證 RelicsNER 的有效性, 本文選擇 MRC-NER[17]、PIQN[18]、LEAR[5]和 CoFEE-main[19]這 4種基于跨度識別的命名實體識別模型以及序列標注的模型 BERT-Tagger[28]進行對比。MRC-NER 將命名實體識別任務視為機器閱讀理解問答任務, 將提取實體類別視為回答某類問題, 可以處理嵌套的NER 任務。PIQN 初始化大量實例查詢, 在訓練過程中學習不同的查詢實例語義, 每個實例查詢預測一個實體, 可以并行查詢所有實體, 避免人工構造實例查詢, 具有更好的泛化性, 模型訓練速度比MRC-NER 快。LEAR 分別將句子與問題輸入預訓練語言模型, 生成句子表示, 隨后通過注意力機制, 將問題語句中包含的標簽知識集成到文本表示中, 并且模型訓練速度比 MRC-NER 快。CoFEE-main是特定于 NER 的預訓練框架, 其中的跨度識別模塊在大量維基百科數據中學習通用知識, 再通過字典引導學習領域知識, 最后通過聚類, 學習領域內更細粒度的知識。

表2 模型參數設置

3.3.2命名實體識別結果

首先, 在本文構建的文物數據集 FewRlicsData上進行實驗, 結果如表 3 所示。本文模型 Relics-NER 的 F1 值高于其他模型, 說明它適用于文物領域的命名實體識別任務。LEAR 模型通過顯式的語義融合模塊, 學習與類別相關的知識增強表示, 在數據稀缺的文物數據集中表現較好。相較于 LEAR模型, 本文模型 RelicsNER 的 F1 值又提升 0.93%。通過配對 t 檢驗, 證明本文模型(包含邊界平滑模塊)顯著優于 LEAR 模型(<0.05, 顯著性水平= 0.05)。這是因為 RelicsNER 的邊界平滑模塊緩解了模型進行實體識別時的過度自信問題??缍冉獯a器提高判定預測實體為正確實體的閾值, 模型的精確度就會提高, 反之, 模型的召回率會提高。本文對模型的邊界平滑訓練方式隱式地使模型建立一個更高的實體識別閾值, 所以模型預測實體的精確度有很大的提升。

各模型在通用的 OntoNotes 4.0 中文數據集上的實驗結果如表 4 所示??梢钥吹? 本文模型也有較好的表現, 精確度高于其他模型。MRC-NER 模型對提取的實體類型做了非常重要的先驗知識編碼, 并且其機器閱讀理解問答模式不受標注數據稀疏性的影響, 所以表現好于 BERT-Tagger 類的模型。同時, MRC-NER 模型在標注數據稀少的文物數據中有著不錯的表現。PIQN 模型的表現較差, 說明其查詢實例在 OntoNotes 4.0 中文數據集中沒有很好地學習到語義區別。CoFEE-main 模型引入大量的外部知識, 所以在領域數據較少的情況下依然有不錯的表現, 但首次訓練速度較慢, 并且存在錯誤傳播問題。

表3 各模型在文物數據集FewRlicsData上的4折交叉驗證結果(%)

說明: 粗體數字表示最優結果, 下同。

表4 各模型在中文數據集OntoNotes 4.0上的實驗結果(%)

3.3.3低資源場景實驗結果

為了進一步驗證本文提出的 RelicsNER 模型對低資源情況的適用性, 在公共數據集 OntoNotes 4.0和MSRA 中隨機抽取每種類別的實體作為對比模型的訓練數據, 分別稱為 zhonto4 和 zhmsra。訓練數據量的取值范圍根據文物實體的各類實體數量(20~ 300)界定。

圖 3 顯示, 在低資源情境下, 通過注意力機制將標簽知識集成到文本表示中的方式效果好于其他模型。在 100 條訓練數據的情況下, LEAR 模型的F1 值比全數據訓練模型低 2.61%, 而在訓練數據達到 300 條時, F1 值只比全數據(15650 條訓練數據)訓練模型低 1.69%。因此, 本文模型借鑒 LEAR 模型的方式, 將標簽知識融入文本表示中, 以便減少模型對訓練數據量的依賴。通過與 LEAR 模型對比可以發現, 在只有 20 條訓練數據時, 本文模型的 F1值提高 0.98%, 在有 300 條訓練數據時提高 0.07%。在訓練數據量少的情況下, 本文模型的效果略微好于 LEAR 模型, 說明邊界平滑的操作有利于模型對數據特征的學習。由于本文模型與 LEAR 模型在zhonto4 數據集上的差距并不明顯(圖 3), 故本文進行配對 t 檢驗, 結果表明本文模型(包含邊界平滑模塊)顯著優于 LEAR 模型(<0.05, 顯著性水平= 0.05)。從圖 3 可以發現, PIQN 模型比其他模型更依賴訓練數據量, 這是因為查詢實例也需要較多的數據才能準確地學習查詢語句的語義。但是, PIQN 模型并不需要人為地定義查詢語句語義, 可以在數據中自動地學習。MRC-MAIN 模型在 zhmsra 數據集上存在過擬合問題, 但是在 zhonto4 數據集上表現正常。

3.3.4訓練速度

表 5 顯示, 各模型的訓練時間與類別數量|| 正相關。LEAR 對所有類別解釋進行一次編碼, 其訓練速度遠小于傳統的問答 MRC-NER 模型。本文提提出的 RelicsNER 模型對邊界做平滑處理, 在訓練時增加了模型的計算負荷, 導致訓練時間大于LEAR 模型, 但少于其他基線模型。CoFEE-main 模型在預熱階段要從 20 萬條維基百科數據中訓練模型的通用 span 提取能力, 故其第一階段的訓練十分耗時。本次實驗中從預熱階段之后開始計算訓練時間, CoFEE-main 模型在聚類挖掘數據特征的過程中耗時較多。PIQN 模型在訓練過程中需要選擇最佳的查詢實例, 故訓練時間較長, 并且在類別種類增加時, 訓練時長成倍增長。

圖3 各模型在數據集zhonto4和zhmsra上的實驗結果

表5 不同模型的訓練速度對比

說明: 括號內為相較于LEAR模型訓練時間的倍數。

3.3.5消融實驗

為了驗證模型中各個成分的有效性, 我們進行消融實驗, 結果如表 6 和 7 所示。

變體 1(w/o BS): 不采用邊界平滑方式訓練模型。zhonto4 數據集實驗結果的 F1 值下降 0.12%, 文物數據集實驗結果的 F1 值下降 0.93%, 說明邊界平滑操作能夠緩解模型自信問題, 在文物數據集中的表現有所提升。

變體 2(w/o fusion): 刪除了融合標簽知識的模塊。zhonto4 數據集實驗結果的 F1 值下降 1.48%, 文物數據集實驗結果的 F1 值下降 0.75%。這個結果說明融合標簽知識的模塊可以將標簽知識有效地集中到文本表示中, 從而增加 token 作為實體邊界位置的概率。

對比表 6 與 7 可以發現, 融合標簽知識的模塊對 zhonto4 數據集實驗結果的影響較大。為了分析數據集和訓練數據量對融合標簽知識模塊的影響程度, 我們在 zhonto4 數據集中隨機抽取 20~300 條每種類別的實體作為模型的訓練數據, 據此觀察在zhonto4 數據集的低資源情況下, 融合標簽知識模塊對模型的影響, 結果如圖 4 所示??梢钥闯? 在低資源情況下, RelicsNER 模型在 zhonto4 數據集上實驗結果的 F1 平均值比變體 2 高 1.18%, 說明訓練數據量不會影響融合標簽知識模塊的作用。

表6 本文模型在文物數據集FewRlicsData上的4折交叉驗證結果(%)

表7 本文模型在zhonto4數據集上的實驗結果(%)

3.4 案例分析

針對同一文本, 不同模型的命名實體識別結果如表 8 所示。CoFEE-main 沒有正確地識別出文物名, 說明通用知識與文博領域存在一定的差異。此外, 大部分基線模型對出土地(OutOfLand)和生產機構(ProductionAgency)類別的命名實體識別效果欠佳。LEAR 模型將“西晉”錯誤地識別為“西”和“晉”, 可見存在過度自信的識別邊界, 導致出現分詞錯誤。本文提出的 RelicsNER 模型中邊界平滑, 學習到實體表示的多樣性, 減少了這種過度自信的問題, 提高了分詞的準確性。

4 結語

為了解決文博領域的命名實體識別任務中缺乏已標注數據以及因文物名內嵌一些文物的重要屬性而導致命名實體嵌套這兩類問題, 本文標注 507 條非結構化文物數據, 構建一個小型數據集FewRlics-Data, 并提出 RelicsNER 模型的框架。RelicsNER模型采用基于跨度的方式, 一次性地識別多個實體, 通過注意力機制, 將類別解釋語義融入文物文本特征中, 從而可以融入更多的文博領域知識, 降低模型對訓練數據量的依賴程度, 并通過邊界平滑操作緩解模型過度自信問題。在 FewRlicsData 數據集上的實驗結果證明, RelicsNER 模型適合于低資源文博領域的命名實體識別任務。在文物數據集和兩個公開數據集的實驗中, 本文 RelicsNER 方法的性能都比基線模型有所提升。

圖4 本文模型與w/o fusion在不同訓練數據量下的實驗結果

表8 不同模型的識別結果對比

Table 8 Case study of different models

說明: 紅字為未識別出的命名實體。

[1] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition // Procee-dings of NAACL-HLT. San Diego, 2016: 260–270

[2] Cao P, Chen Y, Liu K, et al. Adversarial transfer lear-ning for Chinese named entity recognition with self-attention mechanism // Proceedings of EMNLP. Brus-sels, 2018: 182–192

[3] Trieu H L, Miwa M, Ananiadou S. Named entity reco-gnition for cancer immunology research using distant supervision // Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin, 2022: 171–177

[4] Ke P, Ji H, Liu S, et al. SentiLARE: sentiment-aware language representation learning with linguistic know-ledge // Proceedings of EMNLP. Online Meeting, 2020: 6975–6988

[5] Yang P, Cong X, Sun Z, et al. Enhanced language representation with label knowledge for span extrac-tion // Proceedings of EMNLP. Punta Cana, 2021: 4623–4635

[6] Zhao X, Yu Z, Wu M, et al. Compressing sentence representation for semantic retrieval via homomorphic projective distillation // Findings of ACL. Dublin, 2022: 774–781

[7] Zhang M, Geng G, Chen J. Semi-supervised bidirec-tional long short-term memory and conditional random fields model for named-entity recognition using em-beddings from language models representations. Entro-py, 2020, 22(2): 252–271

[8] 趙山, 羅睿, 蔡志平. 中文命名實體識別綜述. 計算機科學與探索, 2022, 16(2): 296–304

[9] 王穎潔, 張程燁, 白鳳波, 等. 中文命名實體識別研究綜述. 計算機科學與探索, 2023, 17(2): 324–341

[10] Zhu E, Li J. Boundary smoothing for named entity re-cognition // Proceedings of ACL. Dublin, 2022: 7096–7108

[11] Guo C, Pleiss G, Sun Y, et al. On calibration of mo-dern neural networks // International Conference on Machine Learning. Amsterdam: PMLR, 2017: 1321–1330

[12] 楊云, 宋清漪, 云馨雨, 等. 基于BiLSTM-CRF的玻璃文物知識點抽取研究. 陜西科技大學學報, 2022, 40(3): 179–184

[13] 鞏一璞, 王小偉, 王濟民, 等. 命名實體識別技術在“數字敦煌”中的應用研究. 敦煌研究, 2022(2): 149–158

[14] 李文亮. 基于深度學習的歷史文物知識圖譜構建方法研究與應用[D]. 太原: 中北大學, 2022

[15] 馮強. 文物藏品知識圖譜構建技術研究[D]. 西安: 西北大學, 2022

[16] Yu J, Bohnet B, Poesio M. Named entity recognition as dependency parsing // Proceedings of ACL. Seattle, 2020: 6470–6476

[17] Li X, Feng J, Meng Y, et al. A unified MRC framework for named entity recognition // Proceedings of ACL. Seattle, 2020: 5849–5859

[18] Shen Y, Wang X, Tan Z, et al. Parallel instance query network for named entity recognition // Proceedings of ACL. Dublin, 2022: 947–961

[19] Mengge X, Yu B, Zhang Z, et al. Coarse-to-fine pre-training for named entity recognition // Proceedings of EMNLP. Online Meeting, 2020: 6345–6354

[20] Fu J, Huang X J, Liu P. SpanNER: named entity re-/ recognition as span prediction // Proceedings of ACL. Bangkok, 2021: 7183–7195

[21] Zhuang L, Wayne L, Ya S, et al. A robustly optimized BERT pre-training approach with post-training // Pro-ceedings of the 20th Chinese National Conference on Computational Linguistics. Huhhot, 2021: 1218–1227

[22] Du X, Cardie C. Event extraction by answering (al-most) natural questions // Proceedings of EMNLP. Online Meeting, 2020: 671–683

[23] Wei Z, Su J, Wang Y, et al. A novel cascade binary tagging framework for relational triple extraction // Proceedings of ACL. Seattle, 2020: 1476–1488

[24] Yang S, Feng D, Qiao L, et al. Exploring pre-trained language models for event extraction and generation // Proceedings of ACL. Florence, 2019: 5284–5294

[25] Baca M, Harpring P. Categories for the description of works of art. New York: Art Association, 2017

[26] Meng Y, Wu W, Wang F, et al. Glyce: glyph-vectors for chinese character representations // Advances in Neu-ral Information Processing Systems. Piscataway, 2019: 2746–2757

[27] Kingma D, Ba J. Adam: a method for stochastic optimi-zation. Computer Science, 2014, doi: 10.48550/arXiv. 1412.6980

[28] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language under-standing // Proceedings of NAACL. Minneapolis, 2019: 4171–4186

A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion

LI Chao, HOU Xia?, QIAO Xiuming

Computer School, Beijing Information Science & Technology University, Beijing 100192; ? Corresponding author, E-mail: houxia@bistu.edu.cn

In cultural heritage field, entity nesting of cultural relics data is obvious, the entity boundary is not unique, and the marked data in the field of cultural relics is extremely lacking. All the problems above can lead to the low recognition performance of named entities in the field of cultural relics. To address these issues, we construct a dataset called FewRlicsData for NER in the field of cultural heritage and propose a knowledge-enhanced, low-resource NER method RelicsNER. This method integrates the semantic knowledge of category description information into the cultural relics text, employs the span-based method to decode and solve the entity nesting problem, and uses the boundary smoothing method to alleviate the overconfidence problem of span recognition model. Compared with the baseline model, the proposed method achieves higher F1 scores on the FewRlicsData dataset and demonstrates good performance in named entity recognition tasks in the cultural heritage field. Experimental results on the public dataset OntoNotes 4.0 indicate that the proposed method has good generalization ability. Additionally, small-scale data experiments on OntoNotes 4.0 and MSRA datasets show that the performance of the proposed method surpasses that of the baseline model, demonstrating its applicability in low-resource scenarios.

cultural heritage field; named entity recognition; knowledge fusion; attention mechanism

猜你喜歡
文博跨度命名
《廣州文博》征稿啟事
緩粘結預應力技術在大跨度梁中的應用
命名——助力有機化學的學習
大跨度連續剛構橋線形控制分析
《廣州文博》征稿啟事
文博揚帆起航
文博學院
組合鋁合金立柱在超大跨度玻璃幕墻中的應用
有一種男人以“暖”命名
為一條河命名——在白河源
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合