?

基于BLSTM-CRF 的自舉式術語識別方法研究

2024-01-29 08:43陳翀高欣妍黃紅
情報工程 2023年5期
關鍵詞:評價

陳翀 高欣妍 黃紅

1. 北京師范大學政府管理學院 北京 100875;

2. 富媒體數字出版內容組織與知識服務重點實驗室 北京 100038

引言

術語是指各門學科的專門用語。術語識別是在領域語料中找到能概括該領域知識的詞匯或詞組。優質的術語不僅可以用于概括領域知識體系,還可以揭示資源的內容主題,描述資源或學者等實體的特征,因而是構建領域本體、詞表及知識圖譜等基礎應用的核心。在當今學科交叉,新興領域和已有領域中新的術語不斷出現的情況下,人工編制術語表顯然不能滿足現實需要,而由于領域表述差異、標注訓練數據稀缺等原因,也沒有通用性好的術語識別工具[1],因此自動識別術語一直是自然語言處理、知識組織等研究中普遍關注的問題。

術語識別方法面臨的一個瓶頸是各領域優質標注語料匱乏,因為多數方法需要從標注語料中學習術語的上下文和構詞特征以便訓練模型。本文提出了一種自舉式(Bootstrapping)術語識別方法,以解決神經網絡模型在標注數據不足情況下的術語識別問題。該方法依據術語的流行性、單元性、信息性、領域性及詞法構成等質量特征定義規則,用于在每輪迭代中篩選模型所識別的候選術語,將其擴充到標注詞集合,以便訓練新的識別模型,從而達到提升模型訓練效果的作用。

本文還探索了BLSTM-CRF 模型對標注詞數量及語境豐富度的依賴性,實驗結果為本文選擇迭代方案提供依據。本文用精度、召回率、F1 值和新詞識別率衡量所提出的自舉式方法與BLSTM-CRF、BERT-BLSTM-CRF 相比的優勢,并用優質術語率和產出投入率對該方法每輪的迭代效率進行評估。最后,將訓練好的模型用于新興的融合出版領域的術語識別,抽樣1000 詞,人工評價識別效果,平均正確率是87.7%,說明該方法具有一定的領域推廣性。本文的創新點一是篩選優質術語為每輪迭代訓練模型提供了更直接的優化目標,二是選擇了迭代訓練的策略,使得術語識別方法所需的人工標注詞匯少,啟動成本低,領域適應性好。

1 相關研究

1.1 術語識別的方法

術語識別問題提出已久,開展的相關研究也很多[1-3],但它至今并未被完美解決。與關鍵詞或短語的識別相比,術語識別需要考慮術語所具有的領域性,而不僅僅是在特定文檔中的重要性。與一般的命名實體識別相比,術語的構成字詞比人名、地名、機構名等實體名中的取詞范圍更廣,邊界特征不明顯,而且標注語料稀缺。2016 年,Astrakhantsev 在7 個開放數據集上比較了13 種當時最優的方法,包括基于統計特征、基于主題模型、基于外部知識庫等,最終發現并沒有某種單一方法能在所有數據集上獲得最佳的平均精度[1]。

現有的術語識別方法主要分為三類,即基于語言學規則的方法,基于統計的方法和基于機器學習的方法[3,10]?;谡Z言學規則的方法主要是依據語言學規律識別術語[2],例如術語的詞性、詞長、構詞特點、句法依存關系等。該類方法適用于小數據集,隨著語料庫的增大,術語出現情況增多,對應的語言規則會越來越復雜,召回率也低?;诮y計的方法主要是利用一些統計指標對詞匯打分,從語料庫中挑選出重要的詞匯作為領域術語,統計指標包括詞頻、文檔頻率、互信息、信息熵、TF-IDF、C-Value[4]等。該類方法不依賴于特定領域,具有通用性,但需要大規模語料的支撐,且對語料庫的質量要求也比較高。機器學習興起后,基于規則和統計的方法可以作為機器學習方法中的組成環節,用以提升術語識別性能。

機器學習方法通常將術語識別轉化成兩種類型的問題。一種是二分類問題,給定訓練數據,采用樸素貝葉斯、決策樹、支持向量機等方法根據訓練實例的特征學習分類模型,進而識別術語片段。詞匯特征可以是基于語言學特征、統計特征及兩者的組合特征,還可以是來自外部知識庫的特征。另一種思路是轉換為序列標注問題。用于序列標注的機器學習方法主要有隱馬爾可夫模型、最大熵模型、條件隨機場(Conditional Random Field,CRF) 等。CRF 通過學習被觀察的輸入數據序列X=(x1,x2,…,xn)及其對應的隱含狀態序列Y=(y1,y2,…,yn)來構建條件概率模型P(Y|X),當給定了某個觀測序列x,求解P(Y|X)最大時的狀態序列y作為對x的標注結果。在術語標注中觀測序列是連續的文本,隱含狀態序列是文本中詞匯的類型標簽,例如是否術語的開頭、結尾等。

隨著詞嵌入技術和深度學習方法的發展,大量神經網絡模型如循環神經網絡(Recurrent Neural Networks,RNN)、雙向長短時記憶(Bidirectional Long Short-Term Memory,BLSTM)網絡等被應用于領域術語識別。Collobert 等[5]是將神經網絡模型用于詞性標注、分詞、命名實體識別等自然語言處理任務的早期代表之一。而Meng 等[6]為了能更好地捕獲文本中的語義信息和句法特征,提出了Copy-RNN 關鍵短語預測生成模型,生成文本中不一定原樣出現過、但是概括了文本語義的詞匯。

深度學習方法的優勢在于不需要特定的人工構建規則和繁瑣的特征工程,易于提出隱含的語義信息,方法的領域獨立性強。這些提取方法大多基于“編碼器—譯碼器”框架展開,“編碼器—譯碼器”框架包括輸入的分布式表示、上下文編碼器和標簽解碼器三個部分[6-8]。第一部分,輸入的分布式表示可以用Word2vec、BERT 等語言模型生成表示向量,或融入詞性、依存句法和大小寫等語言學特征[9]來人工構建特征向量。第二部分,上下文編碼器主要是用CNN、RNN、LSTM 等神經網絡模型去挖掘輸入數據中的隱藏信息。其中CNN 能有效提取輸入數據中的局部特征,而RNN 能夠記憶信息,LSTM 模型則通過內部狀態向量引入了內存機制,以及輸入門、遺忘門和輸出門三個門控機制,這使得LSTM 能夠有選擇性地記憶長距離信息,具有更強的信息捕捉能力,改善了RNN 訓練困難及短時記憶的弊病,一般適于處理長序列數據。BLSTM 模型是特殊的RNN,不但具有信息記憶能力還能挖掘隱含信息,因此被廣泛應用于自然語言處理研究中。Chiu[7]提出了一種融合BLSTM 和RNN 的方法來提取詞匯級別和字符級別的特征以完成命名實體識別任務,最終在CoNLL-2003 數據集和OntoNotes 數據集上都取得了不錯的效果。第三部分,標簽解碼器用來解碼神經網絡模型最終的輸出。常用的標簽解碼器有全連接層加上softmax、CRF、RNN 等。其中全連接層加上softmax 會獨立地預測每個單詞的標簽,導致最終的預測結果出現標簽偏置的問題,而CRF 由于其考慮全局最優化,能夠有效解決這個問題,糾正了BLSTM模型可能產生不合理的標簽組合的問題,因而目前BLSTM-CRF 模型因其序列預測效果好而成為自然語言處理領域的經典模型[7-10]。為了進一步優化,研究者還引入了注意力機制,該機制賦予BLSTM-CRF 模型輸出向量不同的權值,突出重要詞匯的重要性,使得模型的術語識別性能得到提升[9]。

1.2 標注語料的擴展

識別術語面臨訓練機器學習模型所需的標記語料稀缺的問題,大多數應用場景都缺少可用的術語表或外部知識庫。一種折中的辦法是采用自舉(Bootstrapping)方式增量擴展訓練集,即初期用少量的標注數據,在迭代中不斷獲取置信度較高的標注結果,優化訓練模型,提升模型最終效果[11]。

在基于CRF 序列標注的術語識別迭代中,擴展標注數據的方式與采用的模型有關。第一種是直接利用輸出的觀測序列,即標出的術語,制定規則來獲得高置信度的標注結果。例如規定將相鄰術語片段或滿足前后綴特征的片段進行組合得到新的術語[12];第二種是利用輸出的隱含狀態序列,即詞的標簽,將標簽被選擇的概率作為置信度來篩選具有特定標簽特征的詞匯[13]。前一種方式直接將人類對術語特征的觀察經驗融入篩選規則,適用于對術語特征有一定知識的情況,其優點是提供了更為直接的學習依據,但不足是所加入的規則覆蓋能力有限。后一種方式適用于對術語特征缺少人類經驗知識的情況,完全從標注語料學習,并依賴CRF模型算出的標簽概率來構造術語篩選的判決策略,其不足是在隱含狀態層面的判決策略傳遞到觀測序列上并不一定都能構成有效篩選。

用遷移學習也是一種解決標記語料稀缺的方法,在標注語料豐富的領域數據集中訓練模型,將訓練好的模型參數遷移到標注語料少的領域上,從而實現在少量標注數據條件下訓練出高質量的術語識別模型的目標。如果一個系統具有遷移學習能力,則該系統能夠將源領域或任務上學習到的知識或模式應用到相關的目標領域或問題中[14]。遷移學習的可行性基礎是源領域和目標領域要有相似性。按照源任務和目標任務、源域與目標域的相同與否分為歸納式、直推式和無監督遷移學習幾種,其中,直推式遷移學習的源任務和目標任務是相同的,源域和目標域不同但相關,因而目標域和源域的任務之間共享相同的模型參數或者是服從相同的先驗分布[14]。劉宇飛等[15]基于BLSTMCRF 模型在CoNLL-2003 使用的新聞領域NER英文公共數據集上訓練模型,在數控系統領域的專利文獻數據集上獲得了術語標注結果。

2 研究設計

自舉式方法通過逐步增加優質標注詞不斷訓練術語識別模型F,最終得到的模型記為B_F。本文的基礎模型F 選擇公認性能優越、使用廣泛的序列標注模型BLSTM-CRF[10]。在迭代中,利用術語的質量來構造篩選條件,選擇新增的標注詞。本文關注的問題主要有:(1)能反映術語質量的篩選條件如何定義;(2)迭代方法的效果及效率評估,包括對識別新詞的能力和標注投入與術語產出率的評估;(3)在領域S 中訓練的模型B_F,遷移到相似領域D 的同類任務中具有何種效果。為此首先在本節闡明迭代訓練過程和術語篩選規則,在第4 節實驗中評價迭代方法在源領域S 以及遷移到相似領域D 的效果。為了便于說明,定義符號及含義如表1 所示。

表1 符號表

2.1 基于BLSTM-CRF的自舉式術語識別過程

選取特定領域,以論文摘要構成的句子集合代表領域語料S,同時獲取論文的關鍵詞,從中挑選種子術語集合T0。本文提出術語識別的方法是(1)在第i輪模型訓練中,利用集合Ti-1標注訓練語料S1;(2)用標好的語料訓練BLSTM-CRF 模型,記為F;(3)用模型F 在S1上產生第i輪的詞匯集合Ti',它可視為本輪找出的術語候選詞;(4)按照質量規則篩選Ti’得到優質詞集合Ti,將Ti中相對于Ti-1而言的新術語ΔTi添加到Ti-1作為下一輪訓練的標注詞集合;(5)判斷抽出的新術語數|ΔTi|如果少于給定的閾值或模型迭代達到指定的次數,則停止迭代,否則重復步驟(2)—(5),圖1 為本文的術語識別流程。假設在第m輪停止迭代,得到的最終模型即是本文所提的自舉式方法的訓練結果,記為B_F。訓練結束后,在測試語料S2上評價模型訓練效果。

圖1 基于BLSTM-CRF 的自舉式術語識別方法B_F 的訓練過程

為模型提供標注數據訓練并不是要其記住標注術語本身,而是要學習術語及上下文的語言特征,建立詞匯及其標注狀態的條件概率模型,因此在一輪迭代中,作為輸入的標注術語并不一定都會被標出。在這種情況下,如果用本輪輸出的術語詞直接為下一輪訓練做標注,將有可能丟失原始優質種子術語貢獻的上下文語言特征。為了保證標注質量不下降,每輪訓練的標注數據都保留了那部分經人工挑選的種子術語T0,且吸收本輪輸出的優質新術語ΔTi,用Ti-1+ΔTi為下一輪訓練做標注,這些新術語能為模型提供更多學習實例。

2.2 術語篩選的規則

為了提高模型識別術語的準確率,本文從術語質量上定義篩選規則。Kageura 等[2]將優質術語的特征歸納為單元性和領域性,單元性指如果一個單詞序列頻繁地出現在一起,則它可能表達了一個獨立完整的語言含義;領域性衡量術語候選詞與特定領域的相關程度。因為術語在無關領域的出現機會比較少,人們提出了Domain Pertinence[16]用詞匯在不同領域出現頻次來度量,同類指標Weirdness[17]、Relevance[18]考慮了頻次值在不同領域的規范化。C-value/NC-value 指標混合了詞長、詞頻、上下文等多種因素的考慮[4],其特點是偏向長詞的選擇,這比較符合領域術語的表述特點。

本文篩選術語質量首先基于統計規則,認為優質術語應具有流行性、單元性、信息性和領域性特征,選擇C-value 和Weirdness 來量化上述特征,理由及對照關系如表2 所示,定義詞匯的篩選規則如式(1)所示。其次基于構詞規則,由于術語是特定領域對象、概念的專指名稱,根據構詞特點,一般是由多個名詞結構或動名詞結構等形式組成,所以人工挑選種子術語后,以其詞法特征作為術語的構詞模板,即分析領域S 中種子術語的詞法構成,從中挑選出現頻次較高的詞法模板,作為術語的構詞特征篩選標出結果,規則詳見3.2 節表4。通過上述兩類規則過濾的候選詞被認為是優質術語,可作為訓練模型所用的標注數據。

表2 術語質量的特征、含義及與量化指標對照關系

Score(w)代表候選術語w的分值,一部分來自w在領域內的重要性,一部分來自w相對于其他領域而言所具有的特殊性。這兩部分借助C-value 和Weirdness 指標及其加權來表示,a是權重系數。

C-value 的計算如式(2),|w|表示w的字符長度,fS(w)表示w在語料庫S 中出現的頻次;Tw表示包含w的候選術語集合。如w為“神經網絡”,Tw={“BP 神經網絡”,“循環神經網絡”,“卷積神經網絡”}是都包含w的詞匯集合,即父串,|Tw|為該集合的元素數。其中式(3)反映了既有獨立性又同時作為其他術語成分出現的術語w,在計算時需要排除包含w的父串術語造成的影響。

Weirdness 計算如式(3),用w在S 及其參照領域reference 中出現的頻次的歸一化值之比來表達w是否具有領域特性,其中NS、Nreference分別代表兩個領域的語料中的詞匯數。

a的選擇取決于對領域S 和參照領域reference 的比較??紤]到目前領域交叉廣泛存在,Weirdness 對兩個領域中的共有術語w并不靈敏,參照領域的選取標準不能簡單確定,領域性的度量結果賦權有待深入探討。本文實驗中為簡化起見,限于對特定領域的術語識別,將a賦為1。

2.3 效果評價

2.3.1 每輪迭代的評價

理想的方法是標注成本低、標出的術語多且質量高。迭代方法使用少量的初始種子可以獲得大量優質術語。為了弄清訓練的成本,即投入標注詞與獲得新術語的數量關系,可以計算每輪迭代的優質術語率λ和每輪訓練的產出投入率δ, 定義如式(4)和(5)。式(4)中,Δ Ti是第i輪迭代訓練所得的優質新術語,Ti'-Ti-1代表第i輪中識別出的新詞,λi代表在第i輪識別出的新詞中優質術語的占比。式(5)代表第i輪產出的優質新術語與輸入的標注詞之比。迭代模型的優質術語率λ越高、產出投入率δ越大,則說明迭代越有效、實用性越好。

2.3.2 方法性能的評價

基本評價指標為精度、召回率和F1 值。由圖1 所示,B_F 方法在BLSTM-CRF 識別結果基礎上還做了詞匯篩選,因此該方法的精度是召回率此外,本文還關注識別新術語的能力,衡量特定方法識別出的優質術語中,非種子標注詞的占比τ,見公式(6)。在B_F 中,τ相當于對迭代過程識別的所有新術語在最終結果中的占比,在BLSTM_CRF 中,由于沒有術語篩選的環節,所以分子是T1'-T0。

2.3.3 遷移性能的評價

進行直推式遷移學習,將在領域S 中訓練好的模型用于融合出版技術領域D。由于領域D 缺乏標注數據做評價集,本文將結果采樣后由多人打分,在評分一致的情況下,用識別出的術語的平均正確率來衡量該模型在領域D 識別術語的效果。

3 實驗與分析

3.1 數據準備

3.1.1 語料集

訓練模型使用了計算機領域的期刊論文數據。取中國計算機學會網站2020 年列出的計算機領域中文核心期刊,有《計算機學報》等12 種。從CNKI 導出上述期刊1998—2019 年間發表論文的題目、摘要、關鍵詞等元數據,經過篩選清理后一共有35695 篇論文。將所有論文的摘要切分成句子,過濾掉字符長度小于30 的句子,作為領域語料S。隨機取80%的論文,以其摘要句子作為訓練集合,記為S1。剩余20%論文的摘要句構成集合S2',用于迭代效率和新詞識別能力評測。在S2'中隨機抽取5000 句構成集合S2,S2?S2',用于術語識別性能評測。

此外,為了測試本文方法在相似領域的遷移能力,本文還選取了融合出版技術為目標領域。融合出版技術是出版業與人工智能、大數據、融媒體、數字化等技術結合而形成的新興領域。2022 年1 月,全國科學技術名詞委發布了該術語的定義,專家表述融合出版典型技術和關聯的術語時,提到“移動互聯網”“AR 技術”“數字出版”等①全國科技名詞委組織召開融合出版概念及定義審定會議網址:http://www.cnterm.cn/xwdt/tpxw/202201/t20220114_678525.html。因此本文首先以“融合出版”和上述詞匯在CNKI與萬方數據庫進行論文檢索,由專業人員從論文關鍵詞中挑選能表示融合出版技術的術語73 個;而后以“融合出版”分別與73 個術語組合進行擴展查詢。經過合并清洗后得到論文6516 篇,取摘要中長度不小于30的句子構造語料D來代表“融合出版技術”領域。語料集基本信息見表3。

表3 領域語料基本信息

3.1.2 種子術語T0

用于訓練語料的初始標注詞集。本文從訓練集S1對應的論文高頻關鍵詞中選擇種子術語。為保證種子術語的質量,綜合詞長、tf-idf 詞權及詞匯規范程度的因素進行選擇。先取長度為4~10 個字符且在摘要文本中TF-IDF 權重降序排前10%的詞匯,再借助百度百科作為詞典進行篩選。這樣可篩除論文關鍵詞中不是領域術語的詞匯,如“評價”等,共得到1410 個種子術語。

3.1.3 術語評測集T

構造T 是為了評估模型識別術語的效果,由一名計算機相關專業的標注者依據領域知識和優質外部詞表,在5000 個句子構成的測試集S2上標出的全部術語,共1069 個術語,出現5291 次。外部詞表包括種子術語集T0,原始論文關鍵詞集合,百度百科信息科學詞匯集合,術語在線,知網計算機科學技術領域術語集合,國家自然科學基金中的計算機科學、人工智能、電子學與信息系統、交叉學科中的信息科學分支等領域受控詞。

3.1.4 新詞評測集T

為了衡量迭代效率,評估模型在每輪迭代中找出優質新詞的能力,希望獲得語料上盡可能全的詞匯,因而用半自動的方法識別其中的優質詞匯。在S2'上首先用jieba 分詞功能將每個句子切成詞匯序列,在此基礎上做unigram和bi-gram 的詞匯組合得到候選詞匯集合。其次統計詞頻和C-value 值,保留詞頻不小于3 且C-value 值不小于3.5 的詞匯,共有17899 個。最后由四名計算機相關專業的學生進行篩查,對無法判別的詞匯用百度百科、維基百科等網絡詞典檢驗,并剔除如“支持向量”“向量機”等不完整詞匯,以及如“算法KNN”等組成順序不當的詞匯,最終選出5336 個計算機領域優質詞匯作為此評測集。

T'與T 的區別是T'以較大的測試語料S2'中的分詞結果組合為基礎,目的是產生詞典中可能未收錄的優質新詞,組合過程中產生的不合理詞匯需要人工去除。上述半自動處理過程得到的詞匯可被視為優質詞或候選術語。而T強調全面準確,是由人工在較小的測試語料S2標出的術語集,用于評測模型術語識別能力。

3.2 條件設置

3.2.1 語料標注方式

為避免切詞造成的錯誤,用字符級別的標注方式標注每一個輸入句子。標簽BME 分別表示術語的開頭、中間部分和結尾,O 表示非術語部分。標注過程用python 程序自動完成。

3.2.2 術語篩選所用的詞法模板

對應3.2 節術語篩選規則中的構詞規則。為了在每輪迭代訓練中篩選出優質詞匯,分析種子術語的構詞特征,用jieba 工具包統計分析了T0中詞匯的詞法結構,共獲得214 個詞法模板。從中挑選出現頻次不小于2 的模板共84 個,可覆蓋90.8%的種子詞匯。出現頻次排名前10的詞法模板見表4。

表4 術語篩選所用的詞法模板top10

3.2.3 BLSTM-CRF模型參數設置

使用Tensorflow 2.2.0 搭建BLSTM-CRF 模型,隱藏層設為100 維,學習率設為0.001,dropout值設為0.5,batchsize設為50,timesize設為100。詞嵌入層使用Tensorflow 封裝的詞嵌入層生成詞向量,向量維度設為100 維度,詞向量跟隨著模型一起進行訓練。模型訓練的停機條件設置為5 輪驗證集上的準確率未有改變。

3.2.4 自舉式方法的迭代控制

每輪迭代中,模型抽出的詞匯為候選詞要按照術語質量規則篩選,滿足如下條件的詞匯構成當前輪次獲得的術語集合Ti:(1)符合從種子詞匯集合中挑選出的84 個詞法模板之一,且(2)詞匯的C-value 值大于閾值,本實驗中設置為經驗值3.5。每輪得到的術語與當前輪次的標識詞相比,新增的詞匯小于10,或迭代達到指定次數時,自舉式方法停止迭代,并將最后一輪標出的術語作為方法的輸出結果。

3.3 標注量和詞匯豐富度BLSTM-CRF模型的影響

本文選用了BLSTM-CRF 作為基準模型,為了掌握它對標注語料的需求,設計兩組實驗,在S2上分別觀察標注量和詞匯豐富度對訓練效果的影響,作為本文設計迭代模型不斷引入新標注數據的實證依據。兩組實驗均以4.1 節所述的詞表T 為評價基準。實驗一是比較在不同標注量的訓練下,BLSTM-CRF 模型的術語識別性能差異。隨機采樣種子術語總量的25%、50%、75%以及100%的情況下模型識別術語的性能,見表5。隨著訓練語料標注量從25%增加到100%,標出術語數、P、R 和F1 值都有了大幅度的提升,P 從0.55 增至0.81,R 從0.02增至0.17,F1 值從0.04 上升到0.28。即模型的術語識別能力隨標注術語量增加而提升,不但識別了更多的術語,而且對詞典中的術語覆蓋面更大。此外,從所識別術語中的非標注詞占比來看,新術語識別能力也隨著標注詞用量的增加而增加,τ(S2)從0.16 變為0.27。以上說明訓練語料的標記量對BLSTM-CRF 模型的術語識別性能影響很大。因此本文擬采用迭代的方法,通過每輪增加標注數據來提升模型識別術語的能力。

表5 標注數據的數量對BLSTM-CRF 的性能影響

實驗二是分別以在訓練集S1中出現頻次降序為前15%和后85%的種子術語來標注,它們在語料S1中的出現次數接近,前者是51499 次,后者是51416 次。由于后者不相同詞匯多,對應的語境可能更豐富,因此實驗二是比較在標注量大致相同但標注上下文豐富度不同的情況下,訓練BLSTM-CRF 模型的術語識別性能差異,如表6 所示。結果顯示,僅用頻次前15%的術語標注和僅用后85%的術語標注,對應的F1 值從0.05 升至0.2,說明標注詞的語境豐富對BLSTM-CRF 模型的性能有影響,不斷引入新的標注詞訓練模型比用單批標注數據的訓練更有助于提升性能。

表6 標注數據的豐富度對BLSTM-CRF 的性能影響

3.4 自舉式術語識別方法性能

在自然語言處理領域中,術語識別一直是一項具有挑戰性的任務。在近年來的研究中,基于深度學習的模型已經成為該領域研究的熱點之一。其中,BiLSTM-CRF 模型[10]和BERTBiLSTM-CRF 模型[19-20]被廣泛應用于計算機領域等技術術語識別任務中且表現良好,BERTBiLSTM-CRF 模型是目前術語識別領域的主流方法之一。為了探究本文所提的基于BLSTMCRF 的自舉式術語識別方法上的性能,在S2上以BLSTM-CRF 模型和BERT-BLSTM-CRF 模型為比較基準進行術語識別效果評價,自舉式術語識別模型迭代輪次i=5、10 和50。標注集為T0,選擇P、R、F1 和τ指標,評價對象為模型所識別出的唯一術語和模型輸出的標注序列,前者考查識別出T 中的唯一術語的能力,后者考查識別出術語在測試集中所有出現情況的能力。一個術語在測試語料中可能多次出現,但是能將出現在不同語境中的同一術語都盡可能識別出來的模型是訓練的目標之一。本文使用測試集S2中的基準詞表T,|T|=1069,T 在5000 句測試集上對應的標注序列共5291 個。

表7 的“按唯一術語”和“按標注序列”分別對應以術語為對象和以模型輸出的標注序列為對象的評價結果。從i=5、10、50 的結果對比可以看出迭代訓練出的自舉式模型F1 值超過BLSTM-CRF 和BERT-BLSTM-CRF 模型的效果。BERT-BLSTM-CRF 模型雖然提取出的術語量多于自舉式方法初期迭代識別術語量,但精度和召回率較低,說明BERT-BLSTM-CRF模型提取術語能力較強,但識別術語的質量低于自舉式方法。隨著迭代次數增加,由于自舉式方法識別術語量或標注序列增加,呈現出精度P 下降,召回率R 上升,F1 值持續上升,這說明了模型的效果隨著迭代次數增加而提升。

表7 BLSTM-CRF 與自舉式方法的性能比較

表8 顯示了模型識別新術語的能力。在S2上對新術語占比的評價結果可以看出,τ(S2)從0.27 升至0.79,遠高于BLSTM-CRF 和BERTBLSTM-CRF 的新術語占比。而在更大的測試集合S2'上再次評價,τ(S2')從0.86 升至0.94,均高于BLSTM-CRF 和BERT-BLSTM-CRF 的新術語占比,說明迭代模型識別出新術語的能力更高,這與每輪迭代中引入新的標注術語來訓練模型有關。BERT-BLSTM-CRF 的新術語占比略低于BLSTM-CRF,可能是由于BERT 的嵌入使模型在使用大規模的語料進行預訓練過程中,能夠更深入地學習種子詞匯的特征,從而導致其在識別新術語時表現不佳。

表8 BLSTM-CRF 與自舉式方法的新術語率

3.5 自舉式方法迭代訓練過程的效率

自舉式方法訓練過程中逐步篩選優質術語充實標注詞,為了衡量這些加入的詞匯所發揮的效用,取在S1上迭代訓練出的模型B_Fi,i∈[1,10],計算它在第i輪識別出的新術語中的優質術語率λ,以及訓練的術語產出投入率δ,見表9。在迭代訓練模型時,第i輪次標注集為Ti-1,模型直接標出的詞匯集合是Ti',經質量篩選后作為方法B_Fi的輸出結果是Ti。需要說明的是,第i輪識別出的新術語數|ΔTi|是篩出的術語Ti與第i輪用于標注的詞匯集合Ti-1的集合差,而并非數值差。

表9 訓練中標出的優質術語率及產出投入率

從表9 中看出,在前10 輪中輸入標注術語均比輸出標注術語少,即迭代方法能基于較少的標注詞產生較多優質術語。λ和δ的增長速度隨迭代次數增加而趨于降低,說明到了一定標注規模后,增加標注詞雖然帶來優質數據絕對數量的增長,但訓練效率降低。特別是到了第6 輪,輸入的標注詞數量|Ti-1|和最終獲得的優質術語數量|Ti|大致相當,雖然該輪結果中仍產出848 個新的優質術語,使得投入產出率為10.53%,但方法在總體上迭代優勢下降。如果目標是希望盡可能多地獲得語料中的優質術語,迭代仍可以繼續;如果是兼顧計算開銷和時間成本,可以根據λ或δ制定停止條件。

3.6 在融合出版技術領域的術語識別結果

選取訓練好的模型B_Fi(本文選i=50)在語料D 上識別融合出版領域的術語,輸入的標注詞集合為T0,識別出術語8561 個,對D 上的論文語料而言,篇均1.31 個標出術語。評測時,從輸出結果中隨機抽樣1000 個術語,由兩位熟悉領域S 和D 的專業人員分別獨立判斷,術語正確率分別為88.8% 和86.6%,平均正確率87.7%。兩位判斷者的結果一致性通過檢驗,kappa 系數為0.287,顯著性p值0.000。表10 是兩個判斷者的交集中部分術語,可以看出在計算機領域語料訓練的模型在融合出版技術的相關文獻上,也有較好的術語識別效果。

表10 模型遷移學習的術語識別結果(按模型的結果輸出順序取35 詞)

本文還從語料D 的論文關鍵詞中人工篩選出反映融合出版技術的術語共107 個,有46 個被上述實驗結果涵蓋。分析發現未被模型識別出的術語中有些詞概念粒度較大,例如“新媒體技術”“三網融合”,一種可能的原因是這些術語來自論文關鍵詞,它們不一定在摘要中出現,因此論文關鍵詞不能作為理想的評價基準。但是模型識別出的術語是來自內容中的有意義的詞匯,大部分質量較高,可以為構建領域詞表提供論文關鍵詞無法覆蓋的補充詞匯,也能為領域主題分析等研究提供更豐富的信息和深入理解。

模型識別結果中被認為不符合術語的詞匯包括少量殘缺詞如“模糊現”,以及滿足構詞特征但不具有信息性的詞匯,如“增強管理”“信息數據”等,說明在模型訓練中術語質量特征的量化表達仍有值得改進之處。

該實驗展示了遷移學習方法在自然語言處理任務中的應用潛力。通過將計算機領域語料上訓練的模型應用到融合出版領域,能夠有效避免重新訓練新的模型,節省時間和資源,并且可以利用源領域的豐富信息來提高目標領域任務的性能。同時,該實驗還為其他領域的遷移學習研究打開了新的思路,如使用跨語言語料庫進行遷移等。

4 總結與展望

當今各學科迅速發展而導致新詞不斷出現,各個領域都對高質量術語有迫切需求。術語識別任務是自然語言處理研究中的基礎工作,對于領域知識服務、情報分析等應用具有關鍵作用?,F實中,以深度學習模型為基礎的自動方法又離不開大量優質術語做標注數據。針對這一矛盾,本文提出了一種基于BLSTM-CRF 的自舉式術語識別方法,能在使用少量術語標注語料的情況下通過迭代的方式強化模型訓練,從而達到獲取大量優質術語的目的,在一定程度上能夠解決神經網絡訓練語料短缺的問題,對各學科獲取新術語生成自身的知識組織體系、提升檢索質量有很大幫助。此外,本文關注術語質量的篩選條件定義問題,提出利用術語的質量來構造篩選條件,以便在迭代中選擇新增的標注詞。本文還提出了用于衡量迭代效率的指標,包括對識別新術語的能力和標注投入與術語產出率的評估。最后探討了在領域S 中訓練的模型B_F,遷移到相似領域D 的同類任務中具有的效果。

本文實驗主要探討了四個相互關聯的問題。一是論證迭代方案有效,在4.3 節通過增加標注詞和豐富標注語境的實驗證明了少量樣本結合自舉式迭代方法在識別術語上的有效性。二是評估迭代模型的效果,在4.4 節對自舉式迭代方法和基準BLSTM-CRF、BERT-BLSTMCRF 方法識別出唯一術語及其所有標注序列的情況進行評估,用精度P、召回率R、F1 值表明迭代模型效果更好,而且迭代模型在識別標注詞之外的新術語的能力更強。三是衡量迭代的效率,通過每輪迭代發現的新詞中的優質術語率,以及訓練數據的產出投入率來判斷迭代效率,為更合理地決定迭代終止條件提供量化依據。最后,本文還選取了與源領域S 相似的領域D,考查所訓練模型的遷移能力,評價顯示本文模型B_F 在同類任務中具有良好效果,具有領域推廣能力。

由于時間和條件的限制,本研究還有很多不足之處以及未考慮全面的地方需要在以后的研究工作中進行改進。例如,術語質量特征的量化表示方法應當對多個指標進行綜合對比,以完善對術語質量判斷規則的經驗研究。再如,應當優化模型改進學習機制,在本文訓練中只考慮了加入優質術語供模型學習,沒有引入負例;而且迭代中只采用了增加新術語的方式來擴充模型識別能力,這會導致訓練開銷加大,迭代不易收斂,未來還可以增加對標注序列模式的學習。

猜你喜歡
評價
SBR改性瀝青的穩定性評價
中藥治療室性早搏系統評價再評價
自制C肽質控品及其性能評價
寫作交流與評價:詞的欣賞
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應用評價
有效評價讓每朵花兒都綻放
模糊數學評價法在水質評價中的應用
保加利亞轉軌20年評價
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合