?

面向淋巴水腫疾病的電子病歷命名實體識別應用研究*

2024-03-15 08:01湯昊宬蘇萬春冀秀元信建峰孫宇光沈文彬
醫學信息學雜志 2024年2期
關鍵詞:淋巴命名病歷

湯昊宬 蘇萬春 冀秀元 信建峰 夏 松 孫宇光 徐 毅 沈文彬

(1中國科學院自動化研究所 北京100190 2首都醫科大學附屬北京世紀壇醫院 北京100038)

1 引言

淋巴水腫主要表現為局部體液滯留和組織腫脹,是全球致殘率最高的疾病之一,嚴重危害人體健康,及時準確的診斷是阻斷疾病惡化、提升術后康復痊愈率的關鍵。伴隨著人工智能技術的飛速發展,疾病相關數據驅動的精準醫學研究為此提供了行之有效的解決方案。研究者基于文本數據[1]、圖像數據[2]在臨床疾病輔助診斷領域已取得顯著效果?;颊唠娮硬v[3]是醫務人員借助醫療信息系統對臨床治療經過的記錄,包括患者檢查、診斷和治療過程等重要醫療信息,通常以半結構化或非結構化形式存儲,是構建智能化診療分析系統的數據基礎。但是電子病歷記錄具有明顯的子語言特性[3],例如包含大量專業術語和行業習慣用語、表達模式化、數字和單位混合(如6.0~8.0 mmol/L)、句子語法結構不完整等,數據噪聲顯著,呈異質性分布,尤其是針對同種疾病,不同醫生遵循不同標準或習慣書寫病歷,存在一詞多義和多詞一義等不規范的現象,并且相較于英文語料缺乏明顯的邊界分隔符,詞頻分布呈現厚尾效應,嚴重影響雙向編碼器表征(bidirectional encoder representations from transformer,BERT)[4]等序列化語義分析技術的使用。因此,電子病歷文本數據挖掘往往需要人工提取關鍵信息,依賴于高年資臨床醫生的精細標注,標注過程耗時費力,電子病歷標注語料稀缺,尤其體現在亞專業學科。由此可見,針對淋巴水腫電子病歷文本數據的智能化預處理或信息提取尤為重要。

命名實體識別(named entity recognition,NER)技術可以從文本中檢測關鍵實體的范圍和語義類別,是目前從非結構化文本數據中進行信息抽取的關鍵技術之一[5]。在電子病歷數據中,實體重疊是相當普遍的現象,見圖1?!白笙轮迸c“淋巴水腫”首尾不相交,為非嵌套實體,而“手術后淋巴水腫”包含更細粒度的“淋巴水腫”實體,為嵌套實體。如果忽略嵌套實體,則無法捕獲底層文本中更細粒度的語義信息。針對該問題,基于超圖[6]、序列標注[7-8]和區域設置[9]的方法存在計算復雜度高、錯誤級聯、準確率低等問題。而GlobalPointer模型[10]無需復雜的特征工程,采用全局指針在中文嵌套實體識別任務中取得了最優效果。因此,本研究利用GlobalPointer模型和模型微調方法實現少量標注樣本背景下的淋巴水腫電子病歷命名實體識別模型訓練,并選取基準模型進行比較,建立高質量電子病歷標注文本語料庫,構建人工智能技術輔助淋巴水腫疾病精準診斷、分期研究和應用的關鍵數據基礎。

圖1 命名實體識別任務分類

2 模型介紹

2.1 預訓練語言模型

GlobalPointer模型以預訓練語言模型為編碼器提取文本特征。BERT是預訓練語言模型之一,由多層編碼器堆疊而成,采用完全自注意力機制,計算每個詞與其他所有詞的關聯,在自然語言處理領域取得了顯著效果,但其時間和空間復雜度與序列長度為二次方關系O(n2),可以處理的最大序列長度為512字符,長文本處理能力受限。BigBird模型[11]是另一種預訓練語言模型,同樣由多層編碼器堆疊構成,但區別于BERT普通的多頭注意力機制,其采用稀疏的多頭注意力機制,將時間和空間復雜度降低為線性O(n),運行效率更高,可以處理的最大序列長度為4 096字符,是BERT的8 倍,適用于本研究中的長文本電子病歷。因此,采用BigBird模型作為GlobalPointer模型的編碼器。注意力值計算方式如下:

ATTND(X)i=

(1)

其中,Qh和Kh分別是查詢函數和鍵函數,Vh是值函數,σ是評分函數,H表示頭數(Head),N(i)表示所有需要計算的詞。

2.2 GlobalPointer模型

傳統嵌套實體識別方法設計兩個模塊分別識別實體的頭、尾位置,未考慮實體片段的內在關系,GlobalPointer模型構造文本長度的方形矩陣,同時考慮首、尾位置,通過行和列索引位置來判斷文本片段是否為一個實體,更具全局性,見圖2。第1行第3列屬于病程類型的實體“5年前”,賦予標簽1,其余部分為0。此外,方形矩陣的數量與實體類別數量相同,每一個方形矩陣用來判別一種實體類別。命名實體識別任務方向為從前向后,如要判別“5年前”是否為實體,無需考慮“前年5”是否為實體的情況?;诖颂匦?,矩陣左下三角為空白,無需賦予標簽,訓練時亦無需計算損失。圖中每個小方框代表1個待識別的實體,對于長度為n的文本,若僅需要識別一種實體,則有n(n+1)/2個不同的連續片段(待識別實體),因此,研究任務可轉化為從中選擇a個實體的多標簽分類問題。

表1 淋巴水腫電子病歷文本數據統計

圖2 GlobalPointer模型示例

GlobalPointer模型由學習層和預測層兩部分組成,學習層由BigBird編碼器構成,輸入文本X=[x1,x2,…,xn]經過預訓練語言模型BigBird編碼得到語義表示H=[h1,h2,…,hn],其中:

h1,h2,…,hn=PLM(x1,x2,…,xn)

(2)

令s[i:j]表示文本的片段序列,i表示開始位置索引,j表示結束位置索引,H經過前饋層變換后得到用于識別α類型實體的向量表示qi,α(開始位置,矩陣中的行)和kj,α(結束位置,矩陣中的列):

qi,α=Wq,αhi+bq,α

(3)

kj,α=Wk,αhj+bk,α

(4)

(5)

(6)

由于電子病歷文本長度n較長,n(n+1)/2個待識別實體中包含的真正實體(標簽為1)數量往往占比較小,會帶來極其嚴重的類別不均衡問題。采用多標簽分類的損失函數解決此問題:

(7)

其中,Pα表示α類型實體的首、尾集合,Qα表示非實體或者非α類型實體的首、尾集合,因此,損失函數的優化方向為屬于α實體的sα(q,k)得分增大,非α實體的sα(q,k)得分減小。

3 實驗設置

3.1 數據介紹

實驗數據來自醫院脫敏數據,見表1。利用Doccano工具進行數據標注,臨床醫生確定的實體類別以及統計的實體數量,見表2。實體數量分布不均衡,例如“臨床癥狀”實體類別包含29 342個實體,而“微生物”實體類別只包含2個實體。共有19名淋巴外科專業的醫生參與數據標注任務,其中主任醫師1人,副主任醫師3人,主治醫師5人,住院醫師10人。學歷學位分布方面,12人為博士學位,5人為碩士學位,2人為本科學位。數據標注流程為:先由高年資醫生制定數據標注標準和質量控制規范,并標注300例示例數據;然后經過培訓的低年資醫生以“雙人標注,雙人核查”的方式標注剩余數據。對標注不一致的數據,由高年資醫生進行最終決策,保證數據標注的準確性和規范性。

3.2 實驗參數設置

實驗中模型的超參數包括訓練批次(epoch)、學習率(learning rate)、文本最大長度(max_len)、批量大小(batch_size)。由于顯存限制,文本最大長度設置為2 800字符,超出部分將截斷,本研究數據截斷占比為1%。批量大小設置為2,學習率一般為e-5級別,對常用的2e-5、3e-5和5e-5利用網格搜索法進行實驗,結果表明學習率設定為5e-5、訓練批次設定為25時模型效果最優。

3.3 模型微調過程

借助預訓練語言模型,GlobalPointer模型已經在普通帶嵌套命名實體識別任務中取得了最優效果,因此,本研究主要進行垂直領域微調學習,根據少量醫生標注樣本數據實現最終模型的快速學習。微調訓練過程如下。輸入:模型初始化參數θ,學習率λ。輸出:更新后的參數。初始化模型的參數θ,學習率為λ。數據預處理:電子病歷文本經過BigBird編碼器后,得到語義向量H=[h1,h2,…,hn],作為新的輸入X。計算損失函數LE(θ)=-ylogp(y|x;θ),p(y|x)表示預測標簽為y的概率。則θ=θ-λ▽LE(θ)。

3.4 基準模型選取

為驗證本研究方法的適用性,選取BERT-MRC模型[12]進行比較。BERT-MRC是一種基于機器閱讀理解(machine reading comprehension,MRC)的命名實體識別模型,通過構建問句的方式引入實體類別相關先驗信息,再與文本內容共同作為模型輸入。隨后,模型通過兩個多分類任務從文本內容中抽取問句答案,分別預測答案的開始和結束位置,即實體在文本中的起止位置,從而完成命名實體識別任務。這種方法在多個中英文數據集的命名實體識別任務中表現優異,可作為基準模型與GlobalPointer模型進行預測效果的比較。

3.5 模型評估指標

采用5折交叉驗證方法,將數據集分成5個子集,每次使用其中4個子集作為訓練集,剩余的1個子集作為測試集,評價模型的預測能力。評估指標包括精準率(precision)、召回率(recall)和Macro_F1分數,并計算均值和方差:

(8)

(9)

(10)

(11)

其中,TP表示實際為正樣本且預測為正樣本的個數,FP表示實際為負樣本但預測為正樣本的個數,TN表示實際為負樣本且預測為負樣本的個數,FN表示實際為正樣本但預測為負樣本的個數,精準率表示全部正樣本的預測結果中正確預測所占比例,召回率表示全部正樣本中正確預測所占比例,Macro_F1分數是精準率和召回率的調和平均值。此外,采用箱線圖四分位數反映數據分布特征,并判斷是否存在異常值。下限表示為Q1-1.5 (Q3-Q1),下四分位數表示為Q1,中四分位數表示為Q2,上四分位數表示為Q3,上限表示為Q3+1.5(Q3-Q1),異常值為低于下限或超過上限的值。

4 實驗結果分析

4.1 準確性分析

數據集共15種實體類別,其中“微生物”“當前的”包含實體數量極少(分別為2個、11個),予以剔除。因此,本研究評估含有13種實體類別的命名實體識別GlobalPointer模型效果,并與基準模型BERT-MRC進行對比??傮w實驗結果,見表3,GlobalPointer模型方差較小,并且沒有異常值(“-”表示沒有異常值),與BERT-MRC模型相比,在Macro_F1分數方面可以提升約8個百分點,展現了實體識別總體結果最佳。

表3 總體實驗結果

GlobalPointer模型針對每個實體類別的分類效果,見表4?!搬t療設備”實體數量相較于其他實體類別過少,僅包含99個實體,雖然精準率高,但召回率過低,待樣本數量增加后,Macro_F1分數會有所提升。此外,“臨床癥狀”“醫療程序”等實體類別包含不同名稱的實體數量較多,對實驗結果造成一定干擾,待數據標注規范更新統一后,命名實體識別模型效果可得到進一步提升。

表4 GlobalPointer模型13種實體類別實驗結果

4.2 案例分析

以某份淋巴水腫電子病歷的命名實體識別結果為例進行分析,展示現病史、既往史、體格檢查和出院診斷的標注情況,見圖3。左圖為模型標注結果,右圖為真實標簽情況。針對“出院診斷”標注部分,模型不僅能夠識別出“手術后淋巴水腫”這一“疾病診斷分類”類型的實體,同時可以識別出更細粒度的“疾病”類型實體“淋巴水腫”,模型具備識別出“XX 淋巴水腫”的能力,可以較好地解決實體嵌套問題,提升命名實體識別效果。但標注模型仍存在一定缺陷。例如,雖然將“宮頸癌根治術”正確識別為“疾病誘因”實體類別,卻又賦予該實體“醫療程序”的錯誤標簽,一定程度上說明針對某些實體,模型區分實體類型之間的差別能力較差。此外,模型存在一定的漏標(如未能識別“放療”這一疾病誘因實體)問題,有待進一步提升。

5 結語

本研究主要開展淋巴水腫疾病患者電子病歷文本命名實體識別應用研究。利用醫生專業領域知識確定了13種常見實體類別,涵蓋疾病病史、癥狀、診斷、治療、評估等方面?;谏倭酷t生標注的電子病歷數據,針對電子病歷文本數據實體嵌套特性,采用GlobalPointer模型,以及以自然語言理解大模型為基礎的預訓練-微調模型學習范式,實現領域快速自適應學習。實驗結果表明GlobalPointer模型對淋巴水腫患者電子病歷命名實體識別任務有效,這為真實臨床病歷數據構建和預處理奠定基礎;數據和算法均填補了智能化方法在淋巴疾病領域的應用空白。本研究采用的數據來自電子病歷中的非結構化文本內容,醫學專業名詞表達不統一、數據記錄習慣不一致,產生了一詞多義和多詞一義的問題。因此,如果能經預處理實現命名實體歸一化,排除噪聲干擾,則可以進一步提升模型表現。

個性化精準醫療是疾病診療的必然需求,應在模型研發時融入更多領域知識,識別多種類型文檔蘊含的重要實體。與此同時,實體之間的關系也影響關鍵實體識別,應結合知識圖譜相關技術,深入挖掘實體和實體之間的多種關系,識別其與細分領域疾病的關聯關系,共同構建數據基礎。此外,從淋巴外科智能化診療技術發展遠景來看,引入數據規范和模型應用驗證的標準是推動技術研發和臨床應用轉化協同發展的必經之路。

利益聲明:所有作者均聲明不存在利益沖突。

猜你喜歡
淋巴命名病歷
強迫癥病歷簿
綜合護理淋巴消腫療法在降低乳腺癌術后上肢淋巴水腫發生率中的應用效果觀察
命名——助力有機化學的學習
“大數的認識”的診斷病歷
有一種男人以“暖”命名
為一條河命名——在白河源
為何要公開全部病歷?
豚鼠、大鼠和小鼠內淋巴囊組織學的差異
富含脂肪及淋巴組織的冰凍切片制作體會
村醫未寫病歷,誰之過?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合