面向藏文臨床病歷的醫學實體識別研究

2023-10-29 01:32卓瑪措桑杰端珠才讓加羊毛卓么

計算機仿真 2023年9期

卓瑪措,桑杰端珠,才讓加,羊毛卓么

(省部共建藏語智能信息處理及應用國家重點實驗室,青海西寧810008)

1 引言

醫學實體識別(Medical Entity Recognition,MER)[1]是臨床自然語言處理(Clinical Natural Language Processing,CNLP)的基礎性任務之一,它為醫學方面的信息檢索、臨床診斷等下游臨床自然語言處理任務提供重要的特征信息。早期的實體識別方法更多地依賴人工特征工程以及許多現成的工具包,并且較難實現領域適應。然而近年來,深度學習的發展減少了模型對人工特征工程以及工具包的依賴[2-13]。特別是在實體識別任務方面,有一種網格長短期記憶(Lattice-LSTM)模型在中文命名實體識別任務上取得了較好的效果[14]。由于Lattice-LSTM網絡結構能夠將顯性的字信息和該字隱性的詞信息充分融合,因此可以有效避免分詞錯誤向下游任務的傳遞。

針對藏文通用領域的實體識別研究,已經有一些研究結果[15-17]。但是,面向藏文臨床文本的自然語言處理資源稀缺導致相應的工具包十分匱乏,極大地影響了藏文臨床自然語言處理的發展進程。特別是面向藏文臨床文本的醫學實體識別研究還處于起步階段。

鑒于此,本文旨在開展針對藏文臨床病歷的醫學實體識別研究工作。因此,本文基于Lattice LSTM CRF深度學習模型并結合藏語的音節(一個音節相當于漢語中的一個字)特征構建了適合藏文臨床病歷實體識別的S-Lattice LSTM(音節網格長短期記憶)模型。藏文詞匯是構成藏文句子的基本單元,而藏文音節是構成藏文詞匯的基本單位。S-Lattice LSTM網絡結構能夠將藏文的音節信息和該音節隱性的詞信息充分融合,從而有效避免分詞錯誤向下游任務的傳遞。實驗結果表明,本文的方法對藏文臨床病歷文本的醫學實體識別正確率、召回率和F1值分別達到91.89%、93.15%和92.52%,取得了較好的識別性能。

2 模型

在英文領域,Hammerton等人首次采用神經網絡進行實體識別的研究,使用了單向LSTM模型。由于LSTM模型良好的序列建模能力,LSTM-CRF模型成為實體識別的基礎架構之一,很多方法都是以LSTM-CRF為主體框架,在此之上融入各種相關特征[18]。本文將LSTM-CRF作為主要網絡結構并結合藏語的音節特征,在該模型對一系列輸入字符(包含藏語的音節)進行編碼的同時將所有與詞典匹配的詞匯網格結構融入模型中。

表1 藏文臨床病歷醫學實體識別的音節序列和標記序列舉例

2.1 基于音節的模型

基于音節的實體識別模型輸入向量為音節序列。此模型存在一種顯著缺陷,即忽略了詞序以及詞的顯性信息。模型如圖1所示。

圖1 基于音節的模型

2.2 基于詞的模型

基于詞的模型原理與基于音節的模型類似,區別就在于此模型輸入的向量為分詞后的詞序列。因此,這種模型會導致分詞錯誤的傳遞,并最終影響實體識別的性能。模型如圖2所示。

圖2 基于詞的模型

2.3 S-Lattice LSTM模型

本文采用S-Lattice LSTM模型來處理句子中的藏語詞匯詞(lexicon word),從而把所有潛在的藏語詞信息整合到基于藏文音節的LSTM-CRF基本框架中。本文采用構建的詞表對句子進行匹配,從而構建基于詞的藏文Lattice網格。因為網格中存在詞到音節的指數級數量的路徑,因此,對藏文臨床病歷中的句子從左到右的信息流使用Lattice LSTM模型結構來進行自動控制。門控神經單元將來自不同路徑的信息動態的傳送到每一個藏文音節。在完成數據的訓練后,S-Lattice LSTM模型能夠學會自動從信息流中找到有用的詞,從而提升醫學實體識別性能,整體模型框架如圖3所示。與基于藏文音節和基于藏文詞的實體識別方法相比,本文的模型利用詞匯的顯性信息對句子進行分詞,而不只是自動關注。因此,減少了分詞帶來的誤差。

圖3 S-Lattice LSTM模型

2.4 LSTM層

循環神經網絡(RNN)在理論上可以處理任意長度的序列信息,但是在實際應用中,如果序列太長就會出現梯度消失現象,并且也不容易學會長時間依賴的特征。為此,Graves等人對RNN進行了改進,提出了LSTM 模型[19]。LSTM 模塊通過輸入、輸出和遺忘三個模塊來控制信息的傳輸。長短期記憶網絡(Long Short-Term Memory,LSTM),是一種特殊的RNN,能夠學習長期的規律,它們在各種各樣的NLP任務上應用非常廣泛。LSTM編碼單元如圖4所示。

圖5 迭代次數和 P、R 和 F1 值的變化趨勢

it=σ(Wiht-1+Ui+bi)

(1)

ft=σ(Wfht-1+Ufxt+bf)

(2)

(3)

(4)

ot=σ(Woht-1+Uoxt+bo)

(5)

ht=ot⊙tanh(ct)

(6)

其中,σ表示Sigmoid 激活函數,⊙是點積。xt表示t時刻的輸入向量,ht表示t時刻的隱藏狀態,也表示輸出向量,包含前面t時刻的全部有用信息。ct是一個改良模塊,掌控信息傳入下一個環節;ft是一個復位模塊,掌控信息遺失;而隱藏狀態的輸出是由二者共同決定的。

3 實驗及結果分析

3.1 實驗數據

3.1.1 音節向量

為了構建藏語音節向量,本文從中國藏族網通網站下載了包含4.53億個音節的新聞數據,并用GloVe[20]模型進行訓練,生成的音節向量維度為50。

3.1.2 實驗數據集

由于目前藏文臨床病歷醫學實體識別缺乏公開的標注數據集,因此本文對現有的530份電子病歷進行標注構建了一個藏文臨床病歷醫學實體識別數據集。對以上病歷數據以病歷文檔為單位進行任意比例的劃分,其中由305份文檔構成訓練集,由225份文檔構成測試集。本數據集中包含癥狀 (SYMPTOM)、方劑 (PRESCRIPTION)和疾病 (DISEASE)三大類醫學類實體,其類別數量分布如表2所示。

表2 藏文臨床病歷醫學實體識別數據集

3.2 標注策略與評價指標

常見的醫學實體識別標注方法有OBI 策略,OBIE策略,SOBIE策略。本文采用的是SOBIE標注策略,其中B是實體的首部,I是實體的內部,E是實體的尾部。O表示非實體或實體外部,S表示單音節實體。實體識別包括預測實體的邊界和實體的類型,所以待預測的標簽一共11種,分別是O,S,B-S,I-S,E-S,B-D,I-D,E-D,B-P,I-P,E-P。當識別實體時,只有在一個實體的邊界和類型都預測的完全正確時,才認為該實體被準確識別。

藏文臨床病歷實體的識別性能評測指數有正確率(P)、召回率(R)和綜合指數F1值。具體計算方法如式(7)所示。其中Tp表示模型準確識別的實體個數,Fp表示模型識別到的無關實體個數,Fn表示同類實體但模型沒有準確識別的個數。

(7)

3.3 實驗環境與超參設置

本研究中的實驗環境為Python 2.7,深度學習框架為Pytorch 0.3.0.post4

神經網絡的超參數取值會影響神經網絡的性能。本文的神經網絡超參設置如表3所示。

表3 神經網絡超參取值

3.4 實驗設計與結果

為了驗證本研究中所使用的模型對藏文臨床病歷實體識別數據集中的癥狀、疾病、方劑三大類實體的識別性能,分別設計了以下兩組實驗。實驗的評測指數有正確率(P)、召回率(R)和綜合指數F1值。

實驗1 不同模型對藏文臨床病歷實體識別結果比較。表4分別給出了CRF(條件隨機場)模型和S-Lattice LSTM模型的識別結果。

表4 不同模型對藏文臨床病歷文本實體識別性能對比(%)

實驗結果表明,S-Lattice LSTM模型的F1值比CRF模型的F1值提升了2.55%,這說明深度神經網絡模型比傳統的統計模型在藏文臨床病歷實體識別任務上表現性能較好。并且證明使用表示學習的神經網絡模型可以較大程度的減少模型對人工特征的過度依賴。

實驗2 基于詞向量的CNN-BiLSTM-CRF模型與S-Lattice LSTM模型對藏文臨床病歷文本進行實體識別性能對比。S-Lattice LSTM模型可以同時對音節序列信息和它對應的詞序信息進行編碼,并且提供給模型自動取用。相較于音節粒度(字符級)的編碼,后者加入了詞信息,豐富了語義表達,可以有效避免分詞錯誤傳遞問題。表5說明了S-Lattice LSTM模型能有效提升實體識別的性能。

表5 基于詞向量的模型與S-Lattice LSTM模型的性能對比(%)

癥狀、疾病和方劑三類實體的正確率(P)、召回率(R)和綜合指數F1值如表6所示。

表6 不同類型實體識別結果

3.5 實體識別實例

以某份住院病歷中的一個句子為例展示S-Lattice LSTM模型的實體識別效果。具體實例如表7所示。

表7 藏文臨床病歷文本醫學實體識別實例

4 結束語

本文針對藏文臨床病歷中醫學類實體的識別問題,提出了一種適用于藏文臨床病歷醫學實體識別的深度神經網絡模型。該結構用網格LSTM來代替傳統的LSTM單元,在藏文音節模型的輸入端同時利用顯性的藏文詞匯和詞序信息。因此,有效避免了分詞錯誤向下游任務的傳遞。整體架構的隱藏層是具有長短期記憶功能的LSTM模型,解決了藏文臨床病歷中部分結構較長的醫學實體識別準確率較低的問題;最后的標簽推理層使用CRF模塊,解決文本序列標簽之間的依賴問題。在已構建的藏文臨床病歷醫學實體識別數據集上進行實驗,結果證明S-Lattice LSTM模型是有效的。

基于深度學習的藏文臨床病歷醫學實體識別模型S-Lattice LSTM 也可以推廣到其它具有類似特點的垂直領域,具有一定的通用性。