?

基于混合評分機制的ICD- 10 同義詞匹配研究

2021-05-17 08:01武芳伍祥林
中國衛生產業 2021年4期
關鍵詞:細粒度字符串術語

武芳,伍祥林

1.重慶醫科大學公共衛生與管理學院,重慶 400016;2.重慶大學附屬腫瘤醫院信息工程部,重慶 400030

在臨床電子病歷信息系統(clinical electronic medical record information system,CEMRIS)中以非結構化文本格式常規記錄大量有意義的信息。幾乎50%的醫療記錄是醫生的文字記錄[1]。 醫學信息編碼方式缺乏標準化是阻礙CEMRIS 數據應用的主要困難[2]。

當前國內主要采用的是ICD-10(國際疾病分類,第10 次修訂本)術語集,其是一套由世界衛生組織(WHO)制定的國際統一系統組織的關于疾病分類的術語標準集,它根據疾病的病因、病理、臨床表現和解剖位置等特性,將疾病分門別類,使其成為一個有序的組合,并用編碼的方法來表示的系統[3-5]。

基于ICD-10 的標準規范疾病診斷對于疾病治療、臨床科研以及醫學統計具有重要的意義。 但ICD-10 是國際疾病分類的標準,不是疾病命名的標準,不能完全按照ICD-10 書寫診斷[6-9]。 現實門診病歷中,醫生對于患者的疾病診斷通常存在縮寫、異型、拼寫錯誤或采用院內術語標準等[10]。 如何將現有醫院門診診斷對齊到標準ICD-10 術語集具有重要意義。ICD-10 的同義詞匹配傳統上是由專家通過與碼本進行比較,將醫生的診斷名稱手動分類到ICD-10 中。該過程需要消耗大量的人力和時間成本,迫切需要探索一種算法模型的術語匹配方法。

1 當前現狀

針對醫院疾病診斷進行ICD-10 編碼問題,已有的研究主要分為兩類,即基于匹配規則利用人工進行手動匹配方法和基于計算機自動編碼匹配實現技術兩種。前者匹配精度高,但是存在效率低、無法實時的問題,后者效率高,能夠實時,但是存在匹配精度的問題。針對當前門診病歷診斷匹配ICD-10 存在的效率和精度問題,文章提供了一種基于混合評分機制的疾病診斷ICD-10自動編碼的機器學習算法模型,將現有醫院門診診斷結果自動匹配ICD-10 的同義詞并完善ICD-10 標準術語集,為醫院醫生進行診斷和治療提供有效的決策支持。

2 方法實現

基于混合評分機制的疾病診斷ICD-10 自動編碼的機器學習算法模型算法的實現主要分為術語的拆分與實體識別和術語相似度評分機制的構建兩大任務[11-12]。第一項任務是基于門診診斷結果進行細粒度拆分和術語實體類識別,第二項任務是拆分結果構建混合評分機制的ICD-10 同義詞識別(圖1)。

圖1 基于混合評分的ICD10 同義詞匹配過程

2.1 基于門診診斷的疾病術語拆分與術語實體識別

通過觀察可以看到,現有疾病術語包括ICD-10 標準術語均可由更小粒度的“疾病”“癥狀”“部位”“修飾”等更小粒度術語構成,如“頭頸部結核性淋巴結惡性腫瘤”可以拆分為“頭”“頸”“部”“結核性”“淋巴結”“惡性腫瘤”小粒度實體,將小粒度實體術語作為第二項評分匹配的輸入。實現術語小粒度切分需要構建細粒度術語詞庫,文章使用了某科技有限公司自主研發的mednlp自然語言處理工具組件對門診診斷結果進行細粒度分詞與詞性識別。

2.2 基于混合評分機制的ICD-10 同義詞識別

文章提出的基于混合相似性評分來描述疾病候選詞字典和ICD-10 標準術語字典之間的相似度評估,包括基于遠程監督的相似度評分機制和基于字符串匹配的相似度評分機制。 具體見圖1,原詞完全匹配的情況會給予一個較大的相似度評分W_1。而基于上述細粒度分詞和實體識別的原詞分詞結果匹配也會給予一個相對應的相似度評分W_3。

2.2.1 基于遠程監督的相似度評分機制 門診病歷中,最可能出現歧義的地方是簡寫、縮寫和異型同義詞。 而在ICD-10 標準術語集里也存在著異型同義詞,如“癌”與“惡性腫瘤”。因此如何處理這一類的相似度計算會存在一定難度。文章采用了一種基于遠程監督算法,該算法利用開源數據庫實現醫療術語實體對齊,達到提高ICD-10 術語匹配精度的目的。例如“HIV”這種比較常見的疾病縮寫,可在外源數據庫中找到同義詞列表“[' 獲得性免疫缺陷綜合征[艾滋病]”,有助于提高匹配有效性。圖1 中,采用基于百度百科的術語庫將最小粒度切分結果分為原詞同義詞匹配和原詞分詞結果同義詞匹配這兩個子流程。 分別給予W2和W4的相似度評分。

2.2.2 基于詞向量相似度評分機制 Word2vec 是Google開源的一款將詞表征為實數值向量的高效工具,采用的模型有CBOW(詞袋模型)和Skip-Gram 兩種。 Word2vec 通過訓練,可以把對文本內容的處理簡化為K 維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。 因此,Word2vec 輸出的詞向量可以被用來作查找同義詞的任務。使用谷歌開源的Word2vec 訓練醫療文本后可以得到每個詞的向量值。

此處該文采用余弦相似度計算兩個詞的相似度,相似度越小,距離越大。 相似度越大,距離越小,并給予評分W5。 在詞向量空間這個多維空間中,余弦函數的公式就是:

其中,vs1表示s1的詞向量表示(需padding)。

2.2.3 基于字符串匹配的評分機制 字符串相似性的計算方法有很多,該文取具有代表性但可以體現字符串相似特征的相似度算法。 基于編輯距離的jaro-Distance(JD)和Jaro-Winkler-Distance(JWD)相似度。

編輯距離(edit distance),又稱Levenshtein 距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。 編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個串的相似度越大。 下式為JD 計算公式:

其中m 是匹配數目(保證順序相同),|s|為字符串長度,t是換位數目。

JWD 是JD 度量的變體,它使用前綴標度PreScale,它為從設置前綴長度preLen 的開頭匹配的字符串提供更有利的評級。 給定兩個字符串S1 和S2,它們的Jaro-Winkler 距離為:

其中JD(s1,s2)是兩個字符串的JD,prelen 是前綴相同的長度,但是規定最大為4,prescale 則是一個恒定調整分數的比例因子,規定不能超過0.25,而Winkler 將這個常數定義為0.1。大多數綜合征由身體部位(前綴)和感覺(后綴)組成。 該字面相似度由JWD 或AJWD 計算,以較高者為準,并給予相似度評分W6。

2.2.4 同義詞評分的融合算法 上述幾種相似度評分反映了兩個字符串的絕對差異,而相似度以一個[0,1]之間的數值反映兩個字符串的相似程度,數值越大表示相似程度越高。因此該文采用Softmax 函數,或稱歸一化指數函數,對相似度評分進行歸一化,得到綜合相似度。

3 結果分析

實驗數據主要來源于醫院門診數據約23 萬條,剔除重復診斷數據后9625 條,ICD-10 則選用的國際疾病分類標準編碼(國標版)。 通過對原有詞語進行細粒度分析,同義詞轉換后進行評分和概率相似度計算,取出4000 個診斷結果進行人為校驗評估最終匹配結果,見表1。

表1 基于混合評分的icd10 匹配結果

文章從匹配結果分為同位匹配和上下位匹配兩種形式,并均算入匹配正確。同位匹配指的是完全匹配的情況,如“胃癌”,匹配“胃部惡性腫瘤”“胃部癌癥”。 上位匹配,如“肢體發熱”無法在ICD-10 中查詢到其同位詞語細分,故將其歸為“發熱”大類,此時認為此種匹配正確。

從結果看,總體匹配率為86%,同位詞匹配率隨匹配相似度減小而減少,上位術語反而呈逐漸增多趨勢,這是由于相似度概率降低,較多詞語由于無法找到能與其匹配的同位ICD-10 詞語,故匹配與其相近的上下位詞語,并且匹配精度會隨相似概率的降低而遞減。 同時在處理速度方面,通過該算法查找一個詞語的速度在1 s之內,遠遠快于人工查找速度。

4 結語

該文提出的基于混合評分的ICD-10 實體匹配門診診斷的機器學習算法可實現高效實時的ICD-10 編碼功能。 結果表明,該方法可以從初始數據中獲得高達86.0%的準確度。 該研究成果可以輔助臨床醫生書寫診斷編碼,同時大大減少病案編碼審核的工作量,提高編碼員工作效率。后續通過逐漸積累各種粒度的同義詞術語可以逐步減少對于遠程監督同義詞術語庫的依賴,同時進一步提高模型匹配精度。

猜你喜歡
細粒度字符串術語
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
基于文本挖掘的語詞典研究
基于SVM多分類的超分辨圖像細粒度分類方法
基于web粒度可配的編輯鎖設計
支持細粒度權限控制且可搜索的PHR云服務系統
一種新的基于對稱性的字符串相似性處理算法
依據字符串匹配的中文分詞模型研究
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
一種針對Java中字符串的內存管理方案
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合