?

基于SNOMED-CT的醫療術語語義相似度計算方法

2021-02-16 00:40呂曉云
天津理工大學學報 2021年6期
關鍵詞:脫敏計算公式術語

戴 敏,朱 森,呂曉云

(天津理工大學計算機科學與工程學院,天津 300384)

醫療物聯網(internet of medical things,IoMT)技術的發展推進了醫療服務、醫療保健的普及和發展。許多基于IoMT的工具、軟件和設施已用于遠程健康跟蹤、身體恢復鍛煉、慢性病人群和老年人群的護理[1-2]。當健康數據關聯到具體的個體時,若處理不當,可能會引發嚴重的用戶隱私曝光問題。

在醫學領域內已經制定了關于隱私保護的正式條例,如《健康保險攜帶和責任法案》規定了在醫療文件允許發布之前應刪除個人可識別信息[3]。美國許多州和聯邦法律也規定,在向第三方發布醫療記錄之前,必須對艾滋病狀況、藥物或乙醇濫用以及精神健康狀況等因素進行脫敏[3-5]。

醫療文本中很多文本術語在語義上都是相關的,單純刪除或涂黑敏感術語(如艾滋?。┛赡軙岣邼撛诠粽叩木X性,并且未處理的語義相關術語(如免疫系統、流感和無保護的性行為)可能會增大敏感術語被揭露的風險[6]。因此,如何用語義泛化的形式來處理敏感術語,以及如何發現和處理語義相關術語成為了醫療文本脫敏工作的重點[7]。

文獻[8]提出了一種基于信息量(information content,IC)的醫療文本自動脫敏方法,該方法不僅對敏感術語進行脫敏,還檢測了語義相關的術語。該方法以搜索引擎必應(https://cn.bing.com)鏈接的資源來計算IC值以確定敏感詞,并利用知識庫將其泛化為通用術語。但互聯網中的數據存在流動性的特點[9],特定醫療數據在搜索引擎中所鏈接的資源的稀疏性受階段性流行病和社會輿論指向的影響。另外,依照數據稀疏性來判斷術語敏感與否,可能會使一些非常用的非敏感術語被識別為敏感術語。

醫學術語系統命名法-臨床術語(systematized nomenclature of medicine-clinical terms,SNOMEDCT)作為世界上最全面的臨床醫療術語,在國際上的臨床醫學數據分析的研究中應用極為廣泛[10-12]。因其收錄的大量醫學概念及詳細的分類結構,已被許多科研工作者用作醫療文本脫敏的知識庫[13-14]。本文在分析SNOMED-CT結構的基礎上,提出了一種基于SNOMED-CT的語義相似度計算方法,該方法可以有效地應用于醫療文本的語義脫敏。

1 SNOMED-CT結構分析

SNOMED-CT是目前最為全面的國際標準醫學術語系統,包含30多萬個醫學概念和130多萬個關系[15]。因具備完整、穩固的語義基礎和結構化的術語表達形式,被醫學領域許多信息模型指定為標準編碼系統,在國際醫療與健康領域中有著廣泛地應用。

SNOMED-CT概念模型由概念、描述和關系組成,并采取統一的數字標識符來唯一地表示各個概念、描述和關系,SNOMED-CT的邏輯結構如圖1所示,其中概念關系可分為2大類。

第1類是繼承關系(“IS_A”關系),又稱“上下位關系”或“父子關系”,從縱向上連接語義上具有包含與被包含關系的概念。IS_A關系是SNOMED-CT建立概念分類層級體系的基礎,眾多語義上具有包含與被包含的概念基于IS_A關系縱向聚合,形成了SNOMED-CT中不同的概念分類層級體系。除了頂級的“根概念”——“SNOMED Concept”外,每個概念均至少有一個IS_A關系與上位概念相關聯。

第2類是“概念模型屬性”關系,從橫向上連接兩個概念并確定概念間的語義關系[16]。如圖1中的“肺炎—肺結構”、“氣管支氣管炎—氣管支氣管結構”等都是概念模型屬性關系。SNOMED-CT實際運用了60種概念模型屬性,形成了數十萬條的橫向語義關聯關系。

圖1 SNOMED-CT的邏輯結構Fig.1 Logical structure of SNOMED-CT

2 語義相似度計算方法

結合SNOMED-CT的結構特點,本文利用SNOMED-CT中的2類概念關系來計算醫療術語的語義相似度,即計算2個概念的語義相似度時考慮2個因素:概念的具體化程度和語義距離。

2.1 具體化程度

在如圖1所示的SNOMED-CT的邏輯結構中,概念所在的層次(深度),即概念節點與根節點之間的縱向關系距離(即“IS_A”關系數量),代表了概念描述內容的具體化程度。每一層都是對上層概念的具體化,也是對下層概念的泛化,故深度越大,具體化程度越高。設c1和c2是SNOMED-CT中的2個概念,則這2個概念節點的具體化程度可表示為:

式中,h代表c1和c22個概念節點的最小公共祖先的深度。最小公共祖先的深度越大,概念的具體化程度越高,反之亦成立。

2.2 語義距離

在SNOMED-CT的邏輯結構中,概念節點之間的橫向關系距離(即“概念模型屬性”關系數量)代表了2個概念之間的語義距離。設c1和c2是SNOMED-CT中的2個概念,可以用兩個概念節點之間的最短路徑長度描述2個概念的語義距離,其公式為:

式中,d是概念節點c1和c2之間的最短路徑。

由此可見,兩個概念節點之間的最短路徑距離越大,它們之間的語義距離就越大,反之亦成立。

2.3 術語相似度的計算公式

綜合考慮SNOMED-CT中2個概念間的2類關系,2個概念的相似度計算公式為:

由于一個單詞可能具有多種概念含義,本文用與單詞相關的概念的相似度最大值來描述單詞之間的語義相似度。設單詞q1具有多個概念(c11,c12,…,c1a),單詞q2具有多個概念(c21,c22,…,c2b),則2個單詞q1,q2間的語義相似度的計算公式為:

一篇醫療文本中包含若干醫療術語,每個醫療術語通常由若干單詞組成。假設術語p1包含多個單詞(q11,q12,…,q1m),術語p2包含多個單詞(q21,q22,…,q2n),則2個術語之間的語義相似性的計算公式為:

3 實驗及結果分析

本文實驗數據為從維基百科(Wikipedia)選擇的6類共42篇醫療文本,這些文本分別從醫學角度描述了性傳播疾病、艾滋病毒、艾滋病、精神障礙和藥物濫用。為了評估本文方法的有效性,以2名醫療專家對各文本進行手動脫敏的結果為參照標準,從脫敏精度和實用度兩方面對本文方法與基于IC的脫敏方法進行了比較。

3.1 脫敏精度評估

本文用3個指標來評價脫敏的精度,分別是精準度(precision)、召回率(recall)和F-度量(Fmeasure,Fmea)。

精準度用來描述自動脫敏方法識別出敏感術語的準確率,其計算公式為:

式中,A代表自動脫敏識別出的敏感術語,B代表手動脫敏識別出的敏感詞。Ppre越高,表明自動脫敏識別敏感術語的準確率越高。

召回率用來描述自動脫敏方法對文本中敏感術語的識別率,其計算公式為:

Prec越高,說明敏感術語的識別率越高。在文本脫敏過程中,Prec通常比Ppre更重要,若Prec過低,則意味著有更多敏感術語未被識別出來,文本披露隱私風險越高。

Fmea用Ppre和Prec的諧波均值來表示脫敏的準確性,其計算公式為:

用本文方法與基于IC的方法分別對6類文本進行脫敏實驗,表1所示為精度實驗結果的對比。

表1 精度實驗結果的對比Tab.1 Comparison of accuracy test results

由表1可知,與基于IC的方法相比,采用本文方法對上述6類醫療文本進行脫敏,精準度、召回率和F-度量的平均性能分別提高了5.92%、3.13%和4.97%。

3.2 實用性評估

實用性代表了文本脫敏后的實用程度,即信息量的保留程度。本文采用文獻[8]提出的基于IC的評估方式評估脫敏后文本相對于原文本所保留的實用性。

某術語t所包含的信息量可用其CIC值表示,其計算公式為:

式中,p(t)為t在知識庫中出現的概率,這里以搜索引擎百度所鏈接的資源作為評估知識庫。CIC(t)越高,意味著t包含著更多的信息量。

一篇文本的信息量為該文本所包含術語提供的信息量的總和,假設文本D包含多個術語(t1,t2,…,tn),則其信息量的計算公式為:

式中,ti為文本中所包含的術語。

文本脫敏后的實用性保留程度Putility的計算公式為:

式中,D為脫敏前的文本,D′為脫敏后的文本。

采用對比本文提出的方法與基于IC的方法脫敏后的文本的實用性進行分析,表2所示為實用性對比實驗結果。

表2 實用性對比實驗結果Tab.2 Experiment results of practicability comparison

由表2可知,與基于IC的方法相比,采用本文提出的方法脫敏后文章的實用性平均提高了5.65%。

4 結論

本文在深入分析SNOMED-CT知識庫結構的基礎上,提出利用該知識庫中2類概念關系計算醫療術語的語義相似度計算方法,并將該方法用于醫療文本的脫敏。對從Wikipedia上選取的6類共42篇醫療文本進行脫敏提出的實驗,結果表明,與基于IC的脫敏方法相比,本文提出的方法在脫敏精度和實用度方面都有一定幅度的提高,適用于以SNOMED-CT作為知識庫的醫療文本敏感詞識別和脫敏。

猜你喜歡
脫敏計算公式術語
電機溫升計算公式的推導和應用
激光聯合脫敏劑治療牙本質過敏癥
快速脫敏治療的臨床應用
貿易術語修改適用問題探討
談擬柱體的體積
微分在近似計算中的應用
變力做功的八種求法
慎用脫敏牙膏
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合