?

基于異質屬性融合的危重疾病二階段預測模型

2024-03-05 08:20詹少強張逸群孫鴻濤張小波
計算機與現代化 2024年1期
關鍵詞:異質時序類別

詹少強,曾 安,張逸群,孫鴻濤,張小波

(1.廣東工業大學計算機學院,廣東 廣州 510006;2.廣東省第二人民醫院關節骨科科室,廣東 廣州 510317;3.廣東工業大學自動化學院,廣東 廣州 510006)

0 引 言

目前,醫療資源短缺是一個具有普遍性、長期性、全球性等特征的問題[1]。隨著醫療信息電子化技術的發展,人們對患者治療過程中出現的臨床數據信息的記錄和保存的需求也日益上升,因此電子健康記錄(Electronic Health Record,EHR)的概念就此誕生。美國衛生組織衛生標準7 (Health Level Seven,HL-7)對EHR 進行了如下定義:“EHR 是向每個個人提供的、一份具有安全保密性的、記錄其在衛生體系中關于健康歷史與服務的終身檔案[2]?!盓HR 是患者多種數據信息的總體集合,其中包含了病史、診斷、藥物、治療計劃和放射圖像等信息[3]。一名患者在進行治療的過程中往往進行多個項目的檢查,因此即使是單個患者的數據也可以提供豐富的信息。

電子健康記錄的出現與應用引起了研究人員對EHR 所包含信息進行數據挖掘相關工作的興趣。目前研究當中,基于機器學習和深度學習方法實現疾病預測的案例有不少。Desautels 等人[4]使用EHR 數據和機器學習的方法,提出一種名為Insight 模型,在數據集MIMIC-III中對ICU患者中是否存在膿毒癥進行預測;Nemati等人[5]使用的機器學習算法是一種改進并正則化后的“威布爾-比例風險回歸模型(Weilbull-Cox proportional hazards model)”,并在使用Emory Healthcare System 數據集上進行訓練,使用MIMIC-III 數據集進行測試;Lipton 等人[6]從洛杉磯兒童醫院EHR系統中提取出由13個生理指標和化驗結果變量組成的多變量時間序列,基于LSTM 模型對128 種疾病進行預測,實驗結果表明該模型在某些疾病上可以進行準確分類;Choi等人[7]提出了一種名為“Doctor AI”的疾病預測模型,該模型基于循環神經網絡(Recurrent Neural Networks,RNN)并在MIMIC-II 數據集中進行實驗;Esteban 等人[8]則基于RNN 和前饋神經網絡分別對患者的歷史特征序列和人口統計學信息進行處理,并在網絡輸出層前融合進行預測。

在現實的臨床治療中,患者除了要忍受疾病帶來的痛苦,往往還要承擔不小的經濟負擔。有研究指出,我國慢性阻塞性肺疾?。ˋcute Exacerbation of Chronic Obstructive Pulm-onary Disease,AECOPD)急性發作患者每年因AECOPD 入院治療0.5~3.5 次,平均住院治療費用高達11598 元/人次[9]。對于肺癌患者來說,早期診斷肺癌的有效方法不僅會明顯提高治愈的可能性,延長患者的生存期,還能減少患者的經濟負擔[10]??梢哉f,研究一種能夠對患者群體進行有效早期診斷的方法,對患者個人、家庭和社會均有重要意義。

目前的研究中,數據屬性的來源可以劃分為3類:人口統計學信息、生理指標以及實驗室檢查。前2 種屬性的數據獲取難度和成本都比第3 種屬性要低,一個患者往往會擁有這3 種屬性,并導致出現數據類型混合的結果。原始的EHR 數據往往是異質類型的[11],即原始數據類型中既有數值型的屬性,也有非數值型的屬性,且一般為類別型的屬性。對類別型屬性普遍的處理方法是簡單進行編碼,但這樣會損失不同患者群體之間隱含的其他信息[12]。而對于類別型屬性可以繼續細分為2 類:定類型和定序型[13-14]。兩者之間的區別在于定類型屬性的每個可能值之間不可進行排序,定序型屬性的每個可能值之間是可以進行一定程度的排序。

針對前面所述的異質屬性處理信息丟失問題,同時為了更好地挖掘EHR 異質數據的信息,本文引入基于熵的距離度量方法(Entropy-based Distance Metric,EBDM)算法[15]對數據本身存在的混合類型屬性進行處理,對數值型屬性和類別型屬性進行統一處理;然后,在模型的一階段對非時序狀態且僅包含部分屬性的數據樣本進行初次篩選;最后,經過第一階段模型篩選后的數據樣本,根據全時序且包含全屬性的數據樣本進行第二階段模型的再預測。整體二階段模型的方法框架如圖1所示。

圖1 二階段模型整體框架

本文主要工作如下:

1)相較現有數據預處理和表征方法,本文沒有強行進行取值轉換,也不進行非可解釋編碼,而是用了統一度量來表示樣本之間的相似性關系,在一定程度上確保了異構屬性的信息不被曲解和丟失。

2)考慮到在實際環境中疾病預測的緊迫性,在模型的第一階段對非時序狀態且僅包含部分屬性的數據樣本進行初次篩選,該篩選的目的是盡量篩選出數據樣本的陰性樣本(非患病樣本),讓部分患者不用進行后續其他的檢查項目,減輕患者的經濟負擔。

3)第二階段模型對第一階段模型進行初篩后的數據樣本使用全屬性全時序的格式進行精細預測,充分利用時序與非時序格式數據的各自隱含的信息。

4)通過大量實驗驗證,確定第一階段和第二階段的最佳算法模型組合,并且在真實大規模醫療數據集上進行了有效性驗證和參數選擇評估。

1 預備知識

在二階段模型的框架中,異質屬性的表征方法在挖掘數據屬性的信息中起到重要作用;而第一、第二階段根據其實現的功能和輸入數據格式的不同,可以分為非時間序列的初篩模型和時間序列的預測模型。本章對異質屬性的表征方法和2 類模型中與本文方法高度相關的模型進行述評。

1.1 異質數據表征方法

類別型屬性是指沒有明確數字含義的定性值,在機器學習和數據分析任務中非常常見,與數值型屬性不同,類別型屬性并不能進行常規算術計算,且沒有明確定義的相似性空間。為了挖掘類別型屬性的信息,現有的方法可以分為2 類:1)基于表征,將類別型屬性表征為數值型屬性;2)基于相似性度量:直接定義類別型屬性的相似性。

基于表征的方法中,One-Hot 編碼是最常見的方法,它把數據中的類別型屬性表征為對應的布爾向量,各個屬性可能值之間相互獨立,而這并沒有考慮到在數據樣本進行互相比較時,不同屬性對不同可能值所造成的影響是不同的。在基于相似性度量的方法中,傳統方法為漢明距離,它直接將不同值記為1,相同值記為0,以此來度量2 個分布之間的相似性。然而這種方法并沒有考慮到不同屬性之間的依賴關系,在進行挖掘時容易發生信息丟失。

為了進一步考慮屬性的相互依賴性,以及挖掘出屬性間更多的隱含信息,需要一種基于熵的距離度量方法[15]利用不同屬性、不同可能值之間的信息熵對類別型屬性進行更為準確的相似性度量,確保原本異質屬性數據中的信息進行有效融合,并最大程度地保留異質屬性的信息,降低異質屬性融合過程中的信息丟失程度,為后續模型的預測提供一種更好的異質屬性處理方法。

1.2 非時間序列初篩模型

常見機器學習的非時間序列分類器可分為單一分類算法和集成分類算法[16],前者所包含的經典模型有K近鄰分類、決策樹分類和支持向量機分類;后者的代表模型有隨機森林和XGBoost,其中XGBoost在多種分類任務中取得較為不錯的效果。近年來,以深度神經網絡為主要模型方法的深度學習技術發展迅速,其中包含在計算機視覺和自然語言處理領域中廣泛使用的多層感知機(Multilayer Perceptron,MLP)、卷積神經網絡[17](Convolutional Neural Network,CNN)以及以圖神經網絡模型為基礎的圖卷積神經網絡[18](Graph Convolutional Network,GCN)和圖注意力網絡[19](Graph Attention Networks,GAT)。由于本文二階段模型經過實驗驗證,發現XGBoost 作為一階段模型效果更好,所以此處著重介紹XGBoost的技術細節。XGBoost[20]是一種使用集成學習方法的 模 型,在GBDT[21](Gradient Boosting Decision Tree)的基礎上利用二階導函數計算目標函數和添加正則化項的方法進行改進。

根據XGBoost 算法的思想,可以把疾病預測模型的目標函數定義為:

其中,yi表示樣本的實際標簽表示模型的預測標簽表示損失函數,Ω(f)表示決策樹的復雜度:

其中,T代表當前決策樹中葉子節點的個數,‖ω‖2代表每個葉子節點的權重的L2 正則化。經過t次迭代后,模型的預測結果可以表示為決策樹所有預測結果的加權和,并且將目標函數進行二階泰勒公式展開,并刪除常數項:

其中gi、hi分別為預測誤差對當前模型的一階導數和二階導數:

此時,令式(4)的導函數為0,可得到目標函數的最小值,以及各葉子節點的最佳值:

1.3 時間序列預測模型

時間序列格式的數據在各個時間點的屬性間往往會存在一定的依賴關系,如何捕獲其中的隱含的關系是處理時間序列數據的關鍵。近年來,機器學習模型中的深度神經網絡在相關領域得到廣泛應用,其中循環神經網絡(Recurrent Neural Network,RNN)、長短期記憶(Long Short-Term Memory,LSTM)網絡被用于對復雜序列數據進行建模[22]。目前疾病預測相關研究表明[6,23-24],使用LSTM 對時序格式數據的處理能夠起到較好的效果,另外也有其他研究指出Transformer 在時序任務中的表現良好[25]。但本文的二階段模型涉及2 個風格迥異模型的匹配,綜合考量后選取更為基礎的功能模塊、更少更為純凈的LSTM。因此本文采用長短期記憶網絡來處理長時間序列下的模型預測。LSTM是基于循環神經網絡改進后的深度神經網絡模型,用于處理相對較長時間間隔的序列數據[23]。一個LSTM 結構在當前狀態為t時包含以下元素:輸入信息xt、隱藏狀態ht、細胞狀態ct、輸入門it、輸出門ot和遺忘門ft,圖2 為LSTM 單個神經元結構。3 個門、細胞狀態以及隱藏狀態的計算過程分別如式(7)~式(11)所示:

圖2 LSTM單個神經元結構

其中,W和b分別為各單元結構的待訓練參數矩陣和偏置項;σ為Sigmoid 函數;ht-1和ct-1為上一時刻的記憶體和細胞狀態。

2 基于異質屬性融合的疾病二階段模型框架

如前所述,EHR 數據來源廣泛,直接對類別型屬性進行數值轉換則會丟失信息,因此如何處理數值型屬性和類別型屬性組合形成的混合類型屬性成為關鍵問題。

在進行疾病預測時,本文引入EBDM 算法對數據本身存在的混合類型屬性進行處理,為數值型屬性和類別型屬性統一處理;考慮到不同屬性在獲取難度和成本的不同,在進行完整的細粒度模型預測之前,根據部分時間點數據和較易獲取屬性在模型的第一階段對數據樣本進行初次篩選,目的是盡量篩選出數據樣本的陰性樣本(非患病樣本),讓部分患者不用進行后續其他的檢查項目,減輕患者的經濟負擔;然后,經過第一階段模型篩選后的數據樣本,則進入第二階段模型進行再預測,盡量提高對患者預測的針對性。整體二階段模型的具體方法框架如圖3所示。

圖3 二階段模型具體框架圖

2.1 基于熵的距離度量與異質屬性融合算法

設有數值型屬性和類別型屬性混合的數據集X={x1,x2,…,xN},其中xi表示第i條數據,d表示數據集中所有的屬性,且假定在全部的類別型屬性中,定序型屬性在前,定類型屬性在后,分別由Aord和Anom表示,而數值型屬性表示為Anum,因此顯然d=Anum+Aord+Anom成立。

數據集中的具體類別型屬性Ar的可能值用一個類別集Pr={Pr( 1 ),Pr( 2 ),…,Pr(οr)}來表示,其中οr表示屬性Ar的具體類別個數。

對于一個合理的定序型數據進行距離度量,數據之間的距離應該與一個定序型屬性的有序類別之間的順序關系一致。在進行距離度量時,每個定序型屬性的具體可能值數量不同會影響到自身與其他數據樣本之間的距離度量。因此,進行2 個樣本之間的距離度量可以轉化為2個樣本的具體屬性的可能值之間的距離度量。從信息論的角度考慮,熵值越高代表信息量越高,用熵值來度量屬性之間的距離是合適的。

對于定序型屬性,在度量屬性不同可能值之間的距離時,要考慮位于當前可能值排序之間的其他可能值的距離;對于定類型屬性,由于每個類別之間都是相對獨立的,則只考慮當前可能值之間的距離。

綜上所述,給定一個只具有d個類別型屬性的數據集X,2 個類別屬性Pr(i)和Pr(j)之間的距離dist 由式(12)所示:

其中,w代表的是屬性在參與距離度量時的權重,由屬性Ar的可靠性RAr于全體屬性中的可靠性占比決定,可靠性越高的屬性,提供的權重就越大:

可靠性RAr則表示屬性Ar所包含的最大信息的百分比,由屬性Ar所有可能值的信息熵之和EAr可能值個數οr所決定:

CAr(s)為屬性Ar的具體可能值s對應個數,N為全體樣本個數。式(12)展示2 個類別屬性之間的距離,而2個只含類別型屬性樣本之間的距離則由下式表示:

由式(16)可以看出,EBDM 算法采用距離度量的形式,可將類別型屬性轉化為數值型屬性的過程中丟失的信息保留下來。此時將數值型屬性加入式(16)中,即可得到異質屬性融合的距離:

異質屬性融合方法將帶有異質屬性的數據樣本中隱含的信息進行更進一步地挖掘,有利于提升后續模型預測精度。

2.2 基于非時序數據的第一階段模型

第一階段模型的主要功能為在只提供部分屬性和部分時間點數據信息的情況下,提高模型對于正樣本的敏感性。如果樣本在第一階段模型中被錯誤排除,在實際情況中將導致至少一位可能的病患無法得到后續及時的治療。因此,第一階段模型的功能要保證模型對于正樣本有更高的敏感性,且也要具有一定的篩選分流效果。為了提高模型對正樣本的篩選能力,即使得模型在預測時對正樣本更為敏感,本文從模型的損失函數上對待預測的正負樣本類型權重進行調整。

對于一個二分類任務,其單個樣本對應的損失函數如公式(18)所示:

其中,y為樣本對應的真實標簽?為模型經過Sigmoid函數映射輸出的結果,λ為正樣本在參與損失函數計算過程中的權重。

此時,令公式(18)對?分別求一階偏導和二階偏導,結果如公式(19)、公式(20)所示:

從公式(18)~公式(20)可以得出,模型對于正樣本在計算損失函數的梯度和二階導函數從1 調整為λ,使得模型對于正樣本預測結果具有一定可調節性,而這從另一方面可以保證模型對于預測為陰性的結果具有更高的謹慎度,盡量降低第一階段模型對于正樣本的誤判結果。因此,通過調整λ 來控制模型對相應樣本的篩選能力。

2.3 基于時序數據的第二階段模型

第二階段模型的功能為對第一階段模型進行篩選后剩余的疑似患者進行更為準確的模型預測。

經典的深度神經網絡,如MLP、CNN 等網絡模型,是無法記憶之前時間步狀態的。因為本文的輸入數據是多變量時間序列數據,所以首先考慮利用RNN,它是具有反饋連接循環網絡,可以記憶一定的順序模式。RNN 與經典深度前饋神經網絡的最大區別在于它是可以學習時間依賴行為的記憶模型。然而,由于梯度消失的原因,RNN 雖然能夠學習到數據中短期信息,但依然難以捕獲到數據中的長期記憶。因此,LSTM 作為以RNN 為基礎的更優模型,可以捕獲到不同時間點之間隱含的信息。

設經過異質屬性融合后的全時序數據集為,顯然有是fusion,表示異質屬性融合,tN為輸入數據的最大步長。此時數據格式為具有tN個時間步的全屬性樣本,假設單個時間步的經過異質屬性融合后的維度為d,數據集大小為N,此時整體數據集格式為[N,tN,d]。設LSTM 的步長為tN,輸入維度為d,圖4 為第二階段模型的運行示意圖,其中FC為全連接層,取模型最后一個時間點的輸出作為預測結果。

圖4 第二階段模型的運作

2.4 算法整體描述

綜合上述二階段模型的偽代碼以及異質屬性融合方法的具體算法步驟如下所示:

輸入:帶有N個時間步的異質結構數據集XtN,對于每個時間點t,其數據樣本按照數值型和類別型屬性可以分為和。

1)選取時間節點k,將t1到tk對應的數據集Xt1,…,Xtk中數值型屬性取平均值,類別型屬性取出現頻率最高的可能值,構建新的數據集Xs,Xs為全體數據集合XtN的前k個時間點中只擁有人口統計學信息和生理指標屬性的子集。

2)分別把Xs和XtN中每個時間點進行經過異質屬性融合處理,將其轉變為對應異質屬性融合后的數據集。其中,Xs將轉化成異質屬性融合后的數據集,單個時間點的數據集Xt轉化成異質屬性融合后的數據集

3)將輸入第一階段的XGBoost模型進行訓練,同時調整正樣本的權重以提高XGBoost 模型對正樣本的篩選能力,得到第一階段模型的初篩結果

4)根據第一階段模型的輸出結果,對其中預測為正的樣本(即患病樣本)進行細粒度的預測,將其對應在數據集中的樣本提取出來,輸入到LSTM 模型進行預測,預測結果為

3 實 驗

3.1 實驗數據集來源

本文使用的數據集是重癥監護醫療信息市場(MIMIC-III)數據庫[26]的1.4 版本。MIMIC-III 數據庫為研究危重疾病的主流公開數據庫之一,該數據庫由2001年—2012年間馬薩諸塞州波士頓貝斯以色列女執事醫療中心的53423 份ICU 記錄(16 歲及以上)組成。數據庫中含有豐富的異質屬性,對于每個ICU病例記錄,平均記錄4579個生命體征和380個實驗室測量數據。作為ICU 危重疾病之一的膿毒癥,其病因復雜,且確診需要耗費不少時間,而通過及時干預的方法,可以在患病早期挽救患者的生命[27]。本文根據膿毒癥3.0 的定義篩選出11325 條第一次進入ICU的病人24 h 內的樣本數據[28],其中患有膿毒癥樣本5778條,非膿毒癥患者5547條。

3.2 實驗預處理

本文按照人口統計學信息、生理指標、實驗室測量結果3 個方面選取屬性。每個樣本均有24 個時間點,對于數值型屬性,取1 h 內的該屬性的平均值代替在當前時間點的值。而類別型屬性,則取出現頻率最高的可能值,然后刪除缺失值過多的屬性。剩余屬性的缺失值采取以下處理方法:首先使用前向填充的方法進行填充,填充后仍有缺失值的,如果是數值型屬性,則根據所有時間點的平均值進行填充;類別型屬性則使用后向填充的方法進行填充,進行上述步驟后完成數據清洗。數據清洗后共有28 個屬性,各屬性情況如表1 所示??紤]到實驗室測量指標比生理指標的缺失情況要更為嚴重,因此只保留進入ICU 的病人24 h 內含全部生理指標且至少出現記錄一次的樣本,最終篩選出10417 條樣本,其中患膿毒癥樣本5192條,非膿毒癥樣本5225條,總體上正負樣本的分布接近1:1,數據清洗前后樣本分布如表2所示。

表1 樣本屬性信息

表2 樣本分布

3.3 運行環境

實驗使用的主要工具版本為Python3.8.5、Pytorch1.9.0、 Numpy1.20.2、 Pandas1.2.5、 Scikitlearn1.1.1。 Linux 服 務 器 硬 件 信 息:CPU 為AMD7386,GPU為RTX3090,內存為24 GB。

3.4 評價指標

本文使用10 折交叉驗證的方法,且評估模型性能所使用的性能指標包括:ACC、AUC(Area Under Roc Curve)和F1-Score,實驗結果取10折的平均值表示。另外,為了評估第一階段模型起到的初篩能力的強弱,初篩能力由公式(21)所定義。

其中,Xneg為第一階段模型預測結果中預測為負的樣本數量,N為參與預測的所有樣本數量。第一階段模型所篩選出的陰性樣本越多,則認為模型的初篩能力越強。

3.5 實驗設計

本文主要設置3 類核心實驗:1)通過不同非時序模型與異質屬性融合方法的組合進行實驗,驗證異質屬性融合方法與XGBoost 模型結合的有效性;2)基于XGBoost_Fusion 作為第一階段模型,比較Transformer與LSTM 模型的實驗結果,調整該模型的正樣本類型權重,研究模型在篩選能力與預測精度之間的整體最優情況;3)以不同時間點構造第一階段模型的輸入數據,用于說明選取前6 個時間點構造的非時序數據可以較好兼顧模型的需求。

3.6 非時序模型實驗結果

選取前6個時間點構造非時序數據集。表3為非時序模型實驗結果,可以得出XGBoost+Fusion 組合的AUC指標可以達到最優的情況。

表3 非時序模型實驗結果

3.7 整體模型實驗結果

根據3.6 節的非時序模型的實驗結果,本節實驗選取XGBoost 與異質屬性融合的組合作為第一階段模型的輸入,并比較第二階段模型分別為Transformer與LSTM 時的預測結果。第一階段模型的輸入同樣取前6 個時間點的數據構造的非時序數據,實驗結果如表4所示。

表4 不同正樣本類型權重下模型實驗結果

可以看出,Transformer 模型與LSTM 模型結果存在一定的差距。隨著正樣本類型權重的提高,導致模型對于正樣本的挑選能力在上升,模型的篩選比例在下降,說明第一階段模型篩選樣本能力下降,進入第二階段模型的樣本在增多;而隨著進入第二階段模型的樣本數量增多,模型訓練接受的樣本也隨之增多,其預測精度也有所上升。為了衡量模型的整體性能,本文使用公式(22)來表示整體模型的效能。

其中,prop表示模型的篩選比例,α、β以及ψ分別是模型精度、篩選比例各自對應的權重以及兩者與權重結合的綜合評價的指標??紤]到模型精度的要求在一般情況下要更為重要,以及部分醫生的參考意見,本文取α和β分別為0.9 以及0.1,并按照此參數設置進行實驗。圖5、圖6、圖7分別為預測精度變化曲線、篩選比例變化曲線以及綜合指標變化曲線。從圖7 可以得知,當正樣本類型權重取1.7 左右時,ψ達到最大值0.7127,此時模型可以通過第一階段的初篩結果篩選出33.2%的病人。

圖5 預測精度變化曲線

圖6 篩選比例變化曲線

圖7 綜合指標變化曲線

3.8 一階段不同時間點取值實驗

選取前k個時間點構造非時序數據集,驗證時間點選取對模型的影響,實驗結果如表5所示。k=24時與k=6 的實驗結果相差較小,考慮到非時序數據的構造需要一定的提前性,可以認為取k=6 以保證模型對疾病預測有一定的提前性。

表5 不同時間點構造的非時序數據的實驗結果

4 結束語

針對醫療資源稀缺和EHR數據中廣泛存在異質數據類型的特點,本文提出一種基于異質屬性融合的二階段模型框架對膿毒癥病人進行提前初篩和預測。該方法結合基于熵的距離方法來實現異質屬性之間的信息融合,同時通過部分屬性以及部分時間點數據和調整正樣本的權重方式,使得模型能夠提前篩選掉較低概率是患者的樣本,也使得部分樣本不用進行后續的檢查項目,降低患者的經濟負擔;然后對于剩下的樣本,則進行全時序全屬性的預測。二階段模型的框架綜合考慮疾病診斷中的患者的經濟負擔和預測精度,在面對一些需要耗費高成本來診斷的疾病時可以兼具多個方面的需求,在實際應用環境中存在一定的研究價值。

猜你喜歡
異質時序類別
基于Sentinel-2時序NDVI的麥冬識別研究
基于FPGA 的時序信號光纖傳輸系統
一種毫米波放大器時序直流電源的設計
服務類別
隨機與異質網絡共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質p-n結光催化劑的制備及其可見光光催化性能
MoS2/ZnO異質結的光電特性
論類別股東會
中醫類別全科醫師培養模式的探討
DPBUS時序及其設定方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合