?

基于常規檢驗數據的原發性肝癌風險預測模型的建立與評價*

2023-11-27 08:53曹曉強高顥瑾楊大干海南醫學院第二附屬醫院檢驗科???/span>57011廈門大學公共衛生學院福建廈門61104浙江大學醫學院附屬第一醫院檢驗科杭州1000
臨床檢驗雜志 2023年8期
關鍵詞:原發性肝硬化肝癌

曹曉強,高顥瑾,楊大干(1.海南醫學院第二附屬醫院檢驗科,???57011;2.廈門大學公共衛生學院,福建廈門 61104;.浙江大學醫學院附屬第一醫院檢驗科,杭州 1000)

原發性肝癌是最常見的惡性腫瘤之一,外科手術切除是肝癌最主要的根治手段[1-3]。肝癌晚期患者的存活期一般僅3~6個月,早期診斷肝癌是延長患者生存時間的最有效手段。目前,肝癌風險預測模型有:REACH-B評分模型[4]適用于無肝硬化的慢性乙肝患者,該評分表的檢驗指標包含性別(Sex)、年齡(Age)、丙氨酸氨基轉移酶(ALT)、乙型肝炎病毒e抗原和乙型肝炎病毒DNA。Johnson等[5]用于原發性肝癌輔助診斷的(GALAD)模型,包含Sex、Age和甲胎蛋白(AFP)、甲胎蛋白異質體比率、異常凝血酶原,診斷早期肝癌的敏感性和特異性分別為85.6%和93.3%,有助于AFP陰性肝癌的早期診斷。2019年,基于乙型肝炎病毒感染和中國人群大樣本數據的優化的類GALAD模型[6],適用于中國人群原發性肝癌的早期診斷。aMAP評分基于Age、Sex、清蛋白(Alb)、總膽紅素(T-Bil)和血小板(PLT),針對慢性肝病患者可跨病因、跨種族的預測肝癌風險[7]。ASAP肝癌風險評估模型包括Sex、Age、AFP和異常凝血酶原,敏感性為73.8%、特異性為90.0%[8]。但是,甲胎蛋白異質體比率、異常凝血酶原等并非常規檢驗項目,在懷疑肝癌時才會檢測。本研究用常規檢驗數據作為模型篩選指標,利用SQL進行數據收集,采用DxAI智慧科研平臺,通過機器學習建立原發性肝癌的風險預測模型,探索原發性肝癌風險預測的性能。

1 材料與方法

1.1病歷數據收集和處理 回顧性收集2020年1月至2022年10月浙江大學醫學院附屬第一醫院(簡稱醫院A)和2021年11月至2022年10月海南醫學院第二附屬醫院(簡稱醫院B)收治的原發性肝癌患者、疾病對照者和健康體檢者的臨床、病理和隨訪資料。采用PL/SQL Developer用SQL語句設定條件將有關病歷資料導成XLSX格式,包括血常規22項、生化32項、出凝血5項、腫瘤標志物12項、乙肝6項常規檢驗指標。將檢驗項目名稱統一,如有多次結果選擇其首次診斷后的檢驗結果,所有項目的檢測時間相差不超過2周。缺失值分組別進行處理,其中正態分布用均數替換,非正態分布用中位數替換,非數值型數據用眾數替換。

納入標準:臨床、病理和隨訪資料基本完整。原發性肝癌組:(1)根據《原發性肝癌診療指南(2022年版)》[9]初次確診為原發性肝癌;(2)未合并其他惡性腫瘤。肝硬化對照組:(1)確診為肝硬化;(2)未發展為肝癌。肝炎對照組:(1)確診為肝炎;(2)未發展為肝硬化。健康人對照組:(1)健康體檢人群;(2)診斷結果無肝病;(3)乙型肝炎病毒表面抗原和乙型肝炎病毒e抗原陰性。

排除標準:(1)同時患有其他影響篩選指標的疾病、妊娠等;(2)服用會影響篩選指標的藥物等;(3)檢測數據30%以上缺失。原發性肝癌組:接受過其他抗腫瘤治療,如介入、消融或放化療等;對照組排除標準:AFP≥200 μg/L的患者。

醫院A最終納入1 180例,其中原發性肝癌298例,肝硬化280例,肝炎244例,健康體檢者358例。醫院B有493例用于外部驗證,其中原發性肝癌178例,肝硬化122例,肝炎共34例,體檢人群159例。納入研究的所有病歷經過雙人核對確認。本研究通過浙江大學醫學院附屬第一醫院臨床研究倫理委員會批準(批準文號:浙大一院倫審2023研第0035號]。

1.2實驗方法

1.2.1特征變量的篩選 初步收集變量包括Age、Sex、檢驗指標等約100余項。首先,根據數據分布和類型,采用不同的顯著性分析方法,將患者診斷作為因變量,特征變量作為自變量,選擇差異有統計學意義的特征變量。其次,應用機器學習測試數據,通過多次嘗試發現XGBoost模型的整體性能最好,選用該算法并基于方差分析(ANOVA F-value)進行特征變量進一步篩選。最后,通過測試機器學習的結果不斷地優化和性能比較,篩選出建立模型的特征變量組合。

1.2.2機器學習模型構建和評價 機器學習是指從有限的觀測數據中學習出具有一般性的規律,并利用這些規律對未知數據進行預測的方法[10-11]。采用Z-score法,對入選特征進行歸一化處理。通過5折交叉驗證的方法建立模型。機器學習算法采用決策樹(Decision Tree)、邏輯回歸(Logistic Regression)、極限梯度提升(XGBoost)、隨機樹林(Random Forest)和梯度提升(Gradient Boosting)?;谟柧毤瘮祿M行機器學習分析的特征選擇與模型優化,在驗證集數據處理中選擇ROC曲線下面積(AUCROC)、陰性預測率[NPV=TN/(TN+FN)×100%]、陽性預測率[PPV=TP/(TP+FP)×100%]、準確度、敏感性、特異性作為模型評價指標。

aMAP評分為:({0.06×Age+0.89×Sex(男性:1,女性:0)+0.48×[(lgT-Bil×0.66)+(Alb×-0.085)]-0.01×PLT}+7.4)/14.77×100,其中Age以年為單位,項目的單位分別為T-Bil(μmol/L)、Alb(g/L)和PLT(103/mm3)[7]。

2 結果

2.1研究人群的人口學特征 研究人群的人口學特征見表1,醫院A和B部分組的年齡和所有組的性別存在統計學差異(P<0.05),可用于驗證風險預測模型在不同地區和來源的人群中的穩定性。

2.2特征變量篩選過程 特征變量除Age、Sex外,剔除缺失值<30%的檢驗指標后,剩余82個檢驗指標。經秩和檢驗有統計學差異(P<0.05)的有36個特征變量。經t檢驗有統計學差異(P<0.05)的10個特征變量。經卡方檢驗有統計學差異(P<0.05)的8個特征變量。

將54個特征變量作為自變量,患者診斷作為因變量,XGBoost模型的驗證集AUCROC為0.96,性能明顯優于其他模型。選用XGBoost模型進一步篩選特征變量,納入AFP(缺失率7.21%)、C-反應蛋白(CRP)(缺失率17.38%)、糖類抗原125(缺失率8.73%)、糖類抗原199(缺失率7.38%)、半胱氨酸蛋白酶抑制劑C(CysC)(缺失率7.97%)、膽堿酯酶、ALT、血糖、γ-谷氨?;D移酶、凝血酶原時間、腺苷酸脫氨酶、乙型肝炎病毒表面抗原、堿性磷酸酶、纖維蛋白原(Fib)、癌胚抗原(缺失率7.38%)、血小板壓積、Alb、尿酸、T-Bil、Sex、Age共21項特征變量,稱為X21。

對X21進行多次刪減與組合,不斷地調整模型的指標種類和數量,得到2種6個參數的特征組合且AUCROC不低于0.95。X6共有的特征參數包括Sex、Age、AFP、CRP、CysC。X6a的特征參數還有Fib,X6b的特征參數還有Alb。調整過程中特征變量種類、數量與權重的變化如圖1所示,AFP是風險預測模型中最重要的特征參數。

圖1 特征變量的權重變化圖

2.3原發性肝癌風險預測模型建立和評價 將X6a和X6b分別作為模型建立的自變量,患者診斷作為因變量,應用機器學習建立模型,使用的算法為Decison Tree、Logistic Regression、XGBoost、Random Forest及Gradient Boosting,X6a建立的模型依次稱為Model1-5,X6b建立的模型依次稱為Model6-10,見表2,其中Model3是X6a為參數所建立的最優模型,Model8是X6b為參數所建立的最優模型。656例數據進行了aMAP評分,>50分為中高風險,<50分為低風險。肝癌人群298例,被評為中高風險250例,低風險48例。健康體檢人群358例,被評為中高風險121例,低風險237例。aMAP評分的結果準確率為74.24%,錯誤率為25.76%。

2.4原發性肝癌組與肝硬化組、肝炎組、體檢組的模型性能和評價 用原發性肝癌組和肝硬化組、原發性肝癌組和肝炎組、原發性肝癌組和健康體檢組的數據獨立作為數據集,選用XGBoost算法,分別將X6a、X6b作為自變量,患者診斷作為因變量,進行機器學習,建立模型ModelA和ModelB、ModelC和ModelD、ModelE和ModelF,其性能指標見表3。

表3 原發性肝癌組與對照組ModelA-F驗證集的性能指標

2.5Model3、Model8外部驗證結果 Model3在醫院B的外部驗證性能指標:AUCROC(95%CI)0.829(0.787~0.870),NPV 0.828,PPV 0.726,準確度0.793,敏感性0.685,特異性0.854。Model8在醫院B外部驗證性能指標:AUCROC(95%CI)0.816(0.774~0.859),NPV 0.802,PPV 0.771,準確度0.793,敏感性0.607,特異性0.898。Model3外部驗證的評分圖和ROC曲線見圖2,Model8外部驗證的評分圖和ROC曲線與Model3相似。

注:圖A中藍色代表非原發性肝癌病例,紅色代表原發性肝癌病例。左側的紅色為判斷錯誤的陽性樣本,可能是因為部分原發性肝癌患者未出現明顯的血清學特征;右側藍色為判斷錯誤的陰性樣本,原因可能為部分患者已處于原發性肝癌早期而臨床尚未確診。圖2 Model3外部驗證的評分圖(A)和ROC曲線(B)

3 討論

機器學習是人工智能的一個重要分支,高質量數據和機器學習算法是人工智能的核心。風險預測模型的建立需提供經數據標注、高質量、完整的資料。傳統的數據收集方法,需要在電子病歷、檢驗系統中根據患者ID等逐個手工收集數據,過程繁瑣、效率低且耗時長??山柚ぞ哂肧QL在數據庫中批量篩選患者的診斷信息來收集所需要的數據,再進行數據確認、標化和預處理,能提高數據收集的效率。

風險預測模型的預測效能與特征參數的選擇和組合密切相關?;跈z驗現有的數據資料,應用統計學方法,通過顯著性、單/多因素、算法權重等分析確定特征參數,避免了主觀影響,參數的組合也存在更多的可能性,能更好地挖掘出檢驗項目的未知價值。不同的模型可能包含不同的指標組合,如aMAP評分包括T-Bil、Alb和PLT等指標[7],REACH-B評分包括ALT、乙型肝炎病毒表面抗原等指標[4],ASAP模型包括AFP和異常凝血酶原等[8]。從圖1可見,X21、X16模型時,幾乎包括與肝癌有關的檢測指標,如乙型肝炎病毒表面抗原、ALT、T-Bil等,但進步一優化為X11、X6a、X6b模型時,檢測指標減少,只剩下權重最高為AFP,還有CRP、Fib、Alb、CysC等指標。AFP主要作為原發性肝癌的血清標志物,用于原發性肝癌的診斷及療效監測[9]。CRP在原發性肝癌患者中的水平顯著高于其他良性肝病[5]。Fib在原發性肝細胞癌患者中的水平高于肝硬化組,表明肝硬化患者Fib升高時,應加強隨訪[12]。Alb具有檢測肝癌的潛在能力,肝癌患者的Alb降低,可能是因為腫瘤壞死產生的毒性物質引起機體代謝紊亂[13]。CysC也是模型中的一個重要參數,雖有文獻報道與惡性腫瘤細胞增殖分化的相關[14],但是將其用于原發性肝癌相關診斷的研究較少,有待于進一步研究。

模型建立時選用的特征參數的數量越少,盡可能選用常規檢驗指標,可提高模型的臨床適用范圍。模型建立過程中,嘗試了多種參數的組合方法,不同的參數所建立的模型有不同的效果。根據X11建立的XGBoost模型的驗證集AUCROC為0.962,相比Model3和Model8多了5個檢驗指標,但AUCROC的提高只有0.01。在保證模型性能的同時減少參數數量的原則,X11建立的模型并不好。將特征參數AFP、CRP、CysC、Age和Sex建立的XGBoost模型的驗證集AUCROC為0.946,相比Model3和Model8而言僅減少了1個指標Fib/Alb,但預測模型的性能有所下降。Model3和Model8所涉及的參數僅為醫院A和B常見的檢驗項目并具有較好的預測性能。因此,模型參數的選擇方法諸多,不同的研究在參數選擇時有不同的依據,也可能有更好的常規參數組合未被發現。

不同機器學習算法建立的模型的診斷效能不同。對比內部驗證的性能指標,結果顯示XGBoost算法的AUCROC、準確度等均高于其他模型,在模型構建過程中表現出與數據特征優良的適配性,是最佳的風險預測算法。Model3和Model8的驗證集AUCROC均達到0.95以上,外部驗證AUCROC均達到0.80以上,表明對原發性肝癌的預測能力和區分度較高。本文為多中心研究,模型的建立和內部驗證數據與外部驗證數據的來源不同,可以體現出模型在不同地區、不同人群中應用的穩定性,符合臨床真實情況。

近年來,已有研究建立了原發性肝癌的風險預測模型,包括GALAD模型(AUCROC=0.917,準確度=0.847)[5]、C-GALAD(AUCROC=0.89,準確度=0.819)[6]、ASAP(AUCROC=0.915,準確度=0.858)[8]等。aMAP=60時,特異性為56.6%~95.8%,PPV為6.6%~15.7%[7]。表2結果可見,Model3和Model8的性能指標優于大多數已有模型[5-8],雖然已有模型仍有部分性能指標(如敏感性)優于Model3和Model8,這與應用甲胎蛋白異質體L3、異常凝血酶原、循環腫瘤DNA等特殊的檢驗項目有關,而體檢和常規篩查中一般不包括這些項目,不利于模型的普及和應用。另外,表3結果顯示,建立的原發性肝癌組與肝硬化組、肝炎組、健康體檢組的預測模型ModelA-F,AUCROC均大于0.93,且具有較高的敏感性和特異性,其中原發性肝癌組與健康體檢組的數據建模效果最好,與肝炎組其次,與肝硬化組最差。Model3和Model8選用的檢驗指標為AFP、CRP、CysC和Fib或Alb,是臨床常用的檢驗項目,可以保證模型的普及率,充分挖掘常規檢驗結果的價值,提高原發性肝癌的早期診斷率。臨床診療中,如果某患者做了模型中的檢驗項目,必要時可在信息系統中提醒患原發性肝癌的風險概率,來輔助醫生的臨床決策。

本文存在以下局限性:回顧性研究,存在一定的選擇偏倚和研究設計缺陷,且患者數據量較少。雖使用獨立驗證集進行外部驗證,但驗證數據僅1家,還要進行更多外部驗證。不同醫院的儀器、試劑存在差異,需要進一步標準化和同質化。

總之,本文運用深睿醫療智慧科研平臺,基于臨床常規檢驗項目,選擇五種算法進行機器學習,建立了原發性肝癌的風險預測模型,Model3適用于住院患者,Model8適用于門診患者和體檢人群。

猜你喜歡
原發性肝硬化肝癌
肝硬化病人日常生活中的自我管理
LCMT1在肝癌中的表達和預后的意義
顱內原發性Rosai-Dorfman病1例影像學診斷
防治肝硬化中醫有方
活血化瘀藥在肝硬化病的臨床應用
microRNA在肝癌發生發展及診治中的作用
原發性甲狀腺淋巴瘤1例報道
Rab27A和Rab27B在4種不同人肝癌細胞株中的表達
原發性肝癌腦轉移一例
microRNA在肝癌診斷、治療和預后中的作用研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合