?

人工智能在胰腺炎中的研究進展與應用

2024-05-07 11:29賈雨晨丁乙軒梅文通曹鋒李嘉李非
中華胰腺病雜志 2024年1期
關鍵詞:準確度胰腺炎人工智能

賈雨晨 丁乙軒 梅文通 曹鋒 李嘉 李非

首都醫科大學宣武醫院普通外科 急性胰腺炎臨床診療與研究中心,北京 100053

【提要】 人工智能在醫學及醫療領域發揮著越來越重要的作用,其在疾病預測及輔助決策方面展現出巨大潛力。本文總結當前人工智能在胰腺炎領域的相關研究,重點闡述人工智能在胰腺炎輔助診斷、治療決策、預后評估中的研究進展、應用和潛在用途。

人工智能(artificial intelligence,AI)是一種涉及計算機、統計學、生物學等多個學科的交叉和前沿科學,通過研究、開發各種理論和技術以及應用系統來模擬、擴展人的智能。隨著相關理論和技術的不斷成熟,AI在醫學領域的探索也在不斷地擴展與深入。近年來,大量報道闡述了AI在AP、CP和自身免疫性胰腺炎(autoimmune pancreatitis,AIP)中的研究與應用,AI通過與臨床實踐緊密結合在胰腺炎的診斷、治療和預后評估等方面展現出巨大潛力。本文對AI在胰腺炎診治中的研究進展及應用進行綜述。

一、概述

1955年, John McCarthy首次提出AI的概念,即“制造智能機器的科學與工程”,并在1956年美國達特茅斯大學會議上與計算機、心理學、神經生理學等領域的專家共同開創了AI領域[1]。AI包括機器學習、模糊邏輯、計算機視覺、自然語言處理、專家系統、推薦系統等眾多部分。在醫學領域中AI有兩個主要分支,即現實部分和虛擬部分?,F實部分是以醫療設備和醫療機器人為代表的實物;虛擬部分是以機器學習為代表的數學算法,旨在通過經驗提高學習效果。傳統機器學習包括決策樹(decision tree,DT)、支持向量機(support vector machines,SVM)、隨機森林(random forest,RF)和人工神經網絡(artificial neural network,ANN)等。其中,ANN的應用較為廣泛,它是由大量處理單元互聯組成的非線性、自適應信息處理系統,通常由輸入層、模擬神經層、輸出層組成,通過模擬人腦神經網絡進行信息處理。經過大量數據的學習與調試,可以找到輸入層與輸出層之間與現實相近的函數關系。深度學習(deep learning,DL)是目前機器學習研究中的新方向,其通過深度神經網絡(deep neural network,DNN)和卷積神經網絡(convolutional neural network,CNN)等方法處理龐大且繁雜無序的醫療數據,表明AI在醫學領域具有巨大潛力與廣闊應用前景。

二、人工智能與AP

1.人工智能在AP診斷與嚴重程度預測中的作用:Kazmierczak等[2]在1993年首次通過ANN分析血清胰酶活性診斷AP,發現脂肪酶是AP的最佳預測因子,診斷準確度為85%,診斷能力優于單獨使用淀粉酶或聯合應用脂肪酶和淀粉酶(P<0.05)。Pofahl等[3]在1998年首次使用AI預測AP的嚴重程度,發現ANN能夠準確地預測住院時間超過7 d的AP患者,且ANN與Ranson和APACHEⅡ評分的預測能力相似。Keogan等[4]首次將CT與實驗室檢查相結合,使用循環法在同一AP患者數據集中對ANN進行訓練和測試,結果顯示ANN成功預測了住院時間超過平均住院時間(8.4 d)的患者,且與線性判別分析(linear discriminant analysis,LDA)性能相當(P=0.530),并優于Ranson(P<0.020)和Balthazar CT評分(P<0.003)。上述兩個研究的局限在于使用住院時間評估AP嚴重程度,而不是修訂后的亞特蘭大分級。住院時間是對嚴重程度的間接測量,不能直接體現AP嚴重程度,老年或住院期間需進行膽囊切除術的膽源性胰腺炎等因素會導致預測結果受到嚴重影響。Halonen等[5]建立了ANN與邏輯回歸(logistic regression,LR)兩種模型,對234例SAP患者的回顧性數據集進行測試,并在另外60例連續收治的SAP患者的前瞻性驗證集中進行驗證,評價預測準確度。結果顯示,SAP患者住院死亡的最佳預測模型是包含4個變量(年齡、初次入院后60~72 h內的最高血清肌酐值、是否機械通氣和慢性健康狀態)的LR模型(AUC=0.862),ANN的預測能力稍低于LR但優于傳統的APACHEⅡ、Ranson、Imrie評分。Pearce等[6]采用核邏輯回歸(kernel logistic regression,KLR)方法首次使用入院APACHEⅡ評分與CRP相結合預測AP嚴重程度,發現該模型預測AP嚴重程度的能力明顯優于入院APACHEⅡ評分(AUC值分別為0.82、0.74,P=0.004)。該研究表明機器學習可以明顯改善入院后首次觀察指標的預測性能,且有助于簡化評估工作和納入新觀察指標。Mofidi等[7]開發了一種由10項臨床指標組成的ANN來預測SAP的發生及相關死亡,結果顯示,ANN預測SAP、多器官功能障礙綜合征(multiorgan dysfunction syndrome,MODS)和死亡的準確度分別為92.5%、94.1%和97.5%,ANN較APACHEⅡ和格拉斯哥評分能更準確地預測SAP、MODS的發生及死亡(P值均<0.05),該研究首次驗證了ANN在預測SAP方面優于線性模型。Yolda?等[8]發現ANN預測急性膽源性胰腺炎(acute biliary pancreatitis,ABP)的嚴重程度和死亡的準確度較高,通過前瞻性隊列訓練后,ANN較入院時APACHEⅡ評分和入院48 h的Ranson評分更準確地預測了ABP患者的嚴重程度(AUC=0.697)和死亡(AUC=0.696)。Andersson等[9]首次使用疼痛持續時間作為危險變量之一的ANN預測AP嚴重程度,結果顯示ANN(AUC=0.92)在預測嚴重程度方面的性能優于LR(AUC=0.84,P=0.030)和APACHEⅡ評分(AUC=0.63,P<0.001)。Hong等[10]建立由胸腔積液、血清鈣和血尿素氮組成的分類和回歸樹(classification and regression tree ,CART)模型早期識別SAP高風險(79.03%)和低風險(7.80%)患者,其預測效能優于APACHEⅡ評分(AUC值分別為0.84、0.68,P<0.001)。該模型在隨后的驗證隊列中得到驗證(AUC=0.86)。但當時未修訂的亞特蘭大分類標準存在局限性,限制了上述兩項研究的臨床價值。

隨后,Yang等[11]基于修訂后的亞特蘭大分類標準,采用入院后12 h內收集的肌酐、乳酸脫氫酶、氧合指數等指標,使用DT模型預測SAP,結果顯示,訓練組預測SAP的靈敏度和特異度分別為80.9%和90.0%,測試組分別為88.6%和90.4%。Choi等[12]也建立了由APACHEⅡ、BISAP評分和Balthazar CT分級、EPIC評分系統組成的分類樹分析(classification tree analysis,CTA)模型早期預測AP嚴重程度,該模型在訓練隊列的預測性能(AUC=0.85)高于單一使用APACHEⅡ評分(AUC=0.84)、BISAP評分(AUC=0.84)、EPIC評分(AUC=0.74)、Balthazar CT分級(AUC=0.70),特異度為100%,準確度為94.8%;在驗證隊列中,該模型實現了與訓練隊列相似的預測性能(AUC=0.83)。Lin等[13]發現基于SVM的MRI放射組學模型在AP嚴重程度的早期預測中表現良好,該模型在訓練組(AUC=0.92)和驗證組(AUC=0.85)的性能均高于APACHEⅡ、BISAP和MR嚴重指數(MR severity index,MRSI)評分,該模型能反映AP早期階段的胰腺實質損傷,對胰腺微循環障礙的進一步研究有望解讀放射組學的發現。Sun等[14]運用RF與遞歸特征消除算法開發并驗證了一個基于11項靜脈血標志物的AP嚴重程度分層模型,該模型在24 h內對AP進行分類,AUC值為0.74±0.04。隨后該模型在568例AP患者中得到進一步驗證(AUC=0.73),預測效能與Ranson評分(AUC=0.74)相似且高于APACHEⅡ和BISAP評分(AUC值分別為0.69、0.66)。該模型使用靜脈血相對安全且在入院時即可采集。

Jin等[15]比較了多層感知人工神經網絡(multilayer perception-artificial neural network,MPL-ANN)和偏最小二乘判別(partial least squares-discrimination,PLS-DA)兩種機器學習模型診斷和預測AP嚴重程度的效能。采用了易于獲取和床旁動態監測的血常規和血清生物化學指標,結果顯示,中性粒細胞/淋巴細胞比是最具價值的預測指標(AUC=0.99,95%CI0.984~0.997,靈敏度94.3%,特異度98.6%)。與PLSDA模型(AUC=0.91,95%CI0.853~0.971,靈敏度87.8%,特異度84.4%,準確度84.8%)相比,MPL-ANN模型在SAP患者的診斷和預測方面具有更好的表現(AUC=0.98, 95%CI0.960~1.000,靈敏度92.7%,特異度93.3%,準確度93.0%)。Ding等[16]首次使用美國大型重癥監護數據庫(MIMIC-Ⅲ)對AP患者住院死亡率進行了ANN預測,發現ANN(AUC=0.77)性能優于LR模型(AUC=0.61)、Ranson評分(AUC=0.65)和SOFA評分(AUC=0.40)。Hong等[17]開發了第一個可解釋的用于預測SAP的RF模型,模型無關的局部解釋(local interpretable modelagnostic explanations,LIME)被用于RF模型的可視化解釋。該模型在訓練和測試隊列中的AUC值分別為0.89、0.96,其預測效能和診斷準確度都高于LR模型和BISAP評分。之后的研究者們發現極致梯度提升(extreme gradient boosting,XGBoost)算法具有精確度高、靈活性強、數據過度擬合風險小、可通過自動學習處理缺失值等優點,在預測AP嚴重程度的研究[18-21]中均實現了較好的預測性能。

2.人工智能在AP并發癥預測中的作用:決定AP臨床結局的主要因素是器官功能衰竭和器官功能衰竭持續時間,并發器官功能衰竭的AP患者死亡率>20%[22]。因此在早期階段識別器官功能衰竭的高風險患者至關重要。兩項研究使用AI預測AP中的持續性器官功能衰竭(persistent organ failure,POF)。Hong等[23]開發了以發病72 h內的年齡、血細胞比容、血糖、尿素氮和血鈣為變量的第一個ANN模型用于預測AP中的POF,其靈敏度為81.3%,特異度為98.9%,準確度為96.2%,且預測效能顯著高于LR模型或APACHEⅡ評分(P值均<0.001)。Langmead等[24]開發了包含5個血清細胞因子的RF模型,結果顯示其AUC值為0.91,準確度為89%,陽性預測值為0.89,陰性預測值為0.90,優于單個細胞因子、實驗室檢查結果和傳統臨床評分(P值均<0.05)。另有兩項研究用AI預測AP患者的多器官功能衰竭(multiple organ failure,MOF)。Qiu等[25]發現SVM、LR、ANN和APACHEⅡ評分預測MOF能力相近,在SVM、LR和ANN模型中,血細胞比容、K-time、IL-6和肌酐是MOF的共同重要預測因素。Xu等[26]通過多中心隊列驗證了自適應增強算法(adaptive boosting algorithm,AdaBoost)模型能有效預測AP病程中的MOF(AUC=0.83,95%CI0.740~0.888),IL-6和肌酐是模型中兩個具有代表性的預測指標。

來自南京的Fei及其團隊[27]在應用AI預測AP相關肺損傷與AP相關血栓方面做出了許多重要工作。2018年,通過ANN預測SAP患者發生急性肺損傷的風險,結果顯示預測靈敏度為87.5%,特異度為83.3%,準確度為84.43%,且ANN的預測性能顯著優于LR模型(P=0.012)。2019年,通過ANN預測了SAP并發ARDS的風險和嚴重程度,同樣,預測性能顯著優于LR模型(P<0.05),與柏林標準的ARDS定義相比,ANN顯示了較好的準確度,對輕度、中度和重度ARDS的診斷準確度分別為68.0%、61.5%、82.8%,總準確度為73.1%[28]。該團隊還運用AI預測了AP相關門靜脈血栓的發生,其中3項研究[29-31]采用ANN模型,1項研究[32]采用CART模型,結果發現AI模型的預測性能均優于LR模型。

腎臟是AP患者最常受影響的器官之一,急性腎損傷(acute kidney injury,AKI)被認為是AP常見和嚴重的并發癥,可降低AP患者的生存率,并增加醫療負擔。Toma?ev等[33]開發了一個深度遞歸ANN模型預測AKI,該模型成功預測了55.8%的AKI患者和90.2%的隨后需要透析的患者。Qu等[34]發現XGBoost對AP患者AKI的預測效果最好(AUC=0.92),且明顯優于LR模型(AUC=0.87)。Yang等[35]基于RF、SVM、XGBoost、DT和ANN的算法建立AP并發AKI的預測模型,各模型AUC值在0.73(95%CI0.223~1.227)至0.90(95%CI0.400~1.403)之間,其中RF模型預測效果最佳。

有研究分別預測了AP發生腹腔感染與發展為急性壞死性胰腺炎的風險。Qiu等[36]發現ANN能準確預測MSAP和SAP患者的腹腔感染,且效果優于LR模型(P<0.001)。Kiss等[37]首次使用AI早期預測急性壞死性胰腺炎,結果顯示XGBoost模型的預測能力與現有臨床評分系統相當。

3.人工智能在AP手術時機及預測復發中的作用:Lan等[38]發現基于IL-6、感染性壞死、發熱和CRP的RF模型準確地預測了接受早期或延遲手術的患者。在此基礎上,Luo等[39]進一步建立了基于循環神經網絡(recurrent neural network,RNN)的時間感知相干長短期記憶(time-aware phased-decay long short-term memory,LSTM)模型,該模型直觀地顯示了AP患者從發病到出院的實驗室指標的變化和具體手術過程。

Chen等[40]發現基于增強CT的SVM模型在預測AP復發方面表現良好。Mashayekhi等[41]發現基于增強CT的SVM模型可以區分復發性急性胰腺炎(recurrent acute pancreatitis,RAP)、功能性腹痛和CP。該模型在RAP組、功能性腹痛組和CP組的AUC值分別為0.88、0.79和0.90,總體預測準確度為82.1%。

三、人工智能與CP

目前AI在CP領域的研究尚不深入,大多數研究為CP與胰腺癌的鑒別診斷。Yeaton等[42]采用DT模型分析CP與胰腺癌患者的ERCP刷檢細胞學標本,該模型在訓練集中的靈敏度為91%,特異度為87%,在測試集的靈敏度和特異度均為80%。Norton等[43]使用ANN及計算機輔助分析EUS圖像特征,將結果與實際EUS診斷以及回顧手術錄像的內鏡醫師的診斷進行比較,3種方式鑒別CP與胰腺癌的準確度分別為80%、85%和83%,首次證明了計算機輔助圖像分析在EUS診斷中的可行性。之后的研究[44-47]均參考了此種研究模式,采用不同的圖像處理技術和AI方法對EUS圖像特征進行提取和分析,結果都實現了較高的診斷效能。由此可見,AI技術在CP領域的應用潛力巨大。

四、人工智能與AIP

AIP是一種獨特的CP亞型, 與胰腺導管腺癌有許多相似的臨床表現。目前AI在AIP領域的研究均與診斷相關。Zhang等[48]采用SVM結合Fisher準則和序列前向浮動選擇算法(sequence forward floating selection algorithm,SFFS)從PETCT圖像中提取紋理特征并選擇最優多模態特征子集。結果顯示,該模型運用病變紋理分析能準確鑒別AIP與胰腺導管腺癌。Liu等[49]采用支持向量機遞歸特征消除法(support vector machine recursive feature elimination,SVM-RFE)從PETCT圖像中篩選出最優放射組學特征集,并采用線性SVM構建最終分類器。該模型在鑒別AIP和胰腺導管腺癌病變方面具有良好的性能。Marya等[50]建立的EUS-CNN模型能準確區分AIP、胰腺導管腺癌、CP和正常胰腺,從而提供更早、更準確的診斷能力。

五、思考與展望

隨著進入21世紀這一大數據時代,AI在醫學及醫療領域煥發出新的活力,使用AI算法構建的輔助診斷、治療決策、預后評估模型在諸多疾病中的應用對傳統指南構成挑戰。但仍有許多問題亟待解決:(1)高質量的數據是強大模型的基石,大多數研究從電子病歷和公共數據庫中獲得數據,其記錄方式和時間無法確定,各研究使用的評價指標以及測量和測試的標準也未達成一致。隨著臨床實踐的發展,公共數據庫中的過時記錄可能不包含當前和未來研究所需的所有特征。因此,應重視數據管理,增加對數據來源、標本采集和結果評價的詳細描述,以提高數據的可解釋性和質量。其次,多數研究不僅樣本量較小,更缺乏獨立隊列外部驗證,不同醫療機構與地區研究數據的規模和結果事件的發生率都不同,小樣本和不平衡的數據通常會導致模型過度擬合。此外,臨床記錄往往含有大量異常值與缺失值,這些混雜因素同樣會導致過度擬合。遺憾的是目前幾乎沒有研究詳細描述數據預處理以及異常值、缺失值和不平衡數據的處理過程,所以目前為止尚未得到廣泛應用于臨床實踐的胰腺炎AI模型。(2)盡管基于AI算法的模型具有更好的性能,但其推導和演化過程均存在黑箱效應,即工作原理和特征選擇過程的可解釋性低。因此,未來研究應兼顧AI模型的預測性能和可解釋性。(3)與AI結合的影像組學技術正越來越多地應用于胰腺炎研究,但影像組學技術仍處于發展的早期階段,需要建立統一的成像標準并開展多學科、多中心合作來減少因設備參數及操作不同造成的圖像異質性。此外,目前的圖像分割和特征提取等步驟仍需依靠影像學醫師的人工判斷,使用AI算法直接對圖像進行自動處理的技術仍有待開發。

總之,AI在胰腺炎輔助診斷、治療決策、預后評估等方面已經展現出了巨大的潛力,隨著AI、大數據、影像組學等新興技術研究的不斷深入,相信以上問題將被逐一解決。臨床醫師也應認識到AI在挑戰傳統醫療實踐的同時也為診療提供了新的機遇,只有懷著兼容并包的態度,才能使AI在人類監督下煥發出新的活力。

利益沖突所有作者聲明無利益沖突

猜你喜歡
準確度胰腺炎人工智能
孕期大補當心胰腺炎
2019:人工智能
人工智能與就業
幕墻用掛件安裝準確度控制技術
數讀人工智能
下一幕,人工智能!
動態汽車衡準確度等級的現實意義
急性胰腺炎致精神失常1例
高爐重量布料準確度的提高
對電子天平的誤差及保證其稱量準確度的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合