?

基于標準數據集的川崎病相關靜脈注射免疫球蛋白無應答預測模型研究

2023-09-17 08:22
上海醫學 2023年7期
關鍵詞:川崎決策樹敏感性

蔣 蓓 李 光 黃 敏

川崎?。↘awasaki disease,KD)是急性發熱性出疹性疾病,以全身性中、小動脈炎為主要病理改變,好發于5歲以下兒童。近年來,KD發病率呈逐年上升趨勢。KD的早期表現缺乏特征,不易與兒科其他感染性疾病相鑒別[1-4]。KD的診斷準確性與診治醫師的臨床經驗密切相關,故臨床中多數KD患兒可因誤診延誤治療時機[5]。目前,大劑量靜脈注射免疫球蛋白(intranetvenous immunoglobulin,IVIG)聯合口服阿司匹林是KD的標準治療方案,但仍有部分患兒存在首劑IVIG治療無應答,這類患兒冠狀動脈損傷(coronary artery lesion,CAL)的發生率遠高于IVIG治療應答患兒[6-7]。因此,構建和完善KD相關IVIG治療無應答的預測模型具有重要臨床意義。

國內外已有針對KD診斷模型和用藥預測模型的相關研究。Kobayashi等[8]應用初始治療時的發病天數、年齡、中性粒細胞比例、血小板計數、AST水平、血清鈉水平和CRP值構建IVIG無應答預測模型,其靈敏度和特異度分別為0.86和0.67。國內學者應用Egami方法預測IVIG無應答的靈敏度和特異度分別為0.214和0.866[9-10]。本課題組前期已針對KD相關的IVIG治療無應答患兒建立了預測模型[5],并基于標準數據集和隱私計算環境的全新醫學人工智能算法的比較模式對預測模型進行驗證結果顯示,IVIG治療無應答預測模型的靈敏度和特異度均為0.73。但IVIG無應答預測模型的預測效能尚存爭議。

本研究基于以上臨床現狀和數據基礎,對2020年1月—2023年3月在上海市兒童醫院(上海交通大學醫學院附屬兒童醫院)住院的906例患兒的臨床資料進行回顧性分析,使用院內搭建的隱私計算環境對KD標準數據集進行處理、分析,以進一步驗證本課題組構建的KD相關IVIG無應答預測模型的預測效能。同時,本研究基于IVIG無應答預測模型,采用納入的患兒資料對“川崎病免疫球蛋白治療敏感性預測軟件”進行臨床應用前的驗證。

1 對象與方法

1.1 研究對象 回顧性分析2020年1月—2023年3月在上海市兒童醫院住院且發熱≥3 d的906例患兒資料,對包括血常規、凝血功能、生物化學、免疫、流式細胞術檢測在內的共246項檢查指標進行梳理,剔除資料不齊全的患兒數據。KD診斷標準參考美國心臟協會發布的2017版《川崎病診斷、治療及長期管理指南:美國心臟協會對醫療專業人員的科學聲明》[6]。納入標準:①發熱≥3 d;②年齡<18歲;③未接受IVIG或糖皮質激素治療。排除標準:①伴有自身免疫性疾??;②伴有先天性心血管疾??;③近1個月內接受過糖皮質激素治療。最終本研究入組687例患兒及其對應的98項檢查指標作為研究對象。其中,經IVIG治療且治療時間≤48 h,仍發熱但排除感染等因素,或7 d內再次發熱或IVIG治療次數≥2次的患兒被診斷為KD相關IVIG無應答。本研究已通過醫院倫理委員會審核、批準(審批號:2023R067-E01)。

1.2 預測模型及預測流程構建

1.2.1 KD相關IVIG無應答預測流程的特征向量空間模型構建及其釋義 遵循標準數據的挖掘流程,按照向量空間模型將患兒的基本信息和檢查指標等數據(即數據集)表示成623維的特征向量矩陣。第1維表示該患兒是否為KD相關IVIG無應答,1表示為正例(即IVIG應答患兒),0表示為負例(即IVIG無應答患兒)。其余維度表示該患兒的各項醫學檢查指標、基本信息。若患兒某檢查指標缺失,則logistic回歸模型和決策樹模型分析的特征值的默認值為-1,決策樹模型的特征值可保留缺失值;若檢查指標非缺失,決策樹模型的特征值保留原始值;logistic回歸模型需要對原始特征值做歸一化處理,應選用常見的均值行歸一化處理,決策樹模型還將對個例進行分析。詳細的特征向量空間模型見圖1。

1.2.2 KD相關IVIG無應答預測模型建立前的預測流程構建 對比工業界常用的logistic回歸模型和決策樹模型,構建KD相關IVIG無應答的預測模型的預測流程。為消除特征中的噪聲數據,通過調整模型的正則化參數控制模型的泛化能力,尤其是logistic回歸模型。本研究應用logistic正則化可稀疏模型參數的特性,不僅可以提高模型預測效果,還能節約參數的空間。通過將算法應用于KD相關IVIG無應答預測,提取并量化IVIG無應答和IVIG應答的特征,采用合適的算法訓練與生成分類模型,應用模型以鑒別未知患兒。通過檢查指標,構建特征向量空間模型,將數據集轉化成特征矩陣,應用決策樹分類算法構建相關模型,對未知患兒進行鑒別。見圖2。

圖2 KD相關IVIG無應答預測模型建立前的預測流程構建

1.3 預測模型訓練及分析 將確診KD的患兒數據用于訓練模型,其中IVIG無應答患兒數據作為負例樣本,IVIG應答患兒數據作為正例樣本。隨機選擇80%正例和負例樣本用于訓練,剩余20%樣本用于測試。應用基于logistic回歸模型分類方法和機器學習方法構建預測模型,為保證模型穩定性采用十折交叉驗證的方式訓練,并采用網格搜索法進行參數優化。

1.4 “川崎病免疫球蛋白治療敏感性預測軟件”印證 如圖3所示,在“川崎病免疫球蛋白治療敏感性預測軟件”中,輸入患兒的檢驗結果數值,點擊“開始預測”按鈕,以嵌套本課題組的KD相關IVIG無應答預測模型,進行患兒IVIG無應答概率預測,并與患兒病歷資料中的診斷、病史和相關檢查結果等信息進行比對,驗證軟件預測效率。

圖3 “川崎病免疫球蛋白治療敏感性預測軟件”驗證操作界面

1.5 統計學處理 應用R語言軟件[11]。原始數據使用R語言軟件的Rattle交互工具進行分析建模,包含基本數據的清理、統計、匯總、分布、相關性分析、假設檢驗、決策樹模型[12],logistic回歸模型[13]、ROC繪圖分析評估[14]。呈正態分布的計量資料以±s表示,呈非正態分布的計量資料以中位數(M)和(或)第25、75百分位數(P25,P75)表示,兩組間比較采用方差分析。采用Pearson相關性分析探究各檢查指標間的相關性,相關系數以r值表示。以P<0.05為差異有統計學意義。

2 結 果

2.1 KD患兒的一般資料及標準數據集建立 本研究入組的687例患兒,均為漢族,其中男413例、女274例,月齡中位數為2.4個月。KD相關IVIG無應答患兒102例(102/687,14.85%),其中男56例、女46例。對687例患兒的數據進行分組,按照預測模型訓練要求,549例(79.9%)患兒被隨機分入訓練集,其中男337例、女212例;KD相關IVIG無應答患兒79例,納入IVIG無應答組,KD相關IVIG應答患兒470例,納入IVIG應答組。138例(20.1%)患兒被隨機分入測試集,其中KD相關IVIG無應答患兒23例,應答患兒115例。

根據本課題組前期構建的KD相關IVIG無應答預測模型[5][即總分<6分為IVIG治療無應答,包括:CRP>10 mg/L為2分,中性粒細胞與淋巴細胞比值(NLR)>2.469為2分,AST>100 U/L為2分,血清白蛋白(ALB)<35 g/L為2分,纖維蛋白降解產物(FDP)>5μg/m L為1分],本研究進一步對687例患兒資料及其98項檢查指標進行決策樹分析,結果顯示鐵蛋白1(ferritin1)、APTT、D二聚體水平與預測KD患兒IVIG的治療效果相關,其中ferritin1>248 ng/m L時,共發現76例樣本,IVIG應答48例、IVIG無應答28例。ferritin1≤248 ng/mL、APTT>35.7 s、D二聚體>4.14 mg/L時,共發現10例樣本,均為IVIG應答患兒。但由于覆蓋這3個指標的樣本量較少,故與本課題組前期研究方法相同,本研究繼續應用logistic回歸模型分析IVIG無應答預測模型的預測效能。

2.2 KD相關IVIG無應答預測模型分析 應用數據集對IVIG無應答預測模型進行驗證,結果顯示IVIG無應答組的AST、FDP、CRP和NLR值均顯著高于IVIG應答組,ALB值顯著低于IVIG應答組(P<0.001或0.01)。見表1。Pearson相關性分析結果顯示,上述各檢驗指標間均無顯著相關性(P值均<0.05)。見圖4。

表1 KD相關IVIG無應答預測模型分析

圖4 KD相關IVIG無應答預測模型各檢驗指標間的Pearson相關性分析

2.3 KD相關IVIG無應答預測模型的預測效能分析 logistic回歸分析結果顯示,KD相關IVIG無應答預測模型ROC的AUC為0.630 0(95%CI為0.570 9~0.712 7),其靈敏度和特異度分別為0.72和0.88。

2.4 “川崎病免疫球蛋白治療敏感性預測軟件”驗證結果 如圖5所示,應用“川崎病免疫球蛋白治療敏感性預測軟件”預測A0001(病歷資料編號)患者的IVIG無應答的預測概率為89.70%,與該患兒病歷資料中的癥狀、體征、治療效果的描述相對一致。將本研究納入的687例患兒資料輸入“川崎病免疫球蛋白治療敏感性預測軟件”,結果顯示528例患兒預測結果與患兒病歷資料中的癥狀、體征、治療效果的描述相對一致,預測準確率為76.86%。提示該軟件的預測準確率尚可,但有待進一步完善。

圖5 “川崎病免疫球蛋白治療敏感性預測軟件”預測結果界面

3 討 論

KD是一種以全身血管炎為主要病理改變的急性、發熱性疾病,好發于5歲以下兒童。盡管KD具有自限性,但其導致CAL的發生率較高,部分患兒可并發心、腦、肝、肺、腎等多臟器損傷,而針對KD患兒的IVIG無應答的預測存在一定困難,需要結合部分實驗室指標和臨床表現進行綜合診斷[15]。目前,非典型KD的發生率有所提高,該類患兒易錯過最佳治療時機。

本課題組于2021年起著手建立KD診斷治療數據集質量控制標準,并建設了KD標準數據集。KD的臨床研究需要高質量專病數據的支撐,因地區、醫療機構不同,數據收集及存取存在一定差異,且各家醫療單位的信息系統不同,得到的數據缺乏同質化的標準術語體系,無法實現數據間的互聯、互通,導致無法匯總全國各地的KD病例數據進行臨床研究[5]。因此,針對KD臨床治療、臨床診斷、臨床科研需求,亟須匯聚、融合KD診療的數據,通過接入KD患者診斷、治療,并根據該疾病發生、發展和診療規律,進行疾病數據模型構建,以及針對性的數據清洗、標準化、歸一化、后結構化處理,形成統一規范的KD標準數據集。

基于本課題組前期對KD標準數據集數據的整理,本研究動態觀察KD患兒相關檢查指標,發現ferritin1、APTT、D二聚體與預測KD患兒IVIG的治療效果相關,其中ferritin1>248 ng/m L時,共發現76例樣本,IVIG治療應答48例,IVIG治療無應答28例。ferritin1≤248 ng/mL、APTT>35.7 s、D二聚體>4.14 mg/L時,共發現10例樣本,均為IVIG治療應答患兒。但由于覆蓋這3個指標的樣本量較少,故本研究中繼續應用logistic回歸模型分析IVIG治療無應答模型的預測效能,結果顯示該模型的預測靈敏度和特異度分別為0.72和0.88,提示預測模型還有待進一步完善。同時,將本研究納入的687例患兒資料用以驗證“川崎病免疫球蛋白治療敏感性預測軟件”,結果顯示76.86%的患兒預測結果與患兒病歷資料中的相關信息基本一致,提示軟件可用但其預測準確率有待進一步完善。故建立有效的KD相關IVIG治療無應答預測模型可幫助臨床診斷、治療KD患兒,降低其CAL的發生率。本研究的創新點在于將前期建立和完善的預測模型進行實踐化,研發出具有臨床應用潛能的“川崎病免疫球蛋白治療敏感性預測軟件”,并證明嵌套IVIG無應答預測模型的“川崎病免疫球蛋白治療敏感性預測軟件”可在一定程度上協助臨床醫師早期發現IVIG無應答的KD患兒,這為KD的診治提供了新的思路。

綜上所述,本研究基于標準數據集并結合院內搭建的隱私計算環境對KD相關IVIG無應答預測模型進行進一步研究,并將該模型嵌套于本團隊自主研發的“川崎病免疫球蛋白治療敏感性預測軟件”中,為KD的診療提供了有效輔助。盡管,本研究中的“川崎病免疫球蛋白治療敏感性預測軟件”預測結果與患兒病歷資料中基本信息的一致性較高,但由于KD患兒存在個體差異且軟件的預測效能有待完善,故僅依靠軟件診斷可能導致不可預料的誤診或漏診[16]。因此,目前包括“川崎病免疫球蛋白治療敏感性預測軟件”在內的診斷軟件只能作為臨床醫師對疾病進行鑒別診斷的輔助工具。未來本研究團隊將進一步完善數據庫和標準數據集的建設,全面優化KD相關IVIG無應答預測模型,為更多軟件和平臺的開發、應用創造堅實的數據基礎。

猜你喜歡
川崎決策樹敏感性
川崎病的研究概況及診斷治療進展
春季當心小兒川崎病
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
釔對Mg-Zn-Y-Zr合金熱裂敏感性影響
基于決策樹的出租車乘客出行目的識別
CRP和NT-proBNP對小兒川崎病的臨床意義
AH70DB鋼焊接熱影響區組織及其冷裂敏感性
如何培養和提高新聞敏感性
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合