?

分類樹模型在重癥手足口病風險預測中的應用*

2015-12-04 07:28隋美麗申遠方黃學勇楊海燕馬曉梅馮慧芬段廣才
鄭州大學學報(醫學版) 2015年1期
關鍵詞:結點口病個案

隋美麗,申遠方,黃學勇,楊海燕,馬曉梅,李 懿,馮慧芬,段廣才#

1)鄭州大學公共衛生學院流行病學教研室 鄭州450001 2)鄭州市兒童醫院感染科 鄭州450053 3)河南省疾病預防控制中心傳染病所 鄭州450016 4)鄭州大學第五附屬醫院感染科 鄭州450052

手足口病(hand-foot-mouth disease,HFMD)是由小RNA 腸道病毒引起的兒童常見傳染病,該病發病急、傳染性強。近年來,HFMD 在東南亞及我國大陸較為流行,報告病例、重癥病例和死亡病例均增多,其中HFMD 的重癥病例病死率較高,危害嚴重[1]。因此,對HFMD 重癥化預警指標的掌握有助于該病的防治。在對疾病危險因素進行分析及對癌癥進行輔助診斷時,分類樹模型已有應用[2-4],該模型可將因素間的交互作用和層次關系進行有效處理和展現,并可提示具有哪些特征的患者有較高的發病風險或更易重癥化,實現早期預警并對具有該特征的人群實施及時的干預。該研究分析2013年4月至6月在鄭州市某醫院感染科住院的HFMD 患兒的一般臨床資料和常規的實驗室檢查資料,使用分類樹模型探討重癥HFMD 的危險因素,構建風險模型,并對模型的應用價值進行評價。

1 對象與方法

1.1 對象 所有患兒均來源于2013年4月至6月鄭州市某醫院感染科,納入該研究的重癥病例和輕癥病例均符合《手足口病診療指南(2010年版)》[5]。納入標準:①臨床確診的HFMD 患兒。②月齡≤36個月。③發病時間≤72 h。排除標準:①患有先天性疾病者。②患有急性或慢性肝炎者。③排除其他疾病引起的心臟損害者。④同時合并其他腸道疾病者。共221例,其中重癥組147例(男89例,女58例),月齡(18.18±7.20)個月,發病時間(1.40 ±0.50)d;輕癥組74例(男46例,女28例),月齡(16.41 ±8.02)個月,發病時間(1.32 ±0.47)d。2組患兒的性別構成、年齡及發病時間比較,差異均無統計學意義(P均>0.05)。該研究經鄭州市兒童醫院和鄭州大學第五附屬醫院倫理委員會批準。

1.2 資料收集 以《手足口病預防控制指南(2009版)》附件3《手足口病重癥或死亡病例個案調查表》為基礎[6],經過多次預調查及專家論證后,制定統一的調查問卷。對該院221例住院患兒展開個案調查,主要收集患兒及家庭的一般人口學特征、疾病史、臨床癥狀及體征以及生化檢查的相關資料。調查表由經統一規范化培訓的專業人員現場分別對病例組和對照組的家長進行訪談,并結合患兒實際情況填寫。同一調查員填寫同一調查問卷并在3 d 內完成所有項目。從調查問卷中選取其中26個因素進行危險因素分析,分別為:發熱、熱程≥3 d、熱峰≥39℃、心率≥140 min-1、呼吸≥30 min-1、血糖升高、精神差、煩躁不安、頸強直、抽搐、易驚、意識障礙、手足抖動、肢體無力、呼吸節律不齊、肺部啰音、皮膚顏色、四肢發涼、嘔吐、胸部X 線片改變、心電圖異常、白細胞、中性粒細胞比率、淋巴細胞比率、C反應蛋白、降鈣素原。

1.3 分類樹分類變量的分級與數量化的方法 在資料的統計學處理中,對HFMD 患兒的臨床診斷類型及上述26個因素進行了定義及量化編碼,見表1。

表1 主要變量定義及量化編碼

1.4 統計分析

1.4.1 運算法則 分類樹模型對目標變量進行分類和預測時是根據解釋變量來實現的,較著名的分類樹方法包括CHAID 和分類回歸樹(CART),預測和分類是該類方法的主要用途。其中,最常用的方法是CHAID,但該法對目標變量的要求很嚴格:即獨立變量(目標變量)只能為分類變量,即離散型變量,而CART 則可以直接對數值型變量進行處理?;驹?以目標變量自我分層的樹狀結構為基礎,根結點代表因變量,預測變量父結點和子結點的不斷生成是以卡方檢驗顯著性程度為依據的,即卡方值越大,越先成為預測根結點的變量,程序自動歸并以實現變量的不同類的預測,使之成為卡方顯著性,程序根據預先設定的水平數停止[7-8]。當預測變量的數量較多且變量類型均為分類變量時,最適宜的分類方法即為CHAID。此外,CART 法的原理是內部同質性,而CHAID 法是以列聯表卡方計算為基礎的運算法則,兩者的原理不同。與CART 法相比,CHAID 更易被醫務工作者理解。

1.4.2 模型的評價 索引圖、錯分概率Risk 統計量均可對模型的分類結果進行評價,同時受試者工作特征曲線(ROC 曲線)下面積亦可對模型效果進行評價。

1.4.3 模型參數 拆分及合并的檢驗水準α =0.05,最大生長深度5 層,為實現重癥HFMD 潛在影響因素的充分挖掘,父結點和子結點中最小樣本含量設為10 和5。

1.4.4 數據分析 采用SPSS 13.0 進行重 癥HFMD 發生風險的分類樹模型構建。

2 結果

2.1 重癥HFMD 分類樹發生風險模型的建立 根據上述生長和修剪規則,所建立分類樹模型共包括3 層,共9個結點。其中終末結點5個,共篩選出4個解釋變量:精神差、易驚、熱峰≥39℃、手足抖動,見圖1。分類樹模型圖結果顯示,樹型結構的第一層是按照精神進行拆分的,所以,在該研究中,重癥HFMD 發生風險最大的影響因素為精神,其中,精神差的個體重癥HFMD 發生概率為90.7%,高于精神正常的人員(3.1%),成為重癥HFMD 的高危人群。在精神差的人群中,篩選出的主要影響因素為易驚,在這組人員中,如果同時合并易驚,則重癥HFMD的發生概率為97.1%,高于未合并易驚的人群(61.1%);對于精神差同時合并易驚的人群,若同時合并熱峰≥39℃,則重癥HFMD 的發生概率為99.1%,高于未合并熱峰≥39℃的人群(89.7%);而對精神差未合并易驚的人群研究發現,若同時合并手足抖動,則重癥HFMD 的發生概率為100.0%,高于未合并手足抖動的人群(36.4%)。

圖1 重癥HFMD 發生風險分類樹模型圖

2.2 模型的結點增益分析 見表2。結點表的增益展示了模型中端點的匯總信息。其中,N 為每個端點的總個案數,每個結點的總個案數除以根結點的總個案數即為結點百分數。增益中的N 表示每個端點在目標分類中所標記的個案數,其百分比是目標分類的個案數除以該類在總分類的個案數。該研究以重癥為所要研究的分類,因此,重癥的個案數與百分數即為增益,如結點6 重癥的個案數為108,而根結點重癥的總個案數為147,所以,結點6 的百分數108/147 =73.5%。目標分類中個案的百分數即為響應百分比;目標分類的響應百分比與總樣本中該類的響應百分比的比值即為索引,由上所述可知,結點6 的響應百分比為99.1%,根結點響應的百分比為66.5%(147/221),所以結點6 的索引為99.1% /66.5% = 149.0%。由上可知,如果索引值>100%則表示各端點的重癥組的百分比大于根結點的重癥組的百分比。

表2 分類樹模型的結點增益表

2.3 分類樹模型的評價

2.3.1 索引圖 見圖2。

圖2 發生風險分類樹模型索引圖

2.3.2 樹型模型的錯分矩陣和Risk 統計量 見表3。Risk 統計量為0.045,表示該模型在對重癥HFMD 發病風險進行預測時其預測正確率達95.50%,提示該模型具有較好的擬合效果。

表3 分類樹模型錯分矩陣

2.3.3 ROC 曲線的繪制 根據此模型所得到的預測概率進行ROC 曲線的繪制,所得到的ROC 曲線下面積為0.953(95%CI:0.917~0.988),標準誤為0.018,與0.5 相比,差異有統計學意義(P<0.05),因此,分類樹模型在對重癥HFMD 發生風險進行預測時,價值較高。見圖3。

圖3 預測概率的ROC 曲線

3 討論

分類樹的最具顯著性的切分是通過結點純度的計算來實現的。CHAID 具有前向修剪和多向分叉的特征。該算法的基礎是卡方或似然卡方檢驗,對眾多自變量進行比較篩選時,最佳分類變量和最佳分類結果經由P 值來實現,因此,當變量屬性為分類變量時,該算法更為合適。對連續型的變量而言,如要進行決策樹分析,需首先對輸入變量進行相應的離散化處理。當預測變量均為分類變量且數量較多時,此時應用CHAID 分類法更為合適[3,9]。CART算法的基本思路是采用雜質縮減最大化,對CART而言,只能二部分叉,后向修剪,基尼系數是其分割標準。樹分為分類樹和回歸樹,前者是指應變量為分類屬性時,后者是指應變量為連續變量時[10-11]。

以往的研究[12-14]結果表明:36個月以內的兒童為重癥HFMD 的高發人群,且HFMD 的流行呈現出一定的季節性,鑒于我國幅員遼闊,HFMD 在我國大陸的流行時間因地而異[15],河南省HFMD 的流行高峰一般為每年的3~6月[7-8,16]。由于HFMD 的高發性及重癥患兒潛在的重癥化風險性,疾病的早期預警顯得尤為重要。重癥HFMD 的影響因素較多,因素間存在著復雜的關系,以往對于多因子疾病危險因素的分析常采用多元統計分析方法進行,如logistic 回歸、Cox 回歸等,但這些方法在處理變量之間的共線性時顯示出局限性,因而在一定程度上降低了統計分析的效能,甚至對有些結果無法進行合理的解釋。最好的解決方案是選用非參數回歸模型來處理,其中包括分類樹與回歸樹,該方法近年來在國內外逐步推廣使用[17-19]。該方法最重要的一個特點是不要求預測變量的數據分布類型,即任意分布資料均可。分類樹分析有著相當復雜的中間過程,其過程大致包括種樹和剪枝,即以一棵完整的樹的建立為起點,然后運用交叉印證法從末梢開始剪枝,剪枝后的模型明顯變差為終點。在模型建立的過程中,每一種可能的組合在模型建立之初就已被詳細地考查,結果顯示出的模型是優化后的模型,且分類樹分析以樹型圖的方式將其分析過程以及多水平變量間復雜的相互作用關系得以展現,而傳統的分析方法如logistic 回歸等則很難實現這一點。

該研究應用分類樹模型對重癥HFMD 患兒的門診指標和一般臨床資料進行綜合匯總,從而進行風險模型的構建,結果顯示:共從26個候選變量中篩選出4個重要解釋變量:精神差、易驚、熱峰≥39℃、手足抖動,說明該4個變量可以影響重癥HFMD的發病風險,同以往的logistic 回歸結果基本相同[20],并且還提供了更多有意義的信息。此外,采用CHAID 法構建的分類樹模型對于離散化的連續性變量和具有2種以上分類的指標,會將沒有統計學意義的分層類別重組為具有統計學意義的新的類別,相比于人為分層設計,該法更為科學和合理[9]。在流行病學研究中,應用分類樹所確定的指標分界基礎是顯著的統計學意義而不是借助于個人經驗或臨床觀察,因此,根據重組后的分界點可以將變量重新分割并作進一步分析[4],該研究并未將該特點顯現,可能與對原始數據進行錄入時已對定量資料進行定性處理有關。

任何一種模型都有一定的局限性,分類樹模型亦如此。當解釋變量數目和自身分類都較多時,最初有可能生成規模較龐大的樹,此時對樹型模型的適當修剪必不可少,但修剪之后的樹如何實現兼具精簡和信息完整是目前尚需解決的問題之一。此外,鑒于該研究樣本量有限,尚需擴大樣本量以驗證該模型,同時如何實現分類樹模型和傳統的統計學分析方法的有機結合,以期兩者能夠互相補充,從而實現重癥HFMD 影響因素的全面挖掘是需要進一步探討的內容。

[1]Li W,Teng GJ,Tong HF,et al.Study on risk factors for severe hand,foot and mouth disease in China[J].PLoS One,2014,9(1):e87603

[2]Mu?oz-Moreno JA,Pérez-álvarez N,Mu?oz-Murillo A,et al.classification models for neurocognitive impairment in HIV infection based on demographic and clinical variables[J].PLoS One,2014,9(9):e107625

[3]何其棟,魏小玲,張紅巧,等.基于“優選腫瘤標志群”建立的決策樹模型對肺癌輔助診斷的價值[J].鄭州大學學報:醫學版,2014,49(1):37

[4]劉建平,程錦泉,張仁利,等.應用分類樹模型構建缺血性腦卒中發病風險的預測模型[J].中國慢性病預防與控制,2012,20(3):254

[5]俞蕙.兒童手足口病重癥病例的臨床早期識別[J].中華兒科雜志,2012,50(4):284

[6]手足口病預防控制指南:2009 版[J].全科醫學臨床與教育,2010,10(2):125

[7]Goto Y,Maeda T,Nakatsu-Goto Y.Decision tree model for predicting long-term outcomes in children with out-of-hospital cardiac arrest:a nationwide,population-based observational study[J].Crit Care,2014,18(3):R133

[8]Tobiasz-Adamczyk B,Galaá A,Zawisza K.Socio-demographic differences in the prevalence of cardiovascular diseases among women and men in Poland:results from the Courage in Europe Project[J].Przegl Lek,2014,71(3):122

[9]Gietzelt M,Feldwieser F,G?vercin M,et al.A prospective field study for sensor-based identification of fall risk in older people with dementia[J].Inform Health Soc Care,2014,39(3/4):249

[10]Chao CM,Yu YW,Cheng BW,et al.Construction the model on the breast cancer survival analysis use support vector machine,logistic regression and decision tree[J].J Med Syst,2014,38(10):106

[11]Malehi AS.Diagnostic classification scheme in Iranian breast cancer patients using a decision tree[J].Asian Pac J Cancer Prev,2014,15(14):5593

[12]聶軼飛,王海峰,李孟磊,等.應用集中度和圓形分布法探討河南省2010年手足口病流行規律[J].中國衛生統計,2013,30(3):410

[13]孫建偉,王彥霞,許汴利,等.河南省2009~2010年手足口病發病的時間分布特征[J].中國衛生統計,2012,29(3):365

[14]Liu N,Xie J,Qiu XL,et al.An atypical winter outbreak of hand,foot,and mouth disease associated with human enterovirus 71,2010[J].BMC Infect Dis,2014,14:123

[15]隋美麗,馬曉梅,段廣才,等.重癥手足口病患兒實驗室指標的判別分析[J].西安交通大學學報:醫學版,2014,35(4):504

[16]Feng H,Duan G,Zhang R,et al.Time series analysis of hand-foot-mouth disease hospitalization in Zhengzhou:establishment of forecasting models using climate variables as predictors[J].PLoS One,2014,9(1):e87916

[17]Lee MY,Yang CS.Entropy-based feature extraction and decision tree induction for breast cancer diagnosis with standardized thermograph images[J].Comput Methods Programs Biomed,2010,100(3):269

[18]趙文波,李明,唐驊,等.應用分類樹模型構建糖尿病腎病蛋白尿進展的風險預測模型[J].第三軍醫大學學報,2013,35(11):1144

[19]馬瑾,孫穎,劉尚輝.決策樹模型在住院2 型糖尿病患者死因預測中的應用[J].中國衛生統計,2013,30(3):422

[20]可秋萍,婁瑩,劉傳振,等.危重癥手足口病患兒的早期預警指標[J].實用兒科臨床雜志,2011,26(10):804

猜你喜歡
結點口病個案
2010—2019年寶雞市手足口病流行特征及時空聚集分析
個案管理模式在乳腺癌患者中的應用研究進展
LEACH 算法應用于礦井無線通信的路由算法研究
基于八數碼問題的搜索算法的研究
手足口病那些事
警惕手足口病
腸道病毒71型感染所致危重癥手足口病的診治分析
別樣風景的多元化綻放——我國當代女性寫作的個案式研究
實踐 學習 在實踐——《新聞個案教程》開講五年實錄及思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合