?

基于健康體檢數據的結直腸息肉風險預測模型的構建與評估

2024-02-20 04:56李姣艷陳靜鋒王佑翔丁素英
鄭州大學學報(醫學版) 2024年1期
關鍵詞:息肉直腸變量

李姣艷,陳靜鋒,閆 肅,王佑翔,丁素英

1)鄭州大學公共衛生學院流行病學教研室 鄭州 450001 2)鄭州大學第一附屬醫院健康管理中心 鄭州 450052 3)河南省疾病預防控制中心傳染病預防控制所 鄭州 450016

有研究[1]報道,2020年全球結直腸癌(colorectal cancer,CRC)新發病例超過190萬,占全球腫瘤病例的10%;死亡病例93.5萬,占全球腫瘤相關死亡總數的9.4%。有數據[2]顯示我國CRC發病率已居所有惡性腫瘤的第2位,死亡率居第4位。河南省城市男性CRC中標發病率于2010~2018年呈上升趨勢,總體發病率隨年齡增加而升高[3],因此有必要積極推動CRC的預防控制工作。CRC主要有腺瘤-癌癥途徑、鋸齒狀病變途徑、炎癥途徑3個致癌途徑[4],其中60%~70%散發的CRC通過腺瘤-癌癥途徑,15%~30%由鋸齒狀病變致癌途徑[5],有不到2%的CRC通過炎癥相關致癌途徑發展而來。

結直腸息肉是CRC的必經階段,但是發展成CRC需要5~10 a的時間,這為早期診斷和臨床干預提供了很大的空間[4],且早期篩查、早診、早治可以有效降低CRC的死亡率,改善預后[5]。結腸鏡檢查是早期診斷CRC或結直腸息肉最有效的手段之一[6],但結腸鏡是一種侵入性檢查,需要嚴格的腸道準備,而且有穿孔、出血等風險,導致人群的依從性和參與率較低[7];因此,識別結直腸息肉的影響因素,建立結直腸息肉的預測模型尤為必要。近年來一些研究[8-9]表明,結直腸息肉的發生與性別、年齡、種族、飲食、生活行為習慣、腸道微生物、代謝綜合征、家族史等因素相關,但仍然存在爭議,且對常規體檢項目的研究相對較少。本研究基于健康體檢數據構建結直腸息肉預測模型,以期為篩查CRC高危人群提供支持。

1 對象與方法

1.1 研究對象數據來源于2016年11月至2021年10月在鄭州大學第一附屬醫院健康管理中心進行健康體檢的人群,選取其中同時進行結腸鏡檢查和血常規、生化指標檢測者。參照結直腸息肉診斷標準《胃腸道腺瘤和良性上皮性息肉的病理診斷共識》[10],分為息肉組和無息肉組。排除標準:①研究對象基本資料不全或腸道準備不充分者。②既往有炎癥性腸病、結腸黑變病、CRC等消化道疾病者。③嚴重心腦血管疾病、肝腎疾病、惡性腫瘤者等。本研究經鄭州大學第一附屬醫院醫學倫理委員會批準(2018-KY-56)。

1.2 數據收集收集研究對象的體檢數據,包括一般人口學特征和實驗室生化檢查指標共22個:性別、年齡、腰圍(waist circumference,WC)、收縮壓(systolic pressure,SBP)、舒張壓(diastolic pressure,DBP)、BMI、中性粒細胞絕對值(neutrophil,NEU)、淋巴細胞絕對值(lymphocyte,LYM)、總蛋白(total protein,TP)、白蛋白(albumin,ALB)、球蛋白(globulin,GLOB)、尿素(blood urea,BU)、腎小球濾過率(glomerular filtration rate,GFR)、總膽固醇(total cholestero,TC)、甘油三酯(triglyceride,TG)、高密度脂蛋白(high density lipoprotein cholesterol,HDL-C)、低密度脂蛋白(low density lipoprotein cholesterol,LDL-C)、空腹葡萄糖(fasting blood-glucose,FBG)、白球比(albumin/globulin ratio,AGR)、中性粒細胞淋巴細胞絕對值比值(neutrophil to lymphocyte ratio,NLR)、TG/HDL、甘油三酯葡萄糖指數(TyG),TyG=ln[TG(mg/dL)×FBG(mg/dL)/2]。

1.3 統計學處理采用SPSS 25.0與R 4.2.1進行數據分析。連續變量根據是否符合正態分布分別應用t檢驗或秩和檢驗,分類變量應用χ2檢驗進行組間比較。通過最小絕對收縮選擇算子(LASSO)回歸進行特征變量的篩選和復雜度調整,應用十折交叉驗證獲得最優的懲罰系數(λ),得到該模型最優的變量和變量系數。變量篩選后,將數據集按7∶3的隨機分組方式分為訓練集與測試集,在訓練集中分別構建梯度提升(categorical boosting,Catboost)、支持向量機(support vector machine,SVM)、Logistic回歸 (LR)預測模型,應用χ2檢驗比較3種模型的準確率,并進一步通過凈重新分類指數(net reclassification index,NRI)、綜合判別改善指數(integrated discrimination improvement,IDI)、ROC曲線下面積(area under curve,AUC)評估模型的預測性能,并對納入變量的重要性進行評估。檢驗水準α=0.05。

2 結果

2.1 結直腸息肉組和無息肉組的人口學特征和實驗室生化檢查項目比較本研究共納入4 997人,其中息肉組2 462人,無息肉組2 535人。息肉組的年齡、SBP、DBP、BMI、WC、NEU、LYM、BU、AGR、TC、TG、TG/HDL、FBG、TyG高于無息肉組,GFR、TP、ALB、GLOB、HDL-C低于無息肉組,差異均有統計學意義(P<0.05)。詳見表1。

表1 結直腸息肉組和無息肉組的人口學特征和實驗室生化檢查項目比較

2.2 特征變量的篩選結果對除性別外的數據進行處理后,使用LASSO 回歸篩選變量,建模和交叉驗證結果見圖1。選擇最小誤差一個方差以內的最大λ(0.031 2)為最佳λ,得到由性別、年齡、WC、BU、TP、GFR、TyG等7項特征變量組成的最簡單模型(特征變量之間不存在共線性),系數分別為0.526、0.036、0.008、0.021、-0.004、-0.009和0.121。

A:預測變量的LASSO系數路徑圖;B:LASSO正則化路徑圖(交叉驗證曲線);圖B中的兩條虛線從左至右分別表示兩個特殊的λ值,λmin=0.000 9和λ1se=0.031 2。前者為所有的λ值中誤差最低的值;后者為最小誤差一個方差范圍內得到最簡單模型的值(即λ1se給出的是一個具備優良性能且自變量個數最少的模型)。

2.3 風險預測模型的構建及評價結果按7∶3隨機分成兩組(訓練集3 499人,測試集1 498人,兩集間結直腸息肉構成比差異無統計學意義,χ2<0.001,P=0.997),分別構建預測結直腸息肉發生的Catboost、SVM、LR模型。對3種預測模型的準確率進行χ2檢驗,結果顯示差異有統計學意義(χ2=22.613,P<0.001),成對比較后Catboost、SVM模型的準確率顯著高于LR模型(P<0.05)。進一步采用NRI、IDI、ROC曲線評估3種模型的預測性能,結果分別見圖2、表2。

上:訓練集;下:測試集。

表2 3種模型的NRI與IDI比較

由圖2可知,在訓練集和測試集中SVM和Catboost模型的AUC均優于LR(訓練集中SVMvsLR:Z=15.609,P<0.001;CatboostvsLR:Z=15.136,P<0.001。測試集中SVMvsLR:Z=8.434,P<0.001;CatboostvsLR:Z=10.503,P<0.001),而SVM和Catboost模型訓練集差異有統計學意義(Z=3.703,P<0.001),測試集無統計學意義(Z=0.994,P=0.320)。表2結果表明SVM模型與LR、Catboost模型相比,對結直腸息肉發生的預測能力均更優(P<0.05)。

2.4 影響因素重要性排序結果見圖3。SVM模型中納入因素對結直腸息肉發生的重要性評估,從大到小依次為年齡、WC、GFR、TyG、性別、BU、TP;年齡的重要性最大,其次是WC。

圖3 SVM模型中預測變量的重要性排序

3 討論

CRC是威脅生命健康的主要癌癥之一,國家癌癥中心最新數據顯示,2016年我國CRC新增病例約40.8萬,占全部惡性腫瘤發病的10.04%,高于2015年的38.76萬例(9.87%);死亡病例19.56萬例,占全部惡性腫瘤死亡的8.10%,高于2015年的18.71萬例(8.01%)[2,11]。CRC篩查和早診早治是降低死亡率、減輕社會負擔的有效措施[6]。作為CRC的癌前病變,發現結直腸息肉發病的影響因素對預防CRC的發生有重要意義。

周海萍等[8]對8 660例正常受檢者進行橫斷面調查,發現男性、高齡、肥胖是結直腸腺瘤發生的危險因素;40~50歲人群有較高的結直腸腺瘤檢出率。魏鑼沛等[12]采用身高、體重、BMI、WC及腰圍身高比等多種身體測量指標探討肥胖與CRC的發病關系,發現WC和腰圍身高比與CRC表現出了較強的關聯。在本研究中WC被納入結直腸息肉預測模型的構建而不是BMI,且重要性居第2,得出了類似的結果。楊翡翠[13]研究結果表明2型糖尿病患者發生結直腸息肉及息肉惡變的風險升高。血脂水平異常也可影響結直腸息肉的發生[14]??赡艿臋C制為高糖及血脂異常等代謝異常使得胰島素抵抗和胰島素樣生長因子(insulin like growth factor,IGF)水平增加,促進結直腸上皮細胞的增殖,同時抑制凋亡,促進腺瘤的發生;高TG水平可引發炎癥反應,上調轉化生長因子和IGF的表達,誘發氧化應激反應,導致DNA損傷;另外還可改變膽汁酸的分泌、循環激素、腫瘤細胞能量供應等[15-16]。目前對GFR、BU、TP與腸道腫瘤的研究較少,一些研究[17]表明胃腸道腫瘤與腎損害有一定的相關性,可能的機制為慢性腎臟疾病會增加促炎細胞因子的產生,從而通過炎癥介質誘導基因突變、適應性反應、抗凋亡和環境變化促進腫瘤的發生[18]。

選擇合理的指標是構建預測模型的關鍵。目前有一些關于結直腸息肉的風險預測模型研究[19-20],但預測性能各不一致。馮心怡[19]通過健康體檢數據建立預測模型,將年齡、性別、WC、嗜酸性粒細胞計數和LHR(LDL-C/HDL-C)納入模型,訓練集AUC(95%CI)為0.678(0.649~0.708),驗證集AUC(95%CI)為0.679(0.639~0.729)。本研究基于常規體檢數據構建Catboost、SVM、LR預測模型,在測試集中SVM與Catboost模型的AUC大于LR模型,NRI和IDI分析結果顯示SVM模型相較于Catboost和LR模型預測效能更優(NRI和IDI均>0)。

本研究的局限性:①這是一項單中心研究,可能會導致選擇偏倚,使得模型的擴展性存在局限。②缺乏一些流行病學及生活方式的資料,如家族史、吸煙史、飲酒史、飲食情況等,可能會影響研究的結果。③該研究為橫斷面研究,僅能提供病因線索,無法進行更深層次的研究,主要是由于腸鏡檢查的大眾接受度仍然較低,很難獲得研究對象的連續資料。

綜上,基于常規的體檢項目中性別、年齡、WC、BU、TP、GFR、TyG等7項指標構建的SVM預測結直腸息肉風險模型具備良好的預測價值,可能會幫助特定人群更早地發現CRC,以改善預后。

猜你喜歡
息肉直腸變量
18F-FDG PET/CT在結直腸偶發局灶性18F-FDG攝取增高灶診斷中的價值
抓住不變量解題
也談分離變量
息肉雖小,防病要早
你真的了解子宮內膜息肉嗎
SL(3,3n)和SU(3,3n)的第一Cartan不變量
ER、PR、Ki-67在絕經后子宮內膜息肉中的表達
彩超引導下經直腸行盆腔占位穿刺活檢1例
息肉樣黑素瘤一例
分離變量法:常見的通性通法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合