?

基于隨機森林與多因素交互logistic回歸的新型冠狀病毒感染病例密切接觸者感染影響因素分析
——以銅陵市為例

2023-09-05 02:47張凡齊平
熱帶病與寄生蟲學 2023年4期
關鍵詞:關聯病例效應

張凡,齊平

1.銅陵市疾病預防控制中心,安徽 銅陵 244000;2.銅陵學院數學與計算機學院

新型冠狀病毒感染(coronavirus disease 2019,COVID-19)是由新型冠狀病毒引起的一種急性呼吸道傳染性疾病,人群普遍易感[1]。COVID-19 病例密切接觸者是指COVID-19 疑似病例或確診病例癥狀出現前2 天開始,或無癥狀感染者標本采集前2 天開始,與其有近距離接觸,但未采取有效防護的人員。由于新型冠狀病毒具有較強的傳染性,密切接觸者感染風險較高,因此及時發現和管理密切接觸者是有效控制疾病傳播的重要舉措[2-3]。COVID-19 全球大流行以來,密切接觸者感染影響因素分析受到學者們的廣泛關注,然而現有研究中對COVID-19 病例密切接觸者的感染因素分析主要集中于單一因素[4-7],并未考慮多因素之間的交互效應,難以發現各因素之間的內在聯系。為此,本研究以銅陵市為例,將隨機森林算法與多因素交互logistic 回歸模型相結合,挖掘各因素之間的二次交互效應,為COVID-19防控提供參考依據。

1 對象與方法

1.1 資料來源 通過中國疾病預防控制信息系統收集銅陵市2022 年3 月14 日—30 日報告的COVID-19 病例信息,通過流行病學調查獲取其密切接觸者資料,收集密切接觸者的人口學特征、體格特征,與指示病例的接觸地點、接觸方式、末次接觸時間以及隔離狀態等信息。通過數據整理、清洗,剔除有缺失值、異常值的樣本后,將數據集分別按照60%、20%和20%劃分為訓練集、測試集和驗證集。

1.2 研究變量 對COVID-19 病例及其密切接觸者的調查信息進行預處理和重新分組,主要研究變量包括:①密切接觸者與其關聯病例的密接關系。包括親屬、同事朋友、師生同學、醫患和陌生人。②接觸時間。指病例發病后其密切接觸者與該病例接觸的總天數。③接觸方式。包括共同生活、醫療護理、聚餐、日常交談、同乘交通工具和同空間但無直接接觸。④接觸地點。包括家庭、工作場所、娛樂場所、公共場所和交通工具。⑤接觸頻率。包括經常(≥3 d/周)、一般(1~2 d/周)和偶爾(<4 d/月)。

1.3 分析方法

1.3.1 分析思路 使用anaconda 3-5.3.1(含python 3.7.0)建立數據集,經數據清洗和預處理后,保留屬性17 項(年齡、性別、職業、文化、身高、體重、BMI指數、鍛煉頻率、核酸檢測結果、疫苗接種情況、是否服用新冠防治中藥,與關聯病例的關系、接觸地點、接觸頻率、接觸方式、首次接觸時間、末次接觸時間),分別進行One-Hot 編碼??紤]各影響因素之間的交互效應,本研究首先采用隨機森林算法篩選強相關影響因素,再使用多因素二次交互logistic回歸模型對密切接觸者感染影響因素進行分析。

1.3.2 隨機森林算法 隨機森林算法是由多個決策樹構成的集成學習算法,算法將數據集沿著信息熵減小的方向進行劃分,選擇信息增益最大的特征作為決策節點,直至數據子集不可再分時,將對應的分支節點設置為葉子節點,從而通過隨機森林算法篩選出強相關影響因素[8]。

假設N為樣本數,M為待選特征數,本研究構造決策樹的方法為:①在數據集中有放回隨機選取n個樣本(n<N)、m個特征(m<M)構造訓練集;②根據OOB(out of bag)評分法[9],從特征子集中選出最優特征進行分裂,遞歸構造k棵決策樹(DT1,DT2,……,DTk);③根據多棵決策樹共同組成隨機森林以投票法返回結果。隨機森林參數通過網格搜索進行調整[10],決策樹深度設置為5,決策樹數量設置為500。

1.3.3 多因素交互logistic 回歸模型 在使用隨機森林算法對初選特征進行重要性評分后,按評分排名篩選強相關特征作為輸入特征代入多因素交互logistic 回歸模型,以更好地挖掘新型冠狀病毒感染的影響因素及因素間的交互效應,分析數據集中COVID-19 病例密切接觸者各屬性與病毒感染情況的關聯強度和感染風險。以Y=1表示感染,P(Y=1)表示感染概率,考慮影響因素交互效應,構建多因素交互logistic回歸模型如下:

其中,Xij表示特征Xi和特征Xj相乘得到的交互特征,βij為交互特征Xij的權重。將隨機森林模型篩選結果編碼后,代入多因素交互logistic 回歸模型,采用逐步回歸法篩選變量并計算結果。

1.4 統計分析 使用Excel 2010 進行數據整理和匯總,計數資料的描述使用頻數或率,計量資料的描述使用M(Q1,Q3);率的比較采用χ2檢驗。使用anaconda 3-5.3.1(含python 3.7.0)對密切接觸者及關聯病例數據進行統計分析和建模;使用scikitlearn 隨機森林Random Forest Classifier 模塊與logistic 完全二次回歸模型挖掘各因素之間的二次交互效應。檢驗水準α=0.05。

2 結 果

2.1 密切接觸者基本情況 本研究共納入COVID-19 病例密切接觸者5 168 例,其中男性2 558 例(占49.50%),女性2 610 例(占50.50%),性別比為1∶1.02;密切接觸者年齡范圍為4~97歲,年齡中位數為41.0(33.5,53.0)歲。密切接觸者中共有101例轉歸為COVID-19病例,其中確診病例4例,無癥狀感染者97例,總感染率為1.95%。見表1。

2.2 隨機森林法篩選情況 通過隨機森林特征重要性評估算法[11]得出各影響因素重要性,結果表明,密切接觸者的接觸方式、接觸頻率、關聯病例關系、接觸地點、關聯病例臨床情況、年齡、性別、職業與密切接觸者是否感染關聯較大。見圖1。

圖1 隨機森林模型對密切接觸者感染影響因素的篩選結果Figure 1 The results of infection factors in close contacts screened by random forest model

2.3 不同特征密切接觸者感染情況分析 對隨機森林算法篩選出的8 個重要性評分較高的影響因素進行單因素分析,結果表明,不同性別、職業和關聯病例臨床情況的密切接觸者感染率差異無統計學意義(χ2=0.92、0.47、0.90,P均>0.05),不同年齡、關聯病例關系、接觸方式、接觸地點、接觸頻率的密切接觸者感染率差異均有統計學意義(χ2=19.34、26.34、43.55、32.41、49.72,P均<0.05),性別為“女”、年齡為“≤10 歲”、與關聯病例關系為“親屬”、接觸方式為“共同生活”、接觸地點為“家庭”、接觸頻率為“經?!钡母腥韭氏鄬^高。見表1。

2.4 多因素交互logistic回歸分析 對單因素分析中有統計學意義的因素使用傳統logistic 回歸模型進行分析,同時對篩選的8 個主效應進行兩兩交互得到56 項二次交互效應并進行多因素交互logistic回歸分析。傳統logistic 回歸結果表明,接觸方式、關聯病例關系和接觸頻率均與感染情況存在正相關。多因素交互logistic 回歸結果表明有2 項主效應和5 項交互效應與感染情況的關聯有統計學意義。見表2。

2 種模型的準確率、精確率、召回率和F1 分數分別為76.22%、70.19%、78.89%、73.33%和82.35%、79.48%、82.39%、78.79%,多因素交互logistics 回歸模型的上述指標分別提高了8.04%、13.24%、4.44%和7.45%。

3 討 論

將隨機森林算法與多因素交互logistic回歸模型相結合,通過隨機森林算法篩選出與新型冠狀病毒感染相關的主要影響因素,具有訓練速度快的優點,不僅克服了隨機森林算法不易進行參數估計的缺陷,還能夠處理高維數據,解決了傳統logistic 回歸模型在遍歷交互效應時算法復雜度較高的問題[12]。

從特征篩選結果看,性別和職業重要性評分較低,該結果和單因素分析中不同性別和職業密切接觸者的感染率差異無統計學意義的結果一致。在感染情況影響因素的回歸分析方面,傳統logistic回歸的結果較為宏觀,難以計算二次交互效應,而通過多因素交互logistic 回歸,本研究發現接觸方式為“共同生活”以及接觸頻率為“經?!迸c感染情況存在正相關,該研究結果與遼寧省[5]和廣州市[7]的研究結果一致;接觸方式為“共同生活”且接觸地點為“家庭”、年齡為“≤10 歲”且關聯病例關系為“親屬”以及關聯病例關系為“同事朋友”且接觸頻率為“經?!钡? 項交互效應與感染情況呈正相關,接觸方式為“同空間但無直接接觸”且接觸頻率為“偶爾”以及年齡為“>60 歲”且接觸頻率為“偶爾”與感染情況呈負相關,上述交互效應影響因素在國內同類研究中尚無報道,說明多因素交互logistic回歸模型可能在影響因素發現方面具有全面性和精確性更高的優勢。

從模型性能方面進行對比,相較傳統logistic回歸模型,多因素交互logistic 回歸模型在準確率、精確率、召回率和F1 分數等方面均有所提升,說明該模型通過挖掘潛在的交互效應,能夠較好地捕捉可能存在的低階或高階交互因素,使分析結果更為準確。

綜上所述,在疾病防控工作中,應用多因素交互logistic 回歸模型能夠深度挖掘疾病相關影響因素和其交互效應,從而為精準定位防控重點人群、提升疾病防控工作效率提供有力支撐。

利益沖突聲明全部作者聲明無利益沖突

作者貢獻聲明張凡負責論項目設計、資料收集和論文撰寫;齊平負責數據分析和論文修改

猜你喜歡
關聯病例效應
鈾對大型溞的急性毒性效應
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
懶馬效應
“病例”和“病歷”
“一帶一路”遞進,關聯民生更緊
奇趣搭配
應變效應及其應用
智趣
一例犬中毒急診病例的診治
妊娠期甲亢合并胎兒甲狀腺腫大一例報告
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合