?

基于互聯網數據的傳染病預測模型研究進展*

2024-03-15 08:01何琪樂張瑾瑤吳卓存楊予青胡紅濮
醫學信息學雜志 2024年2期
關鍵詞:流感傳染病神經網絡

何琪樂 張瑾瑤 吳卓存 楊予青 趙 偉 胡紅濮

(1中國醫學科學院/北京協和醫學院醫學信息研究所 北京 100020 2北京市垂楊柳醫院 北京 100022)

1 引言

對傳染病進行監測預警是控制其傳播的重要手段。傳統傳染病監測主要依靠各級醫療機構、疾控中心和監測哨點醫院等構成的監測網,雖然準確性高但監測速度通常滯后于傳播速度,且應對新發傳染病時數據來源較少?;赪eb of Science核心期刊數據庫和中國知網,以 TS=((epidemic AND (monitoring OR surveillance OR forecast OR predict OR warning) AND (internet OR “search engine” OR “social media”)) OR “epidemic intelligence”)和 (主題=(傳染病 OR 流行病) AND (監測 OR 預測 OR 預警) AND (“搜索引擎”OR“大數據”OR“互聯網”)) OR (主題=“信息流行病學”)為主題詞檢索式,對2001—2022年發表的基于互聯網數據的傳染病預測相關文獻進行檢索,查得英文文獻864篇,中文文獻162篇。分析檢索結果發現,互聯網數據可用于傳染病監測預警已成為研究共識[1],且相關論文發表數量趨勢,見圖1。在既往研究基礎上,本研究從基于互聯網數據的傳染病監測預警研究發展歷程、應用場景、常見預測模型、主要問題與挑戰、發展趨勢等方面進行探討,旨在為進一步建立基于大數據、人工智能等新技術的智慧公共衛生應急管理模式提供參考依據。

圖1 2001—2022年國內外基于互聯網數據的傳染病預測相關論文發表數量趨勢

2 基于互聯網數據的傳染病監測預警應用場景

互聯網傳染病監測數據源可分為搜索引擎結構化數據和社交媒體文本數據?;谒阉饕鏀祿难芯恐饕_展基于關鍵詞檢索指數和傳染病上報數據的時差相關性分析,構建不同滯后期的復合關鍵詞及搜索指數[2-3]。文本數據主要來源于推特、微博等社交媒體。在前期文獻檢索的基礎上,補充結合文獻計量主題詞相關結果,統計2001—2022年國內外熱點疾病相關論文年發表數量,共計272篇,分類繪制氣泡圖,圓圈直徑大小反映論文數量的多少,見圖2。分析可得,流感、肺結核、艾滋病、登革熱、埃博拉、寨卡、乙型病毒性肝炎(乙肝)等疾病為研究熱點。

圖2 2001—2022年國內外各傳染病相關論文發表數量及趨勢

流感是最早將網絡搜索數據納入監測系統的傳染病,以谷歌流感趨勢最具代表性。但由于其準確性會受到用戶搜索行為、傳染病季節性等因素影響,其預測的流感發病率高于美國疾控中心的實際報告值[4]。Luo Y等[5]融合多來源搜索數據預測2009年甲型H1N1流感的流行規模,發現較單一搜索引擎的擬合效果更優;Mauricio S等[6]以醫學專業網站UpToDate及醫學專業詞匯作為數據源和關鍵詞預測流感,發現專業網站可靠性更強。搜索數據融合地理位置及環境因素可進一步獲得較理想的監測效果。Gluskin R T等[7]提出谷歌登革熱趨勢,發現在高流行地區和登革熱傳播適宜氣候中準確性更高;Zhou X等[8]分別擬合并比較動態模型和線性回歸模型在不同地域層次上的肺結核監測能力;唐家博[9]以手足口病為監測預警對象,對互聯網和氣象數據進行挖掘。

3 基于互聯網的傳染病預測模型種類與比較

3.1 簡單回歸預測模型

多元線性回歸是常見的簡單回歸模型之一。Bodnar T等[10]將其用于流感監測,發現可以通過為每個檢索關鍵詞分配不同權重減少干擾詞匯產生的噪聲。但解釋變量之間可能有多重共線性,且向后剔除變量時會減少原數據信息。

3.2 時序預測模型

3.2.1 統計學模型 常用于互聯網數據傳染病監測的統計學模型包括自回歸移動平均(auto-regressive integrated moving average,ARIMA)模型和動態線性模型(dynamic linear model,DLM)。ARIMA可將非平穩的時間序列平穩化,將因變量對其滯后值和隨機誤差項的現值和滯后值進行回歸,有效提取具有季節性和趨勢性的數據中的線性信息,但對非線性、無規律、波動大的數據和長期預測效果較差[11]。DLM是一種高斯線性狀態空間模型,可用于對非平穩時間序列進行建模,包括測量方程和狀態方程。測量方程可以根據某時刻的參數向量描述此時對應的因變量,狀態方程可以建立該時刻的參數向量和下一時刻的參數向量之間的聯系,從而進行預測[12]。

3.2.2 傳統機器學習模型 (1)隨機森林(random forest,RF)。是對多個弱分類器進行組合的有監督學習,具有較高準確性和泛化性能[13]。Amin S等[14]通過分析2017—2019年推特中關于疾病情緒的社交媒體文本,監測登革熱和流感,并發現RF在提高準確度、精度、召回率等方面均優于比較模型。張金宇[15]以2017—2019年登革熱流行情況為研究對象,發現RF預測效果整體較好,但不足以預測發病高峰。這可能是由于RF雖然能更好地削弱異常值對結果的影響,但導致差異度小的正確決策被淹沒。(2)極端梯度提升(eXtreme gradient boosting,XGBoost)。是一種基于決策樹的提升算法,使用多個分類樹和回歸樹來學習輸入變量和結果之間的非線性和復雜關系,可以更靈活地調整更多參數,整體上尋求最優解,在一定程度上避免過度擬合[16]。Meng D等[17]針對手足口病建立了RF和XGBoost預測模型,發現從整體來看,XGBoost較RF模型具有更好的預測能力。(3)支持向量機回歸(support vector regression,SVR)。特點是通過非靈敏損失函數測量擬合優度,而非使用常規的二次損失函數(均方差)。Aramaki E等[18]在進行流感相關推特文本分析時發現,SVR具有最高精度和最短訓練時間。但黃澤穎[19]發現多元線性回歸模型相較于SVR能更好地擬合2013—2018年H7N9亞型禽流感新增病例數且預測精度更高。

3.2.3 深度學習模型 深度學習是機器學習領域中的新方向,其概念源于人工神經網絡。人工神經網絡模型擅長擬合復雜函數,形成非線性映射關系并行處理海量信息[20]。(1)BP神經網絡(back propagation neural networks,BP)。是一種廣泛使用的神經網絡模型,可以學習和存儲大量無需用數學方程準確描述的輸入-輸出映射關系[21]。王若佳[22]使用BP模型,通過融合百度指數預測流感暴發。從擬合結果看,BP神經網絡的擬合效果比SVR更好,但擬合效果不等同于預測精度。此外,BP模型很難引進時間維度,僅能使用當期搜索信息估計當期流感狀況,故被稱為臨近預警模型。(2)廣義回歸神經網絡(generalized regression neural network,GRNN)模型是一種基于數理統計的徑向基函數網絡,可以任意精度逼近非線性函數,解決了BP神經網絡局部最優的問題。GRNN的非線性映射能力和學習速度很強,且結構簡單、收斂速度快,在傳染病預測中得到廣泛應用[23]。楊德志[24]建立GRNN模型和BP神經網絡模型,發現GRNN的擬合和預測效果更好。(3)長短期記憶神經網絡(long short-term memory,LSTM)模型是一種特殊的遞歸神經網絡,可預測長時間滯后的時間序列,處理非線性成分并進行誤差校正[25]。黃鵬[26]發現LSTM模型相較于ARIMA模型更適合用于乙類傳染病預測研究;Parwez M A等[27]使用推特活動即時預測當周發病率,證實了LSTM模型在預測誤差最小情況下的有效性。

3.3 模型比較

總結既往研究發現,常見模型大多考察數據間的線性關系,非線性模型涉及人工神經網絡常用模型,見表1。由于搜索數據與真實數據之間關系的復雜性和較強的不確定性,在選擇建模時應重點關注非線性模型,以獲得更好的擬合效果和預測能力。此外,大多數模型僅適用于短時或實時預測,實現長時間段的預測較困難。

表1 基于互聯網數據的傳染病預測常見模型比較

3.4 主要問題與挑戰

雖然利用互聯網信息進行傳染病監測具有實時快速、數據源豐富、自動化程度高等優勢,但仍存在很多不足。一是目前國內算法模型創新和疾病種類相對較少,多數研究僅使用2~3種模型預測方法,在關鍵詞選擇及變量合成方面也偏主觀;從預測時間跨度來看,大多數模型僅適用于短時間預測。二是國內研究數據來源較單一,且存在較多混雜因素?;ヂ摼W搜索行為可能會受到媒體報道、傳染病季節性、互聯網用戶數量、文化差異、語言等因素影響,因此,基于搜索引擎的傳染病預測僅能體現相關性,無法完全替代傳統監測[28]。

4 模型優化與發展趨勢

4.1 構建組合模型

為彌補上述不足,可采用構建組合模型的方式提高預測精度。Su K等[29]將季節性ARIMA模型和XGBoost模型相結合,構建具有自適應權重調整機制的SAAIM模型;賴曉鎣等[30]構建ARIMA-LSTM-XGBoost加權組合模型,在預測精度上有較大提升;魏麟等[23]提出CEEMD-GRNN組合模型,精度更高、穩定性更強。

4.2 多源數據融合與加強

融合多源數據,包括各搜索引擎數據、社交網絡數據,以及其他來源如智能穿戴設備數據、氣象數據等,可提高模型的魯棒性和泛化能力。Su K等[29]收集重慶市流感樣疾病歷史百分比、氣象數據、百度搜索指數和新浪微博數據等多源數據進行預測;Anwar M等[31]同時使用谷歌和推特數據以提高模型準確率。

4.3 關鍵詞與影響因素選擇優化

關鍵詞選擇可能存在主觀判斷帶來的局限性,因此改進選詞方法對今后研究具有重要意義,應不斷擴展可選詞的范圍、提高相關性和特異性。此外,地理位置因素(當地人口規模、生活習慣、互聯網普及率等)對相關性影響較大,將來可在不同行政區的不同水平進行分層分析,以提供更有針對性的建議。

5 結語

傳染病影響范圍廣泛,處置不及時可能造成嚴重損失。利用互聯網數據對流行性疾病進行監測具有重要現實意義。由于其快速方便且成本低廉,在針對準確率進一步優化后,可作為傳統監測網絡的重要補充,輔助各地區疾控中心分析傳染病的流行特征,從而制訂相關防治策略和應急措施。

利益聲明:所有作者均聲明不存在利益沖突。

猜你喜歡
流感傳染病神經網絡
《傳染病信息》簡介
傳染病的預防
3種傳染病出沒 春天要格外提防
冬春流感高發 加強防治最重要
呼吸道傳染病為何冬春多發
神經網絡抑制無線通信干擾探究
秋季謹防牛流感
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合