?

利用網絡痕跡信息即時預測兒童腹瀉流行趨勢

2016-11-28 09:20謝月鋒董現壘陳卉王燕劉志成
醫學信息 2016年29期
關鍵詞:數據挖掘

謝月鋒 董現壘 陳卉 王燕 劉志成

摘要:為疾病突然爆發時醫療機構能夠及時采取應對措施合理配置醫療資源,本文以兒童腹瀉為例,利用網絡痕跡數據,提供一種建模思路和方法,對兒童腹瀉的發生進行即時預測。結果顯示,兒童腹瀉的發病具有明顯的周期性特征,同時大眾的網絡搜索行為與相關就診量具有明顯的相關性,人們可以利用網絡痕跡數據即時預測兒童疾病的未來就診量。

關鍵詞:公共網絡;痕跡數據;兒童腹瀉;數據挖掘;趨勢預測

在環境惡化等因素的影響下,近些年突然爆發某種疾病的現象時有發生,對醫院的應急管理系統提出挑戰。例如,目前多數醫院是依靠經驗給醫生排班。比如首都醫科大學附屬北京兒童醫院會提前3個月就排好班次,如沒有特殊情況一般很少變動。這種模式具備一定的優勢:患者可以提前預約掛號以減少排隊或等待時間,醫生則可以分散患者進行診治以提高效率。但是當某種疾病爆發時,醫院只能根據即時的就醫情況,臨時啟動應急預案,解決突如其來的大批量患者就醫問題。由于時間短,任務重,應急預案的執行具有極大的不確定性,加上就醫患者的情緒波動等因素,就醫場所混亂的場景時有發生。再者,對于藥品的采購,醫院通常是根據歷史經驗建立藥品基數,繼而每天根據缺藥情況產生采購訂單,進行補藥,正常情況下是可以滿足臨床需求。但是當某種疾病突然爆發時,就有可能出現特定藥品缺貨的現象。此時,如果在疾病的爆發初期就能預測未來幾天的就醫狀況,醫院就可以有較充分的時間來提前安排相關專業的醫生以及現場疏導人員,也能隨時對特定藥品等醫療資源進行預見性地調配,以應對臨床可能出現的緊急情況,從而井然有序的定向迎接"突然"增多的就醫患者,大大提高醫療應急管理效率。也就是說,在疾病大規模爆發的前期對其進行精確的"即時預測"具有重要的意義。

即時預測("nowcasting")與一般意義的預測不同,其目的并不是為了預測未來(長期)的狀況,而是為了清楚地把握當前的信息狀況[1]。要把握即時信息或實時信息,就必須利用發布即時信息的平臺,而社交媒體(包括搜索引擎)的出現和發展,為這一技術提供了關鍵性的支持。社交媒體中大量持續出現的即時信息為即時預測提供了可能,充分利用社交媒體中有效的即時信息,就有希望改善此類醫療應急管理的現狀。對大眾網絡行為信息(網絡痕跡數據)進行分析成為大數據分析的重要內容,而將社交媒體大數據信息引入到疾病的預測和管理中,是本文的主要研究思路。本文利用百度搜索數據(百度指數),對兒童腹瀉這種多發疾病的即時預測進行了研究。

1 即時預測的國內外研究現狀

在互聯網中,人們不停地進行交流和搜索,產生了源源不斷的網絡痕跡數據[2-3]。相關研究發現,信息的發生雖然是不可提前預測的,但是早期的一些跡象及信息可以從社交媒體網絡中即時獲取,比如博客、微博、論壇以及搜索引擎等[2]。于是隨著數據挖掘技術的發展,人們開始研究社交媒體潛在信息與經濟、社會指標之間的關系[4-5]。已經有研究表明,社交媒體的潛在信息具有預測價值,如可以預測書籍的銷售結果[6]、票房的收入[7]甚至股市道瓊斯指數的波動[8-9]等。搜索引擎數據作為一種相對比較容易獲得的社交媒體數據,也被廣泛的應用于該類研究中。比如谷歌趨勢的數據可以被用來即時預測不同地區流感的流行狀況[10]以及各種經濟指標數值,也有相關學者提出一系列建模方法研究消費者信心指數[11-13]或揭示著作的發表規律和趨勢等[14]。人們還基于話題搜索工具構建量化模型,研究消費者行為[15]以及疾病的流行和發生趨勢[16]等。然而目前國內還沒有利用網絡數據來對疾病進行即時預測的研究,并且對網絡痕跡數據的量化分析與應用研究,多數還是以傳統的統計分析、回歸分析為主,通過描述數據的統計特征或者通過一般的函數擬合與估計(如通過變量合并來降維[17-18])來描述或預測網絡痕跡數據與特定社會、經濟指標之間的關聯[19-22]。本文將在前人研究的基礎上,提出一種分析網絡數據和醫療指標相關關系的即時預測模型,以兒童腹瀉為例,展示其在疾病即時預測方面的功用。

2 數據獲取與建模

2.1數據準備 本文所使用的數據主要有兩部分,時間跨度均從2011年1月~2015年10月。

2.1.1首都醫科大學附屬北京兒童醫院歷史就診數據,近幾年醫療信息化發展迅速,首都醫科大學附屬北京兒童醫院2006年住院全面實現電子化,2009年門診全面實現電子化,臨床醫療數據以相對標準化的形式儲存在數據庫中,大大方便了對數據的統計分析。圖中以腹瀉和上呼吸道感染為例,展示了近幾年就診量變化趨勢,見圖1。本文的建模分析則主要以首都醫科大學附屬北京兒童醫院兒童腹瀉的就診數據為例。

3.1.2大眾對疾病相關關鍵詞的網絡搜索數據,來自于百度指數。百度指數是由百度公司提供的以百度海量網民行為數據為基礎的數據分享平臺。百度指數由百度搜索引擎提供,其可以提供用戶查詢某問題被搜索的頻率隨時間變化的趨勢數據,如搜索規模、漲跌態勢、人群分布等等。將搜索的地點鎖定為北京市,就可以得到北京市市民對于特定話題(關鍵詞)的搜索趨勢數據。

由于百度指數不提供數據下載支持(只有圖像趨勢、無公開的API并且加密),本文利用易佰百度指數批量查詢工具對數據進行抓取,可以獲得每個關鍵詞每天的搜索量,對其進行統計處理就可以獲得特定關鍵詞的月度搜索趨勢數據(可分為總體趨勢,PC端趨勢和移動端趨勢),見圖2。

2.2模型的構建

2.2.1變量處理與選取 百度指數的總體趨勢是PC端趨勢和移動端趨勢的和,為了防止變量間的完全共線性,本文只選擇PC端趨勢和移動端趨勢的數據進行建模擬合。接下來,首先考查所選擇自變量(百度指數數據)的相關性,相關系數如表1所示。

從表 1可以看出,來自百度指數的數據有較高的相關性,部分變量間的相關系數高達0.998以上,為了避免方程的多重共線性,考慮將以上變量進行主成分分析,結果見表2及圖3。

從主成分分析的結果來看(表2及圖3),前兩主成分就可以比較全面的包含原百度指數的信息,達92.24。因此,本文選擇前兩個主成分進行建模,從而避免多重共線性的同時,降低自變量的維度,使得建模更容易。表3列出了所選取的兩個主成分變量Ci(i=1,2)與原百度指數變量之間的具體計算關系,即:

2.2.2模型的構建 從圖1可以看出,兒童腹瀉的歷史就診數據中不存在明顯的趨勢變化,但是存在比較明顯的季節性現象,即每年基本有兩個患病高峰期,大概為3月和10月附近,因此,本文考慮構建包含季節性周期的狀態空間模型。

3結果與分析

利用Stata求解方程(3),擬合數據與觀測的就診數據的對比見圖4,擬合曲線基本和觀測曲線的趨勢基本一致,能夠較好的表現出實際就診數量的變化和趨勢,也說明了模型的擬合效果相對較好。

從系數擬合的結果來看,P值均小于0.01,方程的擬合效果相對較好。接下來,我們對就診數據的季節性和原百度指數變量進行分析。

3.1就診數據的季節性周期 通過模型求解,可以獲得兒童腹瀉的的季節性周期,見圖5。從建模的結果來看,兒童腹瀉的就診情況具有明顯的季節性周期特點,一般的,每年2月和3月腹瀉疾病的高發期(春節附近),而每年的5~7月則相對發病較少。

3.2兒童腹瀉就診量與大眾網絡行為的關系分析 從表4中的擬合結果可以看出大眾網絡搜索行為與兒童腹瀉的就診量變化具有明顯的相關關系,具體地,大眾網絡行為與兒童腹瀉就診量的關系如圖6所示。從圖中可以看出,人們的網絡搜索行為會在一定程度上顯示人們對兒童腹瀉的就診需求狀況。兒童的腹瀉會導致人們在該領域的網絡搜索行為,同時也會導致兒童醫院的腹瀉就診量增加。從模型的結果來看,由大眾網絡搜索行為引致的相關就診量大概維持在8800上下,即大眾網絡搜索行為(對于兒童腹瀉相關話題)與兒童腹瀉的就診量具有顯著的相關性。

3.3利用大眾網絡搜索數據即時預未來兒童腹瀉的就診量 本文將兒童腹瀉的就診量分解為兩部分,即季節性變化和由大眾網絡行為引致的就診量變化。一般地,季節性變化具有周期規律,只要明確具體的月份就可以了解當月的周期性特點。而網絡行為數據一般會早于醫院的就診數據可以提前獲得:比如可以利用當月上半月的搜索數據(2倍)作為對當月搜索數量的預測,這樣就可以利用網絡搜索數據來即時預測未來一段時期的兒童疾病的就診量。

4 結論與總結

利用大眾網絡的搜索數據(百度指數),本文提出了利用網絡痕跡信息即時預測流行性疾病的思路和方法。以首都醫科大學附屬北京兒童醫院兒童腹瀉的就診情況為例,本文首先從百度指數獲得與兒童腹瀉相關的話題和關鍵詞的搜索量隨時間變化的趨勢數據,然后分析其相關性。為了防止模型的多重共線性,本文利用主成分分析提取了解釋變量的主成分,進而利用包含有季節性周期的狀態空間模型進行建模并獲得擬合結果。模型擬合結果較好,通過建模和求解,可以獲得結論如下。

網絡痕跡數據蘊含了大量有價值的潛在信息,人們可以通過一定的技術手段獲得其中的潛在信息。由于網絡痕跡數據具有實時性,因此人們可以通過分析網絡痕跡數據進行相關社會-經濟指標的即時預測。同時,從網絡中獲得有價值的潛在信息相對于傳統的統計、問卷等方法也具有一定的優越性,可以降低成本,提高效率,保證信息的客觀性。

從具體的建模結果來看,兒童腹瀉的發病具有明顯的周期性特征,同時大眾的網絡搜索行為與相關就診量具有明顯的相關性,人們可以利用網絡痕跡數據即時預測兒童疾病的未來就診量,而本文的建模思路和方法為其提供了一種行之有效的方案。

5討論

本文以兒童腹瀉為例,通過建模求解得出結論,進一步可選取幾種其他常見疾病,獲取數據,對結論進行驗證。同時,可選取不同區域(華北、華中、華南),分別對結論進行驗證。另一方面,在大眾網絡搜索行為與相關就診量具有明顯相關性的基礎上,可以進行更深層次的研究,最終得出大眾網絡搜索行為相對于相關就診量的提前量。從而就可以確定即時的大眾網絡搜索行為可以預測未來哪個時間點的就診量。

參考文獻:

[1]Scott, S., & Varian, H.. Predicting the Present With Bayesian Structural Time Series[J].International Journal of Mathematical Modeling and Numerical Optimization, 2014, 5(1-2): 4-23.

[2]Bello-Orgaz, G., Jung, J.J. & Camacho, D.. Social Big Data: Recent Achievements and New Challenges[J].Information Fusion, 2016, 28(C): 45-59.

[3]Marz, N. & Warren, J.. Big Data: Principles and Best Practices of Scalable Realtime Data Systems[M]. Pearson Schweiz Ag, 2015.

[4]Arora, D. & Malik, P.. Analytics: Key to Go from Generating Big Data to Deriving Business Value[C]. First International Conference on Big Data Computing Service & Applications. IEEE Computer Society, 2015: 446-452.

[5]Collins, B.. Big Data and Health Economics: Strengths, Weaknesses, Opportunities and Threats[J].Pharmacoeconomics, 2015:1-6.

[6]Gruhl, D., Guha, R., Kumar, R., et al. The Predictive Power of Online Chatter[C]. Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining (KDD). Now York, USA: ACM, 2005:78-87.

[7]Asur, S., & Huberman, B.A.. Predicting the Future with Social Media[C]. Web Intelligence and Intelligent Agent Technology, Toronto, 2010, 1: 492-499.

[8]Gilbert, E., & Karahalios, K.. Widespread Worry and the Stock Market[C]. Proceedings of the 4th International Conference on Weblogs and Social Media, 2010: 59-65.

[9]Bollen, J., Mao, H., & Zeng, X.. Twitter Mood Predicts the Stock Market[J]. Journal of Computational Science, 2011, 2(1): 1-8.

[10]Araz, O. M., Bentley, D., & Muelleman, R.. Using Google Flu Trends Data in Forecasting Influenza-Like-Illness Related Emergency Department Visits in Omaha, Nebraska[J]. The American Journal of Emergency Medicine, 2014, 32(9):1016-1023.

[11]Dong, X., Bollen, J.. Computational models of consumer confidence from large-scale online attention data: crowd-sourcing econometrics[J]. PLOSONE, 2015, 10(3): e0120039.

[12]董現壘,Bollen Johan,胡蓓蓓. 貝葉斯視角下社交媒體數據的挖掘與應用研究[J]. 軟科學, 2015,(9):96-101.

[13]董現壘, Bollen Johan,胡蓓蓓. 基于網絡搜索數據的中國消費者信心指數測算與分析[J]. 統計與決策. 2016,(5): 9-13.

[14]Dong, X., Xu, J., Ding, Y., Zhang, C., Zhang, K., and Song M.. Understanding the Correlations between Social Attention and Topic Trends of Scientific Publications[J].Journal of Data and Information Science, 2016, 1(1): 28-49

[15]Goel, S., Hofman, J. M., Lahaihe, S., Pennock, D. M., & Watts, D. J.. Predicting Consumer Behavior with Web Search[J].Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(41): 17486-17490.

[16]Gluskin, R. T., Johansson, M. A., Santillana, M., & Brownstein, J. S.. Evaluation of Internet-Based Dengue Query Data: Google Dengue Trends[J].PLoS Neglected Tropical Diseases, 2014, 8 (2): 85-88.

[17]du Preez, J. & Witt, S. F.. Univariate Versus Multivariate Time Series Forecasting: An Application to International Tourism Demand[J]. International Journal of Forecasting, 2003,19: 435-451.

[18]Bangwayo-Skeete, P. F. & Skeete, R. W.. Can Google Data Improve the Forecasting Performance of Tourist Arrivals? Mixed-Data Sampling Approach[J].Tourism Management, 2015, 46: 454-464.

[19]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展, 2013, 04: 168-172.

[20]王元卓, 靳小龍, 程學旗. 網絡大數據: 現狀與展望[J]. 計算機學報, 2013, 06: 1125-1138.

[21]覃雄派,王會舉,杜小勇, 王珊.大數據分析-RDBMS與MapReduce的競爭與共生[J]. 軟件學報, 2012, 23(1): 32-45.

[22]陶雪嬌,胡曉峰, 劉洋.大數據研究綜述[J]. 系統仿真學報, 2013(S1).

編輯/金昊天

猜你喜歡
數據挖掘
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
數據挖掘技術綜述與應用
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
高級數據挖掘與應用國際學術會議
高級數據挖掘與應用國際學術會議
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合