?

基于真實世界數據的疾病風險預測研究

2020-12-28 02:25李言生龔后武栗翊超
醫學信息 2020年23期
關鍵詞:機器學習人工智能

李言生 龔后武 栗翊超

摘要:21世紀醫學發展的重點任務從防病治病已轉向健康維護,醫學模式從單純的疾病治療模式轉向4P醫學模式,面對醫學復雜性的挑戰,臨床研究方法學體系也在不斷發展。本文從真實世界數據出發,闡述了疾病風險預測模型及構建流程及其應用,并對基于真實世界數據的疾病風險預測研究進行總結和展望,旨在為疾病的風險預測提供幫助。

關鍵詞:真實世界研究;疾病風險預測;人工智能;機器學習

中圖分類號:TP393 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:B ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2020.23.006

文章編號:1006-1959(2020)23-0017-03

Abstract:In the 21st century, the key task of medical development has changed from disease prevention and treatment to health maintenance, and the medical mode has changed from simple disease treatment mode to 4P medical mode. Facing the challenge of medical complexity, the clinical research methodology system is also developing.Based on the real world data, this paper expounds the disease risk prediction model, the construction process and its application, and summarizes and prospects the on disease risk prediction based on real world data, in order to provide help for disease risk prediction.

Key words:Real world research;Disease risk prediction;Artificial intelligence;Machine learning

21世紀醫學發展的重點任務從防病治病轉向健康維護,醫學模式從單純的疾病治療模式轉向預防(prevention)、預測(prediction)、個體化(personalization)和患者參與(participation)為主的4P醫學模式[1],面對醫學復雜性的挑戰,臨床研究方法學體系也在不斷發展。近年來,真實世界研究(RWS)日益被廣泛接受。RWS遵照循證醫學的理念,在積累足夠數量觀察數據的基礎上,應用流行病學、衛生統計學、信息科學等方法和技術,探索干預措施在現實狀況下的疾病風險、臨床終點事件、生活質量、衛生經濟學等指標,已成為臨床評價領域不可或缺的重要組成[2]。本文主要對基于真實世界數據的疾病風險預測模型進行研究,旨在為疾病的風險預測提供幫助。

1真實世界數據

真實世界數據[3]是指從傳統臨床試驗以外,定期從不同來源收集的患者健康狀態和/或提供的保健服務相關的數據。真實世界數據來源非常廣泛,既可以是研究數據,即以特定目的開展的觀察性研究數據,以及基于真實醫療條件開展的干預性研究的數據;也可是非研究數據。

醫學領域的真實世界數據根據收集內容的差異可分為:①常規醫療數據,包括個人健康和醫療數據(如人口社會學特征、診斷、實驗室檢查、影像學檢查、醫囑、手術、成本數據等),即通常所指的醫療大數據,其典型實例包括醫院電子病歷庫等;②在部分或全部收集常規醫療數據的基礎上,根據特定研究目的收集生物標本檢測的檢測數據(如基因組學、蛋白組學、代謝組學檢測等)[4,5]。從本質上講,醫療大數據滿足真實世界數據的所有特征,屬于真實世界數據[6]。但真實世界數據涵蓋的范疇顯然比醫療大數據更廣。其中一個核心要素是真實世界數據并不一定要求數據達到海量,也不一定強調數據的多樣性。

電子病歷(EMR)是主要的醫療大數據來源,EMR是電子化的個人健康記錄或健康檔案,包含人口學統計信息、診斷信息、化驗信息、處方信息、自由文本等?,F有的基于電子病歷進行疾病風險預測的研究方法主要有兩類:一類是基于傳統的機器學習和統計技術,如Logistic回歸、支持向量機和隨機森林;一類是基于深度學習技術搭建模型,在海量電子病歷數據上進行臨床信息分析。

2疾病風險預測模型構建流程

疾病風險預測模型(DRPMs)是指利用數學公式估計特定個體當前患有某病或將來發生某結局的概率[7,8]。建立疾病風險預測模型是一項復雜的系統工程,涉及研究問題、數據集、變量、模型以及結果報告諸多環節。建模流程包括真實世界數據采集匯聚、大數據治理、疾病風險模型構建、模型利用,具體如下:

2.1真實世界數據采集匯聚 ?基于平臺數據集成,以服務器作為基礎硬件平臺,采用集群技術、分布式存儲技術、分布式計算技術、ETL技術[9],制定數據采集標準及處理流程,對結構化數據抽取入庫,對非結構化數據采用自然語言處理(NLP)進行結構化改造[10],主要包括患者的基本信息、病歷信息、病程信息、醫囑信息、檢驗信息、影像信息、護理信息等內容。實現真實世界數據存儲與共享,針對不同的需求提供更精細化、精準化的支持。

猜你喜歡
機器學習人工智能
我校新增“人工智能”本科專業
人工智能與就業
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合