?

醫療大數據的研究與進展

2023-11-19 04:28肖慶穎于廣軍
上海醫學 2023年7期
關鍵詞:領域醫療模型

肖慶穎 于廣軍

在過去的20年里,各個領域的大規模數據不斷增加,“大數據”一詞主要用來描述海量數據集。在全球生物醫學數據量呈爆炸性增長的背景下,如今醫療數據量被預測將達40萬億GB。與傳統數據集相比,大數據通常包含大量非結構化數據,需要進行更多實時分析,大數據分析作為一種先進的分析技術,涉及大規模且復雜的應用。2019年WHO《數字健康全球戰略2020-2025》提出要促進全球合作并促進數字健康知識的轉移;推進國家數字衛生戰略的實施;在全球和國家層面加強數字醫療治理;倡導以數字醫療為基礎、以人為本的醫療系統。

在當今時代背景下,人工智能(artificial intelligence,AI)是一種引發諸多領域產生顛覆性變革的前沿技術。近5年來,“AI+”應用于醫療研究已成為現代科技的熱點,數據存儲和處理技術的快速進步為AI模型和算法的開發創造了良好的環境,引領醫學走在AI的時代前沿。

1 國內外研究現狀

1.1 美國和歐洲現狀 在全球醫療大數據應用方面,隨著以深度學習為代表的AI帶來的技術和產品不斷涌現重大突破,美國已開始進行大數據、AI技術與醫療健康領域深度結合。美國擁有完整的醫療健康大數據庫,建成覆蓋本土的12個區域電子病歷數據中心、9個醫療知識中心、8個醫學影像與生物信息數據中心。美國國立衛生研究院還著重發起Big Data to Knowledge計劃,通過資助研究項目、培訓科學家和建立數據共享平臺等方式,促進生物醫學大數據的應用[1]。在戰略規劃方面,2016年,美國將AI為醫療診斷和處方治療提供決策支持系統列入《國家人工智能研究和發展戰略計劃》。2021年,美國《國家數字健康戰略》提出建設一個能夠及時提供信息,使針對公眾健康的決策和行動更加明智的、數字化的健康生態系統。美國加州大學的研究團隊在JAMA上首次報道AI從10萬余幅眼底視網膜照片中診斷糖尿病視網膜病變,與54位有美國醫師執照的眼科醫師及高年資住院醫師的診斷結果相比較,其靈敏度及特異度均高于人工判斷[2],該研究為醫療AI領域具有代表性的研究。2023年,熱度很高的ChatGPT(Chat Generative Pre-trained Transformer)主要用于患者的實時醫療咨詢、隨訪、健康教育等。

歐洲的醫療信息化和醫院管理水平較高,AI在健康管理、醫院管理、智能問診等領域的應用較為成熟。英國Babylon Health公司通過AI為用戶提供遠程醫療問診服務,全球用戶達到430萬人,每天可進行4 000個臨床咨詢,已完成120多萬人次數字咨詢。在英國,大數據和AI已成為大力發展的戰略領域之一。在醫學AI領域方面,德國政府將“大數據+AI”視為未來經濟的重要增長點,2018年11月出臺了《人工智能戰略》,其口號為“AI Made in Germany”。德國柏林的學者研發了一款基于AI的醫療健康應用軟件Ada Health,該軟件可識別1萬多種病癥和疾病,已被應用于歐洲家庭醫師領域,其診斷準確率超過90%。

1.2 中國現狀 中國的大數據與醫療結合的需求重點在輔助診斷、患者虛擬助手、醫學影像分析等方面,醫藥開發相對落后。在中國,AI技術在影像識別和輔助診斷領域的應用較為廣泛,在其他場景中的應用也快速發展,展現出多元發展態勢。從本質上來看,中國對當下醫療體系的窘境有著深度認知,因此大數據和AI作為能幫助中國醫療體系革新,為臨床醫師對患者進行診治帶來便利的技術手段,受到了較高程度的重視和應用。2022年10月,黨的二十大報告對推進健康中國和數字中國戰略做出了重要部署:要求把保障人民健康放在優先發展的戰略位置,完善人民健康促進政策,構建新一代信息技術、AI、生物技術等一批新的增長引擎。2023年2月,中共中央、國務院印發《數字中國建設整體布局規劃》,其中強調要“在農業、工業、醫療等重點領域,加快數字技術創新應用”,并明確提到“發展數字健康”等內容,彰顯了我國對利用大數據賦能社會發展的堅定決心。

本述評重點討論醫療大數據中AI技術的研究和進展,以及醫療大數據如何實現下一代AI。

2 大數據在醫學AI中的應用

2.1 機器學習和深度學習 計算促進了臨床研究中各關鍵領域的發展,基于AI的算法為研究人員提供了更多的用途方向。目前,機器學習算法已被廣泛應用于設計圖像的學科領域中,包括病理圖像、超聲成像、內窺鏡成像等,提高了診斷準確率,并可對疾病的嚴重程度進行分類。此外,臨床腫瘤學已成為機器學習最重要的領域,機器學習利用數據來學習數據集的模式和結構,豐富的成像和分子數據促進了機器學習的應用,并將這些數據源與早期癌癥檢測、癌癥進展監測和確定最佳治療方法相關聯。Placido等[3]展示了AI在識別癌癥高風險人群方面的潛力,研究人員利用丹麥600萬例患者和美國300萬例患者的臨床數據開發機器學習模型;根據患者的病史,評估罹患胰腺癌的風險,最佳模型在36個月內預測癌癥發生的AUC的ROC為0.88。這樣類似的研究問題和方法同樣適用于兒科領域。同時,將深度學習應用于多種生物標志物分析的研究結果表明,其診斷的靈敏度和特異度均有所提高。澳大利亞莫納什大學癌癥研究團隊利用機器學習方法為224個兒童癌癥細胞系建立了一個多組學癌癥細胞系圖譜,能夠更準確地對兒童癌癥類型進行分類,通過藥理學和遺傳學CRISPR-Cas9功能喪失篩選,確認了兒童癌癥中132種基因依賴性和53種藥物敏感性細胞系,助力探索兒童癌癥特異性生物標志物[4]。以深度學習為代表的AI技術可基于大數據驅動的算法,學習并模擬人類行為,處理海量、高維數據。2021年,美國華盛頓國立兒童醫院的研究團隊利用2 800張兒童的面部照片開發出一種基于深度神經網絡和面部統計模型的遺傳病篩查技術,該模型能夠在普通兒科人群中識別遺傳畸形,解釋與種族、年齡和性別相關的表型變異[5]。

深度學習方法帶來了蛋白質結構預測的革命,隨著AlphaFold的發展,準確的蛋白質結構預測在很大程度上已為更多的人所接受,除了單體蛋白質,AlphaFold-Multimer還展示了較強的蛋白質復合物建模能力[6]。在制藥領域,3名高中生利用由20余種預測模型和生物學模型構成的AI靶點發現引擎PandaOmics,識別出3個全新的針對衰老和膠質母細胞瘤的潛在雙效靶點[7],相關研究成果發表在Aging上,顯示了AI系統輔助新藥研發的廣闊前景。

2.2 大語言模型賦能醫療大數據的利用 AI在醫療診斷和臨床決策中的作用越來越受到重視,高度靈活且可重復使用的AI模型的快速發展,有望為醫學領域帶來全新變革。在AI領域的前沿進展中,生成式預訓練模型在自然語言處理和計算機視覺等領域取得了成功,隨著算力的不斷提升,語言模型已從最初基于概率預測的模型逐步走向大語言模型的時代。大語言模型指網絡規模巨大的深度學習模型,具體表現為模型參數量規模較大(通常為千億級別),大語言模型是在大量通用文本數據上進行訓練,以學習語言中的模式與實體關系。研究[8]結果表明,大語言模型具有明顯的新能力,能夠補充現有的因果方法,通過捕捉與任務相關的人類領域知識,形成任何因果分析的重要組成部分。

2022年以來,以ChatGPT為代表的AI大語言模型開始崛起,大語言模型在解釋和生成廣泛領域的序列方面表現出非凡的能力。目前有研究者將GPT-4作為一種醫療AI聊天機器人,支持自然語言發問,簡化了AI的應用流程,并極大地拓展了其在醫學領域的應用范圍,包括醫學圖像分析、藥物相互作用檢測、高?;颊咦R別和醫療記錄編輯等。Lee等[9]研究中,1例COPD患者與GPT-4進行了兩輪深度對話,結果顯示,GPT-4給出了如何確定患者病情發生惡化、病情惡化的主要特征及是否需要緊急治療等信息,整體回答結果可與臨床醫師相媲美。在醫學圖像報告分析領域,利用Chat GPT開發的ChatCAD能夠基于圖像生成報告,并利用大語言模型廣泛且可靠的醫學知識來提供交互式的影像報告解釋和建議[10]。除了在醫療文本和醫療對話領域,大語言模型在單細胞生物學領域也展現出非常良好的涌現思維。近日,加拿大彼得·蒙克心臟中心的研究人員,通過利用呈指數增長的單細胞測序數據,首次嘗試對超過1 000萬個細胞進行生成式預訓練來構建單細胞基礎模型scGPT[11],這是第1個基于單細胞生物學的大語言模型。

2023年4月Nature上發表的文章提出通用醫療AI(general medical artificial intelligence,GMAI)的范式,GMAI模型可使用少量數據或沒有指定標記的數據來執行不同的任務[12]。相比于當前的醫學AI模型,GMAI提供了更靈活的交互方式,使不同受眾群體更容易理解其輸出,并在不同任務和環境中提供前所未有的靈活性。目前研究關注于在無機器學習或數據科學專家的情況下,使開發高性能的醫療AI模型成為可能。Wagner等[13]使用Google Cloud Auto ML開發了一個無代碼深度學習分類器和定制模型,用于在英國倫敦的多種族人群中早產兒視網膜病變的分類,這兩種模型的分類結果與高年資兒童眼科醫師的分類結果相似,該研究突顯了自動機器學習和無監督學習的潛力,可以在缺乏數據科學專業知識的資源匱乏地區開發針對其特定人群的優化模型。

2.3 數據安全和隱私保護 由于醫療數據的復雜性和敏感性,醫療AI平臺的開發和應用也面臨一些挑戰,如數據隱私保護、技術安全性等。2014年,在聯合國統計委員會的領導下成立了聯合國全球大數據工作組,該工作組旨在利用大數據技術在聯合國全球平臺基礎上,建立面向全球的大數據共享和經濟獲益的分析組織。2016年,Scientific Data上發表了《科學數據管理和監督的FAIR指導原則》,FAIR原則強調機器的可操作性,即計算系統在沒有或最少人工干預的情況下查找、訪問、互操作和重用數據的能力。歐盟于2018年通過了通用數據保護條例(general data protection regulation,GDPR),規定在處理個人數據方面保護自然人及此類數據的自由流動,該法規旨在保護歐盟公民的個人數據和隱私權,并規定了個人數據的收集、使用、處理和存儲的方式。GDPR具有適用范圍廣泛、處罰嚴格、強調對個人數據的保護和強制性通知義務等特點,被認為是“史上最嚴”的個人數據保護條例。

我國數據監管和應用促進的法律法規起步較晚,但發展速度很快。2021年以來頒布的《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《關鍵信息基礎設施安全保護條例》《關于構建數據基礎制度更好發揮數據要素作用的意見》《數據出境安全評估辦法》,以及2022年國家衛生健康委員會等3部門聯合發布《醫療衛生機構網絡安全管理辦法》,為醫療衛生機構的網絡和數據安全管理提供指導,以充分發揮健康醫療大數據作為國家重要基礎性戰略資源的積極作用,為健康醫療大數據合規、開放提供依據。

醫療大數據的研究及應用成為各國醫學健康領域發展的新引擎,也是引領科技變革的新動能。我國在醫療大數據的研究建設起步較晚,目前仍面臨著數據孤島尚未完全打破、數據質量和治理效能需要提升、醫療大數據的開放使用需要破局、AI需要與大數據深度融合等問題。在大語言模型時代到來的今天,ChatGPT影響了醫療行業的變革,加上機器學習、深度學習算法等AI技術的賦能,使醫療大數據的發展越來越迅速。醫療大數據和AI技術的蓬勃發展改變了既往醫學模式,可在不同層面提高醫療水平和保障人類健康。

猜你喜歡
領域醫療模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
領域·對峙
京張醫療聯合的成功之路
我們怎樣理解醫療創新
3D打印中的模型分割與打包
醫療扶貧至關重要
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
新常態下推動多層次多領域依法治理初探
什么是醫療告知
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合