?

基于云計算的醫療大數據系統架構研究

2016-05-19 13:37魏建兵
電腦知識與技術 2016年7期
關鍵詞:云計算數據挖掘大數據

魏建兵

摘要: 綜合介紹了大數據時代醫療行業數據挖掘面臨的挑戰,結合云計算提出一種基于Hadoop生態環境搭建的醫療云數據挖掘平臺架構,詳細闡述其各層功能,包括基礎層、平臺層、功能層以及業務層,以期為醫療行業的大數據分析及挖掘提供新思路。

關鍵詞: 云計算;大數據;數據挖掘;醫療

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)07-0021-03

Research on the Architecture of Medical Big Data System Based on Cloud Computing

WEI Jian-bing

(Gansu Foresty Technological College,Tianshui 741020, China)

Abstract: Introduce Big Data era medical industry data mining challenges, combined with cloud computing is proposed based on the ecological environment to build medical Hadoop cloud data mining platform architecture, detail its layers, including a base layer, the platform layer, the functional layer and the service layer in order for the medical industry, big data analysis and mining to provide new ideas.

Key words: Cloud computing; large data; mining; medical

隨著技術的進步,信息產業的發展以及信息供給量的增長,一個遍及全世界的醫療行業大數據的革命即將到來。在已經過去的十年中,醫藥商開始將他們多年來的研發數據都存儲于醫療數據庫中,與此同時,醫療機構也在對他們的患者記錄進行數字化。美國政府及相關部門已經開放了龐大的醫療信息數據庫,這些信息不但涉及臨床跟蹤數據,還包括病人的醫保記錄。最新的技術可以匯聚醫療機構、醫學實驗室、醫務辦公室以及患者的信息等數據,組成一個龐大的數據集。

醫療信息化的快速發展會令醫療數據的規模不斷變大,云計算現已被大量的組織和機構所使用,云計算平臺已經形成了多種服務模式,包括為個人、組織、企業或是學術機構等提供云服務的商業模式。云計算所提供的應用和數據服務可以被很多不同的用戶廣泛應用,同時用戶還可以跨平臺、跨企業地使用云資源。憑借自身優勢,云計算可以令醫療事業的信息化改革和部署更加方便及廉與此同時,云計算還可以大大提高對醫療大數據的挖掘能力,增強醫療信息化系統的可擴展性。近年來,國內企業也開始逐漸以數據作為理論基礎,現在已經發展到沒有數據基礎就無法做出決策,并無法提出完善的建議。不僅如此,事實上,醫療數據是可以“說話”的,但它所表達的語言意義需要使用人類的分析和挖掘。

1 醫療大數據

1.1醫療大數據的產生

隨著互聯網的迅速發展和不斷普及,云計算和物聯網等技術也快速興起,數據正在以一個前所未有的速度累積和擴張,一個屬于大數據的時代已經到來,各種研究部門以及機構都已經將目光放在大數據的問題上。大數據通常是指一些龐大的數據集,這些數據集在進行采集、管理或者處理時所消耗的時間超過可容忍時間。大數據的概念在強調數據規模和多樣性的同時,也考慮到了產生和變化的速度以及確定性。大數據不單單是一項單純的新技術,而是將引領信息技術產業的又一項顛覆性的革新技術。據相關預測,中國的大數據市場將在2012-2016年增長5倍,其中,醫療衛生行業將是其中占據份額最多的行業之一。

目前我國的醫療信息化建設進程不斷加快,各類醫療衛生機構的信息系統以及數字醫療設備和儀器的廣泛應用使醫療數據呈爆炸性增長,這些數據資源是非常有價值的醫療衛生信息,他們對疾病的診斷,治療,研究有很大的價值,醫療費用控制。醫學數據量的快速增長,使醫療衛生行業迎來了屬于自己的大數據時代,對這些醫療大數據的創新性管理和應用,將給生命科學和醫療領域帶來一場革命。

醫療大數據主要來自于包括臨床醫學、疾病監控、醫學研究、制藥企業、費用管理、生物信息、健康管理、社交網絡等方面,如何利用這些海量醫療信息來更好地為醫療行業服務已被更多的研究人員和機構所關注。大數據時代的來臨無疑會對我國醫療信息化建設起到巨大的推動作用,醫療大數據的相關技術將解決以往無法解決的一些難點和問題,如何利用好大數據技術并且讓其充分發揮作用是今后相關科研工作者研究的重點。

1.2醫療大數據的特點

醫療大數據有以下幾個主要特征:

1)數據巨量化

每家醫療機構每天的患者都有可能擁有上萬人,而每個地區可能包含上百家醫療機構以及上百萬人口,這些患者的病歷數據都需要至少記錄60年。而隨著醫學的發展,各種先進的醫療儀器不斷被發明,這些儀器產生的數據也十分巨大。

2)服務實時性

醫療大數據不同于其他大數據,一般需要進行大量的在線分析和實時處理。

3)存儲形式多樣化

醫療大數據存儲的格式是多種多樣的,如一些數據表、化驗結構等是結構化的數據,而醫生的手寫病歷、文本、影像等為非結構化數據。

4)高價值性

醫療數據所蘊含的價值巨大,對各國的疾病防控、藥物研發以及健康保健都有著十分巨大的作用。

根據相關數據統計顯示,目前的醫療行業里,一張CT普通掃描的圖像文件大小就超過150MB;—個基因組序列文件包含約750MB的數據;標準病理圖包含的數據量就更大,甚至接近5GB。如果將這些數據大小乘以人口基數以及人的平均壽命的話,僅僅是一個社區醫院所要累積的數據量,就高達TB甚至PB數量級,而且其中還包含了各種圖像、視頻等非結構化的數據,而其他大型醫療機構的數據量就更加龐大。

因此,如何能快速地在海量的醫療大數據中提取到有用信息正成為各企業以及研究機構的戰略性發展方向,通過大數據挖掘分析,得到有價值的信息,將對未來的疾病管理、控制、治療以及研究等方面都有著非常重要的意義。

2 云計算

2.1云計算的定義

云計算有很多的定義。下面給出一個由美國國家標準與技術研究所提出的改進定義。云計算是一種模型,它可以實現隨時隨地、便捷、隨需應變地從可配置的計算資源共享池中獲取所需的資源,資源能夠快速提供并釋放,使管理資源的工作量或與服務提供商的交互減小到最低限度。云計算模式有五大主要特征:

1)用戶可以利用任何服務提供者的現有計算資源,包括處理能力、儲存空間、或是應用程序等等,而不需要人工交互。

2)任何標準的聯網設備可以隨時隨地訪問這些計算資源。

3)服務提供者的計算資源可以被合并起來提供服務,而這些合并的資源可能分布在各地的多個數據中心。同時,供應商的計算資源可以被多個用戶分享使用。這些計算聲揮可以按需、動態地分配給用戶,通常,用戶也無須考慮地理位置,世界上任何地方的用戶都可以使用這些計算資源。

4)用戶可以彈性利用這些計算資源,一個用戶可以在需要時申請更多資源,而不再需要后可以釋放它們。從用戶角度來看,這些資源是無限的,而用戶只需要為他們使用過的資源付費。

5)云計算系統是一個自適應系統,它可以自動平衡負載并且優化資源的利用。用戶可以監控資源的使用從而令賬單透明化。

2.2云計算的獨特特征

2.2.1云計算有五個主要特征:

1)提供者不但要投資建設基礎設施,還要進行維護。

2)基礎設施供應商提供的服務會被很多用戶分享。

3)用戶按需獲得服務。

4)提供的服務是彈性且可擴展的,換句話說,用戶可以按需獲得一個無限的服務。

5)用戶只為他使用過的資源買單。

6)供應商提供特定的服務質量保證。

2.2.2由于計算的特殊性質,云計算還有五個主要需求:

1)基礎設施應該是動態的、虛擬的。即基礎設施應該根據使用者不同的應用和特殊的要求采用不同的“化身”。

2)當應用程序作為一項提供的服務時,應用程序的咨詢也同時作為服務供應商的一部分工作。這往往不是傳統供應商的鮮明特征。

3)一旦應用程序被使用,供應商和用戶之間需要建立起一個雙向的連接,以便于處理程序中的錯誤以及提供咨詢服務。

4)供應商有義務保證用戶數據和程序的安全。

5)由于供應商的計算機以及數據儲存位置的國際性,目前沒有相關法律適用于處理云計算供應商及用戶相關的糾紛。

2.3按服務類型的分類

云計算按照服務類型分類主要有以下三種。

2.3.1基礎設施即服務(IasS)

在這類服務中,供應商主要提供數據中心服務,包括計算機服務舉、儲存服務器、通信基礎設施,用戶可以在其上層部署和運行任何軟件。數據中心包括安全建筑的硬件配置、不間斷電力供應、空調以及不間斷通信設備,用戶也可以部署他們自己的應用軟件和操作系統,供應商只負責提供硬件組件。由于不同的用戶需要在云端安裝不同的操作系統及軟件,所以需要供應商根據用戶需求分層部署軟件,仿照硬件的運行模式,這就是我們所說的虛擬化。又由于多個用戶可能同時使用服務器且所使用的操作系統可能不同,這就需要服務器可以提供多個虛擬機以供用戶使用,這些都由被稱作超級管理程序的軟件控制。IasS可以給多個獨立的用戶提供基礎設施的共享使用。普通的IasS公司通過提供應用程序接口給用戶,以便于其使用,同時IasS也可以同它的用戶簽訂服務器級協議。最早的IasS供應商是亞馬遜的EC2,其他的供應商包括Backspace和IBM等,都向用戶提供滿足他們需求的虛擬系統。

2.3.2平臺即服務(PaaS)

這一項服務是建立在IasS之上,去除掉軟硬件的基礎設施,這項服務提供了包括操作系統、編程語言、開發環境以及開發工具等。換句話說,這項服務迎合了用戶所有關于系統程序開發環境的需求,包括微軟的.NET或者UNIX開發環境等等。這類服務供應商包括微軟Windows Azure,亞馬遜的Web Services,IBM的SmartCloud,以及Google的App Engine。

2.3.3軟件即服務(SaaS)

SaaS是一種通過Internet提供軟件的模式,供應商將用戶需求的應用軟件部署在自己的基礎設施上,客戶可以通過連接互聯網設備進行訪問,電子郵件就是SaaS服務的早期典范。同時還有一些第三方軟件可以在云端運行以管理用戶關系、納稅申報、銷售管理等等,同時還有其他各種各樣的常見軟件,包括文字處理、電子表格以及數據庫管理等等部署在云端。

2.4 按服務方式分類

按照部署與訪問的方式,云平臺也被分為如下幾類:

2.4.1 公有云

公有云是指供應商的計算資源可以提供給任何用戶使用,這類云平臺通常位于供應商的所在地并且由供應商控制,所以基礎設施會被很多用戶所共享。公有云一般有免費以及付費兩種,例如Google就通過公有云提供免費的儲存空間、辦公軟件以及電子郵件,而亞馬遜的EC2則是付費的公有云。

2.4.2 私有云

私有云是指計算資源被單獨分配給一個獨立的組織機構,這類云平臺可能部署在機構所在地并且可以讓機構成員隨時隨地進行訪問,例如從機構龐大的分支進行訪問。私有云一般由住址機構擁有并進行維護、外包給第三方或者兩者結合。例如,一個大型銀行的很多分支機構都需要通過一個私有云進行連接,而這個私有云一般由基礎設施供應商設計并維護。

2.4.3 社區云

社區云是指將基礎設施分配給一個特定的社區,這個社區通常由一些有共同愛好的用戶組成。例如,一些大學希望合并他們的計算機硬件設施并通過社區云進行內部連接,從而他們的成員就可以訪問這個社區云。私有云的基礎設施可能被各個用戶分別擁有或者外包,它的先驅就是網格計算。

2.4.4 混合云

混合云是指一個云平臺有兩個以上的模式進行運行,可能包括公有云、私有云或者社區云,每種模式獨立運行,同時通過標準化協議進行捆綁以給予數據和程序的便攜性。例如,一個機構可以把它認為比較敏感的程序運行在私有云上,而相對不敏感的程序運行在公有云上。另一種情況是一個機構可能原本將它的程

序運行在私有云上,而當程序負載突然增加,在此時可以使用公有云來承載這些額外增加的負載,這被稱作云爆發。

3 基于云計算的醫療大數據系統架構

云計算平臺依賴于高端的服務器、交換機,構成的一種公用設施化的、可共享的IT架構,使得大量的軟件應用集聚于此公用設施上,可通過網絡連接的形式獲取、使用云計算技術可以肯好的應用在醫療行業中,在醫療大數據不斷增長的今天,醫療行業可以將其醫療病歷系統、醫療管理系統、醫療儲存系統等等都通過云架構實現,這樣可以令醫務人員以及患者都可以隨時隨地瀏覽自己需要的信息,做到真正的數字化遠程醫療。

云計算的出現有效迎合了醫療大數據的各種特點,運用云計算平臺作為服務的實現基礎,醫療大數據可以在云端進行存儲和處理,從而達到令醫療大數據可以被隨時隨地訪問,并為人們提供遠程醫療服務。將大數據存儲在云端一方面可以緩解本地存儲的壓力,另一方面還可以將多用戶數據融合存儲并進行隨時隨地訪問,而醫療云平臺中最重要的一項技術就是如何對存儲在云端的醫療大數據進行挖掘,從而發現用戶有興趣的內容。

醫療云平臺按照功能劃分為5部分:數據采集層、數據云儲存層、數據挖掘層、企業級數據庫和應用層(見圖1)。

醫療云平臺的各部分具體如下所述:

1)數據采集層

醫療大數據的存儲格式多種多樣,包括了結構化以及非結構化或半結構化的數據,所以釆集層需要采集各種格式的數據。同時醫療云平臺還要實現與各種醫療系統進行對接,通過相應的API讀取數據。而由于現今社會社交軟件以及網絡如快速發展,將醫療與社交網絡相結合也是未來的趨勢如微信遠程掛號、上傳個人健康信息等等,所以也要將這部分非結構化的數據進行釆集。最后將釆集的不同格式數據進行處理,以便于集中儲存。

2)數據云存儲層

數據存儲層儲存整個醫療云平臺的數據資源。云存儲層的數據將釆用Hadoop平臺模式進行架構,將數據采集層采集到的數據進行融合,并分塊進行存儲。

3)數據挖掘層

數據挖掘層是醫療云平臺中最重要的組成部分,通過計算機集群進行架構,完成對數據的挖掘及分析工作。通過相應的挖掘算法將數據云存儲層以及企業級數據庫的數據進行挖掘,并將挖掘結果存儲到數據云存儲層中,并將挖掘到的規則及知識等通過可視化手段在應用層進行表現。

4)企業數據庫

企業級數據庫屬于醫療數據的本地存儲。醫療機構不但需要方便、容量大的云存儲,還需要將一些實時性要求高以及保密性要求高的數據進行本地存儲,這就需要企業級數據庫。企業級數據庫需要與數據云存儲層以及數據挖掘層進行數據的交互,并將數據給予應用層進行展示。

5)應用層

應用層主要面向用戶,將挖掘到的數據或者原始數據通過表格以及可視化圖像等進行表現。應用層分為兩種客戶端,面向醫務人員的以及面向患者的。面向醫務人員的應用層可用于輔助醫療診斷、遠程醫療等功能,醫務人員可使用網頁以及應用程序進行可視化瀏覽。面向患者的應用層可增加移動端的開發,令患者可以隨時隨地查看自己的病歷資料,例如將自己的病例數據同蘋果公司的健康APP進行數據對接。

參考文獻:

[1] 鄒北驥. 大數據分析及其在醫療領域中的應用[J].計算機教育,2014(7):24-29.

[2] 劉穎. 醫療行業大數據分析的應用初探[J].裝飾,2014(6):40-43.

[3] 張振,周毅,杜守洪,等.醫療大數據及其面臨的機遇與挑戰[J].醫學信息學雜志,2014(6):2-8.

[4] 高漢松,肖凌,許德瑋,等. 基于云計算的醫療大數據挖掘平臺[J].醫學信息學雜志,2013(5):7-12.

[5] 陳惠芳,徐衛國.大數據視角下醫療行業發展的新思維[J].現代管理科學,2015(4):70-72.

[6] 芮益芳. 大數據醫療:下一個產業“風口”[J].商學院,2015(4):100-103.

[7] 董誠,林立,金海,等. 醫療健康大數據:應用實例與系統分析[J].大數據,2015(2):78-89.

猜你喜歡
云計算數據挖掘大數據
基于并行計算的大數據挖掘在電網中的應用
實驗云:理論教學與實驗教學深度融合的助推器
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合