?

大數據在高校教學中的應用

2020-07-27 14:56林欽永蔡肯王克強
博鰲觀察 2020年4期
關鍵詞:高校教學大數據

林欽永 蔡肯 王克強

內容摘要 隨著人工智能、5G技術、深度學習、移動互聯網、智能手機、物聯網等技術的蓬勃發展,全球圖像數據正呈幾何倍數的速度增長。同時,海量的數據也帶來了存儲和處理上的困難。存儲容量往往同存儲性能成反比,基于單節點的傳統處理方法難以有效應對,而大數據中的分布式存儲和計算技術等為解決這些問題提供了方案。文章從大數據和神經影像學的概念出發,介紹了具有代表性的分布式存儲的處理系統及神經影像學領域中數據共享的現狀,隨后以腦網絡為例介紹了神經影像學中的數據分析方法,最后對文章進行了總結和展望。

關鍵詞 大數據 高校教學 分布式存儲

1 引言

隨著人工智能、5G技術、深度學習、移動互聯網、智能手機、物聯網等技術的蓬勃發展,全球圖像數據正呈幾何倍數的速度增長。這些信息數據主要由使用智能設備的用戶產生,具有極大的科研和商業價值。對于大數據的定義目前尚未有統一的說法,一些文獻中指出,大數據是指具有復雜結構的海量數據,它們難以使用傳統的方法和工具進行處理,它的過程包括數據的獲取、存儲、格式化、提取、管理、集成、分析和可視化。大數據的“大”對數據的存儲和計算提出了更高的要求。另外,神經系統的新型檢測和成像技術的發展帶來了令人興奮成果,同時也在數據存儲、分析、計算等方面提出了挑戰,而大數據技術的發展為這些問題的解決提供了新的途徑。

2 背景介紹

2.1 大數據特征

大數據相較傳統數據具有體量大、速度快、模態多、難辨識和價值大密度低的特征[1]。大數據的類型多種多樣,而處理大數據的方式主要有流處理和批處理[2]。流處理的處理機制是直接對大數據進行處理,而批處理所采用的處理機制則是先將大數據存儲到介質中,后續使用時再對它進行處理,也稱為先存儲后處理。

2.2 大規模神經影像

腦科學研究是近年來的研究熱點領域,隨著人工智能等工具在腦科學領域的廣泛應用,人類已可解碼一小部分腦電波信號,腦機交互工程的突破也邁出重要的一小步,實現控制機械臂協助截肢者完成捉取食物等動作。2016年,歐盟啟動“人腦計劃”項目,耗資10億歐元,計劃研究時長達10年之久;緊隨歐盟,美國也推出了美國版的人腦計劃項目——“尖端創新神經技術腦研究計劃”,該項目計劃在10年內投入45億美元的研究經費[3]。上述項目的投入掀起了腦科學的研究熱潮,旨在通過融合神經科學、醫學和計算機學等學科的多學科交叉研究,使用超級計算機對現有人腦大數據進行建模計算,探索人類腦部的結構、信息傳遞、功能及其相互間作用的關系,進而認識人腦活動和人類行為、腦部相關疾病之間的相關性,為開發新的腦部疾病治療手段和藥物研發方法提供理論依據和參考[4]。

人腦大約由1011個神經元組成,而連接神經元的神經突觸則高達1015對,構建成龐大而復雜的神經網絡,它們通過相互作用共同完成人腦活動的各種功能。當前關于腦科學的影像學研究結果表明許多神經精神類疾病與人腦結構和腦功能網絡的異常相關,這些研究結果能夠給予治療這些神經精神類提供指導,同時還可提供剖析神經精神疾病病理機制的新思路,而影像學特征則是臨床醫生對神經精神疾病進行診斷的依據,它們主要用于早期診斷和治療。

隨著成像設備和成像技術的快速發展,大腦成像的數據量也在迅速增加。一旦這些方法被證實具有較高的可靠性和魯棒性,那么使用相應的分析方法,研究者們能很快處理它們,而數據處理又會使得數據量成倍增加。事實上,許多關于fMRI(Functional Magnetic Resonance Imaging,即磁共振腦功能成像)的文章,比如行業里權威雜志NeuroImage上的一些文章中,提出自從1995年以來,收集的數據量每過將近26個月就翻一番。按照這種速率,在2015年,僅僅神經影像的圖像數據量,每一篇發表的文章中,除去頭信息數據處理過程中的信息和統計數據,平均數據容量就已經超過20 GB[5]。

3 分布式存儲與計算

3.1 數據存儲

fMRI是神經影像成像的一個典型代表,其由于非侵入性、沒有輻射暴露等優勢廣泛地應用于人及動物的腦或脊髓的研究中。在事件相關fMRI中,在常規的空間圖像中加入時間維度,即圖像是隨時間變化的一系列圖像。目前,在對老鼠的視覺皮質區域進行監視中,在8 s內的雙光子成像可以產生512×512×4的像素。因此,每小時可以產生60 GB的數據。而在整個大腦激光片層掃描過程中,一條斑馬魚每2 s可以產生1000×2000×40個像素。因此,在1 h內會產生1.2 TBs的數據。而隨著技術進步帶來的空間和時間分辨率的提升,這些數據大小只會進一步增加。

圖像數據的爆炸式增長首先帶來了存儲的困難,為解決高效存儲和快速處理圖像數據,研究者設計了高性能分布式計算框架,也就是所謂的云計算平臺[6]。云計算系統具有媲美超級計算機的計算能力,它采用分布式數據存儲和處理技術,將多臺計算機的計算能力進行匯總,達到存儲和處理海量數據的能力。

云計算系統主要采用GFS(Google File System)和HDFS (Hadoop Distributed File System)進行海量數據的存儲和處理操作。其中,GFS是一個具有拓展功能的分布式文件系統,其對計算機硬件性能要求較低,并且具有較強的容錯功能,在文件讀寫模式方面需要在應用程序的協助下完成某些具體操作,主要通過API接口實現與應用程序協同交互,這種設計方式有助于提高該文件系統的操作靈活性[7]。HDFS主要用于存儲靜態數據,它通過MapReduce將計算邏輯分配給云計算系統的各個數據節點,采用花整為零的方式進行數據計算[8]??蛻舳四軌蛲ㄟ^名稱結點對元數據進行讀和寫操作,也可直接對數據結點進行操作[9]。HDFS由于具有可擴展性、效率高、能夠在通用平臺上部署、可靠性強、成本低等優勢大受開發者歡迎,當前已逐步成為工業與學術界公認的海量數據并行處理標準[10,11]。

3.2 數據共享

為了滿足臨床的需要和病人信息數據的查詢共享,我國絕大多數醫院都搭建了內部的醫療信息管理系統,如用于影像數據存儲和傳輸的PACS系統,以及用于管理門診、病歷、藥庫等醫療信息的HIS系統。醫院內部的醫療信息管理系統是醫院數字化發展的重要產物,其能夠服務于醫院內各個醫療部門間的信息處理、交互、共享等需求,同時也可實現對公眾發布本院臨床專家的簡介和坐診時間等信息。醫學影像數據是醫院所產生數據的重要組成部分,占醫院產生數據總量的90%以上,它既是臨床診斷的主要依據,也是研究疾病的重要材料。如何存儲和管理海量醫學影像數據已成為我國醫療信息管理系統的首要問題。醫學影像數據庫作為存儲、傳輸、管理、處理醫學影像大數據的主要工具,是在普通圖像數據庫技術的基礎上融合相關臨床醫學及生物醫學等相關領域的關鍵信息發展起來的。

當前,醫學影像數據庫的研究和構建已取得較好的成果,如由病理學家Dr. John Monarch創建的腫瘤及乳房影像的數據庫、由ADNI(Alzheimers Disease Neuroimaging Initiative)創建的阿爾茨海默癥數據庫。而在國內,關于阿爾茨海默癥臨床數據的存儲和管理仍無一個完善、成體系的管理系統,使臨床影像數據采集不夠規范完整,科學研究者無法充分利用這些影像數據進行深入研究。此外,帕金森綜合征、腦連接組成像等領域也建立了相關的數據庫,但國內對這些數據庫管理同樣存在阿爾茨海默癥數據庫同樣的問題。這些數據共享和開放不僅是數據采集者的責任,同時也是數據庫管理者的責任。后者需要妥善地對數據進行管理,以安全有效地提供給需求者相應的數據。但是,由于存在各種互不相關的項目,而且這些項目有的涉及倫理方面,在能夠有效利用之前必須先妥善地處理好這方面的問題。神經影像數據的共享能夠起到以下作用:能夠廣泛利用世界各地的數據;能夠用于最新的方法當中;推廣數據的重復分析和重復使用。

4 神經影像學中數據處理方法:以腦網絡為例

目前,經過多年的積累,全球多家醫院和多個知名實驗室在對神經精神類疾病的研究中已積累不同研究領域的大量數據,這些大數據主要有基因組學的實驗和臨床研究數據、神經組學的實驗和臨床研究數據、多模態腦影像的實驗和臨床研究數據。由于實驗數據量呈現幾何倍數增長,以及數據間相關性的錯綜復雜,僅僅通過孤立的實驗觀測和傳統的數據統計方法已難以剖析數據內部隱藏的規律。因此,如何利用大數據模型結合深度學習方法計算多尺度多模態的相關性,從基因層次到神經元層次再到腦結構網絡層次形成多層次的學科交叉研究成為未來發展神經影像學的重要方向之一[12]。

當前,神經影像學的一個研究熱點是腦網絡研究,其研究方法大致可分為兩大類。第一類是基于組塊—事件關聯性的研究方法,如局部一致性分析法[13]、小世界模型分析法[14]、默認模式網絡分析法[15]等[16];第二類是基于機器學習方法使用這些神經影像數據對患者進行個體分類及預測,其中深度學習已成為分析神經影像數據的重要方法[17,18]。

應用機器學習方法對腦網絡分析的前提是先構建腦網絡,而腦網絡的構建可分為功能性網絡和結構性網絡。通常,結構性的腦網絡通過神經影像序列進行構建,如通過采集彌散張量成像或擴散頻譜成像序列,再結合醫學上的連接模式來創建大腦網絡的相關性,并使用矩陣表示腦網絡的相關性,從而構建出結構性腦網絡。而功能性腦網絡的構建則需要采集相關大腦區域活動的神經影像學時間序列,再結合聚合測量方法對這些神經影像學時間序列進行計算分析,從而得到神經影像學時間序列的相關性,這種相關性同樣能夠使用矩陣的形式進行表示,該矩陣代表了腦網絡時間序列的相關性。

應用機器學習方法對腦網絡分析的關鍵步驟是使用神經影像數據進行特征學習,它為后續的網絡分類提供重要依據。特征學習的一般步驟是先從腦網絡數據提取用于學習的特征,通常選擇一些有意義的網絡局部測量作為學習的特征,然后采用機器學習中的一種或多種特征選擇算法篩選出一些有助于分類和理解疾病的重要特征。機器學習方法應用于腦網絡分析的目標在于對腦網絡進行分類和預測。腦網絡分析方法中廣泛地使用機器學習和模式識別中的各種分類方法,其中,該方法因能夠提供一個通用的框架而得到了廣泛的研究和應用。

5 結語

隨著成像設備和成像技術的快速發展,如磁共振波譜成像、擴散加權成像、灌注加權成像、擴散張量成像等成像技術的出現,極大地推動了神經影像學的發展,為神經影像科學家對大腦神經的結構和功能的認識和進一步研究提供了基礎。但是,海量的數據也帶來了數據存儲、處理的困難。普通圖像數據庫技術由于其文件管理系統無法實現分布式存儲和處理大數據,加上硬件設備無法提供大數據處理所需的強大算力,因而出現效率低、并發性低、可拓展性差等問題?,F代化的大數據存儲和處理技術,如云計算系統,在神經影像學上的應用可有效地解決上述問題。云計算系統所采用的分布式數據存儲技術能夠滿足海量的數據存儲和處理能力,它具有將存儲資源進行抽象表示和統一管理的功能,同時還具有良好的數據安全功能,能夠保障數據在安讀寫操作過程中的安全性。文章介紹了兩種典型的分布式存儲處理系統,即谷歌公司研發的GFS和Hadoop研發的HDFS系統,還對神經影像在數據共享方面的現狀進行了綜述,最后通過一個腦網絡計算實例展現了神經網絡中數據分析的一般流程。然而,目前在神經網絡中,這些海量數據的存儲和處理技術還遠遠未成熟。隨著這些應用的進一步深入,必能推動神經網絡學的進一步發展,為人類解開大腦的謎題奠定基礎。

【參考文獻】

[1]Cheng X,Jin X,Wang Y,et al. Survey on big data system and analytic technology[J].Journal of Software,2014,25(9):1889-1908.

[2]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.

[3]顧凡及.歐盟和美國兩大腦研究計劃之近況[J].科學(上海),2014,66(5):16-21.

[4]邵亞超,劉光明,吳思,等.面向高性能計算平臺的腦科學仿真技術研究[J].北京師范大學學報(自然科學版),2015(6):576-581.

[5]Van Horn J D,Toga A W.Human neuroimaging as a “Big Data” science[J].Brain Imaging and Behavior,2014,8(2):323-331.

[6]張功榮.基于云計算的海量圖像處理研究[D].福州:福建師范大學,2015.

[7]蔡鍵,王樹梅.基于Google的云計算實例分析[J].電腦知識與技術,2009(25):7093-7095+7107.

[8]程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014(9):1889-1908.

[9]黃曉云.基于HDFS的云存儲服務系統研究[D].大連:大連海事大學,2010.

[10]廖彬,于炯,張陶,等.基于分布式文件系統HDFS的節能算法[J].計算機學報,2013,36(5):1047-1064.

[11]陳吉榮,樂嘉錦.基于Hadoop生態系統的大數據解決方案綜述[J].計算機工程與科學,2013,35(10):25-35.

[12]汲小溪.大數據驅動的計算生物標識研究[D].上海:復旦大學,2014.

[13]侯小燕,陳維翠,陳俊,等.組穴針刺治療頸痛患者默認網絡的ReHo研究[J].磁共振成像,2014,5(6):436-440.

[14]Sanz-Arigita E J,Schoonheim M M,Damoiseaux J S,et al.Loss of “small-world”networks in Alzheimer's disease: Graph analysis of FMRI resting-state functional connectivity[J].PloS One,2010,5(11):13788.

[15]Greicius M D,Srivastava G,Reiss A L,et al.Default-mode network activity distinguishes Alzheimer's disease from healthy aging: Evidence from functional MRI[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(13):4637-4642.

[16]Bai F,Zhang Z,Watson D.R,et al.Abnormal functional connectivity of hippocampus during episodic memory retrieval processing network in amnestic mild cognitive impairment[J]. Biological Psychiatry,2009,65(11): 951-958.

[17]田苗,林嵐,張柏雯,等.深度學習在神經影像中的應用研究[J].中國醫療設備,2016(12):4-9.

[18]張道強,接標.基于機器學習的腦網絡分析方法及應用[J].數據采集與處理,2015,30(1):68-76.

猜你喜歡
高校教學大數據
淺談小學語文課堂如何有效施行“活”“趣”“實”
從教育的本質意義淺談微課的作用地位
關于未來“會診化”高校教學模式構建
MOOCs
高校藝術設計專業工作室教學模式的研究
新時期排球運動在高校體育運動中的價值
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合