?

生物數據可視化研究

2021-03-02 01:18紀兆華王春云高春紅于靜紅
關鍵詞:云計算技術可視化

紀兆華 王春云 高春紅 于靜紅

【摘? 要】論文探討生物大數據可視化直觀展現測序數據、分子結構數據等多種生物學數據。數據可視化幫助生物大數據科學分析數據結果,如同時間或空間相關的信息等,通過計算機圖形學、統計學等技術轉變為更加直觀生動的圖或表。計算機可視化操作能夠將抽象的信息進行直觀的分析并表示出來,有助于更好地理解數據,增強認知數據。

【Abstract】This paper discusses the biological big data visualization and visual presentation of sequencing data, molecular structure data and other biological data. Data visualization helps biological big data analyze data results scientifically, such as information related to time or space, etc., which can be transformed into more intuitive and vivid graphs or tables through computer graphics, statistics and other technologies. Computer visualization can analyze and represent abstract information intuitively, which is helpful to better understand data and enhance cognitive data.

【關鍵詞】云計算技術;生物大數據;可視化

【Keywords】cloud computing technology; biological big data; visualization

【中圖分類號】TP311.1;Q811.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)01-0193-02

1 引言

生物大數據中蘊含著生命起源、疾病健康和農作物培育等重要信息,對生物大數據的高效準確解讀事關人類健康、糧食安全等重要問題。由于生物大數據有著類型復雜、結構異質、冗余性高和體積龐大等特點,科研人員需要借助數據可視化等方法才能理解其組成特征和內在聯系,進而更加快速和有針對性地從中挖掘出相關知識信息[1]。

2 生物學進入了大數據時代

隨著生物技術的不斷發展,海量數據信息正在得以飛速累計,生物學跨入大數據時代,以二代高通量測序為代表的各種新型實驗技術正在快速產生和累積出海量的數據集合,這些蘊藏著豐富知識信息的數據集合被稱為生物大數據。近年來,世界范圍內產生多個大型生物學大數據產出項目,如癌癥基因組圖譜計劃(TCGA)、千人基因組計劃等,這些數據存儲在歐洲生物信息學研究所(EBI)、美國國立生物技術信息中心(NCBI)等公共數據庫中,我國自主創辦的生命與健康大數據中心(BIGD)也已建成并對外提供服務[2]。

3 數據可視化有利于科學地展示數據分析的結果

數據可視化將具有大量數據的數據庫中的文本或者二進制數據的特征信息,如同時間或空間相關的信息等通過計算機圖形學、統計學等技術轉變為更加直觀生動的圖或表,計算機可視化操作能夠將抽象的信息進行直觀的分析并表示出來,有助于更好地理解數據,增強認知數據,并挖掘出大量數據中蘊含的事務之間的規律或內在信息[3]。生物學大數據可視化分析的作用主要包括三個方面:幫助科研人員快速從體積龐大、缺乏組織脈絡的原始數據集中抽取出本質特征,為研究工作提供理論指引;抽取出生物學大數據中某一維度的特征,以圖形化的方式進行直觀展示和強調;可以有效地將生物學大數據進行解構,去除其中的冗余信息和背景噪音,得到更加具有科學意義的數據分析結果[4]。

4 基于云計算生物大數據可視化

4.1 云計算

隨著生物學大數據的不斷快速累積,國內外科研人員一直在尋找高效快速解決大數據問題的有效途徑,其中云計算技術是被廣泛認可的一種較為成熟的技術體系。云計算的常用服務模式包括“平臺即服務”(PaaS)、“軟件即服務”(SaaS)、“基礎設施即服務”(IaaS),這些服務模式的出現都旨在使用戶更加容易地獲取和使用到足夠的計算資源,同時免除自行維護計算機硬件的負擔。常用的云計算框架則包括了Hadoop、Spark等,通過將整體運算、存儲和數據傳輸負載均勻分配到計算機集群中的每個節點,達到了加速數據分析速度的目的,基于這些技術構建的應用程序在處理大數據時可以表現出優異的性能。

云計算技術是計算機科學中為了解決大數據問題而提出的一套技術體系,在生物學大數據分析中也被多次證明其實用性和可行性?;谠朴嬎慵夹g可以構建生物學大數據可視化平臺,進行高效易用的大數據可視化分析,各可視化工具密切配合,共同協作完成生物學大數據可視化這一重要分析任務。

鑒于此,近年來先后出現了多個基于云計算技術的生物學大數據分析軟件,在相關文獻的評價測試中,這些軟件也取得了較為令人滿意的成績。隨著輸入數據集大小的增加,這些基于云計算技術開發的生物學分析軟件性能指標超過了傳統軟件乃至數倍。

4.2 傳統數據可視化軟件

常用的可視化工具通常采用一些專業工具如Tableau、DataV等,開發簡單并且不用開發代碼,具有較好的展示效果。傳統的數據可視化方案大多是針對規模較小的數據集進行設計和實現,無法高效、直觀地展現出生物學大數據所蘊含的關鍵信息。這些軟件所存在的共有問題還包括了可定制程度低,只能在其提供的可視化樣式之中選擇。對于有更深層次定制化需求的用戶,使用基于R語言或者Python語言的可視化工具,如BioConductor(http://www.bioconductor.org/)和BioPython(http:// biopython.org/)等[5]。

4.3 基于云計算生物大數據可視化技術

近年來先后出現了多個基于云計算技術的生物學大數據分析軟件,隨著輸入數據集大小的增加,這些基于云計算技術開發的生物學分析軟件性能指標超過了傳統軟件乃至數倍。采Web技術和Web前端技術相互結合實現,如常用的技術為Web技術、數據庫技術和前端技術,其特點是可定制能力強。Web的生物大數據挖掘,采用了云計算存儲和處理架構、分布式數據挖掘算法和大數據存儲、處理服務模式,易于使用基于Web的大數據挖掘技術構建基于Web的大數據分析環境[6]。

Hadoop和Spark技術是云計算領域中常用的數據分析技術,在生物大數據可視化工具的后端分析計算任務,通過盡量均勻地將分析任務計算負載和數據傳輸負載分散到計算機器中的每個節點,達到提高系統整體并行加速性能指標的目的。Hadoop是開源分布式計算框架,在大數據分析和半結構化數據集方便具有良好的存儲功能,其中HDFS提高了大數據文件的存取速率,MapReduce將大規模數據集切分成多個不同大小的數據分片map,執行map任務,之后將結果通過hash分區分發到reduce任務的多個節點進行存儲。Spark為基于內存計算的大數據并行計算框架,可以處理實時的大數據,在性能上比MapReduce高,有較強的容錯性和高可伸縮性。Spark與Hadoop結合,共享集群節點提供的資源,提高運行效率,速度快、通用性強[7]。

基于云計算技術的生物大數據可視化分析平臺可視化強、效率高。雖然目前在生物學大數據可視化的相關研究領域中,云計算技術缺乏成熟應用,但是許多通用型大數據可視化軟件已經流行開來,如Highcharts(https://www.highcharts.com/)、D3(https://d3js.org/)和ZoomData(https://www.zoomdata.com/)等。這些軟件大多采用HTML5技術來實現,有著交互性強、界面美觀、易于使用等特點,并且提供動態網頁作為輸出可視化結果選項,大大方便了軟件工具間的整合?;贖TML5的可視化技術,相比于傳統的靜態可視化展現方式,基于HTML5的可視化展現方式有著高交互性、界面更加美觀、易于和其他軟件工具相互結合和便于傳播分享等優點。D3圖形可視化庫來完成項目設計的可視化展示,更加適應生物大數據可視化需求。采用云計算技術可以構建運行效率高、實用性強和可擴展性好的生物學大數據可視化平臺,科研人員通過該平臺可以直觀展現測序數據、分子結構數據、關系網絡數據等多種生物學數據,為生物學和醫學等領域中的可視化問題提供基礎軟件設施[8]。

5 結語

生物大數據在處理流程上和傳統的生物數據處理流程沒有大的差異,關鍵在于生物大數據處理要分析大量非結構化數據。生物學數據可視化貫穿科研工作的各個階段,在實驗材料選擇、實驗方案設計、結果分析討論和論文發表等階段均起到不可替代的重要作用,生物學數據可視化軟件的運行效率、易用與否將直接決定了相關科研人員的工作效率。生物大數據規模大、維度高、非結構化,通過生物大數據可視化分析展現了數據實時場景及交互性能,更有利于理解數據及對相關數據時間、空間信息知識的展現。

【參考文獻】

【1】周琳,孔雷,趙方慶.生物大數據可視化的現狀及挑戰[J].科學通報,2015,60(Z1):547-557.

【2】張廣旭.基于Spark的基因數據聚類分析及可視化[D].長沙:湖南大學,2017.

【3】傅耀威,賈燕紅,張軍,等.大數據可視分析發展現狀與趨勢[J].中國基礎科學,2019,21(04):53-58.

【4】楊立博.云計算技術發展分析及其應用探討[J].網絡安全技術與應用,2014(04):89+92.

【5】劉江濤,邢輝.淺析生物大數據可視化的現狀及挑戰[J].中國新通信,2016,18(02):152.

【6】王玉.大數據時代Hadoop和Spark技術研究[J].品牌研究,2020(04):88-90.

【7】檀照望.基于Spark的大數據處理可視化工具的設計和實現[D].北京:北京郵電大學,2017.

【8】李萬鋒.基于Java EE的數據可視化平臺設計及主要功能實現[D].北京:中國科學院大學(中國科學院工程管理與信息技術學院),2017.

猜你喜歡
云計算技術可視化
自然資源可視化決策系統
基于Power BI的油田注水運行動態分析與可視化展示
自然資源可視化決策系統
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
科技期刊編輯出版工作中云計算技術的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合