?

基于云計算的RNA—seq轉錄組數據分析流程初探

2017-09-13 13:02紀兆華王立東徐行健劉芳
科技創新導報 2017年19期
關鍵詞:轉錄組數據分析云計算

紀兆華+王立東+徐行健+劉芳

摘 要:隨著二代測序技術的不斷發展,轉錄組學的研究有了新的工具RNA-seq。RNA-seq可以使用高通量測序技術快速對細胞某一個狀態下完整的轉錄組進行測序,獲得該轉錄組中所有的RNA序列。相比與以往利用芯片和PCR等技術來研究轉錄組,RNA-seq有著許多明顯的優勢,所以其應用的規模不斷增加。但是RNA-seq測序結構文件非常大,每一個轉錄組樣品都會產生幾Gb到幾十Gb的序列文件,傳統的RNA-seq數據分析軟件需要耗費大量的時間和系統資源來完成分析任務。采用云計算的方法和框架,開發一套完整的RNA-seq轉錄組大數據分析軟件,用戶只需輸入RNA-seq測序的原始序列文件,即可得到最終的結果。

關鍵詞:云計算 轉錄組 數據分析 流程

中圖分類號:Q78 文獻標識碼:A 文章編號:1674-098X(2017)07(a)-0159-02

生物信息學是用數理和信息科學的觀點、理論和方法研究復雜的生命現象,組織和分析呈現指數增長的生物學數據所蘊含的知識和規律,運用計算機科學與人工智能的手段進行大量生物信息數據的收集、加工、存儲、分析與解析的科學。生物信息學的一項主要任務就是研究如何利用應用數學和計算機等學科中的方法來分析這些數據,探明數據中所包含的生物學意義。在生命科學的各個領域(基因組學、轉錄組學等),不論是基礎研究還是應用研究,生物信息學都起著重要作用[1]。

1 轉錄組研究中RNA-seq被廣泛使用

近年來,在轉錄組研究中,RNA-seq憑借著諸多優勢被廣泛使用,比如無需設計寡聚核苷酸探針、可以觀測到低表達豐度的調控基因、可以檢測到非編碼RNA的情況等。然而對RNA轉錄組的高通量全測序(whole transcriptome sequencing)會得到非常大的結果序列文件,其中包含了單端或者雙端的reads序列。這些序列首先需要進行清洗(去接頭等)之后才能繼續用于之后的分析工作。分析軟件的性能在這一過程中就顯得非常重要,好的軟件不僅需要分析結果真實可靠,對其運行時性能也有著需求,運行速度過慢或者需求過多的系統資源(如CPU時間、內存等),都會極大地降低科研人員的工作效率[2]。

2 生物信息云有助于應對生物信息大數據的挑戰

生物數據規模通常很大,近年來,這些數據隨著生物技術的發展不斷地增加。高通量測序技術迅猛發展,使生物信息學進入了大數據時代,由此所引發的多組學海量生物數據更需要利用云的方式來解決存儲和分析等問題。把云計算技術應用到生物信息學的大數據中,闡明的面向大數據的生物信息云有助于更好地應對生物信息大數據帶來的新挑戰,挖掘生物數據中蘊含的大量“寶藏”。隨著以高通量測序技術為代表的相關實驗技術的不斷發展和普及,科研人員可以更加容易和高效地獲得到大量的生物數據,其中顯然蘊含著大量的“寶藏”等待人們探索。云計算正是一種通過Internet以服務的方式,提供動態可伸縮、虛擬化的資源計算模式。但傳統的分析方法并沒有緊緊跟上,如何應對生物信息大數據帶來的新挑戰,成為了生物信息學當前的一個重要命題[3]。

3 生物信息學中的研究熱點之一RNA-seq數據分析軟件

對RNA-seq數據分析軟件的研究與開發一直是生物信息學中的研究熱點。對于各個分析任務,也都有傳統的分析軟件可以完成各個工作,如Bowtie、Tophat和Cufflinks[4]等等。也有一些研究人員將這些軟件通過腳本程序組裝成分析流程,如PRADA[5]、wapRNA[6]等等。然而由于使用OpenMP或者Pthread這樣傳統的并行模型,他們無法運行于云計算平臺之上。云計算理念的出現,使得分布式并行計算在解決大數據問題時的可用性和易用性得到了極大的提升和擴展。終端用戶不必再關心計算的內部細節,只需要將數據提交,制定出最終目標,云計算平臺就可以將數據分析的結果返回給用戶,減少了用戶花在數據處理中瑣碎細節上的時間,大大提高了科研和工作效率。對于那些無法容易獲得分布式計算集群使用權的用戶,云計算中“數據即服務”(DaaS)、“平臺即服務”(PaaS)、“軟件即服務”(SaaS)、“基礎設施即服務”(IaaS)的理念,也使得他們可以利用云計算中公開的非本地資源來進行科研工作。生物信息學科研工作者近年來也意識到大數據帶來的挑戰,開發了一些基于云計算的分析軟件,其中涉及到RNA-seq數據分析的主要有MyRNA、Crossbow等。

云計算正是專門對這類大數據問題提出的解決方案。采用HADOOP云計算框架設計實現RNA-seq大數據分析流程[15]。通過優化文件存儲與訪問、作業拆分管理等不同方面,HADOOP框架可以很好地完成生物信息學大數據分析作業。然而使用傳統并行模型開發的軟件無法直接運行在HADOOP框架之上,需要對其算法重構或改寫成MapReduce模式[16],經過調試后才能使用。對RNA-seq大數據分析流程中常見的任務模塊,開發對應的在MapReduce模式下的算法,并將其組合成從數據輸入到數據輸出的一站式分析流程(analysis pipeline),用戶只需提供RNA-seq原始數據集,即可得到最終需要的分析結果。

參考文獻

[1] Mortazavi A, Williams B A, McCue K, Schaeffer L and Wold B 2008 Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods5 621.

[2] Armbrust M, Stoica I, Zaharia M, Fox A, Griffith R, Joseph A D, Katz R, Konwinski A, Lee G, Patterson D and Rabkin A 2010 A view of cloud computing Commun. ACM53 50.

[3] Dai L, Gao X, Guo Y, Xiao J and Zhang Z 2012 Bioinformatics clouds for big data manipulation. Biol. Direct7 43; discussion 43.

[4] Langmead B and Salzberg S L 2012 Fast gapped-read alignment with Bowtie 2. Nat. Methods9 357.

[5] Torres-García W, and Verhaak R G W 2014 PRADA: pipeline for RNA sequencing data analysis. Bioinformatics30 2224.

[6] Zhao W, and Hu S 2011 wapRNA: a web-based application for the processing of RNA sequences. Bioinformatics27 3076.endprint

猜你喜歡
轉錄組數據分析云計算
淺析大數據時代對企業營銷模式的影響
實驗云:理論教學與實驗教學深度融合的助推器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合