?

一個Chip-seq的生物信息分析流程

2016-04-11 05:42陳作舟張俊芳
生物技術世界 2016年3期
關鍵詞:斑馬魚基因組測序

陳作舟張俊芳

(上海海洋大學水產與生命學院 上海 201306)

一個Chip-seq的生物信息分析流程

陳作舟*張俊芳

(上海海洋大學水產與生命學院 上海 201306)

本文簡單的介紹了一個Chip-seq 的生物信息分析流程的設計和實現。

生物信息 Chip-seq 基因組

1 引言

隨著二代測序技術的持續優化,測序成本大幅度降低,生命科學的各個領域發展了針對二代測序的各種應用,其中有一類就是通過免疫沉淀富集基因組的片段,使研究者得以研究基因組的不同狀態之間的差異,例如不同組織基因表達的差異是如何實現的,癌癥和正常細胞的基因組狀態有何差別,細胞的基因組是如何適應環境溫度變化的。Chip-seq是通過染色質免疫共沉淀技術(ChIP)富集目的蛋白結合的DNA片段,繼而對富集得到的DNA片段進行高通量測序。目前已經有很多工具能夠對這類數據進行分析,各有優缺點,并沒有形成統一的模式,例如有的僅僅提供在線分析,有的僅僅提供某些核心環節的分析,為此,我們建立了一個Chip-seq的分析流程,該流程整合了若干生物信息工具以及若干R語言包,現簡述如下,以供生命科學的研究人員參考。

2 結果與方法

2.1 測序數據與基因組比對

假定我們已經得到斑馬魚的兩組轉錄組因子的Chip-seq測序數據,A和B,以及它們的未進行免疫沉淀測序的對照結果序列文件(control)inputAB。 A和B可以預先通過FastQC或FastX等工具來控制數據質量。然后我們將A和B對斑馬魚的基因組進行比對,比對工具有Bowtie/Bowtie2, BWA和STAR等。這里我們用Bowtie2舉例說明:

bowtie2 -p 4 -x dr.genome -U A.fatsq S A.sam

bowtie2 -p 4 -x dr.genome -U B.fatsq S B.sam

bowtie2 -p 4 -x dr.genome -U inputAB.fatsq S inputAB.sam

其中-p 代表使用的CPU核心數量, -x代表對應的基因組, -U代表輸入的fastq序列文件, -S代表輸出的比對結果,該結果為SAM格式。SAM格式可通過Samtools和Bedtools等工具轉化成Bed格式。

2.2 得到免疫沉淀的峰文件(Peak Calling)

有多個工具可以執行Peak Calling工作,比較常用的有MACS/MACS2、SICER等,在這里我們以MACS舉例說明。

macs14 -t A.bed -c inputAB.bed -f BED -g dr -n A --keep-dup=1

macs14 -t B.bed -c inputAB.bed -f BED -g dr -n A --keep-dup=1

其中-t 代表前一步得到的基因組比對(alignment)文件,-c代表免疫沉淀的control文件,-f BED表示輸入文件的格式為BED,-g代表基因組的類型,這里用的是斑馬魚,-n代表輸出文件名,--keep-dup代表重復的測序計算的次數。

2.3 合成峰(Peak Merging)

Bedtools merge -i AB_peaks >AB_peaks.merged

利用Bedtools軟件包中的merge功能,將A和B的兩組峰合成一組。以合成的峰組作為一個公共的可比較的對象(Reference)來進行后續分析。

2.4 分析1:覆蓋情況分析及文氏圖

Bedtools coverage -a AB_peaks.merged -b A_peaks.bed>A_coverage

Bedtools coverage -a AB_peaks.merged -b B_peaks.bed>B_coverage

利用Bedtools軟件包中的coverage功能,計算A和B對Reference的覆蓋情況??梢詫⒌玫降慕Y果利用R語言自帶的或者第三方的文氏圖相關軟件包進行作圖,例如“VennDiagram”,“Vennerable”等。

該分析適用于以下幾種情形:

(1)兩個或多個具有潛在相關性的DNA結合蛋白,例如轉錄因子,我們需要研究它們的相關性情況,為相互作用提供證據(此為Chip-seq分析)。(2)一個DNA結合蛋白在細胞不同狀態的結合情況(此為Chip-seq分析)(3)以上兩種情況的結合(此為Chip-seq分析)(4)以上的DNA結合蛋白更換為組蛋白修飾(此為Chip-seq分析)

2.5 分析2:差異分析

以上覆蓋情況分析的著重點在于不同庫(library)的峰在的基因組位置上的異同,從而為尋找出基因組的不同狀態之間的生物學差異提供線索,而差異分析目的是進一步得到不同庫的公共的峰的相對表達量的差異。先利用第4步得到的合成峰作為參考區域,然后計算參考區域的Reads覆蓋情況,均一化(Normalize)以后進行統計分析,一般如果沒有重復(Replica)的話,使用Fishers' Exact test或Chi-square test,如果有重復,則使用專用的R語言軟件包如edgeR等。

2.6 分析3:差異分析后的Gene Ontology(GO)富集分析

我們利用GO.db這一R語言模塊檢索GO的上下級關系。富集檢測利用Fishers' Exact test。

2.7 分析4:通過多Peak的聯合分析發現整體上調或下調的通路

先將斑馬魚的基因注釋到KEGG通路上,然后利用Wilcoxin Rank test檢測出差異分布的通路。

2.8 分析5:峰的注釋及分析

利用UCSC的斑馬魚基因組對峰進行注釋,一般根據峰和基因組元件(如啟動子區域)的重疊情況進行注釋。然后得到峰在不同基因組元件上的分布情況。

2.9 分析6:免疫沉淀峰(Chip-seq)與基因表達譜(RNA-seq)的聯合分析

免疫沉淀峰和基因表達譜的聯合分析有多種類型,我們主要對不同組織的峰的組合所對應的基因表達情況進行分析,例如兩種轉錄因子組合所在區域的基因表達是否提高。

[1]Park PJ. Chip-seq: advantages and challenges of a maturing technology. Nat Rev Genet.2009(10):669-680.

[2]Anders S, Huber W. Differential expression analysis for sequence count data. Genome Biol. 2010(10):106.

Q753

A

1674-2060(2016)03-0333-01

感謝:本文受上海市青年教師資助計劃(項目編號:ZZHY13001,陳作舟)、上海市人才發展資金(項目編號:201457,張俊芳)和上海市上海高校高峰高原學科建設計劃資助。

張俊芳,(1976—),女,山西太原人,博士,教授,基因組學與表觀遺傳學。

陳作舟(1979—),男,浙江杭州人,博士,高級工程師,主要從事生物信息分析工作。

猜你喜歡
斑馬魚基因組測序
小斑馬魚歷險記
牛參考基因組中發現被忽視基因
二代測序協助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
基因測序技術研究進展
瓜蔞不同部位對斑馬魚促血管生成及心臟保護作用
油紅O染色在斑馬魚體內脂質染色中的應用
基因捕獲測序診斷血癌
單細胞測序技術研究進展
基因組DNA甲基化及組蛋白甲基化
有趣的植物基因組
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合