?

四倍體海島棉LTR反轉錄轉座子的數量與分布

2018-06-07 02:30劉震張樹林史瑩慧彭仁海
生物技術通報 2018年5期
關鍵詞:海島棉轉座子四倍體

劉震 張樹林 史瑩慧 彭仁海

(安陽工學院生物與食品工程學院,安陽 455000)

長末端重復序列(Long terminal repeat,LTR)反轉錄轉座子是真核生物基因組中普遍存在的一類可移動的DNA序列,它們以RNA為媒介,通過“復制-粘貼”的形式在基因組中不斷自我擴增。LTR反轉錄轉座子的插入和刪除對基因組的進化和物種的環境適應能力都具有重要的意義[1],此外,LTR反轉錄轉座子、基因組重復和多倍化是導致植物基因組擴增和收縮的三個主要原因[2,3]。LTR反轉錄轉座子根據內部編碼基因(gag,pol和int)排列順序的不同,分為Copia和Gypsy兩類主要的超家族[4]。LTR末端不編碼蛋白質,但包含轉錄的起始信號和終止信號,內部編碼區gag基因編碼的蛋白負責反轉錄轉座子RNA的成熟和包裝,pol基因編碼反轉錄酶和 RNAse H,INT(Integrase)基因編碼整合酶[4]。

LTR反轉錄轉座子的插入除了可以導致基因組的膨脹外,更重要的是影響插入位點及其相鄰基因的表達[5,6]。LTR反轉錄轉座子能夠完成自我轉錄是因為其本身含有轉錄所需的調控元件。當LTR反轉錄轉座子插入到基因編碼區就可能導致該基因轉錄成不完整RNA序列,進而不能被翻譯成完整的肽鏈,或者該RNA失去其調控能力;當LTR反轉錄轉座子插入到基因附近區域時,其序列內的調控元件將會發揮作用,并影響附近基因的表達[7]。

棉纖維是紡織工業中天然纖維的主要來源。中國種植的四倍體棉花主要包括陸地棉和海島棉兩個栽培種,陸地棉豐產性好,而海島棉不僅纖維品質優良,而且是鹽堿地的主要栽培作物。隨著國內紡織技術的發展和人們生活水平的提高,海島棉的需求量也逐年增加。

四倍體海島棉的基因組為2.57 G,大約69.11%為重復序列,其中A亞組重復序列占73.5%(1 098 Mb),D 亞組重復序列占 63.5%(541.6 Mb)[8,9],而A基因組的亞洲棉與D基因組的雷蒙德氏棉中轉座子的含量則分別為57.0%和68.5%[10]。在四倍體棉種轉座子起源的相關研究中,發現更多的LTR反轉錄轉座子起源于A基因組,或者說,四倍體A亞組中有更多的轉座子拷貝[11,12]。此外,雷蒙德氏棉的轉座子數據庫也已經公布[13]。這些數據為深入研究海島棉LTR反轉錄轉座子提供了絕佳的機遇。本研究首先綜合多種不同的方法挖掘了海島棉基因組中的LTR反轉錄轉座子,然后對這些轉座子進行了家族分類、周邊基因的功能富集、數量分布和統計分析。本研究對海島棉基因功能分析和基因組進化有重要的參考價值。

1 材料與方法

1.1 材料

海島棉的基因組序列、基因注釋和GO注釋文 件 均 從 COTTONGEN(https://www.cottongen.org/)下載。

1.2 方法

1.2.1 海島棉LTR反轉錄轉座子的挖掘與分類 分別通過依據LTR反轉錄轉座子結構特征的工具LTR_STRUC[14]和 LTRharvest[15];依據 LTR 反轉錄轉座子重復特征的工具PILER[16];以及綜合性工具RepeatModeler[17]搜尋海島棉基因組中的LTR反轉錄轉座子。使用REPCLASS[18]軟件將上述結果序列歸類到相應的超家族,并將相同的超家族合并,之后再與已知重復序列數據庫Repbase[19]進行進一步的合并。利用CD-HIT[20]去除合并結果中的冗余序列,得到海島棉特異的LTR反轉錄轉座子序列庫,最后利用RepeatMasker[21]注釋海島棉基因組中的LTR反轉錄轉座子,由同一參考序列注釋到的一組序列被認為是一個家族。分析過程中,要求LTR反轉錄轉座子序列最短為80 bp,每個LTR反轉錄轉座子家族在基因組中有100次以上的重復拷貝。

1.2.2 海島棉LTR反轉錄轉座子的數量與分布 通過Perl腳本從RepeatMasker結果文件中收集LTR反轉錄轉座子在海島棉基因組的數量和位置,并利用gff注釋文件的數據收集基因的數量和位置。統計分析染色體中每100 kb范圍內的LTR反轉錄轉座子與基因的數量,并通過Circos[22]繪制分布圖。

1.2.3 海島棉LTR反轉錄轉座子周邊基因的GO富集分析 查找海島棉LTR反轉錄轉座子上、下游20 kb范圍內的基因,利用基因組GO注釋文件確定這些基因的GO注釋條目,并使用WEGO[23](http://wego.genomics.org.cn/)進行富集分析。

2 結果

2.1 海島棉LTR反轉錄轉座子的數量分析

圖1 海島棉A亞組和D亞組共有和特異的LTR反轉錄轉座子家族

海島棉為四倍體棉種,A亞組和D亞組各包含13條染色體。數據結果(圖1)表明海島棉基因組中共包含2 018個100拷貝以上的LTR反轉錄轉座子家族,其中1 930個家族共同存在于A亞組和D亞組中,84個家族為A亞組特異,4個家族為D亞組特異。A亞組共包含274 360個LTR反轉錄轉座子拷貝,D亞組則包含209 415個拷貝,因此,LTR反轉錄轉座子在A亞組中的拷貝要比D亞組多,這一特征對于高拷貝數的LTR反轉錄轉座子家族表現的更為明顯(圖2)。此外,從圖2還可以大致看出,一個LTR反轉錄轉座子家族在較大的染色體上有較多的拷貝數,在較小的染色體上有較少的拷貝數,LTR反轉錄轉座子家族特異分布在少數染色體上的情況并不明顯。

圖2 不同拷貝數的LTR反轉錄轉座子家族在海島棉各染色體上的分布

海島棉基因組每Mb序列平均包含242.21拷貝的LTR反轉錄轉座子,通過計算發現海島棉基因組中每Mb染色體包含的LTR反轉錄轉座子的拷貝數與染色體大小的皮爾森相關系數為-0.52,表現出中度負相關的關系(表1)。

2.2 海島棉LTR反轉錄轉座子的分布特征

海島棉基因組中的LTR反轉錄轉座子整體在A亞組染色體的后端部分分布較少(4號染色體除外),而在D亞組染色體則相對分布均勻(圖3)。Copia超家族在染色體的起始端有一個明顯的波峰,這一特點A亞組和D亞組類似,同時,Copia超家族在A亞組染色體的后端部分分布較少,而D亞組染色體則沒有該特征。Gypsy超家族整體在染色體中部分布多,兩端分布少,進一步比較A亞組和D亞組可以發現,Gypsy超家族在A亞組后半部分分布的更少。因此,A亞組染色體后端LTR反轉錄轉座子分布較少是這兩類主要超家族共同的分布特征。

比較海島棉基因組中基因與LTR反轉錄轉座子的分布發現Gypsy超家族與基因的分布呈近似反比關系,而Copia超家族與基因則沒有明顯的數量分布關系。

表1 海島棉各染色體的大小及LTR反轉錄轉座子的分布密度

圖3 LTR反轉錄轉座子在海島棉基因組上的分布

2.3 海島棉LTR反轉錄轉座子周邊基因的富集分析

分別對海島棉A亞組與D亞組LTR反轉錄轉座子上下游20 kb范圍內的基因進行了GO富集分析。結果共涉及GO分類體系中的細胞組件、分子功能和生物過程3個大類別中的9、12和19個小類別。A亞組和D亞組LTR反轉錄轉座子周邊分別有47 979和55 880個基因具有GO注釋。從圖4中可以看出兩類超家族的富集情況基本相同,在細胞組件中,涉及較多的條目依次是細胞(Cell GO:0005623)、細 胞 組 分(Cell part GO:0044464)、細胞器(Organelle GO:0043226)和大分子復合物(Macromolecular complex GO:0032991) 等;在分子功能方面,主要富集在結合活性(Binding GO:0005488)和催化活性(Catalytic activity GO:0003824)等類別中;而在生物學過程中,涉及較多的條目依次是代謝過程(Metabolic process GO:0008152)、細 胞 過 程(Cellular process GO:0009987)、生 物 調 節(Biological regulation GO:0065007)、定位(Localization GO:0051179)、建立定位(Establishment of localization GO:0051234)和色素(Pigmentation GO:0043473)等。將二倍體亞洲棉(A組)、雷蒙德氏棉(D組)與四倍體海島棉(AD組)進行比較,發現LTR反轉錄轉座子周邊基因的GO富集情況類似,只是在基因數量和百分比方面有差別(數據未發表)。

圖4 海島棉LTR反轉錄轉座子周邊基因的GO富集分析

3 討論

LTR反轉錄轉座子是植物基因組的重要成分,是推動基因組大小變異和進化的重要因素[2]。精確而完整的LTR反轉錄轉座子注釋對研究基因組大小變異和進化具有非常重要的意義。從基因組中挖掘轉座子序列的算法主要有三類:依據轉座子的結構特征、依據轉座子在基因組中的重復特征和依據已知轉座子序列進行同源搜索,每種方法都有各自的優勢和缺陷[24]。本文首先綜合使用前兩類算法的軟件挖掘了海島棉基因組中的轉座子序列,再進一步將這些序列合并、去冗余,構建出一個海島棉特異轉座子序列數據庫。最后依據該庫通過RepeatMasker軟件用同源搜索的方法注釋海島棉基因組中的轉座子序列,從而獲得了海島棉基因組中非常完整的轉座子信息。進一步的數據分析發現海島棉基因組中每Mb染色體包含的LTR反轉錄轉座子的拷貝數與染色體的大小具有一定的負相關性,但這一特征在其他物種中是否存在還需要進一步的研究。

LTR反轉錄轉座子在海島棉A亞組和D亞組的分布曲線有較大的差別(圖3),而在相同亞組內部的各染色體上則具有類似的分布曲線(A亞組4號染色體除外)。高拷貝數的LTR反轉錄轉座子家族在海島棉A亞組和D亞組的分布特征也具有一定的差異。此外,在轉座子活性研究中發現一個Copia類轉座子僅插入到海島棉A亞組的HD1基因中,而在D亞組的HD1基因中則沒有插入[25]。這些數據都表明轉座子在四倍體海島棉A亞組和D亞組中并不是完全相同的。然而,LTR反轉錄轉座子周邊基因的富集分析則表明A、D亞組之間非常類似。研究通過比較四倍體海島棉A、D亞組LTR反轉錄轉座子的數量與分布特征使我們對其有了更好的認識,這將為海島棉基因組研究提供數據支持。

4 結論

本研究結果表明,絕大多數LTR反轉錄轉座子家族被海島棉A亞組和D亞組共同擁有,同時,兩個亞組也分別存在少數特異家族。海島棉染色體的大小與LTR反轉錄轉座子的數量有關。此外,本研究也發現在海島棉基因組中,Gypsy超家族分布較多的位置基因分布較少,但Copia超家族的分布則與基因沒有明顯的關系。

[1]Oliver KR, McComb JA, Greene WK. Transposable elements:powerful contributors to angiosperm evolution and diversity[J].Genome Biol Evol, 2013, 5(10):1886-1901.

[2]Bennetzen JL. Transposable element contributions to plant gene and genome evolution[J]. Plant Mol Biol, 2000, 42(1):251-269.

[3]Vitte C, Panaud O. LTR retrotransposons and flowering plant genome size:emergence of the increase/decrease model[J]. Cytogenet Genome Res, 2005, 110(1-4):91-107.

[4]Wicker T, Sabot F, Hua-Van A, et al. A unified classification system for eukaryotic transposable elements[J]. Nat Rev Genet, 2007, 8(12):973-982.

[5]Kobayashi S, Goto-Yamamoto N, Hirochika H. Retrotransposoninduced mutations in grape skin color[J]. Science, 2004, 304(5673):982.

[6]Mirouze M, Reinders J, Bucher E, et al. Selective epigenetic control of retrotransposition inArabidopsis[J]. Nature, 2009, 461(7262):427-430.

[7]Domingues DS, Cruz GM, Metcalfe CJ, et al. Analysis of plant LTR-retrotransposons at the fine-scale family level reveals individual molecular patterns[J]. BMC Genomics, 2012, 13(1):137.

[8]Liu X, Zhao B, Zheng HJ, et al.Gossypium barbadensegenome sequence provides insight into the evolution of extra-long staple fiber and specialized metabolites[J]. Sci Rep, 2015, 5:14139.

[9]Yuan D, Tang Z, Wang M, et al. The genome sequence of Sea-Island cotton(Gossypium barbadense)provides insights into the allopolyploidization and development of superior spinnable fibres[J]. Sci Rep, 2015, 5 :17662.

[10]Wang K, Huang G, Zhu Y. Transposable elements play an important role during cotton genome evolution and fiber cell development[J]. Sci China Life Sci, 2016, 59(2):112-121.

[11]Hu G, Hawkins JS, Grover CE, et al. The history and disposition of transposable elements in polyploidGossypium[J]. Genome,2010, 53(8):599-607.

[12]Hawkins JS, Kim H, Nason JD, et al. Differential lineage-specific amplification of transposable elements is responsible for genome size variation inGossypium[J]. Genome Res, 2006, 16(10):1252-1261.

[13]Xu Z, Liu J, Ni W, et al. GrTEdb:the first web-based database of transposable elements in cotton(Gossypium raimondii)[J].Database(Oxford), 2017, 2017(1).

[14]McCarthy EM, McDonald JF. LTR_STRUC :a novel search and identification program for LTR retrotransposons[J].Bioinformatics, 2003, 19(3):362-367.

[15]Ellinghaus D, Kurtz S, Willhoeft U. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 2008, 9(1):1-14.

[16]Edgar RC, Myers EW. PILER :identification and classification of genomic repeats[J]. Bioinformatics, 2005, 21 Suppl 1 :i152-i158.

[17]Huda A, Jordan IK. Analysis of transposable element sequences using CENSOR and RepeatMasker[J]. Methods Mol Biol, 2009,537(537):323-336.

[18]Feschotte C, Keswani U, Ranganathan N, et al. Exploring repetitive DNA landscapes using REPCLASS, a tool that automates the classification of transposable elements in eukaryotic genomes[J].Genome Biol Evol, 2009, 1(1):205-220.

[19]Bao W, Kojima KK, Kohany O. Repbase Update, a database of repetitive elements in eukaryotic genomes[J]. Mob DNA, 2015,6(1):11.

[20]Fu L, Niu B, Zhu Z, et al. CD-HIT:accelerated for clustering the next-generation sequencing data[J]. Bioinformatics, 2012, 28(23):3150-3152.

[21]Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences[J]. Curr Protoc Bioinformatics, 2009, Chapter 4:4-10.

[22]Naquin D, D’Aubenton-Carafa Y, Thermes C, et al. CIRCUS:a package for Circos display of structural genome variations from paired-end and mate-pair sequencing data[J]. BMC Bioinformatics, 2014, 15(1):198.

[23]Ye J, Fang L, Zheng H, et al. WEGO :a web tool for plotting GO annotations[J]. Nucleic Acids Res, 2006, 34(Web Server issue):W293-W297.

[24]Lerat E. Identifying repeats and transposable elements in sequenced genomes:how to find your way through the dense forest of programs[J]. Heredity(Edinb), 2010, 104(6):520-533.

[25]Cao Y, Jiang Y, Ding M, et al. Molecular characterization of a transcriptionally active Ty1/copia-like retrotransposon inGossypium[J]. Plant Cell Rep, 2015, 34(6):1037-1047.

猜你喜歡
海島棉轉座子四倍體
小果型西瓜四倍體誘變及其鑒定分析
毛竹Mariner-like element自主轉座子的鑒定與生物信息學分析*
地熊蜂基因組中具有潛在活性的轉座子鑒定
四倍體泡桐育苗高效管理技術綜述
轉Bt基因海島棉分子檢測及抗蟲性鑒定
花葉矢竹轉錄組中的轉座子表達分析
棉花陸海雜交親本及子代光合葉綠素熒光參數分析
四倍體巴戟天根的結構與其蒽醌類化合物的關系
新疆海島棉生產現狀與發展建議
海島棉染色體片段代換系BC4F4產量及纖維品質主成分分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合