?

豆科MIKC型MADS-box基因家族生物信息學分析

2022-09-03 08:53張月王佳琪于子建許強張嵐潘玉欣
中國油料作物學報 2022年4期
關鍵詞:蒺藜苜蓿擬南芥

張月,王佳琪,于子建,許強,張嵐,潘玉欣

(華北理工大學生命科學學院,河北 唐山,063210)

MADS-box基因家族是一類生物功能豐富,在植物中廣泛存在的序列特殊的同源異型基因。釀酒酵母的MCMI、擬南芥的AGAMOUS、金魚草的DEFICIENS和人類的SRF4四種基因的首字母構成MADS-box基因的名稱。MADS-box基因的蛋白中都含有1 個由約58 個氨基酸組成的保守結構域,即MADS 盒[1]。根據不同的分類標準,MADS-box基因可分為Ⅰ型和Ⅱ型(MIKC 型),也可以分成5 個小類:Mα、Mβ、Mγ、MIKCc、MIKC*,其中Mα、Mβ、Mγ屬于Ⅰ型,MIKCc、MIKC*屬于Ⅱ型。Ⅰ型植物的MADS-box基因只有1~2 個外顯子,編碼蛋白缺少K(Keratin-like)-box 域,含有1 個高度保守的MADS域。MIKC 型MADS-box基因在植物基因組結構和功能的研究方面較為清楚,一般含有6個內含子和7個外顯子[2]。這類型基因通常含有MADS、K-box、I(Intervening)和C(C-terminal)4 個結構域,MADS 域非常保守,在所有基因中均存在,K-box 域半保守,在大部分基因中存在,I結構域和C結構域的保守性很低。

分布于植物中的MADS-box基因功能豐富,參與了植物生長發育的各個時期,包括調控花器官、根的生長發育以及雌雄配子、胚胎、種子、果實的發育等,也參與調控光合作用、營養代謝、多種脅迫響應等途徑[3~5]。MIKC 型MADS-box基因在花發育的各個時期具有重要調控作用,大部分MIKC 型MADS-box基因都是花器官決定基因[6]。MIKCC型包括14 個亞類AP1、AP3、PISTILLATA(PI)、AGAMOUS(AG)/SEEDSTICK(STK) 、AGAMOUS-LIKE6(AGL6)、AGL12、AGL15、AGL17、BSISTER(BS)、SUPPRESSOR OF OVEREXPRESSION OF CONSTANS1(SOC1)、SHORT VEGETATIVE PHASE(SVP)、FLOWERING LOCUS C(FLC) 、SEPALLATA1(SEP1)[5,7]。MIKCC型基因亞類的功能各有不同,如SOC1、FLC、SVP等亞類調控開花的時間,SEP1、AP3、PI和AG亞類決定花器官的特異性,AP1亞類決定花器官和分生組織的特異性[8,9]。有關花器官發育的特異性基因主要源于擬南芥花分化ABCDE模型。參與花器官形態建成的MIKC 型MADS-box基因AP1屬于A 類基因,PI、AP3屬于B 類基因,AG屬于C 類基因,STK/AGL11和SHP屬于D 類基因,SEP1、SEP2、SEP3、SEP4屬于E類基因[6]。

MADS-box基因家族的結構和功能在小麥[5]、擬南芥[10]、陸地棉[11]、萵苣[12]和甘藍型油菜[13]等多種植物中均有研究。擬南芥中共鑒定出107 條MADSbox基因,且根據進化關系將MADS-box基因劃分為Mα、Mβ、Mγ、MIKCc和MIKC*五類[10]。利用已知序列MADS 結構域的多序列比對以及系統發育樹分析,小麥201 條MIKC 型MADS-box基因分為15個亞類,家族基因重復多存在于遠端端粒區,亞家族內基因表達模式較相似[5]。MADS-box基因表達模式的不同揭示其進化過程出現了功能分化[11,12]。

多倍化在植物進化和物種形成中起著十分重要的作用,豐富了物種基因功能的多樣性,增強了物種的適應性[14]。豆科是第三大植物科,是動物和人類營養物質的重要來源。研究表明,約1.3~1.5億年前豆科與其它雙子葉植物共有祖先發生了一次全基因組三倍化事件,約5900萬年前豆科植物共同經歷了一次全基因組二倍化事件,大豆在與其它豆科植物分化后約1300 萬年前又發生了一次特異性的全基因組二倍化事件[15]。在大豆基因組中鑒定了57 個MIKC 型基因,均具有保守的MADS 和Kbox基序,AP1,AG,AP3,PI,SVP和SOC1基因均存在多拷貝現象[8]。全基因組復制事件對MIKC 類基因的擴張起重要作用,導致MIKC 類基因在進化過程中被選擇性保留[13],但多倍化對MIKC 型MADS-box基因擴張的影響缺乏深入分析。

本研究基于更新的豆科植物數據庫,對大豆(Glycine max)、蒺藜苜蓿(Medicago truncatula)MIKC型MADS-box基因家族的基因結構、蛋白質理化性質、保守結構域、系統發育關系、共線性與進化速率、基因表達模式、蛋白互作等進行分析,為揭示MADS-box家族的生物學功能奠定基礎。

1 材料與方法

1.1 大豆、蒺藜苜蓿、葡萄MIKC型MADS-box基因家族成員的鑒定

從TAIR(http://www. arabidopsis. org/. Araport11)下載擬南芥MADS-box基因家族的蛋白序列,從PeanutBase(https://www. peanutbase. org)數據庫下載大豆、蒺藜苜蓿的全基因組數據,從JGI(https://genome. jgi. doe. gov. v2.1)數據庫下載葡萄全基因組數據。利用HMMER[16]軟件(E 值≤0.05),根據文獻報道的107 個擬南芥MADS-box蛋白序列[9]構建HMM 模型,在大豆、蒺藜苜蓿和葡萄全基因組數據中篩選候選基因,通過CDD(https://www. ncbi. nlm. nih. gov)、PFAM(http://pfam.xfam. org)、SMART(http://smart. embl-heidelberg.de/)預測候選蛋白結構域,去除冗余蛋白序列,最終確定含MADS 結構域的蛋白序列為MADS-box家族成員。

提取大豆、蒺藜苜蓿與葡萄的MADS 結構域蛋白序列,用MAFFT[17,18]對大豆、蒺藜苜蓿、葡萄和擬南芥包含MADS 結構域的蛋白序列進行多序列比對,根據序列比對結果利用IQ-TREE[19]軟件和ModelFinder[20]構建系統發育樹,初步確定其分類;利用BLAST+[21]將得到的大豆、蒺藜苜蓿和葡萄的MADS-box 蛋白序列與擬南芥的MADS-box 進行序列比對,按照擬南芥的功能分類[10],對系統發育樹的分類進行驗證,最終確定MADS-box基因的I 型和II型分類。

1.2 豆科MIKC 型MADS-box 基因家族系統進化分析

將MIKC 型蛋白序列進行MAFFT 比對,利用IQ-TREE 軟件和MODELFINDER(最佳擬合模型:JTT+R7)構建系統發育樹。參照擬南芥的MIKC 型基因功能分類和系統發育樹[10],將大豆、蒺藜苜蓿和葡萄的MIKC 型MADS-box基因分類,并進行系統發育分析。

利用NOTUNG[22]軟件的Rooting Mode 功能將MADS-box基因樹與物種樹作比較,推斷基因的復制與丟失事件。

1.3 豆科MIKC型MADS-box蛋白基本理化性質及亞細胞定位分析

利 用ExPASy-ProtParam(https://web. expasy.org/protparam/)[23]在線工具預測大豆、蒺藜苜蓿MIKC 型MADS-box 蛋白質的基本理化性質,包括氨基酸長度、分子質量、等電點、不穩定指數等。利用亞細胞定位工具WolF PSORT(https://wolfpsort.hgc.jp/)[24]預測MADS-box基因細胞內定位情況。

1.4 豆科MIKC 型MADS-box 基因結構分析和蛋白質保守基序分析

利用基因結構顯示軟件GSDS[25](http://gsds.cbi.pku.edu.cn/)分析MIKC 型基因結構;利用序列分析工具MEME[26](http://meme-suite.org/)分析各基因組中MIKC 型MADS-box 蛋白序列保守基序(motif),其中,基序最大發現數目為20,基序最大長度為50;利用數據處理工具包TBtools[27]將結果進行可視化。

1.5 豆科MIKC型MADS-box基因共線性與KS值分析

利用MCScanX[28]預測大豆、蒺藜苜蓿和葡萄MIKC 型MADS-box基因的復制類型,并對其基因組內和基因組間的共線性進行分析;利用Python 語言編寫程序,計算該基因家族成員共線性基因對間的同義替換率KS值;利用Circos 軟件[29]繪制與多倍化事件相關的同源關系圖。

1.6 大豆MIKC型MADS-box基因表達模式分析

在NCBI 的GEO 數據庫下載大豆轉錄組數據(https://www. ncbi. nlm. nih. gov/geo/query/acc. cgi?acc=GSE99571)[30],包 括 大 豆 子 葉 期 胚 胎(COT.EP)、大豆早熟期胚胎(EM. EP)、大豆中熟期胚胎(MM.EP)、大豆晚熟期胚胎(AA1.EP)、大豆干種子期(Dry)和大豆幼苗期(SDLG. COT)6 個組織,計算三次重復實驗數據,取其平均值,并使用軟件TBtools繪制聚類熱圖。

1.7 大豆MIKC型MADS-box蛋白互作網絡分析

利用STRING[31](https://stringdb. org/)數據庫預測可能與大豆MIKC 型MADS-box 蛋白相互作用的蛋白質。

2 結果與分析

2.1 大豆、蒺藜苜蓿、葡萄MIKC 型MADS-box 基因家族成員的鑒定

通過多序列比對和系統發育樹分析,4 個物種共鑒定出232 個MIKC 型MADS-box基因,包括擬南芥45 個、大 豆92 個、蒺 藜 苜 蓿45 個、葡 萄50個(圖1)。

圖1 4個物種MIKC型MADS-box基因在不同亞類中的數量分布Fig.1 Quantity distribution of MIKC-type MADS-box genes in different subfamilies of each species

2.2 豆科MIKC 型MADS-box 基因家族系統進化分析

根據擬南芥MIKC 型基因的功能分類和系統發育樹[10],將大豆、蒺藜苜蓿、葡萄和擬南芥MIKC 型基因分為MIKCC和MIKC*兩類,其中MIKCC包括除MIKC*型之外的14個亞類(圖2)。從系統發育樹看出,除SVP、SOC1、AGL15亞類外其余亞類樹形分布基本符合各物種基因組的多倍化過程,大豆與蒺藜苜蓿親緣關系較近。SVP、SOC1、AGL15亞類個別基因不符合基因組的多倍化過程,而且存在部分基因丟失情況。FLC亞類基因在擬南芥發育過程中調控春化開花,基因數量熱圖顯示大豆僅有2 個FLC類基因,蒺藜苜蓿缺少FLC類基因。大豆和蒺藜苜蓿AG、AP1和SEP1亞類基因數量相對較多,基因功能較豐富[32]。

圖2 擬南芥、葡萄、大豆和蒺藜苜蓿MIKC型MADS-box基因家族系統發育樹Fig.2 Phylogenetic tree of MIKC-type MADS-box gene family in Arabidopsis,grape,soybean and Medicago

利用NOTUNG 分析MIKC 型MADS-box基因在物種樹各進化節點上的基因擴增與丟失情況(圖3)。4 個物種的祖先節點有64 個基因發生了復制,大豆和蒺藜苜蓿的共同祖先節點,18 個基因被復制,17 個基因發生了丟失,基因整體的數目沒有發生較大的變化。大豆家族基因復制的數目(+41)比蒺藜苜蓿(+2)的多,而蒺藜苜蓿家族基因丟失的數目(-17)比大豆(-9)多,可以得出大豆MADS-box基因發生了擴增,而蒺藜苜蓿的家族基因發生了丟失。整體來看,4 個物種有152 個MADS-box基因復制,107個MADS-box基因丟失。

圖3 擬南芥、葡萄、大豆和蒺藜苜蓿MIKC型MADS-box基因的復制和丟失Fig.3 Duplication and loss of MIKC-type MADS-box genes in Arabidopsis,grape,soybean and Medicago

2.3 豆科MIKC型MADS-box蛋白基本理化性質分析和亞細胞定位分析

編碼大豆MIKC 型MADS-box 蛋白的氨基酸長度范圍從126 到354,分子量范圍從10915.86 到40409.85kD,等電點范圍從5.30 到10.11(只有極少數蛋白等電點小于7,MIKC*和BS 亞類蛋白等電點小于7)(表1)。編碼蒺藜苜蓿MIKC 型MADSbox蛋白的氨基酸長度范圍從50到402,分子量范圍從13023.95 到7054.27kD,等電點范圍從5.22 到10.65(只有極少數蛋白等電點小于7)(表2)。

理化性質分析結果顯示大豆和蒺藜苜蓿MIKC型MADS-box基因所編碼蛋白質等電點80%大于7,屬于堿性蛋白。蛋白的不穩定系數大于30,屬于不穩定蛋白。

亞細胞定位結果(表1 和表2)表明89%以上的MADS-box基因均定位在細胞核(nucleus),大豆和蒺藜苜蓿均只有7 個基因位于其他部位,其余基因均位于細胞核,符合轉錄因子的特征。

表1 大豆MIKC型MADS-box蛋白的理化性質及亞細胞定位Table 1 Physicochemical properties and subcellular localization of soybean MIKC-type MADS-box proteins

表2 蒺藜苜蓿MIKC型MADS-box蛋白的理化性質及亞細胞定位Table 2 Physicochemical properties and subcellular localization of Medicago MIKC-type MADS-box proteins

2.4 豆科MIKC 型MADS-box 基因結構分析和蛋白質保守基序分析

基因結構分析表明MIKC 型MADS-box基因結構比較保守,MIKC*型大部分基因含9~11 個左右的外顯子,只有兩條含2~3 個外顯子;其他14 個亞類大部分均有7~8個左右的外顯子,只有約8%基因含有2~3 個外顯子,大豆和蒺藜苜蓿均含有較長的內含子。

蛋白質基序分析結果(圖4)表明MIKC 型MADS-box 蛋白均含有MADS 結構域,大部分含有K-box 結構域,但MADS-box 蛋白序列間I 結構域和C 結構域的保守性較低,缺乏共有基序。MADS 結構域由motif1、motif3、motif5 構成,所有蛋白中至少含有其中一個motif,所有的大豆和蒺藜苜蓿蛋白均含有motif1。K-box 結構域由motif2、motif4、motif6、motif7、motif12、motif17 構成,不同亞家族K-box 結構域包含的基序略有不同。例如在PI、AP3 亞類中K-box 結構域由motif2、motif12 構成,在AG/STK,AGL17 亞類中K-box 結構域由motif2、motif4、motif6構成。MIKC*亞類只有一個基因含有K-box 結構域??傮w來看,motif1、motif2、motif3、motif4 所在蛋白序列數均占全部家族蛋白80%以上。

圖4 MIKC型MADS-box蛋白基序分析及基因結構分析Fig.4 Protein conserved motif analysis and gene structure analysis in MIKC-type MADS-box genes

2.5 豆科MIKC型MADS-box基因共線性與KS值分析

基因組復制是基因家族擴張的重要來源。通過檢查5種類型的基因復制,即單基因復制、分散基因復制、近端基因復制、串聯基因復制和全基因組復制或片段復制,發現83.61%的大豆基因和80%的蒺藜苜?;騺碜匀蚪M復制或片段復制。

共線性分析發現,大豆基因組內MIKC 型MADS-box共線基因對318對、蒺藜苜蓿31對、葡萄62對;大豆和蒺藜苜?;蚪M間MIKC 型MADS-box共線性基因對87 對、大豆和葡萄109 對、蒺藜苜蓿和葡萄50對(圖5)。大豆基因組內共線性基因對明顯多于其他兩個物種,蒺藜苜蓿的家族基因共線性基因對最少,與葡萄也僅共有50對基因對。

圖5 大豆、蒺藜苜蓿、葡萄MIKC型MADS-box基因共線性分析Fig.5 Collinearity analysis of MIKC-type MADS-box genes in soybean,Medicago and grape

同義置換率KS,反映物種之間的分歧時間和種內的加倍事件。已有研究表明,約1.3~1.5 億年前豆科與其它雙子葉植物共有祖先發生了一次全基因組三倍化事件(KS≈1.31),隨后約在5900 萬年前豆科植物發生了一次共有的全基因組二倍化事件(KS≈0.627),約1300 萬年前大豆又發生了一次特異性 的 二 倍 化 事 件(Ks≈0.164)[15]。大 豆MIKC 型MADS-box基因KS統計結果顯示,1%的共線性基因對(3 對)處于0~0.164,2.8%的基因對(9 對)處于0.164~0.627,5.7%的基因對(18 對)處于0.627~1.310,90.5% 的基因對(287 對)大于1.310(圖6A)。蒺藜苜蓿MIKC 型MADS-box基因KS統計結果顯示,3.2%的基因對(1 對)小于0.627,9.7%的基因對(3 對)處于0.627~1.310,87.1%的基因對(27 對)大于1.310(圖6B)。結果表明,大豆和蒺藜苜蓿分別有96.3%和96.8% MIKC 型MADS-box基因對與雙子葉植物共有的三倍化事件以及更古老的加倍事件相關。

圖6 大豆和蒺藜苜蓿MIKC型MADS-box基因Ks值分析Fig.6 Analysis of KS value of MIKC-type MADS-box genes in soybean and Medicago

2.6 大豆MIKC型MADS-box基因表達模式分析

大豆MIKC 型各亞類基因在大豆不同發育時期的表達模式和表達量有明顯的區別(圖7)。大豆發育時期分析顯示:AGL12、SVP、MIKC*亞類表達量較低,SEP1亞類在各時期表達量分布均勻,BS、AGL6亞類表達量相對較高。在大豆子葉期胚胎(COT.EP)時期,AP1亞類表達量較高;在大豆早熟期胚胎(EM. EP)時期,AG/STK和AP3亞類表達量較高;在大豆中熟期胚胎(MM.EP)時期,MIKC*和BS亞類表達量較高;在大豆晚熟期胚胎(AA1. EP)時期,AGL17亞類表達量相對較高,其他14 亞類表達量均較低;在大豆干種子期(Dry),各亞類表達量均較低,幾乎不表達;在大豆幼苗期(SDLG.COT),AP3、PI、FLC、SVP、AGL12亞類表達量較高,其中AGL12基因全部高表達。AGL15亞類中只有gm206s2g01178在大豆子葉期胚胎(COT.EP)時期高表達,這與AGL15亞類功能相關,AGL15亞類基因在在幼胚中高表達,在根、莖、葉和花中不表達,在幼胚形成過程中具有重要意義,在大豆種子發育過程中起重要調控作用[33,34]。綜上,大豆幼苗期表達量高于其他時期,說明MIKC 類MADS-box基因在植物幼苗發育過程中起調控作用。

圖7 大豆MIKC型MADS-box基因不同發育時期的表達量Fig.7 Expression of MIKC-type MADS-box gene family in soybean at different developmental stages

2.7 大豆MIKC型MADS-box蛋白互作網絡分析

蛋白質相互作用是調控生物生命活動的重要形式。MIKC 型MADS-box 家族蛋白參與多種生物途徑。在線工具STRING 結果顯示大豆MADS-box家族SVP 和LFY 間存在相互作用。除此二者還分別與調控植物春化的MAF,光周期的CO 以及開花途徑FRI,TSF,TFL,GI,FT,LATE 等10 個蛋白存在相互作用[34~36](圖8)。

圖8 大豆MIKC型MADS-box蛋白與其它蛋白相互作用網絡圖Fig.8 Protein interaction network between Glycine max MIKC-type MADS-box proteins and other proteins

3 討論與結論

MIKC 型MADS-box基因在植物發育過程中起核心作用。本研究鑒定出MIKC 型MADS-box基因共232 個,其中,大豆92 個、蒺藜苜蓿45 個、葡萄50個、擬南芥45 個。根據系統發育關系,4 個物種MIKC 型基因分為MIKCC和MIKC*兩類。MIKCC可進一步分為14 個亞類。大豆有2 個FLC類基因,蒺藜苜蓿缺少FLC類基因,其原因可能與大豆和蒺藜苜蓿在開花過程中不需要春化有關,導致FLC亞類基因在進化過程中丟失[8]

MADS-box基因都是在進化過程中通過基因重復事件產生的[8,37]。4 個物種共同祖先節點有64 個基因發生復制,推測雙子葉植物共有的三倍化事件和更古老的加倍事件對該基因家族的擴增產生了積極影響??傮w上4 個物種MADS-box基因復制數目多于基因丟失數目,說明了4 個物種MIKC 型MADS-box基因在進化的過程中發生了一定程度基因擴增。大豆和蒺藜苜蓿共同祖先節點基因復制與丟失數目基本平衡,說明豆科共有的二倍化事件對該基因家族未產生明顯影響;二者MADS-box基因數目相比,大豆復制基因數目較多,丟失較少,推測其原因與1300 萬年前大豆特異性發生的一次全基因組二倍化事件相關,共線性分析結果也印證了該結論。

理化性質分析揭示大豆和蒺藜苜蓿MADS-box蛋白多為性質穩定的堿性蛋白,主要定位在細胞核,在細胞核中發揮轉錄調控作用。MADS-box不同亞類間基因結構較為保守,所含motif 相似,揭示亞類功能的保守性[13]?;驈椭祁愋屯茰y、共線性以及Ks分析結果顯示,大豆和蒺藜苜蓿中該基因家族的擴張主要是全基因組復制或片段重復的作用,而且多數基因來源于雙子葉植物的三倍化或更古老的事件,再次說明全基因組復制對MADS-box基因有積極影響[13]。

MIKC 型MADS-box基因同時對植物生長發育起調控作用。MADS-box不同亞類基因表達模式不同[10,38,39],在陸地棉中MIKC型MADS-box基因調控胚胎發育,控制開花時間等[11]。在高粱中MIKC 型MADS-box基因同樣在花發育和胚胎發育過程中表達[2]。MIKC 型各亞類基因在大豆不同發育時期表達模式也呈現明顯的不同,各類基因在不同發育階段具有不同的功能。本研究結果表明大豆幼苗期總體表達量高于其他時期,其中SVP、SOC1、AGL12亞類表達量較高。SVP、SOC1、AGL12亞類在調控幼苗發育過程中確實起到重大作用,與文獻研究結果相符[7]。蛋白互作分析結果表明大豆MIKC 型MADS-box 家族蛋白SVP 與CO、FT 和TFL1 蛋白相互作用,這與文獻中蛋白相互作用的實驗結果相一致[40]。SVP、LFY、CO、FT和TFL1這些基因相互作用一起調控植物開花發育。

本研究采用生物信息學方法對大豆和蒺藜苜蓿MIKC 型MADS-box基因家族的基因結構、功能、共線性和進化過程進行分析,為豆科植物及其他物種MADS-box基因的研究提供重要參考。

猜你喜歡
蒺藜苜蓿擬南芥
不同種植區隴東苜蓿營養價值的比較研究
蒺藜的本草學考證
苜蓿的種植技術
擬南芥栽培關鍵技術研究
又被蒺藜扎了
苜蓿鮮草不可作為單一飼料喂牛羊
要造就一片草原……
擬南芥
口水暴露了身份
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合