?

進化與大數據導向生物信息學在天然產物研究中的發展及應用

2023-09-16 03:05張凡忠相長君張驪駻
合成生物學 2023年4期
關鍵詞:合酶基因簇課題組

張凡忠,相長君,3,張驪駻

(1 西湖大學理學院化學系,浙江省功能分子精準合成重點實驗室,浙江 杭州 310030; 2 浙江西湖高等研究院,理學研究所,浙江 杭州 310024; 3 復旦大學化學系,上海 200243)

進化是促進生命出現、發展和多樣化的過程[1]。生命的進化本質上是基因信息的進化,而天然產物生物合成相關的酶由基因信息編碼,因此也離不開進化的力量[1?3]。植物和微生物為適應自然環境創造出許多天然產物。過去一個多世紀里,天然產物作為先導分子在醫藥健康和農業生產中發揮著重要作用,包括已被用作藥物造福人類的青霉素、紅霉素以及萬古霉素等。生物信息學的預測分析表明,迄今為止,只有3%的細菌來源天然產物被發現,即使是鏈霉菌這樣被高度研究的類群仍然含有許多未知的天然產物[4]。

基因測序技術的發展帶來基因組數據的快速增長(圖1),大規?;蚪M學、代謝組學和功能研究的系統數據即“大數據”與生物信息學的結合為天然產物研究帶來了“技術革命”。傳統的天然產物研究高度依賴于化合物分離純化,過去我們只能通過積累分離得到的單體化合物來了解天然產物。如今,我們已處在向天然產物全景圖可視化過渡的階段?;诖髷祿蜕镄畔W的現代天然產物研究使我們對天然產物的分子多樣性、豐度以及分布有了宏觀認識,不僅讓我們了解到微生物天然產物庫的巨大挖掘潛力,也可以指導具有臨床或商業價值的新分子的發現,提高天然產物發現的效率[1?2,5?8]。由于已測序的真菌基因組數量相比細菌要少很多(截至2023 年1 月,NCBI數據庫中細菌基因組數為1 420 776,而真菌為28 183,只占細菌基因組數量的2%),進行大數據分析主要以細菌為主,因此本文主要闡述細菌天然產物研究,但也包括了部分真菌研究。

圖1 2002-2022年(近20年)NCBI數據庫中細菌基因組數量的增長趨勢Fig. 1 Growing trends for the number of bacterial genomes in the NCBI database from 2002 to 2022(in the last two decades)

對天然產物生物合成機理及相關酶的生化特性的認識促進了進化分析在酶功能預測方面的應用,進而指導酶的改造以及生物合成途徑的改造[6,9]。目前基于進化進行的天然產物研究主要集中于以下幾個方面:①利用進化導向方法發現新的天然產物(化合物結構預測);②通過進化分析預測酶的功能;③通過改造生物合成體系創造出我們需要的產物。因此,本文將聚焦于基于大數據的進化導向生物信息學方法在天然產物發現和酶工程研究中的運用進展,并對這些工具、方法在天然產物研究領域的發展進行展望。

1 基于進化和大數據的天然產物研究策略

基因挖掘是在沒有化學結構的前提下,基于遺傳信息來預測和分離活性天然產物[10?13]。微生物基因組挖掘方法振興了抗生素的研究,但這些方法依賴于先前識別的生物合成酶的序列相似性搜索,這種經驗性質限制了所探索的化學空間。近年來,天然產物研究人員通過將進化原理融入基因組分析來尋找新的路徑[14?15]。利用進化和大數據進行的天然產物研究一方面是基于系統發育距離預測功能相似度:當靶標蛋白序列與已知化合物的編碼序列距離較遠且形成不同進化分支時,傾向于產生具有新核心結構的新產物;當靶標序列與已知化合物編碼序列相鄰時,可能會產生與已知化合物變化不大的新產物[圖2(a)][10,15]。另一方面可以依據目標序列是否與已知序列聚集在一起,或屬于一個新的分支,或是一個罕見的異常值,實現分布模式和多樣性的可視化,進而展示一個全景圖[圖2(b)]。

圖2 進化分析的核心觀念Fig. 2 A core concept of the phylogenetic analysis

已有不少基于進化的生物信息學工具可用于天然產物的挖掘,例如ARTS(Antibiotic Resistant Target Seeker)[16?17]、 NaPDoS (Natural Product Domain Seeker)/NaPDoS2[18?19]、 EvoMining[20]、Big?SCAPE 和 CORASON[21?22]等。 ARTS 和EvoMining 面向進化上相關的基因組,針對保守的生物合成基因簇(biosynthetic gene cluster, BGC)進行預測和聚類分析。其中ARTS以抗性基因為靶標,通過將管家基因、已知抗性基因與鄰近BGC聯系起來,自動篩選序列數據,挖掘作用方式新穎的抗生素,還可以用于比較相似的BGC 及其假定的抗性基因;而Evomining 基于酶的基因復制和底物特異性擴展的進化方式開發了一種基因挖掘方法,可以檢測某些類型的管家基因的同源基因,并比較每個酶家族的平均數量和系統發育距離,因此可以用于直觀地展示天然產物生物合成酶的起源與進化方向。NaPDoS是將PCR 產物、基因組或宏基因組數據快速提取和分組,分析目標KS(ketosynthase)或者C(condensation)結構域在進化樹上的位置,從細菌遺傳數據中推斷次生代謝物的新穎性和潛力。Big?SCAPE 是面向進化信息未知的多個基因組,以MIBiG 數據庫[23]的基因簇作為參考分析antiSMASH[24]預測的基因簇,構建序列相似性網絡,并把這些基因簇分為不同的基因簇家族,然后用CORASON 解釋每個基因簇家族中不同基因簇的進化關系。這些生物信息學的工具同是基于進化原理,但是可以針對不同類型的基因以及用于實現不同的目的。

目前利用進化方法研究得最好的一類天然產物合成酶是模塊型酶,如聚酮合酶(polyketide synthase, PKS) 和非核糖體肽合成酶(non?ribosomal peptide synthetase, NRPS)。根據目標基因簇類型,我們對進化導向研究的進展進行了分類討論,主要包括PKS、NRPS 以及其他非模塊型酶。

2 進化和大數據導向的PKS研究

聚酮化合物是一大類具有廣泛結構和功能的生物活性天然產物,臨床上使用的多種藥物都屬于聚酮類,例如紅霉素、阿維菌素、四環素等。聚酮化合物由聚酮合酶(PKS)負責生物合成。目前已知的細菌的PKS有3類(Ⅰ型、Ⅱ型和Ⅲ型)。其中,Ⅰ型PKS 由多個模塊形成組裝線,每個模塊都包含核心結構域KS、AT(acyltransferase)、ACP(acyl carrier protein)協同催化聚酮鏈延伸的一個循環,部分模塊含有KR(ketoreductase)、DH(dehydratase)、ER(enoylreductase)等結構域對聚酮進行不同程度的修飾[25][圖3(a)]。Ⅱ型PKS 通過聚酮合酶(KS/KSα)和鏈長因子(CLF/KSβ)催化乙酸單元的迭代縮合反應,隨后通過還原、環化和脫水反應形成多環芳香族骨架[圖3(b)][26]。Ⅲ型PKS,也稱查爾酮合成酶樣PKS,屬于同型二聚體酶,本質上是迭代作用的縮合酶[27?28]。許多研究者嘗試從進化的角度去理解自然界中PKS 基因與聚酮化合物結構之間的關系,主要是由于:首先,對天然PKS 多樣性的探索有可能發現新的生物活性聚酮;其次,PKS 的多模塊結構也為研究多個同源但功能不同的蛋白進化提供了一個獨特的例子;最后,更好地理解自然界聚酮多樣化形成機制可以為PKS改造開辟新的途徑[29]。

圖3 PKS生物合成Fig. 3 Biosynthetic pathway of PKS

2.1 PKS的基因進化機制

通過對PKS 不同結構域(KS、AT 和KR 等)的進化分析,目前認為導致PKS 裝配線多樣化的進化過程主要包括基因復制、水平基因轉移、基因轉換以及重組[圖4(a)][29]。Ⅰ型PKS的模塊化幾乎都來源于單個祖先模塊的多個副本[30]。重復模塊為基因重組提供了理想的平臺,可以導致產物化學結構的相應變化[30]。除了基因重組,基因進化過程中DNA 序列可能從一個同源區域非交互地轉移到另一個同源區域,從而使這些同源序列同質化,即發生基因轉換?;蜣D換廣泛存在于Ⅰ型PKS 中[31]。對PKS 的這些“自然重編程”事件的分析可能有助于開發生物活性化合物的生物組合設計[30]。

圖4 PKS進化機理Fig. 4 Evolutionary mechanism of PKS

cis?AT PKS的進化被認為主要通過模塊復制以及整個組裝線的水平或垂直獲?。?2]。相反,trans?AT 系統具有明顯的重組和嵌合形成新的基因簇的趨勢[33]。進化樹上相近的trans?AT PKS 的KS 往往催化相似結構的底物[33],而對于cis?AT PKS,同一個基因簇的KS結構域往往具有高序列相似度[34]。Ikuro Abe 等通過對4 個氨基多醇(neomediomycin B、mediomycin、ECO?02301、tetrafibricin)的基因簇分析發現KS 結構域表現出與上游模塊的ACP更近的進化關系,這表明cis?AT PKS 中KS 與上游模塊的ACP 及修飾結構域作為整個單元進行重組,自然的重組發生在KS 與AT 或AT 與修飾結構域之間[35?36]。Adrian Keatinge?Clay 隨后的分析表明trans?AT PKS 的KS 結構域也表現出與上游模塊的ACP 更近的進化關系[37]。這與KS 門控角色相符,因為KS 底物的結構由上游模塊的組成所決定。這也形成了裝配線PKS 模塊的重新定義AT?(DH?KR?ER)?ACP?KS,而非傳統的KS?AT?(DH?KR?ER)?ACP[圖4(b)][36]。

不同于KS,KR結構域在系統發育樹上基于產物羥基的立體構型分類[38],在trans?AT PKS 中還依據其他修飾結構域的存在進行分類[39]。一種觀點認為這是由于基因轉換不需要影響PKS 模塊的所有結構域,所以修飾結構域并不總是與KS 共進化[29]。這也就意味著,在模塊內部同樣存在著結構域自然重組的位點。我們注意到,導致遺傳序列同質化的協同進化在PKS 這樣的重復遺傳區域經常發生[40],而這會掩蓋進化軌跡。因此,要闡明PKS 的確切進化過程還需要進行仔細分析。

Ⅱ型PKS 基因簇的核心KS 和CLF 基因被認為來源于一個古老的KS復制[41],它們可能在放線菌誕生之前就從FabF(脂肪酸途徑中的KS 同源蛋白)的共同祖先分化而來,然后在很少甚至沒有基因交換的情況下共同進化[42]。與KS 樹相比,CLF 有更清晰的分支結構,且CLF 的進化分支與聚酮結構單元數目(而非總碳數)的關系更緊密[5]。除了KS 和CLF 基因,Ⅱ型PKS 基因簇中的聚酮還原酶與環化酶被認為是從其他系統交換到基因簇中,隨后進化出PKS特異性功能[42]。

2.2 PKS的功能預測

進化分析最重要的應用之一是區分旁系同源(由重復產生)和直系同源(由物種形成產生)的基因或蛋白。一般情況下,同源與相同的功能相關[43]。因此能夠利用系統基因組方法從進化親緣來預測序列功能,即對功能未知的基因根據它們相對于已知基因的系統發育位置進行功能預測。

對PKS 的功能預測目前主要針對KS 結構域,Ⅰ型trans?AT PKS 的KS 結構域[30,32]、Ⅱ型PKS 的CLF 結構域分支[5,42]等均能形成與其底物的化學結構緊密相關的進化分支,因此可用于化合物結構預測以及同工酶的預測。KS 結構域序列不僅可以用來區分聚酮與脂肪酸、烯二炔和多不飽和脂肪酸,而且還可以用來區分不同類型的聚酮,如cis?AT PKS 和trans?AT PKS、PKS/NRPS 雜合型,NaPDoS 即是利用這一原理進行酶功能和化合物結構預測[18?19]。此外,Ⅱ型PKS 中修飾酶的功能也可以通過進化分析預測,如KR 的區域選擇性和環化酶的環化方式[42,44]。

除了根據已知功能的酶來推測同家族相似酶的底物和功能外,還可以依據基因的共同進化來研究未知酶。BGC 的發展經歷了不同的進化過程,如基因組內的復制、重排、域/模塊/基因交換和水平基因轉移[30,40]。同一個簇中那些相互作用的酶需要共同進化的過程,以保持適當的相互作用[6]。因此還可以根據與之有相互作用的酶來預測未知酶的功能。Jorn Piel 課題組[45]通過對trans?AT PKS 中KS 的進化分析,發現了一個包含TEB類(負責O?乙?;┙Y構域的KS 分支。根據產物結構及缺失的HGTGT 活性位點,推測這些KS 均為非延伸的KS0,盡管催化的聚酮結構不同,但TEB模塊具有生物化學上的一致性。

細菌Ⅰ型PKS 中除了KS 結構域可以形成與底物化學結構密切相關的進化分支,AT 結構域在進化樹上也形成兩個主要分支,分別具有接收丙二酰?CoA 和甲基丙二酰?CoA 的特異性[46]。AT 結構域對于丙二酰?CoA 和甲基丙二酰?CoA 的特異性識別可以通過序列中兩個特征區域預測,HAFH 和GHS(I/V)G 序列表明其接收丙二酰?CoA,而YASH 和GHSQG 表明其接收甲基丙二酰?CoA[47?49],這一發現已長期被用于區分這些AT 的底物選擇性。

2.3 PKS的基因挖掘

KS 結構域的進化分析用于化合物結構預測以及同工酶的預測是PKS 基因挖掘的理論基礎。對芳香聚酮BGC 中的KSα和CLF(即KSβ)進行的進化分析表明,KSα和CLF 的進化樹結構和分支模式都很相似,而且以對應聚酮化合物的鏈長聚類,因此KSα和CLF可作為理想的進化標簽代表整個基因簇[42]。Sean Brady 課題組[50?51]以CLF 序列作為進化標簽,從土壤微生物組中擴增相關基因,與已知CLF 基因做序列比對并進行進化分析,發現了許多與已知序列在同一分支的不同亞支的序列,通過將對應的基因簇在菌株Streptomyces albusJ1074 中異源表達發現了結構新穎且活性顯著的多酚和蒽環霉素類化合物(1~3,結構見圖5)。最近,本課題組[5]在Ⅱ型PKS 中應用全局基因組挖掘,從一個與已知基因簇距離較遠的進化分支上發現了oryzanaphthopyrans(4,結構見圖5),此外,也基于大數據的進化分析描繪了Ⅱ型PKS 的分布、豐度以及多樣性的全景圖。戈惠明組[52]利用CLF 的進化模式結合抗性基因靶向挖掘四環素類化合物,發現了高度糖基化的四環素海南霉素(5,結構見圖5)。這些研究或不需要培養微生物或在微生物培養前已能夠預測化合物的結構新穎性和生物活性水平,體現了進化導向基因挖掘的優勢。

圖5 進化導向基因挖掘獲得的聚酮化合物1~11分子結構化合物1~5為Ⅱ型PKS基因挖掘的芳香聚酮;化合物6~9為trans?AT PKS基因挖掘產物;化合物10為真菌Ⅰ型PKS基因挖掘產物;化合物11為烯二炔類聚酮化合物Fig. 5 The structure of polyketides molecules 1 to 10 obtained by phylogeny?guided genome miningCompounds 1 to 5 were aromatic polyketides discovered by genome mining of type Ⅱ PKS. Compounds 6 to 9 were discovered by genome mining of trans?AT PKS. Compound 10 was discovered by genome mining of fungal type Ⅰ PKS. Compounds 11 were enediynes

在Ⅰ型PKS 中,trans?AT PKS 的KS 也能形成與其底物的化學結構緊密相關的進化分支[53]。Jorn Piel課題組[54]利用KS數據庫檢索發現了與mis PKS(misakinolides PKS)進化上非常接近的序列,最終鑒定其產物為二聚的大環內酯luminaolide B(6,結構見圖5)。通過研究misakinolides、scytophycin 以及 luminaolides 的生物合成和進化關系,發現它們的基因簇來源于共同祖先,通過缺失或獲得PKS上游或末端序列實現結構多樣化。為了實現trans?AT PKS 產物的結構預測,理解trans?AT PKS 的生物合成基礎和進化模式,Jorn Piel 和Marnix Medema 課題組[55]開發了在線工具transATor 和transPACT。TransATor 輸入PKS 序列,預測KS 底物特異性及對應的聚酮核心結構,利用這一工具他們發現了tartrolon 類化合物和leptolyngbyalide。TransPACT是trans?AT PKS 注釋和比較工具,可以自動形成KS 的功能分支,識別不同PKS 組裝鏈共有的連續模塊。他們利用transPACT 從GenBank 中得到1782個trans?AT PKS的基因簇并用antiSMASH進行分析,隨后提取KS 序列進行進化分析,根據計算生成的模塊共享網絡和進化樹進行基因挖掘,最終發現了新的trans?AT PKS 產物secimide(7)、gynuellalide(8)、spliceostatin L(9)等(結構見圖5),并探究了相似化學結構在序列上的相關性[56]。這些研究表明了可以通過對trans?AT PKS中KS 結構域的進化分析來指導結構新穎的聚酮化合物的挖掘,同時也為PKS 改造以生產非天然的trans?AT PKS 聚酮產物提供了基礎。辛志宏課題組[57]利用KS 序列的進化分析挖掘植物內生真菌中Ⅰ型PKS 產物,發現了具有抗菌活性的天然色素talafun(10,結構見圖5)。該研究表明使用高度保守的KS 結構域作為進化標記,可以快速連接真菌基因信息和化學結構,并作為高通量測序技術的常規方法應用于實踐。

除了PKS 本身,同一個簇中的共同進化基因同樣可以用于基因挖掘。烯二炔是一類由Ⅰ型PKS 產生的線性多烯,具有極高活性,常作為臨床試驗中的抗體藥物配合物[58]。Shen Ben 課題組[58?59]以兩組不同的烯二炔生物合成基因E5/E 和E/E10 為靶標通過實時定量PCR 從3400 株菌株中挖掘烯二炔化合物。通過PCR 他們發現了81 株具有烯二炔聚酮合酶基因的菌,同時對基因E的進化分析表明許多簇與已知的是不同的。為確認這一結果,他們對31株代表性菌株進行了基因組測序,對其中的相關基因簇進行GNN(genome neighborhood network)分析,發現了與已知基因簇明顯不同的基因簇,最終通過分離鑒定發現了活性化合物tiancimycin A(11,結構見圖5)[58?59]。以上研究為挖掘更多烯二炔類化合物或利用PKS 合成烯二炔同系物奠定了一定基礎。

2.4 PKS生物合成改造

事實上,自從三十多年前Ⅰ型PKS 的多模塊化特征被確定,研究人員就嘗試利用模塊和結構域的重新組合來產生新的非天然聚酮化合物[60]。由于其多模塊的特性,PKS 提供了一個通用的合成平臺,例如可以作為合成特定有機酸的有效方法[61]。然而,在對PKS 裝配線進行改造的一些早期嘗試中,交換或刪減一些結構域和模塊經常導致酶活性顯著降低甚至是無活性[52],推測這與蛋白相互作用[53]以及底物選擇性[54]有關。

同時,越來越多的證據表明,對組裝線系統的進化有更好的理解可以進一步提高改造這些系統的能力[圖6(a)][29,35,62]。Adrian Keatinge?Clay課題組[63?65]根據新定義的模塊邊界,即在KS 和AT 之間選擇切點構建了多個雜合PKS,目標產物的產量得到明顯的增高(相比于根據傳統定義構建的雜合PKS 有10~48 倍的提高)[圖6(b)]。Christian Hertweck 課題組[66]分析幾條聚酮合成基因簇中各個模塊KS 的系統發育樹,通過幾種不同方式的剪切融合,證明在自然進化過程中模塊的增加或刪減可能發生在KS?AT 連接處,并通過分析基因簇中P450 修飾酶的底物特異性,進一步推測出PKS 的進化順序。同樣地,除了上述KS?AT連接處,post?AT 連接處同樣被證明為有效的模塊融合和結構域交換切點[67?69]。類似的利用自然偏好的位點進行“剪切?粘貼”的策略可能也適用于trans?AT PKS的改造[54]。

圖6 進化導向的PKS改造Fig. 6 Evolution?guided engineering for PKS

Jay Keasling課題組[69?72]通過序列比對,把KR或KR?DH?ER 整體在模塊間進行交換,體外和體內實驗證明了這種策略的可行性[圖6(c)],這也進一步表明還原結構域可能為進化過程中潛在的重組單元。另一方面,一些研究通過嘗試對AT[73]和KR[74]活性口袋進行多點突變以逆轉其選擇性,然而當這些突變被用于整個模塊,仍無法專一地得到預期產物,可以推測PKS 并不是單純依賴點突變的方式,而是通過基因重組導致的結構域交換去改變結構域的選擇性[29]。

雖然PKS 單個或多個結構域甚至整個模塊的結構已經通過X 射線單晶衍射和低溫冷凍電鏡技術解析[75?81],揭示了蛋白質相互作用在聚酮鏈延伸各個階段的重要性以及一些重要的蛋白相互作用位點,但PKS 催化過程中各個結構域潛在的協同作用未被完全揭示,基于三維結構的理性設計改造仍困難重重。因此,從自然進化的角度分析整個PKS 或各個結構域的進化關系,推測自然重組發生的位點,以此作為人工改造的切點,并根據進化關系選擇合適的候選PKS 進行拼接構建雜合PKS,這為研究者提供了進化導向的PKS 改造新思路。

3 進化和大數據導向的NRPS研究

非核糖體肽合成酶(NRPS)是來自細菌和真菌的多模塊酶或酶復合體,其催化生成的肽類化合物很多具有重要的生物活性,其中一些被臨床使用如環孢素、萬古霉素、達托霉素等[82?84]。根據合成酶整體結構的不同,NRPS 通常被分為Ⅰ型和Ⅱ型[85]。Ⅰ型NRPS 是大型模塊化復合體,以類似于Ⅰ型PKS的流水線方式生成肽類化合物,每個模塊主要包含C(condensation)、A(adenylation)、T(thiolation,也稱載體蛋白)3 個結構域或其他修飾型結構域如E(epimerization)。Ⅱ型NRPS 蛋白通常是獨立的酶或兩個結構域協同形成獨特的氨基酸衍生物[85]。NRPS 合成肽類化合物過程中,A結構域選擇特定的氨基酸單體,由ATP激活形成氨?;?AMP,然后轉移到載體蛋白T 上。C 結構域縮合被激活的氨?;幕┝蝓?,通過形成酰胺鍵進行鏈延伸。同PKS 一樣,NRPS 對挖掘活性分子、研究酶催化和蛋白相互作用等具有重要意義。

3.1 NRPS進化機理

與PKS 類似,NRPS 的進化過程中自然發生的基因重組發揮了重要作用。非核糖體肽的分化主要由A 結構域或子結構域的重組驅動[86]。A 結構域內的重組發生在Acore的可變部分從而調節底物,但結構域之間的相互作用以及Asub基本不受影響[62,87]。

NRPS 的另一核心結構域是C 結構域,根據立體選擇性的不同可以分為LCL、DCL和起始C 結構域(CS或starterC)3種類型。盡管LCL和起始C 結構域由于某些序列的顯著差異導致了底物的差異(氨基和β?羥基羧酸),它們在進化樹上的關系似乎比其他亞型更密切[88]。已有研究表明C 結構域對立體化學的選擇與E 結構域功能相關[89]。在細菌NRPS中PCPE?E?DCL幾乎是普遍保守的,表明盡管在進化史上發生了無數的基因組復制、插入、刪除和重組事件,E?DCL連接域仍保持著強大的選擇壓力[89]。

3.2 NRPS功能預測

根據NRPS 的進化機理,NRPS 組裝線上的結構域序列與產物的化學結構之間有直接的關系,這種關系使從DNA 序列預測肽類化合物的化學結構成為可能。

1991年,Stachelhaus和Marahiel報道了A 結構域底物特異性預測的開創性工作。他們關注到A結構域的系統進化樹與底物類別有較強的關聯性(圖7),其次發現在Acore區域形成底物結合口袋的10 個關鍵氨基酸序列(即Stachelhaus 密碼),與它們接收的底物具有高度相關性[90]。隨后,一些NRPS A 結構域的底物預測工具被開發利用,如NRPSpredictor2[91]和SANDPUMA[92]等。這些預測工具的發展一方面為基因挖掘發現新型天然產物提供巨大幫助,另一方面也可為NRPS裝配線改造尋找合適的候選基因。

圖7 進化導向方法預測A結構域底物示意圖Fig. 7 Prediction for substrates of A domain using phylogeny?guided method

NRPS 的 A 結構域相當于“底物水平”的進化信號,可以用來預測底物特異性,而NRPS 的C 結構域相當于“途徑水平”的進化信號,可以用來預測類似分子的BGC 模式[93]。C 結構域超家族除了原始C 結構域,還包括其他幾個同樣屬于NRPS結構域的成員如CS、DCL、LCL、E(差向異構化)、Cyc(雜環化)、DualC(差向異構化/縮合)和modAAC(脫氫氨基酸相關),它們由于功能不同在進化樹上形成了明顯分支(圖8)[89,94],因此可以利用C結構域的進化分析進行NRPS中相關結構域的功能預測。

圖8 C結構域超家族的無根進化樹[89]Fig. 8 Unrooted phylogenetic tree of the C?domainsuperfamily [89]

3.3 NRPS基因挖掘

NRPS 中A 結構域和C 結構域的底物選擇性以及不同模塊的催化順序決定了氨基酸的連接順序,意味著非核糖體肽類化合物的結構可以與NRPS序列直接關聯起來,因此可以利用 A 結構域或C 結構域的進化分析進行NRPS的基因挖掘。

鈣離子依賴型抗生素是一類需要鈣離子才能發揮活性的環肽。已知的這類化合物都有保守的Asp4?X?Asp6?Gly7片段促進其與鈣離子的結合?;诖?,Sean Brady 課題組[95]通過PCR 從土壤eDNA 中擴增NRPS 的A 結構域,并對擴增得到的序列用eSNaPD 進行分析。標簽序列的進化樹中Asp4結構域有許多進化分支與已知BGC 距離較遠,這暗示土壤微生物組中有未知的鈣離子依賴抗生素存在。通過異源表達,他們鑒定出一類新的鈣離子依賴抗生素malacidins(12,結構見圖9)。雖然基于宏基因組的抗生素發現方法仍處于起步階段,但是上述研究中規?;妥詣踊椒楦咝诰螂[藏在宏基因組中的抗生素,以及為對抗抗生素耐藥性提供了一種潛在的強大方法。

圖9 進化導向基因挖掘獲得的肽類化合物12~17分子結構(化合物12為基于NRPS的A 結構域基因挖掘發現的鈣離子依賴抗生素;化合物13~16為基于NRPS的C結構域基因挖掘發現的糖肽類抗生素;化合物17為基于NRPS預測發現的脂肽類化合物)Fig. 9 The structure of peptide molecules 12~17 obtained by phylogeny?guided genome mining(Compounds 12 was calcium?dependent antibiotic discovered by genome mining of A domain; compounds 13~16 belonged to glycopeptide family of antibiotics discovered by genome mining of C domain;compound 17 was lipopeptide antibiotic discovered by NRPS prediction)

2020 年,Gerard Wright課題組[96]收集了71個糖肽類抗生素的基因簇,利用基因簇中的C結構域構建進化樹預測出可能有新的生物活性的糖肽類化合物,最終發現兩個具有新的功能的糖肽類抗生素corbomycin(13)和complestatin(14)(結構見圖9),并闡明它們是通過與肽聚糖結合,阻斷了自溶素(自溶素是生長過程中細胞壁重構所必需的肽聚糖水解酶)作用從而抑制細菌生長。近期,Gerard Wright 課題組[97]利用糖肽抗生素指紋序列擴充候選BGC 后,通過進化導向基因挖掘及異源表達鑒定了5 個新的typeⅤ糖肽類抗生素(typeⅤGPA)rimomycins(15)和misaugamycins(16)(結構見圖9),并證明它們的作用機理也是通過阻止自溶素活性而抑制細胞分裂。這些發現拓展了typeⅤGPA的化學多樣性,為藥物開發提供了新的化學骨架,展示了基于進化的生物信息學平臺在挖掘糖肽類抗生素化學“暗物質”中的巨大應用潛力。

NRPS 的準確預測也促進了不依賴于傳統分離技術的生物活性肽的開發。Sean Brady 課題組[98]利用對脂肽的生物信息學預測,通過化學合成獲得了具有較強抗菌活性的脂肽cilagicin(17,結構見圖9),并闡明它是通過阻斷細胞壁生物合成中兩種必需的十一烯基磷酸發揮抗菌作用。該研究基于CS結構域的進化樹分析,發現了孤兒BGC,然后將化合物結構預測與化學合成結合得到對應產物,避免了目標基因簇不表達或產物產量低等問題。

3.4 NRPS及NRPS?PKS雜合的生物合成改造

3.4.1 NRPS

目前針對NRPS 的生物合成改造已有不少嘗試,主要可以分為以下幾類:①取代A 結構域或A?T 結構域,從而改變延伸單元[99];②改變A 結構域的底物結合口袋[100?101];③C?A 或者C?A?T 結構域交換[102]。

通過A 結構域取代,David Ackerley 課題組[86]高效地獲得了高產量的pyoverdine修飾肽,確定了允許的A 結構域重組邊界[圖10(a)]。Jorn Piel課題組[103]對hormaomycin 合成基因簇中7 個A 結構域核苷酸序列分析發現,除了與底物識別口袋有關的約400 個堿基對,其余序列展現出了超過90%的相似度,這暗示著潛在的天然重組位點?;谶@種猜測,利用從自然重組推斷的序列邊界,以HrmO 第3 個A 結構域作為模板構建了3 個嵌合體,體外試驗表明A 結構域的底物特異性被成功轉移,并且仍保持較高的轉化率?;谕瑯拥牟呗?,Donald Hilvert 課題組[104]把9 個不同的底物特異性移植到gramicidin S 合成基因簇的GrsA 模塊中[圖10(b)]。

圖10 進化導向的NRPS改造Fig. 10 Evolution?guided engineering for NRPS

C 結構域和C?A 連接域影響A 結構域催化活性和底物選擇性。與此類只改變A 結構域核心序列的策略不同,Helge Bode 課題組[105?108]將A?T?C或A?T?C/E 定義為交換單元,提出了XU(exchange unit)以及XUC(exchange unit condensation domain)的概念。他們認為C?A 連接域是理想的重組位點,因為序列比對表明A?T 和T?C 連接域保守性低,并且在催化循環中可能參與重要的蛋白相互作用,而C與A結構域之間主要依賴疏水作用。依據這種交換單元構建的雜合NRPS 雖然相比于野生型顯示出降低的產量,但仍可以得到足夠用于活性分析的目標產物[圖10(c)],且在少數例子中實現了與野生型同等的產量。有趣的是,這種交換單元類似于PKS 模塊邊界的新定義,考慮到C 結構域同樣具有門控的功能,可以推測C 結構域與上游A?T結構域進化關系上可能具有一定的關聯性。

3.4.2 NRPS/PKS 雜合

聚酮和多肽類化合物具有截然不同的骨架,而NRPS和PKS雜合大大促進了天然產物類型的多樣化。對NRPS/PKS組裝線進行改造是產生新型生物活性分子的一種有效方法。在真菌中,高度還原型聚酮合酶(HR?PKS)可以與NRPS形成雜合,合成以吡啶酮骨架為代表的一系列真菌聚酮化合物。Hideaki Oikawa 課題組[109]分析了NCBI 真菌基因組中884 條PKS?NRPS 雜合酶,發現了酶系統進化樹的分支與產物分子骨架之間有明顯的對應關系,為真菌PKS?NRPS基因簇產物的分布與結構多樣性提供了宏觀見解。

細菌PKS?NRPS雜合酶是合成博來霉素等的模塊型酶。盡管PKS和NRPS的進化機制仍存在許多疑點[29],但通過進化分析發現一些自然重組位點,可以作為模塊改造和結構域融合的切點。雙內酯縮肽類化合物antimycins 由NRPS?PKS 雜合酶合成,序列分析表明其可能與三內酯JBIR?06、四內酯neoantimycin A 由同一個祖先進化而來。Ikuro Abe 課題組[110]受此啟發,進一步推測出自然重組發生的位點,對JBIR?06 和neoantimycin A 合成酶模塊進行增減,通過異源表達實現了對內酯縮肽類化合物環尺寸大小的控制。這項研究通過分析NRPS?PKS雜合酶自然重組進化的過程,證實上述PKS 和NRPS 改造策略(2.4 和3.4.1 小節)同樣適用于NRPS?PKS雜合酶體系[110]。

4 進化和大數據導向的非模塊型酶研究

4.1 非模塊型生物合成酶基因挖掘

4.1.1 RiPP (ribosomally?synthesized and post?translationally modified peptide)合成酶

不同于聚酮、非核糖體肽類化合物等,RiPP的生物合成途徑缺乏共同的生物合成特征,其基因簇難以進行可靠的生物信息學預測[111]。針對RiPP 的預測工具可以依賴于前體肽特征或者修飾酶。丁偉課題組[112]通過深度學習來探究RiPP 生物合成的底層邏輯,提出了基于BERT 預訓練模型的組合模型BERiPP(bidirectional language model for enhancing the performance of identification of RiPP precursor peptide)。BERiPP 能夠在不考慮基因組背景的情況下無差別地識別RiPP 前體肽,并對前導肽裂解位點進行預測,為高通量挖掘新的RiPP提供了思路。

此外,基于機器學習技術的進步,Nathan Magarvey 課題組[115]開發了DeepRiPP,集成了基因組和代謝組學數據,使用機器學習來自動發現和分離新的RiPP。DeepRiPP 通過3 個模塊實現:識別獨立于基因組結構和鄰近生物合成基因的RiPP,優先選擇編碼新化合物的基因座,從復雜的細菌提取物中自動分離出相應的產物。他們利用DeepRiPP 對來自463 株菌株的10 498 個提取物的數據庫進行大規模比較代謝組學分析,最終發現了3 種新型RiPP,結構與平臺預測的完全一致。DeepRiPP 提高了RiPP 基因挖掘效率,展示了機器學習技術在微生物基因大數據挖掘中的應用前景。

4.1.2 萜類合酶

萜類化合物是真菌及植物中常見的重要天然產物類型,由IPP(isopentenyl diphosphate)和DMAPP(dimethylallyl diphosphate)為底物形成單萜、倍半萜和二萜等生物合成的線性前體,再由萜類合酶催化多樣的環化反應形成復雜的碳骨架結構。與植物和真菌萜類合成酶相比,細菌萜類合酶總體上序列相似度很低。Dickschat 和Garbeva課題組[116]對鏈霉菌進行了全基因組系統發育分析,比較了萜類合酶基因在鏈霉菌中的分布,并對這些萜類合酶進行進化分析,研究發現這些酶的進化與鏈霉菌的進化并不一致,這表明基因水平轉移可能是鏈霉菌萜類合酶基因分布的重要機制。同時,他們發現鏈霉菌的萜類合酶在進化樹上可分為10 類,其中土臭素(geosmin)合酶最為豐富。為探究細菌萜類合酶和真菌萜類合酶的進化關系,Chen Feng 課題組[117]對908 個真菌萜類合酶和1535 個細菌萜類合酶進行進化分析,研究表明真菌同樣通過基因水平轉移從細菌中獲得萜類合酶。此外,近年來越來越多的證據表明基因水平轉移在萜類合成前體生物合成途徑的進化中也起著重要作用[118]。

二萜是由4 個異戊二烯單位構成的萜類化合物,廣泛分布于植物界,其含氧衍生物很多具有較強的生物活性,如紫杉醇、雷公藤內酯等。微生物代謝產物中也發現有二萜類化合物,但與植物來源二萜合酶相比,來自菌類的二萜合酶的研究較少。為了從公共數據庫中挖掘潛在的二萜合酶編碼序列,劉宏偉課題組[119]利用EriG蛋白(猴頭菇中形成cyathane 骨架的環化酶,屬于UbiA 超家族)序列作為探針進行基因組挖掘,通過序列聚類分析和進化樹分析,發現了細菌和真菌中與UbiA 相關的新家族二萜環化酶(cluster 11)。通過在大腸桿菌中表達鑒定了7個新的二萜環化酶,并確定了其對應產物的結構,其中包括一個新的具有不同尋常骨架的二萜lydicene。這項研究豐富了細菌和真菌中二萜環化酶的多樣性,更新了UbiA超家族成員,為微生物二萜合酶在生物催化和代謝工程中的應用提供了新的機遇。

近期,Dickschat和Abe課題組[120]開展了真菌二倍半萜生物合成酶的系統進化研究。二倍半萜是由C 端異戊烯轉移酶(prenyltransferase,PT)和N 端Ⅰ型萜類合酶兩個結構域組成(terpene synthase, TS)的嵌合萜類合酶(PTTS)催化合成,該課題組利用18 個PTTS 的TS 功能區域構建系統進化樹,發現PTTS 形成6 類主要分支,對應不同的環化產物[120]。劉天罡課題組[120]進一步拓展了PTTS 進化樹分析,結合基因挖掘揭示了6 類主要分支大致對應異戊二烯線性前體的兩大環化模式,即第四?第五雙鍵成環的Type A 反應以及第三?第四雙鍵成環的Type B 反應。利用PTTS 進化樹的基因挖掘,劉天罡課題組[121]首次發現了三種真菌來源三萜合酶以及其三萜產物。其中三萜合酶MpMS 和CgCS 催化的環化模式是不符合上述兩類的新機制,表明基于序列分析的萜類合酶功能預測的局限以及其豐富的催化可塑性。

4.1.3 其他基因

在PKS 中,催化Claisen 縮合反應形成聚酮主鏈的KS 屬于硫解酶超家族[122]。從進化角度來說,這個超家族的成員具有與分支相同的功能簇,都從類似于古菌硫解酶的類硫解酶祖先分化而來??紤]到它們進化的多樣性和結構的相似性,Ramon Gonzalez課題組[123]假設硫解酶超家族中除了PKS 以外還有酶能夠催化迭代Claisen 縮合反應合成聚酮骨架。他們通過合成具有代表性的聚酮化合物,如內酯(三乙酸內酯)、烷基間苯二酚酸(alkylresorcinolic acids)、烷基間苯二酚、羥基苯甲酸和烷基酚等證明了這一途徑的可行性。這一發現可以擴展到其他硫解酶,以進一步闡明它們的結構和功能關系,并將它們的生物合成潛力用于PKS研究[123]。

末端炔是一種廣泛應用于有機合成、醫藥科學、材料科學和生物化學的功能性物質,在微生物體內可以由特殊的去飽和酶--乙炔酶催化形成[124]。Zhang Wenjun 課題組[125?126]闡明了JamA、JamB、JamC 在末端炔jamaicamide 生物合成中的功能,以炔基形成關鍵酶jamB基因作為探針對其序列相似基因進行進化分析,篩選新的炔烴基因簇,發現了由TtuA、TtuB 和TtuC 組成的新的末端炔生物合成機制,從而擴大了末端炔烴生物合成研究模型,在合成和化學生物學中有廣泛的應用前景。

吲哚咔唑是一種被用作抗癌藥物先導的天然產物, 其核心結構是由嗜鉻吡咯酸(chromopyrrolic acid, CPA)合酶催化的兩分子氧化的色氨酸二聚形成。對土壤宏基因組中的CPA 合酶同源基因進行系統發育分析,發現了新的吲哚色氨酸boregomycins A~D、erdasporine A~B 以及reductasporine 等[15,127?128]。

安莎霉素是臨床上重要的天然產物家族,這類化合物的顯著結構特征是存在一個芳香核心,來自共同的前體3?氨基?5?羥基苯甲酸(AHBA)。對鏈霉菌AHBA 合酶同源基因進行進化分析,最終從6株菌中發現了25個安莎霉素,包括8個新的juanlimycin和neoansamycin等化合物[15]。

進化導向基因挖掘方法對化合物生物合成特征基因如催化末端炔形成的乙炔酶、催化吲哚咔唑形成的嗜鉻吡咯酸合酶以及催化安莎霉素形成的AHBA 合酶進行進化分析,從中挖掘出具有相同官能團的活性化合物,該方法使得利用antiSMASH 或ClusterFinder[129]無法直接檢測到的特殊化合物BGC 的檢索成為可能,為發展基于進化的生物信息學途徑提供了可行性驗證。

4.2 靶向抗性基因的天然產物挖掘

天然產物挖掘的主要目標之一就是發現新的作用模式的抗生素,以抵抗病原菌的多重耐藥性。為避免產生的抗生素對自身的傷害,微生物進化出了幾種避免自身毒性的耐藥策略,包括產物修飾、底物運輸和結合、靶標復制或修飾,這些耐藥修飾由位于抗生素BGC 附近的抗性基因編碼[130]?;虼刂锌剐曰虻拇嬖诳梢宰鳛轭A測該途徑合成的天然產物生物活性的窗口?;谧晕业挚够蜃R別的天然產物發現有助于彌補活性導向和基因組導向方法在天然產物發現和功能分配中的缺口[10,131]。近年來,也有一些利用進化思想靶向抗性基因進行的天然產物挖掘,例如前文中提到的ARTS即是靶向抗性基因的進化導向基因挖掘工具[16?17]。 利用ARTS 探測模式, Nadine Ziemert 課題組分析了所有已知的BGC 和可用的細菌基因組(其中包含已知的耐藥靶基因),除了MIBiG 數據庫中26 個已知的基因簇,還檢測到22個具有抗性靶標的基因簇,體現了進化導向基因挖掘的應用潛力。

轉錄調控因子tetR/marR和抗性轉運因子如tetA是四環素生物合成中常見的一對抗性基因,其中抗性轉運蛋白是位于細胞膜上的四環素/金屬質子逆向轉運蛋白,而調控蛋白TetR 是四環素誘導阻遏蛋白?;谒沫h素BGC 的抗性機制,戈惠明課題組[52]以TetR/MarR?轉運蛋白作為挖掘四環素類天然產物的指標,結合鏈長因子CLF 的系統發育分析進一步細化,發現了25 個不同的四環素基因簇,最終分離出一種新的四環素海南環素。這種同時靶向抗性基因和Ⅱ型PKS 基因的基因挖掘方法為特異性、高效地挖掘新穎的抗生素提供了可能。

4.3 進化導向的非模塊型酶改造

基于進化分析所啟發的生物合成酶改造并不局限于PKS 和NRPS 這類多模塊化酶。Tobias Erb課題組[132]通過將烯酰輔酶A 羧化/還原酶(ECR)與其他中鏈脫氫/還原酶(MDR)進行聚類分析(圖11),發現丙酰輔酶A合酶(PCS)以及古菌烯酰還原酶(AER)可能與ECR 由共同的祖先進化而來,并具有潛在的CO2結合口袋和羧化功能。在一定CO2濃度下,PCS 和AER 均展現出較弱的羧化功能,但主要是還原產物(大于95%)。結合三維結構模型,作者進一步分析了CO2結合口袋的序列,并對關鍵氨基酸進行突變。通過增強CO2的結合和阻止水進入口袋,成功喚醒了PCS 和AER 的羧化功能,羧化產物占比均提高了約20 倍,成為主要產物(圖12)。

圖11 中鏈脫氫/還原酶(MDR)進化分析Fig. 11 Phylogenetic analysis of MDR

圖12 古菌烯酰還原酶(AER)和丙酰輔酶A合酶(PCS)的改造Fig. 12 Engineering for AER and PCS

上述的研究是通過對同源蛋白的比較來闡明特定蛋白功能的進化,這種方法通常稱為“水平的”。因為它們是基于對某一進化階段的分析,用于分析的蛋白都是在現存物種中發現的蛋白質。而系統發育算法為序列分析增加了垂直維度,可以根據現存序列的進化追溯到共同的祖先[133]。祖先序列重建(ancestral sequence reconstruction,ASR)即是實現從現代序列(即現存序列)推斷原始序列的強大工具[134]。ASR 的一個基本元素是系統發育樹的計算,其葉子是所選的現存序列,與系統發育樹的根相關的重構序列代表了所研究序列的共同祖先。如果這個序列編碼了一種蛋白質,就可以通過基因合成技術“復活”這個祖先蛋白,并借助生物化學實驗來研究其生化特性。ASR 還可以推導出樹中所有內部節點的序列,進一步闡明進化過程[133]。

5 總結與展望

BGC 可以通過廣泛的水平基因轉移有效地分散,甚至跨越門的邊界,因此天然產物研究中基于進化的發現策略在增加新穎性方面有力地補充了傳統方法?;谶M化原理的生物信息學分析工具的開發和應用產生了日益增長的遺傳(基因)、催化(蛋白)和化學(化合物結構)數據庫,并推動天然產物研究進入現代大數據時代,使得天然產物全景圖可視化成為可能[1?2,6]。通過這些策略獲得的天然產物不僅加深了對天然生物活性分子合成方式的認識,而且豐富了生物活性化合物庫。

隨著天然產物相關研究的數量和質量的增長,人工智能分析方法(如機器學習)的應用潛力也在增加,將進化導向的方法與人工智能結合將是該領域的發展方向之一。而成功的機器學習方法需要高質量的訓練數據,未來可能需要跨實驗室甚至國際的協調努力,以標準化的方式生成數據集并進行管理[135],而這依賴于生物信息學的發展[136]。

基于進化及大數據進行的天然產物挖掘不僅本質上受到已測序基因組數據量與范圍的限制,目前還仍然面臨一些挑戰:①許多含有目標分子BGC 的微生物在實驗室條件下不可培養,或者目標基因簇不表達。目前對于這一問題的解決,主要是依賴于異源表達等分子生物學技術的發展,因此,提高異源表達效率等技術方面的改進將促進進化導向的天然產物挖掘。②預測基因簇產物的生物活性仍然困難。目前只能通過靶向生物活性分子類似物或者抗性基因的天然產物挖掘提高發現活性分子的概率。探尋化合物結構與生物活性在進化中的關系或許能夠為進化導向天然產物挖掘發現新的活性分子提供更多機會。③萜類、生物堿等的BGC 很難展現化合物的結構特征,基因簇產物的分子結構預測仍有較大挑戰。對于這些非模塊型BGC,還需要增加基因簇與其產物的表征數量,并仔細分析每一步生物合成酶的進化特征和規律。

酶改造方面,對于模塊型酶的合理改造是自其發現以來的重要目標。在PKS及NRPS改造的早期嘗試中,交換或刪減一些結構域和模塊經常導致酶活性顯著降低甚至是無活性,而對組裝線系統的進化分析推斷出自然重組發生的位點,可以指導人工酶改造的設計。目前,基于進化分析得出的PKS 新模塊定義以及NRPS 的XUC 概念為模塊型酶的改造提供了理論依據,這些概念的應用以及進一步優化將推動合成生物學的發展。此外,這種思路不局限于PKS和NRPS這類多結構域、多模塊的酶,將進化與大數據分析相結合也將為其他酶的改造提供新的思路。

自然界千萬年來基于各種進化機制創造了豐富多樣的生物合成途徑和天然產物,人類認識自然界的腳步也從未停歇。通過生物信息學研究生物合成酶進化的機制,挖掘其活性產物用于醫藥健康或者農業生產領域,結合大數據分析描繪天然產物全景圖,或者利用自然界的規則和元件,從模仿進化的角度去設計改造生物合成酶以滿足人類的需求,這正是發現自然并改造自然的過程。

猜你喜歡
合酶基因簇課題組
陽城縣“耕心微寫”課題組
原科技大學新能源開發與應用課題組介紹
冬瓜高通量轉錄組測序及分析
四種中藥單體選擇性抑制環氧合酶-2活性的評價
課題組成員
腸球菌萬古霉素耐藥基因簇遺傳特性
海洋稀有放線菌 Salinispora arenicola CNP193 基因組新穎PKS 和NRPS基因簇的發掘
尋常型銀屑病皮損組織環氧合酶2(COX-2)的表達研究
同型半胱氨酸、胱硫醚β合酶與腦卒中
動物雙歧桿菌RH胞外多糖基因簇的克隆及分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合