?

“可折疊性”在酶智能設計改造中的應用研究
——以AlphaFold2為例

2023-07-10 02:39孟巧珍郭菲
合成生物學 2023年3期
關鍵詞:殘基蛋白質預測

孟巧珍,郭菲

(1 天津大學智能與計算學部 計算機學院,天津 300350; 2 中南大學計算機學院,湖南 長沙 410000)

酶一般是功能性的蛋白質,在各種生物反應中作為生物催化劑參與,是生物細胞發揮功能不可或缺的部分。經過漫長的歲月進化,天然酶為了適應自然環境而擁有了特定的功能[1-2],一般適宜在溫和環境下且具有特定作用。由于具備高效特定作用,且無污染的特性,酶非常受工業生產研究人員的青睞。例如用于釀酒的酵母菌、用于降解塑料的酶等等,都是酶分子應用在工業領域中的經典例子。但實際工業生產過程中,發現在工業環境中直接應用天然酶并沒有達到滿意的效果。錯誤的折疊、出現副產物、功能不適宜等缺陷對酶在工業行業的應用發出了挑戰[3]。

要想解決這一問題,必須對酶進行改造或者設計新酶來滿足特定的工業環境或者功能需求。那么,認識酶的結構與功能的關系是非常重要的[4]。傳統的酶改造過程涉及到修改酶的基因,使其在細胞中被成功表達純化[5]。然后對得到的突變體進行試驗驗證是否能提高性能。這期間的時間、人力成本是巨大的,而且成功率非常低。隨著人工智能技術的發展,利用計算方法輔助指導酶的改造或者設計開始成為主流[6-10]。計算算法的快速實現,極大地降低了遍歷窮舉整個可能計算空間的搜索,同時利用優化算法很容易尋找到可行解。例如中科院微生物研究所吳邊課題組[11]使用多種計算工具,根據塑料降解酶的序列從保守性、結構能量值等角度篩選可能存在的突變位點,獲得了塑料降解酶PETase的突變體DuraPETase。該突變體的熔融溫度提高了35 ℃,溫和溫度下對塑料降解酶的降解能力提升了23%。根據特定的改造或者設計目標,智能計算方法一般是基于酶的序列或者結構挖掘和酶功能之間的映射關系,并希望借此能了解酶的各種作用機制,比如催化作用、特異性結合能力等。

那么,對于設計或者改造后的新酶,是否可以按照實驗要求折疊成給定的構象,實現要設計的功能?這個能力一般稱為“可折疊性”[12-13]。實驗驗證是將新酶序列在大腸桿菌中純化表達,同時測定是否具有給定的功能。但是,現在很多工作隨機生成新酶,可以產生大量要求的序列。這些序列如果都通過實驗室測定其是否合理,并不符合通過計算手段降低實驗成本的初衷。迄今為止,盡管從頭酶設計有了諸多成果,但大多都表現出低效率。有研究表明錯誤折疊是大多數酶設計工作失敗的原因。如果在設計或者改造的過程中,考慮加入結構約束的話,則在很大程度上可以提高新酶的“可折疊性”。最近5年來,基于人工智能與數據驅動技術的蛋白質結構預測取得了一系列的突破性進展[14-16]。例如,AlphaFold2[14]預測了人類蛋白組的98.5%蛋白結構,極大豐富了蛋白結構數據并促進對人類生命機制的研究。實際上,蛋白質結構預測實際上可以被稱為“逆式”的蛋白質設計。那么,在蛋白質設計領域,蛋白質結構預測這些相對成熟化的工具,是否能從結構約束角度促進酶的改造設計工具更快速且精確化促進酶的“可折疊性”研究呢?

本文聚焦于智能算法改造設計新酶這一應用背景,首先對現有的研究工作從骨架設計、序列設計兩個角度進行了系統性的梳理。然后介紹了成熟化的蛋白質結構預測工具的四種方法框架,并以AlphaFold2為重點介紹了相應的工作流程。蛋白質結構問題可以理解為尋找一個合適的擬合函數f,能夠將序列空間映射到結構空間。因此這部分內容從四個角度來展開:①基于物理化學規則打分;②基于統計知識打分;③基于深度學習預測打分;④端到端一步式。蛋白質改造設計則分別從序列和結構兩個角度挖掘和功能之間的模式(見摘要圖)。最后本文總結出三種蛋白質結構預測工具在酶設計/改造中的應用場景,展示如何利用“可折疊性”幫助改造或者設計穩定且具有給定功能的酶。希望本篇文章能對如何利用正確折疊進行合理酶設計改造有所幫助。

1 酶的智能改造設計策略

人工智能在酶的設計改造過程中的應用,有助于對酶序列、功能以及結構空間的快速探索。對于酶的計算機智能輔助設計,通常集中于酶的熱穩定性、耐酸堿性、催化活性、底物特異性以及酶的從頭設計等方面[2]。前面幾種的設計著重于對酶的功能空間的探索,提高酶的某種已有功能特性,且不影響其原有的其他功能特性。而酶的從頭設計則側重于設計一種新酶,其目標功能可能只是具有8個β“片段桶”(barrel)這樣的形狀要求,或者是這個“桶”從結構上更為松散的功能性要求,又或者是β片段的排列方式這種結構上的要求。這意味著酶的設計要從結構和功能上達到統一。

利用人工智能解決問題是根據已有的數據挖掘內部隱藏的看不見的模式,即序列、結構與功能之間的內在的關系映射。第一步則需要合理地將酶的描述特征提取到并表示成機器識別的模式,一般分為以下幾類:基于序列的,基于結構的,基于嵌入的?;谛蛄械?,包含一些常見的onehot編碼、物理化學特性編碼(疏水性、電荷等)、進化保守性、AA-index[17]、zScales[18]等?;诮Y構的,包含一些基于統計的殘基對間的接觸勢、相鄰結構域的類型及物理化學性質、骨架扭轉角度、鍵長、距離活性位點的遠近等[19]。而基于嵌入的,是指模型通過在大量蛋白質家族序列或者結構上進行類似于“完形填空”的訓練過程中,學習到序列/結構鄰居的上下文信息。在此過程中,模型學習氨基酸的有意義的中間表示,并提煉出每個氨基酸位置周圍的重要結構環境,比如ProtVec[20]、ESM-1V[21]、TAPE[22]、dMaSIF[23]等。接下來需要構建合適的模型預測或者生成目標。這部分的差異,可參考文獻[24]。接下來根據目標從酶的智能改造和設計兩部分展開。

1.1 酶的智能改造

酶的智能改造通常指的是在對酶的催化機制、空間結構、物化屬性等有一定了解的基礎上,利用計算手段有目的地對酶的功能進行改造。對于任意的一條酶序列,可能的突變方案都是非常龐大的,且無法在實驗室逐一驗證所有可能的突變方案是否合理有效。采用人工智能技術尋找酶的可能突變位點以及對突變位點組合,能夠快速地實現高通量篩選,減少生物化學實驗成本。這里僅結合人工智能探討現有對酶的功能改造相關工作。

利用酶的序列以及功能性指標數據對,構建模型,然后利用模型指導酶分子改造。其構建的模型輸入一般是基于序列或者結構提取的描述符,輸出則是蛋白質適應性的預測目標,一般對應于要改造的具體功能性指標。一旦模型建立,即可通過預測大量突變序列的性能快速篩選不理想的突變體。以Frances H.Arnold團隊[25]發表在PNAS上的工作為例。該工作主要是改造一氧化氮雙加氧酶(NOD)立體選擇性,并選擇多個機器學習模型去構建NOD的立體選擇性催化模型,包括但不僅限于K最近鄰、線性模型、決策樹、隨機森林,將76%(S)-ee初始突變體提升至93%(S)-ee及反轉至79%(S)-ee。中科院微生物研究所吳邊團隊[11]提出一種新型蛋白質穩定性計算設計策略GRAPE。該策略對傳統篩選突變體策略進行補充,并通過系統聚類分析對得到的單點有益突變進行聚類,同時結合貪婪算法進行網絡迭代疊加,大幅度規避了以往遇到的累積突變所帶來的負協同相互作用。設計出的突變體DuraPETase可在中等溫度下有效降解塑料,為酶的設計的計算策略提供了非常重要的方向。當特定類型的酶數據比較小的時候,可以借助在大量通用酶類數據上的預訓練模型來學習氨基酸對之間的相互作用關系或者鄰居結構環境信息,指導后續的酶改造任務。這種方法的好處是可以根據特定任務在具體的數據集上對預訓練模型進行微調,以適應于不同的小數據集的下游任務。2021年提出的Low-N模型充分利用了UniRep中大量的蛋白質序列,通過無監督語言預訓練任務提取了蛋白質的一般功能特征,然后在特定家族序列上微調,進一步捕捉到了該家族的特異性特征[26]。通過上述方式得到的蛋白質表示,僅需要少量的序列和目標功能的數據,就可以訓練一個簡單且有效的監督模型。將該模型應用到實際中,最少僅需24個avGFP突變體的數據集,就設計出了新的熒光蛋白,可以與高保真且高通量的蛋白質工程產物sfGFP相媲美。Low-N以較少的數量實現了蛋白質序列到功能模式的轉變。類似工作還有文獻[27]中提到的SEMA。

除此之外,隨著日益豐富的結構數據與逐漸成熟的深度網絡學習能力,從酶的結構數據集中直接挖掘結構與功能之間的關系也成為可能。2022年,得克薩斯大學奧斯汀分校McKetta化學工程系教授Hal S.Alper[28]結合人工智能技術和酶工程,改造出一系列塑料降解酶的變體,相關工作發表在Nature上。其中最優秀的突變體FAST-PETase優于現有的PET降解酶的變體的降解效率,且能在更廣泛環境中具有較好的活性,證明了在工業規模上酶塑料回收的可行途徑。該方法首先篩選有效突變位點的方法是利用一個深度學習算法MutCompute[19]來有效過濾篩選突變位點 。MutCompute通過一個3D的自監督的卷積網絡模型,對每一個殘基構造一個局部微環境,統計該環境中原子(C、H、O、N、S)出現的次數、電荷、溶劑可達面積來編碼該局部環境,最后預測每個殘基的序列類型(分類問題)。根據該殘基一個已有突變體上的預測概率值與在野生型中的概率差異值大小,衡量出殘基在野生型結構中的“不匹配度”(disfavoured),進而篩選出這種得分較大的突變位點,結合以往文獻中報道的有效突變位點以及活性口袋位點,指導后續進一步篩選有效組合突變。該方法捕獲了由結構決定的功能模式的指導轉化,篩選條件是該殘基在給定的蛋白質折疊環境中適配的能力。相比單純使用序列的模型,考慮殘基在結構環境中是否適配或從已有結構數據中挖掘這種規律,約束了改造酶的合理性并且增加了可能的改造位點方案。類似的工作還被應用在TEM-1 β-內酰胺酶和白色念珠菌磷化異構酶(CaPMI)中[29]。

實際上在酶改造過程中,序列和結構信息并不是互相割裂的。Connor W.Coley組提出一種將結構約束在序列表示上,就是一種有效的思路。相比僅用ESM-1b[30]提取蛋白質序列的平均池化模式得到的序列特征,融入離酶活中心遠近的結構性差異構建的池化策略,則在增強酶的嵌入性表達的同時還提高了酶活性預測任務的模型性能[31]。豐富的酶結構信息,是非常重要且有效的(參見上面加入結構約束之后幾個工作的性能提升)。隨著AlphaFold2等高精度有效的蛋白質結構預測方法的提出,如何結合預測出來的海量結構數據擴展對酶的功能改造,是具有研究價值的。

1.2 酶的智能設計

酶的從頭設計是指創造出自然界中不存在,具有新的功能、結構或者形狀的酶。在人工智能技術沒有被引入到這個領域之前,大多數酶的設計是構建基于物理或者統計的模型去擬合力場(這一部分的基本思路和蛋白質折疊一致)。本小節根據不同的設計目標以及任務需求,從主鏈結構設計、氨基酸序列設計兩部分展開,著重探討智能計算算法給蛋白質設計領域帶來的新思路(如表1)。

表1 蛋白質設計工具匯總Table 1 Summary of protein design tools

1.2.1 主鏈結構設計

主鏈結構設計,指的是設計出符合預先定義的結構拓撲約束(例如:二級結構基本單元的組成以及順序、相對位置等)。這里介紹一個非常典型且有突破性的工作,SCUBA[32]。該工作由中國科學技術大學劉海燕和陳泉團隊提出,是一個具有高自主可設計性的主鏈設計算法,且并不依賴側鏈類型。該算法在結構數據中基于核密度估計構造神經網絡形式的能量函數來捕獲高階相關關系,可在不確定序列(即設計的能量函數不依賴于側鏈,充分考慮柔性)的情況下,連續廣泛搜索主鏈結構空間,突破之前方法僅限于已有模式的限制。再輔以該團隊提出的給定主鏈設計序列的能量統計模型ABACUS[48],形成了一套全新的蛋白質自主設計新路線。

此外,Namrata Anand陸續提出基于生成對抗網絡(generative adversarial network, GAN)[49]實現蛋白質骨架設計的工作,從生成模型的角度考慮蛋白的骨架設計。發表在2018年的NeurIPS[33],利用DCGAN(deep convolutional GANs)[50]模型生成Cα原子之間的相對距離圖(考慮到平移旋轉不變性),將該配對距離約束引入到折疊成給定結構的可微問題中,并采用交替方向乘子法(alternating direction method of multipliers, ADMM)優化該凸規劃問題[33]。緊接著2019年發表的另一個工作也采用GAN實現給定距離約束下骨架設計,只是后面的精細化調整有所不同[34]。

1.2.2 氨基酸序列設計

氨基酸序列設計,則是在蛋白質結構已知的情況下,設計其相應的側鏈類型,也就是氨基酸序列。根據在設計過程中給出的約束不同,可以采用不同的方法來設計序列。

當從功能上約束設計的序列時,可以采用序列生成方法,在具有給定功能的酶序列數據上挖掘殘基間的模式直接生成新酶的序列。常用的生成模型有長短期記憶網絡(long short-term memory,LSTM)[51]、GAN、變分自動編碼器(variational autoencoder,VAE)[52]、Transformer[53]等。Mire Zloh課題組[35]構建了基于LSTM的生成模型和雙向LSTM分類模型,設計了對大腸桿菌具有潛在抗菌活性的新型的抗菌短肽序列,經過分類模型的預測發現設計出的肽序列被認為具有抗菌功能的概率在70.6%~91.7%,且其三維構象表現出具有兩親性表面的α-螺旋結構[35]。Gisbert Schneider課題組[36]同樣使用LSTM從螺旋抗菌肽序列上捕獲數據的模式并將學習到的上下文信息運用于抗菌肽序列的生成。Aleksej Zelezniak課題組[37]提出ProteinGAN,利用GAN學習到大量天然蛋白質序列的多樣性并進而生成具有特定功能的酶序列。以蘋果酸脫氫酶(MDH)為例,作者在該酶家族序列上進行訓練并設計出具有相同功能酶的序列,其中有突變位點超過100個的設計序列,其活性與天然酶的活性相近。

同樣,可以采用結構約束來指導進而設計氨基酸序列。這種情況下,設計的氨基酸序列能否折疊成目標的蛋白質結構是至關重要的指標。最近被稱為新一代Rosetta蛋白設計內核的Rosetta MPNN “Mover”,突破了傳統的Rosetta設計范式“inside-out”模式。該方法ProteinMPNN由David Baker組提出,基于structured-Transformer[54],采用了結構編碼-序列解碼的自回歸模型框架,將原子配對距離勢融入到邊的特征表示中,使序列恢復率提高約7.8%[39]。ProteinMPNN對根據幻想的主鏈進行蛋白設計,其中96條蛋白質序列在大腸桿菌體系中可以被大量可溶表達,且成功結晶一個與設計結構高度一致的設計蛋白。同時,ProteinMPNN對單體、同源二聚體、異二聚體結構進行設計,其序列恢復率均在50%以上,其中核心區域的恢復率高達90%~95%。中國科學技術大學劉海燕和陳泉團隊[40]提出的ABACUS-R完全基于深度學習算法實現給定骨架設計氨基酸序列,不再依賴于傳統能量項構建,并且序列恢復率高于ABACUS計算的,在測試集上基本可以達到50%[40]。其主要思路是在給定骨架的情況下,通過編碼-解碼(encoder-decoder)框架學習在給定殘基的結構特征以及周邊結構環境的特性預測該殘基的序列類型(側鏈)。值得一提的是,ABACUS-R采用多任務學習,不僅僅學習該殘基的類型,還同時預測其二級結構、溶劑可達面積、B-factor以及一些結構構象扭轉角任務。這些輔助任務的設計不僅提高了模型設計序列的能力,還隱式地在序列設計中加入了實時的結構約束。實驗驗證設計了3個天然骨架的蛋白序列設計并做了相應的實驗驗證。最后通過ABACUS-R設計出了可以成功表達且折疊成相應的三維結構的蛋白質序列,充分證明了繞過建模側鏈模型的蛋白質設計是可行的。卜東波課題組[47]提出ProDesign-LE也是基于Transformer框架,通過計算序列類型是否符合給定的局部結構環境來設計蛋白序列。在實驗中為CATⅢ酶設計的5條序列中,有3條可以成功表達且可溶。許錦波課題組[55]提出的一種基于骨架設計蛋白序列的方法,基于生成SE(3)等變模型,顯著改進了現有的自回歸方法。Mostafa Karimi組[38]提出gcWGAN探索生成給定折疊條件下的序列,使序列折疊成給定的方式。構造一個基于DeepSF[56]的快速從序列預測折疊模式的模型并實時反饋監督序列是否可以正確折疊,這個模型被稱為“Oracle”。Po-Ssu Huang組的Namrata Anand[57]直接從蛋白質骨架結構信息中預測側鏈氨基酸類型,從而學習到一個基于自回歸的自動的神經網絡能量來指導后續的序列設計。在實際的TIM-barrel設計中,設計出的序列中有兩個成功結晶且與設計的骨架高度一致。

總的來說,對于酶的智能設計,人工智能方法的設計相比傳統基于力場的模式帶來更高的成功率,且更加快速(ProDesign[47]僅需30 s即可設計一條少于100長的蛋白序列)。根據不同任務需求,可以實現酶的全新骨架設計和酶序列的從頭設計。同時將二者結合起來可以形成一套按需從頭設計酶的流程。酶設計中直接從給定結構建模設計序列的方法(類似于MPNN),本質上是為了尋求一條序列使結構能量最低。但是給定一條序列,其所能折疊成的狀態有很多,目標結構不一定是設計的序列所能折疊成的最低的能量結構。因此現今從頭酶設計中最關鍵的是后續對新酶的折疊能力評估。設計的新酶序列在后續的實驗中評估能否折疊或者折疊成給定的目標構象,這是在實際應用中最關注的問題。因此,在設計酶的過程中,利用“可折疊性”作為指標過濾設計序列,有助于設計更高質量的酶,減少了實驗室對酶序列的后續驗證,從而降低成本。

2 蛋白質結構預測方法

從上面的討論中我們可以看到人工智能極大促進了酶在改造和設計方面的發展。但是對于設計或者改造后的新酶,其是否可以如期折疊成給定的結構,其實是其能否執行相應功能的關鍵性問題。那么,如何衡量“可折疊性”?一般是通過一系列的實驗操作觀察其最后是否折疊或者折疊后與目標結構的結構相似性(TMscore得分)。但是實際上,如果在設計或者改造的過程中同時考慮“可折疊性”,就會大大提高最終酶的質量。因此,成熟且高精度的蛋白質結構預測工具是極其有必要的。

蛋白質折疊問題是Science雜志指出的人類在21世紀需要解決的125個科學前沿問題之一。蛋白質分子作為細胞這所天然工廠中不可或缺的主力,根據周邊環境的變化,通過展開與折疊過程的不斷轉移,實現結構從變性到天然狀態下穩定緊湊折疊結構的變化,從而實現蛋白質序列信息的解碼,發揮蛋白質的功能。蛋白質結構預測問題可簡單用數學公式簡單表述為:g=f(s)。其中s表示蛋白質序列,g表示蛋白質結構,求解蛋白質結構就相當于在求解函數f的表達式。函數f越精準,預測的結構越準確。顯而易見,是否能找到一個“完美”的能量打分函數f,能正確表達在折疊過程中各個原子空間之間的能量變化、位置,從而正確區分天然構象和其他構象,是整個蛋白質結構預測問題中的關鍵。本文著重從4個角度對如何構建函數f來進行闡述:基于物理化學打分,基于統計知識打分,基于深度學習預測打分以及“一步式”構建。前三種方法均傾向于尋找完美的“能量函數”(或者稱之為“打分函數”),更好地模擬原子從雜亂而無序的狀態到相互作用進而形成穩定折疊狀態過程中的各種力場變化。得到具有一定規律的“打分函數”后,一種是依據熱力學系統中能量越低越穩定這一基本原則,隨機模擬尋找具有最小能量的構象,另一種是將“打分函數”轉為可微函數,將蛋白質構象預測轉化為數學中的最優化問題尋找最優解(即最優構象)。那么這三種的差別則體現在構建能量函數的規則或者手段上。一般在實際情況中會適當從這三種方法中挑選合適的能量項組合,以尋找更加適合的復合折疊能量函數。最后一種則是直接實現端到端的蛋白質序列-結構模式的深度挖掘,一步式實現從蛋白質序列到結構的輸出。

2.1 基于物理化學打分

基于物理的能量項,通過描述原子在折疊過程中原子內部之間相互作用以及蛋白質分子與溶劑分子之間的相互作用,來模擬構象的最終能量。一般包括成鍵作用和非成鍵作用[58]。后者主要包括氫鍵、范德華力、靜電力等,前者則包含一些二面角、鍵角、鍵長等勢能[59-61]。但是在實際過程中,由于我們對蛋白質折疊機制尚未完全理解,例如哪些相互作用力對折疊是重要的、不同相互作用力的疊加是否是有益的,這就導致在設計能量函數的時候并不一定合適。

2.2 基于統計知識打分

基于知識統計的方法,一般要求有一個大型結構數據集(類似于PDB[62]),從中統計不同原子對之間的相對位置,進而構造一個打分矩陣,得到原子對之間的打分函數。例如,在打分矩陣中,發現某種氨基酸在其相鄰的0.36 nm范圍內經常有一種氨基酸出現,且對方的相鄰打分矩陣中也顯示經常與之相鄰,則能量值打分一定是較低的。從中,其實可以看出該方法要求預測的這個蛋白質結構在已有的蛋白質庫中存在相似的蛋白質結構區域,即局部的某些構象出現的次數一定不低,否則這個能量項即使很高,也是有一定“偏見”的。美國密歇根大學張陽實驗室[63]開發的從頭預測蛋白質結構預測工具QUARK是典型的基于統計能量項的工作。QUARK分別從原子層面、殘基層面、拓撲層面統計了11種基于知識的能量項,利用副本交換的蒙特卡洛搜索算法實現僅從序列出發預測蛋白質結構的工作。另一個同樣由張陽實驗室開發的I-TASSER,采用基于統計的能量項迭代的基于線程結構模板裝配方法在近幾年的Community-Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP7-CASP15)大賽上均位列服務器組第一名[64-65]。I-TASSER采用的是基于統計的勢能,包含三種類型:①通用的統計勢能,特定方向(平行,反平行,垂直方向)的接觸特征,手性局部結構的短程Cα原子的距離關系,相隔5個殘基的局部結構特征規律等。②氫鍵網絡。③基于線程模板的約束,包含Cα原子之間的距離約束以及側鏈質心原子的接觸距離約束。而與I-TASSER并駕齊驅的由美國華盛頓大學的David Baker組開發的Rosetta方法,則同時采用了基于物理能量項和基于統計的能量項,運用蒙特卡洛算法在構象空間中基于Metropolis準則隨機搜索最低能量構象[66]。

2.3 基于深度學習預測打分

基于深度學習預測打分的思路其實沿襲第一種、第二種的構造思路,只是在實現過程中采用的技術手段不同。其主要手段是依賴于深度學習算法在海量結構數據中預測出不同殘基組合在折疊過程中的模式(“學習”到的能量函數),從而輔助指導或者約束蛋白質的不同折疊排列方式。這里面提到的模式,在多數工作中涉及到的是殘基之間的接觸(contact)分布、距離(distance)分布、原子角度(orientation)分布等。而在折疊過程中,這些約束規則一旦定義,則類似于搭積木一樣,很容易就可以從給定的氨基酸序列出發搭建出準確的三維結構空間。學習到基于神經網絡構建的函數后,將其作為約束加入到能量項函數中,直接優化該函數并且求解最優構象或者隨機尋找能量最低構象。下面通過幾個典型方法的引入來理解通過深度學習預測不同的結構約束作為能量項的過程。

早期的蛋白質折疊將蛋白質三維結構中的物理接觸(contact)作為約束。通過分析蛋白質序列殘基的共進化信息,將序列中殘基的共變關系映射到蛋白質三維空間結構中的物理接觸中。共進化指的是在蛋白質家族的進化演變中,由于環境以及自身進化的需要,某些殘基發生突變后,為了維持某些主要的功能或者結構不變,其他殘基隨之發生共同變化(co-evolution)的現象。從蛋白質家族的多序列比對(multiple sequence alignment,MSA)中統計不同位置上不同殘基對共同出現的頻率大小進而估計它們之間的相互作用,根據相互作用大小判斷在空間結構上是否接觸或排斥。主要的估計方法有:稀疏逆協方差方差估計[67],互信息最大化[68],直接耦合分析(direct coupling analysis, DCA)[69]。這樣基于概率統計模型得到殘基相互作用對估計量的方法,顯而易見依賴于MSA的豐富程度并且難以達到滿意的精度(主要是噪聲以及信息的不足)。但是由于結合了全局信息,相比“孤立”預測殘基對的方法,還是有了很大的突破[70-72]。隨著人工智能技術的發展,解決手段就變得更為豐富多樣起來,預測精度也有了突破性的進展。2016年許錦波課題組[73]提出的“RaptorX-Contact”方法首次將深度神經網絡應用在蛋白質結構領域,在CASP12比賽中一舉奪冠,證明了深度學習算法在該領域的可行性。該方法將殘基對之間的相互作用關系看作圖像問題,提取一維的序列保守性特征、結構特征以及二維的共進化特征,然后采用2D深度殘差網絡(ResNet)塊預測殘基對是否接觸,協助蛋白質的從頭折疊。該方法使用的ResNet網絡相比前面提到的早期研究方法,捕獲到了更高階(high-order)的殘基對關系,而且訓練數據從單一到大量蛋白質家族上挖掘,因而精度有了明顯的提升[74]。

除了上面提到的接觸約束,CASP13上DeepMind提出的AlphaFold1,則將這一約束擴展到了殘基間的距離約束。然后將離散化的距離預測值通過采樣插值轉化成可微的殘基距離分布函數,進而通過直接優化該函數求解距離和角度的最優解,從而確定最終的蛋白質三維結構[15]。AlphaFold1的成功不僅僅是預測精度的顯著提高,更是作為一種信號:深度神經網絡可以有效識別蛋白質序列中的信號以及共進化信息的模式,并將其轉化到高精度的距離分布上??紤]到三維空間的特性,trRosetta相比AlphaFold1還引入了5個角度的預測值來表示殘基間的相對方向,進一步加強了殘基間的約束,并且精度提高了6.5%[16]。David T.Jones組[75]提出的DMPfold,預測的是相對殘基間的距離、主鏈氫鍵以及扭轉角。當學習到這些約束后,類似于RaptorX,輸入到crystallography and NMR system(CNS)[76]中作為約束指導蛋白質從頭折疊。在2022年的CASP15上,張陽課題組在已有的I-TASSER基礎上提出的D-I-TASSER算法[77],將AttentionPotential以及DeepPotential[78]兩個深度學習算法預測出的高準確度的氫鍵(hydrogen-bond)網絡、接觸圖以及距離圖等約束加入到I-TASSER中采用的力場能量項中,然后通過蒙特卡洛模擬進行迭代的片段組裝裝配最終的蛋白質結構構象,該方法位列蛋白質單體單結構域比賽第一名。

2.4 端到端一步式

前面的三種本質上其實還是在擬合折疊物理力場中的各種相互作用的能量。實際上基于能量設計的方法,很難找到一個“完美的”能量函數。隨著不同能量項的累積,帶來的誤差也隨之增加?;谏疃葘W習預測的方法中提到的“兩步走”方法,雖然將復雜問題簡化,但勢必會帶來信息的丟失。因此對于二維的表示會有更高的要求。對于這種復雜高維的相互作用,可以借助神經網絡函數,直接尋找到一個更加“完美”的能量函數去擬合蛋白質分子折疊過程中的力場變化,而不是通過人工構造能量項,即直接學習到深層次的序列-結構關聯關系,是近些年一些研究者的熱點。隨著深度學習技術的逐漸純熟以及研究者對蛋白質結構功能的了解加深,直接基于蛋白質原始序列端到端預測蛋白質結構技術也有了質的飛躍,有力促進了研究者對蛋白機制的研究以及未知蛋白的探索。

2019年Mohammed AlQuraishi[79]提出RGN方法,首次嘗試使用深度學習算法端到端從蛋白質序列直接預測最終的3D坐標,而不是通過前面介紹的“兩步式”方法。其主要思想是將每個殘基作為一個可微基元,然后從兩個方向——N端到C端、C端到N端,預測在已有的所有殘基的局部結構下當前殘基加入后的空間結構,從而將整個蛋白質殘基序列串聯起來,得到最終蛋白質結構。這個過程中,考慮了當前殘基與相鄰殘基之間的相互作用關系,并實現了“多個尺寸”的蛋白質表示學習。實驗證明相比CASP11、CASP12上排名第一的Server組來說,該方法在對于具有新折疊的自由建模中表現優異。但是該方法輸入是蛋白質序列one-hot編碼以及位置保守性特異矩陣(position-specific scoring matrices,PSSM),然后通過LSTM去實現序列的編碼框架,預測出每個殘基的扭轉角參數。PSSM相比前面提到的MSA中提取的共進化信息,并不包含殘基對間的相互作用,只著重單個殘基在單個位置上的進化保守性。因此,該方法:①依賴PSSM矩陣的特征準確性;②忽略殘基對間的相互作用(MSA中共進化信息不是線性的,成本高,且不適合RGN的循環方法)。而之后在CASP14比賽上,DeepMind提出AlphaFold2[14],完全拋棄了AlphaFold1傳統的“兩步式”思路,通過圖推理的方式直接實現了“端到端”(end-to-end)的蛋白質結構預測方法,轉變了結合人工智能研究蛋白質結構研究新范式。因此,由該方法引發的“AI蛋白質折疊”被MIT Technology Review評為“全球十大突破性技術”。AlphaFold2主要由神經網絡EvoFormer和結構模塊兩部分組成。EvoFormer中序列信息和從MSA中抽取的進化特征之間進行信息交換,直接推理出在空間和進化關系中殘基對的配對表征。結構模塊則用于將得到的特征轉化為三維坐標結構。AlphaFold2的優勢在于信息流之間的注意力機制,包括從MSA中學習到配對特征表示與序列上每個殘基的特征表示之間的相互信息交流(基于注意力機制),通過幾何空間約束形成的具有共殘基的相互作用殘基對之間的信息交流(三角注意力機制)。得到更新后的配對殘基特征以及單殘基特征后,通過結構模塊不斷迭代更新坐標系預測當前殘基和相鄰殘基之間肽鍵的角度和距離偏移,最終得到整個蛋白質的全局笛卡爾系坐標。平均自由建模精度(GDT打分)達到80以上,而在CASAP13(AlphaFold出現)之前,這個值最高是40左右。

對于AlphaFold2來說,盡管其預測精度在CASP14上表現驚人,但是后續研究者陸續發現其高度依賴共進化信息以及模板信息,而且對于一條蛋白質在CPU上進行搜索需要大概30 min[80]。因此,從2022年起,陸續有工作直接從已有序列出發,不再顯式利用共進化信息,通過大規模語言預訓練任務(一般采用的模型框架是Transformer)在海量蛋白質序列數據庫中學習殘基的表示以及殘基對的表示關系,直接輸入到AlphaFold2的結構模塊中,輸出蛋白質結構的3D坐標[80-83]。這些方法相比基于共進化的方法(AlphaFold2)來說最顯著的優勢是速度上提升了一個數量級,對于宏基因數量組的蛋白質結構從時間尺度上成為可能。Meta-FAIR提出的ESMFold[80],不僅推理速度比AlphaFold2快,同時對于低復雜度序列的推理精度與AlphaFold2相當。除此之外,還有Ratul Chowdhury提出的RGN2[83],華深智藥提出的OmegaFold[82],上海天壤科技開發的TRFold方法,山東大學楊建益團隊提出的trRosettaX-Single[81]等方法。上述方法基本思路差別不大,各個團隊在模型框架上存在一些技巧的差別。例如,trRosettaXSingle采用了知識蒸餾的思想,利用基于進化的模型作為“老師”去指導僅基于序列的“學生”模型獲得一個比較理想的結果。這些方法預測一個蛋白根據計算資源和長度的不同,計算時間基本在毫秒到秒級,同時不依賴于共進化信息。這種優勢對于缺少同源信息的酶設計改造來說,是非常有必要的。

通過上面的介紹可以發現,現有蛋白質折疊預測問題借助人工智能技術,已經取得了突破性的進展。直接基于蛋白質序列高精度預測蛋白質結構已經成為可能。那么,如何借助這股“東風”助力酶智能設計改造,則是結構到功能這一新研究范式的主要研究問題。同時,我們認為關注設計或者改造的新酶是否具有“可折疊性”,是在考慮實際改造設計酶在合成落地過程中的關鍵性問題。

3 蛋白質折疊在酶智能設計改造中的應用

第一部分中提到,對于酶的改造和設計這兩個應用場景,設計新酶的折疊能力是至關重要的。不論是在給定結構還是在給定功能約束下,設計的新酶如果不能正常折疊或者折疊后偏離預設結構,則減弱甚至喪失給定的功能。因此在設計過程中結合設計后新酶的折疊狀態,相比不考慮再去實驗驗證篩選(幾千幾萬條),在時間和實驗成本上都占有優勢。然而,折疊后的構象,實際上就是蛋白質結構預測的目標。結合第二部分中對蛋白質結構預測工具的梳理,可以看到在人工智能強大的擬合能力幫助下,最近幾年來在蛋白質結構預測方面獲得了突破性的進展。許多蛋白質結構預測工具由于預測的高效快速被廣泛應用,例如trRosetta[16]、RoseTTAFold[84]等。那么,從設計酶的“可折疊性”出發,探索將蛋白質結構預測工具與現有的酶設計改造方法相結合,將會是一條有效的酶智能設計改造思路,有助于探索更為廣闊的蛋白質序列空間。

在眾多優秀的蛋白質結構預測工具中,不得不提AlphaFold2[14]。AlphaFold2實現了對人類蛋白組58%的準確性預測(pLDDT高于70,可信),36%的結構位置預測高可信。其與歐洲生物信息研究所(EMBL-EBI)合作建立的平臺AlphaFold DB[AlphaFold蛋白質結構數據庫,AlphaFold Protein Structure Database(ebi.ac.uk)],涵蓋了幾乎98.5%的人類蛋白。因此,本文以AlphaFold2為代表,探索如何借助蛋白質結構預測工具增加酶設計改造的準確性。其他結構預測工具,可以根據具體研究的數據或者任務不同,替代AlphaFold2的結構預測工作。

3.1 折疊“監督器”

考慮酶的“可折疊性”,最直觀的解決辦法是快速預測設計的新酶的結構,檢驗其是否具有給定結構。因此,第一種預測是將蛋白結構預測工具作為一個監督者,約束生成的序列具有折疊成給定結構的能力[如圖1(a)][41-45,85]。這個思路實施起來的最大難點是從序列預測結構的精度限制。但是現在得益于結構預測的突破性進展,使得這種設計新酶成為可能。其基本思路是在設計序列的時候,加入一個輔助的“監督者”對于生成的序列是否可以折疊且具有給定的構象進行評分,根據得分對蛋白質序列通過基于梯度的、梯度自由的或者神經網絡構造的優化方法來更新序列。通過不斷重復迭代這一過程,最終得到構象約束下的收斂序列。設計序列的時候一般遵從最小能量的原則。但是,我們不清楚給定的構象就一定是設計的這條序列折疊后的最低能量構象。因此結構預測作為“監督器”實際上計算了在給定結構情況下蛋白質序列的最大聯合概率。

圖1 結構預測工具在酶智能設計改造中的應用方向Fig.1 Specific aspects for the application of structure prediction tools in the intelligent design and transformation of enzymes

David T.Jones[41]嘗試將AlphaFold2引入固定骨架設計序列的過程中,以約束生成的序列能夠折疊成給定的骨架,并且正交實驗中也驗證了分子動力學方法模擬的結構對AlphaFold2監督后的實驗結構高度支持。其具體流程是:①生成初始蛋白序列?;谘芯空咧疤岢龅幕谧曰貧w的Transformer蛋白質序列生成模型[86]生成1000條初始序列。同時對于得到的序列用AlphaFold2預測其結構,并與要設計的骨架結構用TM-align[87]做結構比對。最后選擇結構比對得分最高的那部分結構的序列為初始序列,不具有高結構置信度的序列則用丙氨酸填充。這樣做的好處是保證初始的序列是可收斂的,否則可能序列太隨機導致最后沒辦法折疊。②在序列空間中執行貪婪的半隨機游走,逐步突變起始序列進行迭代的端到端設計。這里面AlphaFold2的作用有兩個:一個是預測序列結構,比較與要設計結構的距離直方圖損失,根據損失是否減小來判斷突變序列是否合理;另一個是確定該序列中哪一部分殘基位點要被突變、修改。舉例來說,從起始序列出發并通過AlphaFold2預測其結構以及每一個殘基的pLDDT打分(衡量每個殘基的局部結構合理性)。這里,計算預測結構中的距離直方圖并與要設計的骨架結構的直方圖計算損失。同時,利用每個殘基的pLDDT打分設置為序列位點是否要被采樣的概率。得分較高代表此處殘基是穩定的,反之則是下一次迭代序列設計采樣的點。在下次迭代采樣中,對于選定的采樣位點進行飽和突變,直到距離直方圖損失減小,才接受序列的突變采樣。這樣設置的好處是對于與要設計結構的高度匹配的序列不再改變,大量減少采樣時間盡快收斂以及可能引起的負協同效應。作者在人工設計的Top7上進行測試,得到的序列結構不論是通過AlphaFold2、trRosetta還是基于片段從頭折疊的方法,均被證實與要設計的骨架可能是同一種折疊。該工作應用AlphaFold2在初始序列設計上保證了與目標結構的局部高結構匹配度,同時在序列設計過程中利用AlphaFold2預測的結構與目標結構的距離直方圖損失約束其設計序列保持全局結構相似性以及利用殘基位點可信度增強局部殘基結構穩定性。同年,S.Kashif Sadiq[42]也在bioRxiv上提交AlphaDesign工作,基本思路也是利用AlphaFold2預測的結構與要設計的骨架結構的差異來限制調整序列的優化,采用的優化函數是基于進化的遺傳算法來迭代生成序列。主要差別在于該方法利用預測結構的三維坐標信息差異構建目標函數優化而不僅僅是二維的配對距離直方圖約束,可能在結構約束上更加有效。而且該方法擴展了可能的設計任務的范圍,設計了一些長度在32~256個氨基酸、結構穩定、從頭設計且具有不同折疊的單體蛋白、同源二聚體、異源二聚體、同源低聚物(三聚體到六聚體)。Baker組[43]提出的trDesign是第一個提出將結構預測工具trRosetta應用到蛋白質序列設計中的工作,考慮的也是二維距離直方圖的損失來更新梯度,更新被表示為PSSM的序列。但是受限于trRosetta利用的是二維的結構約束,在正交驗證中發現基于這種反向傳播的方式設計序列不能很好地對三維結構進行編碼,且上述三個工作均是基于給定骨架設計序列,限制了實際設計酶的應用需求。后來Baker組提出的“幻想”(hallucination)的方法[44],不從給定骨架結構出發設計序列,而是考慮在這種目標結構缺失的條件下,是否能隨機產生結構和序列。其實現是通過最大化設計序列的結構與隨機背景序列的差異約束,從而約束該序列折疊后的結構具有一個典型的二維結構特性[44]。實驗中設想了2000條序列,聚類后發現均可以在已有的PDB結構庫中尋找到相似的折疊。實驗驗證的時候有62條是可溶表達的(實驗驗證了129條),且CD的圓二色譜和目標結構的二級結構分布吻合。相比傳統設計驗證的方法,僅僅129條實驗驗證且有48%的成功率,極大地減少了人工驗證的成本和時間。但是由于trRosetta精度有限以及二維結構約束的不足,在接下來的工作中將RoseTTAFold嵌入到具有給定motif的序列設計中[45]。RoseTTAFold顯示利用SE-3 Transformer預測三維結構坐標以及二維距離分布,大大提高了序列設計的準確性。在免疫相關蛋白中,成功設計出攜帶中和性抗體表位的蛋白以及與新冠病毒S突刺蛋白受體結合的ACE2類似物蛋白。后續提出的RFjoint,不再通過神經網絡不斷迭代推理以及反向傳播來設計序列,而是將結構預測和序列設計兩大任務結合起來,直接訓練全新的模型[45]。這樣的好處是減少了反向推理時間,大大降低了設計的時間成本。

總的來說,結構預測工具作為結構“監督器”,在設計過程中預測設計序列的可能結構,并利用該預測結構和目標結構的差異作為損失優化模型,使模型學習到要設計的目標結構信息,從而設計具有折疊到給定結構能力的酶序列。當然根據實際設計任務的目標不同(比如結合口袋的區域等),可以將這部分信息掩蓋,在恢復序列的同時利用結構預測工具預測其結構,則同時還能約束設計的酶從整體結構環境中學習到關鍵的局部結構。

3.2 突變“篩選器”

結構預測工具還可以作為突變篩選器,在酶智能改造設計中作為一種輔助的結構評價指標篩選有益的或者不合適的殘基突變位點[如圖1(b)所示]。接下來的工作介紹還是以AlphaFold2為例。AlphaFold2輸出的結果分析可以提供有關新設計的局部骨架結構的準確性和可折疊性的關鍵信息,指示可能錯誤折疊的區域,并以此評估可以減輕錯誤折疊的突變。

Sarel Jacob Fleishman課題組[13]提出,現有功能蛋白設計方面由于錯誤折疊等導致的失敗使得可靠的高效酶從頭設計目標仍然遙不可及,因此設計了一種改善設計蛋白中不是很合理的位置方法。該方法首先利用Rosetta進行單點突變掃描,篩選有超過5種以上降低自然狀態能量突變的位置標記為“次優”位置。然后應用FuncLib集中在這些低效率酶的“次優”位置上設計突變,將催化效率提高了330倍。最后利用AlphaFold2預測的pLDDT得分和計算的RMSD標記了可能錯誤折疊的區域,合理規避或者重新設計不合理區域,大大提高了其催化效率[13]。這種思路類似于1.1節中討論的根據殘基在當前結構環境中的“不合理”值,判斷是否要在此位點突變。該工作指出,AlphaFold2分析可以提供有關新設計的骨架結構可能的準確性和可折疊性的關鍵信息,指示可能錯誤折疊的區域,并評估旨在減輕錯誤折疊的突變。

在設計領域,有工作通過引入pAE等來自AlphaFold2的結構指標作為“篩選器”,為4個靶點受體蛋白設計了2萬條伙伴(binder)序列,并且做了相應的實驗合成[88]。最后發現基于pAE指標相比傳統的Rosetta打分,篩選后的序列成功率在IL2RA以及LTK靶點上數量差異分別達到了8倍、30倍。這一數量變化證明了利用結構預測工具作“篩選器”的有效性。

3.3 結構“分析器”

結構預測工具還可以作為一種輔助的結構分析,從預測的結構上分析其背后存在的催化機理,結合特異性等[圖1(c)右]。通過分析突變體結構(AlphaFold2預測)與底物結合的復合物結構,來檢驗突變策略是否合適[91-94]。Martin Bartas則利用AlphaFold2成功預測蛋白質結構庫,通過結構相似尋找具有Zα結構域(高結構保守,與Z-DNA/ZRNA結合形成)的蛋白結構[95]。這種蛋白在相關文獻報道中僅有8個,但是由于AlphaFold2對蛋白結構庫的豐富,發現了185個推定可能有該結構域的蛋白質結構。Xin Fengjiao課題組[96]利用AlphaFold2預測出酶序列的高精確度的合理結構,從結構角度上分析其催化性能,在與底物結合口袋附近的位點上進行合理突變,發現了高催化效率和或底物偏好性擴大的突變體。

還有研究工作利用AlphaFold2研究不同的構象變化[圖1(c)左]。AlphaFold2雖然在單體結構上訓練,但是可被成功應用在多肽與蛋白質的復合物結構預測中[97]。因此,合理推斷AlphaFold2學習到了蛋白質在功能改變過程中構象的動態集合或者是由于突變導致的構象改變。有工作利用不同深度的MSA輸入到AlphaFold2中去研究這種構象的異質性(conformational heterogeneity)[89]。Guillem Casadevall提出了一種新的觀點,將基于AlphaFold2的新模板策略結合分子動力學模擬,發現不同突變的色氨酸合酶的β亞基(TrpB)結構域的一些不同閉合模式[90]。

4 討 論

本文從頭梳理了酶改造設計在利用人工智能技術方面的一系列工作,指出現有工作中存在的錯誤折疊甚至無法折疊導致失敗,以及設計大量序列需要人工實驗驗證的成本問題。同時基于現有蛋白質結構預測工具的高效快速預測性,可以作為結構“分析器”、突變“篩選器”、折疊“監督器”在設計過程中幫助提高酶的“可折疊性”。正因為考慮“可折疊”能力,設計的新酶的質量相比傳統大量序列中質量較高,幫助后續的實驗驗證降低成本的同時又提高了成功率。值得注意的是,這里面結構預測工具與酶設計工具共同采用,結構預測工具本身只是作為輔助任務。我們在討論結構預測工具應用的時候,是以AlphaFold2[14]為代表展開介紹的。

在介紹應用的時候,我們歸納了三種應用方式。這三種應用的前提均是認為AlphaFold2這類蛋白質結構預測工具學習到了蛋白質序列到結構的復雜關系,對蛋白質結構的全局以及局部結構預測的準確度是可信的。隨著越來越多結構預測工具的開發,根據不同任務(無同源序列)、不同數據類型(α螺旋結構比例較高)等,可以將AlphaFold2替換成其他的結構預測工具。例如上面提到的David Baker組提出的RFjoint[45]采用的就是該組提出的結構預測工具RoseTTAFold[84]。

關于智能方法的引用,相比傳統方法,既大大減少了采樣空間的計算量,又有非常優異的計算準確度,在酶的智能合成改造中的應用是非常具有研究前景的,也是有所突破的。但同時不可忽視的是,一些問題仍然存在且限制了進一步的酶功能研究。

第一個難點是如何將酶在具體參與生物過程中的反應機制等融入到智能算法的設計中。我們知道,生物反應是十分復雜的,甚至還有一些特異性或者混雜性。如何讓模型學習到這種模式或者規則,仍然是需要繼續探索的問題。不過好在現有的一些工作中已經開始嘗試探索。例如:AlphaFold2中更新殘基配對特征的時候采用的三角乘法更新,就是從我們理解的兩邊之和大于第三邊這種距離上的約束來限制殘基對在空間上的距離,從而確保更新殘基捕捉合理的結構模式。又比如RFDesign中設計免疫相關蛋白設計,那么如何將免疫相關蛋白擁有的廣譜性結合能力這一先驗知識加入到計算蛋白設計中呢?文中考慮結合時的受體環境,設計基于三維結構坐標的能量項來表示吸引力、排斥力以及具有的球形形狀三種特性。

第二個難點是對于深度學習模型來說,從海量數據中挖掘模式是合適的。但是現有的狀況是酶的相關數據量小,沒有統一的標準格式,是有冗余的。當然這也與特定學科有關系。很多研究工作利用遷移學習來解決數據量小的問題,比如DeepET在大的蛋白質序列-最佳生長溫度(OGT)數據集上訓練模型,然后遷移到預測酶的最佳催化溫度和蛋白質的熔融溫度[98]?;蛘呃米匀徽Z言處理(NLP)中廣泛使用的大規模語言預訓練模型學習序列的表示,然后小數據集上微調,進行一些功能預測[21,26]。

第三是關于蛋白質設計方面的。在實際應用中,研究者希望利用深度學習設計的酶序列具有可設計且可折疊性?,F有酶序列設計的精度并不高,雖然利用智能算法有效降低實驗室實驗測定的成本,但是設計出來的序列能否被表達、能否折疊,都是需要被重點研究的。本文探討蛋白質結構預測工具在這方面的應用,就是希望能幫助提高可折疊性酶的設計。對于沒有同源序列的酶設計結構,快速有效的結構預測是有必要的。這或許可以應用現有的單序列蛋白質結構預測工具,包括TRFold、ESMFold、trRosettaX-Single、OmegaFold等。上面的工作表明這確實是一種可行性的方法,但是僅從最后結構的約束或者評價中利用結構預測的指標表明錯誤折疊的區域,還是很有限的。最近David Baker團隊提出的RFDiffusion,通過逐步對加了噪聲的結構去噪一步步恢復其結構,提出一種新的設計可能。酶的設計不再是局限于給定結構或者給定拓撲、給定功能的描述,直接設計給定功能且可靠的酶,值得期待。

第四是針對現有酶結構數據的。蛋白質序列和結構的數量差異是非常巨大的。不管最初的目的是什么,酶設計改造最終是希望設計出一個結構從而發揮相應的功能的。借助以AlphaFold2為代表的高效快速的結構預測工具,可以大幅度擴展酶的結構數據,從而分析結構上的差異,理解蛋白功能機制。同時海量結構數據直接使從結構環境中分析殘基類型成為可能。

總之,人工智能技術的突破是驚人的,如何巧妙借助這股東風的力量高效且快速解決酶改造設計的相關問題,是非常具有研究前景的。

猜你喜歡
殘基蛋白質預測
無可預測
基于各向異性網絡模型研究δ阿片受體的動力學與關鍵殘基*
蛋白質自由
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
人工智能與蛋白質結構
“殘基片段和排列組合法”在書寫限制條件的同分異構體中的應用
不必預測未來,只需把握現在
蛋白質二級結構序列與殘基種類間關聯的分析
基于支持向量機的蛋白質相互作用界面熱點殘基預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合