?

人工智能蛋白質結構設計算法研究進展

2023-07-10 02:39陳志航季夢麟戚逸飛
合成生物學 2023年3期
關鍵詞:殘基骨架蛋白質

陳志航,季夢麟,戚逸飛

(復旦大學藥學院,上海 201203)

蛋白質是生物體內的“生命機器”,在轉錄、翻譯、信號傳導和細胞周期調控等幾乎所有的生命活動過程中發揮著至關重要的作用。天然蛋白質以一種極端經濟且嚴謹的方式對其氨基酸序列進行編碼,并在體內自發折疊成特定三維結構來實現其生物活性。探尋蛋白質結構和功能的關系在過去幾十年內一直是基礎醫學和生物學研究的焦點。隨著對蛋白質功能研究的深入和實際應用的展開,天然蛋白質已無法完成人類日益增長的需求。對蛋白質的改造和設計也從依賴天然蛋白的隨機突變和定向進化,向理性設計甚至是從頭設計(de novodesign)全新的具有特定功能的蛋白質轉變。

蛋白質的氨基酸序列排布方式決定了其折疊后結構和活性功能。對于一個鏈長為100個氨基酸的蛋白質,其可能的氨基酸序列組合有20100種。在如此廣大的序列空間內進行氨基酸序列的優化搜索面臨著巨大的困難[1]。蛋白計算設計避免了相對隨機的突變策略,并提供了基于蛋白質的生物物理和生物化學原理的指導性設計藍圖。計算蛋白質設計的目標是設計一個能夠折疊成預定義的結構且具有所需功能的氨基酸序列,通常會從一個已知的結構出發,保留活性位點,并修改部分序列以提高所設計蛋白質的穩定性或實現新的功能[2-3]。

依據Anfinsen的折疊熱力學假說[4],蛋白質折疊到最低自由能狀態,其3D結構由氨基酸序列決定。然而,在折疊過程中最重要的不是折疊態的絕對能量,而是折疊態與最低的備選態之間的能量差。這種計算不僅涉及到所有可能的氨基酸序列,而且涉及到所有可能的結構,因此多數現有的方法都集中在尋找所需結構的最低能量氨基酸序列這個更容易處理的問題上。目前廣泛使用的方法仍然是基于能量函數和啟發式采樣方法的算法[5]。RosettaDesign[6]、FoldX[7]、EvoDesign/EvoEF2[8]等設計方法使用使用蛋白質結構參數化的打分項來量化氨基酸序列和特定三維結構之間的匹配度,其中RosettaDesign是目前使用最為廣泛的方法之一。RosettaDesign采用能量函數[9]來捕捉序列-結構關系,對結構中每個殘基側鏈的氨基酸種類和構象進行采樣,并使用蒙特卡洛模擬退火等方法進行優化以獲得低能序列和構象。在過去的三十年中,基于能量函數的蛋白計算設計取得了巨大的進展,包括設計新穎的3D折疊[10]、酶[11]和復合物[11],更包括免疫信號[12-13]、靶向治療蛋白[14-15]、蛋白質開關[16-17]、自組裝蛋白[18-19]等。盡管取得了這些成功,但是基于能量函數的蛋白質設計方法準確度仍然較低,在沒有多輪實驗試錯的情況下無法可靠使用,導致蛋白設計實驗成功率難以提升[20]。

以深度學習為代表的人工智能技術,隨著算法和算力的發展以及大數據的積累,近期在多個領域取得了重要進展。在生物學和化學領域中,深度神經網絡的優勢在于可以從蛋白質結構的原子坐標、氨基酸種類、二級結構等簡單的輸入數據中學習高階特征。深度學習模型一旦學會了蛋白質特征間的關系,就可以用來為結構生物學和生物分子的設計提供新的見解和指導。海量具備真實性和可用性的數據[21-24]使得深度學習表現出比經典物理模型或其他機器學習方法更好的性能[25]。目前,深度學習已被應用于蛋白質-配體打分[26-29]、蛋白質-蛋白質相互作用預測[30-32]、化合物性質預測[33]、分子結構生成[34-36]等諸多領域[37],近期更是在蛋白質結構預測方面取得了引人注目的進展。以AlphaFold[38]和RoseTTAFold[39]為代表的結構預測算法通過多序列比對(multiple sequence alignment,MSA)、基于注意力機制的序列分析和蛋白三維結構生成等模塊,以端到端的方法大幅提高了蛋白三維結構預測的準確率。

在蛋白質設計領域,近年來設計方法也逐漸從基于物理化學原理的打分函數,轉變到利用深度學習進行設計的策略。本文將回顧近年深度學習在蛋白設計方向的研究進展,按照模型的采樣方式、搜索空間大小和蛋白設計任務的難易程度分成三個方面:①固定主鏈構象的蛋白質設計;②可變骨架的序列設計;③結構和序列生成模型。在固定骨架設計任務中,模型已知蛋白骨架的走向和殘基位置,僅需對骨架上的序列進行設計;可變骨架設計中則允許一定程度的蛋白骨架結構柔性,模型搜索空間增大,設計的自由度提高;生成模型可從頭生成全新的蛋白序列和骨架,或根據局部功能位點進行結構補全,解決了前兩類設計方法中初始骨架來源的問題。

1 固定主鏈構象的蛋白質設計

固定骨架蛋白質設計的目標是找到一個最能折疊成目標結構的氨基酸序列,也可以看作是找到一個折疊成目標結構的概率比其他所有序列都大的序列[40-41]。

1.1 早期工作

SPIN使用一個基于片段局部特征和能量非局部輪廓的神經網絡來解決基于固定骨架結構的蛋白序列設計問題[42],其輸入特征包括目標蛋白質主鏈的φ、ψ二面角,通過比較相鄰5個殘基的結構片段得到局部片段衍生序列圖譜[43],并采用DFIRE統計勢[44]計算全局能量。SPIN在500個蛋白質的測試集上平均序列恢復率約為30%。

Qi團隊[45]開發了用于蛋白計算設計的神經網絡模型,使用目標殘基及其相鄰殘基的距離、主鏈二面角和二級結構等幾何特征,以約3倍于SPIN的訓練集對神經網絡進行訓練,將序列恢復率提高至33%。同期,SPIN2[46]使用一個具有三個隱藏層的神經網絡,在蛋白骨架特征中添加另外兩個骨架二面角θ和ι,并改用正弦和余弦表示作為特征輸入,將序列恢復率提高至34%。

SPIN2僅使用一維結構特征,不足以表征具有復雜三維結構的蛋白質。SPROF[47]則通過兩兩殘基距離的二維距離矩陣來表示蛋白質中殘基之間距離(圖1)。SPROF使用雙向長短時記憶網絡與自注意力二維卷積神經網絡來預測蛋白質序列。SPROF方法在獨立測試集上取得了39.8%的序列恢復率,明顯高于僅從一維結構特征訓練的SPIN2方法取得的34.6%。

圖1 SPROF中殘基距離計算方法(a)dij為殘基i和j的Cα原子之間的距離,d0=0.4 nm;(b)蛋白質殘基-殘基距離矩陣Fig.1 Calculating the distance of residues in SPROF(a) dij is the distance between the Cα atoms of residues i and j, d0=0.4 nm, and (b) matrix for residue-residue distance of a protein structure.

1.2 卷積神經網絡

卷積神經網絡(convolutional neural network,CNN)[48]是最成功的神經網絡架構之一,主要包括卷積和池化兩種基本操作。在蛋白質設計中,卷積層用于對蛋白質殘基間距離圖或蛋白質在三維空間網格中的密度距離分布進行變換并提取特征,更深的卷積網絡能從輸入特征中迭代提取更復雜的特征。池化層通過連續降采樣的方式逐漸降低數據的空間尺寸,以減少網絡中的參數數量,使得計算資源耗費變少,也有效控制過擬合。另外,卷積使得模型能夠處理大小可變的輸入數據。

ProDCoNN[49]、Anand等[50]發展的方法和DenseCPD[51]均使用三維卷積網絡從目標殘基周圍的三維結構環境特征來預測殘基類型(圖2)。模型以殘基周圍的原子密度和原子類型網格作為輸入,使用DenseNet[52]等多層卷積網絡對密度分布數據進行學習,捕獲不同尺度下的結構信息。網絡中的卷積層提取蛋白質共價鍵信息、鍵角、二面角和二級結構的特征圖,池化層精簡特征圖數量,最后輸出目標殘基為20種天然氨基酸的概率大小。其中,ProDCoNN和Anand模型分別在相同的T500和TS50上達到約40%的序列恢復率,DenseCPD則達到51%。

圖2 三維卷積神經網絡提取網格中的蛋白質空間結構信息Fig.2 Extracting spatial information of a protein structure from 3D convolutional neural network

MutCompute[53]使用殘基原子(C,H,O,N,S)坐標、部分電荷(partialcharge)和溶劑可及表面積(solvent-accessible surface area,SASA)作為結構特征輸入3D-CNN網絡。MutCompute以蛋白質中心目標殘基的Cα為中心,掩蔽2 nm立方體內的所有肽原子,構造為該殘基的局部化學微環境(microenvironment)樣本,以這種方式從19 300個蛋白質結構中構造170萬個微環境作為訓練集。訓練后的模型能夠識別穩定的突變,根據殘基局部化學微環境預測蛋白質中不穩定的位點。Lu等[54]使用MutCompute模型設計了一種聚對苯二甲酸乙二醇酯(PET)水解酶,指導野生型水解酶PETase組合N233K/R224Q/S121E和骨架的D186H/R280A五個位點的突變,得到的突變體FAST-PETase具有優異的催化活性和熱穩定性。FAST-PETase在30~50 ℃和一系列pH水平之間顯示出優越的PET水解活性,適用于至少51種未經處理的PET降解,工業上可廣泛用于塑料的回收與循環。

TrDesign[55]使用基于卷積神經網絡的結構預測模型trRosetta進行反向序列設計。首先將隨機氨基酸序列輸入到蛋白質結構預測模型trRosetta[56]中,輸出殘基之間距離、角度和二面角的分布(圖3)。其次計算預測分布與目標蛋白結構分布之間的差異,使用梯度反向傳播來更新氨基酸序列,重復該過程直到收斂。TrDesign通過trRosetta遍歷全局構象勢能面,和RosettaDesign單點能量計算方法相比,能夠多方面捕獲序列折疊勢能,保證設計蛋白質的可折疊性和穩定性。高分辨率的Rosetta模型用于創建目標結構的深度能量極小值,而低分辨率的trRosetta模型用于減少在能量極小值點備選序列的數量。將兩種方法結合,能夠在遍歷勢能面的同時減少候選序列的數量。然而使用trRosetta進行反向序列設計需要反復運行trRosetta模型,計算效率不高并且容易陷入勢能面上次優解。

圖3 trDesign模型架構圖Fig.3 Architecture for the trDesign model

1.3 圖神經網絡

圖神經網絡(graph neural network, GNN)運行在圖(graph)這種非歐氏數據結構上,已被廣泛應用于知識圖譜、社交網絡、藥物發現和蛋白質生物信息學等領域[57-58]。蛋白質結構可用圖進行編碼,殘基信息編碼在節點特征中,空間中相鄰殘基之間的關系可編碼為邊特征。

在蛋白質序列中距離較遠的一對殘基在折疊后的三維結構中可能存在近距離相互作用。在網絡中引入注意力機制使圖網絡能夠識別殘基在三維空間中的緊密/稀疏關系,在考慮全局構象的同時又聚焦局部關鍵特征。此外,圖結構在表示蛋白質結構時,可同時描述主鏈柔性拓撲結構的全局整體特征和精確原子位置的局部細節特征。使用圖結構表征蛋白質具有更高的靈活性和較高的計算效率。

GraphTrans[59]使用圖G={V,E}表示蛋白質結構,節點特征V={v1,v2…vN}描述每個殘基的氨基酸類型,邊特征E={eij}i≠j捕捉它們之間的關系(圖4)。模型通過三維結構的自回歸解碼Transformer[60]以捕獲序列殘基之間稀疏的成對依賴關系信息。GraphTrans模型可以有效地捕獲序列和結構之間的高階依賴關系,序列恢復率在Ollikainen 40測試集上達到39.2%,高于RosettaDesign的33.1%;在CATH測試集上殘基困惑度(per-residue perplexities)為6.85,精度比以往基于神經網絡(LSTM:17.13;SPIN2:12.61)的模型顯著提高。

圖4 GraphTrans編碼器與解碼器示意圖Fig.4 Architecture for the GraphTrans encoder and decoder

一個給定的蛋白質結構,對應于單一的距離矩陣,可以由許多不同的滿足距離矩陣約束的同源序列折疊而成。ProteinSolver[61]是一個預訓練的圖卷積神經網絡,將使用氨基酸序列填充特定目標結構表述為一個約束滿足問題(constraint satisfaction problem),其目標是在兼顧長程和短程的約束的同時,為鏈中的殘基分配氨基酸標簽,使得殘基之間的作用力是有利的。訓練好的ProteinSolver網絡能夠以很高的準確度快速生成數千個匹配特定蛋白質拓撲結構的序列。

為同時將蛋白質殘基的幾何結構和關系特征納入統一網絡架構,Jing等[62]提出使用幾何向量感知器(geometric vector perceptron,GVP)(圖5)來代替多層感知器(multi-layer perceptron,MLP)。給定一個標量和向量輸入特征(s,V)的元組,GVP 將殘基原子三維坐標轉化為殘基距離特征,并將其與標量特征組合,輸出一個更新的元組(s',V')。GVP模型在標量特征進行轉換之前,會將其與轉換后向量特征的范數進行拼接,這允許模型從輸入向量中提取旋轉不變信息,以便圖中節點的信息傳播。GVP-GNN[62]使用GVP層來增強GNN對于幾何結構特征的感知,并能夠在歐氏向量特征上執行和表達,在蛋白質結構的質量評估和序列設計方面具有獨特的優勢。

圖5 GVP原理示意圖Fig.5 Architecture for GVP

Orellana等[63]對上述GVP的結構提出了改進,使用圖卷積神經網絡(graph convolutional neural network,GCN)同時對節點和結構信息進行端到端的學習。模型添加每個氨基酸骨架中所有原子之間的歸一化距離作為節點特征;將每個氨基酸的Cα與其k個最近鄰氨基酸的Cα之間的標準化距離(k值鄰近,k=35)作為邊特征,然后將節點和邊特征嵌入空間進行編碼,并將其引入到GCN模型中,輸出為序列中每個位置的氨基酸種類,可用于指導基于能量函數的蛋白設計方法。該模型的序列恢復率從以往模型的40.2%提高到44.7%。

TERMinator[64]使用三級motifs(TERM)捕獲序列-結構關系[65],融合了殘基原子坐標信息作為特征。TERMinator提取目標蛋白中與TERM結構匹配的信息來構建節點和邊,嵌入空間編碼后輸入圖神經網絡中,輸出序列空間中擬合了能量函數的Potts模型。GNN Potts模型編碼器接受TERM數據并提取特征,使用使用馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)模擬退火算法生成最優序列,輸出位置氨基酸標簽。作者還進行消融了實驗,完整的TERMinator模型(恢復率41.73%)性能強于消融TERM信息輸入的模型(恢復率40.29%),表明聯合使用TERM和空間坐標作為特征有利于蛋白質設計。

ESM-IF1[66]使用GVP來學習向量特征的等變轉換和標量特征的不變變換。該工作嘗試以下三種架構:①GVP-GNN;②更寬和更深的GVP-GNN-large;③由GVP-GNN結構編碼器和Transformer組成的混合模型。ESM-IF1使用AlphaFold2預測的1200萬個結構,將訓練數據增加了近3個數據級,克服了實驗數據的限制,最終在CATH 4.3測試集上進行評估并根據殘基困惑度(perplexity,越低越好)和序列恢復率進行比較。GVP-GNN-large和GVP-Transformer模型均在序列恢復率上比簡單GVP-GNN提高約9%,達到與DenseCPD相當的51%,且困惑度由6降低至4。在突變效應的zeroshot多項預測測試中(包括復合物穩定性、結合親合力和插入效應),ESM-IF1均取得優異的性能表現。

McPartion[67]引入了一種深度SE(3)-等變圖Transformer架構,直接對從蛋白質主鏈結構衍生的特征進行操作,實現了同時預測每個殘基的氨基酸類型和側鏈構象。局部感知圖(locality aware graph)Transformer利用蛋白質主鏈的幾何形狀來優化單個殘基和殘基對的特征表示,并將注意力限制在空間上相鄰的殘基對上。該模塊的輸出和蛋白質主鏈坐標一起被傳遞到張量融合網絡(tensor fusion network,TFN)[68]輸出一個標量和殘基位置,然后由TFN-Transformer為每個輸入殘基產生側鏈構象和氨基酸類型。作者評估了5種不同的殘基掩蔽方法并分別進行了損失函數、網絡架構和模型超參數的消融實驗,發現從損失函數中移除側鏈坐標均方根偏差 (root mean squared deviation,RMSD)和預測的側鏈原子之間的成對距離兩個特征顯著降低了測試蛋白上的天然序列恢復率。除此之外,移除模型中的TFN-Transformer層對恢復率的影響最大。與幾種現有的序列設計方法對比而言,該模型在4個測試集上展現了更高的序列恢復率。

ABACUS-R[69-71]使用一個多任務學習的編碼器-解碼器網絡,根據固定骨架上局部環境預測中心位置的殘基類型(圖6)。網絡的輸入是目標殘基與最鄰近k個殘基聯合形成的局部特征,包含空間層面的相對位置與取向信息、序列層面的相對位置信息以及鄰近殘基的殘基類型。ABACUS-R模型不需要顯式地模擬側鏈,從而避免優化的過程。模型擬合了給定結構下側鏈類型的能量函數,通過在目標骨架上殘基的迭代,逐輪降低隨機殘基數目,使得設計結果逐漸收斂,產生自洽的整體序列。ABACUS-R在單個殘基平均序列恢復率達到53%,多個濕實驗結果(包括X射線晶體學解析的晶體結構)表明,ABACUS-R在設計精度和成功率方面都優于基于能量函數的從頭序列設計方法。

圖6 ABACUS-R模型架構示意圖Fig.6 Architecture for the ABACUS-R model

Roney等[72]認為AlphaFold從蛋白質的共進化數據中學習了一個高精度的能量函數,可以在不使用任何共進化數據的情況下,確定蛋白質3D結構和序列之間的關系,從而用于蛋白質設計問題中。該流程類似于TrDesign,將目標蛋白骨架結構提供給AlphaFold作為模板,最小化目標結構和預測結構之間的差異,并優化關于輸入序列的復合置信度評分(composite confidence score)。該設計方法的序列恢復率達到約30%。

ProteinMPNN[73]參考GraphTrans,使用具有3個編碼器和3個解碼器層以及每層寬度為128的消息傳遞網絡(message passing network,MPNN)。作者認為相較于殘基主鏈二面角和旋轉走向,殘基N、Cα、C、O和Cβ原子之間的距離提供了更好的歸納偏置來捕獲殘基之間的相互作用。將上述特征輸入MPNN網絡(圖7),使模型預測序列恢復從41.2%增加到49.0%。

圖7 ProteinMPNN模型的整體結構Fig.7 Architecture for the ProteinMPNN model

雖然不少蛋白設計模型都致力于提升設計序列的恢復率,但在實際的蛋白設計應用中,恢復率最高的序列并不一定是最優解。因此,ProteinMPNN在設計時使用了采樣溫度來獲取更多的差異序列。PDB數據庫在收集蛋白質晶體結構數據時會根據序列對原子坐標進行修正,ProteinMPNN訓練時在骨架上添加高斯噪聲來避免模型學到這種修正帶來的誤差,以提高模型穩定性并增強模型的泛化能力。噪聲的添加在大部分情況下降低了ProteinMPNN的序列恢復率,并使AlphaFold對設計序列進行結構預測時更具有魯棒性。

ProteinMPNN還使用一種order-agnostic方法使得模型能在結構一部分固定的情況下設計其他部分,這使得ProteinMPNN適用于更復雜的結構,例如蛋白-蛋白復合物、環狀蛋白、蛋白質納米顆粒等。除了計算實驗,研究人員使用ProteinMPNN進行了蛋白質單體、蛋白質納米籠和蛋白質功能設計,并對先前使用RosettaDesign 設計失敗的蛋白進行了重新設計。這些設計蛋白能在大腸桿菌體系中可溶表達,并在生化實驗中驗證了其結構和活性,證明了ProteinMPNN設計蛋白的可靠性和合理性。

如果一個設計氨基酸序列的每個殘基都與其局部環境很好地吻合,那么它就有望折疊成一個與目標結構相似的結構,ProDESIGN-LE[74]便采用該思路。ProDESIGN-LE以每個鄰近殘基的殘基類型和相對于中心殘基的3×3變換矩陣R和三維平移向量t來表示中心殘基的局部環境,將特征輸入一個3層的Transformer來學習殘基對其局部環境的依賴性,并輸出其嵌入圖,后進一步使用全連接層將嵌入圖轉化為20種氨基酸類型的分布。訓練好的Transformer模型在目標結構的序列上迭代地選擇合適的殘基,并相應地更新相鄰殘基的局部環境,最終獲得所有殘基都與自身局部環境匹配良好的設計序列。ProDESIGN-LE模型在計算指標評估和實驗驗證上均取得不錯的結果,在設計的5個CATⅢ蛋白中,有3個具有良好的溶解性。

與CNN方法相比,圖模型不需要像CNN那樣單獨處理每個殘基及其周邊結構,從而減小了編碼的數據規模并提高了訓練效率。GNN能夠充分挖掘結構信息并獲得不錯的序列恢復率,能夠正確處理序列中殘基對的長、短程相互作用關系,可以在效率和精度之間取得較好的平衡。

隨著固定骨架蛋白質序列設計模型的不斷發展,其預測性能和精度大幅度提升,序列恢復率逐步提升,預測困惑度逐步降低(表1,表2)。

表1 固定骨架序列設計模型在CATH 4.2測試集上的序列恢復率和困惑度Table 1 Sequence recovery rate and perplexity of the fixedbackbone sequence design model on CATH 4.2 test set

表2 固定骨架序列設計模型在TS50 &TS500測試集上的序列恢復率和困惑度Table 2 Sequence recovery rate and perplexity of the fixed-backbone sequence design model on TS50 &TS500 test sets

2 可變骨架的序列設計

與固定骨架設計問題不同,在可變骨架設計問題中,蛋白質確切的骨架結構通常都是未知的,因此在設計過程中需要同時考慮優化序列和結構。

2.1 幻想設計

深度學習神經網絡能夠從蛋白質結構或節點關系中識別和提取特征并將這些特征顯著增強后輸出。若反其道行之,對神經元輸入一些抽象的特征,讓每個神經元模擬出最可能具有這些特征的蛋白結構,再將結構信息反傳回網絡,經過多輪迭代優化即能生成最合適的蛋白序列或結構。2015年Google發布的DeepDream便是能夠以此原理在圖片中產生不存在的物品,生成的圖片如同夢境中的畫面一樣。

前文提到trRosetta能夠快速預測一個蛋白質序列的空間約束,Anishchenko等[80]重新訓練了一個背景網絡,將輸入trRosetta的序列在自身的輸出結構上不斷迭代,使預測結構的空間約束逐漸具有清晰的分布,這種方法被稱為幻想(hallucination)設計。首先將一個隨機序列轉換為折疊蛋白序列的編碼,同時輸入隨機噪聲得到背景的空間約束。使用馬爾科夫鏈蒙特卡洛(MCMC)算法對序列進行隨機突變,再將其輸入trRosetta模型中逐輪預測空間約束,以Kullback-Leibler(KL)散度對序列約束和背景約束的分布差異進行優化,使得到的空間約束逐漸逼近真實蛋白質,并借此折疊蛋白3D結構(圖8)。

圖8 hallucination模型原理示意圖Fig.8 Architecture for the hallucination model

TrDesign-motif[81]將trRosetta和hallucination有機結合起來用于蛋白質結合motif的設計。對于活性位點,初始輸入骨架的2D特征作為目標分布,讓motif功能部分預測序列與原結構盡可能地相似;而在自由幻想部分,將隨機噪聲的2D特征分布作為背景,讓生成的序列盡可能遠離其分布。使用混合的損失函數來優化結構和序列,創造出一個攜帶功能motif片段的新蛋白結構。

RFDesign使用constrained hallucination[82]對幻想算法進行約束,優化序列,在保證預測結構的功能基序(motif)與目標結構接近的同時,自由幻想生成其非功能位點(圖9)。inpainting[82]進行蛋白結構補全(即RFjoint2[82]),將trRosetta換成RoseTTAFold框架,并嘗試不同的結構掩蔽方式訓練一個蛋白結構和序列模型,從功能位點出發填充非功能區的序列和結構,創建一個可行的蛋白質主鏈。inpainting可以同時進行結構和序列生成,不依賴于trRosetta或反向傳播的更新,可以通過輸入主鏈走向來提高性能。

圖9 Constrained hallucination模型原理示意圖Fig.9 Architecture for the Constrained hallucination model

研究人員使用以上三種幻想方法設計了金屬蛋白、酶活性位點和蛋白結合蛋白等,并都進行了計算機模擬和實驗測試相結合的驗證[82]。模型中的inpainting和hallucinate模塊能夠實現大腸桿菌鐵蛋白(E.colibacterioferritin)雙鐵結合位點的重新構建,在設計的96個鐵蛋白結構中有76個可溶性表達,8個具有金屬結合的特征光譜位移,3個具有與AlphaFold折疊結構一致的二級結構(圓二色光譜鑒定),并且能夠穩定地與金屬絡合?;孟朐O計能夠產生碳酸酐酶Ⅱ上三個Zn2+配位組氨酸和環上蘇氨酸組成的基序,并正確放置Zn2+配位;幻想模型還構建了參與甾體激素生物合成的D5-3-酮甾體異構酶(KSI)的催化側鏈,兩種酶的活性位點與天然晶體結構幾乎完全匹配。文章中還展示了幻想設計通過固定靶點蛋白和結合蛋白部分位點,修復缺失位點(inpainting)或自由幻想(hallucinate)全新的骨架結構來設計蛋白質結合蛋白的過程。其中設計的結合蛋白pdl1_inp_1與PDL1結合能力(Kd=326 nmol/L)相較于野生型PD-1(Kd=3.9 mmol/L)增強;設計的TrkA在配體結合時呈現與天然結構相同的二聚化現象;多種設計的Mdm2癌基因結合蛋白與抑癌蛋白p53的天然N端螺旋結合緊密。

然而,RFDesign在使用RoseTTAFold生成時,由于采用單次運行預測缺失結構的方式,生成的序列長度和結構質量都受到一定限制。

Zhang等[83]基于上文提到的hallucinate方法,提出一種從頭設計蛋白質折疊的自動自適應優化工具包AutoFoldFinder,通過序列優化的方式產生具有新蛋白元件排列方式的氨基酸序列與結構,使用同余系數圖對齊(congruence coefficient map alignment,CM-Align)替換hallucinate方法中的KL散度,無需對整個接觸圖的全局比較,能夠更精細地反映接觸圖在局部二級結構上的特征差異。AutoFoldFinder通過序列優化將生成一千條蛋白質序列中低相似度序列比例從22%提升至30.9%,加入CM-Align方法后,超過50%的結構與已知結構有顯著差異。

最近Baker團隊[84]發布了首個使用深度學習工具從頭設計熒光酶結構的工作。研究人員選擇合成熒光素酶底物二苯基特拉嗪(diphenylterrazine,DTZ)作為目標酶的作用底物,作者首先構建了DTZ陰離子構象系綜,隨后圍繞每個構象,使用RIFGen方法[85-86]枚舉了與DTZ相互作用的氨基酸側鏈旋轉異構體相互作用場(RIF),最后使用RIFDock將每個DTZ構象和RIF在約4000個天然蛋白骨架的中心腔中進行對接,以最大化蛋白-DTZ相互作用。此方法發現與DTZ結構互補的結合口袋中大多為核轉運因子2(nuclear transport factor 2,NTF2)家族蛋白,將對接獲得的骨架和口袋使用family-wide hallucination方法進行優化設計。

family-wide hallucination集成了無限制幻想設計[80,82]與Rosetta序列設計方法[55],對環(loop)和可變區域(variable regions)的序列和結構進行從頭設計,并對核心區域的結構進行序列優化。該方法從2000個天然NTF2序列出發,在序列空間中進行蒙特卡洛搜索,每一步都進行一次序列變化,并使用trRosetta進行結構預測。模型的損失函數由兩部分構成:結構保守區域基于與NTF2-like蛋白實驗結構的輸入殘基距離和方向分布的一致性進行評估;而可變區域基于網絡預測與背景分布之間的KL散度計算的預測殘基間幾何結構的置信度進行評估。氫鍵網絡也被納入設計的結構中,以增加結構特異性。實驗數據顯示family-wide hallucination生成的1615個骨架在原生結構的空間內采樣更多,并且比原生骨架或非深度學習能量優化生成的骨架具有更強的序列結構關系。

研究人員運用以上方法生成的蛋白骨架設計了人工熒光素酶,能夠以高選擇性催化DTZ的氧化化學發光。其中活性最強的酶LuxSit-i在保持與天然熒光酶催化效率相當的同時大大提高了對底物的特異性和熱穩定性(變性溫度>95 ℃)。

2.2 能量模型

可變骨架的蛋白質設計可以分解成骨架結構的生成和固定骨架設計兩個獨立的子任務。中國科學技術大學劉海燕組[87]提出了一種全新的、使用神經網絡形式能量項的統計模型——SCUBA,使基于連續采樣和優化主鏈中心能量面來設計新主鏈的方法成為可能。SCUBA模型將主鏈的可設計性分解為幾個關鍵因素的作用,包括局部構象傾向性、肽主鏈氫鍵幾何構象以及手性附著和緊密排列的側鏈所需的骨架空間。研究者使用統計能量項來表示各種相互作用,用一種名為鄰接計數神經網絡(neighbor counting-neural network,NC-NN)的通用方法訓練。NC-NN包含兩步過程,首先通過基于核的密度估計(即鄰接計數)從原始結構數據估計統計能量值,然后訓練神經網絡(三層全連接感知機)表示勢。得到的統計能量項,除了可以提供易于計算的函數值和導數用于結構采樣和優化外,還可以高保真地表示復雜的、高維且高度相關的真實結構數據分布。

在模板未知條件下,使用神經網絡形式的能量項模型SCUBA驅動的隨機動力學(stochastic dynamics)和模擬退火算法(simulated annealing)來生成可設計的新蛋白質主鏈骨架,再使用前文中提到的ABACUS2[69]對主鏈骨架序列進行序列優化和骨架松弛[10]設計的迭代,從而完成對蛋白質的可變骨架從頭設計任務。在9種用SCUBA設計的高精度骨架蛋白結構中,其中有4種具有新穎的非天然結構。這一結果充分展示了SCUBA在蛋白設計中的實用性,特別是在設計功能蛋白時,能量函數驅動的骨架采樣和優化可以很容易地進行定制,以促進對結構空間的廣泛探索。另外,SCUBA+ABACUS2[87]策略所設計的蛋白質具有高于天然蛋白質骨架的熱穩定性,設計成功率約為42%(38個經實驗驗證的蛋白質中有16個成功折疊,14個H2E4蛋白質和4個H4蛋白質),設計的骨架與實驗獲得的結構一致,達到原子精度,同時設計的H2E4和H4蛋白與具有相似結構的已知天然蛋白質具有低序列同一性(平均同一性14%)。

Liang等[88]隨后發展了一個基于級數展開的能量函數模型OSCAR-Design。在四個獨立的階段中優化目標函數Etotal=Eside+Ebb+Eref的各項參數,最大化原結構和其他旋轉異構體之間的能量差;最小化天然環結構中選擇環誘餌之間的RMSD,最大化氨基酸組成與天然序列的相似性;懲罰埋藏的非氫鍵極性原子。作者使用Monte Carlo模擬退火算法對OSCAR-Design進行測試。OSCARDesign在側鏈和loop預測任務中與OSCAR[89-90]和LEAP[91]一樣準確。在從頭設計任務中,OSCARDesign在測試集達到38%~43%天然序列恢復率,成功還原了75%的親疏水性殘基,氨基酸組成的整體相似性達到90%。

3 結構和序列生成模型

在第一部分介紹的蛋白質設計工作中,設計過程往往從設計蛋白的主鏈結構開始,該結構可以源自天然蛋白質,蛋白結構預測模型的輸出,根據對天然蛋白的觀察、比較等方式手工搭建的大致三維構象等。近年來機器學習領域生成模型的巨大進展為生成全新的蛋白質結構和序列奠定了基礎。深度生成模型在快速發現新穎、合理的蛋白質結構方面有著巨大的潛力。

3.1 生成對抗網絡(GAN)與變分自編碼器(VAE)

Huang團隊[92]提出了一種基于生成對抗網絡(generative adversarial network, GAN)的生成模型,策略具體細節如圖10所示。蛋白質的結構使用蛋白質主鏈上成對Cα之間的距離(以?為單位)來表示。GAN模型中的生成器通過輸入一個正態分布隨機變量z~N(0,I),輸出一個成對距離圖,判別器判斷生成器輸出的結果是真實的(數據樣本)或是虛假的(生成器輸出),而后生成器對生成的結果不斷迭代優化用以欺騙判別器,整個模型最終輸出得到合理的成對距離圖。得到的距離圖隨后通過交替方向乘子法(alternating direction multiplier method,ADMM)折疊成3D結構從而得到Cα的坐標,最后使用一個快速追蹤腳本將Cα原子的坐標匹配到一個合理的蛋白質骨架。研究者將此方案應用于補全蛋白質結構中缺失殘基的任務,同時還擴展生成建模程序來解決端到端的結構恢復問題,并減少當前模型在精細局部結構中出錯的問題。在后續研究中,Huang等[93]進一步優化了他們的方案,通過所有主鏈原子之間的成對距離來表示蛋白質結構,并提出了一種以可微分的方式直接恢復和細化相應主鏈坐標的方法(圖11)。具體來說,在GAN生成骨架原子距離矩陣之后,采用卷積神經網絡,通過自編碼器損失從成對距離矩陣中恢復蛋白質骨架坐標。相較于ADMM恢復方法,這種新提出的方案是一種快速、完全可微分的方法,即生成的3D骨架坐標的錯誤可以反向傳播到生成器網絡。

圖10 生成對抗模型用于蛋白二維接觸圖和三維骨架的生成Fig.10 Generative adversarial network for generating contact map and 3D backbone structure.

圖11 Famliy-wide幻想蛋白質結構生成模型架構圖Fig.11 Architectuer for the famliy-wide hallucination protein structure generation model

以上提到的GAN方法在結構生成領域表現出了較好的性能,但也存在一定的弊端,例如生成的距離約束不能保證是歐氏有效的,因此不能恢復完全滿足生成約束的3D坐標[94]。2020年Huang等[94]提出了一種構建蛋白質骨架的新方法Ig-VAE,使用變分自編碼器(variational autoencoder,VAE)直接生成免疫球蛋白的三維坐標。模型的架構如圖12所示。首先通過輸入蛋白的原子坐標計算出主鏈殘基二面角和距離矩陣,其次將距離矩陣輸入編碼器壓縮特征得到低維的潛在空間表征,潛在空間表征傳遞給解碼器,解碼器直接生成蛋白3D空間中的坐標(圖12)。通過重構出的坐標重新計算主鏈殘基二面角和距離矩陣,角度和距離矩陣的誤差都通過3D坐標反向傳播進網絡中。訓練完成后,Ig-VAE在結構嵌入及重構、隱空間插值以及生成能力方面表現良好,是一種構建單結構域抗體的有效工具。

圖12 Ig-VAE模型架構Fig.12 Framwork for Ig-VAE

2022年許錦波組[95]提出了一種直接在三維坐標空間中對蛋白質結構進行建模的、基于VAE的模型,相比于先前提出的直接坐標生成模型[3],其應用僅限于固定長度的蛋白質,新提出的模型通過提取關于蛋白質幾何形狀的不變表征(invariant representations),并使用局部對齊的坐標損失函數直接在坐標空間上執行梯度優化,解決了輸入和輸出空間中的旋轉和平移等方差,因此可以直接、靈活地對三維結構進行建模。

此外基于VAE的模型還有Guo等[96]提出的DECO-VAE模型。在該模型中,訓練數據集中的3D結構首先表示為二維接觸圖,而后經由圖神經網絡提取節點和邊特征輸入編碼器,解碼器的輸出以既定的方法還原為蛋白質3D結構。Harteveld等[97]提出的GENESIS模型通過優化蛋白質拓撲晶格模型在距離和角度特征圖中的2D表示來去噪蛋白質拓撲晶格模型草圖。GENESIS結合trRosetta[80]設計框架,為不同的蛋白質折疊生成了大量的不同序列。

3.2 擴散模型

現有的蛋白質3D結構生成方法僅限于在高度約束的環境中生成蛋白的拓撲結構[94]。去噪擴散概率模型(denoising diffusion probabilistic models,DDPM)是一類從復雜數據分布中采樣的生成模型。DDPM定義了一個正向擴散過程,將數據擾動為噪聲,學習反向過程中每一步的噪聲為何,再逐步從數據分布中將隨機高斯噪聲去噪最終產生樣本。近年來DDPM已被訓練用來重建不同形式的被噪聲破壞的數據(例如圖像或文本)。DDPM應用于蛋白設計領域則是將加噪后的蛋白質結構多步迭代后還原為真實結構用以訓練;使用訓練好的模型對輸入隨機的高斯噪聲逐步“去噪”來生成折疊性質完好的蛋白結構,實現蛋白設計或結構生成。

DDPM模型[98-99]輸入的隨機性使得去噪軌跡和輸出的結構具備高度多樣性,模型不需要起始的三維拓撲結構信息,但可以通過提供額外初始結構信息或施加外部約束條件,引導結構生成過程中每個步驟的迭代,直至特定的設計目標(圖13)。

圖13 蛋白質結構生成擴散模型的原理示意圖[100]Fig.13 Schematic diagram of the diffusion model for protein structure generation[100]

Trippe等[101]開發了ProtDiff(一種蛋白骨架擴散概率模型)以及SMCDiff(一種以模體為條件的骨架生成方法)。ProtDiff模型采用分子E(3)等變擴散模型用于蛋白質結構生成。SMCDiff是一種基于順序蒙特卡洛的模體-骨架問題解決模型,將無條件訓練的擴散概率模型用于條件采樣。模體-骨架生成整體框架包含兩個步驟,首先訓練 ProtDiff來學習蛋白質骨架上的分布,然后使用 SMCDiff和ProtDiff來修補給定模體。評估結果表明,該框架能夠生成多樣化的超過20個氨基酸骨架結構,計算時間縮短至數分鐘甚至更短。2022年Wu等[102]提出了FoldingDiff,一種使用Transformer作為主要架構訓練的去噪擴散概率模型(圖14)。對于蛋白質的3D結構,研究者們使用氨基酸殘基間的角度(ψ、ω、φ、θ1、θ2、θ3)來表示,其中3個角為二面角,另外3個角為鍵角。訓練天然蛋白骨架X0開始,通過正向過程向其中迭代添加高斯噪聲,直到Xt時刻角度無法辨識。反向過程中,研究者們采用了一個雙向的Transformer架構,在正向過程中得到的實例上學習反向去噪過程。經過訓練得到的擴散模型可以生成高質量的、多樣化的、在生物學上合理的蛋白質結構。生成的結構可帶有手性,同時表現出高度的可設計性。

圖14 FoldingDiff訓練流程Fig.14 Training flow of the FoldingDiff model

除了上述的僅能生成蛋白主鏈骨架的模型外,DDPM模型還能夠聯合生成蛋白質的結構和序列,完成蛋白質的從頭設計任務。

ProteinSGM[103]模型可以從頭產生真實的蛋白質,并且可以將輸入的蛋白骨架和功能位點修復為預定義長度的完整蛋白結構。ProteinSGM將兩個殘基之間的6D坐標特征作為輸入特征,將其轉化為2D的蛋白質殘基接觸矩陣(圖15)。擴散模型在2D接觸矩陣上逐漸添加噪聲并迭代進行學習正向擴散的進程,訓練完成的模型再對噪聲反向逐步去噪,從噪聲中生成真實的殘基接觸矩陣樣本,后轉化為蛋白質6D坐標。使用模型的輸出殘基約束指導Rosetta Design[104]和Relax生成與6D坐標約束相對應的蛋白質結構。因為連續時間擴散模型的采樣需要大量正向傳播的得分網絡來求解反向梯度,而RosettaDesign依賴于昂貴的蒙特卡洛算法來遍歷結構勢能面找到局部最小值對應的低能量結構,因此模型在高通量設計任務中選擇外接結構預測算法(如AlphaFold2等)來減小計算量。

圖15 ProteinSGM蛋白編碼和模型架構圖Fig.15 Protein structure encoding and model architecture of ProteinSGM

Ingraham等[105]提出的Chroma模型,能夠直接對新的蛋白質結構和序列進行采樣,并調節生成過程,使其達到所需的特性和功能,同時實現完整蛋白復合物的3D結構和序列的聯合建模且計算效率十分可觀。模型可以在不同線索下實現條件采樣,而無需重新訓練。Chroma實現了一種可編程蛋白質設計的新模式,這種模式為生成特定和量身定制的蛋白質提供了可行性。

Anand[106]模型通過定義二級結構和殘基接觸矩陣約束嵌入到高維空間,再使用IPA模塊降維到三維空間中表征蛋白結構。作者使用AlphaFold網絡架構[38]中的不變點注意力(invariant point attention,IPA)模塊替換Transformer中的標準注意力模塊保證模型的平移旋轉不變性,使用類似于BERT[107]的擴散方法在骨架上生成序列。與其他DDPM模型不同,該模型不使用隨機產生的高斯噪聲,而是通過隨機掩蓋部分殘基,在[0,1]中作為t的函數進行線性插值來訓練模型;在生成時,模型在t=T時掩蔽所有的殘基來進行反向過程,從t=T到t= 0的時間步進行迭代采樣。模型還允許人為給定條件信息編碼蛋白結構。該模型完全從真實蛋白結構數據中學習,并生成蛋白質拓撲結構的條件約束,以產生全原子骨架構型以及序列和側鏈預測。作者用了3個獨立訓練的模型分別生成蛋白結構、序列和旋轉異構體,并將模型應用于無序列從頭生成、蛋白補全、序列設計、側鏈旋轉異構體重排等任務中,結果表明其具有作為端到端的蛋白質從頭設計工具的潛力。

Baker組[100]隨后推出基于RoseTTAFold(RF)的擴散模型RFdiffusion。將擴散模型建模為預訓練后微調的RoseTTAFold模型(圖16)。在使用RoseTTAFold進行經典結構預測時,模型的結構輸入來自同源模板結構,每個模板結構都有相關的每個殘基的“置信度”值。在RFdiffusion中,結構輸入來自于部分(去)噪聲的結構,置信度特征被重新參數化以表示當前的去噪時間步,模型在該時間步的條件上進行結構預測,然后計算當前輸入結構到預測的最終結構的噪聲插值,生成去噪的結構并輸入到下一個時間步。RFdiffusion有著RF的序列信息通道,類似于前文中提到的RFjoint,能夠在擴散生成時逐漸地恢復被遮蔽的序列,通過輸入部分遮蔽的序列和完整結構模板來預測未知位置的氨基酸分布,實現部分序列設計。為了生成用于訓練或推斷的加噪蛋白質結構,作者用N-Cα-C骨架對殘基編碼并進行正向擴散。對于平移,用3D高斯噪聲對殘基Cα坐標進行局部擾動;對于旋轉,使用等變的SO(3)-Transformer[108]在旋轉矩陣上模擬布朗運動生成噪聲[109],使得模型具有全局的旋轉不變性和高維的表征能力。在后續無條件約束策略設計和限制拓撲結構設計兩種策略下,RFdiffusion設計了包括蛋白質單體、蛋白質-肽復合物、對稱寡聚體、酶和金屬結合蛋白等多種類型的蛋白,證明了RFdiffusion在蛋白設計任務中的有效性和通用性。

圖16 RFdiffusion模型原理示意圖Fig.16 Schematic diagram of the RFdiffusion model

2022年劉海燕組[110]提出的SCUBA-D,可以從包含不同類型或數量噪聲的原始骨架中生成高質量的骨架。整個模型包含三個主要部分:一個低分辨率去噪模塊,用于從初始骨架結構生成先驗骨架結構;一個語言模型輔助的結構擴散模塊,用于生成高分辨率的輸出結構;一個判別器網絡,用于輔助訓練去噪擴散模塊。在此框架中,初始結構可以是完全隨機的也可以帶有若干約束,低分辨率去噪模塊經過訓練可以處理不同類型的初始結構。對不同的初始結構,該模塊的目標是生成一個經過優化的粗糙的骨架結構,并保留所有初始結構中包含的拓撲信息。而后語言模型輔助的結構擴散模塊獲取低分辨率去噪模塊的輸出先驗骨架結構,使用一系列去噪步驟對其進行細化,最終得到高分辨率的輸出結構,其中使用氨基酸序列語言模型(ESM-1b模型[111])輔助結構擴散過程。為了保證生成結構的高物理可信度,在架構中還使用了兩個GAN風格的判別器,在訓練中提供額外的損失。而后研究者將結構預測用于在生成骨架上設計的序列,來評估模型生成骨架的質量。結果表明,模型可以始終生成高質量的骨架結構,具有十分廣闊的應用前景。

目前,擴散模型在抗體設計中的應用已有報道的工作。2022年Luo等[112]提出了DiffAb模型,該模型基于擴散概率模型以及等變神經網絡對抗原抗體互補決定區(complementarity-determining regions)進行聯合建模,可以生成針對特定抗原結構的抗體。研究者們同時對蛋白序列、坐標以及每個氨基酸的方向都進行了建模,使得模型可以實現原子級別分辨率的抗體設計且對旋轉和平移等變。模型訓練完成后,研究者將模型應用于序列結構協同設計、基于主鏈的抗體序列設計以及抗體優化任務中,結果表明模型在3個任務上均有出色的表現。

基于自注意力架構的蛋白質結構預測模型能夠很好地捕獲序列和結構之間的關系并高度準確地預測蛋白3D結構,但在生成能力上較弱;而基于序列空間反向傳播迭代的蛋白幻想(hallucination)模型的性能高度依賴于輸入的序列條件和生成標準。擴散模型使用的基于結構預測模型的3D噪聲迭代方法,能夠通過外部條件保留特定功能片段進行設計,也能在更廣闊的序列和結構空間中進行探索,同時保證生成蛋白的合理性與多樣性。

3.3 蛋白質序列生成

在蛋白質巨大的序列空間中,想要得到特定的序列以匹配到已知三維結構中執行特定的生物功能,無疑是一個巨大的挑戰。近年來發展的人工智能方法不依賴于盲目搜索,而是基于推理的過程,直接從訓練樣本中學習序列與結構功能的關系,充分探索蛋白質序列空間,得到新穎的蛋白質序列。以下將簡要介紹近年來發表的蛋白質序列的生成模型。

蛋白質序列生成模型的發展主要受到自然語言處理領域出色模型的啟發。Repecka等[113]提出了一種基于生成對抗網絡的蛋白質序列生成模型——ProteinGAN(圖17)。ProteinGAN模型使用生成對抗網絡架構,訓練數據為蘋果脫氫酶家族的16 706個蛋白序列。模型輸入長為128的隨機向量(均值為0,方差為0.5),由生成器生成蛋白質序列并將其呈遞給判別器。在與自然蛋白質序列比較后,判別器對得到的序列進行打分,判斷其為自然序列或是生成序列。生成器學習生成與自然序列近似的氨基酸序列用以欺騙判別器。經過2.5M步訓練之后,98%的生成序列包含蘋果酸脫氫酶的全部主要結構域,同時序列聚類中的不同氨基酸序列之間相似度不超過10%,這表明模型已極大程度上探索了蘋果酸脫氫酶家族的序列空間。

圖17 ProteinGAN基本架構Fig.17 Architecture for ProteinGAN

隨著Transformer模型[60]在自然語言處理領域大放異彩,越來越多的研究者將Transformer架構應用到蛋白質序列生成領域,由此產生了許多基于Transformer的序列生成模型。2020年Madami等[114]提出了ProGen模型。ProGen是一種條件Transformer語言模型。該模型使用帶有一系列蛋白性質標簽的氨基酸序列進行訓練,實現可控生成。ProGen生成的蛋白質在能量上與天然蛋白質相近,具有理想的生物功能。由Elnaggar等[115]提出的ProtTrans模型,使用4種不同的語言模型(兩種自回歸語言模型Tranformer-XL、XLNet以及兩種自編碼模型Bert、Albert)在蛋白質數據集上進行預訓練,從序列中學習提取有用的特征,而后引入下游監督任務,以實現單個殘基和單個蛋白性質的預測。這些模型原則上具有序列生成能力。2021年Gligorijevi?等[116]提出了一種序列去噪自編碼器,該模型與一個功能預測器相結合,可以從大量未標記的蛋白質數據中學習蛋白質序列的多樣性,而功能預測器可對序列采樣的方向進行指導。在測試階段,研究者進一步探究了模型在設計帶有金屬結合位點的序列以及重新設計功能增強的角質酶的能力。

2022年Moffat等[117]提出了DARK架構,用于在不斷迭代擴展的合成蛋白質序列上有效地訓練生成模型,該模型使用了標準的Transformer解碼器架構,可生成具有不同有序結構的新序列。隨后,Ferruz等人提出了ProtGPT2模型[118],該模型是一個自回歸Transformer模型,擁有7.38億參數。模型的訓練在Uniref-50數據集上進行。訓練完成后生成的序列顯示出與自然序列相似的預測穩定性與動態特性,同時在進化上與當前的蛋白質序列空間相距甚遠。Hesslow等[119]提出RITA模型是一個擁有12億參數的自回歸生成模型。該模型在UniRef-100數據集超過2.8億個蛋白質序列上進行訓練。研究者們探究了模型大小對自回歸模型性能的影響,結果表明隨著模型規模的增大,模型的表現有了顯著的提升。而后Nijkamp等[120]提出的ProGen2自回歸Transformer模型具有更大的規模,模型參數最多可達64億,模型的訓練在從基因組、宏基因組和免疫庫數據庫中提取的超過10億種蛋白質的不同序列組成的數據集上進行。為了評估ProGen2生成序列的能力,研究者選擇在以下三種情境對模型進行評估,即:預訓練后一般序列的生成,微調后的可以折疊成特殊結構的序列生成,以及在抗體序列數據集上進行預訓練后的抗體序列生成。結果表明,截至ProGen2模型的提出,ProGen2在生成合理序列方面的表現為當前最佳。

4 總結與展望

在過去的數年中,人工智能技術在蛋白質設計上取得了巨大的成功。先進的人工智能模型憑借其強大的特征提取、數據統計和函數擬合能力,從現有蛋白質結構和序列數據中學習基本的特征和相互作用關系,擬合出具有泛化能力的函數模型,以應用于各類蛋白設計任務中。部分深度學習蛋白設計模型設計的蛋白已經被實驗驗證具有所需的結構和功能。

深度學習模型的性能高度依賴于標注準確的多樣性數據。蛋白結構數據庫需要從昂貴的生物實驗結果中收錄蛋白質功能和性質相關的數據。通常,這些不斷積累的數據需要加以篩選和整理后才能作為深度學習模型的訓練集和測試集。為保證深度學習神經網絡能夠充分捕獲輸入蛋白質結構和序列中的一般性質和潛在的依賴關系,一個具備合理性和可及性的蛋白質特征表示方式頗為重要。從最簡單直接的獨熱編碼、二級結構類型和組成原子在三維空間中的位置坐標,到高維空間中的嵌入圖,再到依據鄰近氨基酸殘基的環境表示方式,為同時兼顧關鍵部位的貢獻和全局構象的完整表征,研究人員提出了多種蛋白質結構和序列的特征提取和編碼表示方法。對特定的蛋白質設計任務,如何選擇合適的蛋白序列結構表征方式和人工智能模型,是研究者面臨的最主要問題。

目前,深度學習模型在蛋白質設計任務上的普及和應用依然存在著諸多問題和挑戰。

其一,和海量的蛋白序列相比,蛋白結構數據庫中收錄數據的規模遠遠不足。在數據缺乏的情況下,構思再精妙的模型也難以展現其高準確和強泛化能力。另外,在深度學習模型的訓練數據中進行合理的數據增強或運用掩蔽策略進行訓練也會使模型的性能有所提升。

其二,目前對于蛋白設計模型的性能評估大多為天然序列恢復率和預測結構與原結構之間的差異,然而這兩個指標僅能夠衡量設計序列或結構與原蛋白的全局相似程度,并不能很好地量化設計蛋白的物理化學性質。Dauparas等[73]在ProteinMPNN文章中也指出天然序列恢復率對結構分辨率敏感,并且與局部殘基距離誤差相關性不高(Rpearson約為0.5),并不是一個能夠很好地評價蛋白序列預測模型性能的指標。單個關鍵殘基預測的錯誤對整體天然序列恢復率影響不大,但對序列折疊能力是毀滅性的。未來的方向可能是引入更多的評價指標,局部指標包括二級結構恢復率、溶劑可及表面、設計序列中無序殘基比例等[121]。設計結構的全局評估可以使用結構預測模型折疊的結構并計算與目標結構的差異;長時間分子動力學模擬能夠衡量序列折疊后結構的穩定性、展現結合蛋白與靶點之間的相互作用構象。將深度學習方法與傳統的基于能量函數的蛋白質設計方法聯用或前后相接,將深度學習模型生成的大量候選序列或結構輸入基于物理化學的能量函數模型中進行驗證和篩選,挑選出最優序列進行實驗驗證。充分發揮深度學習模型的高通量序列生成能力和物理化學模型對于蛋白的可表達性、可溶性以及聚集效應等物理化學性質的把握能力。

其三,蛋白質生理功能的實現大多是一個動態的過程,并且酶的活性位點具有一定的柔性。目前蛋白設計模型著重于對單一蛋白質功能構象結構的模仿或滿足,力求設計蛋白的可折疊性、可溶性和穩定性,然而在功能位點和結合界面缺乏足夠的關注。因此設計蛋白質的結合和變構現象,依然是當前研究中的難點。

最后,絕大多數模型難以同時考慮設計蛋白的性質,如可表達性、可溶性、穩定性、免疫原性等,只是擬合了天然蛋白從結構到序列的映射關系。從頭設計具有強活性但低免疫原性和毒性的蛋白質藥物,并佐以大量的生物實驗結果,是人工智能蛋白質設計方法展現自己廣闊應用前景的最有力方式。

傳統蛋白質設計方法中使用的人工推導的能量函數能夠遍歷勢能面,指導著蛋白序列結構生成優化的方向,并且具備生物物理和生物化學上的可解釋性。深度神經網絡學習到的能量函數比傳統的更精確,但其神經網絡模型內部的特征表示和數據傳輸可能缺乏一定的可解釋性。希望未來的探索能夠逐步打開深度學習模型內部的“黑盒子”,在模型輸出結果的精確性和計算過程的可解釋上有所改善。

近年在深度學習的賦能下,蛋白質設計的成功率和合理性得到了大幅提高。未來人工智能技術將更多地應用于抗體、酶、多肽藥物等各類功能蛋白的設計中??梢灶A見的是,按需設計功能蛋白質的時代即將到來。

猜你喜歡
殘基骨架蛋白質
基于各向異性網絡模型研究δ阿片受體的動力學與關鍵殘基*
蛋白質自由
淺談管狀骨架噴涂方法
人工智能與蛋白質結構
“殘基片段和排列組合法”在書寫限制條件的同分異構體中的應用
骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
蛋白質二級結構序列與殘基種類間關聯的分析
基于支持向量機的蛋白質相互作用界面熱點殘基預測
內支撐骨架封抽技術在突出煤層瓦斯抽采中的應用
鐵骨架配合物凝膠的合成、表征及催化性能
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合