?

機器學習在化合物屬性預測中的應用*

2024-03-01 10:44王紫維
環境化學 2024年1期
關鍵詞:描述符指紋機器

王紫維 韓 民 金 彪

(1.中國科學院廣州地球化學研究所,有機地球化學國家重點實驗室,廣州,510640;2.中國科學院深地科學卓越創新中心,廣州,510640;3.中國科學院大學,北京,100049)

化合物的屬性預測在藥物研發、材料設計、毒理學研究等領域發揮了重要的作用,與人類生活息息相關[1?2].化合物屬性預測的相關研究可追溯到藥物合成的早期研究,當時主要是化學家通過重復實驗,進行測試和驗證并獲取各類化學信息,合成目標分子[3].由于重復實驗耗時長、成本高,科學家基于構效關系(SAR)發展出了定量-構效關系,為化合物結構與其性質之間建立了數學關系框架.1962年,Hansch等首次實踐了定量-構效關系(QSAR),成為該領域具有里程碑意義的事件,也是化合物屬性預測研究邁入新階段的標志[4].隨后,Hansch 在1964年提出了Hansch 方程,這個發現為QSAR 模型運行提供了一種新方法.但傳統QSAR 模型一般使用一些常見的分子描述符來預測化合物屬性,然而化合物結構多樣,少量的分子描述符很難全面地描述化合物的結構信息,這使得模型很難精準預測化合物性質.同時,隨著研究數據集增大、描述符增多,傳統的方法難以擬合化學結構與性質之間的復雜關系.因此,需要比傳統統計工具更先進、更強大的計算和數據分析方法.

機器學習(特別是深度學習),由于其強大的計算和數據分析能力,已被用于解決以上QSAR 研究中的問題.例如,研究人員通過機器學習或深度學習方法將三維甚至更高維分子結構與其屬性聯系起來,彌補了傳統的化合物屬性預測方法的不足之處,大力推動了化合物屬性研究的發展[5?6].

近年來,機器學習在化合物屬性的預測研究上表現出不俗的潛力,因此這方面的研究也逐年增多.比如在理化性質方面,在機器學習的幫助下,預測分子的原子化能、振動頻率、溶劑化自由能、計算鍵離能等,成本更低,結果準確可靠,計算速度更快[7?11];在生物活性方面,建模方面逐步引入了神經網絡算法、分子圖等,所構建模型性能更優異,結果可靠[12?14];在毒性方面,根據機器學習建立的模型可以非常有效地識別有毒分子和預測特定毒性,可篩選確認之前未曾識別出的危險化學品[15?17].本文主要介紹機器學習在化合物屬性預測方面的應用過程及相應的模塊內容,并結合應用實例總結和展望機器學習在該應用方面現存的問題和機遇.

1 機器學習預測化合物屬性的流程(The process of machine learning on compound property prediction)

在實際應用中,用機器學習預測化合物屬性的整體過程如下所述,見圖1.

圖1 機器學習進行化合物屬性預測的流程Fig.1 Process for compound property prediction based on machine learning

(1)構建數據集:數據集一般來源于公開的數據庫、實驗記錄數據、研究收集的文獻;

(2)數據預處理;主要包括分子特征化和數據集劃分;

(3)模型構建:主要包括模型訓練、算法選擇、模型的應用域、模型評估這四方面內容;

(4)模型解釋:解釋機器學習模型的預測機制.

1.1 構建數據集

構建數據集是構建模型進行化合物屬性預測之前的必要準備,模型的工作主要基于數據運行,數據集的質量影響了模型預測結果的可靠性以及準確性.目前眾多研究工作一般通過以下幾種途徑進行數據集的構建:(1)根據實驗所得數據構建數據集;(2)從公開的數據庫中下載研究所需要的數據,并整理成數據集;(3)提取他人發表在期刊、專利中的數據,整理成數據集;(4)前述3 種方式的組合形式.

實驗室所記錄的數據比較全面,是構建數據集的來源之一.實驗所得數據一般分為紙質記錄數據和電子記錄數據,其中,電子記錄數據可用于數據集構建和數據挖掘,但由于實驗數據為實驗者所有,大多用于進行數據存檔和知識產權維權,難以獲得全面的數據來進行數據挖掘.同時,他人發表在期刊、專利中的數據相對于實驗所記錄的數據大多數都經過文章作者精心篩選,沒有展示相關實驗失敗的數據.失敗數據的缺乏可能會造成信息缺失,從而導致構建的模型不能進行準確地預測.

構建數據集最常用的方法是從公開的數據庫獲取研究要用的數據.經過多年的發展,目前也有許多可免費獲取化學數據的公開數據庫,部分較常見的公開數據庫可見表1.

表1 常見的公開數據庫Table 1 Common public databases

1.2 數據預處理

1.2.1 分子特征化

分子特征化是把化合物的化學結構編碼成機器學習算法能識別的模式.不同的分子特征化方式提取的分子信息有所差異,直接影響模型的預測效果,因此是化合物屬性預測的重要部分.常見的分子特征化方法有分子描述符、分子圖、分子線性表示、分子圖像[31],以及三維分子表面點云[32].

(1)分子描述符

分子描述符與分子結構的關系密切,可以有效地表示相應的化學信息[33].分子描述符按照復雜程度,可分為零維、一維、二維、三維等(見圖2)[34].零維描述符是最簡單的分子描述符,其信息含量低,可表示原子數、原子性質總和、分子量等;一維描述符表示一些官能團、分子片段、取代基等信息,如分子量、摩爾折射率、辛醇/水分配系數的對數等;二維描述符可描述從二維分子表示計算得到的性質;三維描述符信息含量很高,可描述原子的性質、連通性以及分子的空間構型,可用于確定化合物的活性構象等問題;四維描述符可以定量識別和描述分子與受體活性位點之間的相互作用[34].

圖2 同分子的不同分子表示的示例[34]Fig.2 An example of different molecular representations of the same molecule[34]

分子描述符按照定量和定性分類,可分為定量分子描述符和定性分子描述符.定量分子描述符有分子場描述符、分子形狀描述符、物理化學描述符、基于組成信息的描述符等[35].定性分子描述符一般指分子指紋,分子指紋又稱二元指紋,采用二進制編碼相關的化學信息,指紋所具有的化學信息內容一般為化學圖中的原子、鍵類型和距離等,是化學結構的表示,常被用于分子相似性/多樣性問題[34,36].

常見的分子指紋可主要分為基于子結構的指紋、基于拓撲或路徑的指紋和圓形指紋、藥效團指紋等[37].基于子結構的指紋主要有MACCS 指紋[38]、PubChem 指紋、BCI 指紋、TGD 和TGT 指紋等.基于拓撲或路徑的指紋主要有Daylight 指紋(Daylight fingerprint)和Tree 指紋(Tree fingerprint).圓形指紋主要有擴展連通性指紋(ECFP/Morgan Fingerprint)[39]、FCFP(Functional-Class Fingerprints)、Molprint2D[40].

常用于計算分子指紋的軟件或工具包有alvaDesc[41]、RDkit、Open Babel[42]、CDK[43]、ChemFP、OEChem TK、Molecular Operating Environment(MOE)、JChem from ChemAxon、Pipeline Pilot from Accelrys 等.

(2)分子圖

分子圖是指化合物用圖進行表示,是化合物的拓撲表示.在分子圖中,原子用節點表示,分子鍵用邊表示,示例可見圖3.分子圖降低了分子結構表示的復雜性,可以捕捉到分子中原子核與電子間的關鍵的相互作用.此外,圖神經網絡(GNN)模型從分子圖進行學習表示可以得到很好的處理效果,減少了相應的特征工程的工作,能進行更好的分子性質預測,如Attentive FP[44]、D-MPNN[8].

(3)分子線性表示

分子線性表示最常用的有兩種:簡化分子線性輸入規范(Simplified molecular input line entry system,SMILES)和國際化合物標識符(International Chemical Identifier,InChI).SMILES 是一種利用ASCII 編碼表示分子結構的線性符號,是化學家為了進行化學方面的機器計算而設計的化學符號語言,是根據相應的規則對化學結構簡化的二維價鍵圖[45].SMILES 既可以與化學數據庫使用,又可以節省存儲空間,為化學數據的輸入提供了一種更簡便的方式.化合物的“SMILES”字符串可通過一些軟件或程序獲得,如ChemDraw、OpenBabel、CIRpy[46](https://github.com/mcs07/CIRpy)等,同時也可以通過網站獲得化合物的“SMILES”字符串,如PubChem.“SMILES”字符串除了可以直接作為模型的輸入,也可以通過一些軟件或程序轉換為其他分子特征化形式,再作為模型的輸入[6,46?48].通用的SMILES 基于CANGEN算法衍生了規范的SMILES(Canonical SMILES),但其算法具有盈利性質,從而存在無法自由使用的問題.InChI[49]是一個非盈利的、免費的化學標識,在描述分子方面具有嚴格的唯一性,在層狀設計時考慮了分子結構,容易獲得和生成,可以由InChI 軟件或者利用通用的化學繪圖軟件生成.因此,InChI 也被許多化學數據庫使用.

(4)分子圖像

分子圖像是將分子結構或坐標映射到圖像上后,作為模型的輸入數據用于模型訓練,從而進行分子性質預測[50].比如,可以通過OpenBabel、Pybel 和RDKit 等化學信息軟件將SMILES 解碼為對應的分子二維結構,再將其生成的坐標映射到網格上,形成分子圖像,示例可見圖4.對于所生成的圖像可再進行一個“灰色編碼”或者更為復雜的“顏色編碼”,表示出原子/鍵屬性,再用于卷積神經網絡(CNN)算法進行訓練[50?51].

圖4 RDkit 將化合物SMILES 轉換為分子圖像的示例Fig.4 An example of RDkit transforming SMILES into the molecular image

1.2.2 數據集劃分

整理好研究所需的數據集之后,應及時對數據進行劃分,數據劃分對于所建機器學習模型的泛化能力有一定影響.一般,數據集按比例隨機劃分為3 部分:訓練集、測試集、驗證集,其中,訓練集一般用于模型的訓練,測試集用于模型的性能評估,驗證集用于超參數的優化[52?53].但是,研究過程中數據集劃分的具體的分配比例應按照研究需要進行選擇,比如,有研究按8:1:1 的比例劃分成訓練集、驗證集和測試集[47];也有研究先將數據集按4:1 的比例隨機分成兩部分:訓練集和測試集,隨后在訓練過程中隨機抽取10%的訓練集數據作為驗證集數據[52].

當機器學習應用于分類問題時,可能會碰到數據集中各類別樣本數量分布不均衡的問題,即數據集中某一類別的樣本數量遠遠高于另一類.不平衡數據會影響模型的性能,因此,在數據集劃分后需對訓練集數據進行不平衡處理.目前進行不平衡數據處理的方法主要有數據重構和分類模型改進.

數據重構策略可分為特征選擇和重采樣技術[54].特征選擇方法主要分成3 類:過濾式、包裹式和嵌入式.重采樣技術是通過調整多數類和少數類的分布,削弱數據集不平衡的程度,主要包括欠采樣、過采樣、混合采樣.欠采樣通過減少多數類中的樣本數量,以平衡多數類和少數類;過采樣通過增加少數類中的樣本數量,以均衡數據集;混合采樣通過將過采樣和欠采樣組合在一起,提高分類性能[52].

分類模型改進策略主要從分類算法和分類思想對不平衡數據集進行優化和改進.分類算法主要有K 最近鄰、支持向量機、決策樹、樸素貝葉斯、神經網絡算法;分類思想主要有代價敏感學習、集成學習、單類學習、主動學習[54].

1.3 模型的構建

1.3.1 算法選擇

模型訓練是指通過訓練集數據進行擬合模型、學習模型參數的過程.在這個過程,需要選擇合適的算法進行訓練.算法是機器學習的核心內容,沒有算法,機器學習模型將無法運行.目前,機器學習的算法按照是否有人類監督訓練,可分為監督式學習、無監督式學習、半監督式學習、強化學習這4 個主要類型.監督式學習可以處理有標記的訓練數據,其算法主要有K-近鄰算法、線性回歸、邏輯回歸、支持向量機(SVM)[55]、神經網絡、決策樹[56]和隨機森林(RF)[57].無監督式學習使用的數據是沒有標記的,其算法主要可分為聚類算法、可視化和降維算法、關聯規則學習算法.聚類算法主要有k-平均算法、分層聚類分析、最大期望算法等;可視化和降維算法主要有主成分分析(PCA)、核主成分分析(Kernel PCA)、局部線性嵌入(LLE)、t-分布隨機近臨嵌入(t-SNE);關聯規則學習算法主要有Apriori、Eclat.半監督式學習可以處理部分標記(大量未標記和少量標記)的數據,其主要為監督式學習算法與無監督式學習算法的結合.強化學習[58]是學習到行動的一種映射,通過不斷試錯,尋找到能夠最大化預期的路徑,并對能最大化預期的行動進行獎勵,主要涉及到的策略是試錯搜索和延遲獎勵,這兩種策略是強化學習的最明顯最重要的特征.在化合物屬性預測中,常用的是監督學習模式[59]、半監督式學習;常用的算法有隨機森林[57]、支持向量機[55]、樸素貝葉斯、神經網絡、梯度提升決策樹(GBDT)、極限梯度提升算法(XGBoost)、線性回歸、決策樹[56]、邏輯回歸等算法.

1.3.2 模型應用域

在化學信息研究中,為了更高效地進行化合物屬性的預測,通常將機器學習方法應用于定量構效關系中,其中涉及到的模型應用域(AD)一般指化學空間中由描述符和模型響應定義的一個理論域,其任務是定義一個模型可以被使用的邊界,并提供可靠的預測[60?61].當要預測的分子在所定義的AD 范圍內時,使用該模型進行預測才可靠,否則該模型不適用.

對于模型應用域的表征,已有學者在這個方面進行過總結,不同的學者考慮的角度不同,進行的歸類方式和描述稱呼各有不同.Kar 等[61]根據不同假設將AD 的定義方法分為6 大類:描述符空間中基于范圍的方法、基于距離的方法、幾何方法、概率密度分布、響應變量的范圍、其他方法,而王中鈺等[62]根據AD 的概念將其分為描述符域、結構域、機理域3 個大類,再從這3 大類中對AD 的表征方法進行細分.此外,也有一些學者提出或開發了新的應用域表征方法或應用域算法,如Wang 等人[63]基于指紋特異性相似性閾值,開發了新的AD 表征方法—ADfingerprint,并證明其性能優于一些傳統的AD 表征方法;Berenger 等[64]對于創建的應用域較為復雜并難以理解的現狀,提出了基于距離的Boolean 應用域算法(DBBAD).雖然AD 表征方法的描述各有異同,但最常用的幾種表征方法一般為歐式距離、Tanimoto指數、杠桿方法、馬氏距離、核密度估計(KDE)、基于范圍的超矩形等方法.連續數據的研究,一般選用歐式距離定義模型應用域[65];而針對二進制數據或者想要進行分子相似度的比較的研究,一般選用Tanimoto 指數定義模型應用域[47?48].

1.3.3 模型性能評估

模型的性能評估是對所構建的模型的泛化能力進行評估,有助于判定模型的工作性能和開發適合研究數據的最佳模型,主要包括了性能度量、評估方法、過擬合或欠擬合、超參數調優、泛化能力這幾個方面的內容.模型泛化能力是指所構建的模型經過在訓練集數據的訓練之后,在新數據上的適應能力.過擬合和欠擬合都是模型泛化能力不好的行為表示.過擬合指模型過度學習訓練集數據,使得模型過為復雜,不能在除訓練集外的數據集上得到好表現;欠擬合指模型過為簡單,學習能力差,無法學到數據的內在特點,無法判定其潛在的趨勢[66].

模型性能的評估方法常見的有留出法(hold-out)、交叉驗證法(cross validation)、自助法(bootstrapping).在模型評估的實際情況中,一般先用評估方法對模型進行數據集劃分,再在測試集上用評估指標對模型性能進行評估.比如,Korkmaz[52]在研究中先用留出法將數據集劃分為80%的訓練集和20%的測試集,之后用計算了幾個性能指標對模型進行了性能評估.

在化合物屬性預測方面的應用,主要可將機器學習任務分為回歸問題和分類問題兩方面.在性能度量涉及到的性能指標方面,回歸問題和分類問題所用到的性能評價指標并不完全一致.回歸問題常用到的評價指標有均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)、均方根對數誤差(root mean squared logarithmic error,RMSLE)、決定系數(coefficient of determination,R2)和預測平方相關系數(predictive squared correlation coefficient,Q2)等.分類問題常用到的評價指標有準確率(accuracy,acc)、錯誤率(error)、精確率(precision rate,p)、召回率(recall rate,r)、F1 分數(F1-score)、ROC 曲線(receiver operating characteristic)、AUC(area under curve)等.分類問題的數據集并不一定平衡,在大多應用情況下都會出現數據分布不均導致數據不平衡的現象,這種情況下,首先要在訓練集上進行數據不平衡處理,之后再用測試集對其進行評估.針對不平衡數據集,準確率往往無法作為主要的判斷指標,因此一般可采用前文所提到的精確率、召回率、F1 分數以及均衡準確率(balanced accuracy)和G-mean[54].除了上述的指標外,還有一些其他的指標,如魯棒性、PRC(精確-召回曲線)等.在實際的應用情況中,指標的選擇應根據數據的情況和研究需要來進行選擇.

1.4 模型解釋

模型解釋是對模型的預測機制進行解析的過程,有利于研究者做出更好的決策,并建立起對模型的理解和信任[67?68].模型根據解釋的難易程度,可以分為“白盒”模型和“黑盒”模型.“白盒”模型又可稱為可解釋性模型,創建其模型的算法透明度低,解釋簡單,更易被人們理解.可解釋性模型一般指由線性回歸、邏輯回歸、其他線性擴展、決策樹等算法構建的模型.建立“黑盒”模型后再進行解釋這一行為也可稱為事后可解釋性,進行事后可解釋的方法主要可以分為兩大類:全局解釋和局部解釋,全局解釋是對模型整體進行解釋,而局部解釋是對單個預測進行解釋[69].

全局解釋的方法主要有部分依賴圖(partial dependence plot,PDP)、累積局部效應(accumulated local effects plot,ALE)、規則提取[70]、模型蒸餾[71]、稀疏集團套索(sparse group lasso,SGL)[72]、全局Shapley值等.局部解釋的方法主要有個體條件期望(individual conditional expectation,ICE)[73]、敏感性分析、局部可解釋的模型無關闡釋(local interpretable model-agnostic explanations,LIME)[67]、Anchor[74]、基于局部規則的黑盒模型的分層相關性傳播(LRP)[75]、類激活映射(class activation mapping,CAM)、梯度加權類激活映射(Grad-CAM)[76]、SHAP(shapley additive exPlanations)[77]等.在化合物屬性預測方面,比較常用的解釋方法有PDP、ALE、ICE、Grad-CAM、Shapley Value、SHAP 等.如Zhong 等[6]利用Grad-CAM來解釋構建的CNN 模型通過選擇分子圖像的哪些特征來進行預測.Sanches-Neto 等[46]在預測水中有機污染物自由基氧化過程的反應速率常數的研究中,利用SHAP 方法解釋了反應過程中相關的結構分子特征,將氧原子所做的貢獻從氧原子與碳原子的比例(#O:C)的貢獻區分出來.

2 機器學習在化合物屬性預測中的應用進展(The application progress of machine learning on compound property prediction)

2.1 理化性質預測

機器學習中的神經網絡算法可被用于量子化學性質預測.比如,2017年,由Gilmer 等[7]提出來的應用于分子圖的監督學習框架——消息傳遞神經網絡(message passing neural networks,MPNNs),更易理解圖的結構數據與模型之間的關系.他們基于MPNNs 進行建模,采用QM9 數據集的數據,對分子的原子化能、振動頻率、最高占據分子軌道(HOMO)、最低未占據分子軌道(LUMO)、偶極矩等性質進行了預測,結果表明利用機器學習進行分子性質預測的成本比密度泛函理論(DFT)計算低且計算速度更快,計算樣本誤差比DFT 小,在大型圖中應用良好.之后,有學者在MPNNs 的基礎上進行改動,提出了知識嵌入消息傳遞神經網絡(KEMPNN)[78].KEMPNN 在MPNN 中的消息傳遞階段添加了知識注意機制作為一項加權項,采用兩個數據集共同訓練MPNN,并在ESOL,FreeSolv,Lipophilicity 以及聚合物性能數據集上進行了測評,與MPNN 進行了對比.結果表明,KEMPNN 比MPNN 的模型的預測精度更高,并且發現了KEMPNN 在小數據集上的預測效果可與基于描述符的方法相當甚至更好.

溶劑化自由能與許多物理化學性質密切相關,在藥物發現方面有重要的影響,但溶劑化自由能的實驗數據較少,且實驗成本昂貴.盡管已經有一些相應的溶劑模型可預測溶劑化自由能,使得費用成本有所降低,但其準確性較低.相比之下,機器學習在溶劑化自由能預測方面更具優勢,既不會產生昂貴的費用,又保證了較高的溶劑化自由能預測準確率[10,79].如,Yang 等[8]在MPNN 的基礎上構建了一個基于定向鍵的消息傳遞方式,并結合分子水平特征和分子式構建了新的模型D-MPNN,在FreeSolv 數據集上表現出比其他基準模型更好的性能;Weinreich 等[9]提出了一個以核嶺回歸(KRR)算法作為監督機器方法的自由能機器學習模型(FML),并在FreeSolv 數據集和QM9 數據集上進行了溶劑化自由能預測,模型誤差與最好的物理預測方法相當,但計算成本更低,并且可在較小數據集上達到溶劑化的實驗不確定度.需要指出的是,機器學習在溶劑化自由能預測方面存在數據稀缺的問題,深度學習的模型在小數據集上容易過擬合,性能差.鑒于此,Vermeire 等[80]基于D-MPNN 構建了一個模型,通過引入一種結合量子化學和實驗數據的遷移學習方法使模型在溶劑化自由能預測方面的性能得到了顯著提升;Zhang 等[10]提出一個基于GNN 和3D 原子特征的深度學習(DL)模型構架,GNN 以主領域聚合PNAConv 作為編碼器,并將其與遷移學習策略相結合,進行模型微調后在FreeSolv 數據集進行溶劑化自由能預測并得到了目前最好的性能,RMSE 為0.719 kcal·mol?1,MAE 為0.417 kcal·mol?1,顯著提高了GNN 模型在溶劑化自由能預測方面的學習能力,為處理小型實驗數據集提供了思考方向.

此外,機器學習在預測化合物的其他性質方面也有不錯的表現,以全氟化合物(PFASs)理化性質預測為例.在全氟化合物(PFASs)理化性質預測方面,Raza 等[11]在2019年提出了第一個利用機器學習來預測各種PFAS 結構中的C—F 鍵解離能的應用.這個應用高效可靠準確,訓練數據時間短,預測C—F 鍵解離能的時間不超過1 s,偏差小于0.70 kcal·mol?1,不需量子力學計算,計算成本更低,有助于PFAS 和高效處理與去除.之后,有學者[81]于2021年構建了一個數據庫框架,所構建PFAS-Map 可以預測未測定的PFAS 化學品的基本物理性質,可視化PFAS 活性/性質關系的實驗數據趨勢,發現隱藏的結構 -毒性關系.

2.2 生物活性預測

機器學習在上世紀就開始用于進行生物活性預測.在20 世紀90年代,神經網絡算法廣泛應用于定量結構-活性關系,但由于其算法的局限性,在2000年早期被SVM 和RF 取代.近些年,神經網絡算法逐步改進,引起了人們的關注,發現改進后的神經網絡算法在生物活性預測方面頗具優勢.2015年,Ma 和Dahl 等[82]采用“原子對”描述符和“供體-受體對”描述符的并集作為描述符來訓練模型,并將深度神經網絡(DNN)的性能評估參數R2與RF 模型在15 個數據集(Merck 公司內部的數據集)上進行比較,結果表明DNN 在大多數情況下預測性能都優于RF 模型,在計算時間和成本方面甚至比RF 更有優勢,可作為一種實用的QSAR 方法.但需要指出的是,該項研究也存在局限性,無法闡明分子間未完成的潛在相互作用.針對這些缺點,Wallach 等[12]建立了第一個基于結構的深度卷積神經網絡—AtomNet,可應用于小分子生物活性預測.他們將AtomNet 與DNN 技術進行對比,發現AtomNet 可為目標預測出新的活性分子,所構建的模型能發現任意的分子特征,可描述配體和目標之間的相互作用;同時,在3 個基準上做了應用,結果表明AtomNet 表現出色,在DUDE 基準測試中有一半的目標的AUC 為0.9,遠超以前的對接方法.

此外,2019年,Cheng 和Ng[13]在前人的基礎上建立了ML-QSAR 模型預測全氟化合物(PFASs)的生物活性,引入了基于圖的模型,預測了OECD 名單中未經測試的PFASs 的生物活性.在整個過程中,基于自行收集整理的PFASs 數據庫訓練和評估了5 種機器學習模型,采用了ECFP、圖卷積、weave 特征3 種方法進行分子特征化,網格搜索和貝葉斯優化技術進行超參數調優,基于距離的方法確定QSAR 模型的AD 值,結果表明,多任務神經網絡模型和基于圖的圖卷積模型性能優異,但構建的模型不能提供有關效應強度或劑量反應的信息,有進一步發展的空間.此外,不同于常用于化合物活性預測的結構-活性關系(SAR)模型,Bertoni 等[14]于2021年構建了一個深度神經網絡的集合—SigAR(signature–activity relationship)模型預測分子的生物活性,讓機器學習從化合物的CC signatures(基于一個小分子生物活性特征集合開發的分子表征方法)中學習活性特征,并用MoleculeNet 中的9 個數據集評估了SigAR.其結果表明,相較于基于化學描述符的方法,SigAR 的性能更好.

2.3 毒性預測

對化合物的毒性進行預測,是藥物研發的一部分,對于藥物研發的成本和成功率有重要影響.同時,化合物毒性預測也是化學品風險評估的一部分內容,但基于動物實驗的毒性預測,時間周期長,成本開支大.此外,人工合成化合物的種類在逐漸增多,在日常生活中隨處可見,識別危險化學品的潛在毒性是有必要的,對化合物進行毒性預測的需求在持續增長.機器學習應用于化合物的毒性預測具有降低成本和加快研究速度的特點,因此,機器學習在化合物毒性預測方面的研究一直以來都是熱點研究領域,相關的研究也比較多.

2008年,美國的EPA、NIH 和FDA 開展了Tox21 計劃,這個計劃匯總了許多化合物的毒性數據,推動了機器學習在預測化學品的潛在毒性和評估化學品風險的進程.2016年,Mary 等[83]開發了適用于毒性預測的集成模型—DeepTox,并將其運用于Tox21 挑戰賽上.他們采用了化合物的大量的靜態特征(如,MACCS 指紋、PubChem 子結構指紋等)和動態特征(如,ECFP 指紋、徑向2D 指紋等)作為機器學習的輸入,并對DeepTox 中的每個機器學習算法模型進行了性能評估,比較了各算法的AUC值,結果表明DNN 優于SVM、RF、彈性網(ElNet).同時,由DNN 主導的DeepTox 應用于預測化合物毒性,取得了Tox21 大挑戰的冠軍.2019年,Pu 等[84]基于機器學習技術開發了一個新的程序—eToxPred,可以直接從分子指紋預測小型化合物的毒性.eToxPred 采用額外樹(Extra Trees,ET)算法作為毒性預測的默認分類器,并在不同的數據集上與線性判別分析(LDA),多層感知器(MLP),隨機森林(RF)算法進行了性能對比.結果表明,使用分子指紋作為輸入,基于ET 的分類器性能普遍高于LDA 和MLP,僅在一個組合數據集上略低于RF,可以非常有效地識別有毒分子和預測特定毒性.

在化合物毒性評估方面,常用結構警報(structural alerts,SAs)作為識別危險化學品的潛在毒性的方法,但SAs 的準確性有限,有時在無毒化合物中也會發現SAs[85].Mukherjee 等[15]引入了一個新概念——“關鍵結構圖案”(critical structural motif,CSM),CSM 包含了SAs 的特異性.同時,他們用SMILES 字符串作為模型輸入,開發了一個基于卷積神經網絡(CNN)的多輸出分類的深度學習模型--VisualTox,并在不同的化學數據上進行了訓練,通過識別 CSM 來預測內分泌干擾物質(ECD)的毒性,提供了一種理解化學毒性來源的新方法.

此外,持久性有機污染物(POPs)和持久性、生物累積性和毒性物質(PBT)對生態環境和人類健康都有重大影響,PBT/POP 類化學品也備受人們的關注.Sun 等[16]于2020年采用基于2424 個分子描述的二維表示矩陣(MDRM)作為模型輸入,開發了一個深度卷積神經網絡(DCNN)模型來篩選化學品庫中潛在的PBT/POP 類物質,并采用k折交叉驗證法和專家經驗判斷方法對模型性能進行評價,得到模型的預測精度可達90.4%.但需要指出的是,DCNN 模型是一個“黑盒”模型,基本不可得到有效的解釋.最近,Wang 等[17]利用一個包含14994 種PBT 和non-PBT 物質的化學數據庫,基于圖注意力網絡(graph attention networks,GATs)架構,構建了可篩選PBT 化學品并具有可解釋性的GAT 模型.GATs 是一種較先進的GNN,為分子圖的每個節點引入了注意權重參數(PAW),可反映節點對預測端點的貢獻,關注與目標任務相關的重要局部結構,具有模型可解釋性.他們在AD 表征方面,提出并采用了一種新的方法—ADFP-AC,使GAT 模型更加可靠;在模型性能方面,將具有ADFP-AC表征的GAT 模型與DCNN 模型、傳統的機器學習方法(如隨機森林、支持向量機)和根據不同分子特征化方法建立的QSAR 模型進行性能對比,發現GAT 模型的性能最佳.在建立好GAT 模型之后,他們還將其應用在中國現有化學物質清單(IECSC)上,從中確定了8 類之前未確認的化合物類別為PBT 化學品.

3 機器學習在化合物屬性預測中的挑戰(The challenges of machine learning on compound property prediction)

3.1 數據集

目前,在構建數據集的過程中,研究者往往面臨以下3 個問題,包括數據量不足、數據質量不高以及數據不平衡.針對數據量不足問題,雖然前文介紹了一些相關的公開數據庫,但這些數據庫對于研究人員來說,數量還是較少,而且數據不夠全面,很多重要的化學信息被收集在商業數據庫中或其他難以獲取的數據庫中.此外,雖然公開的一些大型化學數據庫數據多,規模大,但是擁有的標簽數據并不多.這種情況限制了監督學習在化合物屬性預測方面進行更深入的研究[51].這些都使得研究人員無法得到足夠的數據,利用機器學習在化合物屬性層面進行一個更好的突破.面臨的問題之二是數據的質量不高.有些數據來自于實驗記錄,雖然實驗記錄數據能得到更多、更為全面的數據,但公開的實驗數據如何保證質量,也是值得思考的問題.面臨的問題之三是數據不平衡問題.雖然機器學習有許多經典的分類算法,如樸素貝葉斯、KNN、基于神經網絡的分類算法等,這些算法盡可能地保留了原數據所有的信息,但是由于這些算法的假設都是基于平衡的樣本數據,所以當數據有少數類和多數類的情況出現時,這些算法皆會更傾向于多數類數據[86].對此,許多學者提出了一些數據不平衡處理方法,如過采樣、欠采樣、混合采樣和特征選擇等,這些處理方法在一定程度上能夠緩解不平衡問題,但都存在不足.比如,欠采樣方法雖然簡單又效果好,但是容易忽略多數類數據的內在特征信息,影響模型的泛化能力.

3.2 分子特征化

分子特征化方法是化合物屬性預測中的重點之一,決定了模型的性能和解釋.目前,分子特征化方法能夠表征的信息很多,比如,定量分子描述符可以量化Hammett 常數、偶極矩、HOMO 和LUMO 能量等信息,為化合物的性質預測提供了良好的輸入信息.但目前還沒有可以完整表達原始分子信息的特征化方式[87].

此外,雖然分子指紋種類也頗多,但目前主要還是用二維(2D)分子指紋來做相應的研究,高維度的分子指紋設計較為困難,這導致了現有的分子指紋種類缺少對分子立體結構描述的三維結構信息.對于此類問題,近些年也有學者提出了代數圖、代數拓撲、微分幾何等分子三維結構信息的表示方法,但是這些方法較為依賴分子結構的可用性[88].分子特征化方法在描述分子的立體化學信息方面還有許多空間可以提升.

3.3 模型的可解釋性

模型的可解釋性是模型的重要部分,是可信性的前提,如何讓模型的工作機制更為透明,獲得人們的理解和信任,這是值得討論和重視的.可解釋的機器學習模型沒有“黑盒”模型的特征,更易被理解,透明度高.相較于可解釋的機器學習模型,具有“黑盒”特征的機器學習模型雖然更難進行直觀的解釋,但是其性能更高,預測效果更好.因此,如何對“黑盒”模型進行更好的解釋,增加模型的可解釋性,需要更多的研究來進行探究.同時,現在缺乏明確的模型的可解釋性基準,沒有嚴格的方法來評估和比較模型解釋方法[89].

4 總結(Conclusion)

機器學習在化合物屬性預測方面的應用不斷拓展,不僅提高了預測結果的準確性,而且為評估新化學物質的環境風險提供了新方法.其中,深度學習算法更適用于大數據集,而機器學習算法應用在小數據集更具優勢.但是,機器學習在化合物屬性預測中的應用仍存在未知和挑戰,這些亟待解決的問題將是未來研究工作的焦點.機器學習(特別是深度學習)將會與量子力學、毒理學、量子化學、電化學等深度融合,在藥物研發、毒理學研究、環境行為預測、材料研發等領域繼續發揮重要作用.

猜你喜歡
描述符指紋機器
機器狗
機器狗
基于結構信息的異源遙感圖像局部特征描述符研究
像偵探一樣提取指紋
為什么每個人的指紋都不一樣
基于AKAZE的BOLD掩碼描述符的匹配算法的研究
未來機器城
Linux單線程并發服務器探索
利用CNN的無人機遙感影像特征描述符學習
基于自適應稀疏變換的指紋圖像壓縮
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合