?

基于機器學習方法的H1N1神經氨酸苷酶抑制劑的分類預測

2013-09-21 09:00孟慶偉
物理化學學報 2013年1期
關鍵詞:描述符性質抑制劑

呂 巍 薛 英 孟慶偉,*

(1山東農業大學生命科學學院,作物生物學國家重點實驗室,山東泰安271018;2山東農業大學生物學博士后科研流動站,山東泰安271018;3四川大學化學學院,教育部綠色化學與技術重點實驗室,成都610064;4四川大學生物治療國家重點實驗室,成都610041)

1 引言

流行性感冒病毒(influenza virus)簡稱流感病毒,而流感是嚴重危害人類健康的一種急性病毒性呼吸道感染疾病,傳播速度快,是導致人類死亡的主要病因之一.甲型H1N1流感病毒是流感病毒的一種,其外部的糖蛋白層含有血凝素(hemagglutinin,HA)和神經酰胺酶(nueraminidase,NA),對于流感病毒的入侵和傳播起著非常重要的作用,從而為抗流感病毒的研究提供了兩個可能的藥物靶點.在發現神經酰胺酶抑制劑之前,流感治療僅限于金剛烷胺、金剛乙胺和病毒疫苗等方法.1研究發現神經酰胺酶在H1N1病毒的復制、感染和致病過程中起重要作用,抑制神經酰胺酶活性,可以有效地控制H1N1型流感病毒感染引起的流感及其傳播.2-5因此,以神經酰胺酶為靶點,篩選神經酰胺酶抑制劑,是研究和開發抗H1N1病毒藥物的一個重要途徑.6-9

機器學習(machine learning)是一門人工智能的科學,機器學習方法使用計算機程序來模擬人類的學習活動,它研究通過計算機程序來獲取新知識和新技能、并識別現有知識,以數據或以往的經驗優化計算機程序的性能.機器學習方法作為一種重要的計算方法和高效的計算工具,已經在計算機輔助藥物設計和虛擬篩選中得到廣泛的應用.它在藥效團模擬、藥代動力學計算和藥物毒性預測等方面的研究中取得了巨大的成效.10-12現階段得到廣泛應用的機器學習方法主要有支持向量機(SVM)、k-最近相鄰法(k-NN)和C4.5決策樹(C4.5 DT).在化學分布多樣性的小分子化合物的預測中,機器學習方法已經展示出其獨特的效果.機器學習方法的預測精度與適當的分子描述符集密切相關,這些描述符在一定程度上代表了被預測化合物的物理化學性質.遞歸變量消除(REF)法13,14是一種被廣泛應用的性質選擇方法,可以通過優化預測化合物的性質集,從而進一步提高預測精度.另外在本研究中,我們使用兩種方法對預測精度進行評價,包括五重交叉驗證法和獨立驗證集法.

2 材料與方法

2.1 神經酰胺酶抑制劑的選取

本研究共選取237個NA抑制劑和非抑制劑(附表1,見Supporting Information),它們分別來自文獻.15-25研究表明,當實驗半數抑制濃度(IC50)值低于500 nmol·L-1時,化合物有較好抑制活性,而IC50值大于500 nmol·L-1時化合物基本無抑制活性,當化合物IC50值在500 nmol·L-1附近時,化合物有抑制活性但并不明顯.26,27因此將237個化合物按其IC50值分成三個數據集:72個NA抑制劑(IC50≤400 nmol·L-1),155個非NA抑制劑(IC50≥600 nmol·L-1),10個化合物抑制活性非常弱(400 nmol·L-1<IC50<600 nmol·L-1).化合物二維分子結構由ChemDraw軟件28繪制,并由Corina軟件29將其轉化為三維結構.

我們首先將所有化合物隨機分為五個亞集進行交叉驗證,以其中四個亞集作為SVM方法的訓練集,剩余一個亞集則被用作測試集被SVM模型測試,這樣重復進行五次測試,每個亞集都作為測試集被使用一次,最終得到五次預測結果的平均值.然后根據化合物的結構與化學性質在化學空間中的分布,將所有的化合物分為訓練集、測試集與獨立驗證集(見附表2).訓練集和測試集被用于開發和優化分類預測模型,獨立驗證集被用于評價分類模型的預測能力.

2.2 分子描述符的計算

分子描述符是一個分子的數學表征,可以定量表示分子的結構與物理性質,其在構效關系(SAR)、13定量構效關系(QSAR)30以及藥效團模型31,32等相關研究領域得到廣泛應用.在我們的研究中,通過手工方法,從相關文獻中找出一千多個分子性質描述符,并根據化合物拓撲結構、電子結構和幾何結構等性質,從中篩選出189個與化合物性質密切相關的描述符(見附表3).其中包括了18個簡單分子性質描述符、27個分子連接和形狀描述符、97個電拓撲態描述符、22個量子化學性質描述符及25個幾何性質描述符.應用分子描述符計算程序,33通過化合物的三維結構計算所有分子描述符,并通過性質選擇方法進一步篩選與NA抑制劑和非抑制劑最為相關的描述符.34

2.3 性質選擇方法

研究顯示,使用性質選擇方法來消除數據集中多余描述符有助于提高機器學習方法的預測精度.遞歸特征消除(RFE)法是一種廣泛應用并能高效發現相關特征的性質選擇方法,它已在癌癥的分類預測,35四膜蟲毒性化合物預測36等領域獲得廣泛應用.本文使用遞歸性質消除法進行描述符的選擇,通過與支持向量機相結合,獲得更有利于預測NA抑制劑的分子描述符數據集,從而提高模型的預測精度.

RFE程序簡述如下:用包含可調節參數σ的高斯核函數建立一個SVM分類系統,通過五重交叉驗證來評定模型的預測能力.對一個確定的σ,第一步,用全部描述符建立SVM預測模型;第二步,通過打分函數計算當前描述符集中每個描述符對預測模型的貢獻分值,并按降序排列;第三步,刪除打分最低的m個描述符;第四步,用剩下的描述符重新訓練SVM分類模型,相應的預測精度通過五重交叉法來計算.整個過程不斷重復,直到剩下的描述符不多于m個.對其它的參數σ,重復同樣的過程.預測總精度最高的模型為最優化模型,該模型所使用的描述符即為RFE選出的描述符.

m的選擇影響到SVM的表現和變量選擇的速度.每次消除一個變量對計算能力的要求太高,在某些情況下,每次消除多個變量顯著提高計算速度,且對精度的影響不大.本課題組以前的工作表明,m=5相對于m=1,SVM體系的預測精度只有很小的損失.26,27,33考慮到計算效率,本研究選擇m=5,另外,為了限制選出描述符的數量并避免過擬合,我們控制選出描述符的數量小于數據集個數的五分之一.37

2.4 機器學習方法

現在有大量的機器學習方法軟件包可從網上免費下載,例如:PHAKISO(http://www.phakiso.com/index.htm)和 WEKA(http://www.cs.waikato.ae.nz/~ml/weka)包含了許多機器學習的方法,38NeuNet(http://www.cormactech.com/neunet/index.html)是關于神經網絡方面的軟件包,SVM-Light(http://svmlight.joachims.org)是應用很廣泛的支持向量機方面的軟件包.本研究中我們用自己建立的SVM模型33預測NA抑制劑與非抑制劑,同時用其它的機器學習方法(k-NN、C4.5)39,40進行預測,并對結果進行比較.

2.5 預測結果評價

像其它預測模型一樣,41我們采用以下公式判斷模型的預測精度.

其中TP,TN,FP,FN分別代表預測正確的NA抑制劑,預測正確的非NA抑制劑,預測錯誤的NA抑制劑以及預測錯誤的非NA抑制劑;SE用于評估NA抑制劑的預測正確率;SP用于評估非NA抑制劑的預測正確率;Q用于評估總體的預測正確率;C為馬氏相關系數.

3 結果與討論

3.1 機器學習方法對NA抑制劑的預測精度

我們通過五重交叉驗證法對預測模型進行驗證,所有的預測結果在表1中列出.通過性質選擇方法,有19個描述符被選出,認為這19個描述符對NA抑制劑的分類預測起到至關重要的作用(表2).從中可見,當不使用性質選擇方法時,SVM對NA抑制劑和非抑制劑的預測精度分別為40.5%和94.5%,平均預測精度為78.0%;當使用性質選擇方法RFE時,SVM對NA抑制劑和非抑制劑的預測精度分別為72.0%和85.0%,平均預測精度為81.2%.由此可見,通過性質選擇之后抑制劑的預測精度明顯提高,雖然非抑制劑預測精度有所下降,但平均預測精度要高于前者.另外可以看出,當使用全部描述符進行預測時,抑制劑的預測結果非常低,與非抑制劑的預測結果相差太大.因此性質選擇方法不但提高了抑制劑的預測結果,同時也提高了總的預測結果,由此可見性質選擇方法更有利于提高支持向量機模型的預測精度,尤其是對抑制劑的預測精度.另外應用19個所選描述符不但降低支持向量機模型的過擬合現象以及多余描述符產生的噪音,提高預測精度,更重要的是顯示了與NA抑制劑和非抑制劑相關的一些物理化學性質.

表1 SVM方法對NA抑制劑和非抑制劑的五重交叉驗證aTable 1 Performance of SVM for predicting NAIs and non-NAIs as evaluated by five-fold cross validationa

表2 性質選擇方法選出的19個與NA抑制劑分類預測相關的分子描述符Table 2 19 molecular descriptors selected from the RFE feature selection method for the classification of NAIs and non-NAIs

除了五重交叉驗證法之外,獨立驗證集的方法也頻繁地被使用在分類模型的預測上.在本論文中,根據化學空間,我們得到一個以14個NA抑制劑和40個NA非抑制劑構成的獨立驗證集(見附表2),通過k-NN、C4.5 DT和SVM的方法,用19個描述符對獨立驗證集進行了預測,結果見表3.如表所示,對NA抑制劑,其預測精度為64.3%-78.6%,其中SVM給出最好的預測結果為78.6%;對NA非抑制劑,其預測精度為77.5%-97.5%,其中C4.5 DT和SVM都給出最好的預測結果為97.5%;總預測精度為75.9%-92.6%,其中SVM給出最好的預測結果為92.6%,由此可見SVM對NA抑制劑的預測可以提供更精確的結果.

表3 不同機器學習方法對NA抑制劑和非抑制劑的獨立驗證集的預測Table 3 Comparison of the prediction accuracies of NAIs and non-NAIs derived from different machine learning methods by using independent validation sets

通過比較交叉驗證方法和獨立驗證方法的預測結果,可以檢查預測模型是否出現過擬合現象.由于描述符的選擇是通過交叉驗證測試集得到的,而過擬合的實際表現就是測試集的預測精度遠高于獨立驗證集的預測精度.但是,通過表1和表3可以看出,測試集的預測精度稍微低于獨立驗證集的預測精度,但差別不大,因此證明我們的預測模型并沒有出現過擬合現象.

3.2 神經酰胺酶抑制劑相關的分子描述符

選擇與NA抑制劑相關的分子描述符是非常重要的,它不但可以對預測模型進行優化以提高預測精度,而且可以進一步闡明NA抑制劑的作用機理.在我們的研究中,通過遞歸性質消除的變量選擇方法總共選擇了19個與NA抑制劑最為相關的分子描述符,見表2.在這19個描述符中,包括4個分子連接與形狀描述符,7個電拓撲態描述符和8個幾何性質描述符.可見,電拓撲態和幾何性質描述符在分類過程中起到重要作用.

3.3 預測錯誤的化合物

在我們的實驗中通過獨立驗證集的SVM預測,總共有4個化合物預測錯誤.其中NA抑制劑的預測精度為78.6%,NA非抑制劑的預測精度為97.5%,平均預測精度為92.6%.14個NA抑制劑中有3個化合物被預測成NA非抑制劑,另一方面,40個NA非抑制劑中有1個化合物被預測成抑制劑.所有預測錯誤的分子見圖1和圖2,圖1中的3個分子是NA的抑制劑,但通過預測得到的結果是非抑制劑;圖2中的1個化合物是NA的非抑制劑,而預測模型將其預測為抑制劑.從圖中我們可以看出預測錯誤的分子主要是一些含環化合物.預測錯誤的NA抑制劑都含有兩個環,而預測錯誤的NA非抑制劑含有多個環.從這些預測錯誤的分子可以看出,當前使用的描述符還不足以正確地預測分辨那些帶多環結構的化合物.因此我們應該探索研究新的描述符,并通過性質選擇方法來篩選更適合機器學習方法模型的描述符.

圖1 預測錯誤的神經氨酸苷酶抑制劑Fig.1 Structures of the part of misclassified NAIs

圖2 預測錯誤的非神經氨酸苷酶抑制劑Fig.2 Structures of the part of misclassified non-NAIs

4 結論

研究顯示,對于NA抑制劑,當其分子作用機理不明確時,可以用機器學習方法尤其是支持向量機方法對其預測,可以得到較高的預測精度.但我們也發現,由于描述符的限制,當前機器學習方法對化合物作用機理的預測能力還受到一定的制約;另外,由于預測樣本的數量較少,不能夠全面覆蓋預測化合物,尤其是NA非抑制劑,因此造成預測結果與實際值有一定差距.不過我們相信在不久的將來,隨著回歸為基礎的機器學習方法的不斷發展,這些問題一定會被克服.總之在抗流感藥物研發前期,如果能夠更為廣泛地了解NA抑制劑的相關信息與作用機理,將能夠進一步提高機器學習方法對其抑制劑的預測精度,從而使機器學習方法在藥物研發過程的前期成為預測NA抑制劑的更為實用的工具.

Supporting Information: available free of charge via the internet at http://www.whxb.pku.edu.cn.

(1) Erik,D.C.J.Clin.Virol.2001,22,73.doi:10.1016/S1386-6532(01)00167-6

(2) Palese,P.;Tobita,K.;Ueda,M.Virology 1974,61,397.doi:

10.1016 /0042-6822(74)90276-1

(3)Moscona,A.N.Eng.J.Med.2005,353,1363.doi:10.1056/NEJMra050740

(4) Erik,D.C.Nat.Rev.Drug.Disc.2006,5,1015.doi:10.1038/nrd2175

(5) Schmidt,A.C.Drugs 2004,64,2031.doi:10.2165/00003495-200464180-00003

(6) Suzuki,Y.;Sato,K.;Kiso,M.;Hasegawa,A.Glycoconjugate J.1990,7,349.doi:10.1007/BF01073378

(7) Hagiwara,T.;Kijima-Suda,I.;Ido,T.;Ohrui,H.;Tomita,K.Carbohydr.Res.1994,263,167.doi:10.1016/0008-6215(94)00133-2

(8)White,C.L.;Janakiraman,M.N.;Laver,W.G.;Philippon,C.Vasella,A.;Air,G.M.;Luo,M.J.Mol.Biol.1995,245,623.doi:10.1006/jmbi.1994.0051

(9) Meindl,P.;Bodo,G.;Palese,P.;Schulman,J.;Tuppy,H.Virology 1974,58,457.doi:10.1016/0042-6822(74)90080-4

(10)Mitchell,T.Machine Learning;McGraw-Hill:New York,1996.

(11) Kohavi,R.;John,G.H.Artif.Intell.1997,97,273.doi:10.1016/S0004-3702(97)00043-X

(12) Leach,A.R.;Gillet,V.J.An Introduction to Chemoinformatics;Springer:Heidelberg,2007;p 82.

(13)Yu,H.;Yang,J.;Wang,W.;Han,J.Proc.IEEE 2003,220.

(14) Furlanello,C.;Serafini,M.;Merler,S.;Jurman,G.Neural Networks 2003,16,641.doi:10.1016/S0893-6080(03)00103-5

(15)Lew,W.;Wu,H.W.;Mendel,D.B.;Escarpe,P.A.;Chen X.W.;Laver,W.G.;Graves,B.J.;Kim,C.U.Bioorg.Med.Chem.Lett.1998,8,3321.doi:10.1016/S0960-894X(98)00587-3

(16)Sun,C.W.;Huang,H.;Feng,M.Q.;Shi,X.L.;Zhang,X.D.;Zhou,P.Bioorg.Med.Chem.Lett.2006,16,162.doi:10.1016/j.bmcl.2005.09.033

(17)Wen,W.H.;Wang,S.Y.;Tsai,K.C.;Cheng,Y.S.E.;Yang,A.S.;Fang,J.M.;Wong,C.H.Bioorg.Med.Chem.2010,18,4074.doi:10.1016/j.bmc.2010.04.010

(18)Yeh,J.Y.;Coumar,M.S.;Horng,J.T.;Shiao,H.Y.;Kuo,F.M.;Lee,H.L.;Chen,I.C.;Chang,C.W.;Tang,W.F.;Tseng,S.N.;Chen,C.J.;Shih,S.R.;Hsu,J.T.A.;Liao,C.C.;Chao,Y.S.;Hsieh,H.P.J.Med.Chem.2010,53,1519.doi:10.1021/jm901570x

(19)Lew,W.;Wu,H.W.;Chen,X.W.;Graves,B.J.;Escarpe,P.A.;MacArthur,H.L.;Mendel,D.B.;Kim,C.U.Bioorg.Med.Chem.Lett.2000,10,1257.doi:10.1016/S0960-894X(00)00214-6

(20) Dao,T.T.;Tung,B.T.;Nguyen,P.H.;Thuong,P.T.;Yoo,S.S.;Kim,E.H.;Kim,S.K.;Oh,W.K.J.Nat.Prod.2010,73,1636.doi:10.1021/np1002753

(21) Kolocouris,N.;Kolocouris,A.;Foscolos,G.B.;Fytas,G.;Neyts,J.;Padalko,E.;Balzarini,J.;Snoeck,R.;Andrei,G.;Clercq,E.D.J.Med.Chem.1996,39,3307.doi:10.1021/jm950891z

(22) Brouillette,W.J.;Bajpai,S.N.;Ali,S.M.;Velu,S.E.;Atigadda,V.R.;Lommer,B.S.;Finley,J.B.;Luo,M.;Aird,G.M.Bioorg.Med.Chem.2003,11,2739.doi:10.1016/S0968-0896(03)00271-2

(23)Liu,A.L.;Wang,H.D.;Lee,S.M.Y.;Wang,Y.T.;Du,G.H.Bioorg.Med.Chem.2008,16,7141.doi:10.1016/j.bmc.2008.06.049

(24)Williams,M.A.;Lew,W.;Mendel,D.B.;Tai,C.Y.;Escarpe,P.A.;Laver,W.G.;Stevens,R.C.;Kim,C.U.Bioorg.Med.Chem.Lett.1997,14,1837.

(25) Zhang,L.J.;Williams,M.A.;Mendel,D.B.;Escarpe,P.A.;Kim,C.U.Bioorg.Med.Chem.Lett.1997,14,1847.

(26) Lv,W.;Xue,Y.Eur.J.Med.Chem.2010,45,1167.doi:10.1016/j.ejmech.2009.12.038

(27) Lü,W.;Xue,Y.Acta Phys.-Chim.Sin.2010,26,471.[呂 巍,薛 英.物理化學學報,2010,26,471.]doi:10.3866/PKU.WHXB20100125

(28) ChemDraw,Version 9.0;Cambridge Soft Corporation:Cambridge,USA,2004.

(29)Corina,Version 3.4;Molecular Networks GmbH Computerchemie:Erlangen,Germany,2006.

(30) Hasegawa,K.J.Chem.Inf.Comput.Sci.1999,39,112.doi:10.1021/ci980088o

(31) Byvatov,E.;Fechner,U.;Sadowski,J.;Schneider,G.J.Chem.Inf.Comput.Sci.2003,43,1882.doi:10.1021/ci0341161

(32) He,L.;Jurs,P.C.;Custer,L.L.;Durham,S.K.;Pearl,G.M.Chem.Res.Toxicol.2003,16,1567.doi:10.1021/tx030032a

(33) Lü,W.;Xue,Y.Acta Phys.-Chim.Sin.2011,27,1407.[呂 巍,薛 英.物理化學學報,2011,27,1407.]doi:10.3866/PKU.WHXB20110608

(34)Yang,X.G.;Lv,W.;Chen,Y.Z.;Xue,Y.J.Comput.Chem.2009,31,1249.

(35)Lin,H.H.;Han,L.Y.;Yap,C.W.;Xue,Y.;Liu,X.H.;Zhu,F.;Chen,Y.Z.J.Mol.Graph.Model.2007,26,505.doi:10.1016/j.jmgm.2007.03.003

(36)Xue,Y.;Li,H.;Ung,C.Y.;Yap,C.W.;Chen,Y.Z.Chem.Res.Toxicol.2006,19,1030.doi:10.1021/tx0600550

(37) Degroeve,S.;de Baets,B.;van de Peer,Y.;Rouze,P.Bioinformatics 2002,18,S75.

(38) Garner,S.R.Weka,version 3.4.12;University of Waikato:New Zealand,2005.

(39) Johnson,R.A.;Wichern,D.W.Applied Multivariate Statistical Analysis;Prentice Hall:New York,1982.

(40) Quinlan,J.R.C4.5,Programs for Machine Learning;Morgan Kaufmann:San Mateo,CA,1992.

(41) Baldi,P.;Brunak,S.;Chauvin,Y.;Andersen,C.A.;Nielsen,H.Bioinformatics 2000,16,412.doi:10.1093/bioinformatics/16.5.412

猜你喜歡
描述符性質抑制劑
基于結構信息的異源遙感圖像局部特征描述符研究
隨機變量的分布列性質的應用
完全平方數的性質及其應用
基于AKAZE的BOLD掩碼描述符的匹配算法的研究
九點圓的性質和應用
基于深度學習的局部描述符
中草藥來源的Ⅰ類HDAC抑制劑篩選
厲害了,我的性質
凋亡抑制劑Z-VAD-FMK在豬卵母細胞冷凍保存中的應用
特征聯合和旋轉不變空間分割聯合的局部圖像描述符
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合