?

基于指紋相似度的藥物靶點相互作用預測

2017-10-20 00:25于亞運劉勇國蔣羽
中國中藥雜志 2017年18期
關鍵詞:隨機森林

于亞運 劉勇國 蔣羽

[摘要]藥物通過結合人體靶點發揮藥效,識別藥物靶點相互作用對于藥物新功能發現至關重要。該文提出基于分子子結構的靶點指紋特征和基于指紋相似度的藥物靶點特征計算方法,構建隨機森林分類模型識別和預測藥物靶點相互作用,通過酶、離子通道、G蛋白偶聯受體和核受體數據集測試并與現有方法對比分析,并將所提模型應用于中藥成分靶點相互作用預測,實驗結果表明所提方法的有效性。

[關鍵詞]藥物靶點相互作用; 分子指紋; 隨機森林

Prediction of drugtarget interaction based on fingerprint similarity

YU Yayun1, LIU Yongguo1*, JIANG Yu1, LI Limin2

(1. Knowledge and Data Engineering Laboratory of Chinese Medicine, School of Information and Software Engineering,

University of Electronic Science and Technology of China, Chengdu 610054, China;

2. Sichuan Academy of Chinese Medicine Sciences, Chengdu 610041, China)

[Abstract]Drugs play the pharmacological effects by combining with target proteins. Identification of drugtarget interactions is important for discovering new functions of drugs. In this paper, the target fingerprints based on molecular substructure and the drugtarget similarity based on fingerprints are proposed to a random forestbased classification method, in order to identify the drugtarget interactions. Experiments on enzymes, ion channels, G proteincoupled receptors and nuclear receptors proved the effectiveness of the proposed method. In addition, the proposed method is applied to predict the interactions between ingredients and targets of traditional Chinese medicines.

[Key words]drugtarget interaction; molecular fingerprint; random forest

藥物靶點是存在于人體組織細胞內與藥物分子相互作用并賦予藥物效應的特定蛋白質分子,如受體、酶等[1]。藥物通過與靶點相互作用影響靶點的藥理作用以達到表型效應[23]。識別藥物靶點相互作用對于理解藥物的作用機制至關重要,而藥物靶點間關系尚未完全明確[4]。目前,通過生物實驗手段識別藥物靶點相互作用不僅代價高而且耗時長[5]。Mei等認為借助計算機可快速有效預測藥物靶點相互作用,提出BLMNII模型從KEGG數據庫識別藥物D00163,D00506和D05341分別與靶點hsa9971,hsa9970和hsa3174具有相互作用,實現通過計算機技術在有限時間內大規模預測藥物靶點相互作用,協助研究人員有效開展生物實驗驗證[67]。

近年來,研究人員基于計算機技術從不同角度研究藥物靶點特征,構建機器學習模型預測藥物靶點相互作用[8]。Yamanishi等從KEGG BRITE,BRENDA,SuperTarget和DrugBank數據庫搜集藥物靶點相互作用數據,根據靶點類型創建酶(enzyme)、離子通道(ion channel)、G蛋白偶聯受體(Gproteincoupled receptor)和核受體(nuclear receptor)數據集,基于化學結構和基因序列信息采用統計方法分析藥物靶點相互作用,采用ROC曲線下面積(area under curve,AUC)作為評價指標,4個數據集的AUC值分別為0904,0851,0899,0843[9]。van Laarhoven等通過二值矩陣表示藥物靶點相互作用,以二值向量表示藥物(或靶點)是否與靶點(或藥物)具有相互作用,采用高斯函數計算藥物(或靶點)間高斯距離矩陣作為高斯相互作用屬性(Gaussian interaction profile,GIP)核,提出基于GIP核的正則化最小二乘法分類器預測藥物靶點相互作用,算法AUC值分別達到0983,0986,0947,0906[10];Cao等認為藥物化學子結構指紋能有效地表示藥物,根據藥物maccs指紋特征和靶點蛋白的物理化學性質構建藥物靶點屬性特征,采用支持向量機構建模型預測藥物靶點相互作用,算法AUC值分別達到0903 1,0889 1,0846 8,0837 4[5];Hao等采用非線性核融合思想構建正則最小二乘法預測藥物靶點相互作用,算法AUC值分別達到0915,0925,0853,0909[11]。上述方法從不同角度構建藥物靶點相互作用關系預測模型,對實驗數據集獲得較高AUC值,表明此類方法能較好預測潛在藥物靶點相互作用。endprint

論文采用藥物分子子結構特征表示藥物指紋特征,根據藥物指紋特征和藥物靶點相互作用關系設計靶點指紋特征,通過多個相似度計算方法度量藥物靶點的指紋相似度,提出基于指紋相似度的隨機森林(fingerprint similaritybased random forest,FSRF)模型分析藥物靶點相互作用關系。

1數據

論文采用文獻[9]的藥物靶點數據集,包含酶、離子通道、G蛋白偶聯受體和核受體4個子數據集,數據集的藥物數目、靶點數目和藥物靶點已知相互作用數目見表1。此外,論文采用DrugBank數據庫[12]最新藥物靶點相互作用數據驗證FSRF模型預測結果的有效性。

3結果

31分類模型評估仿真實驗基于Windows 10操作系統,酷睿i3處理器,8GB內存,R軟件開發工具。根據藥物KEGG標識符提取藥物SMILES編碼并確定藥物指紋特征。為討論不同藥物分子指紋對分類模型的影響,論文采用maccs指紋、pubchem指紋和standard指紋開展藥物靶點相互作用分析。將實驗數據集中已知相互作用的藥物靶點對視為正樣本,將未知相互作用的藥物靶點對視為負樣本,按照正負樣本1∶1比例隨機無放回選擇負樣本。以maccs,pubchem和standard分子指紋分別構建分類模型(MFSRF,PFSRF和SFSRF),采用五折交叉驗證,通過構建混淆矩陣以計算AUC、準確率(accuracy)、精確度(precision)、召回率(recall)、F度量(Fmeasure)評價指標,分類結果見表2??梢?,針對不同數據集論文分類方法AUC值、準確率和F度量均高于095,精確度和召回率接近1,表明基于指紋相似度的隨機森林模型能準確識別藥物靶點相互作用,其中SFSRF模型分類結果最好。

32分類模型對比分析為與現有方法對比分析,論文選擇BLM模型[3]、BGL模型[9]、RLS模型[10]、RLSKF(Max)和RLSKF(Avg)模型[11]、RF(Chem+Bio+net)和RF(Chem+Bio)模型[13]、NetLapRLS模型[14],以AUC指標評價開展對比分析,結果見表3。SFSRF模型對酶、離子通道、G蛋白偶聯受體和核受體數據集的AUC值分別達0998,0994,0994,0995,表明該模型具有更高的分類有效性。

33未知藥物靶點相互作用預測SFSRF算法的藥物靶點相互作用預測結果見表4,其中未知作用數目表示數據集中未知藥物靶點相互作用數目,驗證數目表示未知相互作用中被DrugBank數據庫驗證數目,驗證比例表示未知相互作用被DrugBank數據庫驗證比例;預測數目表示SFSRF模型預測存在藥物靶點相互作用數目,識別數目表示預測的相互作用中被DrugBank數據庫驗證的數目,識別比例表示預測的數目被DrugBank數據庫驗證的比例,識別驗證比為識別比例和驗證比例的比值,體現SFSRF模型預測未知相互作用的能力。

由表4可見,SFSRF模型的識別驗證比達到56~104,表明其能提高未知藥物靶點相互作用預測能力。實驗數據集共有355 782對未知相互作用,其中666對被DrugBank數據庫驗證,驗證比為0001 87。SFSRF模型預測2 111對,其中60對被DrugBank數據庫驗證,驗證比例為0028 42,識別驗證比為152,表明SFSRF模型能顯著提升藥物靶點相互作用預測水平。此外,分類模型的平均預測率仍較低,分析發現酶數據集中292 554對未知相互作用僅81對被驗證,導致未知相互作用預測難度加大;而SFSRF模型預測到1 262對相互作用,其中3對被驗證,預測模型能顯著縮小驗證范圍。針對離子通道、G蛋白偶聯受體和核受體數據集,SFSRF模型均大幅度壓縮預測范圍且提升了預測率,對于降低藥物研發成本,提高藥物靶點預測效率具有重要作用。

34中藥成分靶點相互作用預測以杞菊地黃丸為例分析基于SFSRF模型的中藥成分靶點相互作用關系。論文通過TCMSP數據庫[15]獲取杞菊地黃丸的中藥成分數據,通過DrugBank數據庫獲取已批準藥物和藥物靶點相互作用關系,基于SFSRF模型構建藥物靶點關系預測模型,以預測中藥成分靶點相互作用關系。為分析杞菊地黃丸對肝腎陰虛證的作用機制,通過篩選DrugBank數據庫腎臟疾病治療靶點形成中藥成分靶點的相互作用關系,構建杞菊地黃丸的中藥成分靶點網絡,見圖2,橢圓節點表示中藥成分,菱形節點表示靶點。

杞菊地黃丸主要作用于靶點P11274,P02792和P02794,為驗證中藥成分靶點相互作用關系,從DrugBank數據庫獲取上述靶點并對靶點功能和已知藥物進行分析。結果表明,靶點P11274為腎細胞癌抗原NYREN26,該靶點藥物均為抗腫瘤藥物。靶點P02792和P02794具有調節發育中腎囊細胞鐵攝取功能。靶點P02792的藥物為肝臟機能改善劑,

適用于急性肝炎、慢性遷延性肝炎、慢性活動性肝炎,對肝硬化、膽囊炎膽石癥亦有效;用于患有慢性腎臟疾病的成人和6歲以上兒童患者接受血液透析和補充促紅細胞生成素的治療。論文21個靶點對應藥物中,有13個靶點藥物是治療肝腎相關疾病藥物,主要表現為對腎臟機能的改善,對肝炎、肝硬化的治療,對腎病綜合征的治療,對肝細胞癌、晚期腎細胞癌的治療等;有3個靶點藥物主要用于降低眼內壓和治療視網膜炎。上述結果體現杞菊地黃丸的滋腎養肝明目功效。此外,靶點藥物的利尿、補血、消炎鎮痛等作用以及對腸胃潰瘍、高血壓等疾病的治療與杞菊地黃丸中單味中藥的功效存在一致性,如茯苓和澤瀉的利水滲濕,山藥的補脾養胃、麻醉鎮痛,熟地黃的補血滋潤等,見表5。

4討論

論文采用藥物指紋特征表示藥物屬性,根據藥物靶點相互作用確定靶點指紋特征,以藥物指紋特征與靶點指紋特征相似度為特征,以藥物靶點是否具有相互作用作為類屬性,基于隨機森林算法構建分類模型。仿真實驗表明,SFSRF模型能夠獲得較好分類結果,通過DrugBank數據庫對未知作用預測結果驗證,表明SFSRF模型具有較好藥物靶點未知相互作用預測能力,能夠為高效開展生物實驗識別藥物靶點相互作用提供支持,并將模型有效應用于杞菊地黃丸的中藥成分靶點相互作用預測。endprint

[參考文獻]

[1]屠鵬飛,曾克武,廖理曦,等 天然活性小分子靶標蛋白識別方法學研究進展[J]. 中國中藥雜志,2016,41(1):6.

[2]Tabei Y, Pauwels E, Stoven V, et al. Identification of chemogenomic features from drugtarget interaction networks using interpretable classifiers[J]. Bioinformatics,2012,28(18):i487.

[3]Bleakley K, Yamanishi Y Supervised prediction of drugtarget interactions using bipartite local models[J]. Bioinformatics,2009,25(18):2397.

[4]Takarabe M, Kotera M, Nishimura Y, et al. Drug target prediction using adverse event report systems: a pharmacogenomic approach[J]. Bioinformatics,2012,28(18):i611.

[5]Cao D S, Liu S, Xu Q S, et al. Largescale prediction of drugtarget interactions using protein sequences and drug topological structures[J]. Anal Chim Acta,2012,752:1.

[6]Mei J P, Kwoh C K, Yang P, et al. Drugtarget interaction prediction by learning from local information and neighbors[J]. Bioinformatics,2013,29(2):238.

[7]Ding H, Takigawa I, Mamitsuka H, et al. Similaritybased machine learning methods for predicting drugtarget interactions: a brief review[J]. Brief Bioinform,2014,15(5):734.

[8]劉西,盧朋,左曉晗,等 基于二分圖評價模型的網絡藥物靶標預測改進方法[J]. 中國中藥雜志,2012,37(2):125.

[9]Yamanishi Y, Araki M A, Honda W, et al. Prediction of drugtarget interaction networks from the integration of chemical and genomic spaces[J]. Bioinformatics,2008,24(13):i232.

[10]van Laarhoven T, Nabuurs S B, Marchiori E Gaussian interaction profile kernels for predicting drugtarget interaction[J]. Bioinformatics,2011,27(21):3036.

[11]Hao M, Wang Y, Bryant S H Improved prediction of drugtarget interactions using regularized least squares integrating with kernel fusion technique[J]. Anal Chim Acta,2016,909:41.

[12]Wishart D S, Knox C, Guo A C, et al. DrugBank: a knowledgebase for drugs,drug actions and drug targets[J]. Nucleic Acids Res,2008,36:D901.

[13]Cao D S, Zhang L X, Tan G S, et al. Computational prediction of drugtarget interactions using chemical, biological, and network features[J]. Mol Inform,2014,33(10):669.

[14]Xia Z, Wu L Y, Zhou X, et al. Semisupervised drugprotein interaction prediction from heterogeneous biological spaces[J]. BMC Syst Biol,2010,4:S6.

[15]Ru J, Li P, Wang J, et al. TCMSP: a database of systems pharmacology for drug discovery from herbal medicines[J]. J Cheminform, 2014, 6(1):1.

[責任編輯張寧寧]endprint

猜你喜歡
隨機森林
拱壩變形監測預報的隨機森林模型及應用
基于隨機森林算法的B2B客戶分級系統的設計
基于多視角特征融合與隨機森林的蛋白質結晶預測
基于TM影像的土地覆蓋分類比較研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合