?

基于特征結構組合描述的抗癌藥物篩選

2024-01-05 12:49楊亞鑫王璟德
關鍵詞:描述符抗癌指紋

楊亞鑫, 王璟德, 孫 巍

(北京化工大學化學工程學院, 北京 100029)

癌癥逐漸成為了人類主要死亡原因,據柳葉刀統計,2017 年中國人十大死因中,癌癥就占了四個席位[1]。癌癥具有早期癥狀不明顯、易擴散和轉移、導致人體免疫力下降等危害。目前,以化學藥物為代表的化療是治療癌癥的一大重要手段,但是化療藥物具有副作用強、易產生抗藥性、損傷免疫系統等不足之處,因此需要繼續開發副作用小、選擇性強,不易耐藥,對免疫系統損傷更小的抗癌藥物。

開發新抗癌藥物有從現有化合物中篩選新抗癌藥物和設計新抗癌藥物分子兩種方式。其中,篩選新抗癌藥物是基礎,而新抗癌藥物的設計需要對具有藥效的先導化合物(或藥物)的結構和藥效基團有所了解[2],相對復雜,因此現在大多采用從現有化合物中篩選這一方式來尋找新抗癌藥物。從現有化合物中篩選新抗癌藥物主要分為以實驗篩選和計算機虛擬篩選兩種為代表的高通量篩選技術。

高通量篩選技術是使用自動化設備同時快速測試數千到數百萬樣本的生物活性并篩選樣本的實驗過程。高通量篩選藥物技術應用較廣、較為成熟,但仍然依賴于微量的藥物實驗、高靈敏度檢測系統,而且具有隨機性,耗費大量時間和金錢[3]。相比于實驗篩選方法,計算機虛擬篩選可以預先在海量的化合物庫中篩選出潛在的抗癌活性物質,減少需要實驗的藥物種類,從而節約時間、人力和物力。

使用計算機虛擬篩選抗癌藥物的前提有兩個:一是必須將藥物分子處理成計算機可以識別的格式,這一點借助分子表征算法可以做到;二是基于數字格式把握抗癌藥物和非抗癌藥物之間結構和性質的差異,因此又產生了表示分子結構和性質的分子描述符或分子指紋。由于表示時出發角度不同以及分子本身結構、性質多樣性,分子指紋或描述符種類也具有多樣性。鑒于結構決定性質的認知,選用表征結構的分子指紋或描述符為描述藥物分子結構的基礎。

目前使用的表征分子結構和性質的分子指紋或描述符較多,而不同分子指紋或者描述符對篩選抗癌藥物的效果也不盡相同。研究者們采用的多種分子指紋[4]包括Pubchem 指紋(801 個)、分子存取系統指紋(MACCS,166 個);分子描述符包括Mordred 分子描 述 符(Mordred ,1 826 個) 、RDKit 分 子 描 述符(RDKit,139 個)等。目前常采用機器學習算法如隨機森林、遺傳算法、支持向量機遞歸特征消除、或相似性分析等特征選擇方法對分子指紋或描述符進行重要性分析選擇來減少個數[5-7]。大多數研究者對分子指紋或者描述符個數的精簡和挑選并不重視,篩選標準過于寬松,往往挑選后得到的分子指紋或描述符數量仍然多達數十至數百個。付洺宇等[8]采用商 業 軟 件Molecular Operating Environment和 Python開源庫Mordred 分別計算了365 個和1 613個描述符,只去除了空值和非數值型描述符,篩選后計算得到的非空值、純數值描述符仍分別多達278 個和882 個。杜雪平[9]則使用方差過濾和Lasso 回歸消除數據集中的噪聲特征和關聯特征,但過濾后仍有50 個特征。Yang 等[10]直接采用Chemical Development Kit 平臺計算了默認參數的藥物哈希指紋1 024 個,并以此作為評價結構相似性基礎,但未對其進行特征篩選;Li 等[11]則只對數量較多的Mordred 描述符進行了特征篩選,未對MACCS和Morgan2 指紋(1 024個)進行篩選。數量過多的分子指紋或描述符增加了構建模型的復雜度, 并增加了對抗癌藥物活性結構的提取難度。

由于Pearson 相關系數能評估變量線性關系,卡方檢驗能檢驗分類變量之間的關聯,因此本文結合了這兩種相關特征選擇方法,從數據相關性角度計算分子指紋或描述符之間的相關性,去除不獨立描述符,按照分子指紋或描述符與藥物類別的關系排名,并對它們進行較大限度的個數精簡,選擇篩選效果較好的方案,將原本數量級超過102的指紋或描述符精簡至101數量級,以達成用盡量少的描述符個數從眾多藥物中有效篩選抗癌藥物的目的。Pearson 相關系數和卡方檢驗這兩種方法的結合,可以從已有的描述符或分子指紋中快速去除關聯性較大的分子指紋或描述符,選擇出對抗癌藥物篩選貢獻最大的分子指紋或描述符,表示出描述抗癌藥物最重要的特征結構組合,從而更具有針對性地篩選出抗癌藥物。本研究不僅加快了抗癌藥物的篩選和開發、明確未知藥物有潛力的研究方向,還有望探究抗癌藥物中對藥效貢獻最大的特征,為針對性設計抗癌藥物提供堅實的基礎。

1 實驗部分

1.1 數據庫和軟件工具

數據庫:Drugbank (https://go.drugbank.com/classyfication)是一個包含超過10 000 種藥物或潛在藥物的化學、藥理學、醫學以及分子生物學信息的藥物信息數據庫。Pubchem (https://pubchem.ncbi.nlm.nih.gov)則是關于有機小分子的化學物理性質、生物活性數據庫,并且有較為詳細的文獻支撐。

軟件工具:Python(版本:3.8) 的RDKit(版本:2022.03.1)庫是一個用于化學信息學的開源工具包,它可用于化合物描述符和指紋生成、化合物結構相似性計算等。

1.2 抗腫瘤藥物結構和性質的數字表征

為了方便計算機運算處理種類多樣、結構復雜的化合物分子,需要把化合物分子轉化成計算機容易處理的各種數據格式,并對化合物分子的結構和性質進行數字化描述,為計算機虛擬篩選提供基礎。

目前化合物分子數字化格式分為圖、字符串、連接表、矩陣[12]等。簡化分子線性輸入系統(Simplified Molecular Input Line Entry System, SMILES)使用頻率最高,它是使用常見的字母和符號來編碼分子結構的線性字符串,例如,它使用大寫化學元素符號表示脂肪鏈上的原子,“=”表示雙鍵等。圖表示方式使用圖形表示分子,把原子或基團看作點、化學鍵看成邊,可以直觀地顯示原子的排列和結合方式。矩陣表示方式是用矩陣形式表示分子組成和連接方式,常用的有原子鄰接矩陣,能表示每個原子與其他原子的連接情況,它是稀疏矩陣,相比圖更加方便處理。連接表則是建立其他數據表相互關系的表格,常用的連接表包括sdf 文件,mol2 文件等,其較為詳細表示原子和化學鍵的屬性以及它們的關系,還包含分子的部分性質。

由于圖的計算機處理方法往往較為繁瑣,常用的原子鄰接矩陣中冗余較多,連接表涉及較多表格信息,表示關系過于抽象,而字符串研究較多,使用廣泛,并且節約空間,容易計算和檢索,故本文采用SMILES 為藥物分子數據表達格式。通過這些分子數字化格式可以計算出各種分子描述符或分子指紋。

分子描述符是邏輯和數學程序運行后得到的最終結果,它能把分子數字表征編碼的化學信息轉化為有用數字或實驗結果[5]。分子描述符主要表述分子的結構或者性質,包括分子組成、拓撲結構幾何信息等。分子指紋是一串離散的數字串,主要檢驗某個特定子結構是否存在,且子結構定義與分子指紋種類有關。目前使用的描述符個數較多,并且對抗癌藥物篩選影響不同,可能存在冗余描述符,又因為結構決定性質,因此,本文以MACCS 指紋、RDKit 描述符、Mordred 描述符為基礎,從中篩選出表征分子結構的抗癌特征描述符組合。

MACCS 是開源的166 位[11]二進制字符串,預定義了一系列子結構,每個指紋位數代表著一個特定子結構,比如第42 位代表氟原子,第99 位代表碳碳雙鍵。指紋位數若出現字符“0”代表特定化合物中該子結構不存在,“1”代表該子結構在特定化合物中存在。該分子指紋定義的子結構含義清晰明確,可解釋性高,且方便運算。

RDKit 是RDKit 庫中自帶的139 個描述符,包含分子組成描述符、分子連接性描述符、拓撲結構描述符等,計算簡便,對分子結構概括性強。

Mordred[13]是在RDKit 的基礎上對描述符進一步擴充完善后得到的描述符集合,可計算1 826 個描述符,除了RDKit 所包含的種類外,還包含鄰接矩陣描述符、自相關描述符、幾何描述符等,種類多,數量多,涉及描述符范圍較廣泛、較為全面。

本文基于收集的藥物樣本集,對Drugbank 和Pubchem 數據庫中的抗癌藥物和非抗癌藥物進行分類標記,并且采用上述分子指紋或描述符形成初始數據集,再利用相關特征篩選方法精簡分子指紋或描述符,結合決策樹算法進行分類,找出對篩選抗癌藥物效果較好的分子指紋或描述符,運用相關化學知識對結果做出歸納,總結出篩選抗癌藥物的分子指紋或描述符的條件。

1.3 實驗步驟

1.3.1 數據獲取 通過Drugbank、Pubchem 數據庫獲取相關藥物,確定抗癌藥物,將剩余藥物處理為非抗癌藥物,形成有標記的藥物數據集。本文搜集了11286種藥物,其中抗癌藥物201 種,其余均認為是非抗癌藥物。將抗癌藥物標記為“1”,非抗癌藥物標記為“0”。獲取了有標記的藥物數據集后,通過Python 中的RDKit 安裝包獲取每個藥物分子的標準SMILES,用于MACCS、RDKit、Mordred 的計算,計算出的分子指紋或描述符作為篩選抗癌藥物的基礎。

1.3.2 數據處理 收集到的數據先進行數據清洗,去除重復的化合物以及分子指紋或描述符的計算值為0 或無限的化合物,還剩余11 140 種藥物,其中抗癌藥物200 種,非抗癌藥物10 940 種。由于抗癌藥與非抗癌藥物的數量比值為1∶54.7,說明該數據集非常不均衡,會對結果造成較大的影響,因此需要預先對樣本進行處理使其均衡。本文采用兩種方法處理數據:第1 種是加權方法,將抗癌藥的權重設為54.7,而將非抗癌藥的權重設為1;第2 種則是將非抗癌藥物分割成55 份,使得每份抗癌藥和非抗癌藥的比例接近1∶1 的均衡數據集。

1.3.3 特征篩選 由于MACC、PDKit、Mordred 描述符或分子指紋維數較多,計算量大,且可能存在冗余或者相互干擾的特征,導致分類結果不佳,因此需要通過特征篩選,用來提取出與結果相關性強并且相互獨立的結構特征,從而篩選出效果較好的分子結構特征組合,提升分類器的分類性能。此外,特征篩選方法還應該保留物理化學意義明確、解釋性高的特征,以有利于結合已有的相關化學知識指導新抗癌藥物的發現。特征重要性指標有多種形式與計算方法,本文主要采用Pearson 相關系數和卡方檢驗兩種指標。

(1) Pearson 相關系數

Pearson 相關系數(r)廣泛地應用于衡量變量之間的線性相關關系,其取值范圍是[-1, 1]。當r>0 時,為正相關;當r<0 時,為負相關,且r的絕對值越接近于1,線性相關性越高,其計算式如下:

其中:Xi是所有類別樣本中第i個樣本對應的該特征變量值;Xˉ 是該特征變量中所有樣本值的均值;Yi是第i個樣本對應的藥物類別標簽值,其有兩種標簽值,當第i個樣本為抗癌藥物時Yi為“1”,為非抗癌藥物時Yi為“0”;Yˉ 是所有樣本藥物類別標簽值的均值,式(1)一次只能計算一個特征變量與藥物標記之間的關系。

(2) 卡方檢驗

獨立性的卡方檢驗可用于評估分類變量之間的關聯,其中計算單個分類變量較為方便。首先假設分類變量(X)與分類標簽(Y)相互獨立,則機器學習算法判斷的抗癌藥物和非抗癌藥物個數與實際分類相等,此時卡方計算值( χ2)為0。 χ2越大,說明假設不成立的可能性 ( 1-p,p為分類變量與分類標簽相互獨立的概率) 越大,即兩者關聯程度越高。對于X=m類、Y=n類分類問題, χ2和自由度F、p值分別為:

使用Python 工具分別求取與分類結果相關性最大的特征分子指紋或描述符,精簡分子特征描述符個數,有助于最終獲取數量較少且分類效果較好的描述符組合。

1.3.4 數據分類算法及分類指標 數據分類算法較多,包括決策樹、隨機森林、支持向量機等算法。它們各有不同的使用范圍。由于決策樹具有可解釋性強[14]、對相關屬性處理較好、對初始數據質量要求較低、不需要數據歸一化或標準化、可同時處理二元特征和多元特征、運算速度相對較快等優點,且數據集中分子指紋是二元特征、分子描述符是多元特征、非抗癌藥物種類多且組成復雜,所以采用決策樹為分類算法基礎。

(1)決策樹參數調整

決策樹是一個樹狀結構,由結點和有向邊組成,結點由表示特征的內部結點和表示類別的葉結點組成。根據已知特征屬性值和分類結果,可以生成決策樹。決策時從根結點出發,根據特征屬性值對樣本進行分類,可以依據不同標準設定不同閾值進行分類,并判斷分類錯誤率使其最小,分類后根結點分裂,生成子結點,子結點也可以根據新的特征值繼續分類,直到分為葉結點。決策樹參數調整包括分類標準、決策樹深度等?;犭s質系數(G(P))是常用的分類標準,用以表征錯誤分類類別的概率,G(P) 越小,分類效果越好,當它為0 時,每個分支均只有一個類別,為完美劃分。計算公式如下:

其中,C為分類類別數,p(i) 是一個樣本被劃分為第i類的概率。

本文將分類標準設為基尼雜質系數,決策樹深度調整為3~15 之間,其余均為默認值。

(2)分類性能評估指標

本文使用的數據集標記只有抗癌藥物和非抗癌藥物之分,因此本文研究的課題實質上是二分類問題。二分類結果預測值和實際標記值如表1 所示。

表1 二分類的結果Table 1 Result of binary classification

分類結果的性能評價指標選擇準確率(Acc)、靈敏度(Sen)、精確率(Pre)、F1 分數(F1)、受試者工作特征曲線下(ROC)的面積(AUC) 5 個指標,前4 個指標計算式如下:

其中:NTP、NTN分別為機器學習與實際分類相符合的抗癌藥物數、機器學習與實際分類相符合的非抗癌藥物數;NFN是被機器學習錯分為非抗癌藥物但實際標記卻是抗癌藥物的藥物數;NFP是被機器學習錯分為抗癌藥物但實際標記卻是非抗癌藥物的藥物數。由于本文采用的數據集是根據藥物相關數據庫和文獻來標記,代表實際情況,因此可以通過比較機器學習算法預測的各類藥物數以及實際標記的各類藥物數的差異,方便直觀地體現出機器學習分類效果的好壞。這4 個評價指標都是基于測試集中預測的抗癌或非抗癌藥物數與實際抗癌或非抗癌藥物數目的差異建立的指標,所以可以評價分類效果性能。

式(6)中Acc計算正確分類的藥物總數占測試集中藥物總數之比,反映了機器學習算法分類結果的總體準確率。式(7)中Sen計算準確分類的抗癌藥物數占實際標記的抗癌藥物之比,反映了實際標記抗癌藥中機器學習算法能成功識別的抗癌藥比例,也就是機器學習對實際抗癌藥物的識別程度。式(8)中Pre計算準確分類的抗癌藥物數占機器學習預測的抗癌藥物之比,反映了機器學習算法預測的抗癌藥物中與實際標記相符的抗癌藥比例,說明的是預測抗癌藥物中有多少是真的抗癌藥物。當預測結果與實際標記完全一致時為理想情況,此時NFN=NFP=0,使得Acc=Sen=Pre=1。式(9) 示出了對Sen、Pre進行簡單四則運算后得到的綜合指標,反映了準確分類的抗癌藥物占預測抗癌藥和真實抗癌藥數目的占比。求偏導可發現Sen、Pre對F1均是促進關系,只有當兩者均取最大值1 時它才能取得最大值1。實際情況下,Acc、Sen、Pre、F1這4 個指標越接近1,說明分類越準確??傮w而言,這幾個指標計算方便、簡潔,能較為有效地通過準確分類的抗癌藥物的占比來評價分類好壞。

ROC 曲線是根據一系列不同的二分類方式(分界值或決定閾值),以真陽性率(Sen)為縱坐標、假陽性率為橫坐標繪制的曲線,是對指標分類結果的可視化表示。相比傳統的實驗評價方法,ROC 曲線可以根據實際情況,進行多分類的統計分析,AUC的取值范圍一般在0.5 和1 之間。AUC數值上等于隨機選擇的抗癌藥物比隨機選擇的非抗癌藥物得分更高的概率[15],AUC越大,分類效果越好。相比于分類誤差,它對成本和類別不平衡更不敏感[16],已成為多學科如醫療診斷、藥物發現等領域分類性能的評價標準[14,17]。

本文選用的分類評價性指標與文獻[7, 18-22]基本一致,具有可靠性。

2 結果與討論

為了增強結果可靠性,降低分類的隨機性并便于比較,本文選用五折交叉驗證方法對數據進行訓練測試,以測試集的結果來對比經過不同特征處理后數據的分類性能。五折交叉驗證是將數據集分成5 份,每次選取1 份作為測試集,其余4 份作為訓練集。為了結果的統一性,每次分類結果是經過5 次五折交叉驗證后的平均值。

2.1 不采用特征選擇

2.1.1 加權數據集 數據集1 是200 個抗腫瘤藥與10 940 個非抗腫瘤藥組成的數據集,并將抗腫瘤藥權重設為54.7,非抗腫瘤藥設為1,分別結合不同的分子指紋或描述符,使用決策樹在該數據集上實現了抗癌藥物的分類。不采用特征選擇時不同分子指紋或描述符的分類指標如圖1 所示。

圖1 不進行特征篩選時加權數據集分類結果Fig.1 Classification result of weighted dataset without feature selection

從圖1 分析,不進行特征選擇時,RDKit 的5 個分類指標中除Sen外均為最高,但由于它的Sen異常偏低,說明此時RDKit 組成的分類器不能較為準確地篩選出抗癌藥物,因為它把接近一半的抗癌藥物都分成了非抗癌藥物,此時它的識別抗癌藥物分類效果較差,Sen低而Acc高說明它只能有效識別非抗癌藥物。

對比MACCS 和Mordred,基本上都是MACCS結果高于Mordred 結果,因此MACCS 優于Mordred。又因為MACCS 的Sen在三者中最高,雖然它的Acc不如RDKit,但本文的目的更偏向于從藥物中篩選出抗癌藥物,因此它的篩選抗癌藥物結果為三類描述符中最優。MACCS 其他指標低于RDKit,主要因為其Pre低,也就是劃分標準過于寬泛,把較多的非抗癌藥物也劃分為抗癌藥物。

此外還可以發現MACCS、RDKit 與Mordred 的Pre都非常低,主要原因是非抗癌藥物遠遠多于抗癌藥物,即便被誤認為是抗癌藥物的非抗癌藥物占非抗癌藥物的比例很低,它的絕對數量也遠多于正確分類的抗癌藥物數。由F1定義可以看出它主要由Sen和Pre中較小的值來確定,由于此處Pre很低,故F1也非常低。

2.1.2 欠采樣數據集 數據集2 是將10 940 個非抗癌藥物平均分為54 份,每份202 個,由于還有32 個非抗癌藥物,隨機抽出32 個抗癌藥物組成一份小的數據集,每次結果采用這55 份子數據集的平均,重復10 次取平均值,結果如圖2 所示。

圖2 不進行特征篩選時欠采樣數據集的分類結果Fig.2 Classification result of under-sampling dataset without feature selection

由圖可得,進行欠采樣處理后,5 個分類指標數值較為接近,并且除了Acc外,其余指標基本都有提升,特別是Pre和F1值,由于抗癌藥物和非抗癌藥物個數接近1∶1,因此這兩個指標數值均大幅度提升,說明欠采樣后模型的不均衡程度顯著降低。改用欠采樣數據集后Sen也有一定的提升,AUC則變化不大,Acc略有下降。綜合來看,有3 個指標上升,1 個指標持平,1 個指標下降,且Acc下降幅度明顯小于Pre、F1的上升幅度,說明改用欠采樣數據集后模型的分類能力有所提升。

對比3 類分子指紋或描述符分類指標,可以看出Mordred 的分類指標比其余兩者要低,說明它的分類效果稍差。對Acc而言RDKit 最優,對Sen而言MACCS 最優,而其他指標RDKit 略優于MACCS,說明單純看抗癌藥物識別度,MACCS 最優,總體而言RDKit 最優。

2.2 采用Pearson 相關系數及卡方檢驗

采用Pearson 相關系數計算單個描述符或分子指紋對分類的影響。在對前20 個變量描述符之間計算了彼此的相關系數,去掉相關系數大于0.5 的變量,最終按排名分別得到了3 類分子指紋或者描述符中最優的20 個結構描述符組合。采用卡方檢驗計算各個描述符與分類標簽卡方計算值,按照從大到小的順序排列變量,并用類似方法檢驗變量之間獨立性,去除相關性過高的變量,最后得到最優的20 個結構組合。將兩種方法采取的20 個結構描述符結合,篩選出各類分子指紋或描述符中最優的前10 個結構描述符組合如表2 所示。

表2 10 個特征結構分子指紋或描述符Table 2 Ten featured structural fingerprint or descriptors

表2 列出的特征MACCS 列的第1 位代表任意原子與氧形成的雙鍵數是否大于1,從第2 位至第10 位則代表是否存在特定子結構片段,依次代表的子結構片段分別為:任意原子直接與一個硫原子和任意兩個原子相連、叔丁基與任意一個原子相連、鹵素原子、氮原子與任意除碳和氫之外的原子組成的單鍵、碳碳雙鍵、硫原子直接與3 個氧原子相連、碳氮雙鍵、含氮雜環、任意六元環(其中有一個為非碳非氫原子)。特征RDKit 列中的第1 位代表由Bertz 提出的分子復雜指數,它基于計算分子拓撲圖中各點、各子圖以及各種類原子的信息熵總和而得;第2 位和第3 位分別代表苯胺和叔胺個數;第4 位代表0 階chi( χ 連接價電子指數),由各個骨架原子價電子數目(除去成鍵的氫原子)為基礎計算而得;第5 位代表1 階chi 連接指數,由骨架上的各對距離為1的原子對的骨架相鄰原子數目(除去成鍵的氫原子) 為基礎計算而得;第6 到第10 位分別代表芳香氮、環、亞硝基、甲氧基、吡啶環個數。特征Mordred列的第1~3 位和第5、7 位分別為各對拓撲距離為7、6、5、4、3 的原子對的范德華體積權重下的Moreau-broto 自相關系數,即各個原子對內部原子的范德華體積乘積的加權和;第4、6、8 位為各對拓撲距離分別為7、6、5 的原子對的電離勢能權重下的Moreau-broto 自相關系數,即各個原子對內部原子的電離勢能乘積的加權和;第9、10 位為各對拓撲距離分別為7、6 的原子對的質量權重下的Moreaubroto 自相關系數,即各個原子對內部原子的質量乘積的加權和。

對比2.1 節中采用不同數據集對藥物分類的結果,可以看出,欠采樣處理后的藥物數據集變得更加均衡,總體而言對Sen、Pre等指標有利,能夠更加準確地識別抗癌藥物,因此篩選后只選用欠采樣數據集,對篩選出來的變量它們的分類結果分別如圖3 所示。

圖3 特征篩選后欠采樣數據集的分類效果Fig.3 Classification result of under-sampling dataset with feature selection

由圖可得,采用Pearson 相關系數及卡方檢驗進行特征篩選后,3 類分子指紋或描述符的Sen均顯著增加,說明特征篩選后分類模型對抗癌藥物的準確識別度均明顯增加。此外,MACCS 和Mordred 的其他幾項指標也在特征篩選后有所增加,說明特征篩選后 MACCS 和 Mordred 的描述符能更好地描述抗癌藥物的結構和性質,并明顯提高其分類性能。 而對 RDKit 而言,特征篩選后Acc和Pre均有所下降,說明采用的特征篩選方法減低了對非抗癌藥物識別能力,但由于抗癌藥物識別能力增加,且篩選后F1和AUC基本不變,所以特征篩選仍能基本達成準確分類。

對3 類分子指紋或描述符對比,除Pre外其他指標的大小順序為:MACCS>RDKit>Mordred,因此在這3 類指紋或者描述符中,MACCS 的分類性能最好,而Mordred 分類性能最差。MACCS 的Sen達到了81%,說明使用它能識別約八成的抗癌藥物。綜合其他指標可得使用MACCS 的分類模型能準確識別70%的藥物。

經過Pearson 相關系數和卡方檢驗篩選后,MACCS 中10 個指紋結果最好,其中4 個指紋是簡單的原子或者共價鍵,2 個指紋是環狀結構片段,其余均為鏈狀片段且基本上都含有支鏈,同時都有碳、氮、硫、氧等元素。它們都是能相對準確地概括抗癌藥物的特征結構組合。綜合其他較優的描述符,能準確識別抗癌藥物的分子指紋或描述符集合應該滿足以下條件:包含基本的官能團如鹵素原子、碳碳雙鍵等;包含原子、化學鍵、鏈狀結構片段、環狀結構片段等各種層次的結構;以上結構片段大概率包含碳、氧、氮、硫、鹵素原子之中1 種或多種化學元素;除氫外,結構片段原子總數多在2~7 之間。

由MACCS 的Acc(總體藥物識別率,70%)低于Sen(抗癌藥物識別率,81%),可知MACCS 對非抗癌藥物的識別率較低,這有可能是因為非抗癌藥物種類遠遠多于抗癌藥物,同時結構多樣性,且它的結構片段與抗癌藥物的結構片段有交叉,而通過特征篩選后,MACCS 較優的10 個結構指紋組合中,第1、4、6、8 個均為簡單的原子或共價鍵,如鹵素原子、碳碳雙鍵等,所以部分非抗癌藥物很有可能包含這些簡單的原子或共價鍵,使得對非抗癌藥物的識別能力下降。

2.3 結果評價指標的合理性

對比圖1 和圖2,可以看出,Pre和F1指標能有效區分數據集是否均衡,對于均衡數據集時兩者數值均超過0.6;不均衡時數值均較小,接近0。此外,圖1、2、3 中所示的Sen指標在各個描述符或分子指紋中差異較大,但均能較為明顯地區分出最優值;Acc指標在圖1 和圖2中能較為明顯地區分出最優描述符或分子指紋,所以Acc、Sen、Pre、F1這4 個指標在結果上也能反映出評價指標的合理性。而AUC指標在不同數據集、不同分子描述符之間相差較少,相對而言合理性較Acc和Sen弱,但也能分出最優值。根據分類結果,評價指標基本上均較為合理。

3 結 論

(1)本文采用的欠采樣方法可以有效地解決分類數據集極端不平衡的問題。

(2) 兩種特征篩選方法的結合使用把原有的分子指紋或描述符精簡成了10 個較好的結構分子指紋或描述符組合,能以簡短的組合更精準地描述抗癌藥物結構,在數據集中有效地篩選出了81%的抗癌藥物。

(3) 對現有描述符進行特征選擇有助于進一步研究抗癌藥物獨特性質,有效地篩選抗癌藥物,甚至可以指導從結構從頭開始設計藥物。本研究僅使用了兩種特征篩選方法結合決策樹建立分類模型,后續可以結合更多特征篩選方法和更多的機器學習算法,深入地研究抗癌藥物最為獨特的特征屬性,更有針對性地識別和篩選抗癌藥物。

猜你喜歡
描述符抗癌指紋
Fuzheng Kang' ai decoction (扶正抗癌方) inhibits cell proliferation,migration and invasion by modulating mir-21-5p/human phosphatase and tensin homology deleted on chromosome ten in lung cancer cells
基于結構信息的異源遙感圖像局部特征描述符研究
像偵探一樣提取指紋
為什么每個人的指紋都不一樣
基于AKAZE的BOLD掩碼描述符的匹配算法的研究
抗癌之窗快樂攝影
三十年跑成抗癌明星
Linux單線程并發服務器探索
利用CNN的無人機遙感影像特征描述符學習
抗癌新聞
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合