?

基于自監督深度學習的抗癌藥物敏感性評估方法研究

2024-02-06 11:21辜曉純蘇詠純鄧偉振林俊淇
關鍵詞:編碼器敏感性框架

柴 華,辜曉純,蘇詠純,鄧偉振,林俊淇

(佛山科學技術學院 數學與大數據學院,廣東 佛山 528000)

1 相關工作

癌癥是一種復雜的疾病,涉及基因和環境之間的一系列相互作用。大量的臨床試驗和科學研究發現,對于不同的癌癥患者,相同藥物導致的治療結果不盡相同。因此,根據患者的差異性,判斷癌癥治療藥物的有效性,對實現癌癥的精準治療至關重要。隨著計算機科學和生物醫學研究的迅速發展,利用人工智能算法預測藥物有效性因為其成本低、效率高等優勢,對于篩選具有良好藥效和安全性的藥物候選物,縮短藥物研發周期,降低藥物研發成本等方面具有重要意義。

目前,大量的傳統機器學習方法已經被用于這一領域。例如,Huang 等[1]使用基于正則化的邏輯回歸模型預測抗癌藥物的有效性,Dong 等[2]結合患者的基因表達,使用支持向量機預測藥物敏感性,Riddick等[3]使用隨機森林尋找對乳腺癌有效的潛在治療藥物。盡管這些方法在很多方面已經取得了一定的成果,但是高維的患者數據特征限制了此類方法的預測性能。深度學習在處理高維非線性數據方面展現了巨大優勢。Theodore 使用深度神經網絡評估不同藥物的有效性和以及不同藥物和患者生存之間的關系[4]。在此基礎上,為了更好地學習不同數據之間的分布信息,Ladislav 使用變分自編碼器構造癌癥患者基因的低維表示,并將其輸入傳統機器學習分類器,用于預測藥物的敏感性[5]。在Wang 等[6]的工作中,基于患者基因通路構建的圖卷積神經網絡被用來更好地提取患者基因數據中的隱藏信息。而在最近的研究中,JIA 等[7]提出使用生成式自編碼器的藥物有效性預測框架,通過對抗生成式策略自主學習其特定的數據空間分布特性,從而更好地區分患者間的差異性。盡管這些方法和傳統的機器學習方法相比,取得了更加準確的藥物敏感性預測表現,然而,有限的癌細胞小樣本數據限制了此類方法性能的進一步提升。為了解決深度學習中的小樣本學習困境,算法設計者提出了遷移學習[8],在模型訓練中通過利用其他相似數據引入更多的信息。然而,遷移學習對數據的同質性有很強的假設,不同數據集的批次效應限制了模型的性能。

針對以上問題,本文設計了一種基于深度學習的抗癌藥物敏感性預測框架(SSLGP),通過結合自監督學習減少高維基因數據中的冗余信息和噪聲,從而獲得低維數據的穩健表示,并將所獲得的低維數據用于訓練XGBoost 預測模型。與遷移學習不同的是,在最近的研究中,基于自監督學習的方法被設計用于應對小樣本學習的挑戰,而無需考慮不同數據集的同質性[9]。在我們的預測框架中,自監督學習策略通過讓模型學習樣本之間的相似性以及差異性來提取患者的基因特征。該框架在8 種藥物數據集中進行了測試,結果證明獲得的結果比以往常用的基線方法的AUC 平均高出>6.5%,實驗證明了方法的先進性。

2 方法介紹

2.1 藥物敏感性數據

本研究使用了8 個收集自癌癥藥物敏感性基因組學數據庫(genomics of drug sensitivity in cancer,GDSC,https://www.cancerrxgene.org)的藥物數據,包括藥物敏感性數據以及癌細胞的mRNA 表達數據(Erlotinib 429 例,Irinotecan 453 例,Lapatinib 434 例,Nilotinib 434 例,Paclitaxel 434 例,PLX4720 452 例,Sorafenib 434 例,Topotecan 411 例)。對于mRNA 特征數據,首先刪除缺失超過20%的特征及樣本,之后使用中位數填補其缺失值。經log2 變換后的細胞系特征數據,其所有mRNA 表達數據均標準化為均值為零,標準差為1。

2.2 方法流程

方法流程如圖1 所示。

圖1 方法流程圖

本研究設計了一種基于對比學習的癌癥藥物預測框架,以基因表達數據作為輸入變量,半最大抑制濃度IC50 作為輸出響應。本框架包含3 個步驟:1)采用SSLGP 自監督學習框架實現基因表達數據的低維特征提??;2)將學習到的低維特征表示與對應的代表藥物敏感性的IC50 值合并為用于模型訓練的數據集;3)構建XGBoost 分類預測模型。

2.3 基于自監督學習的深度學習框架

深度學習框架的關鍵思想是利用自監督學習有效的細胞表示,假設 x=(x1,xg)表示一個多組學特征列表,其中,g 表示特征數量。在自監督學習的數據增強階段,樣本數量n 將增加到2n。在每個批次中,將同一樣本產生的兩個相似點設置為正對,而將其他點視為負對。在自監督學習模塊中,為了學習正負對的區別,給出的損失函數為

在隊列中,xk代表第k 個變形的樣本嵌入,xi和xj指的是來自同一個原始樣本的一對正樣本,溫度系數τ 用于調節模型對負樣本的區分能力。

SSLGP 自監督學習框架學習了一個局部平滑的非線性映射函數fθ,并使用了兩個編碼器:鍵編碼器(fk)和查詢編碼器(fq)。鍵編碼器的進化速度較慢,而查詢編碼器的進化速度較快。鍵編碼器的參數由θk表示,查詢編碼器的參數由θq表示。使用常規的反向傳播算法來更新查詢編碼器的參數。對于鍵編碼器,使用動量方法來更新參數,以確保更新的方向保持一致。每次更新鍵編碼器時,使用較小的步長,并通過線性組合之前的鍵編碼器參數和新計算得到的查詢編碼器參數來保留先前步驟中的信息,這樣做有助于保持模型更新的穩定性和一致性。θk和θq的關系式為

這里m∈[0,1)是動量系數。較大的m 使鍵編碼器更新緩慢,而較小的m 則迫使鍵編碼器變得非常像查詢編碼器,動量更新使得編碼器網絡進化順利。模型訓練完成后,查詢編碼器網絡fq作為最終的生產網絡,輸出降維后的基因表達特征。

編碼器神經網絡采用兩個全連接層構成,其中包括查詢編碼器和鍵編碼器,兩者共享相同的架構。第1 層包含1 024 個節點,而第2 層則包含128 個節點。線性變換后的非線性激活函數采用了ReLU 函數,定義為ReLU(x)=max(0,x)。在訓練過程中,我們采用了Adam 優化器,并設置學習率為1,同時應用了余弦學習時間表。對配對神經網絡進行了200 個epoch 的訓練。在目標函數中,我們將溫度τ 設為0.2,并設置動量系數m 為0.999。超參數的確定通過網格搜索和交叉驗證的方式進行。

2.4 基于XGBoost 構建藥物敏感性預測模型

通過深度學習框架重構細胞系的低維特征后,將其用于XGBoost 模型訓練敏感性預測模型。XGBoost 算法是一種可擴展的用于樹提升集成學習算法,它將多棵決策樹的預測相結合,最后得出最終分數,即

其中,k 是樹的數量,fk是函數空間F 的一個函數,F 是所有可能的分類回歸樹的集合。目標函數為

對每步訓練目標函數二階泰勒展開,即

可得

則目標函數最優解為

這是衡量樹結構好壞的標準,值越小代表樹結構越好。通常不可能枚舉所有可能的樹結構,而是使用從單葉開始并迭代地向樹添加分支的貪婪算法。假設一個葉子分裂為兩個葉子,則它的得分增加為

如果增益小于γ,則不再將此葉子分裂。在本研究中,從[2,8]中選取深度,從9 個值(0.01 和0.05*[1,8])中選取學習率。通過10 倍交叉驗證(CV)最小化均方誤差來優化這些參數。所有其他參數設置為“XGboost”包中的默認值。

2.5 性能評估

為了綜合評估本框架的預測性能,基于相同的數據集,將本研究中的框架與其他常用的基于機器學習的癌癥藥物敏感性預測算法,包括邏輯回歸(Logisitc)、隨機森林(RF)、支持向量機(SVM)、DNN、Dr.VAE、GADRP 進行比較。通過比較不同方法在5 折交叉驗證中的藥物敏感性預測指標,包括曲線下劑量-反應面積(AUC)、準確率(ACC)、F1-score 等,來比較各模型的性能,以此評估本方法是否先進和穩健。

AUC 用于衡量二分類模型的性能,指正樣品的預測值大于負樣品的概率,也表示ROC 曲線下方的面積。ROC 曲線是以真陽性率(TPR)為縱軸、假陽性率(FPR)為橫軸所繪制的曲線,因此AUC 的取值范圍在0 到1 之間,越接近1 表示模型的性能越好,計算公式為

ACC 指分類模型的預測準確率,通過計算在總體樣本中被正確預測的樣本比例來衡量模型預測的準確程度。ACC 值越高,說明分類模型的性能越好,計算公式為

其中,TP 指模型預測為正例且實際也是正例,TN 指模型預測為負例且實際也是負例,FP 指模型預測為正例而實際是負例,FN 指模型預測為負例而實際是正例。

F1-score 是模型精確率(precision)和召回率(recall)的調和平均值,反映了分類模型對于正負樣本的分類能力。F1-score 值越大,說明模型的精確率和召回率越趨于平衡,計算公式為

3 結果分析

3.1 SSLGP 評估方法的準確性

圖2~4 分別給出了SSLGP 在5 倍交叉驗證獲得的預測準確度評估指數ACC、AUC 以及F1 得分,其在預測8 類藥物數據庫平均值分別為0.635、0.670 和0.647。圖2 展示了8 種抗癌藥物敏感性的ACC指數,其值范圍為0.500~0.700,其中在Sorafenib 中最高,Paclitaxel 最低。

圖2 SSLGP 在不同數據集上的ACC 得分

圖3 展示了8 種抗癌藥物敏感性的AUC 指數,這8 種藥物的AUC 得分集中在0.600~0.700,在AUC 指標評估上表現相似,并且Erlotinib,Nilotinib 和Sorafenib 中的AUC 得分普遍高于0.650,在Erlotinib 中AUC 得分最高達到0.731。

圖3 SSLGP 在不同數據集上的AUC 得分

圖4 展示了8 種抗癌藥物敏感性的F1 得分,這些藥物的F1 得分的中位數基本上分布在0.600 左右,其中在Sorafenib 中最高,在Paclitaxel 中最低,并且在Irinotecan、Paclitaxel 等數據集中有超出一半的F1 值高于中位數。結果表明,SSLGP 具有較好的準確性和穩健性。

圖4 SSLGP 在不同數據集上的F1 得分

3.2 方法比較

表1 給出了不同算法在8 個抗癌藥物數據集中5 折交叉驗證得到的平均AUC 值,AUC 是ROC 曲線下的面積,AUC 值越大,說明該模型分類能力越好。如表1 所示,SSLGP 取得AUC 在0.597(Irinotecan)和0.731(Nilotinib)之間,平均值為0.670。與其他方法相比,SSLGP 平均提高了5.18%的AUC 指數值。在其他方法中,Logistic 的AUC 指數值最低,平均為0.606,其他兩種傳統方法RF 和SVM的AUC 指數值平均為0.616 和0.624,均低于現有的深度學習方法。在三種用于比較的深度學習方法中,Dr.VAE 優于DNN,但低于GADRP。這三種深度學習方法均低于我們提出的SSLGP。實驗證明了本文方法的準確性以及穩健性。

表1 在8 個數據集上應用不同方法下的AUC 得分

4 結論

在以往的研究中,用于預測抗癌藥物敏感性方法的性能受到了樣本量的限制。為了解決這一問題,本文設計了一個基于自監督學習策略的深度學習的框架,通過構建正負樣本對擴增數據,從而更好地提取高維小樣本生物數據中的有效信息。與以往方法相比,SSLGP 方法在預后預測中表現出更好的性能,平均AUC 指數優于基線方法5.18%。

盡管該方法已經在預測藥物敏感性方面取得了一定的成果,但仍然存在許多問題需要進一步探討和解決。首先,現有研究已經發現藥物的有效性和藥物結構密切相關,而本研究沒有用到其相關的信息。如果能引入此類的信息,可以幫助模型實現跨藥物的敏感性預測。其次,本研究僅僅利用了相關細胞系的mRNA 表達數據,提供的有效信息優先。據過往研究,利用不同類型的多組學數據(如DNA 甲基化,拷貝數變異等)可以構建多元化的預測模型,較好地彌補其他高通量數據的不足,對于提升模型的預測精度具有一定的潛在作用。在未來的工作中,將考慮結合細胞系的不同組學特征,并引入藥物相關的化合物結構信息,并對深度神經網絡進行改良,從而進一步優化方法模型。

猜你喜歡
編碼器敏感性框架
框架
廣義框架的不相交性
基于FPGA的同步機軸角編碼器
釔對Mg-Zn-Y-Zr合金熱裂敏感性影響
WTO框架下
基于PRBS檢測的8B/IOB編碼器設計
AH70DB鋼焊接熱影響區組織及其冷裂敏感性
JESD204B接口協議中的8B10B編碼器設計
一種基于OpenStack的云應用開發框架
如何培養和提高新聞敏感性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合