?

基于不平衡數據集的蛋白質ATP結合位點集成預測

2016-11-09 23:04張金濤
數字技術與應用 2016年9期

張金濤

摘要:集成學習是一種新的機器學習范式,它通過訓練若干有差異的學習器,并將它們的預測結果進行合成,相對于單個學習器,集成學習算法可以顯著提高學習系統的泛化能力。因此對集成學習理論和算法的研究成為了機器學習領域的一個熱點?,F在,集成學習已經成功應用于航空航天、地震波分析、生物特征識別、醫療診斷等眾多領域。但集成學習技術還不成熟,對集成學習的研究還存在很大的進步空間。

關鍵詞:腺苷三磷酸 SFLA聚類算法 ELM的集成預測算法

中圖分類號:TP181 文獻標識碼:A 文章編號:1007-9416(2016)09-0092-02

腺苷三磷酸(Adenosine Triphosphate,ATP)是一種高能磷酸化合物,在預測蛋白質功能方面起著關鍵作用。針對傳統實驗的方法鑒別ATP與蛋白質的結合位點時存在耗時、耗力、耗資的缺陷,國內外學者均開始嘗試用生物信息學的方法預測ATP與蛋白質的結合位點[1]。2009年,Dr.G.P.S.Raghava的科研科研小組利用ATPint軟件程序包預測ATP與蛋白質的結合位點,預測總精度達75.25%,相關系數MCC值達到0.5。2011年,Ke Chen等人組成的科研小組利用ATPsite軟件程序包預測ATP與蛋白質的結合位點,預測總精度達86.13%,相關系數MCC值達到0.46。實際預測ATP和蛋白質結合位點時,結合位點(正類)的片段數量與非結合位點(負類)的片段數量相差懸殊,造成數據不平衡。為了減小數據不均衡對預測的影響,這里對負類樣本運用基于混合蛙跳的(Shuffled Frog Leaping Algorithm,SFLA)聚類算法進行欠采樣形成多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡訓練集。然后,基于字統計模型提取特征,并利用多樣性增量對所提取高維特征進行降維。最后,采用基于極端學習機(Extreme Learning Machine,ELM)的集成預測算法對蛋白質ATP結合位點進行預測[2]。

1 基于SFLA聚類算法的數據欠采樣

由于在蛋白質序列數據集中,與ATP結合的氨基酸位點遠遠少于非結合位點,因此需要對數據集進行平衡化處理,以使其不致影響后續分類的精度。處理不平衡數據集分類問題常用的主要有算法層面和數據層面兩種方法。本項目擬采用在數據層面處理不平衡數據,即首先采用基于SFLA聚類算法進行欠采樣,將原始數據集中的負類樣本聚類為多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡數據集。

假設原始數據集中包含N1個正類數據集A,N2個負類數據集B,算法步驟如下:

Step 1:在負類數據集B上,使用基于SFLA聚類算法對N2個負類數據進行聚類,聚類后各簇內的數據個數分別為,且,為聚類個數,[]為取整符號;

Step 2:計算各簇數據到各自聚類中心的距離,并按由小到大的順序排列;

Step 3:分別選取各簇中距離簇中心最近的個數據組成包含N3個負類數據的新負類數據集false;

Step 4:將新負類數據集false和正類數據集A組合,生成平衡數據集。

2 特征提取與降維

2.1 基于字統計模型的特征提取方法

字統計模型是通過在蛋白質序列中統計長度為k的氨基酸片段出現的頻率,以作為后續預測的特征信息。與傳統統計各氨基酸頻率特征的方法相比,此特征提取方法不僅統計了單個氨基酸出現的頻率,還統計了氨基酸片段出現的頻率,從而獲取了更為全面的蛋白質序列信息。對于由20種氨基酸組成的蛋白質序列S,主要特征提取步驟如下:

Step 1:由一個n維向量來表示k-字段在序列S中出現的次數,n是所有可能的k-字的總數。

Step 2:將k-字段在序列S中出現的頻率表示為向量

。

當時,該頻率向量則為20種氨基酸在序列中出現的頻率。

2.2 基于多樣性增量的特征降維

多樣性增量(Increment of diversity,ID)是基于多樣性量的一個生物數學概念,它反映了兩個樣本之間的生物相似性關系,ID值越小表示兩個樣本之間越相似。本文利用ID原理對所選高維特征進行降維,可以減少降維過程中丟失的信息,避免后續分類器過訓練的情況。

3 基于ELM的集成預測算法

分類器集成的主要思想是利用多個分類器來解決同一個問題,采用某種規則把學習結果進行組合,以期達到有效提高學習系統泛化能力的目的。生成差異性互補的分類器是提升預測性能的關鍵。目前,生成差異性及分類器的方法主要有訓練樣本的擾動、模型參數的設置、學習算法本身的差異等。Bagging(Bootstrap Aggregating)算法是一種基于訓練樣本分布擾動的分類器集成技術。算法每次從訓練樣本中隨機有放回地抽取與訓練集數目相等的樣本,訓練基分類器,重復T次后,就可以訓練出T個基分類器。本項目基分類擬采用ELM,通過Bagging算法實現對訓練樣本的擾動,從而產生具有差異性的基分類器,再進行基分類器的集成學習。

將原始數據集分成訓練集和測試集兩個子集,算法主要步驟如下:

Step 1:采用有放回抽樣從訓練集的樣本中選取k個樣本;

Step 2:采用提取的新的k個樣本對ELM基分類器進行訓練;

Step 3:重復Step 1和Step 2T次,得到T個ELM基分類器。

Step 4:將測試集輸入各基分類器,采用多數投票法融合各基分類器輸出結果。

4 預測結果評價

5 集成預測流程

整體預測流程如圖1所示。首先,對不平衡原始數據進行處理,采用SFLA聚類算法對負類樣本進行欠采樣,與正類樣本整合構成新的平衡數據集。然后,基于字統計模型提取特征構成特征向量,并利用多樣性增量原理對所提取高維特征進行降維。再次,用Bagging算法產生差異化訓練樣本訓練各ELM分類器,并采用多數投票法集成各分類器預測結果。最后,計算Ac、Sn、PPV、MCC四種指標,評價預測結果。

參考文獻

[1]周志華,唐偉.基于Bagging的選擇性聚類集成[J].2005,16(4):496-501.

[2]周志華,唐偉,吳建鑫.靜態灰度圖像中的人臉檢測方法綜述[J].計算機科學,2002Vo1.29:2-4.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合