?

基于特征選擇技術的蛋白質熱穩定性預測研究

2022-07-07 00:05羅仕艷金佳瑤
科技研究·理論版 2022年11期
關鍵詞:特征提取機器學習

羅仕艷 金佳瑤

摘要:本文研究蛋白質熱穩定性預測方法,該方法首先提取了氨基酸組成和g-gap二肽特征,然后利用ANOVA方法對特征進行了選擇,最后通過Weka軟件及其免費提供的LibSVM軟件包來實現SVM的功能,對蛋白質熱穩定性進行預測。實驗表明該方法具有較好預測性能。

關鍵詞:蛋白質熱穩定性;機器學習;特征提取

1 引言

蛋白質的熱穩定性是蛋白質生化和生物技術研究的重要方面,它與酶工程特別相關。具有良好熱穩定性的酶蛋白應用在工業生物催化的領域有著巨大的前途和發展,如治理水污染,清理堵塞管道,釀造食品,生物制藥等[1]?,F如今,計算機技術在生物信息學的領域的作用越來越不可取代。試想,如果我們能夠從蛋白質的結構本身出發去對蛋白質根據其熱穩定性進行分類,那么就可以借助計算機高速的運算能力顯著提高獲得耐熱蛋白質的幾率。由此可見,通過了解蛋白質的序列和結構所蘊含的信息而對蛋白質的熱穩定性進行分類具有重要的意義。

早在多年前,Perutz[2]等人在對細菌中的血紅蛋白等研究中就已經涉及了蛋白質熱穩定性的相關內容。從蛋白質耐熱特性的研究結果中了解到蛋白質的熱穩定性與其氨基酸序列,離子對數量和鹽橋相關。Ding[3]等人在研究中對比了一些耐熱和耐溫的蛋白質的二肽組成,充分地證實了蛋白質的二肽組成對其熱穩定性也存在著重大的影響。Pace[5]等人研究了四個不同的蛋白質突變體的疏水作用,發現疏水作用與蛋白質的結構形成和維持其穩定有著密切的關系[4]。

丁彥蕊等人[6]統計并且分析了16個家族中共32個蛋白質序列的各種氨基酸含量,并且系統地分析了氨基酸組成對蛋白質熱穩定性的影響。發現隨著蛋白質耐熱性的增強,氨基酸Ser和Cys含量明顯降低 , Arg、Ile、Pro的含量明顯升高。鄧明霞[7]等人測定了這些膠原蛋白的氨基酸組成和熱變性溫度,發現膠原蛋白發生熱變性時的溫度與堿性氨基酸、總極性氨基酸和帶電荷極性氨基酸的含量與呈正相關關系,而與亞氨基酸與非極性氨基酸的含量則呈現負相關的關系。

Zhang和Fang[8]還發現,蛋白質的二肽組成也蘊含著與蛋白質的熱穩定性相關的信息。Ding[9]等人使用了v-支持向量機的技術發現二肽組成和氨基酸組成都對蛋白質的熱穩定性有著重大的影響。

2 特征提取

(1)氨基酸組成

氨基酸組成表示各種氨基酸在蛋白質中的含量,氨基酸組成能最直觀地體現出蛋白質序列所包含的信息。

(2)g-gap二肽組成

g-gap二肽組成的特征提取方法,是計算某個長度為N的蛋白質序列片斷中k個間隔距離的殘基對在該序列中的組成比例。本方法中,k最大為5。然而,當k=0的時候,序列結尾會有1個氨基酸沒有其他氨基酸與之配對,這樣提取的殘基對數量為N-1;k=1時,有2個氨基酸沒有配對,那么提取出的殘基對數量為N-2;所以規律就是,當序列長度為N,間隔為k時,一共可以提取的殘基對數量為N-k-1。

3 特征選擇

對于一個蛋白質序列來說,我們可以從中提取到成百上千的特征,但是這些特征未必都對蛋白質的熱穩定性預測起到幫助。除此之外,大量的特征會導致計算機的運算時間過長,浪費計算機資源。所以最好的辦法就是通過特征選擇技術來選取一組對蛋白質的熱穩定性影響最大的特征,去掉冗余的參數。這樣得出的結果可靠性才有所保障。目前已經提出了一些特征選擇的方法,如主成分分析、遺傳算法和最小冗余最大關聯等。但是Ding[10]等人提出了一種方差分析(ANOVA)的方法。ANOVA方法能夠簡單有效地分析出對某一事物具有重大影響的因素,因具有多種優點而被廣泛使用。本文使用ANOVA方法對蛋白質的g-gap二肽組成進行特征選擇。

4 分類器

Weka是一款非商業化的機器學習和數據挖掘軟件。它在Java環境下運行,并且免費、開源。其主要開發者是來自新西蘭的懷卡托大學,至今已經經歷了20多年的發展和完善,其功能也已經非常強大和成熟。本文使用Weka免費提供的LibSVM軟件包來實現SVM的功能。

5.總結

本文實現了一個蛋白質熱穩定性預測方法,利用特征提取、特征選擇算法以及支持向量機方法對蛋白質根據其是否具有熱穩定性而分類。

參考文獻:

[1]李晗.現代生物化工中酶工程技術研究與應用[J].科技風,2020(06):132.

[2]Perutz M F, Raidt H. Stereochemical basis of heat stability in bacterial ferredoxins and in haemoglobin A2[J]. Nature, 1975, 255(5505): 256-259.

[3]Ding Y R, Cai Y J, Zhang G X, et al. The influence of dipeptide composition on protein thermostability[J]. FEBS Letters, 2004, 569(1-3): 284-288.

[4]王克夷.疏水作用和蛋白質[J].生命的化學,1999(05):37-39.

[5]Pace C N, Fu H, Fryar K L, et al. Contribution of Hydrophobic Interactions to Protein Stability[J]. Journal of Molecular Biology, 2011, 408(3): 514-528.

[6]丁彥蕊,蔡宇杰,烏云,須文波.氨基酸組成對蛋白質耐熱性的影響[J].生物技術,2004(04):47-50.

[7]鄧明霞,汪海波,楊玲,劉良忠,黃愛妮,張含俊.氨基酸組成及溶劑環境對淡水魚膠原蛋白熱穩定性能的影響[J].現代食品科技,2015,31(12):111-120.

[8]Zhang G Y, Fang B. Application of amino acid distribution along the sequence for discriminating mesophilic and thermophilic proteins[J]. Process Biochemistry, 2006, 41(8): 1792-1798.

[9]Ding Y R, Cai Y J, Sun J. Identifying the Mesophilic and Thermophilic Proteins from their Amino Acid Composition with v-Support Vector Machines [J]. Journal of Algorithms & Computational Technology, 2010, 4(3): 335-348.

[10] H. Ding, P. M. Feng, W. Chen, et al. Identification of bacteriophage virion proteins by the ANOVA feature selection and analysis[J]. Molecular BioSystems, 2014, 10(8):2229-2235.

項目基金:國家級大學生創新項目(202111488009);作者:羅仕艷,衢州學院數據科學與大數據技術本科學生。

猜你喜歡
特征提取機器學習
同步定位與建圖特征提取和匹配算法研究
基于MED—MOMEDA的風電齒輪箱復合故障特征提取研究
基于曲率局部二值模式的深度圖像手勢特征提取
一種針對特定無線電信號的識別方法
基于模糊K近鄰的語音情感識別
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合