?

基于多目標優化的進化算法研究

2016-06-29 21:00陳慧琴燕斌程濤李生
電腦知識與技術 2016年13期
關鍵詞:多目標優化

陳慧琴 燕斌 程濤 李生

摘要:自21世紀初,人類基因組序列圖譜公開發表后,生命科學的研究中心已經從基因組學(Genomics)轉變為蛋白質組學(Proteomics)。在生物信息學(Bioinformatics)領域,從蛋白質的一維氨基酸序列中預測蛋白質的三維結構及功能,已經成為該領域最重要、最活躍的課題之一。蛋白質結構與功能的研究已有相當長的歷史,由于其復雜性,對其結構與功能的預測不論是基礎理論還是方法方面難度均比較大。為了進一步提高蛋白質結構及功能的預測方法的可理解,揭示蛋白質結構與功能的深層次對應關系,從多目標優化角度,將該問題轉化為多目標問題求解,研究基于多目標優化的蛋白質結構及功能預測的智能算法。

關鍵詞:多目標優化;蛋白質結構及功能預測;進化算法

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)13-0171-02

1990年10月1日,美國國會正式批準并啟動了人類歷史上規模最大的科研工程“人類基因組計劃”(Human Genome Project)。2001年2月,人類基因組序列圖譜公開發表,這意味著后基因時代的到來,隨后生命科學(life science)的研究重心從基因組學(Genomics)轉變為蛋白質組學(Proteomics),及在大規模水平上研究蛋白質的特征,包括蛋白質的表達水平,翻譯后的修飾,蛋白與蛋白相互作用等。生物信息學(Bioinformatics)作為生命科學的一個重要科學分支,它是以計算機為工具對生物信息進行儲存、檢索和分析的科學。具體而言,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質編碼區的信息后進行蛋白質空間結構模擬和預測,然后依據特定蛋白質的功能進行必要的藥物設計。其中,從蛋白質的一維氨基酸序列中預測蛋白質的三維結構及功能,已經成為該領域最重要、最活躍的課題之一。

蛋白質結構及功能預測問題的研究,對揭示蛋白質的表達規律和生物功能提供新的輔助手段,對解釋遺傳病及傳染疾病的生理機制、制備高效安全的生物藥劑等復雜的現實應用問題亦具有很高的理論價值和指導意義。如果弄清楚蛋白質的一級結構是如何決定其三級結構這個基本問題,將會使人們更系統和完整地理解具有生物活性蛋白質的傳遞全過程,使中心法則[2]得到更加完整的闡明,從而對生命過程中的各個現象有進一步的深刻認識,最終推動生命科學的快速發展。

蛋白質結構復雜,種類千變萬化,雖然蛋白質結構及功能預測的研究已經取得了一定的成果,對于簡單的蛋白質預測已經達到較高的水平,但是在實際較復雜的蛋白質預測上的應用還有很大的一段距離。需要解決的關鍵技術以及面臨的困難還有很多,仍然有一些重要的理論和應用問題尚待解決。

為了進一步研究蛋白質結構及功能預測的研究,提高計算方法的有效性及可理解性,揭示蛋白質天然結構的生理機制,從多目標優化角度,同時結合進化算法,將其與多目標優化結合起來,研究基于多目標優化的進化算法,提高搜索效能從而為系統的研究蛋白質結構及功能提供了一定的理論基礎和實驗平臺。

1 蛋白質結構及功能預測的研究分析

1.1 蛋白質結構及功能預測的現狀分析

蛋白質結構復雜,種類千變萬化,雖然蛋白質結構及功能預測的研究已經取得了一定的成果,對于簡單的蛋白質預測已經達到較高的水平,但是在實際較復雜的蛋白質預測上的應用還有很大的一段距離。需要解決的關鍵技術以及面臨的困難還有很多,仍然有一些重要的理論和應用問題尚待解決。

1)理想的能量函數并不存在。根據C.B. Anfinsen的觀點,蛋白質的活性結構像對應于體系能量最小的狀態,在一定條件可以認為是能量最小的狀態。該函數是一個重要的評價函數,用以區分天然結構和錯誤結構。在實際應用中,蛋白質機構復雜,可變參數過多,理想的能量函數并不存在。目前用于蛋白質機構預測的能量函數,不論是統計意義上的還是物理意義上的,都是在一定條件下的擬合,正確程度并不高。同時考慮到模型的復雜性,能量函數多忽略溶劑、氫鍵、疏水性等因素這對正確預測蛋白質結構及功能帶來不利的影響。

2)二級機構預測準確度低。一般的預測方法,考慮到減少計算的復雜性,蛋白質的三級結構預測是根據二級結構的預測的結果、蛋白質的結構類型和折疊類型預測的結果以及空間結構的立體化學性質,搭建出最后的蛋白質空間結構。而二級結構預測基本是以總結已知蛋白質結構規律的基礎上而建立的,總體來說準確度不超過65%,這已經成為蛋白質結構及功能預測的一個較嚴重的制約條件。

3)構象空間巨大。典型的蛋白質含有幾百個氨基酸、上千個原子。所有可能的序列到空間結構的映射數目,隨氨基酸殘基個數而成指數級增長,即使使用簡化后的contact maps模型或torsion angles模型,也是一個天文數字。使用常規的搜索算法,計算量特別大,搜索效率低。目前許多隱藏在蛋白質序列里的信息未被發掘和充分利用,即使使用智能算法如遺傳算法、模擬退火、神經網絡算法等,也造成了實際應用受到一些制約,導致計算效率和魯棒性低下。

因此,要提高智能算法在解決蛋白質結構及功能預測問題時的效能,需要充分提高和創新智能算法在搜索機理上理論基礎,繼續挖掘隱含信息,構造和創建新的計算模型,開發出能解決實際應用問題的更加魯棒和有效的工具。

1.2 蛋白質結構預測方法分析

目前蛋白質結構預測方法可以分為三大類:1)基于知識的比較建模法。這一方法主要指同源結構預測,根據同源結構中保守的部分搭建出未知蛋白質的結構骨架,在20世紀90年代由Blundell等人提出。我國學者丁達夫在同源建模方面有過較深入的研究,開發過PMODELINE蛋白質建模系統。2)反向折疊法。原理基于把未知蛋白質的序列和已知的這種結構進行匹配,找出一種或幾種匹配最好的結構作為未知蛋白質的預測結構。1991年Bowie 使用一種稱為三維剖面(3D-Profile)的方法,根據側鏈的埋藏程度、極性原子覆蓋率進行打分匹配搜索,并取得了較好的結果。同時期的Jones則開發出了到目前為止仍有較高研究活力的線串法(threading),通過先建立折疊子數據庫,然后匹配搜索打分選取最合適的折疊結構。目前反向折疊法已經比較成熟,具有了一定的實際運用價值。3)從頭預測法。其目標是從蛋白質的一維結構序列直接預測三級結構,是最理想的方法。目前這個方法主要受兩方面的困擾。一是難以找到一個能嚴格區分蛋白質的天然構象和非天然的構象的能量函數,二是缺少一種有效的全局優化算法。目前在這種方法大類里,一種稱為片段組裝(fragment assembly)取得較大的成功,其原理是旋鑿已知蛋白質結構數據庫里的相似片段進行組裝。David Baker 研究組開發出基于貝葉斯打分函數的ROSETTA系統是這一方法的典型代表。目前,美國密西根大學的Yang Zhang教授開發出的I-TASSER (Iterative Threading ASSEmbly Refinement)方法代表著從頭預測方法的最高水平,其主要原理也是片段組裝,在片段選擇和組裝上有了重大改進。由此可見,在蛋白質結構預測方面,盡管當前的研究比較活躍,已經取得了令人矚目的成果,但是在面對實際蛋白質時,仍然顯得理論和方法的欠缺。不過隨著使用更高速的計算機、更有效的算法,解決這個問題是可能的。

1.3 蛋白質功能預測分析

蛋白質功能預測也是當今生物信息學的一個研究重點,是后基因時代最具挑戰性的問題之一。所預測的蛋白質功能主要指疏水性、基因調節、對生化反應的催化性。 最流行的方法是基于氨基酸序列, 因為序列是一個蛋白質最基本,最易獲得的信息。BLAST使用近似序列比對算法,通過測量目標序列和數據庫已知之間的相似之處發現同源關系預測功能。然而,一些研究表明,序列同源性并和功能不總是相關的。另外,直接根據結構預測功能也是一種方法,但是這種方法過于依賴結構預測,描述也過于復雜,常常作為一種輔助手段。近些年,在 high-throughput 生物技術領域,產生了大量的類似基因表達和蛋白質的相互作用的生物數據,這些數據作可以作為蛋白質功能預測的一個數據分析平臺,研究人員已經在這方面做了大量的研究工作。由此可見,蛋白質功能預測正逐漸形成一個科研熱點,由于蛋白質功能的復雜性以及預測方法的發展和變化,蛋白質功能預測的研究存在很多機遇和挑戰。一方面,其理論基礎還不夠完善,尤其是怎樣識別一個蛋白質功能還需要較多研究工作。另一方面,新的預測方法的效能還有待提高,特別如何實現不同算法模型之間的融合、協同計算問題。

2 多目標優化問題研究分析

多目標優化在具體問題上的應用研究也是當今學術界的一個研究方向和趨勢。多目標優化在實際問題上的應用,最早是被Knowles等人在處理如何將一個單目標問題轉換成多目標優化問題時被重新提出來的。一般認為,更多的目標函數數量意味著更困難的優化問題,但也意味著更有效的優化過程可以實現,目前多目標優化已經運用到很多應用領域。如旅行商問題、車間調度問題、裝箱問題、最短路徑和最小生成樹問題,并且取得了顯著的實驗結果。在生物信息學領域,多目標優化也有較多應用,Thomas 成功將其應用到基因調控網絡。在蛋白質結構及功能預測上,也有較多應用。Becerra 將之用于蛋白質的從頭預測問題。將多目標優化與進化計算結合起來,用兩個目標函數進行了蛋白質的三級結構預測。Olson 將多目標與隨機搜索算法結合起來,在平衡局部和全局搜索上做了改進,取得了較好的預測結果。盡管目前的多目標優化在具體問題上的研究已經取得巨大成功,并逐步發展成為研究熱點和技術前沿之一,將多目標優化應用到蛋白質結構及功能預測這個問題上,有研究價值和意義。

3結束語

綜上所述,目前基于多目標優化的蛋白質結構及功能預測的研究基本還處于前期探索階段,最終形成成熟的理論和實際應用,還需要更多具有創新性的基礎研究,以及大量細致的完善工作。在國內外對蛋白質結構及功能研究十分重視的背景下,適時啟動基于多目標優化的蛋白質結構及功能預測的研究是必要且迫切的。因此,通過本項目,將建立起面向各種類蛋白質的結構及功能預測平臺,為進一步系統地研究蛋白質結構及功能,揭示蛋白質折疊的生理機制,優化多目標計算模型,同時為生物技術、藥物設計等應用領域提供理論研究基礎。

參考文獻:

[1] Luscombe N M, Greenbaum D, Gerstein M. What is bioinformatics? An introduction and overview[J]. Yearbook of Medical Informatics, 2001(1): 83-99.

[2] Anfinsen CB ."Principles that govern the folding of protein chains[J]. Science, 1973, 181 (4096): 223-230.

[3] Becerra D, Sandoval A, Restrepo-Montoya D, et al. A parallel multi-objective ab initio approach for protein structure prediction[C]//Bioinformatics and Biomedicine (BIBM), 2010 IEEE International Conference on. IEEE, 2010: 137-141.

[4] Cutello V, Narzisi G, Nicosia G. A multi-objective evolutionary approach to the protein structure prediction problem[J]. Journal of The Royal Society Interface, 2006, 3(6): 139-151.

[5] Olson B, Shehu A. Multi-objective stochastic search for sampling local minima in the protein energy surface[C]//Proceedings of the International Conference on Bioinformatics, Computational Biology and Biomedical Informatics. ACM, 2013: 430.

猜你喜歡
多目標優化
改進的多目標啟發式粒子群算法及其在桁架結構設計中的應用
基于蟻群優化的多目標社區檢測算法
Q6兒童假人頸部有限元模型的建立與驗證
一種多目標混合進化算法的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合