?

論生物信息學研究進展及在蛋白質組學研究中的應用

2016-06-16 16:04李靜
課程教育研究·學法教法研究 2016年10期
關鍵詞:生物信息學研究進展應用

【摘要】生物信息學的快速發展使其成為生命科學發展的重要組成部分,是當今生物科學和自然科學的重大前沿領域之一,其研究重點主要體現在基因組學和蛋白質組學等方面。本文對生物信息學的產生背景、研究進展及在蛋白質組學研究中的應用等方面進行闡述。

【關鍵詞】生物信息學 研究進展 蛋白質組學 應用

【中圖分類號】Q51-33 【文獻標識碼】A 【文章編號】2095-3089(2016)10-0061-02

1.引言

生物信息學是在計算機科學、數學與生命科學等多門學科的基礎上發展形成的一門新興交叉學科。人類基因組計劃(HGP, human genome project)的圓滿完成極大地推動了生物信息學的發展,與此同時,多種模式生物如大腸桿菌、酵母、線蟲、擬南芥、水稻、玉米等的基因組計劃也都相繼完成。隨之而來的是包括DNA、RNA及蛋白質片段等在內的分子數據的爆炸性增長,這一切形成了生物學數據的海洋。我們需要從大量的生物數據中挖掘出為我們所用的知識和信息,由此催生了生物信息學這門學科的產生和發展。

生物信息學包含了生物信息的獲取、處理、儲存、分析和解釋等方面,集合數學、統計、計算機與生物醫學等工具研究,闡明大量生物學數據所包含的生物學意義。通過對生物信息的查詢、搜索、比較、分析,從中獲取基因編碼及調控、核酸和蛋白質結構功能及其相互關系等知識,從而探索生命的奧秘。

蛋白質組(proteome)的概念于1994年被提出[1],指全部基因表達的全部蛋白質及其存在方式,是一種細胞、組織或完整生物體在特定時空上所擁有的全套蛋白質[2]。蛋白質組具有復雜多變的特點,蛋白質的種類數量即使在同一生物體相同細胞中在不同時期和環境下也是不同的。蛋白質組學是研究蛋白質組及大范圍蛋白質的分離、分析、應用的學科。早期蛋白質組學的研究范圍主要指蛋白質的表達模式,如今,蛋白質翻譯后修飾研究已成為蛋白質組研究中的重要部分和巨大挑戰,蛋白質與蛋白質相互作用的研究也已被納入蛋白質組學的研究范疇。

2.生物信息學的發展

生物信息學的發展基礎是各種數據庫的建立和不斷完善。目前國際上有三個主要的關于蛋白質和核酸的公共數據庫,它們分別是美國國立生物技術信息中心(NCBI,http://www.ncbi.nlm.nib.gov)、歐洲生物信息學研究所(EBI,http://www.ebi.ac.uk)和日本信息生物學中心(CIB,http://www.ddbj.nig.ac.jp)。這三個重要數據庫隨著生物信息學的發展及時更新,為生物信息學的發展提供數據平臺。后基因組時代的到來引導人們研究重點向功能基因組的轉移。研究內容也擴展到生命現象的核心,即從基因、蛋白質研究生命的本質,理解功能、發育與疾病的關系[3]。計算機技術的進步,導致根據不同的科研需要構建相應的網絡資源平臺、生物分析軟件應運而生,為生物信息學的發展提供新技術支持。

3.生物信息學的研究內容

3.1 序列比對

序列比對是兩個或者兩個以上序列進行比較發現其間的相似性或者不相似性。生物信息大多通過自身的序列表現出來,人類由于生理條件限制,對龐雜數據的分析是有限的,需要借助于計算機的程序來進行序列間的比對,由此發現生物規律。例如,氨基酸序列的比對可以分析特定位置氨基酸的差異和整個序列中不同氨基酸的比例,統計氨基酸序列的突變率和替代率,比較序列之間的同源性和一致度。核酸序列(DNA和RNA)比對可以顯示序列間核苷酸的差異,估計進化距離[4]。氨基酸序列和核苷酸序列都可以進行基于計算機程序的序列比對,不僅有助于我們進行序列同源性的分析,還可以研究某一物種的進化。

序列比對是生物研究的基礎。對于不同的序列比對有不同的算法和模型,實際應用中應根據不同的研究目的進行選擇。兩兩序列比對已有較成熟的動態規劃算法,以及在此基礎上編寫而成的比對軟件包BLAST和FASTA。有時兩序列整體相似性不高,但是局部區域很相似。Smith-Waterman算法是解決局部比對的好算法。

3.2蛋白質分析及結構預測

生物大分子蛋白質是生命活動重要的物質基礎。蛋白質的生物信息學研究,主要集中在蛋白質的理化性質分析、序列分析、高級結構預測、蛋白質功能分析以及蛋白質與蛋白質之間的相互作用。蛋白質理化性質的分析主要包括等電點預測、疏水性和跨膜區分析以及二級結構(α螺旋、β折疊、無規卷曲等)預測,這些性質可以在瑞士生物信息研究所(http://www.expasy.ch/)的相關網站進行分析和預測。蛋白質的三級結構可以用X射線衍射技術、核磁共振技術、三維電鏡重構技術來進行測定,但是這些技術耗時長,代價高,并不能成為生物實驗室的常規研究手段。生物信息學的發展極大地提高了蛋白質的三維結構測定效率。從方法來看有演繹法和歸納法兩種。演繹法主要是從一些基本原理或假設出發來預測蛋白質的結構。后者主要是從觀察和總結已知結構的蛋白質結構規律來預測未知的蛋白質結構。同源建模屬于這一范疇。人們可以根據軟件進行預測,根據同源建模的原理,根據已通過實驗測定的蛋白質結構來預測未知的蛋白質結構。雖然經歷了漫長的時間和努力,蛋白質的結構預測現狀還仍然滿足不了如今的科研需要。生物信息技術的發展為實驗提供了簡單快速的研究方法,開創了新的研究道路,研究蛋白質與蛋白質相互作用也為新藥的研發、探明微生物的致病機理提供研究思路[5]。

3.3系統發育分析

系統發育分析是生物信息學的重要分支之一,它根據大量的分子數據,對不同基因或DNA片段分析發現它們之間的進化速率所存在的差異,利用這些差異來研究物種的形成或進化歷史,以及有機體之間的進化關系[6]。由于分子數據的獲取比生物化石的數據容易,而且計算機的強大功能為處理龐大數據提供了可能,因此隨著分子數據的大量積累,各國的研究人員都利用克隆分子片段,結合形態學分析對科、屬、種以及種內的物種進行鑒定,并進行系統發育的分析研究。但是,完全通過計算機來研究整個自然界中準確的物種進化是不現實的,構建的系統發育樹有時甚至存在嚴重錯誤,所做的也只是一個模擬,并不是絕對的真實情況。

4.生物信息學在蛋白質組學上的應用

4.1蛋白質的理化性質分析

從蛋白質的一級序列出發,預測蛋白質的許多理化性質,包括分子量、等電點、酶切特性、疏水性、電荷分布、穩定性等。相關工具有:1)Compute pI/MW(預測等電點和分子量)。對等電點pI的預測是根據早期研究中將蛋白質從中性到酸性變性條件下遷移過程所獲的PK值。但是該種預測對堿性蛋白有限制,計算出的等電點可能不準確。2)PeptideMass(分析酶切特性)。主要針對肽段圖譜的分析試驗,分析蛋白質在各種蛋白酶和化學試劑處理之后的內切產物。3)SAPS(分析蛋白質電荷分布)。蛋白質序列統計分析,對提交的序列給出大量全面的分析數據。最后給出高疏水性和跨膜區域、重復結構和多重態以及周期性分析。

4.2蛋白質的結構分析預測

蛋白質的結構分析包括二級結構分析和三維結構預測。蛋白質的二級結構是指α螺旋和β折疊等規則的蛋白質局部結構元件。一段氨基酸殘基根據其自身的理化性質具有形成不同二級結構元件的傾向和規律。也就是說,蛋白質二級結構的分析和預測就是找出這種傾向或規律。一般來說,二級結構預測中,α螺旋的預測效果相對較好,比較準確,而對β折疊的預測精準度要低很多。蛋白質三級結構預測是結構預測過程中最復雜、最困難的一步。雖然蛋白質三級結構是在一級結構及二級結構的基礎上進行折疊的,但是其折疊機制并沒有被研究透徹。一級氨基酸序列差異較大的蛋白質也能折疊形成相似的三維結構,例如,泛素和Sumo蛋白,兩者的氨基酸序列相似度很低,但是具有高度類似的三維結構。但是,蛋白質的折疊也不是沒有規律可循。生物信息學技術的發展使得一些預測蛋白質三級結構的方法越來越成熟。通過與已知結構的氨基酸序列比較,來預測未知蛋白的結構。常見的預測方法:SWISS-MODEL、CPH模型等。

4.3蛋白質功能分析

生物信息學的迅速發展不僅體現在對蛋白質數據的分析和預測方面,而且可以對蛋白質的功能進行較全面的分析和預測。蛋白質功能分析主要基于序列中含有的特征性結構域來識別蛋白質的相關功能。以未知蛋白為例,可以通過序列比對,分析其序列中的經典結構域或基序,然后在已知蛋白質的相關數據庫中進行結構域或基序的搜索,借此來確定未知蛋白的類型及功能預測[7]。

蛋白質調控著細胞內大部分的生理過程,而作為基因產物的蛋白質并不總是被表達翻譯出來,因為部分基因只有在特定生理環境和細胞周期階段才能表達,并合成蛋白質。而有些基因在人工模擬環境下是不能表達的,那么其蛋白質產物就無法被經典的實驗技術研究。但是,運用生物信息學技術可以對這類未知蛋白質進行計算分析和預測,從而獲得其生物學功能[8]。

參考文獻:

[1]Wilkins MR, Pasquali C, Appel RD, et al. From proteins to proteomes: large scale protein identification by twodimensional electrophoresis and amino acid analysis. Biotechnology(NY).1996 Jan;14(1):61-5.

[2]Gould KL, Ren L, Feoktistova AS, et al. Tandem affinity purification and identification of protein complex components. Methods. 2004 Jul; 33(3):239-44.

[3]喬納森.佩夫斯納,著,張之榮,譯. 生物信息學與功能基因組學[M].北京:化學工業出版社, 2006.

[4]Masatoshi Nei, Sudhir Kumar,呂寶忠,譯. 分子進化與系統發育[M]. 北京: 高等教育出版社, 2006.

[5]任仙文,李北平. 蛋白質相互作用的生物信息學研究進展[J]. 生物技術通訊, 2006, 17(6): 976-980.

[6]張樹波,賴劍煌. 分子系統發育分析的生物信息學方法[J]. 計算機科學, 2010, 37(8): 47-51.

[7]黃麗俊,王建華. 蛋白質組研究技術及進展[J]. 生物學通報, 2005(8): 4-6.

[8]Hagen JB. The origins of bioinformatics. Nat Rev Genet. 2000 Dec; 1(3):231-6.

作者簡介:

李靜,女,安徽醫科大學生命科學學院生物系教師。2013年于中國科學技術大學生命科學學院結構生物學專業博士畢業。主要研究領域是蛋白質結構生物學研究。

猜你喜歡
生物信息學研究進展應用
MiRNA-145在消化系統惡性腫瘤中的研究進展
離子束拋光研究進展
獨腳金的研究進展
“PBL+E—learning”教學模式探索
移動教學在生物信息學課程改革中的應用
EGFR核轉位與DNA損傷修復研究進展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合