?

基于貝葉斯網絡方法的基因表達譜數據研究

2022-03-29 00:35張燕胡剛
客聯 2022年1期
關鍵詞:貝葉斯網絡生物信息學基因

張燕 胡剛

摘 要:貝葉斯網絡方法將概率理論知識與圖論結合,其有圖形化表示、因果關系清晰以及不確定性推理等優點, 將貝葉斯網絡引入到高通量基因表達譜數據中并進行概率推理,從概率角度描述了各基因間的依賴關系,從而闡明了整個基因組之間的調控網絡。貝葉斯網絡模型本身具有強大的推理機制和解釋功能,通過測定DNA序列,分析基因表達譜數據,完成序列分析、結構預測及進化分析等,實現了貝葉斯網絡在生物信息學領域的應用。

關鍵詞:貝葉斯網絡;基因;生物信息學

一、引言

生物信息學是隨著人類基因組計劃的啟動而興起的一門新的交叉學科,主要涉及生物學、數學及計算機科學等。它的研究對象是分子生物學數據庫,通過使用多種學科理論及工具,對海量的原始序列數據進行收集、存儲、加工、處理、解釋和傳播并從中發現新的規律而獲取生物學新知識,進而揭示“基因組信息結構的復雜性及遺傳語言的根本規律”[1]。

隨著測序技術的發展,測序成本不斷降低,使得高通量測序逐漸成為生命科學研究的常規實驗。然而測序產生的高通量基因表達譜數據正以爆炸式的速度增長,研究者們試圖從對這些數據的分析中得到傳統生物學方法無法得到或難以得到的信息。隨著基因表達譜數據量的增大,生物計算對于運算速度、數據存儲、計算成本等方面的要求也越來越高。而貝葉斯網絡[2]解決了這一問題。貝葉斯網絡方法將概率理論知識與圖論結合,其有圖形化表示、因果關系清晰以及不確定性推理等優點,很好地滿足了這些要求。

高通量基因表達譜數據由于驚人的增長速度而形成的對存儲能力和計算能力超常規的增長要求,使得生物信息學領域區別于其他行業,對技術有更高要求,也使得越來越多的數學家、生物學家和計算機學家認識到準確處理生物信息的必要性和迫切性。

將貝葉斯網絡引入到高通量基因表達譜數據中并進行概率推理,從概率角度描述了各基因間的依賴關系,從而闡明了整個基因組之間的調控網絡。同時貝葉斯網絡模型本身具有強大的推理機制和解釋功能[3],通過測定DNA序列,分析基因表達譜數據,完成序列分析、結構預測及進化分析等,實現了貝葉斯網絡在生物信息學領域的應用。

基因表達譜數據是“天然”的大數據,計算分析的價值會超過測序本身,與貝葉斯網絡和大數據技術的結合是大勢所趨。作為國內測序巨頭,華大基因股份有限公司CEO尹燁說過,“基因測序為生物技術帶來的改變,為生命創造的價值,值得我們為之努力”。

二、國內外研究現狀分析

生物信息學概念的萌芽最早起源于1956年在美國田納西州蓋特林堡舉辦的“生物學中的信息理論研討會”上,該會議探討了生物學和信息理論研究的結合問題。1977年Sanger通過他發明的DNA序列快速測定法確定了第一個完整生物的DNA順序。隨著DNA序列數據的日益增長,如何有效地存儲加工分析利用日益增多的DNA序列數據成了迫切需要解決的問題。

近幾年,一系列數據庫的誕生和互聯網的推廣應用使得存儲大規模序列數據的物質條件基本成熟, 對于大規模數據的服務和利用也取得了實際經驗。隨著人類基因組計劃的順利進行,基因組研究的重心已經轉移到了功能基因組學, 而基因表達譜數據為此提供了最好的技術平臺,利用基因表達譜數據進行的表達水平檢測可自動、快速、高效地檢測成千上萬個基因的表達情況。通過檢測基因表達譜數據的表達水平, 可以進行腫瘤診斷、類型預測、基因調控網絡等研究。

隨著微陣列技術的發展和微陣列實驗數據的不斷積累,研究者們轉向通過對基因間相互關系的研究,重構基因調控網絡, 進一步找到是哪些基因的共同或相互作用導致了這一個基因的表達異常,從而探索疾病發生、發展的根源和機制。

迄今為止,研究基因網絡的模型很多,也有不同的分類方法:離散網絡模型(如Boolean network model)和連續網絡模型(如Corelation metric construction, CMC),確定型網絡模型和隨機網絡模型,定量網絡模型和定性網絡模型等[4]。

目前國外許多學者和研究結構都對貝葉斯網絡進行了深入的研究主要集中在以下幾個方面:基于貝葉斯網絡的推理;基于貝葉斯網絡的學習;基于貝葉斯網絡的應用;數據挖掘中貝葉斯網絡的建造。

目前,隨著高通量測序技術的快速發展,生物信息學進入組學時高通量基因表達譜數據海量生物數據的存儲和分析等問題亟待需要利用貝葉斯網絡來解決。

貝葉斯理論起源于Reverend Thomas Bayes 發表的論文“關于幾率性問題求解的評論”。20世紀50年代, 以Robbins為代表提出了將經驗貝葉斯方法和經典方法相結合, 這引起統計界的廣泛關注。1958年英國歷史最悠久的統計學雜志Biometrika又一次全文刊登了Bayes的論文。之后,Pearl等提出了貝葉斯網絡,并且將貝葉斯網絡應用到人工智能方面進行概率推理,在此基礎上并將貝葉斯網絡成功應用于專家系統等領域, 使得貝葉斯網絡成為不確定專家知識和推理的重要方法之一,這是十多年來在這些領域的一個研究熱點。近幾年,貝葉斯方法成為數據挖掘和機器學習、用戶智能交互、信息重獲、醫療診斷等的一個重要研究方向。

貝葉斯網絡的發展經歷了以下幾個階段:首先,建立了貝葉斯網絡的基礎理論知識體系和對不確定性推理的研究; 其次,研究了如何根據數據以及專家知識建立貝葉斯網絡的問題,并研究出許多經典的貝葉斯網絡學習算法; 最后,人們將許多領域的實際問題引入到貝葉斯網絡中。目前,貝葉斯網絡已經被廣泛地用于解決許多領域的大量實際問題中,并且取得了較好的效果。

三、結論

貝葉斯網絡模型本身具有強大的推理機制和解釋功能,通過測定DNA序列,分析基因表達譜數據,完成序列分析、結構預測及進化分析等,實現了貝葉斯網絡在生物信息學領域的應用。

參考文獻:

[1] 陳竺, 基因組科學與人類疾病 [M], 北京: 科學出版社, 2000.

[2] Gao Meihan, Cong Haibo, Li Chuancheng, et al. Comparison of Efficacy and Safety of Complementary and Alternative Therapies for scapulohumeral periarthritis: A protocol for Bayesian network meta-analysis[J]. Medicine, 100(18): 57--69, 2021.

[3] Chen Cheng, Chen Qiuwen, Li Gang, et al. A novel multi-source data fusion method based on Bayesian inference for accurate estimation of chlorophyll-a concentration over eutrophic lakes[J]. Environmental Modelling & Software, 141: 105--117, 2021.

[4] 王翼飛, 史定華, 生物信息學[M], 化學工業出版社, 260--262, 2006.

猜你喜歡
貝葉斯網絡生物信息學基因
修改基因吉兇未卜
基因事件
無人機數據鏈測試與評估研究
基于貝葉斯網絡的流域內水文事件豐枯遭遇研究
“PBL+E—learning”教學模式探索
移動教學在生物信息學課程改革中的應用
中醫大數據下生物信息學的發展及教育模式淺析
基于興趣預測和熱點分析的聯合推薦算法研究 
基因
基于貝葉斯網絡的城市居民出行方式研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合