?

淺談異構生物信息數據庫的整合

2016-04-11 05:42李晶
生物技術世界 2016年3期
關鍵詞:異構數據庫生物

李晶

(江蘇農牧科技職業學院 江蘇泰州 225300)

淺談異構生物信息數據庫的整合

李晶

(江蘇農牧科技職業學院 江蘇泰州 225300)

近年來世界范圍內展開了HGP即人類基因組計劃,由此出現了大量生物學數據,如蛋白質數據、RNA、DNA等,為了便于研究的展開,便于科學家進行數據查詢,這些數據需經過有效的處理與整合,然后納入到生物信息數據庫中。數據異構是生物數據分析與處理中需要解決的主要問題之一,文中將對生物信息資源利用面臨的問題進行探究,并對以XML為基礎的異構生物信息數據庫整合模式進行分析。

異構生物 信息數據庫 整合

生物信息學屬于生命科學,這一科學以計算機技術為基礎對有關生物學的數據信息進行存儲、分析與整合,通過對其中有效信息的提取,人們可以找出數據對應的生物學意義,這對人類的生存與發展是有著極為重要的意義的。異構數據是整合生物數據庫中面臨的主要難題之一,整合的主要目的是為了避免語法異構與語義異構出現沖突與差異,保證數據的統一,對這一問題的研究有著重要的現實意義。

1 生物信息資源利用面臨的問題

生物信息學在近年來取得了極大的發展,大量數據信息涌現,如何對數據進行篩選與管理是相關人員必須考慮的問題,生物學數據可分為多個種類,數據信息結構復雜,因此其檢索與存儲方式也各異,為了提高工作效率,促進生命科學研究的展開,應當對數據分析、數據處理、數據管理等技術予以創新。

具體來說,當前生物信息資源在利用中面臨的問題主要包括以下幾個方面,首先,數據庫類型較多,生物數據信息的多樣性決定了數據庫類型的復雜性,但是在數據整合儲存工作中缺少統一的標準與規范,因此如果要存儲或查詢不同類型的信息需要以不同的方式從不同的數據庫入手,程序較為繁瑣;其次,信息存儲格式也呈現出了多樣化的特征,如面向對象數據庫、關系數據庫、文本信息等,這對信息的管理與查詢也會造成一定的阻礙;再次,生物信息數據量相對較大,數據信息量會以幾何倍數遞增,如DNA序列數據庫中的DNA堿基數每隔十四個月數量增長一倍,因而數據信息處理整合難度大;最后,生物概念、生物性質等都存在著一定的復雜性,不同的數據蘊藏著不要的生物信息,每一生物信息都有自己的特征,為了保證信息數據可以被及時查詢出來,應當構建具有集成化特征的平臺,對信息資源予以整合。

2 以XML為基礎的異構生物信息數據庫整合模式

對數據庫進行整合是一項系統的工作,工作人員需要對不同數據庫進行分析,找到各數據庫間的內在聯系,在數據庫的基礎上構建立體化的數據整合平臺。近年來的應用與實踐的數據庫整合技術包括以Web service為基礎的集成系統、將GO作為核心的集成系統(BioDW)、以多Agent為基礎的整合系統(BioAgent)等,隨著研究的深入展開,XML技術也逐漸被應用到生物數據庫的整個工作中。

2.1 數據庫管理

生物數據庫在組織數據時常以某個對象或主題為核心,對核心的基本資料、文獻信息、注釋信息等進行全面的描述,數據處理呈現出了結構化的特征,在處理過程中數據會由關系模式轉換為XML模式,即對數據予以層次劃分處理,將其存儲到不同的字段,然后將數據對應的基本元素與根元素等信息予以記錄。

為了適應數據表格的多樣性,以XML為基礎的整合平臺還相應的改進了基本模型增加了其內部子節點的數量,并在表節點中嵌套了至少一個表節點,在XML文檔中根據邏輯關系將表安置在合適的層次中。如在血糖情況整理時,如果需要層加測量者,那么需在<Root>這一根目錄中增加<patient>節點。序列文件主要用于存儲序列數據,它以序列條目為基本單位,核苷酸堿基的注釋與排列順序就包含在其中,其序列開端為Locus(關鍵字),其余依次為Authortype(作者)、Keywords(關鍵詞)、Definition(說明)、Taxonomy(種屬來源)、Features(特性表)、Accession(接收號)以及堿基序列。整合系統中的數據庫為SQL Server 2008,其靈活性較強,索引、內部數據以及日志文件均可以操作系統文件的形式保存下來,其中用戶使用率較高的表與索引會被放置到設定好的磁盤上,這種方式能夠保證數據中荷載的平衡性。

2.2 格式轉換技術

XML格式轉換的方式較為簡便,格式轉換完成后數據資料的存儲與讀取工作都會變得相對簡便且其數據結構有較高的精確性。格式轉換主要包括兩個內容,一方面是與關系數據庫之間的格式轉換,其算法包括三個步驟,第一是將關系模式內存在的各表生成對應的復雜類型,第二將各個表中的字段在復雜類型中形成屬性與子元素的映射,主鍵映射的對象設為Key屬性,外鍵元素映射的對象設為keyref屬性,第三以主鍵與外鍵之間的關系為依據建立子元素;另一方面是與面向對象數據庫之間的格式轉換,針對各數據庫XML有獨特的訪問技術,在訪問中生成對應的XML格式的文件,然后將其予以存儲或分析面向對象數據庫中的信息向XML格式轉化以DTD為依據。

2.3 網絡資源連接

整合模式中的用戶界面為交互式的,用戶可在系統中查找網絡資源,預留程序接口可與系統外的服務程序進行對接。當鏈接完成后,用戶就可以對網絡中的數據庫進行訪問了,在鏈接時可以選用Cn3D4.3軟件,該軟件具有性能優良、價格低等優勢,能夠以蛋白質三維結構將信息展示出來;而系統中的分析工具則可以選擇FASTA、CULSTAL以及BLAST等。當前所使用的很多生物信息系統如Entrez等都具備信息查詢功能,用戶可以在序列庫里找到所需的資料,部分系統還允許用戶自己添加數據庫,如SRS等。

3 結語:

生物信息具有多樣性與復雜性,其數據庫的類型與結構繁多,為了提高數據利用的有效性,應當對數據庫進行整合,建立異構平臺,當前應用最多的技術為XML,在技術使用中需要注意對數據庫的管理、對格式的轉換以及對網絡中資源的應用??偟膩碚f,XML技術具有較高的靈活性,其操作較為簡便,優勢較多,值得被廣泛應用于異構生物數據庫的整合工作中。

[1]李美滿,許中華,劉柯.基于XML的異構生物信息數據庫整合技術研究[J].現代計算機(專業版),2013(02).

[2]李美滿,許中華,劉柯.生物信息學中數據庫的應用及整合[J].智能計算機與應用,2012(05).

[3]馬靜.生物信息異構數據庫集成研究[D].南京農業大學,2010.

G203

A

1674-2060(2016)03-0256-01

李晶(1980—),女,江蘇泰州人,本科學歷,江蘇農牧科技職業學院講師,研究方向計算機網絡。

本文是泰州市社會發展項目“生物信息技術對阿茲海默癥數據分析輔助研究”, 項目編號:TS035。

猜你喜歡
異構數據庫生物
生物多樣性
生物多樣性
試論同課異構之“同”與“異”
上上生物
第12話 完美生物
異構醇醚在超濃縮洗衣液中的應用探索
數據庫
overlay SDN實現異構兼容的關鍵技術
數據庫
LTE異構網技術與組網研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合