?

融合跨物種科學數據的性狀調控基因本體模型構建及應用

2024-03-12 14:32張丹丹趙瑞雪鮮國建熊赫
生物技術通報 2024年2期
關鍵詞:本體關聯實體

張丹丹 趙瑞雪,2 鮮國建,3 熊赫

(1.中國農業科學院農業信息研究所,北京 100081;2.國家新聞出版署農業融合出版知識挖掘與知識服務重點實驗室,北京 100081;3.農業農村部農業大數據重點實驗室,北京 100081)

在作物育種科學研究中,挖掘同時調控抗旱、抗病、抗蟲等多個優異性狀的多效基因,是獲得高產、優質作物新品種的關鍵。然而,基因和性狀之間關聯假設的產生,往往需要組織關聯分析多維度的科學數據。2018 年初,美國康奈爾大學玉米作物育種學家、美國科學院院士Edwards Buckler 教授提出了“育種4.0”的理念,強調生命科學、信息科學與育種科學的深度融合[1]。這一理念的提出,推動著作物育種科研范式,從以假設驅動的被動探索,向數據驅動的主動知識發現轉變。因此,基于多維度科學數據融合的領域知識表示模型,進而提出科學假設已經成為重要的研究方向。然而,領域科學數據的復雜性和異構性使得數據間的互操作性和數據集成極其困難,阻礙了學科新知識的發現。有研究表明關聯融合不同的科學數據集,可以有效提高知識的獲取效率和實現新學科知識的發現[2-3]。本體模型作為多源科學數據集關聯組織的關鍵框架體系,為后續多維度科學數據的融合和深層次學科知識挖掘奠定了重要的基礎。

近年來,國內外學者在生物科學領域開展了大量的本體模型構建與應用方面的研究。在本體模型數據組織方面,已有的本體模型多以某類科學數據為中心實體構建語義表示模型,用于語義搜索和知識問答。例如,基因本體(gene ontology,GO)是一個適用于多物種、對基因和蛋白質功能進行限定和描述的標準詞匯體系,對基因產物從功能、參與的生物途徑、細胞中的定位進行注釋,包括了基因的細胞組分、分子功能和生物學過程[4]?;蚪M和蛋白組注釋本體GoMiner(gene ontology miner),以有向無環圖和結構樹的形式,展示了基因本體結構框架中的基因注釋信息[5]。細胞周期本體(cell cycle ontology,CCO),是一個用于表示和集成分析細胞周期過程的應用本體,集成了與細胞周期調控相關的概念以應用于細胞周期研究中[6]。作物本體(crop nntology,CO)包含了作物的形態、生理、品質以及生物和非生物脅迫等性狀的相關信息,可以為任何給定的性狀提供結合地理和環境數據的表型數據[7-8]。植物本體(plant ontology,PO),采用RDF(resource description framework)數據模型來描述植物不同發育階段的器官、細胞等形態解剖結構[9]。在本體模型應用方面,英國洛桑研究所提出一種開放關聯的領域本體模型,最終形成了面向作物領域的知識圖譜KnetMiner(knowledge network miner),以支持基因調控網絡的知識查詢[10]。法國農業國際合作研究發展中心采用語義網技術,對來自多個專業數據庫的數百種數據集和相關領域本體進行關聯整合,以應用于基因組學、蛋白組學和表型組學相關知識的查詢[11]。Linked Life Data 關聯整合了含有基因、蛋白質、藥物、靶點多個類型的生物醫學實體,支持醫學領域知識更為全面地檢索[12]。隗玲等[13]提出基于“主語-謂語-賓語(subject -predicationobject,SPO)”三元組的生物醫學領域知識發現本體模型,可直觀地支持舊藥新用的知識發現。Luciano等[14]開發了轉化醫學本體(translational medicine nntology,TMO),利用語義Web 技術將化學、基因組和蛋白質組數據與疾病、治療和電子健康記錄集成在一起,用于探索致病機理,以更好地了解治療方案、療效和作用機制。Lam 等[15]提出了一種語義Web方法,通過使用資源描述框架來構建本體模型以整合各種神經科學數據,并基于該本體構建了知識圖譜,為神經科學家提供一個發現新知識的綜合平臺。

調研結果表明,現有的領域本體模型還存在以下的局限。一是,較少涉及多維度科學數據的融合,知識獲取效率低;二是,多應用于語義檢索和知識問答,缺少知識發現的語義關聯應用。本研究針對現有作物領域本體模型應用中,知識獲取效率低和優異多效基因發現困難的問題,提出一個性狀調控基因本體模型的構建方法;并基于功能基因挖掘的知識服務需求,詳細闡述性狀調控基因本體模型的應用功能,旨在為實現跨物種間科學數據的融合和多維度科學數據集的組織關聯奠定良好的基礎。

1 材料與方法

1.1 數據來源

本研究以PubMed 數據庫為文獻數據來源,同時還選取了其他8 個領域知識庫作為數據來源,包括Phytozome(4 個物種的基因組信息)、Ensemble(European molecular niology laboratory's European bioinformatics institute)(4 個物種的基因組信息)、RGAP(rice genome annotation project)(水稻基因組的注釋信息)、UniProt(universal protein resource)(4 個物種的蛋白注釋信息)、STRING(search tool for recurring instances of neighboring genes)(4 個物種的蛋白互作信息)、Pfam(protein family)(4 個物種的蛋白質家族信息)、KEGG(Kyoto encyclopedia of genes and genomes)(4 個物種的通路注釋信息)和GO(gene ontology)(4 個物種的通路注釋信息)。在此數據來源的基礎上,選取模式植物擬南芥和主糧作物水稻、玉米、小麥為所有實體及其相關屬性的科學數據采集對象。從生長發育指標、抗逆指標、抗病蟲指標和經濟指標等多個不同育種目標層面綜合考量后,選取了6 個關鍵詞作為“性狀”實體,包括株高(plant height)、抗旱(drought resistance)、抗鹽(salt resistance)、抗?。╠isease resistance)、抗蟲(insect resistance)和粒重(grain weight)。

1.2 方法

1.2.1 構建本體模型 本體模型描述了抽象層次上由實體及其他之間的關系建立而來的邏輯模型。本研究構建的性狀調控基因本體模型框架如圖1 所示,以性狀、基因和蛋白為中心實體,關聯融合基因水平、蛋白水平、富集通路水平與性狀水平4 種數據類型維度的科學數據,通過14 個對象屬性組織關聯了13 種實體,并且賦予了每種實體相關的數據屬性。最終,構建了涵蓋13 種實體、16 種數據屬性和14個對象屬性的性狀調控基因本體模型。

圖1 性狀調控基因本體模型框架Fig.1 Trait-regulated-genes ontology model framework

(1)定義實體的層次結構。實體用于描述具有相同屬性的一類概念的集合。以“性狀(trait)” “基因(gene)” “蛋白(protein)”為中心實體,以此延伸定義了另外10 種相關實體,包括根據蛋白功能描述縮寫定義的“基因符號(gene symbol)”實體,根據蛋白質結構定義的“蛋白家族(protein family)”和“結構域(domain)”實體,根據蛋白功能定義的“酶(enzyme)”和“亞細胞定位(subcellular localization)”實體,根據基因參與的代謝富集通路定義了“生物學過程(biological process)” “細胞組分(cellular component)” “分 子功能(molecular function)” “KEGG 通路(KEGG pathway)”和“信號通路(signal pathway)”實體。依據不同的科學數據類型維度,將實體分為基因水平、蛋白水平、富集通路水平和性狀水平4 個層次維度(表1),并對每類實體進行了科學的描述釋義和數據屬性的確定。

表1 性狀調控基因本體模型中實體的釋義Table 1 Description of entity classes in trait-regulated-genes ontology model

(2)定義實體的數據屬性。實體的數據屬性即實體自身所具有的特征,即如果一個實體具有某一屬性,則這個實體類型中的所有實體均有此種屬性。針對本體模型框架中的13 種實體,結合本體模型的應用需求,優先選擇了與其他實體類型關聯的數據屬性保留?;谝陨系臄祿傩院Y選原則,共定義了16 種數據屬性(表2)。例如,定義蛋白實體的數據屬性有“蛋白標識符(protein identity)”,作為蛋白實體中節點名稱的唯一標識符,便于用戶的關聯檢索;“首次被發現時間(date of creation)”,作為性狀調控基因發現結果驗證的文獻回溯依據;“功能描述(function description)”,用于描述蛋白的主要分子功能;此外,還為蛋白實體添加了相關的“物種(species)” “文獻編號(PubMed identity)” “影響表型描述(phenotype disruption)”數據屬性信息。

表2 性狀調控基因本體模型中實體數據屬性釋義Table 2 Description of data attributes in trait-regulated-genes ontology model

(3)定義實體的對象屬性。實體的對象屬性能夠揭示兩個實體之間的語義關系,是本體模型中進行邏輯推理的關鍵,決定領域知識圖譜的豐富程度和應用效果。根據本體模型應用場景的需求,最終定義了14 個對象屬性(表3)。下面僅以蛋白實體的對象屬性為例,闡述具體的定義過程。以基因、蛋白和性狀為中心實體,通過“與……有關(associates with)”對象屬性將性狀實體與蛋白實體進行鏈接,實現蛋白與性狀關聯關系的建立。通過“與……同源(homologous to)”對象屬性建立起兩個蛋白之間的關聯,作為本體模型中的關鍵對象屬性,也是實現跨物種間多維度科學數據融合的重要基礎。同時,通過“與……互作(interacts with)”建立起互作蛋白之間的關系。在此基礎上,通過“與……相對應(corresponding to)”構建起蛋白和基因間的關聯關系。通過“與……一致(identify with)”對象屬性建立蛋白和基因符號間的關聯關系,作為跨物種間基因功能知識發現的關鍵。

表3 性狀調控基因本體模型中對象屬性釋義和數據來源Table 3 Description of object attributes in trait-regulated-genes ontology model and data sources

1.2.2 構建知識圖譜 首先,以性狀(traits)描述關鍵詞分別為檢索詞,在Uniprot 數據庫中獲得蛋白ID 和所對應的相關文獻(源于PubMed)。并進一步人工校驗文獻與性狀間的關系,建立蛋白(ProteinID)-有關-性狀(traits)三元組。

在Uniport 數據庫中下載得到水稻、玉米、小麥和擬南芥4 個物種的蛋白質氨基酸序列,利用BLAST(序列相似度比對)工具獲取跨物種間的所有同源蛋白三元組[16-17],從中選取identity>=35%且E-value<10-20的同源蛋白[18-19]。并進一步篩選出蛋白-有關-性狀三元組中的已知性狀蛋白,建立起蛋白-同源-蛋白三元組。在Phytozome 和RGAP下載每個物種所對應的蛋白質氨基酸序列,利用BLAST(序列相似度比對)工具建立蛋白-對應-基因三元組。

在Uniport 中獲取所有蛋白實體有關的科學數據關聯信息,并選取domain、subcellular location、gene symbol 和signal pathway 作為實體類型,分別建立protein-has protein domain-domain、protein-located in-subcellular location、protein-identify with-gene symbol、protein-involves in-signal pathway 三元組。在STRING 數據庫中批量獲取互作蛋白相關的關聯數據,構建protein-interacts with-protein 三元組。在Pfam 數據庫中獲取蛋白家族相關的關聯數據,構建protein-belongs to-protein family 三元組。并獲取蛋白相應的屬性信息,特別添加蛋白首次被發現的時間。

在GO 數據庫中獲取molecular function、cellular component 和biological process 作為實體類型,分別建 立gene-performs-molecular function、gene-located in-cellular component、gene-involves in-biological process 三元組。在KEGG 數據庫中獲取enzyme、metabolic pathway 作為實體類型,分別建立gene-encodes the enzyme type-enzyme 和gene-involves in-metabolic pathway 三元組。并在Ensembl plants 中獲取基因相應的屬性信息。最終,將構建好的多類型三元組數據存儲到Neo4j 圖數據庫中。

2 結果

2.1 跨物種學科知識關聯檢索

基于以上的材料和方法,在性狀調控基因本體模型為模式層的知識圖譜中進行實驗。實驗結果表明,該圖譜不僅可支持跨物種間多維度科學數據關聯檢索,還能細致地展示檢索詞及與之相關的對象屬性和關聯實體,從而實現跨物種間學科知識的關聯發現,提高知識的獲取效率。如圖2-A 所示,以基因(LOC_Os01g40094)為檢索詞,不僅可以獲取到該基因在基因水平的知識,還可通過跨物種間基因的關聯,獲取到與之同源的擬南芥基因AT4G26080 在基因水平、蛋白水平和富集通路水平上不同科學數據維度的知識,進而實現水稻基因LOC_Os01g40094(檢索詞)相關知識的發現。同時,還可以展示實體的數據屬性信息。圖2-B 所示為蛋白P49597 的相關數據屬性信息,主要包括首次被發現時間、影響表型描述、功能描述以及蛋白標識符等。

圖2 性狀調控基因知識圖譜的層級知識結構Fig.2 Hierarchical knowledge structure of trait-regulated-genes knowledge graph

2.2 基因調控性狀的預測

基于性狀調控基因知識圖譜,提出了綜合3 種類型關聯路徑的基因調控性狀預測方法。其中path1是通過同源蛋白路徑將未知性狀基因與性狀關聯,path2 是通過基因層面其他共聯節點路徑將未知性狀基因與性狀關聯,path3 是通過蛋白層面其他共聯節點路徑將未知性狀基因與性狀關聯。其中,公式中的gene1 為未知性狀基因,protein1 為gene1 所對應的蛋白,protein2 為protein1 的同源蛋白,Trait 為已證實的protein2 的關聯性狀。

從以上3 種類型的關聯路徑對基因的調控性狀進行推理預測,由于A1 和A2 是多種類型的實體集合,所以path2 和path3 可以有多條關聯路徑,而且path1、path2 和path3 的路徑越多,gene1 與Trait 關聯的可能性越大。因此,定義當gene1 具有path1,并且同時具有至少一條path2 或者path3 中的關聯路徑時,即如果sum(path1)>0 and(sum(path2)>0 or sum(path3)>0),預測gene1 與Trait 產生關聯。

以小麥基因TraesCS4B02G060000 調控性狀的預測為例。圖3 是以基因(TraesCS4B02G060000)為檢索詞,下面僅以關聯檢索到的株高(plant height)性狀為例闡述具體的路徑關聯原理。文獻已證實圖3 中玉米基因Zm00001d017742[20]與株高性狀相關,在本研究所構建的性狀調控基因知識圖譜中,基于同源蛋白關聯路徑,即TraesCS4B02G060000 -[corresponding to]-A0A1D5XPT6-[homologous to]-A0A060D764 -[associates with]-plant height,建立起TraesCS4B02G060000與plant height之間的關聯。在此基礎上,在基因層面,通過TraesCS4B02G060000-[located in]-nucleus(GO:0005634)-[located in]-Zm00001d017742 -[corresponding to]-A0A060D764 -[associates with]-plant height 路 徑可實現TraesCS4B02G060000 與plant height 之 間的關聯。在蛋白層面,通過TraesCS4B02G060000-[corresponding to]-A0A1D5XPT6 -[belongs to]-GRF family-[belongs to]-A0A060D764 -[associates with]-plant height 路徑也可實現TraesCS-4B02G060000 與plant height 之間的關聯。由圖3 可知,在性狀plant height 節點和小麥基因TraesCS-4B02G060000 節點之間共有8 條路徑可達,每條路徑都為兩個節點之間關聯關系的建立提供了一條有效的數據支撐。

圖3 基因調控性狀的預測Fig.3 Prediction of gene-regulated-trait

2.3 優異多效基因的挖掘

基于性狀調控基因知識圖譜,利用上一結果中所提到的基因調控性狀預測方法,實現了優異多效基因的挖掘,包括已知的多效功能基因31 個和未知的多效功能基因26 個(附表1、附表2)。如圖4 所示為具有“drought resistance” “salt resistance”“grain weight” “plant height”組合性狀的多效基因TraesCS3D02G078500 的挖掘。文獻已證實圖4 中擬南芥基因AT3G10500 與抗旱性狀相關[21],水稻基因LOC_Os11g03370 與抗旱和抗鹽性狀相關[22],擬南芥基因AT5G39610 與抗鹽性狀相關[23],水稻基因LOC_Os04g38720 與粒重和株高性狀相關[24-25],根據多類型關聯路徑的基因調控性狀預測方法,圖中顯示小麥基因TraesCS3D02G078500 與性狀“drought resistance” “salt resistance” “grain weight”“plant height”之間除了可通過同源蛋白的路徑實現關聯,在基因層面和蛋白層面也分別均有多條路徑可建立關聯。推測小麥基因TraesCS3D02G078500 很可能是一個優異的多效基因,可能與抗旱、抗鹽、粒重和株高性狀相關。

圖4 多效基因TraesCS3D02G078500 的挖掘Fig.4 Mining of the elite pleiotropy gene TraesCS3D02G078500

2.4 跨物種基因功能的預測

基于性狀調控基因知識圖譜,利用關聯規則的知識挖掘方法,可實現跨物種基因功能的高效預測?;趂unction identified with 關聯推理規則,即

IF gene1-[corresponding to]-protein1-[identify with]-gene symbol S and

gene2-[corresponding to]-protein2-[identify with]-gene symbol S

Then gene1-[function identified with]-gene2

以小麥基因TraesCS2D02G261300 的功能預測為例,來闡述跨物種基因功能的預測。以小麥基因TraesCS2D02G261300 為檢索詞,如圖5 所示,在本研究構建的性狀調控基因知識圖譜中關聯檢索可知,擬南芥基因AT1G48520、水稻基因LOC_Os11g34210和玉米基因Zm00001d052622 在細胞組分、分子功能、生物學過程、代謝通路和酶等數據類型層面均有相關的功能注釋信息,且這些基因之間都有著共聯的實體節點。此外,小麥基因TraesCS2D02G261300 與以上的功能基因有著相同的基因符號GATB。結合學科知識關聯推理規則,根據所關聯到的基因功能注釋信息,可以對小麥基因TraesCS2D02G261300 進行基因功能的預測,為進一步的基因功能研究提供了科學的實驗指導。

圖5 跨物種基因功能預測Fig.5 Prediction of gene function across species

3 討論

現有的作物領域本體模型多應用于知識關聯檢索,優異多效基因的發現常常受到多維度科學數據整合的挑戰[8-9]。針對現有的困境,本研究構建了性狀調控基因本體模型。一方面,此模型通過同源蛋白對象屬性的建立,實現了跨物種間多維度科學數據的關聯融合,有效建立起了跨物種實體節點間的關聯關系,為跨物種間學科知識關聯檢索提供了關鍵的數據融合基礎。另一方面,此模型關聯整合了基因和性狀間多源異構的科學數據,可直觀展示多維度科學數據間的組織關聯,有效地建立起了一個基因與多個性狀間的隱含關聯關系,為優異多效基因的發現提供了重要的知識組織框架體系。以此模型為模式層的知識圖譜,可以實現已知功能多效基因和未知功能多效基因的挖掘,可實現跨物種間學科知識的關聯檢索。本研究較好地解決了優異多效基因發現困難與跨物種學科知識獲取效率低的問題。

本研究構建的性狀調控基因本體模型不僅可應用于跨物種間調控基因的關聯發現,也能應用于優異多效基因的挖掘。如以某個基因ID(LOC_Os01g40094)為檢索詞,可通過跨物種間同源基因的關聯,獲取到與之關聯的其他物種的已知功能基因(AT4G26080)在基因水平、蛋白水平和富集通路水平上不同科學數據維度的知識,進而實現基于多維度科學數據尋證分析的檢索詞(LOC_Os01g40094)相關層級知識發現結果。此外,面向目的性狀(抗旱、抗鹽、粒重和株高)多效基因挖掘的需求,通過多維度科學數據間的多路徑關聯,還可實現候選多效基因的有效挖掘。與現有的作物育種知識服務平臺相比,例如常用的水稻基因組變異及功能注釋平臺RiceVarMap(rice variation map)[26]、水稻表 觀組學 注釋平 臺eRice(rice epigenetic and epigenomic database)[27]、玉米多組學綜合數據平臺ZEAMAP[28]、小麥基因定位與基因組功能研究平臺WheatGmap(wheat gene mapping)[29]等,大多是基于單一物種的數據集成來解析性狀遺傳調控機制,無法為科研人員提供跨物種間的性狀調控基因關聯檢索。并且現有的作物領域本體模型多是應用于單一性狀的調控基因網絡知識查詢,無法為科研人員提供目的性狀的多效基因挖掘。例如,英國洛桑研究所提出一種開放關聯的領域本體模型,最終形成了面向作物領域的知識圖譜KnetMiner,以支持單一性狀調控基因相關知識的查詢[10]。因此,本研究所構建的性狀調控基因本體模型為跨物種間多維度科學數據的融合提供了良好的語義基礎,優異多效基因的發現為作物分子設計育種提供了重要的數據支撐。

本研究基于所構建的性狀調控基因本體模型,實現了跨物種學科知識的高效關聯檢索與優異多效基因的挖掘,為新功能基因的挖掘提供了新的思路。當然,受限于試驗數據的清洗效率,本研究構建的性狀調控基因本體模型所涵蓋的科學數據維度和對象屬性還需要進一步地補充。未來研究工作將進一步擴展科學數據的類型維度,更為細粒度地描述性狀和基因間的知識組織體系結構,不斷完善和優化性狀調控基因本體模型,以更好地應用于作物育種科學研究中。同時,面向作物育種深層次知識發現的場景需求,深入開展路徑關聯、規則推理和鏈路預測等相關知識挖掘方法的應用研究。

4 結論

本研究構建了涵蓋13 種實體、16 種數據屬性和14 個對象屬性的性狀調控基因本體模型,并在以此模型為本體層的性狀調控基因知識圖譜中進行實驗。融合模式植物擬南芥和主糧作物水稻、玉米與小麥多維度科學數據的性狀調控基因知識圖譜,實現了優異多效基因的挖掘,包括已知的多效功能基因31 個和未知的多效功能基因26 個。本研究所構建的性狀調控基因本體模型可應用于跨物種間學科知識高效獲取、優異多效基因挖掘和跨物種基因功能高效預測,為優異多效基因的挖掘和基因功能的預測提供了一條可實現的新方法路徑。

致謝:

特別感謝中國農業科學院作物科學研究所湯沙老師在數據來源方面的指導和幫助。

文章所有附表數據請到本刊官網下載(http://biotech.aiijournal.com/CN/1002-5464/home.shtml)。

猜你喜歡
本體關聯實體
Abstracts and Key Words
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
對姜夔自度曲音樂本體的現代解讀
前海自貿區:金融服務實體
“一帶一路”遞進,關聯民生更緊
奇趣搭配
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
智趣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合