?

染色體相互作用密度與拓撲域相關分析

2020-04-08 09:30許希倫
電腦知識與技術 2020年3期
關鍵詞:生物信息學相關性分析

許希倫

摘要:生物信息學是一門交叉科學,利用計算機方法來揭示大量復雜生物數據所包含的生物學意義。染色體相關結構域是染色體上相互作用密集的一種重要結構,但目前缺少相互作用與拓撲域相關性分析。針對此問題,使用計算機分析方法,設計了相互作用密度指標,可以較好地表示相互作用地聚集程度,并分析了相互作用密度和拓撲域的特點和相關性。

關鍵詞:生物信息學;染色體相互作用;染色體拓撲結構域;相互作用密度;相關性分析

中圖分類號:TP3-05 文獻標識碼:A

文章編號:1009-3044(2020)03-0011-02

1 概述

在過去,人們主要依賴顯微技術來研究染色體的空間組織模式。受顯微技術的限制,觀察的精度有限。隨著染色質構象捕獲技術的發展,可以通過Hi-C實驗[1]測序得到染色體在三維空間中相互接近的片段。通過對Hi-C數據的分析,可以得到染色體上兩個區域間的相互作用強度,并計算得到一種染色體結構——拓撲相關結構域,簡稱拓撲域[2-4]。拓撲域是染色體中重要的結構單元,它廣泛存在于多種物種間,是一種保守的結構。這種結構在同一生物的不同細胞系間十分穩定,具有很高的相似性。對拓撲域的研究將有助于我們了解染色體發揮功能的機制,同時也有助于揭露染色體結構相關疾病的發生原因,為治療相關疾病提供幫助[5-7]。

本文中我們將分析拓撲域與相互作用的性質,并提出相互作用密度的指標,來表示拓撲域中相互作用的密集程度。

2 實驗分析

本文中,我們將分析相互作用的性質,拓撲域的性質和相互作用密度與拓撲域的相關程度。我們使用兩種常用的細胞系IMR90(人胚肺成纖維細胞),并使用DI算法和ICFinder算法得到的拓撲域來進行分析。

為了構建染色體上的相互作用矩陣,我們首先將染色體按照40Kb的窗口大小分割成一個個等長且連續的區間,可依次記為B1,B2,…,Bn(假設分成n個區間)。之后根據Hi-C數據構建的相互作用矩陣定義為Mnxn其中第i行,第j列元素Mi,j表示區間Bi與Bj的相互作用強度。

2.1 相互作用分析

本小節我們比較了IMR90細胞中相互作用強度與距離的關系,其結果如圖1所示。其橫坐標表示位點之間的距離l,實線表示兩個位點在當前距離下相互作用的平均值,距離以40kb為一個單位。虛線表示其標準差。

可以看到,隨著兩個位點距離的增加,之間的相互作用強度下降明顯。并且其方差在不同距離下都較大,說明即使兩個位點距離相同,其相互作用強度也有很大差異。

由此我們可以得出結論,兩個位點之間的相互作用受距離影響明顯,隨著兩個位點距離變遠,其相互作用的強度會下降。

2.2 染色體拓撲域分析

在本節中,我們采用兩個經典DI算法[4]和ICFinder算法[5]得到的拓撲域,來探究拓撲域的性質。本節我們使用IMR90細胞系的1號染色體為例,使用兩種不同的算法,得到其拓撲域檢測結果,并進行對比。

表1統計了兩個檢測結果的信息,可以看到,兩個結果間的拓撲域平均大小均在20個單位。

2.3 相互作用密度與拓撲域分析

染色體拓撲域是染色體上相互作用密集的區域,也即在染色體上的兩個位置間的相互作用相較于域外或者跨域邊界這兩種情況,在拓撲域內其相互作用會明顯較大。為了讓不同距離的兩個位置間的相互作用具有可比性,并且考慮其全局信息,我們對每個相互作用的兩個位置的距離,根據前面介紹的平均值,對其轉換得到一個規范化的相互作用矩陣Ⅳ。

如果Ni,j大于1,說明這兩個位置間的相互作用大于全局的均值。根據規范化后的矩陣Ⅳ,我們提出了相互作用密度的概念。相互作用密度主要用于描述一個區域內部相互作用相較于全局的密集程度,值越大,說明其密集程度越大。

為了驗證其有效性,我們使用IMR90細胞系的1號染色體,使用DI和ICFinder算法得到的拓撲域,我們統計了其結果的基本信息,如表2所示??梢钥吹?,拓撲域的密度均值大于1,且ICFinder拓撲域中密度大于1的拓撲域比例達到74%。

我們計算其拓撲域的相互作用密度的分布,得到的分布圖如圖2所示??梢钥吹?,其大部分拓撲域的密度均集中在大于1的部分。由此我們可以得出結論,我們所定義的相互作用密度可以有效地體現拓撲域內相互作用的密集程度,密度越大,表示其密集程度越高。

接下來我們繼續探究拓撲域長度對相互作用密度的影響,我們統計了兩個方法得到的拓撲域中,不同長度拓撲域的平均密度。其結果如圖3所示,隨著拓撲域長度的增大,其相互作用密度也隨之增大。由此可以得出結論,在拓撲域內,長間隔的兩個區間的相互作用強度較短間隔相比,其與全局平均水平差異更大。

3 結論

在本文中,我們分析了相互作用矩陣和已有算法檢測得到的拓撲域的特點,并基于我們的發現,提出了相互作用密度的指標,該指標考慮到了距離的因素,可用于描述染色體上相互作用的聚集程度。通過分析該指標與已有算法檢測得到的拓撲域的關系,我們發現該指標有以下特點:1)已有算法檢測的拓撲域其相互作用密度大部分均大于1;2)隨著拓撲域的增大,其相互作用密度也隨之增大。

參考文獻:

[1] Lieberman-Aiden E,Van Berkum N L,Williams L,et al.Comprehensive mapping of long-range interactions revealsfolding principles of the human genome[J]. science, 2009, 326(5950):289-293.

[2]張文力,高通量測序數據分析現狀與挑戰[J].集成技術,2012 (3):20-24.

[3]呂紅強,郝樂樂,劉源,等,基于生物信息學的Hi-C研究現狀與發展趨勢(三維基因組??寮J].遺傳,2019: 0-0.

[4] Dixon J R,Selvaraj S,Yue F,et al.Topological domains inmammalian genomes identified by analysis of chromatin inter-actions[J]. Nature, 2012, 485(7398):376.

[5] De Laat W. Duboule D.Topology of mammalian developmen-tal enhancers and their regulatory landscapes[J]. Nature. 2013.502(7472):499-506.

[6] Pombo A,Dillon N.Three-dimensional genome architecture:players and mechanisms[J]. Nature reviews Molecular cell biol-ogy, 2015, 16(4):245-257.

[7] Matharu N,Ahituv N.Minor loops in major folds: enhancerproruoter looping, chroruatin restructuring, and their associa-tion with transcriptional regulation and disease[J]. PLoS genet-ics, 2015, 11(12):e1005640.

[8] Haddad N,Vaillant C,Jost D.IC-Finder: inferring; robustlythe hierarchical organization of chromatin folding[J]. Nucleicacids research. 2017, 45(10):81.

猜你喜歡
生物信息學相關性分析
淺談醫學院校生物信息學專業青年教師規范培訓模式的建立
“PBL+E—learning”教學模式探索
移動教學在生物信息學課程改革中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合