?

基于一維序列的三維染色質相分離:驅動力、過程與功能

2020-04-02 02:52劉思睿權慧田昊周瑞楊立江高毅勤
物理化學學報 2020年1期
關鍵詞:染色質表觀草原

劉思睿,權慧,田昊,周瑞,楊立江,高毅勤,,*

1北京大學化學與分子工程學院,北京 100871

2北京大學生物醫學前沿創新中心(BIOPIC),北京 100871

1 引言

在生命有機體中,通常由DNA編碼RNA,RNA經過一定修飾和處理后再翻譯為蛋白質來行使細胞內的諸多功能。作為遺傳信息的載體,DNA承載著海量信息,以人類為例,其基因組堿基對數目高達30億對,且線性長度達到2 m。這樣長鏈的DNA被壓縮在幾十微米量級的細胞核中1,勢必經過高度復雜的折疊組裝,同時為了實現高效的動態檢索,這種折疊又勢必是有序的。過去人們對染色質在較小尺度的分層組裝結構已經有了較多認識。在真核生物中,DNA與蛋白質共同構成染色質,其中一類較為重要的蛋白質是組蛋白。DNA-組蛋白復合形成的核小體核心顆粒(nucleosome core particle,NCP)由雙鏈DNA沿組蛋白八聚體纏繞1.7圈構成,其DNA長度約為147 bp (base pair,堿基對)2,相鄰的NCP由長度范圍為20-60 bp的連接(linker)DNA相連,形成寬度約為10 nm的“beadson-a-string”纖維結構3,并在H1組蛋白的輔助下,可能進一步折疊形成30 nm纖維4。在較大尺度上,染色質由轉錄相對活躍、結構相對松散的常染色質和折疊緊密的異染色質兩種區域構成。間期染色質在核內空間非隨機地占據不同區域從而形成染色質域(chromosome territories,CTs),且其在核內的徑向分布在進化上具有一定保守性5。

近二十年來,伴隨著染色質構象捕獲技術的發展,尤其是近十年來以Hi-C6、ChIA-PET7為代表的基于二代測序的全基因組構象捕捉技術的提出,人們對千堿基(kb)、兆堿基(Mb)乃至數十兆堿基尺度下染色質高級結構的認識有了長足的進步,先后發現和驗證了全局結構區室6(compartment)、局域單元TAD8-10(topologically associated domain)、染色質環11(loop)等高級結構。在不同類型的樣本中,區室的翻轉廣泛存在,TAD則在組織間和進化中都相對保守12,13。

染色質高級結構在基因調控中起到重要作用,染色質結構在不同生命過程中如何受到調控而發生變化、并參與細胞功能的實現,一直以來受到人們的關注。多種因素與染色質結構的形成與調節相互關聯,例如:染色質高級結構與表觀遺傳性質存在關聯14,而以CTCF (CCCTC binding factor)為代表的結構蛋白在TAD邊界富集從而與染色質的結構聯系8,15,Bernardi等人發現GC含量等容區(isochore)的邊界與TAD邊界顯著重合16,因此與染色質結構緊密相關等。近年來“相分離”作為一種染色質結構形成的物理機制受到了廣泛關注,然而已有的相分離模型更多關注轉錄機器等蛋白復合物的結合對局域結構的影響,很少能體現DNA序列不均一性在其中的作用。序列不均一性作為最基本的性質之一,其在染色質結構形成中的作用,即不同細胞狀態中多變的染色質結構形成過程對序列依賴的程度和方式,亟待開展研究。

本文系統綜述了基于序列的染色質相分離模型的研究進展,著重介紹了在該模型框架下對不同生命過程、不同物種的分析與解釋,以及相分離可能的物理機制。

2 染色質模型研究進展

借助Hi-C等實驗數據構建染色質結構、理解其形成機制,是研究者們關心的一類重要問題。目前對不同物種的染色質建模工作已經取得了一些進展,如對酵母與果蠅的全染色質建??梢则炞C端粒與著絲粒的聚集及其對染色質的束縛效果2,17。酵母染色質的行為相對簡單,其長度較短且固定在紡錘極體上,由簡單物理定律就可以較好描述18,且可以通過高分子模擬重構出其間期的核區結構18,19。通過構建果蠅由表觀遺傳性質不同的區段構成的嵌段共聚高分子模型,可以較好地重復數個Mb尺度的Hi-C接觸模式,且能夠將TAD的形成與相圖上的多穩態區對應20。

染色質結構模型可以完全基于機器學習等計算工具與方法,重復結構的一部分特性,也可以通過建立物理模型,對其結構形成機理進行探究。應用細胞的表觀遺傳等特性可以一定程度上對結構性質進行預測,除了Filion等人借助蛋白結合等數據定義果蠅的主要染色質狀態21外,組蛋白修飾、染色質可及性、RNA-seq等多組學數據可以用于共同預測染色質的TAD內相互作用,且與啟動子、增強子序列元件的接觸有關22;有研究者認為TAD邊界與“核心”相互作用位點(chromatin interaction hubs)僅依賴組蛋白信息就可以進行預測23;去除CpG島后的低分辨率甲基化數據的長程相關性信息能夠較好預測區室A、B24。

三維結構模型的構建可以幫助人們理解染色質結構形成的物理機制。研究者可以用高分子模型模擬染色質結構,比較分形球等模型的優劣6,25。針對細菌擬核所提出的概念性的“智能高分子”模型認為該結構能夠使染色質對溫度、pH等外界條件的細微變化作出敏感的響應26。通過視神經細胞的染色質結構重建工作,人們對常染色質、常規異染色質和結構性異染色質三種不同類型區段間作用力進行了系統研究,發現異染色質可能是區室化的驅動力27。Di Pierro等人利用組蛋白修飾差異區域之間相互作用能不同的假設,基于最大熵原理建立的三維結構模型具有不同染色體間通用的勢函數28。Zhang等人對染色質結構的能量景觀與相圖進行了構建,研究了其液晶相態與手性變化,并認為染色質的構象形成過程可能由非平衡玻璃態的動態學與動力學控制29。這些模型探討了表觀遺傳等局域性質差異對染色質結構的影響、以及染色質的熱力學與動力學。

Hi-C接觸數據可以被直接用于建立符合接觸概率約束的染色質結構模型30。該方法通過計算不同序列距離下的平均接觸強度得到接觸強度與序列距離的一一對應,并假設序列距離與空間距離滿足立方冪次關系,由此可以得到建立空間距離與接觸強度之間的對應關系,并將任意兩個單元間的Hi-C接觸強度轉化為兩點間的空間距離約束。為了減少遠程數據噪音的影響,增強方法的魯棒性,該方法需要對遠程接觸強度進行粗?;幚?。應用這個方法構建的染色質結構模型能夠較好滿足約束,具有不打結的特性,且能夠較好地重現Hi-C接觸矩陣。將多種性質投影到該建模結構上,我們發現DNase超敏位點、RNA聚合酶(Pol II)結合位點等多種生物特性均在三維空間中聚集;區室A/B在三維空間中分離,且染色質環的尺寸與其聚集程度和在核內的分布有關,較大、較小的染色質環傾向于分別聚集;大尺寸的局域TAD結構更多位于區室B,更傾向于位于核膜一側,并與核膜結合核纖層關聯域有關??偟膩碇v,在這個模型中結構與表觀遺傳性質不同的區域均傾向于在空間內分別聚集。

由于染色質具有較高的核內體積占比,我們可以將染色質結構看作粗?;瘑卧奂w并用分子擁擠(molecular crowding)模型對它進行描述31,32。分子擁擠效應傳統上指有限體積內較高大分子濃度對體系自由能以及多種動力學性質的影響,狹義來說這些大分子應當是功能無關且可溶的33。對物種和相互作用都較為簡單的模型體系,其物理化學性質借助理論、體外實驗或模擬已經得到了較多研究34-37,主要表現為擴散的減慢、大分子較大的體積分數帶來的體積排阻(volume exclusion)效應、以及生化反應自由能和速率的改變18。值得注意的是,大分子濃度和物種數的變化對體系擁擠效應的影響都具有非線性特征38-41,而復雜體內環境使得實驗中惰性探針的選擇較為困難,因而目前對核內環境分子擁擠效應的實驗和模擬依然是較有挑戰性的問題。Bancaud等人42用惰性熒光探針對活體細胞的擴散行為進行探測,認為擁擠效應導致的動力學與分型模型一致,且異染色質與常染色質的分形結構不同。Kim等人用不同擁擠條件下的隨機環高分子的結構變化來模擬環境變化對染色質結構的影響,發現高分子的壓縮程度隨體積分數的變化存在極大值43;Wu等人的實驗與分子動力學模擬也表明細胞尺寸對染色質的大小和位置都起著重要作用44。Walter等人則認為染色質自身的分子擁擠特性不論對異染色質的形成或維持都不必要45,其在擁擠介質中的高分子性質更可能是導致不同區室出現的驅動力18。

染色質的“相分離”模型是近年來受到較多關注的一類生物物理模型。早期一些研究者利用高分子模型對多親分子與轉錄對染色質共定位的作用進行過討論,例如兩種基于高分子排空力(depletion force)的熵驅動模型均指出共轉錄可以導致共定位現象46,47;研究者認為包括轉錄因子、非編碼RNA等因子在內的多親性分子組裝體(multivalent molecule assembly)在其中可能起到了橋聯作用47-49。近年來對染色質相分離機制的討論更多基于一些實驗觀察。比較具有代表性的是對異染色質結構蛋白HP1與異染色質分相行為的研究:人類的HP1a蛋白具有可溶性,但其發生N端磷酸化或與DNA結合后會形成與水相分離的液滴50;果蠅的HP1a蛋白在體外實驗中表現出液-液分離,且在體內可以聚集形成液滴;異染色質區域的動力學與液體分相行為相似51。這些觀察促使人們提出異染色質的形成可能由液-液分相介導,最近的模擬工作也表明異染色質間相互作用可能對視神經細胞中染色質結構的形成起到重要作用27。另一類較具有代表性的工作關注了轉錄活躍區域的相分離,轉錄活躍區可以發生空間聚集,研究者認為多種轉錄因子的結合可能與染色質環等局域結構形成有關52,53。

人們提出的染色質相分離模型通常需要結合因子的輔助,根據結合因子作用的不同,可以將這些模型大致分為兩類54,一類是高分子-高分子相分離(polymer-polymer phase separation,PPPS),另一類是液-液相分離(liquid-liquid phase separation,LLPS)。第一類模型中,結合因子間不需要存在相互作用,它們與DNA的結合可以實現結合片段間的空間聚集,因而起到橋聯作用,與不同橋聯因子相互作用的區域之間可發生相分離??臻g限域作用與體積排空力更多被認為是這類模型的驅動力,如CTCF與黏連蛋白(cohesin)介導的環推擠模型55-57,僅由CTCF結合位點就可以建模重現較多Hi-C實驗結果56,57;轉錄因子YY1也被認為可能介導染色質調控網絡建立58。另一類模型LLPS通常要求結合因子的多親性,依賴于多親分子間、以及多親分子和染色質間的靜電吸引等相互作用。這些多親蛋白本身就可以發生聚集,且這種聚集常常與包含內稟無規區(intrinsically disordered region,IDR)的因子有關59,60。以OCT4-MED1體系為例52,OCT4轉錄因子在體外環境下不會自發形成液滴,但加入MED1的內稟無規區后可以自發形成大小在微米量級的OCT4-MED1-IDR液滴,其他多種轉錄因子也可以在MED1-IDR介導下形成液滴,進而將基因激活與相分離關聯。但需要注意的是,染色質的相分離未必僅僅由上述兩種簡單機制之一介導,如HP1既具有和H3K9me3組蛋白修飾區域特異性結合的能力,又能夠在體外環境下直接(在果蠅中)或與DNA結合后(在人類中)發生液-液相分離,其行為不能由上述任何單一模型完全描述。

先前人們提出的相分離模型均主要關注蛋白的結合能力或序列的表觀遺傳特性,較大程度忽略了DNA自身性質沿序列的差異分布,即序列本身作為“嵌段高分子”的性質對相分離過程的直接影響。已有的相分離模型可以幫助我們重建特定約束下的染色質結構或解釋特定細胞狀態下的染色質行為,而序列特性的引入則能夠在統一框架下理解不同過程中的染色質結構變化及其驅動力。

3 序列不均一性與基于序列的染色質性質差異

哺乳動物的基因組包含大量非編碼區,其序列具有多個層級的不均一分布的特性,而染色質組裝同樣是分層實現的。這種序列特征如何影響染色質三維結構是一個復雜且具有挑戰性的問題。DNA包含腺嘌呤(A,adenine)、胸腺嘧啶(T,thymine)、胞嘧啶(C,cytosine)、鳥嘌呤(G,guanine)四種堿基,其中A-T、C-G兩兩配對。前人根據GC堿基含量沿序列的不同,將其劃分為內部GC含量相對均一、區域間GC含量不同的等容區61,62。等容區邊界不僅與TAD存在對應,而且低GC含量區與核纖層關聯域有關16。這種不均一性可以被高頻短序列的出現放大,如對AT含量為60%和AT含量為40%的序列,雖然AT單堿基含量僅相差0.5倍,ATATA隨機出現的頻率可以相差6.6倍之多63。借助這些短序列的識別蛋白,原本微小的差異可以被放大而影響結構。GC含量漲落的基礎上,CpG二核苷酸沿序列的分布也具有不均一性,可以一維特異性聚集形成CpG島(CpG island,CGI),并與基因調控密切相關,例如位于基因啟動子(promoter)區域的CGI高甲基化與基因沉默關聯,并通過多梳蛋白復合物與轉錄因子的結合起到調控作用64。

與DNA序列組成的不均一性對應的是,DNA序列具有顯著的長程相關,且其自相關性在數十kb尺度上表現為冪次衰減,這一特征尺度恰好與基因和染色質環較為匹配11,65。冪次定律通常意味著尺寸不變性,其成因可能是多種多樣的66,如復制-變異模型(duplication-mutation)基于堿基隨機變異與復制/刪除隨時間的累積,可以得到長度分布服從冪次衰減的不同性質的序列區域,從進化的角度解釋DNA序列的冪次定律67;Azbel用Ising模型來理解DNA中核酸序列的可能關聯68-70。長程關聯性的另一個典型例子則是相變點附近的臨界現象,在臨界溫度附近漲落的關聯長度滿足冪次定律

式中ξ為關聯長度,Tc為臨界溫度,vc為所滿足的冪次。從而溫度越靠近相變點,結構越能夠表現出長程相關性。序列與結構中均存在的多層級特征和長程相關性暗示著對序列特性的研究可能是理解染色質結構形成機制的一個重要入口。1993年,Grosberg等人就曾提出DNA序列的長程相關性與其三維結構存在關聯71。

從CGI分布的不均一性出發,我們基于相鄰CGI距離分布與隨機分布的差異,將序列進一步劃分為具有高CGI密度的CGI森林區域和低CGI密度的CGI草原區域72。在隨機情形下,將DNA序列等效為時間序列,則CGI的出現是一個泊松過程,相鄰CGI的距離分布應當服從泊松過程的首達時分布

其中p(r)為相鄰距離為r時的概率密度,α為常數。以此為依據,將CGI的實際相鄰距離分布與該隨機分布比較,注意到二者主要有兩個標志性交點,在第一個交點前與第二個交點后實際分布密度均高于隨機。這說明實際序列的CGI分布相對隨機存在特異性聚集,從而第一個交點前的聚集對應CGI簇內相鄰距離,第二個交點后對應CGI簇間最近距離。因此我們選取第二個交點位置作為該序列的特征距離,根據相鄰CGI距離劃分出了CGI富集的森林與貧乏的草原區域。

基于DNA序列、甲基化、染色質三維結構、結構與轉錄因子結合、組蛋白占據與修飾和基因表達量等數據的整合分析72表明,CGI“森林”和CGI“草原”兩種區域的基因密度、功能、表達、表觀遺傳等特性均表現出不同(表1、圖1)。森林區域的基因密度、尤其是管家基因密度更高,平均表達水平也高于草原區域。二者的基因功能也表現出不同,草原區域雖然基因密度低,但位于該區域的管家基因相對森林區域特異性地富集染色質結構重塑、DNA損傷修復、p53通路、氧化壓力響應等功能,其中部分功能直接與染色質結構相關。與森林區域更高的基因密度和基因表達水平相對應,這些區域富集激活性表觀遺傳修飾,如H3K4me1、H3K4me3,同時它們的染色質更為可及,更容易結合與轉錄密切相關的Pol II蛋白;相比之下,草原區域不僅基因密度和表達水平較低,染色質也更不可及,相對更多包含結構性異染色質標記H3K9me3,甲基化的更強的周期性分布間接暗示草原區域的DNA纏繞更為規整。二者一定程度上分別構成了常染色質與異染色質的序列基礎。

4 不同生命過程中基于序列的分相-混相平衡

在發育與分化、乃至疾病與衰老過程中,由幾乎完全一致的基因組能夠得到不同的基因表達與表觀遺傳譜,因此理解基因組如何影響表觀遺傳,組織與細胞特異的基因表達如何在發育與分化中不斷建立并在衰老中改變等問題是十分重要的。CGI森林與草原區域的劃分為在統一框架下理解序列與不同生命過程中染色質結構變化的關系提供了支持,這兩種兆堿基尺度的元件在不同的細胞類型表現出不同程度的空間分離(圖2),“森林”和“草原”在發育、分化和衰老過程中逐漸分離,同時多尺度的森林-草原空間糾纏具有明顯細胞類型特異性,而且在分化中增強,從而輔助細胞身份的確立72。

表1 CGI森林與草原區域的性質差異Table 1 Differences between forest and prairie domains in sequential and epigenetic properties.

圖1 CGI森林與草原區域的性質截然不同。(a) CGI、基因、組蛋白修飾、Pol II結合位點和DNase超敏感區位點沿序列的分布;(b)森林與草原區域的基因表達水平;(c)二者的結構性質差異。圖1(b,c)改編自已發表工作72,出版商為Oxford University PressFig.1 Forest and prairie domains are distinct in properties.(a) IGV snapshot showing the distribution of CGI,housekeeping genes, histone marks, Pol II, and DHS distribution along the genome, (b) average gene expression levels in forest and prairie domains, (c) structural properties for forest and prairie domains.Fig.1b,c were adopted from published work72 with Oxford University Press as the original publisher.

CGI森林與草原區域在早期胚胎發育中整體上表現出系統性的空間分離,伴隨著區域內相互作用減少與長程相互作用建立,這與該過程中區室與TAD等高級結構的建立73-76對應。但是在兩個特殊的時間節點—合子基因組激活(zygotic gene activation,ZGA)和著床期(implantation),則表現出兩種性質序列區域的混合77。細胞的分化伴隨著異染色質的積累。早期胚胎與多能性細胞表觀遺傳序列差異較小,異染色質占比較低73,74,78,79。隨著分化進行,同種類型和不同類型區域間的遠程相互作用均增加,但同種類型的區域間相互作用增加更為明顯,該現象在低CGI密度的草原區域尤為顯著。對小鼠重編程樣本,隨著樣本分化程度提高,中遠程的區域間相互作用在多個尺度下均有明顯增加,且對低CGI密度區的同類型相互作用這一效應最為明顯。分化過程同時伴隨著區室B占比的增加,與異染色質累積78,79和抑制性組蛋白修飾覆蓋區域在分化中增加80,81的現象相對應。在小鼠神經發育中,區室B內部相互作用增加82,也與主要構成區室B的草原區域間相互作用的增加對應。在區域尺度上高、低CGI密度區進一步趨于空間分離,這一過程由非特異性相互作用驅動。伴隨著結構分相的加強,兩種區域的甲基化修飾等穩定表觀遺傳性質的差異也更為顯著,表觀遺傳性質的差異程度也可以作為結構變化的一個反映。

除區域尺度的森林-草原分離,分化過程還伴隨著多個尺度的森林-草原特異性混合,這種混相行為影響基因表達,能夠有效解釋組織特異性的調控機制72。在以40 kb為單元的較小尺度上,隨著分化程度的增加,森林與草原趨向于具有更強的混合,且基因三維局域環境的森林或草原占比影響表達,處于草原環境的基因平均表達水平更低。序列與局域環境特性相反的“逆轉區域”(處于低GC含量環境的高CGI密度的序列,或者相反)則特異性富集免疫與炎癥相關的基因,暗示這些基因能夠被更為靈活地調控,與它們的功能對應。這種調控能力根植于它們所處的序列位置,具有序列基礎。對組織類型特異的逆轉草原區域,即特異性地處于相對轉錄活躍的高CGI密度環境的草原,其基因功能與細胞類型有關,反映了局域環境對序列區域的特異性激活,是局域結構-功能關系的有效體現。在更大的尺度上,森林與草原區域在區室A/B的分配也與細胞類型相關,隨著分化進行,位于轉錄活躍的區室A的草原基因表達量升高最為顯著,且這部分基因與分化細胞的類型密切相關。由于草原區域的基因表達水平在不同細胞類型間的差異相對森林區域更大,草原區域的基因可能更具有在不同細胞類型中被特異性調控的潛力。

多種證據表明分相程度增強的趨勢在衰老過程中得以持續,與之相伴的是低GC含量區局域相互作用的丟失83,相對于區域間相互作用,低CGI密度區域的區域內相互作用進一步減少,結構性異染色質和H3K9me3抑制性修飾空間聚集83,84,草原相對森林更加分離。

圖2 不同細胞狀態的染色質分相情況。(a)早期胚胎或多能性樣本;(b)分化體細胞,其不同序列性質的區域既整體相互分離,又發生功能特異的混合;(c)衰老細胞,其草原區域間相互作用進一步增強;(d)增殖細胞,與普通細胞相比,森林-草原更為分相,且伴隨著隔間B的累積。本圖片改編自已發表工作72,出版商為Oxford University PressFig.2 A schematic picture of the forest-prairie phase separation in different cell types.(a) early embryonic or pluripotent cells, (b) differentiated somatic cells, in which regions with different sequential properties tend to segregate from each other although accompanied by tissue/cell specific mixing; (c) senescent cells, in which inter-prairie region interactions enhance compared to growing samples; (d) proliferating cells, which have more segregated chromatin structure than normal samples and have compartment B accumulated.This figure was adopted from published work72 with Oxford University Press as the original publisher.

對不斷增殖的樣本如肝臟與細胞系,它們的森林-草原區域間相互作用較弱、草原-草原間相互作用的提高在中長程尤為明顯,意味著更多同類型DNA長程相互作用的建立。同時,草原與森林區域分離也更明顯,而較大的森林-草原甲基化差異表明表觀遺傳的差異程度與序列差異在增殖樣本中較為一致。與衰老體系不同的是,增殖細胞的染色質結構近距離相互作用增強,暗示著其染色質結構表現出局域作用增強的趨勢。

實體瘤樣本與不斷增殖的細胞樣本的表觀遺傳特性相似,相對正常體細胞,二者均具有更強的甲基化序列差異。對實體瘤的染色質結構和可及性、DNA甲基化與組蛋白修飾數據的聯合分析表明,相比正常細胞,癌細胞的染色質中森林-草原分相程度提高,區室B增加,森林與草原區域的甲基化差異與表達量差異也在癌變過程中升高,這一點也暗示著分相程度的增強。癌變過程的相分離更為明顯,可能與該過程中組織特異性的減弱乃至消失相關。相應地衰老過程中細胞特異性得以維持,可能達到與組織類型有關的染色質結構的局域穩態,且由于衰老過程特異的異染色質聚集,亞穩態的形成可能阻止全局穩態的實現。對癌變過程染色質結構變化、構效關系與表觀遺傳的研究可能為我們理解和治療癌癥提供新的思路。

森林-草原序列區域在不同過程中既有區域間分相的不斷加強,又有細胞或組織類型特異的不同類型DNA序列的混合(圖2),產生這些變化的原因既包含熱力學驅動力,又有動力學的擾動?;趯θ旧|序列特征和三維結構的觀察,我們猜測在分化與衰老過程中熱力學穩定性增強,染色質結構逆轉較為困難,這是誘導重編程過程需要ATP輔助染色質重塑因子的幫助85-87的一個可能原因。而在有性生殖過程中,已分化的配子的染色質結構進行重組73,74,76,所產生的早期胚胎細胞的染色質回到CGI森林-草原表觀遺傳性質差異較小且結構上相對混合的狀態。對處于特定狀態的細胞,分相-混相行為的平衡對于染色質結構的穩定和細胞身份的維持有重要意義,影響相分離的物理因素可能影響染色質結構,進而與細胞的分化、疾病狀態等存在關聯。

5 相分離模型的可能驅動力與物理影響因素

5.1 相分離的可能驅動力

在不同的細胞類型中,CGI森林和草原區域表現出了程度不同但普遍存在的空間分離,相同序列距離下,不同類型區域間的相互作用幾乎總弱于同種類型區域間相互作用。這兩種高-低CGI密度區的空間相分離行為體現了常染色質-異染色質分相的序列基礎。已有的相分離模型更多基于對結合蛋白和表觀遺傳狀態的觀察,但實際上,CTCF與黏連蛋白對TAD的形成既非充分也非必要11,88,結合蛋白在TAD與區室消失又重建的有絲分裂過程中被大量剝離89-93,細胞衰老中的表觀遺傳重塑與染色質結構變化可能相對獨立84,這都表明結合蛋白與表觀遺傳因素對染色質結構形成與維持的影響需要被更為慎重地考慮。小到TAD、大到染色質域的保守性,都暗示著更加內在的結構決定因素。

CGI森林-草原序列的不同確實為其結構差異提供了基礎,森林與草原分別主要由type A與type B30兩種結構元件構成,且其邊界與TAD和區室邊界均顯著重合72,可見該序列劃分較好分隔了不同結構特征。由于DNA序列帶負電,而組蛋白帶正電,草原規整、高密度的組蛋白纏繞意味著區域內的電性能夠被更好地中和,因此我們推斷這些區域相對更為疏水,從而在合適的溫度與濃度下,草原區域傾向于發生相對森林區域的疏水分離。這種分段鑲嵌式的序列可能為染色質的形成提供基本的驅動力。除Hi-C實驗結果與分析外,熒光原位雜交(Fluorescence in situ hybridization,FISH)等其他染色質結構探測方法與體外實驗的結果也支持這一推測。如莊小威實驗室對轉錄活躍區、惰性區、多梳蛋白結合區三種染色質的FISH實驗表明14這三種染色質不僅三維結構不同,而且多梳蛋白抑制區空間上更傾向于排除周圍的活躍染色質,這一實驗雖然是從表觀特性的角度出發,其結果與草原序列和轉錄活躍的森林區域的結構差異和空間分離一致。草原序列相對森林的疏水分離與從蛋白角度觀察到的異染色質標志蛋白HP1α在體外環境下的液-液相分離一致50,51,也與近期對異染色質相分離的實驗觀察和基于異染色質表觀特征得到的分相更多由異染色質相互作用主導的模擬結果一致27。

除序列本身性質的差異,轉錄因子、RNA等的結合與協同作用可能對染色質結構的形成造成調控和擾動。結合因子對染色質結構可能具有不同的影響:廣譜的結合因子通過自加強的結合,預期會進一步加強森林-草原的結構差異,有利于二者分離,如HP1對草原區域的結合;另一方面,具有細胞/組織特異性的結合因子(如YY1)輔助細胞類型特異的調控網絡的建立,通過其結合將具有不同序列性質的區域聚集起來,參與森林-草原間細胞類型特異的相互作用。如與胚胎干細胞多能性密切相關的OCT4轉錄因子52,該轉錄因子在多個關鍵的多能性基因的超級增強子區域聚集,且可以與和它共定位的媒介子(mediator)在體外形成相分離的液滴,暗示著該細胞類型特異轉錄因子可能的結構調控作用。值得注意的是,媒介子不僅可以幫助OCT4發生液-液相分離,還可以幫助多種轉錄因子發生類液相沉積,并幫助維持細胞身份關鍵基因的表達52,94。該過程雖然可能較為動態,但細胞類型特異的轉錄相對穩定,依然可能輔助細胞類型特異的相互作用的建立。

除上述兩種相對穩定的相分離或沉積過程外,多種蛋白和RNA的復合物還可能發生類液相沉積,這種液滴常與轉錄有關,不僅尺寸較小,而且更為動態。實驗上發現RNA與轉錄因子共同介導轉錄活躍相從不活躍相的相分離53;外顯子和剪切事件更多的基因趨向于相互聚集82,同樣暗示了相似轉錄性質區域的聚集可能由RNA與轉錄因子介導。人為控制的RNA大量轉錄能夠影響染色質的局域結構,但這種影響非常動態,轉錄停止后可以迅速消失95,96。除RNA與轉錄因子,Pol II與染色質結構的形成也關系密切,65%的RNA聚合酶Pol II結合位點與染色質環形成有關,且部分Pol II位點傾向于聚集97,暗示著Pol II對轉錄活躍的局域相的動態形成可能的貢獻。與轉錄尺度相匹配地,核小體精度的micro-C技術可以探測更加精細的染色質結構98,99,從而將基因的動態調控與染色質局域結構變化關聯。該技術發現酵母染色質中存在比TAD更小的microTAD結構,而Pol II協助的轉錄對染色質結構的調控作用顯著體現在基因尺度100,佐證了Pol II結構調控的局域特性。從這個角度看,高CGI密度的森林區域與低CGI密度草原區域與轉錄復合物的非特異性結合能力差異可能使前者更多提供了具有激活性動態調控潛質的序列基礎,從而二者在平均結構行為上依然表現出穩定差異與相互分離。轉錄因子密度也可能影響TAD的形成101。除實驗觀察外,目前已經有一些高分子模型探討了轉錄因子及其它可能的多親分子對染色質空間相互作用的介導作用47-49,102。此外,管家基因有較小的基因調控網絡,傾向于自反饋97,103,而世系特異的基因更依賴于長程相互作用,傾向于形成更復雜的調控網絡103,104,也暗示了細胞特異性因子在結構調控中的作用。與之對應的是,micro-C實驗表明酵母的基因間相互作用更多發生在近程98,99,與其單細胞從而不具有細胞特異性的生物性質一致。

蛋白、RNA等分子與序列的結合往往與表觀遺傳修飾關聯,但不同的表觀遺傳修飾與染色質分相行為的耦合尺度可能存在差異。組蛋白的?;?、磷酸化、泛素化等修飾對染色質局部結構的動態調控有重要影響:組蛋白超乙?;赡芡ㄟ^增強電荷互斥造成高密度染色質的解聚而使染色質更為均一,并改變染色質的擁擠效應105;磷酸化修飾與有絲分裂及其中的結構變化密切相關106-108;泛素化修飾與轉錄密切相關109,和Pol II延展及轉錄延伸中的結構重建均有關聯110,體外實驗中111H2B的泛素化修飾不利于30 nm纖維的形成,且能夠提高其生化可及性,對纖維結構造成影響。目前對這些修飾的研究更多集中在核小體或數個核小體的空間尺度上,對體內更大尺度結構影響的探討相對較少。值得注意的是,乙?;揎椩谟薪z分裂中被大量擦除89,112,磷酸化修飾直接與細胞周期有關,而泛素化修飾與轉錄動態調控相關,這些修飾因而較為動態,更可能與空間、時間尺度較小的液-液相分離關聯。在細胞周期中組蛋白甲基化修飾則相對穩定89,DNA甲基化的平均行為相對其他修飾有更強的細胞身份特異性,因而更可能與發育、分化、衰老等過程中同種細胞類型內相對穩定的分相-混相行為關聯。

有絲分裂伴隨著TAD與區室結構的消失與重建113,114。在這個過程中,除少數“書簽蛋白”與一些表觀遺傳修飾得以保留外,HP1、多梳蛋白等大量結構蛋白從染色質剝離,?;揎棌男蛄猩喜脸?9,112。但是,重建的染色質不僅能夠重新結合這些蛋白和發生修飾,而且能夠維持相似的結構特征,如轉錄活躍區的相對靠近6,115,因此在這個過程中,序列和序列依賴的表觀遺傳修飾可能在一定程度上指導了染色質重建。隨著有絲分裂的不斷進行,染色質的結構調整以及表觀遺傳和轉錄因子等的剝離與重新發生或結合類似重復退火過程,使表觀遺傳特征逐漸趨于和序列特征一致,而表觀遺傳特征又能加強不同序列區的物理差異,從而有利于森林-草原區域的進一步分離,形成了正反饋。因此染色質相分離可能借助重復進行的有絲分裂實現和增強。

染色質的相分離過程由熱力學因素與動力學因素共同介導,是趨向基于序列差異的熱力學穩定態和轉錄因子、能量驅動的結構重整酶等生物分子提供的動力學微擾共同作用的結果。我們提出一維馬賽克序列在三維空間的相分離可能是染色質組裝和大規模沉默的一個潛在驅動力,這一驅動力與細胞類型特異的表觀遺傳修飾與轉錄因子共同塑造了不同細胞類型中的染色質結構。在更小的時空尺度上,動態的表觀遺傳修飾與RNA、TF、Pol II等結合因子可能共同調控染色質的局域相分離,而森林與草原區域的序列差異帶來了其動態調控潛力的差別,從而表現出平均行為的差異。

5.2 物理因素對結構的可能影響

對具有幾乎完全相同序列的不同器官,所處環境的區別可能與其不同的染色質分相能力有關。肝臟染色質的區域內相互作用更強,其草原-草原區域間相互作用在中長程上明顯較高,三維結構模型也表現出較強的森林-草原區域分離。此外,肝臟樣本染色質區域間具有較大的甲基化水平差異,且其甲基化自相關函數表現出相對其它體細胞樣本顯著更強的長程相關72,意味著其表觀遺傳特性更好地遵從序列差異。與肝臟形成對比的是,大腦皮質染色質結構較為松散,森林和草原兩相混雜。腦的森林-草原甲基化水平差異小,且甲基化自關聯衰減較其他體細胞更快116,結構和表觀遺傳特征都表明它是一個更為混相的體系。

我們注意到肝臟是人體溫度最高的器官117,而腦的溫度較低,二者結構的差異可能與森林-草原的疏水分相作為一個熵驅動過程、升溫有利于相分離加強有關。這些現象的因果關系值得進一步研究。從另一方面來看,肝臟具有增殖活性,可以多次分裂,而大多數神經細胞很難增殖,有絲分裂次數的差異也有可能帶來染色質結構,特別是相分離程度的差異。進一步來講,肝臟與腦中不同的森林-草原相互作用模式暗示著它們具有不同的基因調控機制。肝臟的森林、草原區域相對分離,其特異性基因可能在森林或草原序列上相對更為聚集,從而對不同序列性質的區域間的特異性相互作用需求更少;而腦的特異性基因調控可能更加需要部分特異性草原基因與森林的相互作用,建立森林-草原糾纏的調控網絡。小鼠中,大腦皮質的溫度低于脂肪組織與肝臟,肝臟溫度又高于脂肪118,這三種組織的溫度也與其染色質結構的相分離程度一致。除哺乳動物,水稻秧苗在低溫壓力下染色質結構變得更加松散119,也暗示著溫度與染色質結構的關聯。

人類、小鼠等物種明確的森林-草原區域劃分暗示著染色質具有較強的相分離趨勢,因而是溫度敏感的。對一些生命過程如疾病發生、胚胎發育,溫度的控制可能與這些過程的染色質結構變化存在關聯。在早期胚胎發育過程中,染色質結構從森林-草原相對混合的狀態趨于更強的相分離,但在ZGA與著床期出現特異混相,恰好與母體在受孕后的溫度升高與ZGA和著床期兩次特異性溫度降低的時間節點對應77。該現象對小鼠樣本與人類樣本均存在,可見溫度控制對二者的胚胎發育起到重要作用,也與相分離模型的預測一致。另外,神經退行性疾病患者的腦樣本中森林-草原的甲基化差異較普通腦細胞更小,甲基化自關聯衰減更快,人類阿爾茲海默癥與癡呆(Alzheimer’s disease and dementia)的發展和體溫降低有關120,121,暗示著這些疾病中染色質相分離及相分離溫度效應存在值得深入探討的關系。與之對應,癌變則伴隨著體溫的升高122,這與癌癥染色質結構趨于分相的觀察一致。另外,炎癥也伴隨著局部溫度的升高123,我們推測這可能與森林、草原區域中免疫基因的分別聚集有關。衰老過程伴隨著分相的加強,與之對應,低溫可能與嚙齒類、小鼠和人的壽命延長有關124-126。多個過程中染色質或表觀遺傳差異的變化均與其溫度變化對應,暗示了溫度對于染色質結構中相分離的影響,以及在生命功能的調節中的重要意義。

從染色質相分離模型的角度出發,不同物種的DNA序列差異程度和區域長度的分布等特征不同,從而可能具有不同的染色質分相能力,形成不同的三維結構,進而具有不同的溫度響應模式。相對于變溫動物,恒溫動物的序列不均一性更強127,其溫度區間窄且具有物種特異性128;爬行類的體溫區間則更寬129。按照相分離機制,較強的序列分布差異對應較窄的相變溫度區間,恒溫、變溫動物的體溫控制范圍與其序列差異可以較好對應。對比古老物種與現代物種的CpG密度分布,在早期演化過程中CpG密度逐漸降低,但其沿序列分布的差異較小,而較為后期的演化過程(如冷血動物與溫血動物的分離時)則更多表現為CpG沿序列的差異增大,相應地CpG平均密度的變化很小。之前的研究指出,CpG甲基化/去甲基化是導致CpG向TpA的演化的一個可能原因130。而二核苷酸傾向于空間分離的特性與隨機變異可能共同導致了不同物種中的基因組變化。不同物種的DNA序列可能影響其染色質組裝,這種序列-結構關系提供了更為豐富的關于進化的信息。

6 總結與展望

在染色質結構的形成與調控過程中,相分離機制起到的作用引起越來越多的關注?;谛蛄械南喾蛛x模型,將序列不均一性對染色質結構的影響納入考慮,通過對序列的有效劃分,可以得到基因、表觀遺傳和結構性質差異明顯的兩類區域,為TAD結構形成和染色質隔間化提供了序列基礎。

DNA序列的森林和草原區域對表觀遺傳區域的有效劃分使我們能夠建立DNA序列和染色質狀態之間的廣泛聯系,而染色質結構的序列依賴性為討論不同生物過程中染色質結構的演變提供了一致的討論框架和機制。在序列差異的熱力學因素與轉錄等動力學因素的共同驅動下,在早期胚胎發育、分化、衰老等過程中,一方面森林-草原區域的分相不斷加深,另一方面多個尺度下細胞類型特異的森林-草原間相互作用輔助細胞身份建立?;谠撃P?,一些物理因素可能對染色質結構造成影響,對相同的序列,不同溫度對應結構的不同相分離程度,溫度變化可能影響發育、分化等生命過程,溫度也與疾病等特殊狀態對應;對不同物種,序列特性本身影響染色質的分相模式,并可能與其溫度適應范圍與溫度響應能力有關。

一維序列與三維結構的形成與演化背后的物理和化學原理還需要進一步探索。從物理上理解不同細胞狀態和組織的基因調控網絡,有利于更高效和系統地尋找致病的關鍵因子,乃至尋找更好的治療方案。我們也希望從物理的視角理解不同物種的序列差異如何影響染色質組裝,序列的差異如何在演化過程中逐漸產生,演化路徑如何被物理性質所影響或驅動。為了達到這一系列目標,我們需要應用生物信息學和機器學習工具,系統、全面地分析已有實驗數據,充分利用統計物理學和多尺度分子模擬方法構建物理模型,并與實驗測量相結合。近年來,不同組織與細胞狀態的表觀遺傳數據快速增加,表觀遺傳與生物功能的聯系逐漸建立,為多組學數據的聯合分析提供了可能。單細胞數據的積累有助于理解染色質結構的細胞差異與組織差異之間尺度和行為上的聯系與區別。DNA Zoo131等項目對多物種結構、基因組等數據的系統搜集大大方便了跨物種的比較研究。粗?;P蛷腍i-C等實驗數據重構染色質結構可以實現染色質三維組織方式的可視化,有助于從原理上理解三維結構的形成,結合更高分辨率的ChIA-PET 數據與全基因組覆蓋的Hi-C數據,可能實現更高精度的結構重建。在更小尺度上,單核小體分辨率的micro-C等技術可以探測基因環、30 nm纖維等精細結構的形成,補充染色質折疊的重要環節;全原子模型分子動力學模擬與 NMR/2-D IR技術可以用于驗證相似DNA序列傾向于空間聚集的猜測。通過發展深度學習方法,借助深度卷積神經網絡(deep convolutional neural network)等方法優化自由能景觀,可能從不同分辨率重構染色質,可解釋的機器學習模型為理解一維信息影響結構和表達的方式以及貢獻程度提供了工具。生命過程雖然多種多樣且高度復雜,目前的分析暗示著它們之間存在密切的聯系,對這些過程的整體的理解不僅是我們的愿望,隨著各種數據的不斷積累也越來越可能成為現實。

猜你喜歡
染色質表觀草原
染色質開放性與動物胚胎發育關系的研究進展
講解《草原圖》
哺乳動物合子基因組激活過程中的染色質重塑
《當周大草原》
一生的草原
豚鼠卵母細胞體外成熟過程中生發泡染色質構型的變化
例析對高中表觀遺傳學的認識
植物染色質組蛋白H3變體的研究進展
可可托海的草原
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合