?

基于ceRNA網絡識別登革熱診斷標志物

2024-01-13 11:55鄭德華許達華畢小慢徐智洲陳荔旸魯健平李孔寧
生物信息學 2023年4期
關鍵詞:登革熱宿主樣本

鄭德華,許達華,畢小慢,曹 勐,徐智洲,陳荔旸,李 思,魯健平,李孔寧*

(1.海南醫學院 生物醫學信息與工程學院 熱帶轉化醫學教育部重點實驗室,???570099; 2.哈爾濱醫科大學 生物信息科學與技術學院,哈爾濱 150076)

登革熱,是登革病毒(Dengue virus, DENV)經蚊媒傳播引起的急性傳染病,被認為是最重要的蟲媒傳染病。全世界每年約有3.9億人感染登革熱,波及100多個國家,其中以菲律賓,越南,泰國,馬來西亞等東南亞國家和南美洲的巴西最為嚴重[1]。而我國發生登革熱爆發或流行及本地感染病例的地區有廣東,廣西,海南,浙江等,因此登革熱成為了危害大眾健康的傳染性疾病之一[2]。在目前的研究中,登革病毒的實驗室診斷方法存在著對設備要求高,操作繁瑣,診斷時間長,精度差等缺點。因此,從分子層面尋找準確高效的登革熱診斷標志物意義重大。

競爭性內源RNA(Competing endogenous RNA, ceRNA)網絡在復雜疾病的生物學功能中起著至關重要的作用。有研究表明,通過比較正常細胞和腎透明細胞癌細胞中的ceRNA網絡來檢測失調的ceRNA相互作用,可有助于研究腎透明細胞癌的發病機制和識別新的生物標志物[3]。此外,也有研究表明ceRNA網絡失衡以及分子之間的相互調控在骨關節炎中扮演著重要的角色。為骨關節炎的治療提供新的見解[4]。目前登革熱相關的失調ceRNA研究卻很少?;蛑委熓钱斍把芯考膊〉臒衢T,也是未來的疾病治療的趨勢之一,ceRNA的存在可能影響疾病的產生和發展,并能成為初次確診、預后評估的標準以及疾病治療的目標。

本研究基于ceRNA調控機制,結合登革熱表達數據,通過構建登革熱相關ceRNA失調網絡,對網絡進行模塊挖掘與富集分析,解析模塊性質,從而發現其相關的功能。探究登革熱對ceRNA調控作用的影響及其相關機制,為該疾病的診斷與治療提供指導。

1 材料和方法

1.1 材料的獲取與處理

1.1.1 表達譜數據的獲取和處理

基因表達芯片數據和登革熱外周血樣本數據從GEO數據庫下載,數據編號為GSE51808, GSE96656。通過標準化和離群樣本處理,選擇GSE51808中18例登革熱樣本、19例恢復期樣本、9例正常對照樣本以及GSE96656中31例登革熱樣本、9例正常對照樣本進行研究。

1.1.2 人類miRNA靶基因數據的獲取

StarBase數據庫是一個由高通量實驗數據CLIP-Seq和mRNA測序數據支持的miRNA靶標數據庫[5]。本文從 StarBase數據庫中得到了人類的miRNA-mRNA數據,其中包括了423 976條互作對,386個miRNA和13 802個mRNA。

1.1.3 人類免疫相關基因數據的獲取

Immport數據庫由四個組件組成:包括私有數據、共享數據、數據分析和資源。用于數據存檔,傳播,分析和重復使用[6]。從中下載2 498個人類相關的免疫基因。

1.1.4 登革熱相關病毒蛋白數據的獲取

HVPPI數據庫是一個綜合了人類宿主—病毒蛋白質互作關系的數據庫[7],能夠用于解析復雜疾病和病毒感染之間的關系。從其中下載了8 410條登革熱與人類宿主蛋白質之間的互作關系對,標準化后得到2 941個登革熱病毒蛋白基因。

1.1.5 蛋白質互作數據的獲取

STRING數據庫是一個蛋白質相互作用分析數據庫,可用于對目的蛋白質進行檢索,并繪制出相關蛋白質-蛋白質互作(Protein-Protein Interaction,PPI)的綜合網絡[8]。從其中下載了蛋白質網絡數據和注釋信息,結合HVPPI數據庫中登革熱病毒關聯的宿主蛋白進行分析。

1.2 實驗方法

1.2.1 差異表達分析

對獲得的登革熱疾病與健康組表達數據,使用R語言中的limma包進行差異表達分析,選取闕值為|logFC|>2,FDR<0.05。篩選出用于實驗的差異基因,并用pheatmap包繪制差異熱圖,ggplot2包繪制火山圖,以展示每個差異基因在樣本中的表達情況[9]。

1.2.2 ceRNA網絡的構建

對從StarBase(V2.0)數據庫下載的miRNA-mRNA互作數據預處理,經過去重及標準化后存入0/1矩陣進行超幾何計算,得到ceRNA關系對矩陣。篩選FDR<0.05并且共享miRNA數目大于等于3的ceRNA關系對,再與差異基因匹配,得到潛在ceRNA關系對。接著結合登革熱疾病樣本中的表達數據計算潛在ceRNA分子間的皮爾森相關系數并選取大于0.7以及FDR<0.05的互作對用于構建ceRNA網絡[10-11]。

1.2.3 失調ceRNA網絡可視化

將獲得的失調ceRNA互作關系對投入Cytoscape生成網絡。并依據網絡中基因的差異表達方向對網絡節點顏色進行繪制,接著使用Mcode方法進行模塊挖掘,并選定節點數大于10的模塊進行下一步分析。

1.2.4 富集分析

使用WebGestalt數據庫[12]對篩選出的差異表達基因以及網絡模塊進行富集分析。

1.2.5 ceRNA網絡模塊基因與登革熱病毒蛋白互作分析

將HVPPI中的登革熱相關宿主蛋白質映射至STRING數據庫的PPI網絡,聯合ceRNA網絡模塊中的基因,確定模塊基因與登革熱相關宿主蛋白的互作關系,并統計與各個模塊基因直接互作的人類宿主蛋白數量。

2 結 果

2.1 登革熱差異表達的基因篩選

對登革熱數據外周血芯片表達數據(GSE51805)中的15例登革熱樣本,28例健康樣本(包含19例恢復期樣本和9例正常對照樣本)進行差異表達分析,以|logFC|>2,FDR<0.05進行篩選,共識別出251個差異基因,包括175個上調基因和76個下調基因(見圖1a和1b)。接著對篩選出的差異表達基因使用WebGestalt數據庫進行富集分析,發現其主要富集在DNA復制,錯配修復以及細胞周期等生物學通路中(見圖1c)。

2.2 構建登革熱失調ceRNA網絡

基于miRNA靶基因數據庫及共表達分析識別登革熱相關失調ceRNA網絡,使用Cytoscape進行可視化(見圖2),網絡中紅色節點表示上調基因,藍色節點表示下調基因。其中共有179個節點,1 607條邊,上調的基因有143個,下調的基因有36個?;虮磉_上調相關的ceRNA網絡中共有143個節點,1 493條邊,表達下調相關的ceRNA網絡中共有36個節點,114條邊。

圖1 登革熱差異表達分析及富集分析Fig.1 Dengue fever differential expression analysis and enrichment analysis

圖2 登革熱相關ceRNA失調網絡Fig.2 Dengue-associated ceRNA dysregulation network

2.3 失調ceRNA網絡的模塊挖掘與富集分析

在Cytoscape中利用Mcode插件對網絡進行模塊挖掘,總共得到9個模塊,選出節點數目大于10的4個模塊(見表1)。細胞免疫和體液免疫是人體抵御病毒感染的重要途經。本文下載了免疫相關的基因集合,并對各模塊和免疫基因進行篩選,發現模塊2中的基因與免疫基因的重合數目最高,包括FABP5(Fatty acid binding protein 5), C19orf10(Myeloid derived growth factor), TNFRSF17(TNF Receptor superfamily member 17)等(見表1)。因此選擇模塊2展示及后續分析(見圖3a)。

通過WebGestalt網站對模塊2基因進行富集分析,結果主要聚集在有絲分裂細胞周期等功能(見圖3b),說明了登革病毒感染人體時會對細胞的活動產生影響,與細胞周期有密切聯系。

表1 登革熱失調ceRNA網絡模塊屬性Table 1 Attributes of dengue fever dysregulation ceRNA network module

圖3 登革熱失調ceRNA網絡模塊展示Fig.3 Exhibitiaon of dengue fever dysregulation ceRNA network module

2.4 ceRNA網絡模塊的外部數據驗證

利用GSE96656的登革熱外部數據對ceRNA網絡模塊表達進行驗證,通過秩和檢驗發現外部數據中ceRNA網絡模塊基因的表達模式與訓練數據集中基本保持一致(P<0.05)。其中KIF2C,CCNB1,DUSP5,PSAT1,RAD51,DEPDC1B,DTL,RACGAP1,GINS1,KIAA0101,OIP5,DONSON,DHFR,C19orf10,FABP5,CENPW基因在感染登革熱的血液樣本中表達顯著上調,表明這些基因具有潛在的登革熱診斷效能(見圖4a,4b)。聯合HVPPI和STRING數據庫分析發現ceRNA網絡模塊基因能夠通過PPI網絡與登革熱相關宿主基因直接互作,其中ANP32E互作的登革熱病毒相關宿主蛋白基因數量最多。結果表明登革熱病毒可能通過調控宿主蛋白基因的互作關系從而影響模塊基因的表達(見圖4c)。

圖4 模塊2基因在不同數據集中的表達模式及互作登革熱病毒基因的數量展示Fig. 4 Module 2 expression patterns of genes in different data sets and the number of interacting dengue virus genes

3 討 論

使用公共數據庫中的登革熱樣本外周血液數據,通過生物信息學分析,篩選出登革熱差異表達基因并進行功能富集分析,發現DNA復制,細胞周期等生物學通路在登革熱患者中顯著失調。人體細胞被病毒與細菌等成功入侵后,會引起機體免疫系統應答能力下降,從而導致免疫系統功能異常[13-15]。因此在構建的登革熱相關ceRNA網絡中篩選出與免疫基因存在交集的網絡模塊,并且模塊基因同時富集到與細胞周期相關的通路中。通過對網絡模塊的基因表達進行外部數據驗證,發現模塊中的大多數基因在不同的數據中表達趨勢相同,表明識別獲得的登革熱診斷標志物具有魯棒性。

已有研究表明,ceRNA網絡模塊中的差異基因在免疫調控,細胞周期等生物學過程中發揮著重要作用,并在癌癥和診斷和治療的研究中有所應用。如FABP5能通過參與細胞調節因子的產生維持T淋巴細胞的穩態[16]。青蒿琥酯(ART)可能通過抑制FABP5調節PI3K/AKT通路進而影響肝癌細胞的增殖和遷移,FABP5可能作為ART治療肝細胞癌的新靶點基因[17]。FABP5在腎透明細胞癌組織中呈現高表達,且與預后差相關,有望成為腎透明細胞癌藥物的重要治療靶點[18]。TNFRSF17在正常和惡性漿細胞的表面以及成熟B細胞上持續表達,并且在骨髓中長壽漿細胞的存活中起重要的作用,同時也是嵌合抗原受體T細胞免疫療法(CRT-T)的一個熱門靶點[19-20]。

KIF2C則是有絲分裂相關的重要驅動蛋白,并且是Wnt/β-catenin通路的直接靶點,是介導Wnt/β-catenin和mTORC1信號串擾的關鍵因子[21]。GINS1參與了低等真核生物[22]和人類的DNA復制過程[23]。GINS1也是肝細胞癌,肺腺癌,腎透明細胞癌的診斷和預后的生物標志物[24]。PSAT1基因沉默可以使非小細胞肺癌細胞周期調節蛋白cyclin D1降解,細胞分裂被阻滯于G0/G1期,最終抑制細胞增殖[25]。目前關于本研究中篩選出的差異基因和登革熱之間的關系還鮮有報道,通過HVPPI和STRING數據庫互作分析發現ceRNA網絡模塊基因能夠與登革熱相關宿主蛋白直接互作,并且表達模式在不同登革熱數據集中基本一致,說明其在登革熱疾病診斷中具有潛在價值。

4 結 論

本研究解析登革熱相關基因差異表達模式,并構建了登革熱失調ceRNA網絡,通過模塊挖掘識別與登革熱診斷關聯網絡模塊,為尋找登革熱診斷標志物提供了新思路。

猜你喜歡
登革熱宿主樣本
一類具變系數交錯擴散的登革熱模型
登革熱流行現狀及診療進展
用樣本估計總體復習點撥
病原體與自然宿主和人的生態關系
健康教育在登革熱患者中的應用效果觀察
龜鱉類不可能是新冠病毒的中間宿主
推動醫改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
表現為扁平苔蘚樣的慢性移植物抗宿主病一例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合