?

基于生物信息學的結節病診斷標志物的篩選及實驗驗證

2021-11-22 09:15潘彬張晉福王國棟余覓張維黃飛李小燕何杰孫建
國際呼吸雜志 2021年21期
關鍵詞:結節病差異基因外周血

潘彬 張晉福 王國棟 余覓 張維 黃飛 李小燕 何杰 孫建

1成都醫學院臨床醫學院第一附屬醫院呼吸與危重癥醫學科 610500;2牟平區中醫醫院病理科,煙臺 264100;3成都醫學院臨床醫學院第一附屬醫院病理科 610500

結節病是一種由免疫反應介導的系統性疾病,非干酪性壞死性肉芽腫是其主要病理特征,但目前尚不清楚具體發病原因[1]。結節病患者的發病年齡較為年輕,以20~40歲居多,主要累及肺部,可出現雙側肺門淋巴結腫大,肺部彌漫性浸潤改變等影像學特征[2-3]。曾有研究結果表明結節病是由環境、遺傳、感染等諸多因素共同作用而引起的異常免疫反應,但其發病機制可能與CD4+T 細胞的激活,趨化因子驅動活化的T 細胞向肺部聚集有關[4]。陳鳳芳等[5]研究表明固有免疫和適應性免疫系統都參與了結節病的發病過程,Ⅱ期結節病患者的血清中血管緊張素轉化酶、白細胞介素2 受體(interleukin-2R,IL-2R)及腫瘤壞死因子α 等免疫相關的炎癥因子相較于正常對照組均有升高。Miyata等[6]認為血清IL-2R 的濃度高低與經氣管鏡超聲引導針吸活檢術 (endobronchial ultrasound guided tranbronchial needle aspiration,EBUSTBNA)確診的結節病分期密切相關,但研究樣本量小,有待進一步確定。由于結節病所涉及到的免疫機制較多,且部分患者無典型的臨床表現,個體病程也長短不一[7];同時,臨床也缺乏可靠的分子診斷標志物,因此早期診斷出結節病變得十分困難,容易出現漏診及誤診的現象。

近年來,隨著生物信息分析學、轉錄組學、基因組學等多組學生物技術的發展,國內外已經建立了多個公共數據庫如GEO,ICGC,TCGA 等,數據庫中包含了疾病相關的臨床標本資料、基因芯片表達、基因突變等信息[8]。同時,R 軟件的開發為大數據的提取、分析和數據的具象化提供了開源的編程平臺,現已經廣泛運用于生物信息學分析[9]。本研究通過R 軟件分析GEO 數據庫中結節病相關的基因芯片數據,篩選結節病患者外周血與正常對照組外周血差異的核心基因,并加以實驗驗證,以期為結節病的診斷和治療尋找新的靶標。

1 資料與方法

1.1 數據下載 通過GEO 數據下載結節病患者外周血的表達譜數據。GSE18781 數據集[10]基于GPL570平臺,包括25例健康對照組外周血樣本和12例結節病患者外周血樣本;GSE34608 數據集[11]基于GPL6480平臺,包括18 例健康對照組外周血樣本和18例結節病患者外周血樣本。

1.2 數據預處理及差異基因的鑒定 采用R 軟件的affy包讀取GSE18781和GSE34608兩個數據集的原始數據,通過RMA 算法進行原始數據的校正和標準化處理。然后用Perl軟件將GPL570 和GPL6480平臺所對應的基因注釋文件將前兩個數據集中的探針矩陣進行注釋,接著使用SVA 包去除批次效應后,將兩個數據集進行合并。使用分位數-分位數圖(Q-Q 圖)展示去除批次效應后的效果,PCA 主成分分析圖展示樣本間校正效果。使用R 軟件中limma包進行合并數據集的差異基因分析,以校正后P值<0.05,|log2FC|>1 作為閾值。而差異基因的熱圖則通過pheatmap 包繪制。

1.3 GO 和KEGG 通路富集分析 GO 包括細胞組 分 (cellcomponents, CC ) 分 子 功 能(molecularfunction, MF )、 生 物 學 過 程(biologicalprocess,BP)共3個方面。京都基因和基因組百科全書(KEGG)富集分析是從分子水平上分析生物系統高層次功能,多個信號通路均涵蓋其中。為進一步分析差異基因的功能,對本研究中篩選出的差異基因采用R 軟件中的clusterprofile包進行GO 富集分析和KEGG 通路富集分析,若P<0.05則表明該富集分析結果有統計學意義。

1.4 診斷生物標志物的篩選 利用LASSOlogistic回歸和隨機森林兩種算法降維并篩選差異基因,兩種算法所篩選出的基因取交集,將交集的基因作為結節病的分子診斷標志物,通過ROC 曲線對其診斷效能進行評價。利用glmnet包完成LASSO-logistic回歸算法,使用10折交叉驗證來確定最小λ值,當λ最小時,所對應的基因即被篩選出來。隨機森林算法是機器學習的一種方法,本質是一種裝袋集成算法 (bagging),該算法采取bagging抽樣技術從原始訓練集中進行抽樣,然后對抽取樣本構建多個相互獨立的評估器,評估器會把每個差異基因作為一個變量,根據每個變量的權重生成一個變量重要性值 (variableimportance,VIMP),根據值的大小確定基因分辨結節病的重要性[12]。采用Random Forest包實施隨機森林算法設定閾值VIMP>0.01的基因被篩選出來。兩種算法篩選出的基因取交集。

1.5 診斷生物標志物的評估 ROC分析作為一種評價診斷準確度的常用方法,其特點是可把敏感度和特異度結合起來。本研究通過Medcalc軟件繪制出ROC曲線以評估篩選出的基因的診斷效能,進而確定結節病的生物標志物。

1.6 生信分析結果的實驗驗證

1.6.1 標本來源 選取成都醫學院第一附屬醫院2017年7月至2020年10月收治的肺結節病患者50例作為結節病組,50例肺結節病患者均無肺外結節,選取在同一時期進行體檢的50例健康志愿者作為對照組,2組一般臨床資料見表1。結節病組中肺結節病0期7例,Ⅰ期23例,Ⅱ期15例,Ⅲ期5例,將0期和Ⅰ期合并為A 組,將Ⅱ期與Ⅲ期合并為B 組,對照組為C 組。分別抽取3組人群的外周血2 ml,采樣后的靜脈血液離心后,取適量上清液置于-80 ℃冰箱保存,將所有患者的血清收集齊后一次性檢測。本研究通過本院倫理委員會審批 (2021CYFYIRB-BA-14-01),所有患者及其家屬均知情同意并簽署知情同意書。

表1 2組一般資料比較

1.6.2 觀察指標 采用雙抗體夾心酶聯免疫吸附測定 (enzyme-linked immunosorbent assay,ELISA)法檢測病例組及對照組血清SPOCK2 水平。試劑盒采用上海酶聯生物科技有限公司生產的,生產編號為TMl060212,并通過Medcalc軟件通過繪制ROC曲線對SPOCK2基因診斷肺結節病的效能進行驗證。

1.7 統計學分析 聯合使用R 軟件及Medcal軟件進行統計學分析。正態分布的計量資料數據以±s表示。多組比較采用單因素方差分析,兩兩比較采用Bonferroni法,P<0.05為差異有統計學意義。

2 結果

2.1 數據預處理及差異基因的鑒定 GSE18781和GSE34608 2組數據集基于表達矩陣數據去除批次間差異后的效果如Q-Q 圖所示 (圖1),其結果表明樣本分位數點的連線近似于一條直線,提示2組樣本之間的批次差異已經去除。2組數據集合并且標準化之后以主成分分析圖PCA 展現 (圖2),結果顯示2組數據集合并并標準化后樣本聚類更加顯著,表明樣本來源可靠。數據預處理后,R 軟件根據設定的閾值從合并的數據集中提取出了761個差異基因。差異基因的熱圖,見圖3。

圖1 GSE18781和GSE34608 2組數據集去除批次效應后的Q-Q 圖

圖2 PCA 聚類圖,紅色代表對照組血清樣本,綠色代表結節病組血清樣本

圖3 差異基因表達的熱圖

2.2 功能和通路富集分析 GO 分析的結果表明,差異基因顯著富集在T 細胞激活,淋巴細胞的激活,淋巴細胞的分化等生物學過程 (BP);細胞成分(CC)方面主要有免疫突觸、特異性顆粒、遠端軸突等;分子功能 (MF)方面主要有DNA 結合轉錄抑制因子的激活,GTP 酶的激活,核苷酸三磷酸調節器的激活等 (圖4)。依據KEGG 通路富集分析結果得知,差異基因主要富集于T 細胞受體通路,原發性免疫缺陷,NF-κB,m TOR 等信號通路(圖5)。

圖4 GO 富集通路

圖5 KEGG 通路富集圖

2.3 診斷生物標志物的選擇 當λ最小值為0.004時最優的模型構建成功,經LASSO-logistic回歸算法篩選出15個可作為結節病的診斷標志物 (圖6),它們分別為SPOCK2,ENGASE,SPOUT1,CLIC2,MAN1B1,HEMGN,P2RY14,PPDPF,CD274, CD8A, LRRN3, PEX6, BATF2,DOCK4,C1QA。隨機森林算法提示當隨機森林生成了200個不同的樹時,隨機森林構建的模型誤差最小(圖7A)。當樹的個數等于200,構建模型生成每個基因的變量重要性的值 (圖7B),結果顯示變量重要性值>0.01的基因有SPOCK2,DND1,SRRT。兩種算法取交集篩選出SPOCK2為最終的診斷生物標志物(圖8)。

圖6 LASSO 建模示意圖 A:回歸系數分布的剖面圖;B:采用10折交叉驗證選擇最小λ值

圖7 隨機森林圖 A:樹數為200個時模型的誤差;B:模型計算出的基因變量重要性值

圖8 LASSO 回歸模型和隨機森林算法篩選出的基因

2.4 SPOCK2作為診斷結節病生物標志物的評估合并的芯片數據集中顯示SPOCK2在對照組中表達量低于結節病組 (P<0.05),見圖9A,ROC曲 線 提 示 AUC=0.985 (95%CI:0.924 ~1.000),特異度=0.9,敏感度=1,見圖9B,說明SPOCK2有較強的識別結節病的能力。

圖9 A 為SPOCK2 在GSE18781 和GSE34608 合 并 數 據集中對照組和結節病組表達的差異;B為SPOCK2診斷結節病的ROC曲線

2.5 實驗驗證生物信息分析結果 ELISA 檢測顯示,肺結節病A 組外周血SPOCK2 濃度為(3.24±0.18)μg/L,肺結節病B 組外周血SPOCK2濃度為 (5.03±0.12)μg/L,均明顯低于健康對照組 (9.31±0.59)μg/L,差異有統計學意義(F=37.360,P<0.05),見圖10 A,肺結節病A 組患者血清SPOCK2蛋白濃度明顯低于B組(P<0.05)。對A 組肺結節病和B 組肺結節病分 別 繪 制ROC 曲 線 (A 組:AUC=0.836(95%CI:0.736~0.909)特異度=91.30%,敏感度=76.47%;B 組:AUC=0.681 (95%CI:0.567~0.780)特異度=79.55%,敏感度=55.56%),見圖10B,10C,說明SPOCK2蛋白濃度對0~Ⅰ期肺結節病有較強的識別能力。

圖10 A 肺結節病患者外周血中SPOCK2蛋白濃度測定結果,A 組為0-Ⅰ期,B組為Ⅱ~Ⅲ期,C組為對照組;10B為SPOCK2診斷0~Ⅰ期肺結節病的效能在臨床樣本中的驗證結果;10C為SPOCK2診斷Ⅱ~Ⅲ期肺結節病的效能在臨床樣本中的驗證結果。a P <0.05

3 討論

近年來,隨著臨床醫生對結節病認識的不斷提高以及檢查技術的不斷更新,結節病逐漸受到研究者的重視[13]。結節病是一種復雜的免疫性疾病,其發病率在不同人群間有著明顯差別,發病率較高的是非洲人群,主要受累器官為皮膚,而亞洲人群相對較低,但超過90%的結節病都會累及肺臟[14]。雖然部分肺結節病患者有一定的自愈趨勢,但中青年人發病居多,個體差異較大,10%~30%患者病程可能轉為慢性病程并出現肺功能進行性損害,終末期甚至可出現嚴重肺纖維化和呼吸衰竭[15-16]。結節病患者胸部CT 的典型表現為雙側肺門、縱隔淋巴結增大,密度均勻,邊界清晰,呈土豆樣;以及肺部浸潤并多呈現網格狀、結節狀或者片狀的陰影[17]。正電子發射斷層 positron emission tomography,PET)/X 線計算機斷層 (computer tomography,CT)組合系統可提示累及多器官的不典型結節病的病灶定位區域[18],但其價格昂貴;目前臨床主要借助影像學改變和超聲引導下經支氣管 鏡 針 吸 活 檢 術 (transbronchial needle aspiration,TBNA)后的病理組織檢查診斷肺結節病[19];但肺結節病的影像學改變也缺乏特異性,不典型的肺結節病與其他肺間質性肺疾病鑒別難度較大,而EBUS-TBNA 活檢在基層醫院難以開展,因此尋找肺結節病相關分子標志物,對于早期干預肺結節病具有重要的臨床意義。

本研究采用生物信息學方法分析發現,在43例結節病和30例健康對照組外周血樣本的基因表達譜之間存在顯著的差異,這些表達上具有差異的基因參與了多種生物學過程和功能,如免疫反應、炎癥反應、GTP酶的活性等。隨機森林和LASSO回歸兩種算法篩選出核心基因為SPOCK2,ROC曲線提示AUC 值為0.985,提示SPOCK2具有一定的鑒別結節病的能力。為了進一步驗證生物信息分析的結果,本研究收集了50例肺結節病患者和50例健康對照組外周血清樣本進行實驗驗證,根據肺結節病分期不同進行分析,ELISA 結果顯示0~Ⅰ期肺結節病患者及Ⅱ~Ⅲ期肺結節病患者外周血樣本中的SPOCK2均低于健康對照組,且血清SPOCK2蛋白濃度對0~Ⅰ期肺結節病有較強的識別能力,與生物信息分析結果一致。上述現象提示SPOCK2可能在結節病的發病機制中發揮著保護作用。SPOCK2 也稱之為或睪丸蛋白聚糖(testican-2),是骨黏連蛋白(osteonectin)家族的細胞外基質鈣黏連蛋白,包含有硫酸軟骨素和硫酸乙酰肝素兩個側鏈,編碼424個氨基酸的糖蛋白,由信號肽、卵泡抑素樣結構域、鈣離子結合結構域、甲狀腺球蛋白樣結構域和兩個黏多糖附著位點的C端區域組成[20]。SPOCK2最初是從人腦組織中的cDNA 文庫中成功克隆出來的,隨著研究的逐漸深入,SPOCK2 在肺、腎、前列腺、腎上腺及卵泡等組織中均可檢測到,有研究發現SPOCK2與人乳腺癌、前列腺癌、結腸癌的發病也存在密切的相關性[21-22],說明SPOCK2 具有廣泛的生物學功能。陳濤等[23]研究表明SPOCK2與基質金屬蛋白酶16 (matrix metalloproteinase 16,MMP-16)存在著協同作用,共同促進肺泡和肺血管的形成,在肺的發育中發揮著重要作用,同時在高氧刺激時對肺組織起保護作用。Ahn等[24]研究表明過表達SPOCK2質粒轉染的肺泡上皮細胞可有效阻止病毒附著和防止病毒進一步進入宿主細胞,其中唾液酸N-聚糖和硫酸乙酰肝素共價連接在SPOCK2核心蛋白上是抗病毒活性的關鍵。

因為流感病毒的神經氨酸酶作用于裂解SPOCK2的唾液酸化部分,從而SPOCK2阻止了病毒的進一步擴散。對一項關于結節病病因的研究指出,結節病的發生可能與人體長期暴露于微生物氣溶膠環境中密切相關,這些微生物包括結核分枝桿菌、病毒、真菌等病原微生物。病原微生物的感染可能是結節病發展進程的啟動因素,激活了結節病的免疫機制[25],這一現象與本研究生信分析所得出的結節病差異基因富集在多個免疫相關生物學功能的結果一致。由此推測,SPOCK2 的下調可以減弱肺泡上皮細胞對于病原微生物的抵抗能力,從而增加肺組織感染病原微生物的機會,導致了肺內異常免疫功能的激活,增加了患肺結節病的風險。隨著病情的進展,免疫反應的增強,SPOCK2可能對肺泡上皮細胞抵御病原微生物的調控能力也逐漸增強,因此本研究中Ⅱ~Ⅲ期肺結節病患者血清SPOCK2的濃度高于0~Ⅰ期肺結節病,但具體機制需進一步實驗證實。

本研究采用多種生物信息學及機器學習方法處理了基因芯片表達譜的數據并進行了分析,但仍有一些不足之處:(1)雖然合并了2個GEO 數據集的數據,但是因為結節病發病率相對較低,公共數據中可下載的芯片較少,可能對結果造成一定偏倚;(2)合并的兩個GEO 數據集均只是籠統的說明標本來源于結節病,原始數據中未標明是具體哪個器官或者系統的結節病,而臨床驗證的標本均采用肺結節病,不同部位的結節病的可能有所差異;(3)肺結核與肺結節病是臨床需要鑒別的病理表現為肉芽腫性疾病的兩種主要疾病,本課題組因實驗條件的限制,未收集到肺結核及縱隔淋巴結結核患者血清樣本,無法分析SPOCK2在肺結核和肺結節病中的差異,因此本研究的結論還需要進一步進行完善和探討。

綜上所述,本研究通過合并兩個GEO 數據集的基因芯片表達譜,采用多種生物信息學分析方法篩選及臨床驗證得到的結節病差異基因SPOCK2,可作為鑒別肺結節病的分子標志物,為肺結節病的發病機制和靶向治療提供一定的理論基礎。

利益沖突 所有作者均聲明不存在利益沖突

猜你喜歡
結節病差異基因外周血
18F-FDG PET/CT在結節病診斷中的應用價值
基于RNA 測序研究人參二醇對大鼠心血管內皮細胞基因表達的影響 (正文見第26 頁)
以胸腔積液為首發表現的胸膜肺結節病一例報告及文獻復習
結節病合并隱球菌病的研究進展
紫檀芪處理對釀酒酵母基因組表達變化的影響
皮下結節型結節病1例
白血病外周血體外診斷技術及產品
結腸炎小鼠外周血和結腸上皮組織中Gal-9的表達
慢性蕁麻疹患者外周血IL-17和IL-23的表達及臨床意義
SSH技術在絲狀真菌功能基因篩選中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合