?

基于COVID-19 相關基因的肝細胞癌分子分型及預后模型構建與驗證

2024-01-10 06:19元喆悅白易童文張曉雨崔壯
天津醫科大學學報 2024年1期
關鍵詞:亞型肝細胞樣本

元喆悅,白易,童文,張曉雨,崔壯

(1.天津醫科大學公共衛生學院,天津 300070;2.天津市第一中心醫院肝膽胰外科,天津 300192;3.天津醫科大學臨床醫學系,天津 300070)

肝細胞癌是全球發病率第五的腫瘤,死亡率卻高達第二,且仍有上升趨勢[1]。最近在中國進行的一項全國性研究顯示,腫瘤患者感染新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)后,會較正常人群出現更為嚴重的臨床癥狀[2]。此外免疫狀態改變、炎癥通路增加、宿主基因表達增加和表觀遺傳改變還會讓腫瘤患者成為易感人群[3]。

新型冠狀病毒(SARS-CoV-2)具有廣泛的器官親和性,并且可在肝臟和許多其他肺外器官中檢測到其RNA 表達[4]。原位雜交顯示,SARS-CoV-2 病毒粒子在血管管腔和門靜脈內皮細胞中富集[5]。透射電鏡觀察到肝細胞細胞質中存在典型的SARSCoV-2 病毒顆粒,表現出明顯的細胞膜功能障礙、線粒體腫脹和內質網擴張[6]。這些發現表明,SARSCoV-2 可能直接導致肝細胞病變。

COVID-19 相關基因是指與SARS-CoV-2 感染和COVID-19 疾病發展相關的基因。這些基因可以影響病毒的入侵和復制,調控宿主免疫應答以及改變個體對疫苗和藥物的治療反應。通過研究這些基因,可以更好的理解疾病的發病機制、尋找潛在的治療靶點和開發個體化的治療策略。如血管緊張素轉換酶2(ACE2)是SARS-CoV-2 的主要受體,可介導病毒進入細胞[7]。肝臟單細胞RNA 測序分析顯示,ACE2 在膽管細胞中的表達水平最高,其次是肝竇內皮細胞(LSECs)和肝細胞[8]。肝導管類器官培養顯示,部分COVID-19 肝損傷可能是由于SARS-CoV-2 感染引起的膽管細胞直接損傷和膽汁酸積聚[9]。這些數據表明,肝臟是SARS-CoV-2 的潛在靶點,SARSCoV-2 直接與膽管細胞結合,導致膽管細胞損傷和膽管功能障礙,可能是肝損傷的機制之一[10-12]。

本研究基于COVID-19 相關基因對肝細胞癌進行分子亞型分類,并評估不同分子亞型與預后及臨床特征的關系,以期為尋找肝細胞癌新的治療靶點提供思路。

1 材料與方法

1.1 數據下載及相關基因集的來源 肝細胞癌患者組織的基因表達數據和臨床隨訪信息分別從TCGA、HCCDB18 數據庫(http://lifeome.net/database/hccdb/home.html)及Gene Expression Omnibus(GEO)數據庫下載。從NCBI(https://www.ncbi.nlm.nih.gov/)以及genecards(https://www.genecards.org/)網站搜集到134 個COVID-19 相關的基因。

1.2 數據預處理 對TCGA-LIHC 的RNA-Seq 數據做如下處理:(1)去掉沒有臨床隨訪信息、生存時間、生存狀態的樣本。(2)將Ensembl ID 轉換為基因名。(3)相同基因具有多個表達值的取均值。(4)過濾掉在樣本中的表達量低于1 且占比高于50%的基因。

對GEO 的數據集做以下處理:(1)去掉沒有臨床隨訪信息、生存時間、生存狀態的樣本。(2)將探針轉為基因名。(3)如一個探針對應多個基因,去除該探針。(4)相同基因具有多個表達值的取均值。

對HCCDB18 的RNA-Seq 數據做如下處理:去除沒有臨床隨訪信息、生存時間、生存狀態、基因表達數據的樣本。

3 組數據經預處理后,TCGA-LIHC 共有365 個樣本;HCCDB18 數據集共有203 個樣本;GSE14520共有221 個樣本。

1.3 鑒定COVID-19 基因相關肝細胞癌分子亞型TCGA 表達譜數據去除所有樣本中表達量小于1 且占比低于50%的基因后,有103 個COVID-19 相關基因。提取這些基因的表達量進行單因素Cox分析,以閾值P<0.05 進行過濾,得到預后相關基因。使用ConsensusClusterPlus(V1.48.0;參數:reps=100,pItem=0.8,pFeature=1,distance="euclidean")對TCGA 樣本進行一致性聚類。D2 和歐氏距離分別作為聚類算法和距離度量。

1.4 分子亞型之間的免疫評分比較分析 分別使用R軟件包StromalScore、ImmuneScore、ESTIMATEScore以及MCPcounter 評估10 種免疫細胞的評分。GSCA包的ssGSEA 方法計算28 種免疫細胞的評分。CIBERSSORT 包計算22 種免疫細胞的評分。

1.5 構建基于COVID-19 基因的預后風險模型

1.5.1 訓練集和驗證集劃分 首先將TCGA 數據集中的365 個樣本分成訓練集和驗證集,為避免隨機分配偏差影響后續建模的穩定性,預先對所有樣本進行100 次有放回隨機分組,分組抽樣按照訓練集∶驗證集=1∶1 比例進行。根據以下條件挑選最合適的訓練集和驗證集:(1)在年齡的分布、性別、隨訪時間以及患者死亡比例上兩組相似。(2)隨機分組的兩個數據集基因表達譜聚類后,二分類樣本數量接近。訓練集和測試集樣本使用χ2檢驗進行比較。將HCCDB18 數據集及GSE14520 數據集作為外部驗證集。

1.5.2Lasso Cox回歸分析 使用R 軟件包glmnet進行lasso Cox回歸分析,首先分析每個自變量的變化軌跡,再使用10-fold 交叉驗證進行模型構建,分析每個lambda 下的置信區間,找到模型最優時候的目標基因數目。

1.6 風險評分與通路的關系 為了觀察不同樣本的風險得分與生物學功能的關系,選擇這些樣本對應的基因表達譜,使用R 軟件包GSVA 進行單樣本GSEA 分析,計算每個樣本在不同功能上的得分即得到了每個功能對應各個樣本的ssGSEA 評分,進一步計算這些功能與風險得分的相關性,選擇相關性大于0.45 的功能進行聚類分析。

1.7 風險評分與臨床特征構建列線圖 利用TCGA全部數據集,整合風險評分和其他多因素變量構建列線圖模型。并使用校正曲線評估模型的準確性。

2 結果

2.1 基于預后基因聚類3 個分子亞型 通過預后分析,得到28 個與預后相關的COVID-19 基因?;谶@些基因,使用ConsensusClusterPlus 在K=3 時的分組,得到了3 個分子亞型(C1、C2、C3),見圖1A。同時分析了28 個基因在不同亞型中的表達熱圖(圖1B)。結果顯示:無論在總生存時間還是在無進展生存時間方面,不同亞型之間均有差異,其中C2亞型預后最好(圖1C、D)。

圖1 基于ConsensusClusterPlus 包對肝細胞癌患者進行分型Fig.1 Hepatocellular carcinoma patients were typing based on the ConsensusClusterPlus package

2.2 比較分析不同分子亞型之間的免疫評分 分別使用StromalScore、ImmuneScore、ESTIMATEScore和MCPcounter R 包評估10 種免疫細胞的評分。GSCA 包的ssGSEA 方法計算28 種免疫細胞的評分。CIBERSSORT 包計算22 種免疫細胞的評分。結果顯示,4 種方法的免疫評分中C2 亞型的免疫評分普遍高于C1 和C3 亞型(圖2)。

圖2 肝細胞癌分子亞型之間免疫評分的比較Fig.2 Comparison of immune scores among molecular subtypes of hepatocellular carcinoma

2.3 構建基于COVID-19 基因的肝細胞癌預后模型

2.3.1 訓練集樣本隨機分組 根據方法部分的分組方式,最終訓練集數據共182 個樣本,驗證集數據共183 個樣本,χ2檢驗結果表明本研究分組合理,組間無統計學差異(P>0.05)。使用訓練集數據,針對每1 個COVID-19 基因以及生存數據利用R包survival coxph function 構建單變量Cox比例風險回歸模型,選擇P<0.05 作為閾值進行過濾,最后得到預后相關基因,分別為VEGFA、CD14、CD209、REN、PSMD1。

2.3.2 預后模型的構建與評估 使用R 軟件包glmnet 進行lasso Cox回歸分析,對這6 個基因進一步降維,以減少風險模型的基因數量。如圖3A 所示,首先分析每個自變量的變化軌跡,可以看出隨著lambda 的逐漸增大,自變量系數趨于0 的個數也逐漸增多,使用10-fold 交叉驗證進行模型構建,分析每個lambda 下的置信區間。如圖3B 所示,當lambda=0.012 時模型達到最優,選擇對應的5 個基因進行后續分析。對篩選的5 個基因進行多因素Cox分析,并計算每一個基因的風險系數,并得到風險得分的公式:風險得分=(0.227×VEGFA)-(0.125×CD14)+(0.208×CD209)+(-0.124×REN)+(0.034×PSMD1)。

圖3 使用lasso 回歸算法構建預后模型Fig.3 Constructing a prognostic model using lasso regression algorithm

如圖3C 所示,根據樣本的表達水平分別計算每個樣本的風險評分,并繪制樣本的風險評分分布。此外,使用R 包timeROC 對風險評分用于預后分類的受試者工作特征(ROC)曲線進行分析,如圖3D所示,通過分別分析1、3、5 年生存率的預后預測效率,可以看出該模型具有較高的曲線下面積(AUC);最后對風險評分進行zscore 分析,將樣本劃分為高風險組(n=89,風險評分>0)和低風險組(n=93,風險評分<0)。此外,通過繪制KM 生存曲線可以看出高風險組和低風險組存在顯著差異(圖3E,P<0.05)。

2.3.3 內部數據集驗證5 種基因風險評分的魯棒性 TCGA 的驗證集采用與訓練集相同的模型和相同的系數,根據樣本的表達水平分別計算風險得分,并繪制RiskScore 分布(圖4A),由圖可見,風險得分高的樣本具有更差的預后。1、3、5 年的預后ROC 分析如圖4B 所示。最后對風險得分進行zscore 轉化,將大于零的樣本劃分為高風險組,小于零的樣本劃至低風險組,并繪制KM 曲線,可以看到顯著的生存差異(圖4C,P<0.001)。

圖4 內部數據集驗證預后模型的魯棒性Fig.4 Internal data sets validated the robustness of the prognostic model

2.3.4 外部數據集驗證5 種基因風險評分的魯棒性 在外部驗證集GSE14520 和HCCDB18 中采用與訓練集相同的模型和相同的系數。同樣根據樣本的表達水平分別計算風險得分,并繪制樣本的風險得分分布。如圖5A 所示,風險得分高的樣本預后更差。該模型在GSE14520 集合中的1、3、5 年的預后預測分類效率如圖5B 所示;對風險得分進行zscore 轉化,將大于零的樣本定義為高風險組(n=101),小于零的樣本定義為低風險組(n=120),生存分析顯示高風險組患者預后顯著劣于低風險組(圖5C,P<0.001)。

圖5 外部數據集GSE14520 驗證預后模型的魯棒性Fig.5 External data set GSE14520 verified the robustness of the prognostic model

獨立驗證數據集HCCDB18 的風險得分分布如圖6A 所示,也得到了相似的結果。進一步使用timeROC 對風險得分進行預后分類的ROC 分析,因為該數據集中,5 年生存樣本太少,因此只分析了1、3、4 年的預后預測分類效率(圖6B);最后對風險得分進行zscore 轉化,發現高風險組(n=95)和低風險組(n=108)間具有統計學差異(圖6C,P<0.05)。

圖6 外部數據集HCCDB18 驗證預后模型的魯棒性Fig.6 External dataset HCCDB18 verified the robustness of the prognostic mode

2.4 風險模型與肝細胞癌患者臨床特征的預后分析 基于血管內皮生長因子α(VEGFA)、CD14、CD209、REN及PSMD1構建的5 基因風險評分模型的臨床亞組生存分析顯示,該預測模型可以顯著區分年齡、性別、T 分期、N0 分期、M0 分期、Ⅰ+Ⅱ期、分級、復發亞組的預后(圖7,P<0.05)。

圖7 預后模型在不同臨床特征上的表現Fig.7 The performance of the prognostic model on different clinical features

2.5 構建基于風險評分的列線圖 使用多因素Cox回歸分析5 基因特征模型在TCGA 數據集中的臨床獨立性,結果顯示,風險評分(圖8A,HR=1.8,95%CI:1.23~2.65,P=0.003)與生存顯著相關。根據風險評分構建了列線圖模型(圖8B)。校準曲線證明該模型具有準確的預測性能(圖8C)。

圖8 基于5 基因預后模型構建列線圖及其預測表現的驗證Fig.8 Construction of a nomogram based on a 5-gene prognostic model and validation of its predictive performance

3 討論

由于肝細胞癌的異質性,肝細胞癌患者可能存在與預后相關的不同分子亞型,考慮到肝細胞癌有限的治療獲益和極差的預后,迫切需要建立新的預后模型。本研究基于28 個COVID-19 預后相關的基因對TCGA 的365 個肝細胞癌樣本進行分子分型,發現可以將這些樣本分為3 個亞型,且具有不同的臨床特征和預后結局。

近年來,關于肝細胞癌預后模型的研究越來越多,但基于COVID-19 相關基因對肝細胞癌預后進行評估尚無相關報道。本研究基于COVID-19 相關分子分型建立了一個新的5 基因模型(包括VEGFA、CD14、CD209、REN、PSMD1)用于肝細胞癌預后預測,并采用內部和外部驗證的方法,在多個數據庫中得到了驗證。其中VEGFA 在血管生成過程中起關鍵作用[13]。而血管生成是惡性腫瘤發生、發展的重要過程,與腫瘤的進展和轉移有關。腫瘤細胞可以上調VEGFA 的表達,促進腫瘤血管生成[14]。研究表明,增加VEGFA 在肝細胞癌中的表達,可抑制腫瘤細胞的增殖和遷移[15-18]。CD14 抗原是一種糖基磷脂酰肌醇連接的糖蛋白,在Toll 樣受體(TLR)的信號通路中起著至關重要的作用[19]。CD14 在膀胱癌細胞中的表達可促進細胞因子產生和腫瘤生長[20]。CD14 陽性巨噬細胞的大量浸潤預示著乳腺癌的早期復發[21]。研究提示,CD14 多態性可能增加幽門螺桿菌感染者患胃癌的風險[22]。在肝細胞癌細胞中,CD14 的過度表達可以減少肝細胞癌細胞的凋亡,抑制CD14 表達可抑制脂多糖/TLR4 信號轉導,從而明顯減輕肝細胞癌的炎癥和進展[23]。這些研究提示CD14 可能是一個潛在的侵襲性生物標志物。DC-SIGN(CD209)是樹突狀細胞特異性的C 型凝集素超家族受體,在感染、樹突狀細胞遷移和T 細胞激活的初始步驟中具有模式識別受體的功能[24]。一些證據表明DC-SIGN(CD209)和傳染病之間存在聯系,例如登革熱、結核病和艾滋病和川崎病等[25-27],并且CD209L 和CD209 在SARS-CoV-2 靶器官中廣泛表達,可能參與感染和致病過程[28]。在腫瘤領域[29],DC-SIGN(CD209)還通過調節Janus 激酶2/信號轉導和轉錄激活因子3 信號通路介導胃癌進展[30]。LSIGN(CD209L)和DC-SIGN(CD209)介導丙型肝炎病毒對肝細胞的反復感染,而持續感染丙型肝炎病毒可能發展為肝炎或肝硬化,甚至引起肝細胞癌[31]。有證據顯示,REN 基因與終末期腎病相關[32],但尚無腫瘤方面研究。PSMD1 和PSMD2 都是蛋白酶體26S 的重要亞基[33]。許多研究也報道了PSMD1 在細胞增殖中的作用。例如,PSMD1 在未分化的甲狀腺癌組織中表達上調[28],可以調節乳腺癌細胞的生長,在乳腺癌細胞對三苯氧胺耐藥的發展過程中起重要作用[34]。腫瘤內表達PSMD1 是胃癌患者無病生存率和總生存期的獨立預測因子[35]。此外,PSMD1 通過促進細胞內脂滴的積累而促進肝細胞性肝細胞癌細胞系的增殖,有望成為一個新的治療靶點[36]。本研究構建預測模型中的大部分基因參與了腫瘤的發生、發展過程,并且與肝細胞癌腫瘤細胞的生長、轉移或侵襲密切相關,這些發現為進一步研究肝細胞癌的預后和尋找晚期肝細胞癌治療的分子靶點提供了新的視角。

本研究也存在一定局限性。首先,這些結論基于單一平臺,并且是回顧性研究,因此還需要來自不同中心和不同平臺的數據來進一步測試評估模型的性能。其次,由于樣本數量有限,可能會導致選擇偏倚。因此建議開展大規模、多中心、前瞻性的研究來驗證本研究結果,并對本研究中鑒定的5 種基因進行更深入的細胞實驗和動物研究,以確保該模型在肝細胞癌預后和治療價值方面的作用。

猜你喜歡
亞型肝細胞樣本
外泌體miRNA在肝細胞癌中的研究進展
用樣本估計總體復習點撥
推動醫改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
肝細胞程序性壞死的研究進展
Ikaros的3種亞型對人卵巢癌SKOV3細胞增殖的影響
肝細胞癌診斷中CT灌注成像的應用探析
ABO亞型Bel06的分子生物學鑒定
HeLa細胞中Zwint-1選擇剪接亞型v7的表達鑒定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合