?

影像與基因特征分析方法在阿爾茨海默病中的研究進展

2022-11-24 07:19韓立婷姚旭峰趙從義
中國生物醫學工程學報 2022年4期
關鍵詞:遺傳變量特征

韓立婷 姚旭峰 金 宇 趙從義 黃 鋼

1(上海理工大學醫療器械與食品學院,上海 200082)

2(上海健康醫學院醫學影像學院,上海 201308)

3(上海市分子影像學重點實驗室,上海健康醫學院,上海 201308)

引言

阿爾茨海默?。ˋlzheimer's disease,AD)是最常見的神經退行性疾?。?]。AD 在神經病理學上表現為大腦嚴重萎縮,細胞外淀粉樣斑塊和細胞內神經原纖維纏結積聚,這種病變在腦內分布不均且不可逆。AD 已帶來巨大的社會和個人壓力和沉重的經濟負擔[2-3],目前尚缺乏對其發病機制的認識以及有效的診斷和治療方法,也缺乏有效的預防手段,突破這一困境迫在眉睫。

現有研究表明磁共振成像(magnetic resonance imaging,MRI) 和正電子發射斷層成像(positron emission tomography,PET)在AD 的診斷和預后評價中發揮重要作用[4-5]。此外,研究也證實AD 患者70%的風險是由復雜的遺傳風險因素引起的,其中APOEε4 是導致晚發性AD 發生的主要遺傳危險因素,但其單一效應僅占該疾病遺傳度的27.3%[6]。

迄今為止,AD 發病的遺傳基礎尚難以揭示,因為單個基因變異對該疾病遺傳風險的貢獻微弱,即其很可能是受數百個風險基因和多個環境風險因素的共同作用[7-8]。為此,許多研究者將影像特征與基因特征聯合分析,對AD 患者進行分類和預測。

文中首先概述與AD 相關的影像特征和基因特征,隨后闡述統計學及機器學習方法在影像與基因特征聯合分析中的應用,并討論其優缺點,最后對影像與基因特征分析方法在AD 應用中的前景進行展望。

1 AD 相關的影像與基因特征

隨著研究的不斷深入,影像與基因特征在揭示復雜疾病特異信息方面顯示了獨特優勢,特別是在AD 中的應用較為廣泛[9]。目前,影像技術中PET和MRI 成像應用最為廣泛,其為揭示AD 患者疾病進展提供了可靠的生物標記物,見表1。PET 依標記物可分為氟脫氧葡萄糖PET(fluorodeoxyglucose positron emission tomography,FDG-PET) 和淀粉樣PET,FDG-PET 應用較廣泛,其主要能顯示AD 患者在后扣帶回、楔前葉和顳葉皮質等區域的大腦葡萄糖代謝率異常。如Christopher[10]等進行了關于后扣帶回葡萄糖代謝率下降的全基因組關聯研究,發現后扣帶回中葡萄糖代謝的減少與PPP4R3A 基因中的rs2273674 位點存在顯著關聯,從而揭示了腦內糖代謝的病理機制。與PET 相比,MRI 在AD 診斷中得到了更為廣泛的應用,MRI 主要包括sMRI和fMRI。MRI 的相關研究主要是發現了AD 患者的海馬、內嗅皮質以及全腦的萎縮速度都在加快。如Kim[3]等利用全腦的平均皮質厚度進行全基因組關聯分析(genome-wide association studies,GWAS),發現了4 個基因與皮質厚度有相關性,并鑒定了基因生物功能信息,為AD 的治療提供了一定的幫助。

表1 主要成像方法的優缺點Tab.1 Advantages and disadvantages of the main imaging method

雖然影像提供了許多重要的AD 疾病表型信息,但由于基因的異質性,要對大量的遺傳信息進行聯合分析仍需要深入探索。單核苷酸多態性(single nucleotide polymorphism,SNP)是目前研究最為廣泛的基因組變體,其可影響蛋白質的表達。起初的研究只能單獨分析每個SNP 位點,加上大多數基因關聯研究提供的樣本量可能太小,難以統計,因此隨后逐漸發展為更復雜的GWAS,并迅速成為相關基因研究的主要方法。

Coon[11]等首次完成了針對AD 的GWAS 分析,但僅發現APOE 為AD 的易感基因座,其發現的19號染色體上的SNP(rs4420638)位于APOEε4 變異遠端的14 個堿基對,與其他檢測的SNP 相比,該SNP 與AD 的患病風險的關聯更強。Lambert[12]等使用GWAS 分析,在歐洲血統的人群中新發現了11個AD 的易感基因座,發現的新位點中最強關聯的是ZCWPW1 基因,第二強關聯的是SORL1 基因,相關基因與常染色體顯性遺傳和AD 的患病風險增加相關,該研究是截至2018年針對AD 最大的GWAS分析。在2018 和2019年,Marioni[13]等和Jansen[14]等用了更大樣本量進行GWAS 分析,該研究發現了更多與AD 相關的易感基因,使其增加至40 個,見表2。除此之外,該研究的基因分析還提供了多種方法,如主坐標分析(principal co-ordinates analysis,PCOA) 和非度量多維尺度分析( nonmetric multidimensional scaling,NMDS)等[15]。隨著GWAS應用的不斷發展,促進了影像與基因特征聯合進行相關性分析[16],逐步發展成腦研究新興領域,聯合分析技術旨在揭示遺傳對腦表型的影響,可用于檢測AD 的潛在生物標志物,幫助開發新的治療方法。

表2 基因特征相關的主要研究Tab.2 Major studies related to genetic characteristics

早期的影像與基因特征聯合分析研究包括大腦形態和功能與SNP 之間的關聯分析[17-18],后來的相關研究更多是利用影像、基因特征等信息對AD進行分類預測,為AD 的診斷提供相應的支持。神經成像能夠捕捉一個人從正常衰老到神經退行性疾病的發展過程,而基因變異能夠提供最終發展為復雜表型特征傾向的準確信息,因此通過兩者聯合分析來研究AD,有助于實現更準確的診斷和預測[19]。

2 統計學分析在阿爾茨海默病中的應用

統計學分析方法分為兩類,即單變量統計分析方法和多變量統計分析方法。

2.1 單變量分析方法

早期的影像與基因特征聯合分析在AD 中的應用研究大多集中于特定的候選基因,對于特定的候選基因變異或感興趣區,單變量分析是最常用的方法。如表3 所示,Habes 等[20]構建了一個線性回歸模型, 通過MRI 與APOEε4 聯合分析來確定APOEε4 對患者整個成年期腦萎縮的影響。

表3 單變量分析方法的優缺點Tab.3 Advantages and disadvantages of univariate analysis method

由于單變量分析在特征空間范圍內具有極高維度,因此被擴展到基于大量成對單變量分析來處理全腦范圍的全基因組掃描。Stein 等[21]提出了基于體素的全基因組關聯研究(voxelwise genome-wide association study,VGWAS),探討了740 名受試者全腦31 622 個體素中的448 293 個單核苷酸多態性之間的關系,共使用300 個計算集群節點并行執行所需的計算,為發現遺傳對大腦結構的影響提供了一種新的方法。為解決該方法在速度方面的局限性,Huang 等[22]在此基礎上提出了一種更有效的方法,即快速體素式全基因組關聯分析(fast genome-wide association study, FVGWAS), 以此加速傳統的VGWAS 的計算,FVGWAS 比傳統的VGWAS 快幾十倍,通過該方法最終成功地確定了3 個基因,即ANK3、MEIS2 和TLR4 與智力低下、學習障礙和年齡有顯著的關聯。

遺傳數據的大規模單變量分析方法目前仍占主導地位,這是因其分析方法簡單,且數據所需的模型相對易于擬合,但因局限性,如需進行多項測試,連鎖不平衡(linkage disequilibrium,LD)帶來的冗余,以及缺乏上位性效應的分析,而對這些局限效應必須進行明確建模,因此單變量分析方法的應用受到很大限制。

2.2 多變量分析方法

單變量分析的局限在于:首先通常需要非常大的樣本量才有可能發現有意義的關聯,其次其沒有考慮到潛在的基因交互作用,很可能導致重大關聯的發現力度不足。因此,影像基因特征聯合分析的最新方法學引入了多變量方法來捕捉有意義的信息。如偏最小二乘法(partial least-square,PLS)、獨立成分分析(independent component analysis,ICA)、典型相關分析(canonical correlation analysis,CCA)等。常用的多變量方法是整合兩種或兩種以上數據類型,其基本思想是最大化來自不同數據類型變量的線性組合之間的相關性,以此找到相互的關聯性。在這些算法的基礎之上,又有了改進版本,如:稀疏典型相關分析、稀疏偏最小二乘法和稀疏降秩回歸等,并被證明在檢測多變量基因組學和腦成像關聯方面有效[23-26]。

如表4 所示,Du 等[27]在稀疏典型相關分析基礎之上,提出了一種新穎的結構化稀疏規范相關分析模型和優化算法,通過施加兩個新的懲罰項,使新方法識別了更高的典型相關系數,其在揭示具有生物學意義的影像遺傳關聯方面有良好的能力。

表4 多變量分析方法的優缺點Tab.4 Advantages and disadvantages of the multivariate analysis method

Zhou 等[28]提出了一種新的聯合投影和稀疏回歸模型,以此來揭示表型和基因型之間的關聯。為了解決數據異質性、復雜的表型-基因型關聯、高維數據(例如,數千個SNPS)和表型異常值等問題,上述方法在基因組到表型預測的平均均方根誤差方面優于幾種以往的最先進方法。此外,該研究也證實了以往的AD 相關研究中發現的相關SNP 和腦區,從而驗證了該方法在AD 發病機制研究中的有效性和潛力。

Lu 等[29]基于貝葉斯廣義低秩回歸模型(Bayesian generalized low-rank regression,GLRR)擴展形成貝葉斯縱向低秩回歸模型(Bayesian longitudinal low-rank regression,L2R2),用來檢測40個AD 候選基因的1071 個SNP 對93 個感興趣區的縱向成像測量的影響,通過對縱向神經影像變量的相關性建模提高了檢測能力。Zhu 等[30]提出了一種用于全腦和全基因組關聯研究的稀疏回歸方法,通過對聯合改進框架中的低秩回歸和變量的選擇來優化目標函數,提高了在SNP 選擇方面的性能。Soheili-Nezhad 等[31]使用基于獨立成分分析的預處理的腦sMRI 數據,在一組老年受試者的縱向隊列中,得出了數據驅動的AD 和輕度認知障礙腦影像特征,即內側顳路(medial temporal circuit,MTC),并對此進行了全基因組搜索,尋找與這種大腦特征相關的遺傳變異。

每種多變量分析方法都有其特殊的優點和局限性,這些方法主要用于單個數據集或者數據量相對較小的研究中,可以在全基因組水平上鑒定出重要的關聯。由于大量的輸入變量和參數,導致可能存在過擬合和模型無法推廣的情況,因此需要在成像或遺傳域降維,隨著數據集的擴充,可以逐步克服對降維方法的需求。

3 傳統機器學習在AD 中的應用

目前對于影像與基因聯合分析在AD 中的應用,尚存在診斷環境相對不準確、腦脊液(cerebrospinal fluid,CSF)等診斷的侵入性以及缺乏具有足夠AD 診斷專業知識的臨床醫生等問題,而機器學習可以提供從MRI 等影像數據中獲得高精度預測的方法,已在疾病預測與分類方面得到了應用,已有研究引入了機器學習方法,表明其亦可用于AD診斷。

機器學習的能力來自其從大量數據中獲得預測模型的能力,這些模型很少或在某些情況下完全不需要數據的先驗知識或有關數據的任何假設。當前對AD 診斷方面的應用,大多數機器學習方法都是基于探索MCI 到AD 轉換之間的單變量關聯,由于不斷努力,已逐步構建了基于臨床、MRI、實驗室和遺傳數據融合的多變量預測模型。常用的傳統機器學習算法包括線性回歸(linear regression,LR)、 邏輯回歸、 支持向量機( support vector machine,SVM)和樸素貝葉斯分類器[32-34]。

基于傳統機器學習方法的研究如表5 所示。Dukart 等[35]通過構建樸素貝葉斯分類器,研究了多模式成像(MRI、FDG-PET 和淀粉樣PET)、神經心理學和遺傳數據,將其作為潛在生物標記物,識別其在未來MCI 患者轉為AD 的過程中所起的作用,并使用上述數據模態的不同組合來區分AD 和NC。之后,他們將學習到的分類器應用于MCI 隊列,以預測AD 轉換狀態,發現使用FDG-PET 數據達到76%的準確率,使用多模式成像和遺傳數據達到87%的準確率。

表5 機器學習方法的優缺點Tab.5 Advantages and disadvantages of machine learning methods

Zhang 等[36]研究了幾種機器學習方法,通過結合多模式成像(MRI 和FDG-PET)、CSF 和SNP 數據,比較了3 種最先進的特征選擇方法,即:1)多核學習方法(multiple kernel learning,MKL);2)基于高階圖匹配的特征選擇(high-order graph matching based feature selection,HGM-FS);3)稀疏多模型學習(sparse multimodal learning,SMML)。經過實驗研究發現:1)FDG-PET 是預測精度最高的模式;2)將SNP 數據加入其他模式可以提高預測精度;3)HGM-FS 在3 種特征選擇方法中效果最好。

除了這些傳統的機器學習方法之外,最近有研究在此基礎上進行了一些創新,如Peng 等[37]提出了一種使用多模態成像(MRI 和FDG-PET)和SNP數據進行AD 預測的結構化稀疏核學習(structured sparse kernel learning,SSKL)模型。該研究用內核描述每個特征,并使用模態信息對內核進行分組,以便于在特征和組級別進行變量選擇,并進一步引入了一種創新的結構化稀疏正則化項,以實現每個模態內的特征稀疏性,實驗結果表明不同的模態可以提供互補的信息,并取得了不錯的效果。

機器學習方法對于促進醫學和基因組學的進步非常重要。然而,傳統的機器學習技術通常需要人工進行特征工程設計,需要對數據降維以精準選擇最佳的特征,從而限制了它們在需要實時決策的情況下的實用性。應該看到機器學習的優勢在于:1)在小樣本上能夠實現更好的性能;2)計算成本不高,可以在短時間內嘗試不同的技術;3)算法易于理解,在需要調參和更改模型設計時也更簡單??傊?,每種模型都有其優缺點,在選擇時應考慮自身特征和樣本等因素,以高性能為目標設計優良的模型。未來構建適宜的機器學習模型任重道遠,整合各種模態的信息用于AD 的早期診斷意義重大。

4 深度學習在AD 中的應用

深度學習與傳統機器學習的不同之處在于,如何從原始數據中自動發現表示形式。與作為淺層特征學習技術的ANN 相比,深度學習算法使用感知器的多個深層來捕獲數據的低級和高級表示,從而使他們能夠學習更豐富的輸入抽象。這消除了對特征的手動工程的需要,并允許深度學習模型自然地發現以前未知的模式,更好地刻畫數據的豐富內在信息[38-39]。深度學習算法可運用單模態到多模態的影像特征,但大多數模型都是在單一數據集上進行訓練和測試,多用于疾病的預測和分類。目前,利用深度學習對AD 進行分類預測大多都基于影像特征,關于影像基因聯合并用深度學習來預測分類的研究較少。

如表6 所示,Ning 等[40]構建神經網絡(neural network,NN)框架,并用sMRI 和SNP 數據對NN 進行訓練,發現以大腦和SNP 特征為預測指標的模型AUC 值達0.992。此外,還發現了右側海馬旁回與右側枕葉回、右側顳上溝和左側后扣帶回以及rs10838725 與左側枕葉回之間的關系,表明該模型不僅能夠對AD 的進展進行分類和預測,還能夠識別重要的AD 風險因素以及之間的相互作用。Pelka[41]等融合社會人口統計數據、遺傳數據(APOEε4)和MRI 等信息作為基于長短時記憶網絡(long short-term memory,LSTM)的循環神經網絡的輸入,最終分類精度達到77%的準確度。隨著深度學習的不斷發展,有研究者使用深度學習模型集成了多個數據域,以發現無法由單個數據域解釋的集成特征,即使用基于深度學習的框架將多模態神經影像數據集合并,以區分NC 與AD,從而顯著改善了性能。Zhou[42]等提出了一種三階段深度特征學習和融合框架,將多模態神經影像數據(MRI 和PET)和遺傳數據(SNP)融合在一起用于AD 的預測診斷。在第一階段,獨立學習每種模態潛在特征;在第二階段,組合來自不同模態的潛在特征,并學習組合的聯合潛在特征;在第三階段,使用所有具有完整MRI,PET 和SNP 數據的樣本對模型進行訓練,該方法主要克服了數據異質性、高維問題和不完整的多模態數據問題,可以提高AD 診斷的準確性,是第一個將多模態神經成像和遺傳數據融合在一起用于AD 診斷的深度學習框架。

表6 深度學習方法的優缺點Tab.6 Advantages and disadvantages of deep learning method

目前,深度學習在影像基因特征用于結果預測方面尚未廣泛應用,已有的研究大多是單獨利用影像特征來進行結果的預測,部分原因是受影像和基因組學數據集樣本大小的限制。目前深度學習已在AD 早期預測上有了一些嘗試,但仍存在諸多缺點,如需要大量的樣本訓練模型;魯棒性不強;深度學習是一個“黑盒子”,研究者并不能完全理解網絡的內部等缺點,因此相關應用仍舊需要不斷完善。未來,深度學習方法是發展影像基因特征聯合分析應用中一個有前途的方向。

5 縱向研究

最近縱向研究已逐漸成為影像與基因特征聯合分析可依賴的新方向,其目標是為了研究相對于時間AD 的主要變化。Wachinger 等[43]使用縱向成像數據和基因數據來探討AD 神經解剖的不對稱性,提示這些基因可能在AD 中發揮影響的機制或途徑。Tabarestani 等[44]在一項研究中通過循環神經網絡(recurrent neural networks,RNNs)的兩種不同變體,即LSTM 和門控遞歸單元(gated recurrent unit,GRU)對1458 例受試者的縱向研究中進行了AD 進展的預測。通過利用前三個時間點的患者歷史記錄,該模型可以在其他三個后時間點跟蹤疾病進展,其準確性優于僅依賴基線記錄的方法。Du等[45]提出了一種新穎的時間多任務稀疏規范相關分析(multi-task sparse canonical correlation analysis,T-MTSCCA)框架,可以使用縱向神經影像數據來揭示SNP 在一段時間內如何影響腦部定量特征(quantitative traits,QT),結合縱向成像數據和SNP內的關系,T-MTSCCA 可以確定一段時間內漸進式成像遺傳模式的軌跡。最后作者驗證了ADNI 數據庫中408 名受試者的T-MTSCCA,并獲得了縱向磁共振成像數據和遺傳數據。實驗結果表明,TMTSCCA 的性能優于或等同于最新技術。

當前縱向研究的主要挑戰是患者在隨訪中失訪或者退出研究造成的數據樣本缺失,但發展縱向研究方法仍具有重要意義,它可以進一步幫助揭示多種遺傳因素在疾病進展過程中影響大腦變化的作用。

6 總結與展望

影像與基因特征聯合分析是一個新的研究熱點,是隨著獲取高通量組學數據和多模式成像數據的最新發展而興起的一個新興研究領域。它主要是對基因組的數據、結構、功能和分子成像數據進行綜合分析,有可能為正?;蛭蓙y的生物結構、功能的表型特征和遺傳機制提供重要的見解。在影像與基因這兩個領域中,統計研究對其產生了重大影響,由此也為其統計分析提供了許多大數據挑戰。本文重點回顧了分析這類數據的各種方法,其中重點是單變量方法、多變量方法,以及利用傳統機器學習方法和深度學習方法對AD 進行分類預測。目前,影像與基因特征聯合分析除了應用于AD、PD 等神經退行性疾病,在其他疾病中也有相應的應用。

盡管近年來在技術和方法上有了很大的進步,但有關AD 的影像與基因研究仍然困難重重,且設計、實施和分析的成本高昂。當前,在實踐中存在的挑戰概況有:1)樣本的數量和類型有限;2)這些數據具有高維和復雜的結構,正面臨著重大的計算和生物信息學挑戰;3)遺傳力的缺失通??梢圆糠謿w因于遺傳變異內或遺傳與環境因素之間的相互作用效應(或上位效應),目前所發掘的基因只能解釋所研究性狀的部分遺傳力等問題。隨著臨床醫學中人工智能的深度應用,尤其是深度學習的興起,相信結合多個數據源的更復雜的模型可以克服諸多挑戰,在神經退行性疾病的臨床應用方面帶來更多突破。

猜你喜歡
遺傳變量特征
非遺傳承
根據方程特征選解法
抓住不變量解題
也談分離變量
還有什么會遺傳?
還有什么會遺傳
還有什么會遺傳?
不忠誠的四個特征
抓住特征巧觀察
分離變量法:常見的通性通法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合