?

孟德爾隨機化的良好實踐
——孟德爾隨機化分析的常見設計、關鍵挑戰及優化

2023-12-19 14:54張國燕
首都醫科大學學報 2023年6期
關鍵詞:遺傳變異因果關系關聯

王 晶 張國燕 程 杉

(首都醫科大學基礎醫學院醫學遺傳學與發育生物學學系,北京 100069)

2022年是被稱為“現代遺傳學之父”的格雷戈爾·孟德爾(Gregor Mendel)誕辰200周年,他通過研究發現的分離規律及自由組合規律,作為遺傳學的三大基本規律之二,奠基了整個現代遺傳學。1986年,Katan[1]基于孟德爾發現的自由組合規律的思想,提出了一種遺傳流行病學研究方法,即孟德爾隨機化分析(Mendelian randomization analysis,MR),其原理基于所有的DNA在減數分裂時,遺傳變異(genetic variants, G)隨機獨立地組合,因此,對于某個性狀(如:乙醇脫氫酶的酶活性),人群可以依據與其表達水平直接相關的遺傳變異(如:ALDH2基因的rs671多態)的基因型進行分類[如:AA(正常酶活性)、AG(50%酶活性)及GG(無酶活性)3組]),這種大自然的隨機化設計恰巧類似遺傳流行病學研究中常用的隨機對照試驗(randomized controlled trial, RCT)。

因此,如果某個遺傳變異與感興趣的暴露因素(X)相關,且與結果(Y)無關,那么該遺傳變異可以作為“工具變量”(instrumental variable, IV)來代表暴露因素,從而推斷暴露因素對結果的因果影響[2-3]。在觀察性研究中,因果方向往往不明確,即X是否導致Y或Y是否導致X,而MR方法通過將遺傳變異作為IV,更好地幫助研究人員確定因果方向,從而解決觀察性研究中常見的混雜和反向因果問題,得出更接近因果關系的結論[4]。

近年來,MR分析在醫學研究中的應用加速發展,得益于以下幾個方面:首先,IV選擇自由度的提升,IV與X相關度越高,因果估計越可靠。大規?;蚪M數據的公開數據庫使得全基因組關聯分析研究(genome-wide association studies,GWAS)及通過各種高通量組學技術獲得的數量性狀位點(quantitative trait locus,QTL)[表達數據(expressin QTL, eQTL),宏基因組數據(microbial environmental genome QTL,mbQTL)及甲基化數據(methylation QTL,mQTL)等]研究對基因組變異認知程度的飛躍,顯著擴展了與表現型相關強IV的選擇[5];第二,隨著全球范圍內大規模隊列研究和生物銀行的建立,越來越多的人群遺傳數據及臨床數據可供研究人員使用,這有助于增加MR分析的統計功效和可靠性[6];第三,研究人員不斷改進MR分析的統計方法,顯著提高了因果推斷的準確性[7]。

本文將從MR分析的基本假設及常見設計類型,MR分析在具體實施方案中的關鍵挑戰及MR分析的應用前景等幾個方面進行闡述。

1 MR分析的基本假設及常見設計類型

MR分析的根基是由遺傳變異作為IV,而有效的IV需同時滿足以下3個關鍵假設定義[8-9]:

(1)相關性假設(relevance assumption):即相關性,遺傳變異G必須與感興趣的風險因素X相關聯。這意味著這些變異可以影響暴露因素的變異。這個假設的合理性取決于G是否真的與X相關,以及G對X的影響程度。

(2)獨立性假設(independence assumption):即獨立性,遺傳變異G不能與Y存在共同的原因。換句話說,G對Y的影響不能通過其他因素介導。這是為了避免混雜的影響,確保G對Y的影響是直接的。

(3)排除限制假設(exclusion restriction assumption):即排他性,遺傳變異G對Y的影響必須僅通過X進行介導。即G不能直接影響Y,而必須通過其關聯的X來影響Y。這個假設的合理性確保了遺傳變異作為工具變量的有效性。

MR分析發展至今,有多種不同的設計類型,同類問題的多次MR研究對比能更好地闡述MR實施方案的發展和革新,如以探究心血管疾病——冠狀動脈粥樣硬化性心臟病(coronary artery disease,CAD)、心肌梗死(myocardial infarction,MI)等的風險因素而采用多次不同MR分析方法的研究為例:

單階段MR(one stage Mendelian randomization):為最早的MR,研究通過假設G-X關聯,同時G-Y關聯,推測X與Y關聯,類似“黑盒算法”,研究中使用一兩個已知的遺傳變異來作為IV,通過MR分析進行因果推斷,研究[10]利用一個遺傳變異,KIV-2 基因重復,作為IV,該遺傳變異重復次數升高,與脂蛋白(a)水平降低相關,同時該遺傳變異重復次數升高與MI發生的風險降低也相關,由此得出了遺傳數據支持脂蛋白(a)水平升高與MI風險增加之間的因果關系的推論。然而,這種方法由于因果關聯的效應大小無法用數值估計而未能廣泛應用。

單樣本MR(one sample Mendelian randomization):為對于同一數據集的進階研究方法,假設一個遺傳變異G與某個特定的表型特征暴露X相關聯,那么該遺傳變異G也應該與該表型特征的結果Y相關聯,利用最小二乘法回歸模型(two-stage least squares,2SLS)統計分析方法進行計算,提供因果推斷的依據。如Patrick等[11]研究,通過關聯分析確定的LDLR基因內單核苷酸多態性(single nucleotide polymorphism, SNP) rs2228671的T等位基因可降低低密度脂蛋白膽固醇(low density lipoprotein-cholesterol,LDL-C)水平(擁有0,1,2個T等位基因的LDL-C水平分別為:基線,-3 mg/dL,-6 mg/dL),同時,該等位基因與CAD的風險顯著降低相關。通過邏輯回歸及MR模型計算,表明LDLR基因座的遺傳變異與LDL-C的變化以及CAD的風險之間存在功能性聯系。但是,單樣本MR僅限于單個樣本,IV的選擇范圍比較有限,且因果關系僅來自同一數據集,容易受弱工具偏倚(weak instrument bias)[12]、水平多效性(horizontal pleiotropy)干擾影響。

兩樣本MR(two sample Mendelian randomization):以往MR分析常用的外部數據集大多來自Meta分析,但隨著技術的發展和遺傳數據的增加,尤其是隨著GWAS成為探索基因與疾病關聯的主要方法之一,大量由GWAS研究產生的SNP及拷貝數變異(copy number variation,CNV)等作為潛在IV的強大數據來源,利用這些SNP或CNV與表型特征(例如暴露因素X或疾病結果Y)之間的關聯來推斷因果關系[13-14]。而且,大量的GWAS研究數據結果的共享及全球協作組的建立,打破了單樣本MR需要在同一樣本中同時測量X(暴露因素)及Y(疾病結果)才可進行分析的短板,研究人員可以利用分別來自相似人口背景的兩個不同數據集,一個用于分析GWAS數據中G和X(暴露因素)之間的關聯,另一個用于分析G和Y(疾病結果)之間的關聯,并通過樣本量優勢及優化的統計分析方法保障更好的因果估計及敏感性分析,這種“借力打力”的研究方法被稱為MR。如在觀察實驗[15]提示維生素 E 對心臟有保護作用,而干預試驗未能證實其有益作用,甚至一些研究[16]報告了維生素 E 補充劑對CAD的不利影響。Wang等[17]基于GWAS研究的數據進行了一項兩樣本MR研究,以調查維生素 E 與 CAD 風險之間的因果關系。根據GWAS結果,rs964184、rs2108622 和 rs11057830 作為與暴露“維生素E”關聯的IV;而與CAD/MI及LDL-C/三酰甘油(triglyceride,TG)/總膽固醇(total cholesterol,TC)關聯的IV則選自大型生物數據庫“冠狀動脈疾病全基因組驗證和Meta分析與冠狀動脈疾病遺傳學聯盟”[即CARDIoGRAMplusC4D: Coronary Artery Disease Genome Wide Replication and Meta-analysis (CARDIoGRAM) Plus the Coronary Artery Disease (C4D) Genetics]及“國際脂遺傳學聯盟”(即Global Lipids Genetics Consortium),研究結果顯示,維生素E的攝入增高會同時增加LDL-C、TG和TC的濃度,且較高的維生素 E 可能會增加 CAD/MI 的風險。兩樣本MR也是在目前大數據背景下最常見的MR設計類型,但是要注意的是,由于兩樣本MR需要使用外部數據,可能會引入選擇性偏倚,如使用GWAS研究結果作為IV而產生的勝利者效應(Winner’s Curse),導致IV與X之間的關聯被高估,而因果關聯被低估[18]等問題。

雙向MR(bidirectional Mendelian randomization,BMR):在觀察性研究中,因果關系可能是雙向的,即X可能導致Y,同時Y也可能導致X,排除反向因果也是在單樣本MR及兩樣本MR研究中的一個弱勢。與傳統的兩樣本MR相比,BMR分析方法可以解決潛在的“因果交織”問題,該方法的本質是兩樣本MR的變體,專門用于評估兩個潛在相互關聯的因素之間的因果關系。研究方案是同時在兩個方向分別進行兩樣本MR分析,試圖確定因果關系的方向,從而避免了反向因果關系所引起的混淆,更全面地理解因果關系。如一些觀察性臨床研究提示CAD和房顫(atrial fibrillation,AF)相互加重,Tao等[19]通過雙向MR的方法評估CAD和AF之間的因果關聯,根據結果提示CAD患者與AF風險升高相關,而在AF患者中卻未發現與CAD風險的因果關聯。

兩階段MR(two step Mendelian randomization,TSMR):在因果推斷中有一個重要的概念,“Collider偏差”(Collider bias),指的是當一個變量被作為中介因素或共同因素同時影響兩個其他變量時,可能引入虛假的相關性或偏倚,如“冰淇淋消費與溺水事件增加相關”,但實際上并不是冰淇淋與溺水之間有真正的因果關系,而是在夏季時,人們更容易消費冰淇淋和游泳,從而引發了Collider偏差。針對這個問題,兩樣本MR的另一個變體——TSMR可以用于評估探討中介變量是否介導了暴露X對結果Y的影響,不僅僅局限于單一因素與某一結果的關聯,適用于尋找多個因素之間的復雜關系,通過“拆包”的方法推測暴露X到結果Y的發生機制。如Lin等[20]研究采用了兩階段MR方法,以血糖和血脂風險因素為中介變量,確定血糖和血脂風險因素在體質量指數(body mass index,BMI)對CAD的影響中是否有介導作用。研究分別分析了BMI對CAD、2型糖尿病、空腹血糖、胰島素、糖化血紅蛋白(hemoglobin A1c, HbA1c)、LDL-C、高密度脂蛋白膽固醇(high density lipoprotein-cholesterol,HDL-C)和TG等血糖和血脂風險因素的影響,以及血糖和血脂風險因素與CAD的因果關系。研究結果顯示,升高的TG濃度和糖代謝不良可能介導了BMI對CAD的影響。

以上5種MR分析就是目前主流的MR分析類型的發展趨勢,每種設計類型都有其優勢和值得改進的地方。單階段 MR 簡單易行,適用于單個暴露因素和單個結果變量的情況,但可能受到IV假設不滿足和遺傳變異的限制。單樣本 MR 操作簡便,無須外部數據,適用于單個暴露因素和單個結果變量,但更容易受到弱工具偏倚、水平多效性干擾等影響。兩樣本 MR 提供更豐富的數據來源選擇,能夠評估因果關系在不同群體中的一致性,更好地控制水平多效性問題,但外部數據的引入,可能引入選擇性偏倚。雙向 MR 提供更全面的因果關系信息,可以支持因果路徑的雙向驗證,但需要同時滿足兩個方向的IV假設。兩階段 MR 支持多個因果關系的同時評估,可以發現復雜的因果網絡,但IV的有效性受到遺傳變異的強度和頻率影響,同時需要更多的數據和統計分析,結果的解釋更具挑戰。表1中將上述5種MR主要類型的基本原理、分析方法、優勢、弱勢及潛在改進方向進行了歸納匯總。

表1 常見的孟德爾隨機化設計類型特點Tab.1 Common designs of Mendelian randomization designs and their characteristics

2 MR分析的具體實施方案中的關鍵挑戰及優化

2.1 如何選擇可滿足MR分析的核心假設的IV?

本文第二部分提到過MR分析的核心假設有3個:相關性、獨立性和排他性。

MR分析的首要步驟是選擇滿足MR分析的核心假設的IV。在實際研究中,如果關聯的暴露是某個mRNA表達水平或循環中的某種蛋白質時,一般用單個基因的變異;而當關聯的暴露是某個復雜性狀,也就是遺傳學概念中的多基因性狀時,則IVs需要用多個基因的區域表示。確保IV與目標表型特征X之間存在穩健的強關聯是確保因果推斷可靠性的首要步驟,由于GWAS的顯著性閾值設定是根據同時檢測百萬變異進行顯著性矯正,即5×10-8,因此,在IV的篩選中一般以與暴露關聯P<5×10-8作為顯著性閾值。事實上,在3個核心假設中滿足相關性是最容易實現的,而確保滿足獨立性和排他性需要注意以下幾個關鍵點:

1)破壞相關性和獨立性原則的“弱工具偏倚”

近年來GWAS和QTL作為復雜性狀關聯研究的熱點,研究量井噴,這些數據集的公開共享極大的擴充了研究人員對IV的選擇余地,但根據“常見疾病,常見變異”思想,即便達到顯著性閾值,其實篩選出的每個SNP對表型的貢獻都是微效的,不僅如此,對于復雜性狀來說,整體遺傳對于暴露的解釋都僅為較小的一部分,使得MR研究比傳統的流行病學估計具有更寬的置信區間(confidence interval,CI)[21];此外,受到混雜因素影響,即遺傳變異通過暴露外的其他因素影響結果,因此雖然IV技術在有混雜因素的情況下是近似無偏倚,但IV在有限的樣本量下,會出現遺傳變異只能解釋小部分暴露或關聯強度不夠的情況,被稱為“弱工具偏倚”[12-13]。

弱工具偏倚的大小取決于遺傳變異與暴露之間的關聯強度,單樣本MR研究中弱工具偏倚會偏向產生假陽性的結果,而兩樣本MR研究中會傾向低估關聯的結果[22]。在研究中,須通過F統計量(F-statistic)來衡量、評估及排除。具體來說,在回歸模型中,1/F統計量為回歸方程中IV估計量的偏差與觀察估計量的比值,如IV估計量的偏差是觀察估計量偏差的10%時,F=10。F統計量的值越大,說明模型中的IV對暴露X的解釋能力越強,因此,將F>10作為經驗閾值判定IV的強度。R2及統計功率等也被用于剔除弱工具變量。

2)違反獨立性原則的連鎖不平衡和人口分層

在某些基因座位上,變異位點可能在進化過程中保持在一起,這種現象被稱為連鎖不平衡(linkage disequilibrium)。當兩個或多個位點之間存在連鎖不平衡時,意味著一個位點上的變異信息可能提供了有關另一個位點的信息,在作為IV候選時,可能違反獨立性原則。另一個需要關注的則是人口分層(population stratification),指研究受試者群體由于地理、種族和族群差異,分為不同的亞群或亞型,這些亞群之間可能存在遺傳和/或環境上的差異。這些差異可能導致了不同亞群之間基因型、表型和關聯結構的差異,干擾特征相關的遺傳因素的篩選。

為了避免這樣的影響,在MR實踐當中,可通過使用多個獨立基因位點作為IV的組合,減輕單個IV的連鎖不平衡的影響,同時使用協變量(例如,如通過主成分分析獲得人口學特征)進行協變量平衡檢測(covariate balance testing),檢測不同人口子集之間的差異,并采取合適的統計方法來校正差異,確保MR分析中獨立性原則的滿足,減輕連鎖不平衡和人口分層對研究結果的潛在干擾,提高因果推斷的可靠性。

3)違反獨立性和排他性原則的“水平多效性”

敏感性分析是評估結果的關鍵一步,雖然這步操作通常在流程中置于因果估計之后,但它的本質是用于檢驗因果估計對基礎假設的依賴程度,有助于評估結果的可靠性,包括:①異質性檢驗(heterogeneity test): 用于評估在不同基因位點上的效應估計值之間是否存在顯著的異質性(變異)。如果不同基因位點的效應估計值之間存在顯著的異質性,那么可能存在基因位點間的不一致性,這可能影響到因果估計的穩健性。②水平多效性檢測(horizontal pleiotropy detection):指一個遺傳變異對多個相關性狀(包括暴露因素X和結果Y)產生影響,而不僅僅影響研究關注的因果路徑。如果存在水平多效性,那么IV可能不滿足MR的假設,從而導致因果估計的偏差。③逐個剔除檢驗(leave-one-out test):通過逐步排除每個基因位點,重新進行因果估計,以評估每個基因位點對結果估計的影響。這有助于確定某個特定基因位點是否對因果估計產生重大影響,以及它是否主導了因果關系的估計。

2.2 因果估計的統計學方法如何選擇?

一旦IV的有效性得到確認,就可以使用它們進行因果估計。在不同的MR設計類型中的因果估計方法主要有:

1)2SLS[23]:選擇一個或多個IV,與暴露X(如表型)相關,但與結果Y的因果關系較弱。利用所選的IV與X之間的關系,進行第一階段回歸分析,IV與X的線性回歸模型,計算IV對X的影響,獲得暴露因素預測值(predicted value,P)。第二階段使用P作為因變量,對Y進行回歸分析,估計IV對Y的影響,從而間接估計X對Y的因果效應。

2)逆方差加權法(inverse variance weighted,IVW)[14]: 這是MR研究中最常用的方法之一。IVW方法將每個基因位點的效應估計值按照其方差的倒數進行加權平均,得到最終的因果估計值。這種方法假設基因位點的效應估計值是無偏的,并且沒有遺傳變異間的相互作用。

3)加權中位數法(weighted median method,WMM)[24]:與IVW方法不同,加權中位數法并不要求所有基因位點的效應估計值都是無偏的。它選擇中位數效應估計值作為因果估計的點估計,通過將基因位點的效應估計值和方差進行加權。這種方法在一些情況下對異常值更具魯棒性,因為它不受單個基因位點的影響。

4)MR-Egger法[25]:MR-Egger方法是用于處理IVW方法中可能存在的拮抗性或放大性偏差的一種技術。它與IVW最大的區別是在回歸模型中保留“截距”,允許基因位點的效應估計值存在某種程度的偏斜,可以檢測和校正因拮抗性或放大性而引起的估計偏差。MR-Egger法通過擬合一個帶有截距的回歸模型,估計因果效應并進行偏斜校正。

那么眾多算法的分析結果中如何取舍呢?2SLS常用于對單樣本MR進行分析,而在兩樣本MR及其變體的分析中可遵循:①在沒有異質性和多效性的情況下,首選使用IVW方法的估計結果;②如果存在異質性但沒有多效性,首選使用WMM方法的結果,也可以考慮使用IVW的隨機效應模型;③當存在多效性時,首選使用MR-Egger方法計算出的結果。

此外,研究人員還通過更新算法模型來提升結果的可靠性,如新模型MRMix通過放寬IV與X關聯的閾值納入了更多的IV進行研究,同時通過采用正態混合模型來描述潛在效應大小分布,提供了幾乎無偏或更小偏差的因果效應估計,提高了效能的同時也提高了精度。采用該方法的研究[26]顯示HDL-C和TG對CAD風險沒有因果效應。

2.3 結果的外推及如何進行生物學解讀?

當研究人員獲得MR分析的結果后,如何進行結果的外推及生物學解讀仍須謹慎,在解讀的過程中可能涉及到以下幾個問題:

1)時間尺度和發展補償:MR研究涉及的遺傳變異是終生變異的結果,而病理水平的發展是逐漸累積并不可逆的,且生物體在不同時空有不同的遺傳效應;

2)常規水平與病理水平:在使用MR研究分析結果作為藥物篩選的理論支持時,需要考慮MR研究通常關注常規的暴露水平,而難以評估病理水平的短期靶向干預效果;

3)小差異的外推:由于遺傳變異引起的暴露變化通常很小,而病理變化或藥物干預的效果可能更加劇烈,所以需要更大的樣本量進行MR分析來檢測效應,且需要依賴外推法來估計干預效果;

4)遺傳和干預效應的不同途徑:遺傳變異和干預措施通常不會對暴露產生相同的影響機制,不同途徑和交互效應可能會導致不同的結果。

因此,在生物學外推和解讀時需要謹慎考慮統計學和生物學的復雜性,以確保結果的生物學解釋具有可信度。

2.4 其他需要考慮的問題

除了以上幾點問題外,還有一些問題值得考慮。由于絕大多數GWAS研究主要關注人類基因組,因此在基于GWAS結果的MR研究中,IV的選擇具有一定局限性,即只考慮了宿主基因組。那么海量的宏基因組數據可否提供IV幫助人們更好地了解疾病的全貌?剛剛提到的時間尺度和發育問題,最直觀的就是發育和衰老研究中的表觀遺傳學范疇是否可以進行MR研究?大多數的疾病都是基因-環境共同影響,那么如何將基因和環境因素共同融入MR研究?這就催生了基于多組學匯總數據的MR分析方法來確定疾病中相關的假定因果效應和潛在機制,以更全面地理解疾病和健康的復雜性。如:宏基因組研究關注微生物群落、細菌、病毒等宿主以外的基因組,研究人員可以探索通過宏基因組測序獲得的mbQTL數據進行MR研究,建立mbQTLs與健康、疾病和代謝相關的潛在關系[27];如果研究人員更關注基因表達、DNA甲基化、組蛋白修飾等表觀遺傳學變化對疾病和生理過程的影響,可利用mQTLs數據尋找合適的IV,進行MR分析,確定表觀遺傳學變化與特定疾病或生理現象的因果關聯[28];群體規模足夠大的研究可以用于執行基因-環境MR,以確定特定基因與環境因素如飲食、生活方式、藥物暴露等之間的互動,從而更好地理解這些相互作用對健康和疾病風險的影響[29]。

3 MR的應用前景

MR作為“大自然饋贈的RCT”,其應用前景在生物醫學研究和臨床實踐中具有重要的意義。盡管MR并不能完全替代RCT,但它提供了一種有用的補充手段,尤其適用于以下情況:①探索因果關系:MR可以幫助研究人員確定可改變的風險因素與結果之間的因果關系。通過利用自然界中存在的遺傳變異,MR可以模擬隨機對照試驗的特性,從而提供更接近因果關系的結果[30]。②選擇治療干預靶點:對于臨床干預的目標選擇,MR提供了有價值的流行病學方法。通過評估某個生物標志物或治療目標與特定疾病之間的因果關系,研究人員可以優先選擇有效的干預靶點,從而提高治療效果[31-32]。③長期基于人群的干預:MR估計尤其適用于長期基于人群的干預研究。在這種情況下,難以實施大規模的隨機對照試驗,而MR可以提供一種更可行的選擇。

然而,需要注意的是,雖然MR可以為臨床干預的效果方向提供定性信息,但遺傳推導的估計可能與實際干預效果大小不一致。因此,在使用MR方法時,需要將估計結果與實際臨床數據相結合,進行綜合評估。綜合來看,MR方法在探索因果關系、選擇治療干預靶點等方面具有廣闊的應用前景。隨著基因組學和遺傳研究的不斷發展,MR將繼續為生物醫學研究和臨床實踐提供有力的支持和指導。然而,在使用MR方法時,需要謹慎選擇工具變量,并結合實際臨床數據進行綜合評估,以確保結果的準確性和可靠性。

致謝:本文的整體思路由丁衛教授指導完成,特此感謝!

利益沖突所有作者均聲明不存在利益沖突。

作者貢獻聲明王晶:論文撰寫;張國燕:論文修改;程杉:命題的提出、設計。

猜你喜歡
遺傳變異因果關系關聯
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
玩忽職守型瀆職罪中嚴重不負責任與重大損害后果的因果關系
先導編輯技術可編輯近90%的人類遺傳變異
“一帶一路”遞進,關聯民生更緊
基于改進遺傳變異算子的海島算法
做完形填空題,需考慮的邏輯關系
奇趣搭配
智趣
幫助犯因果關系芻議
火力楠子代遺傳變異分析及優良家系選擇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合