?

基于工具變量的丁苯酞-急性缺血性卒中的因果效應評估

2024-03-04 06:05林容基黃志新蔡瑞初

廣東工業大學學報 2024年1期

關鍵詞：偏差分配工具

林容基，陳薇，黃志新，蔡瑞初

（1.廣東工業大學計算機學院, 廣東廣州 510006；2.廣東省第二人民醫院神經內科, 廣東廣州 510317）

在觀察性研究中，推斷某藥物對患者預后情況的因果效應是一項常見而重要的課題。然而，在實際應用中，觀察性數據中常伴隨著未觀測到的混雜變量，導致觀察到的相關性往往不僅由因果關系引起，還受其他因素的干擾。因此，未觀測到的混雜變量需要被特別考慮。當未觀測變量對實驗結果產生直接或間接的影響時，準確估計因果效應將變得復雜。例如，在試圖估計藥物治療效果的觀察性研究中，藥物的分配方式受多種因素影響，其中一些因素(如社會經濟地位)難以量化，成為無法觀測的混雜因素。盡管隨機對照試驗是推斷因果關系和計算因果效應的最有效方法，但其成本昂貴，時間消耗較大，且在倫理道德方面存在限制，因此觀察性數據研究在研究變量之間的因果效應方面成為一種常見的替代方法。

目前，用于估計觀察性數據中變量之間的因果效應的方法[1]包括但不限于以下幾種：首先，基于分層[2]的方法，通過將研究群體根據混雜因素分層為不同子群，計算每個子群的平均效應；其次，基于擬群思想的方法，例如重加權方法[3]、匹配方法[4]、基于樹的方法[5]、表征學習方法[6]和多任務學習方法[7]等；第三，采用僅基于觀察性數據訓練的潛在結果估計模型，然后校正由于選擇偏差引起的估計誤差，例如元學習方法[8]。然而，這些方法通常建立在無混淆假設上，即所有的混雜因素得到充分測量和控制，這在實際應用中往往難以實現。

處理未觀測混雜因素的方法有2種：一是當偏差較小或可承受有偏、非一致性估計量的后果，可以選擇忽略這些因素；二是在利用大規模數據時，采用代理變量來取代這些未觀測的混雜因素。然而，當偏差無法忽略且難以找到合適的代理變量時，工具變量分析方法[9]成為一種值得考慮的選擇。

工具變量(Instrumental Variables,IV)分析提供了一種繞過無混淆假設進行因果推斷的方法，特別在流行病學研究中變得越來越普遍[10-11]。在臨床試驗數據中，通常缺乏與所研究的解釋因素相關的混雜因素信息，從而在計算解釋因素與預后結果之間的關系時會出現較大的偏差。而工具變量是可觀測的變量，用于預測解釋變量，但不直接或間接影響結果變量，并且與混雜變量獨立。通常情況下，找到合適的工具變量具有挑戰性，但如果找到了適當的工具變量，便可以得到更加無偏或接近真實值的結果。在流行病學背景下，醫生的處方偏好可以作為工具變量來評估藥物效果[12]，與感興趣的暴露變量相關的基因序列也可以作為工具變量[13]，后者叫做孟德爾隨機化[14]。工具變量的方法可以顯著減少由于未觀測混雜因素引起的偏差，在一定程度上解決混雜因素導致的偽關聯問題。盡管該方法仍需要進一步完善，但它可以成為實驗分析的有力工具之一。

本文運用工具變量法在急性缺血性卒中患者數據中進行了丁苯酞藥物療效的因果效應分析，并得出經校正后的因果效應。

1 基于工具變量的因果效應計算

1.1 問題定義和假設

在回歸模型中，當解釋變量與誤差項之間存在相關性時，工具變量法可以用來獲得一致的估計量。這種方法的基本思想是引入一個額外的變量，稱為工具變量，它與解釋變量相關，但不與結果變量直接或間接相關，且僅通過解釋變量影響結果變量。通過工具變量，就可以在觀察數據中估計或確定解釋變量對結果變量的因果效應，但為了得到可靠的結果，必須滿足一些必要的假設[15]。

在本文中，用變量X表示實際接受的治療(1表示用藥，0表示不用藥)，變量Y表示結局事件(1表示康復，0表示未康復)，變量Z表示隨機分配指標(1表示分配到用藥組，0表示分配到對照組)?？梢杂^察到變量Z只與變量X相關，且不與結局事件直接或間接相關，因此變量Z為工具變量。變量U表示同時影響變量X和變量Y的所有變量的集合，即混雜變量。對于變量Z，必須滿足以下3個基本假設(通常被稱為3大基本假設)：(i)Z與X相關；(ii)Z與U獨立；(iii) 在給定X和U情況下，Z與Y獨立。工具變量模型如圖1所示。

圖1 工具變量模型Fig.1 The model of instrumental variables

需要注意的是，在工具變量的3大基本假設中，只有假設(i)是可驗證的，它涉及到Z與X之間的直接相關性。只需證明Z跟X存在相關性，即E[X=1|Z=1]-E[X=1|Z=0]為正。假設(ii)和假設(iii)通常只能被假設為成立，它們涉及到Z與U之間的關系，這些關系往往是不可驗證的。因此，工具變量方法在應用時需要謹慎考慮這些假設的合理性。

1.2 工具變量估計量的計算方法

工具變量分析采用雙階最小二乘法來擬合線性模型以估計因果效應。在此模型中，自變量表示為X，個體i是否接受治療為Xi。因變量為Yi，假定研究中有n個個體，下面的線性模型被用于描述X與Y之間的關系：

式中：i=1,···,n。

假定Xi是隨機的，而式(1)中的εi需符合以下最基本的假定：

式(3)中的協方差為零的假設通常被稱為“外生性”假定。在這一假定下，關于Xi取式(1)兩邊的協方差，得到

上述估計通常是最小二乘的解，如果將式(1)看作一個數據生成的機制，在式(2)、(3)的假定下，便可以估計出因果效應β。

問題的關鍵在于，式(3)往往不成立，即cov(Xi,εi)≠0。例如，如果患者對自身的預后期望良好，那么更有可能選擇不接受治療。因此，包含個體i的其他所有隱藏信息的變量 εi不再與Xi不相關。這種情況下，最小二乘的估計值收斂到β +cov(X,ε)/var(Xi)。

此時，引入工具變量Zi。因為Zi的隨機性，可以假定cov(Zi,εi)=0。而由于X和Y之間存在混雜因素U，兩者之間的因果作用是不可以用線性回歸相合估計的。工具變量Z的存在，使得X到Y的因果作用的識別成為了可能。

此時，在線性模型式(1)兩邊關于Zi取協方差，得到

給定x,y和z的樣本數據，便可以得到式(6)中的IV估計量。式(1)中 α^ 的 IV估計量即為：α ^ =y-^βx。當變量X，Y，Z都為二值時，可以采用Wald估計法，將式(6)化簡為

式中：YX=1和YX=0分別代表治療變量X取值1和0時，觀察到的結局變量Y。

式(7)中的分子表示Z對Y的影響，也被稱為治療意向效應；而分母表示Z對X的影響，表示被試個體的配合程度。如果被試個體完全配合研究人員，那么分母等于1，X對Y的影響就等于Z對Y的影響。如果配合程度較低，分母就會趨近于0，從而X對Y的影響大于Z對Y的影響。

1.3 IV估計量的置信區間計算

當實際情況中治療變量x與混雜因素u相關時，用工具變量進行估計實質上不是無偏的。在小樣本情況下，工具變量估計量可能存在相當大的偏差，這就是為什么希望有大樣本的一個原因。

為了對效應 β進行推斷，需要一個可用于計算t統計量和置信區間的標準誤差，通常的做法是引入同方差性假設，這類似于普通最小二乘法(Ordinary Least Squares, OLS)情況下的處理方式。然而，同方差性假設現在是基于工具變量z，而不是基于內生解釋變量x來表述的。除了前述關于u、x和z的假設，還需要增加以下條件：

σ2的一致估計量的形式類似簡單OLS回歸中得到的σ2估計量：

2 實驗結果與分析

2.1 數據集說明

實驗覆蓋了2019年9月至2020年6月期間在卒中中心連續住院的123名急性缺血性卒中患者。數據集包括了基線人口統計學、臨床和實驗信息。該研究的主要結果是評估患者在接受治療后的3個月內是否具有良好的預后，其中主要是使用改良Rankin量表(mRS)評分進行評估。當患者的評分小于等于2分時，被視為預后良好(記為1)。當患者的評分大于2時被視為預后不良好(記為0)。需要強調的是，數據集中包括了患者按理論安排的用藥情況，丁苯酞對腦卒中患者來說并非指南推薦的治療藥物，故這種安排是隨機的并符合倫理原則。同時，數據集還記錄了患者實際用藥(通過定期回訪形式獲得相關信息)以及最終的預后結果。

為了評估丁苯酞對急性缺血性卒中是否具有治療效果，本文采用風險差(Risk Difference，RD)來衡量治療效應[17]。在Wald估計方法中，最小二乘法計算的因果效應估計也可以被稱為風險差估計[18]。風險差是干預組和對照組在解決事件發生概率上的絕對差值，也被稱為歸因危險度(Attributable Risk，AR)、絕對風險差(Absolute Risk Difference, ARD)和絕對風險降低率(Absolute Risk Reduction, ARR)。它反映了干預組中由于干預因素導致的凈結局事件水平(從干預組角度考慮)。當風險差等于零時，表示兩組之間沒有差異。如果研究結局為不利事件時，當風險差小于零時，表示干預可以降低結局風險。風險差異的計算方式如下所示。

在表1的分組情況下，風險差異的點估計RD為

表1 實驗數據分組情況Table 1 The grouping of experimental data

風險差異RD的抽樣分布近似正態分布，具有標準誤差SE:

式中：Z?為所選顯著性水平的標準分數。

根據風險差的定義，可以直接計算未經任何調整的風險差，即計算干預組和對照組結局事件發生概率上的絕對差值。然而，由于數據集不是隨機分配試驗，患者實際接受的治療(是否用藥)取決于患者個體的決策。例如，選擇不用藥的患者可能對自身的預后有更樂觀的態度，這間接地促進了良好預后的發生。這意味著數據中存在未觀測到的混雜變量(數據集中并無衡量心理等因素相關的指標)，且無法度量這些混雜變量。直接計算的效應將因此存在偏差，

本研究發現，理論用藥滿足工具變量的相關定義，因此，本文采用了工具變量來估計藥效，并將未調整的藥效估計、意向性分析(Intention-To-Treat Populaition, ITT)與工具變量估計進行了比較。下文將討論該數據集在工具變量的假設下進行的藥效估計。

2.2 數據集中的IV假設與驗證

本實驗的數據集滿足IV三大基本假設：Z表示治療分配，X表示實際接受的治療，Y表示結局事件。醫生為患者提供的治療方案對患者最終是否接受用藥有一定的指導作用，即實際接受的治療X受治療分配Z的影響，但是不完全由Z決定，同時計算可得E[X=1|Z=1]-E[X=1|Z=0]為正。由此可得，假設(i)成立；由于治療分配Z是隨機的，因此假設(ii)治療分配Z與結局事件Y獨立在理論上也是成立的。在給定實際接受的治療X和混雜因素集合U的情況下，治療分配Z獨立，所以假設(iii)理論上也成立。

由表2可見，在治療分配后實際接受治療的預后情況比僅僅根據治療分配決定的預后情況更加樂觀。這種差異很可能是由混淆因素U引起的，這也在一定程度上說明了在試圖直接估計治療X對結局Y的效應時，混雜因素的影響會導致結果出現偏差。

表2 隨機治療分配下實際接受治療的預后情況1)Table 2 Prognosis of actual treatment received under the randomized treatment assignment

當患者由于一些與結局Y相關的原因U而不遵守分配時，即X≠Z，混雜因素U將會對結果產生偏差，這稱為有偏差的治療選擇。例如，那些遵守醫生的治療分配(接受治療)的患者更可能自身狀況較差，因此即使接受治療，康復率也較低。在這種情況下，通過計算所有接受治療的患者的康復率來估計治療效應，將與那些遵守治療方案的患者混淆，因為通常來說，遵守治療方案的患者的身體狀況較差。

這些問題引發了ITT[19]這類方法的需求。這一方法的主要目的是保持兩組之間的基線特征均衡可比，通過隨機化，將除了研究因素外的其他變量完全均衡和匹配，以便更好地觀察干預結果。具體而言，如果某患者被隨機分配到A組，那么在意向性分析中，該患者的數據必須始終與A組相關，即使在治療過程中途退出，或者轉到B組接受其他治療，或者根本沒有接受任何治療。即僅根據治療分配來測試和估計效果，而不考慮實際接受的治療。然而，這種方法的批評者指出，實際接受的治療才是生物療效的來源，而與實際接受的治療相比，所分配的治療存在偏差，這種偏差不等于0。因此，IV方法提供了一種代替意向性分析這種有較大偏差的極端方法，即將治療分配Z作為一種工具來調整傳統方式分析接受的治療X對結局Y的影響。

2.3 實驗結果

本文分析了123位腦卒中患者在用藥組及對照組下的數據集特征，結果見表3。所選變量均為二值型，包括ASPECT評分、第14天NIHSS評分和mRS評分，當ASPECT評分小于7分、NIHSS14小于3分、mRS小于等于2分時，在各個指標的劃分標準下預后表現為良好，根據該標準將其轉換為二值型。同時，統計了臨床上常見的各特征下的人數及占比，如表3所示。

表3 病人特征Table 3 The characteristics of patients

表4則展示了在協變量為二分類的情況下，患者的風險差異數值。本文定義95%置信區間不包含0值時具有較強的關聯性。實際用藥與數據集測量的其他特征，如吸煙史和房顫，表現出較強的關聯性。然而，在工具變量的調整下(表4中第3列)，這些關聯性被減弱了。暗示著原本這些特征具有的較強關聯性可能是在未觀測變量的影響下表現出的偽關聯，這在計算最終的因果效應時會帶來偏差，而工具變量可以在一定程度上調整協變量帶來的偏差。

表4 實際用藥跟工具變量調整下治療與協變量的相關性Table 4 Correlations between treatment and covariates adjusted by using actual drug and instrumental variables

表5展示了未經調整的估計、ITT估計和IV估計的風險差異及置信區間比較。未經調整的估計及ITT估計是根據標準的風險差異計算的，而IV估計則根據工具變量的定義計算風險差異及置信區間。在3組實驗分析中，是否用藥與最終的恢復都呈正相關。這表明用藥對預后結果產生一定的積極影響，盡管需要注意到置信區間的范圍。

表5 風險差異及置信區間比較Table 5 Comparison of risk differences and confidence intervals

3 結論

本文提出了工具變量分析方法，分析丁苯酞-急性缺血性卒中問題，調整未觀測混雜變量對結局變量的影響，得到了更為無偏的因果效應估計。在實際數據集中的應用表明，這一方法在處理未觀測混雜變量問題時可以一定程度上修正未觀測混雜變量對結局變量帶來的誤差，在臨床醫學藥效分析領域具有可行性。在對實驗數據進行未調整的風險差異估計后，本文對其他變量進行了均衡的意向性分析的風險差異估計，最后進行了工具變量分析的風險差異估計。研究發現，這些分析顯示出藥效的估計呈現趨勢性的正值，暗示藥物可能對預后產生一定的積極作用，這為藥效分析提供了有益的參考。

然而，工具變量分析也存在一些局限性。首先，即使數據量足夠大，工具變量仍需要基于模型假設。其次，稍微違反假設(i)至(iii)可能會導致不可預測的極大偏移。第三，能夠使用工具變量的理想情形相較于其他傳統的方法更為罕見[20]。

在使用工具變量時，強烈建議慎重考慮模型假設，并進行敏感性分析以評估結果的穩健性。此外，為了更全面地理解工具變量的適用性，未來的研究可以進一步探討工具變量假設的合理性，并拓展研究對象以驗證方法的普適性。這將有助于深入理解藥效與預后之間的關系，為臨床實踐提供更有針對性的指導。

猜你喜歡

偏差分配工具

波比的工具

小太陽畫報(2020年11期)2020-12-10

波比的工具

小太陽畫報(2020年10期)2020-10-30

如何走出文章立意偏差的誤區

學生天地(2020年6期)2020-08-25

兩矩形上的全偏差

數學年刊A輯(中文版)(2020年2期)2020-07-25

應答器THR和TFFR分配及SIL等級探討

鐵道通信信號(2020年9期)2020-02-06

遺產的分配

數學大王·趣味邏輯(2019年5期)2019-06-13

一種分配十分不均的財富

小學科學(學生版)(2019年5期)2019-05-21

績效考核分配的實踐與思考

經濟技術協作信息(2018年30期)2018-11-22

“巧用”工具

讀者(2017年18期)2017-08-29

關于均數與偏差

系統醫學(2016年8期)2016-02-20

廣東工業大學學報2024年1期

廣東工業大學學報的其它文章: 基于單調排序與并行選擇的連續刪除堆棧譯碼器的硬件實現; 基于最小二乘孿生支持向量機的不確定數據學習算法; 移動邊緣計算系統的雙服務器協同與計算通信資源聯合優化; 基于循環獨立機制的交通流量預測; 不同晶面應變纖鋅礦GaN/AlN量子阱的價帶結構理論研究; 基于前景理論框架和Heston模型的行為期權定價

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合