?

分位數回歸方法簡介及其在醫學研究領域中的應用

2024-02-08 11:30潘璐璐余勇夫秦國友
復旦學報(醫學版) 2024年1期
關鍵詞:因變量位數均值

潘璐璐 余勇夫 秦國友

(復旦大學公共衛生學院生物統計學教研室 上海 200032)

在公共衛生和醫學領域的研究中,經常需要探索暴露因素和某一連續型結局變量之間的關聯。以探索睡眠時間與抑郁水平的關聯為例,通過均值回歸分析可以揭示睡眠時間對研究人群抑郁水平均值的影響。然而,由于抑郁程度較高的群體相較于抑郁程度較低的群體具有更低的血清素水平和更高的炎癥水平,睡眠時間的改變對這兩個群體的抑郁水平會產生不同影響[1-2]。因此,均值回歸的結果可能掩蓋了睡眠時間對不同抑郁程度群體的抑郁水平的真實影響,我們需要考慮不同抑郁程度下,睡眠時間和抑郁水平關聯是否存在異質性。分位數回歸方法可以很好地解決這一問題,該方法可以捕捉自變量對因變量分布不同分位數的影響。例如:當考慮抑郁水平分布0.5 的分位數(中位數)時,分位數回歸能夠揭示睡眠時間對處于抑郁水平中間位置的研究人群抑郁水平的影響;當分位數為0.9 時,分位數回歸能夠揭示睡眠時間對抑郁程度高(抑郁水平處于研究人群前10%)的群體抑郁水平的影響。分位數回歸能夠探索在因變量不同分位數水平下自變量與因變量的關聯性,從而全面揭示兩者之間的關系。

目前,分位數回歸方法已得到了廣泛的應用。在精神疾病研究領域中,一項大樣本量的橫斷面研究[3]揭示了精神障礙狀態與殘疾水平的關聯在高殘疾人群中更強,反映了對此群體進行精神健康護理的重要性。在營養流行病學研究領域中,有學者[4]通過分位數回歸方法發現,不溶性膳食纖維攝入量和升糖指數與糖化血紅蛋白水平的關聯在血糖控制狀況較差的中國糖尿病患者中更強,為糖尿病患者在營養管理方面提供了重要線索。此外,分位數回歸方法也是環境流行病學研究領域常用的一個有價值的工具。一項利用該方法的研究[5]發現,空氣污染對心血管疾病相關的DNA 甲基化程度較低的老年男性的影響更強;另一項研究[6]發現,兒童早期的空氣污染暴露與青春期動脈粥樣硬化標志物低水平相關,提示了降低生活早期交通相關空氣污染對于延緩動脈粥樣硬化及心血管疾病發展的重要性。因此,分位數回歸方法能全面地描述因變量不同分位數下自變量和因變量的關聯,識別高危人群或者干預的最佳受益人群,為干預措施的制定提供線索。

分位數回歸方法原理假定y是感興趣的連續型因變量,X=(X1,X2,…,Xp)是p維自變量,分位數回歸模型可以表示為:

其中i指第i個樣本,Qτ(yi|Xi)是給定自變量Xi下yi的第τ個條件分位數,不同于普通最小二乘回歸模型中給定自變量Xi下yi的條件均值E(yi|Xi)。表示給定其他自變量值后,Xj每改變一個單位,Qτ(yi|Xi)的改變程度。參數βτ可以通過下面的公式進行估計:

其中,ρτ(u)是分位數回歸的損失函數,I(·)是指示函數。當yi-Xi βτ≥0 時,ρτ(yi-Xi βτ)=(yi-Xi βτ)τ;當yi-Xi βτ<0 時,ρτ(yi-Xi βτ)=(yi-Xi βτ)(τ-1)??梢允褂锰荻认陆档葍灮椒ㄗ钚』@個損失函數來獲得參數的估計[7]。在R 語言中,quantreg包的rq()函數提供了實現分位數回歸的工具,函數內部使用了相應的優化算法來擬合分位數回歸方法[8]。

實例分析我們通過以下實例分析來介紹分位數回歸方法的應用,以探索睡眠時間和抑郁水平的關聯。數據來源于2015 年1 月—2020 年3 月美國一項全國健康和營養調查(National Health and Nutrition Examination Survey,NHANES)收集的研究數據(https://www.cdc.gov/nchs/nhanes/index.htm)。這是一項基于人群的橫斷面調查,旨在收集美國成人和兒童的健康和營養狀況信息。NHANES 采用患者健康問卷(Patient Health Questionnaire-9,PHQ-9)來評估調查對象的抑郁程度,問卷一共包括9 個詢問過去2 周內抑郁癥狀出現頻率的問題,回答分為“完全沒有”、“幾天”、“半天以上”和“幾乎每天”4 個類別,分值為0~3,總分為0~27。自我報道的睡眠時間定義為工作日晚上平均睡眠時間,對照組正常睡眠定義為6~9 h,短睡眠和長睡眠時間分別定義為少于6 h 和超過9 h。協變量調整了年齡、性別、種族、教育程度、家庭收入、婚姻狀況、體育活動、吸煙狀況和飲酒狀況。本研究隨機選取了5 000 名年齡范圍在18~80 歲的研究對象,排除睡眠時間、抑郁程度得分和重要協變量有缺失數據的研究對象,使用完整數據集進行分析。

圖1 展示了抑郁水平不同分位數下回歸系數的折線圖,圖中的陰影部分表示分位數回歸系數估計值的95%置信區間(95%CI),水平實線是普通最小二乘回歸的系數估計值,虛線為95%置信區間。均值回歸結果表明,短睡眠和長睡眠時間相比于正常睡眠時間,平均抑郁水平顯著增加了1.80(95%CI:1.43,2.17)和1.34(95%CI:0.78,1.91)。而分位數回歸結果顯示,隨著分位數的增加,睡眠時間和抑郁水平的關聯強度也增加,在較高分位數(例如0.8 或0.9),短睡眠和長睡眠時間與抑郁水平的關聯強度均強于均值回歸估計的關聯強度(表1)。例如,短睡眠時間和長睡眠時間相比正常睡眠時間,0.9 分位數的抑郁水平分別增加了3.99(95%CI:2.57,5.42)和2.73(95%CI:1.13,4.32)。因此,睡眠時間對抑郁水平的影響程度在抑郁水平不同分位數下是異質的(異質性檢驗的P均<0.001)。

表1 均值回歸模型和分位數回歸模型的系數估計值Tab 1 Coefficients of mean regression model and quantile regression model

圖1 分位數回歸系數折線圖Fig 1 Line chart of quantile regression coefficients

總結在公共衛生和醫學研究中,我們習慣報道暴露因素對結局均值的影響。然而,這可能掩蓋在結局分布不同分位數水平下可能存在的關聯的異質性,我們可以通過分位數回歸方法全面展現暴露和結局在結局分布不同分位數上的關聯。正如我們的案例所示,僅報道均值回歸的結果,會高估睡眠時間對低抑郁程度群體的抑郁水平的影響,同時低估睡眠時間對高抑郁程度群體的抑郁水平的影響。而分位數回歸能夠呈現自變量在任意分位數下與因變量的關聯,揭示了均值回歸無法發現的結果:(1)在低抑郁程度的群體中,相比正常睡眠時間,睡眠時間不足或過長與抑郁水平沒有顯著關聯;(2)抑郁程度越高的群體,其抑郁水平受睡眠時間不足或過長的影響更大。因此,采用該方法得到的研究結果為將來的干預方案提供了有參考價值的信息:嚴重的抑郁癥患者在治療中可能需要個性化的睡眠管理,即使在抑郁癥狀減輕后也需要加強睡眠護理[9]。此外,分位數回歸對異常值更穩健,無需同方差假設[10]。

因此,分位數回歸方法是一種適用于分析連續型因變量和感興趣自變量之間全面關聯的有力工具,其應用不需要額外的數據,卻能夠提供更為豐富的研究結果[11]。目前在R、Stata 和SAS 中都有完善的軟件包可用于實現分位數回歸。在中大型醫療健康數據的研究中,使用分位數回歸可以提供全面的線索,為后續深入研究提供有力支持,還可以識別出對暴露因素更敏感的亞組人群,為制定針對該人群的臨床和公共衛生干預措施提供建議。我們建議,研究人員在今后的研究中可以嘗試運用分位數回歸方法,以揭示自變量和因變量之間的全面關聯。

作者貢獻聲明潘璐璐 數據整理,結果分析和解釋,論文撰寫。余勇夫 課題構思與設計,論文修訂。秦國友 課題構思與設計,獲取資助,監督指導,論文修訂。

利益沖突聲明所有作者均聲明不存在利益沖突。

猜你喜歡
因變量位數均值
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
五次完全冪的少位數三進制展開
適應性回歸分析(Ⅳ)
——與非適應性回歸分析的比較
偏最小二乘回歸方法
均值不等式失效時的解決方法
均值與方差在生活中的應用
關于均值有界變差函數的重要不等式
對偶均值積分的Marcus-Lopes不等式
遙感衛星CCD相機量化位數的選擇
“判斷整數的位數”的算法分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合