?

第五講 中醫藥研究中直線相關與回歸的誤用分析

2023-12-23 10:12張婉君姚應水
現代中藥研究與實踐 2023年5期
關鍵詞:假設檢驗胃病回歸方程

張婉君,姚應水

(1.安徽中醫藥高等??茖W校 臨床醫學系,安徽 蕪湖 241002;2.皖南醫學院,公共衛生學院慢性病防制研究所,安徽 蕪湖 241002)

醫藥統計學在中醫藥研究中承擔著十分重要的角色,它是一種應用統計學原理和方法來分析醫藥數據的學科[1]。在中醫藥研究領域,常常需要研究兩個變量之間是否存在關系,例如中草藥的劑量與療效、中醫體質與疾病嚴重程度、中醫療法與預后等等,一般采用直線相關與回歸分析來驗證雙變量間的關系。然而,如果不能選擇正確的相關與回歸分析方法,盲目套用,將會掩蓋雙變量間的聯系,甚至帶來相反或錯誤的結論,嚴重影響論文的科學性與準確性[2]。因此,本文就中醫藥研究中關于直線相關與回歸存在的統計學問題做簡要闡述與分析,以期對中醫藥研究者有所幫助。

1 直線相關與回歸概述

1.1 中醫藥研究中常見的雙變量相關與回歸分析方法

直線相關分析方法是研究具有線性趨勢的兩變量是否存在關聯,關聯的方向和密切程度,反映兩變量的相關關系[3]。對于不同的變量類型,需要選用不同的分析。若兩變量屬于二元正態分布資料,可選直線相關分析。例:在中藥提取過程中,研究吸光度序列與提取液固體含量之間的相關性。而對于定量資料中不服從正態分布的資料,以及總體分布未知的資料和原始數據用等級表示的資料,應采用等級相關分析來描述兩個變量間關聯的程度與方向。例:某研究采用中藥治療重度貧血,探究患者血紅蛋白含量與貧血體征的關系。而對于至少一個變量為無序分類變量的兩分類變量關聯性分析,應采用兩種屬性獨立性的卡方檢驗。例:某研究探討中醫體質類型與胃病類型是否有關聯,將收治的胃病患者按主要的中醫體質類型與胃病類型兩種屬性交叉分類,分析中醫體質類型與胃病類型間的關聯。

直線回歸分析方法是研究具有線性趨勢的兩變量間的數量依存關系,通過易測的變量對未知的或者難以測量的變量進行估計,從而達到預測的目的[4]。若兩變量具有線性趨勢,且滿足正態分布,可采用直線回歸分析。例:研究中藥煎煮的相對密度與出膏率之間的關系。

1.2 直線相關與回歸的基本步驟及注意事項

在進行直線相關與回歸分析時,基本步驟如下:(1)首先要注意待分析的資料是否具有同質性,并且根據中醫藥相關專業知識來初步判斷兩變量間是否存在相關關系或者數量依存關系;(2)繪制兩變量的散點圖,觀察散點的分布,判斷兩變量是否存在線性趨勢,只有存在線性趨勢才能采用直線相關或回歸分析,如若發現異常值、離群值應該慎用線性相關或回歸;(3)根據資料的類型特點,嚴格選用合適的相關或回歸分析方法;(4)得出相應的統計量,相關系數、截距、回歸系數等,并對其進行假設檢驗;(5)根據統計學結果以及相關的專業知識,得出結論并判斷結論是否有實際的臨床價值[4]。

此外,還應注意以下幾點:(1)首先要根據專業知識考慮所作的分析有無實際意義,作直線相關與回歸分析要有實際意義。當有實際意義,并且準備進行直線回歸分析之前,應當先繪制散點圖。如果各散點呈直線趨勢,再作直線相關與回歸分析。如果各散點呈某種類型的曲線趨勢,則應經過變量變換,使其呈直線趨勢后(稱為曲線直線化),再作直線相關與回歸分析,最后作相反的變換,轉變成曲線回歸方程。若不能使其呈直線趨勢,則需用較復雜的方法直接擬合曲線回歸方程;(2)適用范圍:利用回歸方程進行預測,一般只適用于自變量的原來觀測范圍或適當擴大范圍,但不能隨意把范圍無限擴大,作回歸直線時,也不可任意延長;(3)正確理解P值大小,應正確理解“P<0.01”和“P<0.05”的含義。例如對于相關系數的假設檢驗來說,得出“P<0.01”與“P<0.05”的結果時,其統計結論都可以認為“直線相關關系成立”,但下此結論可能出錯的概率分別為“<0.01”與“<0.05”。然而,卻不能得出前者比后者相關關系更密切的結論;(4)分層資料及重復試驗數據的回歸分析要慎重進行。能否將分層或不同批次的資料進行合并,要根據假設檢驗的結果來決定,差別無統計學意義時才能合并;對含有重復試驗數據的回歸分析資料進行回歸分析時,不要采取簡單化處理,要作失擬檢驗,即檢驗直線所不能解釋的部分相對于實驗誤差來說是否具有統計學意義,若檢驗結果為P<0.05,就說明被分析的資料不能簡單地用直線回歸方程來描述。

1.3 直線相關與回歸的區別和聯系

1.3.1 直線相關與回歸的區別 (1)在資料要求上不同:直線回歸分析時,要求應變量Y服從正態分布,X可以是服從正態分布的隨機變量,也可以是能精確測量和嚴格控制的非隨機變量;相關分析中要求X、Y均為隨機正態變量,即雙變量正態分布。因此,能夠作回歸分析的資料不一定可作相關分析,但可作相關分析的資料也可進行回歸分析。(2)統計意義不同:相關反映兩變量間的關系是相互的,對等的,不一定有因果關系;回歸則反映兩變量間的依存關系,有自變量與應變量之分。這種依存關系可能是因果關系或從屬關系。(3)在應用上不同:分析變量間關系的密切程度和方向時用相關,描述變量間在數量上相互依存關系時用回歸。(4)取值范圍不同:-1 ≤r≤1,-∞≤b≤+∞。(5)單位不同:r沒有單位,b有單位。

1.3.2 直線相關與回歸的聯系 (1)對同一組資料,相關系數r與回歸系數b的符號相同。r為正(或負)則b為正(或負),均表示與呈同向(或反向)變化。(2)同一資料相關系數與回歸系數的假設檢驗結果是等價的,tr=tb。由于回歸系數的檢驗過程較為復雜,而相關系數的檢驗過程簡單并與之等價, 故在實際應用中常用相關系數的檢驗來代替回歸系數的檢驗。(3)可以用回歸解釋相關。r的平方稱為決定系數,其計算公式為:

說明當SS總不變的情況下,回歸平方和的大小決定了相關系數的大小,r2反映出回歸平方和在總平方和中所占的比重。r2越接近1,表示相關和回歸的效果越好。如某資料r= 0.2,P<0.05 ,可認為兩變量相關有統計學意義,但r2= 0.04,說明SS回在SS總中僅占4%,所以兩變量間的相關關系實際意義并不大。

2 中醫藥研究中直線相關與回歸分析的常見問題及解析

2.1 未考慮資料特點,誤用等級相關

例1:某研究為探討中醫證型分布與胃病類型的相關性,作者納入了158 例胃病患者,收集了不同中醫證型的胃病類型情況,見表1。

表1 中醫證型與胃病類型的關系

原分析:采用等級相關分析中醫證型與胃病類型的關系,結果顯示,等級相關系數rs= -0.135,P>0.05,認為中醫證型與胃病類型之間無相關關系。

解析:本研究的目的是研究中醫證型與胃病類型的關系,收集的胃病類型分為淺表性胃炎、慢性胃炎、胃潰瘍,為無序分類變量;中醫證型分為六大類,分別為胃熱傷陰型、脾胃虛寒型、痰濕凝結型、肝氣犯胃型、氣血虧虛型、氣滯血瘀型,也為無序分類變量。因此,該研究屬于雙向無序分類資料,分析兩變量間是否存在關聯,一般是根據兩分類變量交叉分類計數所得的列聯表做關聯性分析,采用行×列表資料的χ2檢驗,并計算列聯系數,分析關聯的密切程度。原分析未考慮資料的特點,而對該資料采用等級相關來分析顯然不合理。因此,該研究應采用行×列表資料的χ2檢驗,并計算列聯系數,來分析中醫證型與胃病類型的關系。

2.2 未繪制散點圖,直接進行直線相關或回歸分析

例2:某研究探討痰濕質女性孕晚期BMI 與血清維生素A 水平的數量依存關系,收集了20 名孕晚期孕婦的BMI 以及血清維生素A 水平檢測情況,見表2。

表2 痰濕質女性孕晚期BMI 與血清維生素A 水平

原分析:對兩變量進行直線回歸分析,結果表明,回歸系數的估計值為-0.008,經t檢驗,P< 0.001;回歸方程為Y= -0.008X+ 0.682,r2= 0.706。

解析:本研究是直接對BMI 與血清維生素A 水平進行直線回歸分析,這一做法是不合理的。根據本例的原始數據,繪制散點圖,見圖1,觀察到散點的分布呈明顯的曲線趨勢,顯然采用直線回歸分析是不合理的。因此,在進行直線相關或回歸分析時,首先應該對兩變量進行散點圖的繪制,通過觀察散點的分布,從而了解變量間是否存在直線趨勢,才可以考慮進行直線相關或回歸分析。若兩變量間呈現的是某種曲線關系,則采用直線相關或回歸方程來解釋兩變量間關系是不合理的,即使相關系數或者回歸方程經過假設檢驗驗證后顯示具有統計學意義也是錯誤的。此外繪制散點圖還有助于識別離群值、異常值,若出現個別遠離眾散點的異常值,應謹慎采用直線相關和回歸分析。

圖1 BMI 與維生素A 關系的散點圖

2.3 相關系數未經假設檢驗,得出結論

例3:某研究探討氣陰兩虛型2 型糖尿病患者血糖和血脂之間的相關性,選取50 例氣陰兩虛型2 型糖尿病患者,檢測患者的空腹血糖、餐后2 h 血糖、總膽固醇、甘油三酯、高密度脂蛋白及低密度脂蛋白等資料,分析患者血糖和血脂之間的相關性。

原分析:采用直線相關性分析,結果顯示,氣陰兩虛型2 型糖尿病患者的空腹血糖與總膽固醇、甘油三酯呈正相關關系(r分別為0.875、0.684),與高密度脂蛋白呈負相關關系(r為-0.589);餐后2h 血糖與總膽固醇、低密度脂蛋白呈正相關關系(r分別為0.544、0.382)。

解析:樣本的相關系數r為樣本統計量,只是總體相關系數ρ的一個估計值,存在抽樣誤差。如ρ不為零,則變量X和Y存在直線相關關系。而從總體相關系數ρ為零的總體中,隨機抽取得到的一組樣本,由于抽樣誤差的存在,其計算得到的樣本相關系數r也可能不等于0,因此我們需要對相關系數進行假設檢驗,給出相應P值。

根據研究目的,需要先繪制散點圖確定該數據滿足相關分析的前提條件。由于原文中沒有提供研究的原始數據,因此無法繪制散點圖。假設當數據滿足前提條件,且依據原始數據正確得出了相關系數時,應根據得出的相關系數和研究例數對總體的相關性進行假設檢驗。根據假設檢驗t檢驗的公式,并查找t界值分布表,分別得出各指標間總體相關性,結果顯示氣陰兩虛型2 型糖尿病患者的空腹血糖與總膽固醇、甘油三酯呈正相關關系,與高密度脂蛋白呈負相關關系;餐后2 h 血糖與總膽固醇、低密度脂蛋白呈正相關關系,P值均小于0.05。同時對于相關系數的假設檢驗也可以查詢相應的r界值表,其結果與t檢驗法相一致。雖得到的結論與原結論一致,但原分析相關系數未經假設檢驗就得出結論,這是不合理的。

2.4 相關系數過小,不能正確解釋統計結果

例4:某研究探討中藥治療接觸性皮炎的療效與血清IL-4 表達水平的相關性(用治療后患者癥狀積分減少率來表示臨床療效,癥狀積分減少率越大,療效越好)。

原分析:首先繪制癥狀積分減少率與血清IL-4表達水平兩變量的散點圖,結果顯示兩變量呈現線性趨勢。采用直線相關性檢驗分析中藥治療接觸性皮炎的臨床療效與患者血清IL-4 的表達水平的相關性。結果顯示,用中藥治療接觸性皮炎患者1 個月后,患者血清IL-4 的相對表達水平與治療后患者癥狀積分減少率呈顯著負相關(r= -0.26,P<0.05),相關程度高。這說明采用中藥治療接觸性皮炎1 月后,患者血清中IL-4 的相對表達水平越高,臨床療效越差。

解析:相關系數r是表示兩個隨機變量之間直線相關強度和方向的統計量,它沒有單位,取值范圍為-1 ≤r≤1。r的正負值表示兩量之間直線相關的方向,即r>0 為正相關;r<0 為負相關;r= 0 為零相關。r的絕對值大小則表示兩變量之間直線相關的密切程度,r的絕對值越接近于1,說明密切程度越高,r的絕對值越接近于0,說明密切度越低。該研究結果中,r= -0.26,r的絕對值并不接近1,可以認為患者血清IL-4 的相對表達水平與治療后患者癥狀積分減少率存在低度負相關關系,但不能盲目將兩變量的相關關系解釋為密切相關,顯著相關或者相關程度高。

2.5 直線回歸分析不考慮觀測值范圍,盲目外推

例5:某研究探討中藥湯劑相對密度的預測區間的數學模型,建立中藥湯劑校正的相對密度與出膏率的線性回歸方程,用于預測中藥湯劑的相對密度,為中藥湯劑的質量控制提供一定的科學依據。

原分析:首先對兩變量進行散點圖的繪制,觀察兩變量呈現線性趨勢。通過建立直線回歸方程用出膏率來預測中藥湯劑的相對密度,結果顯示校正的相對密度(Y)對出膏率(X,%)的直線回歸方程為:Y= 0.000 4X+1.000 3,r2= 0.967。并對直線回歸方程進行假設檢驗,得P<0.01,可認為校正的相對密度與出膏率之間有線性關系,直線回歸方程成立,可利用方程來預測中藥湯劑相對密度。

解析:原分析中未給出線性范圍并認為可利用方程來預測中藥湯劑相對密度。在直線回歸分析的過程中,需要警惕過度外推。當利用現有的解釋變量X值獲得的回歸直線,來預測那些超出現有的解釋變量X值范圍的反應變量Y值的情況時,一定要謹慎。例如在該研究中,利用回歸方程進行預測時,能否據此預測某種中藥出膏率為0.1%時,該中藥的相對密度?理論上似乎可以將0.1%代入回歸方程,得到相對密度的預測值為1.000 3;出膏率為0.1%已經超出了數據范圍,此時不能保證中藥種類中是否確實存在如此低的出膏率以及當出現如此低的數據時,兩變量間是否還具有同樣的線性關系,故這個結果是不可信的。因此,在直線回歸分析前應確定自變量的取值范圍,適用范圍一般以樣本數據中的自變量取值范圍為限,即不要超過樣本數據的自變量取值范圍計算值;外推得越遠,其變量間的關系可能越不合理。

2.6 非正態分布的資料,誤用了直線相關分析

例6: 某醫師采用某中藥配方顆粒劑治療某病患者,測得一組患者血小板數及出血程度的資料如下表3,試分析兩者之間的關系。

表3 10 名某病患者血小板數及出血程度數據

原分析:直接采用直線相關分析,r= -0.660,P<0.05,顯然不正確。

解析:該資料出血程度屬于等級資料,應當采用等級相關,等級相關系數意義同直線相關系數,其值也是波動在-1 到1 之間。其計算方法是:將成對的兩組變量的觀察值各按從小到大編秩,當觀察值相同時,取平均秩次,然后對秩次進行直線相關分析。該資料,rs= -0.753 9,P<0.05,即某病患者血小板數及出血程度之間有負向的等級相關關系。

3 結論

直線相關與回歸方法是中醫藥研究中常見的統計學分析方法。本文主要列舉了中醫藥研究領域中一些常見錯誤案例,分析其誤用的原因,并給出正確的分析。為了減少或避免誤用的現象,研究者應打牢統計學理論知識的基礎,提高統計學素養;并且在統計分析之前依據不同的資料類型,選擇合理的統計學分析,避免盲目套用,從而提高中醫藥文獻的科學性、準確性、客觀性。

猜你喜歡
假設檢驗胃病回歸方程
別把胃病當小??!
采用直線回歸方程預測桑癭蚊防治適期
線性回歸方程的求解與應用
線性回歸方程要點導學
你還在把“肝病” 當“胃病”在治嗎?
走進回歸分析,讓回歸方程不再是你高考的絆腳石
走路治好老胃病
老胃病:三分治,七分養
統計推斷的研究
雙冪變換下正態線性回歸模型參數的假設檢驗
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合