?

基于變量選擇的異方差G-Q檢驗

2023-06-05 09:14張曉琴李闊辰楊年喜
關鍵詞:樣本容量方差擾動

張曉琴,李闊辰,楊年喜

(山西財經大學 統計學院,山西 太原 030006)

0 引言

在經典線性回歸模型中,考察隨機誤差項的基本假定是一個重要內容,尤其是對其同方差的假定。當隨機誤差項不滿足同方差時,稱模型具有異方差性。若忽略同方差假定,則參數的顯著性檢驗將失去意義,從而可能作出錯誤的判斷,造成嚴重的后果,因此異方差檢驗具有十分重要的意義。

目前較為常用的異方差檢驗方法有圖示法、Park 檢驗、Glejser 檢驗、Goldfeld-Quandt (GQ)檢驗、Breusch-Pagan(B-P)檢驗和White 檢驗[1-5]等。其中G-Q 檢驗一般用于一元線性回歸模型,在多元模型中,G-Q 檢驗無法直接對樣本點進行排序,因此一些學者在此方面做了大量的工作。龔秀芳[6]通過主成分分析法(PCA)將觀測值按照第一主成分的順序進行由小到大的順序排列,然后對觀測值進行G-Q檢驗。鄭紅艷等[7]將多元回歸模型分解為多個一元模型,依次對其進行G-Q 檢驗,若有一個回歸模型存在異方差,則認為該多元模型存在異方差。劉明等[8]提出以被解釋變量擬合值作為排序標準,將觀測值按照由小到大的順序排列,然后進行G-Q 檢驗。上述幾種方法都針對G-Q 檢驗無法直接應用于多元模型的問題進行了改進,幾種方法各有其優勢,但也存在著一些不足,例如準確性不高、適用性不廣等問題。為解決這些問題,本文借鑒White 檢驗[5]的思想,提出了一種新的改進的G-Q 檢驗方法,并通過數值模擬分析與案例分析論證了其優良的特性。

1 基本知識

1.1 線性回歸模型異方差定義

考慮一元線性回歸模型[9]:

其中yi為被解釋變量,xi為解釋變量,β0為截距項,β1為解釋變量xi的系數,εi為隨機擾動項,n為樣本容量。若?x1,x2,…,xn,(1)中的每個εi的方差均相等,即Var(εi|xi) =σ2,則稱模型(1)具有同方差性,反之則稱模型具有異方差性[10]。對異方差性的檢驗,即考慮如下的假設檢驗問題:

1.2 G-Q檢驗[3]

G-Q 檢驗是檢驗一元線性回歸模型是否存在隨解釋變量遞增的異方差的常用方法,有著步驟簡單、準確度高等優點[11]。對一元線性回歸模型(1)進行G-Q 檢驗的步驟如下:

(i)將樣本點按照解釋變量xi由小到大排列。

(ii)將序列中間的c(c≈n/4)個樣本點刪去,將序列兩端樣本點各自作為一組子樣本。

(iii)分別對兩組子樣本進行OLS 回歸,計算出各自的殘差平方和,將xi較小組的殘差平方和記為SSR1,xi較大組的殘差平方和記為SSR2。

(iv)構造如下在原假設成立下服從F分布的統計量:

(v)給定顯著性水平α,確定相應的臨界值Fα。若F>Fα,則拒絕原假設,認為模型存在異方差;若F<Fα,則不拒絕原假設。

2 改進的G-Q檢驗

由上節可知雖然傳統的G-Q 檢驗優點眾多,但其一般情況下僅能應用于一元回歸模型,而無法應對多元情形。要在多元回歸模型中使用G-Q 檢驗,關鍵在于如何選擇排序的標準。龔秀芳[6]提出了使用主成分分析法計算出樣本的第一主成分來代表所有解釋變量,使用第一主成分作為排序標準進行G-Q 檢驗。但在實際應用中發現,使用該方法進行檢驗的準確度并不夠高,尤其在第一主成分的貢獻率較低的情況下。與龔秀芳[6]改進的G-Q 檢驗的思想類似,本文考慮找出一個能代表所有解釋變量對隨機擾動項方差的影響的解釋變量進行排序。在變量選擇的方法上,借鑒White 檢驗的思想,通過對殘差平方與所有解釋變量或其平方項進行OLS 回歸,找出參數p值最小的解釋變量,該解釋變量即為所有解釋變量中對隨機擾動項方差影響最大的解釋變量,以該解釋變量為排序標準進行G-Q 檢驗。

考慮多元回歸模型:

其中α0,α1,…,αk為回歸模型的參數,νi(i=1,2,…,n)為隨機擾動項。

若使用樣本殘差平方與解釋變量的平方進行回歸,則將模型(4)中的解釋變量替換為解釋變量的平方,即:

對模型(4)或(5)中α0,α1,…,αk進行t檢驗,找出檢驗p值最小的參數對應的解釋變量,記為xim(1 ≤m≤k,i=1,2,…,n)。即在所有解釋變量中,xim對隨機擾動項方差的影響最大,即最有可能引起隨機擾動項產生異方差的解釋變量是xim。將所有樣本點按照xim由小到大的順序排列,相當于樣本點根據隨機擾動項方差的影響因素進行排序,這與G-Q 檢驗在一元回歸模型中的思想一致,之后進行G-Q 檢驗。將該方法稱為基于變量選擇的G-Q 檢驗(將使用樣本殘差平方與解釋變量進行回歸的方法簡記為M-G-Q 檢驗,使用樣本殘差平方與解釋變量平方進行回歸的方法簡記為M-G-Qs 檢驗)。具體步驟為:

(i)按照最優解釋變量xim由小到大的順序對樣本點進行排序,得到對應的觀察值數列為,i=1,2,…,n。

觀 測 值xim較 小 的 樣 本 數 列 :,其中i=1,2,…,l。

觀 測 值xim較 大 的 樣 本 數 列 :,其中i=l+c+1,l+c+2,…,n。

為方便區分,兩組樣本數列的樣本容量分別用n1與n2表示,其中:n1=n2=(n-c)/2,且n1+n2+c=n。

(iii)由模型(3)假設這兩部分樣本數列的回歸模型矩陣形式分別為:

其中,Σ1,Σ2分別是n1,n2階的對角矩陣,Y1,ε1與Y2,ε2分別是n1維與n2維列向量,β1,β2均是k+1 維列向量,X1,X2分別是n1×(k+1) 和n2×(k+1)的列滿秩矩陣。

(iv)分別對模型(6),(7)進行普通最小二乘回歸,得出其各自的殘差平方和:

構造檢驗統計量F:

在(2)的原假設成立的情況下,F統計量服從自由度為(n2-k-1,n1-k-1)的F分布[12]。

(v)給定顯著性水平α,得到臨界值Fα/2,F1-α/2,若F>F1-α/2或F<Fα/2,則拒絕原假設,認為樣本數據存在異方差;否則不拒絕原假設。

本文所提出的M-G-Q 檢驗通過類似White檢驗的t檢驗從多個解釋變量中挑選出對隨機擾動項方差影響最大的解釋變量作為G-Q 檢驗的排序標準,進而進行G-Q 異方差檢驗。與龔秀芳[6]改進的G-Q 檢驗相比,新方法選擇的排序標準本身就是解釋變量,能夠更好地反映對隨機擾動項方差的影響。在White 檢驗中,需要存在某個解釋變量、二次項或交叉項參數的p值低于給定的顯著性水平才能拒絕原假設,認為存在異方差。而在新方法中,不必拘泥于給定的顯著性水平,只需找出參數p值最小的解釋變量,然后再以該解釋變量作為排序標準進行G-Q 檢驗,提高了檢驗的靈敏度,使檢驗結果更加準確。本文的F檢驗使用了雙側檢驗,這樣可以同時檢驗隨解釋變量遞增和隨解釋變量遞減的異方差[8],提高了檢驗的適用性與準確性。

本文提出的改進方法基于隨機誤差項的方差與模型中的自變量存在某種關聯的假定,也有學者提出了不依賴于上述假定的異方差檢驗方法[13]。本文基于上述假定的原因是在實際情況中隨機擾動項的方差與模型中的自變量有關的情況更為常見。

3 數值模擬和實證分析

3.1 數值模擬

本小節從數值模擬分析的角度對龔秀芳[6]改進的G-Q 檢驗(記為PAC-G-Q 檢驗)、劉明等[6]改進的G-Q 檢驗(記為Yhat-G-Q 檢驗)、White 檢驗和本文提出的M-G-Q 檢驗與M-G-Q-s 檢驗進行比較。本文的數值模擬分析通過Python 實現。

使用如下線性回歸模型:

其中樣本容量n為50,100 或200,β0=β1=β2=β3=β4=1,解釋變量xi1,xi2,xi3,xi4相互獨立且產生自正態分布N(0,1),εi產生自正態分布,為了詳細對比上述各方法的檢驗效果,本文模擬了多種不同的異方差,的取值有以下六種情況:。其中,情況(a)模擬的是隨某個解釋變量遞增的情況,情況(b)模擬的是隨某個解釋變量遞減的情況,情況(c)模擬的是同時受兩個解釋變量的影響且方向相反的情況,情況(d)模擬的是同時受四個解釋變量同方向的影響的情況。情況(e)和(f)模擬了兩種較為復雜的異方差情況。

模擬實驗中原假設為模型不存在異方差,給定顯著性水平α=0.05,對每種不同的異方差情況在不同的樣本容量情況下生成的數據分別進行PCA-G-Q 檢驗、Yhat-G-Q 檢驗、White檢驗及M-G-Q 檢驗。每種情況重復10 000 次實驗,統計各方法拒絕原假設的次數,結果如表1 所示。

表1 異方差檢驗結果Table 1 Results of the heteroskedastic test

圖1 到圖6 展示了六種異方差情況下不同方法隨樣本容量變化的拒絕頻率(拒絕次數與實驗次數的比率)變化情況,如圖所示,通過數值模擬可以得出如下結論:

圖1 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.1 Rejection frequency(the ratio of the number of rejections to the number of experiments) of each method at

圖2 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.2 Rejection frequency(the ratio of the number of rejections to the number of experiments) of each method at

圖3 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.3 Rejection frequency(the ratio of the number of rejections to the number of experiments) of each method at

圖4 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.4 Rejection frequency(the ratio of the number of rejections to the number of experiments) of each method at

圖5 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.5 Rejection frequency(the ratio of the number of rejections to the number of experiments) of each method at

圖6 時各方法的拒絕頻率(拒絕次數與實驗次數的比率)Fig.6 Rejection frequency (the ratio of the number of rejections to the number of experiments) of each method at

(i)在六種不同的異方差情況下,M-G-Q檢驗的異方差檢出率均高于PCA-G-Q 檢驗,例如,在情況(a)中,樣本容量為50 的情況下,相比之前性能最好的PCA-G-Q 方法45.9%的拒絕頻率,本文提出的M-G-Q 方法的拒絕頻率提升到了90.2%,可以說明通過M-G-Q 檢驗選擇出的最優解釋變量比PCA-G-Q 檢驗的第一主成分更能反映隨機擾動項的方差情況。

(ii)Yhat-G-Q 檢驗在情況(a)和(b)中表現尚可,說明用樣本的擬合值i進行排序具有一定的合理性,但遠不如用M-G-Q 檢驗中選擇出的最優解釋變量效果好。在情況(d)中Yhat-G-Q 檢驗表現最佳,因為在情況(d)中,四個解釋變量協同影響隨機擾動項的方差,此時用樣本的擬合值i進行排序效果很好,而本文提出的M-G-Q 檢驗僅在樣本容量為50 時的拒絕頻率比Yhat-G-Q 檢驗略低,在樣本容量為100 或200 時檢驗效果與Yhat-G-Q 檢驗不相上下。在情況(c)中,使用Yhat-G-Q 檢驗的效果較差,因為此時兩個解釋變量對隨機擾動項方差的影響可能會相互抵消,用i排序并不合理,但使用M-G-Q 檢驗依然可以很好地識別出異方差。在情況(e)和(f)中,本文提出的M-G-Q 檢驗效果均比Yhat-G-Q 檢驗要好,例如,在情況(f)中,樣本容量為200 的情況下,相比之前性能最好的Yhat-G-Q 方法19.3%的拒絕頻率,本文提出的M-G-Q 方法的拒絕頻率提升到了43.2%。因此M-G-Q 檢驗比Yhat-G-Q 檢驗更具有合理性與泛用性。

(iii)White 檢驗是多元線性回歸中最常用的異方差檢驗方法之一,但它的缺陷也顯而易見,即在解釋變量較多時,自由度損失嚴重,所以White檢驗要求的樣本容量較大,這一點也在模擬結果中得以體現,當n=50 時,White 檢驗的效果是極差的。M-G-Q 檢驗要求的樣本容量遠小于White檢驗,在情況(a)到(d)中,樣本容量為200 時,White 檢驗效果很好,拒絕頻率達到99.5%以上,此時本文提出的M-G-Q 檢驗的拒絕頻率與White檢驗十分接近,在情況(e)和(f)中,M-G-Q 檢驗的表現均優于White 檢驗。

(iv)通過對比可以發現在各種情形下使用M-G-Q-s 檢驗的效果相較于M-G-Q 檢驗較差,說明使用樣本殘差平方與解釋變量的一次項進行回歸是合理的。

(v)在相對復雜且其他方法較難識別的異方差情況(e)和(f)中,M-G-Q 的檢驗效果仍遠比其他幾種方法要好。因此,M-G-Q 在異方差檢驗中的靈敏性更高。

3.2 實證分析

本小節將通過實例來驗證本文方法的可行性。從各地區的統計局官網上獲取2020 年31個省份(不含港澳臺)的人均生產總值(y),人均消費支出(x1),人均第三產業增加值(x2),人均對外進出口總值(x3),該數據由該項經濟指標總值除以當地總人口得到,單位為萬元。分別使用White 檢驗以及M-G-Q 檢驗對該組數據進行異方差檢驗,模型設定如下:

使用31 省份的數據估計出的模型為:

首先使用White檢驗對數據進行異方差檢驗,檢驗的統計量為,故不拒絕原假設,認為該模型不存在異方差。

然后使用M-G-Q 檢驗對數據進行異方差檢驗,其檢驗統計量為F=38.954 7>F0.975(8,8)=4.433 3,因此拒絕原假設,認為該模型存在異方差。

通過對比M-G-Q 檢驗與White 檢驗的結果,可以看出,M-G-Q 檢驗可以順利實施且比White檢驗的結果更靈敏,因此M-G-Q 檢驗具有可行性。

4 結論

G-Q 檢驗是一元線性模型中常用的異方差檢驗方法,本文提出的M-G-Q 檢驗是G-Q 檢驗與White 檢驗的結合,將G-Q 檢驗推廣至多元線性模型,并且與前人提出的幾種G-Q 檢驗的推廣進行了詳細的對比,論證了M-G-Q 檢驗的靈敏度優于其他幾種推廣。

猜你喜歡
樣本容量方差擾動
Bernoulli泛函上典則酉對合的擾動
概率與統計(2)——離散型隨機變量的期望與方差
采用無核密度儀檢測壓實度的樣本容量確定方法
(h)性質及其擾動
方差越小越好?
計算方差用哪個公式
方差生活秀
小噪聲擾動的二維擴散的極大似然估計
用于光伏MPPT中的模糊控制占空比擾動法
廣義高斯分布參數估值與樣本容量關系
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合