?

基于少數類過采樣的傾向得分匹配插補法

2021-01-26 09:40楊貴軍孫玲莉
統計與信息論壇 2021年1期
關鍵詞:補法均方系數

楊貴軍,杜 飛,孫玲莉

(天津財經大學 a.統計學院;b.中國經濟統計研究中心,天津 300222)

一、引 言

在社會經濟問題研究中,學術研究越來越依賴于微觀數據庫,分析社會經濟的運行機制以及數量關系。通過調查獲得的微觀數據常常存在一定程度的無回答,而且無回答是很難避免的。在大數據應用中,無回答發生更頻繁。無回答會嚴重影響調查數據的質量以及分析結果的可靠性。多數統計方法和統計分析軟件都是基于完整數據集設計的,如何有效地處理無回答成為獲取可靠分析結果的關鍵。20世紀70年代統計學者極其關注無回答問題,并提出了在經濟學和統計學相關領域中處理無回答問題的方法[1-2]。

處理無回答的方法主要劃分為事前預防和事后補救兩方面。鑒于數據收集過程中的條件限制,事前預防措施并不能從根本上解決無回答問題,因此多數方法從事后補救方面開展研究。無回答的事后補救措施大體可分為兩類:一是基于設計角度對目標值進行估計的方法。Robins等基于對無回答概率的估計,提出估算目標值的加權法[3]。金勇進等則通過對無回答子總體進行追加調查的方式來減小無回答偏差[4-5]。Little等討論了無回答的極大似然估計量[2,6-7]。二是對無回答進行插補的方法。Chapman等討論了無回答的單重插補法[8-12]。Rubin將無回答的不確定性考慮在內,提出了多重插補方法,并作了進一步的討論[1]?,F在,多重插補法已成為處理無回答的最常用方法。

多重插補法將無回答的不確定性考慮在內,彌補單重插補法的缺陷,提高了插補結果的可靠性。常用的多重插補法可分為三類:第一類是基于協變量相近性匹配的插補法,例如:最近鄰插補法、傾向得分匹配插補法;第二類是利用變量之間相關關系的插補法,例如:回歸多重插補法[1-2,13]、預測均值匹配多重插補法[14-17];第三類是依據無回答統計性質的插補法,例如:DA多重插補法[16,18]、EMB多重插補法等[19-20]。其中,第一類插補方法在實際中應用范圍最廣泛。相較于其他直接基于協變量匹配的插補方法,傾向得分匹配插補法是利用傾向得分模型對無回答單元與回答單元進行傾向得分匹配,以此來提高插補效率。

傾向得分匹配(Propensity Score Matching,PSM)是由Paul和Rubin提出的基于反事實推斷模型的協變量匹配方法[21]。其基本思想是利用Logit或Probit模型估計處理組與潛在對照組中單元的傾向得分,依據單元的傾向得分,搜索與處理組單元相匹配的控制組單元以構建對照組。PSM模型降低了匹配過程中由于混雜變量產生的影響,消除了系統性偏差,現已被廣泛應用于經濟學政策評價和因果推斷等研究中。Little首次將PSM模型應用于處理無回答問題中,提出了傾向得分匹配插補法(簡記為PSM插補法),將無回答單元劃為處理組,回答單元劃為對照組,根據傾向得分的相同或相近,將匹配的回答單元目標變量值作為無回答單元的插補值[22]。PSM插補法保留了PSM模型匹配效率高、不易受混雜變量影響的優點,提高了插補的準確性。然而,在實際應用中,無回答率往往較低,明顯低于回答率,無回答單元數量與回答單元數量相差較大,造成Logit模型會傾向于誤判為多數單元的類別,降低PSM插補法的可靠性。

針對類別數據的非平衡問題,目前最常用的方法是隨機欠抽樣和隨機過抽樣。隨機欠抽樣方法通過隨機剔除部分多數類單元來改善數據集的非平衡程度,但會造成一定程度的信息損失。隨機過抽樣方法則通過隨機復制少數類單元,使各類單元數達到平衡,但該方法會導致模型出現過擬合現象。Chawla等針對上述兩種方法的缺陷提出少數類過采樣(Synthetic Minority Over-sampling Technique,SMOTE)算法,保留所有多數類單元,并在相距較近的少數類單元之間線性合成新的少數類單元,以改善數據集的非平衡程度[23]。因而,SMOTE算法既保留了所有數據的信息,又在一定程度上避免了過擬合現象的出現。

綜上,針對PSM插補法在處理無回答單元數量與回答單元數量相差較大情況下插補效果不佳的問題,本文創新性地將SMOTE算法的思想應用于解決插補問題,提出了一個新的PSM插補方法,并通過統計模擬和實證分析,在僅考慮單一目標變量存在無回答的情況下,比較SMOTE-PSM插補法與常用插補方法的插補效果,并分析不同無回答率、插補重數和誤差分布對插補效果的影響,為解決在實際應用中的無回答問題提供更好選擇。

二、基于SMOTE算法的PSM插補法

下面首先總結SMOTE算法和PSM插補法及其性質,再給出基于SMOTE算法的PSM插補法。

圖1 SMOTE算法基本原理

(一)SMOTE算法

SMOTE算法是由Chawla針對非平衡分類數據提出的,其基本原理詳見圖1。在非平衡分類數據中,多數單元類稱為正類,少數單元類稱為負類。由于正負兩類單元數量相差較大,往往造成傳統分類模型的分類精度下降,特別是對于負類單元,分類模型無法通過訓練集數據充分擬合其內在規律,導致分類精度相對低。SMOTE算法是目前較為經典的處理非平衡分類數據的一種過抽樣方法,不同于僅對負類單元進行簡單復制的隨機過抽樣方法,而是在相距較近的負類單元之間線性插值產生新的合成單元,平衡分類數據集,提高分類模型準確度。

SMOTE算法的基本假設為:距離較近負類單元之間的單元仍為負類,通過負類的合成單元來改善數據集的平衡程度。其具體過程如下:

第一步,確定單元合成率r。假定正類單元個數為n+,負類單元個數為n_,為使數據集類別平衡,需要產生負類的合成單元數ns=n+-n_,則單元合成率為:

(1)

第二步,計算負類單元之間的距離,選取近鄰單元。不失一般性,設dij表示負類單元xi與xj之間的歐式距離,對于每一個負類單元xi(i=1,2,…,n_),與其他負類單元的距離向量記為Di=(di1,…,dij,…,di(n_-1)),從中選取dij中最小的b個單元作為近鄰單元。

第三步,產生負類的合成單元。在負類單元xi選取的b個近鄰單元中,隨機抽取r個單元記為xl(l=1,2,…,r),利用xi與xl按照式(2)產生新的合成單元pil:

pil=xi+rand(0,1)×(xl-xi)

(2)

其中,rand(0,1)表示(0,1)之間的隨機數。最后將每一個負類單元xi的r個合成單元合并到原數據集中,形成新數據集。

綜上,SMOTE算法在負類的鄰近單元之間通過隨機線性插值產生負類的合成單元,構造的新數據集不僅好于原數據集的分類平衡程度,還具有更豐富的負類單元信息,以改善傳統分類模型的擬合效果,提高分類精度。同時,SMOTE算法還避免分類模型出現過擬合現象。

(二)PSM插補法

Little將PSM模型應用于無回答的插補過程中,提出PSM插補法。PSM插補法的步驟主要分為匹配步和插補步,具體過程如下:

匹配步:將數據集中無回答單元視為處理組,回答單元視為對照組,回答與否的標記作為響應變量,利用Logit或Probit模型對每個單元的傾向得分進行估計,將傾向得分相同或相近的無回答單元與回答單元視為匹配單元。假定數據集樣本量為n,觀測變量為{Y,X},其中Y為被解釋變量,X為解釋變量。本文僅考慮被解釋變量Y存在無回答的情況,記Y中的無回答單元和回答單元為{Ymis,Yobs},樣本量為{nmis,nobs},與其對應的解釋變量為{Xmis,Xobs},無回答單元集為{Ymis,Xmis},回答單元集為{Yobs,Xobs}。定義標識變量為T,其中無回答單元標記為1,回答單元標記為0,即對于i=1,2,…,n,

利用標識變量T與解釋變量X構建傾向得分模型,并計算每個單元的傾向得分擬合值。這里,選擇最常用的Logit模型作為傾向得分模型,有:

(3)

(4)

插補步:計算無回答單元與回答單元的傾向得分差值,將差值最小的m個回答單元的被解釋變量值作為無回答單元的m重插補值。假設無回答單元與回答單元的傾向得分差值為si,j,即對于i=1,2,…,nmis,j=1,2,…,nobs,

(5)

針對每個無回答單元,將傾向得分差值進行排序,

si,1≤si,2≤…≤si,m-1≤si,m≤si,m+1≤…≤si,nobs

(6)

選取差值最小的m個回答單元的被解釋變量觀測值作為無回答單元的m重插補值。

PSM插補法利用傾向得分對無回答單元與回答單元進行匹配,避免了混雜因素的影響,提高了插補的效率和可靠性。

(三)SMOTE-PSM插補法

在實際應用中,人們都盡可能降低無回答率,導致調查數據的無回答單元數量與回答單元數量差異往往較大,PSM模型的分類精度下降。這里,繼承SMOTE算法處理非平衡數據的優勢,提出基于SMOTE算法的PSM插補法。目前,處理無回答的方法是基于無回答缺失機制的假定。在大多數的實際應用中,隨機缺失機制(簡記為MAR)最為常見,故選擇隨機缺失機制的假定。由MAR機制的定義可知:

p(T=1|Y,X)=p(T=1|X)

(7)

即變量的無回答概率僅依賴于完全觀測變量X,與無回答變量Y無關。例如:居民收入調查中,受訪者收入數據的無回答概率與其年齡有關,年齡是完全觀測變量,則收入數據無回答往往為MAR機制。本文提出的SMOTE-PSM插補法先采用SMOTE算法利用無回答單元合成新的單元,改善數據集的非平衡程度,再通過PSM插補法對無回答單元與回答單元進行匹配和插補。新方法的具體步驟如下:

第一步,產生合成單元集。根據回答單元數量與無回答單元數量確定合成率r,對于每個無回答單元{ymis,i,Xmis,i},選取距離最近的b個無回答單元,從中隨機抽取r個單元{ymis,l,Xmis,l},l=1,2,…,r,按照式(2)產生新的合成單元集{ymis,il,Xmis,il}:

{ymis,il,Xmis,il}={ymis,i,Xmis,i}+rand(0,1)×({ymis,l,Xmis,l}-{ymis,i,Xmis,i})

(8)

將合成單元集與原數據集組成新數據集{YS,XS}。

第二步,利用PSM插補法對無回答單元進行插補。數據集{YS,XS}包含回答單元、無回答單元和合成單元?;赑SM插補法,將回答單元標記為0,劃為對照組;將無回答單元和合成單元標記為1,劃為處理組。對于k=1,2,…,n+r×nmis,標識變量T(YS)定義為:

利用標識變量T(YS)與解釋變量XS,構建傾向得分模型,計算每個單元的傾向得分擬合值,再對無回答單元與回答單元進行匹配。將每個無回答單元的傾向得分差值最小的m個回答單元的被解釋變量觀測值作為該無回答單元的m重插補值。

本文將SMOTE算法處理非平衡分類數據集的優勢擴展到PSM插補法中,創新性地提出了SMOTE-PSM插補法,解決了無回答單元與回答單元在數量不平衡時PSM模型的擬合精度問題。本文提出的SMOTE-PSM插補法不僅保留了PSM插補法不易受混雜變量影響的優點,也繼承了SMOTE算法的優勢,保證了插補的精度。

三、SMOTE-PSM插補法的統計模擬研究

(一)統計模擬的模型設定

鑒于無回答真實值的不可獲得性,本文利用統計模擬方法研究SMOTE-PSM插補法的統計性質。設定線性模型產生完整數據集,依據MAR機制設置無回答單元,利用SMOTE-PSM插補法對無回答單元進行多重插補,評價線性模型系數估計的統計性質。設定的線性模型為:

Y=β0+β1X1+β2X2+β3X3+β4X4+ε

(9)

其中,解釋變量設定為兩種類型,將X1、X2設定為連續變量,分別服從正態分布N(1,4)和N(10,4),將X3、X4設定為離散變量,分別服從二項分布B(1,0.8)和B(1,0.6);截距項和解釋變量系數分別設定為β0=1,β1=10,β2=1,β3=1,β4=2;誤差項ε的分布分別設定為正態分布、T分布和Cauchy分布,以對不同誤差分布假定下的插補效果進行比較,設定數據集的樣本量為100。

(二)模擬結果比較分析

1.不同插補方法的模擬結果與分析

在MAR機制下,單元的無回答概率僅依賴于完全觀測變量,與無回答變量無關。本文選取X1和X3兩個不同類型的變量作為無回答概率的依賴變量,對單元進行無回答設定,分別采用SMOTE-PSM插補法和其他比較方法對無回答單元進行多重插補。在無回答概率依賴連續變量X1的情況下,選擇小于變量X1的給定無回答比率分位數的單元,將目標變量值設定為無回答。在無回答概率依賴于離散變量X3的情況下,借鑒Kropko的方法,利用Logit模型將變量X3的值轉換為概率值pi,再按照依賴于連續變量X1的情況進行設定單元的無回答。在采用SMOTE算法產生新的合成單元時,若無回答率為5%,單元合成率r為18,近鄰個數b選為3;若無回答率為20%,單元合成率r為3,b為5。表1和表2分別給出單元無回答概率分別依賴于連續變量X1和離散變量X3的模擬結果,其中RE表示系數估計的相對誤差,MSE表示系數估計的均方誤差。

表1和表2中的模擬結果顯示,在無回答率與插補重數的多種組合中,與其他插補方法相比,基于SMOTE-PSM插補法的系數估計的相對誤差和均方誤差最小。在無回答率為5%時,SMOTE-PSM插補法明顯優于其他插補方法。

表1 無回答概率依賴于連續變量X1的模擬結果

表2 無回答概率依賴于離散變量X3的模擬結果

由表1和表2的比較分析可知,在無回答率一定或插補重數一定的情況下,五種插補方法的模擬結果表現特征相同。在給定無回答率的情況下,基于PSM插補法、響應傾向得分匹配插補法和最近鄰插補法的系數估計相對誤差和均方誤差,都隨著插補重數增加,呈現出遞增趨勢。而回歸插補法相應的相對誤差和均方誤差未呈現明顯的變化趨勢。SMOTE-PSM插補法在不同無回答率下呈現不同的特征。在無回答率為5%的情況下,基于SMOTE-PSM插補法的系數估計相對誤差和均方誤差無明顯遞減趨勢;而在無回答率為20%的情況下,插補效果呈現下降趨勢。在插補重數為30時,插補效果更優良。從相對誤差和均方誤差的變動幅度來看,PSM插補法和最近鄰插補法受插補重數的影響較大,響應傾向得分匹配插補法和回歸插補法次之,SMOTE-PSM插補法的相對誤差和均方誤差變動幅度最小,受插補重數的影響小。

在給定插補重數的情況下,基于五種插補法的模型系數估計相對誤差和均方誤差,在無回答率為20%的情況下均高于無回答率為5%的情況。其中,基于PSM插補法和回歸插補法在兩種給定無回答率下的系數估計相對誤差和均方誤差的變動幅度較大,響應傾向得分匹配插補法和最近鄰插補法次之,SMOTE-PSM插補法的變動小,說明無回答率對SMOTE-PSM插補法的影響小,插補效果較為穩健。

綜上可知,無論單元無回答概率依賴于連續變量還是離散變量,在無回答率與插補重數的多種組合中,基于SMOTE-PSM插補法的系數估計的相對誤差和均方誤差最小,并且在不同無回答率和插補重數下,系數估計的相對誤差和均方誤差變動幅度最小,插補效果穩定。

2.不同誤差分布假定下的模擬結果

為了分析誤差分布對SMOTE-PSM插補法的插補效果影響,分別選擇T分布、Cauchy分布和正態分布作為誤差分布,進行模擬研究。為了簡潔展示模擬結果,給出無回答率20%、插補重數5組合下的模擬結果,見表3和表4。其中,非正態誤差分布假定下的系數估計采用極大似然估計方法。

表3 不同誤差假定的模擬結果(無回答概率依賴于連續變量X1)

表4 不同誤差假定的模擬結果(無回答概率依賴于離散變量X3)

表3給出單元無回答概率依賴于連續變量X1的五種插補方法的模擬結果。從系數估計的相對誤差和均方誤差來看,在三種誤差分布假定下,回歸插補法的插補效果最差?;赟MOTE-PSM插補法的系數估計相對誤差和均方誤差最小,受誤差分布影響小,系數估計量的變動幅度最小。表4給出單元無回答概率依賴于離散變量X3的五種插補法的模擬結果,與單元無回答概率依賴于連續變量X1的模擬結果相似。從系數估計的相對誤差和均方誤差來看,回歸插補法、最近鄰插補法和PSM插補法的插補效果較差,且回歸插補法和PSM插補法易受誤差分布的影響?;赟MOTE-PSM插補法的系數估計的相對誤差和均方誤差明顯低于其他四種插補法,受誤差分布影響最小,誤差分布對系數估計的變動幅度影響最小。綜上可知,在多種誤差分布假定下,SMOTE-PSM插補法的插補效果最優,系數估計的相對誤差和均方誤差小,變化幅度小,插補效果穩定。

由上可知,本文所提出的SMOTE-PSM插補法在各誤差分布假定下的插補效果最優,并且不同誤差分布假定下的系數估計相對誤差和均方誤差變化幅度小,受誤差分布的影響小,插補效果穩定。從不同誤差分布來看,SMOTE-PSM插補法在正態分布和T分布假定下的插補效果較好,且兩者較為接近。

四、SMOTE-PSM插補法的實證研究

下面驗證SMOTE-PSM插補法在Grilic(1)數據下載網址為:https:∥github.com/Stata-Club/Sharing-Center-of-Stata-Club。真實數據集中的應用效果。Grilic數據集由12個觀測變量和758個觀測組成,用于研究年輕男子工資的影響因素。這里,選取Lw(工資對數)作為被解釋變量,Kww(在“Knowledge of the World of Work”中的測試成績)、IQ(智商)、Smsa(大城市虛擬變量,住在大城市=1)和Mrt(婚姻虛擬變量,已婚=1)作為解釋變量,其中Kww和IQ為連續型變量,Smsa和Mrt為離散型變量。選擇的線性模型為:

Lw=α0+α1Kww+α2IQ+α3Smsa+α4Mrt+ε

(10)

表5給出了Grilic數據集在MAR機制下利用SMOTE-PSM插補法的實證結果。Grilic完整數據集的模型系數估計值在顯著性水平5%下均顯著為正,表明年輕男性群體中,在“Knowledge of the World of Work”測試中的成績越高,智商越高,所能獲得的期望工資越高;居住在大城市比居住在小城市獲得的期望工資高;已婚狀態比未婚狀態獲得的期望工資高。第3~18行給出了從Grilic數據集中簡單隨機抽取100個觀測依賴于解釋變量Kww、IQ、Smsa、Mrt缺失情況下的實證結果,由于從Grilic完整數據集中重復隨機抽取100個觀測進行無回答設定,會導致系數估計的方差擴大,大于選用完整數據集的系數估計標準誤。

表5 Grilic數據集的分析結果

五、結 論

微觀調查數據集中常常存在一定程度的無回答,且很難避免。無回答會嚴重影響調查數據的質量和分析結果的可靠性。PSM插補法作為處理無回答數據的常用多重插補方法,利用PSM模型對無回答單元與回答單元進行匹配,實現無回答數據的插補,具有不易受混雜變量影響的優點。但是,實際應用中,調查數據的無回答率往往較低,無回答單元數量與回答單元數量相差較大,會造成PSM模型的匹配效果下降,降低PSM插補法的可靠性。

本文為了提高實際應用中無回答單元數量明顯低于回答單元數量情況下PSM插補法的插補效果,將SMOTE算法處理非平衡數據集的優勢引入PSM插補法,提出基于合成少數類過采樣的傾向得分匹配插補法,即SMOTE-PSM插補法。新插補法保留了PSM插補法的優點,并融合了SMOTE算法的優勢,改善了非平衡分類數據的擬合性能,提高了插補效果。統計模擬結果演示,SMOTE-PSM插補法的插補效果明顯提高,且不易受誤差分布的影響,提高了插補的有效性及穩健性。實證結果表明,SMOTE-PSM插補法在實際數據Grilic中同樣具有較好的可應用性,能夠有效解決數據無回答問題,得出可靠的分析結果。本文的研究為PSM插補法在非平衡分類數據中的應用提供了新思路,可將其推廣到政策評價和因果推斷等數據分析中。

猜你喜歡
補法均方系數
基于符號相干系數自適應加權的全聚焦成像
高斯白噪聲激勵下微懸臂梁的瞬態均方響應研究
構造Daubechies小波的一些注記
淺析應用“補法”治療慢性肝病
Beidou, le système de navigation par satellite compatible et interopérable
蘋果屋
嬉水
一類隨機微分方程的均方漸近概自守溫和解
薛一濤教授運用補法治療眩暈驗案舉隅
待定系數法在分解因式中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合