?

PSM-DID在政策評價中的應用現狀與改進方法①

2024-04-11 07:57周亞虹
管理科學學報 2024年2期
關鍵詞:平衡性控制組測度

蔡 俊, 楊 嵐, 周亞虹

(1. 華中科技大學管理學院, 武漢 430074; 2. 西南財經大學統計學院, 成都 611130 ;3. 上海財經大學經濟學院及上海財經大學滴水湖高級金融學院, 上海 200433)

0 引 言

最近十幾年來,傾向得分匹配-雙重差分(propensity score matching-difference in differences, PSM-DID)在政策評價因果效應識別和估計中得到了越來越多的關注.傾向得分匹配的基本原理是,將原本基于多維控制變量的處理組和控制組的匹配轉變為基于一維傾向得分的匹配,從而使匹配維度大大降低,而匹配質量和效果卻得到顯著提升.基于匹配后的樣本進行分析,能夠克服樣本自選擇偏差,從而使得因果估計更為準確.而雙重差分則可以通過控制時間和個體兩個維度的不可觀測異質性,在反事實的框架下來評估政策發生和不發生這兩種情況下被觀測結果的變化,得到因果推斷.

本文統計和梳理了自2012年—2022年間國內部分經濟學管理學權威期刊,即《經濟研究》、《管理世界》、《管理科學學報》、《經濟學(季刊)》、《世界經濟》、《中國工業經濟》中使用了傾向得分匹配的文章.在這十年間,共有169篇文章使用了傾向得分匹配方法,其中118篇將其作為主回歸或者主回歸之一,51篇使用該方法進行穩健性檢驗.通過文獻梳理,本文發現:

第一,傾向得分匹配在經濟管理各個領域的應用都較為廣泛,特別是在政策評估時成為一種重要的因果效應估計方法而廣為人知.由于通常能獲取到的數據大多為觀測數據,利用觀測數據進行政策評價時首先要解決的問題就是樣本的自選擇性,而傾向得分匹配能夠在利用已有數據的基礎上較好的處理樣本的自選擇性.例如:孫亮等[1]采用PSM-DID方法,系統考察了我國資本市場中政府賦予型聲譽的激勵效果和作用機理.黃俊等[2]以第一巡回法庭和第二巡回法庭管轄范圍內的上市公司為實驗組,采用PSM方法構建對照組樣本,探究巡回法庭的設立對企業投資的影響.吳要武[3]基于PSM方法估計跨省遷移者相比于省內遷移者真實的收入優勢.賈俊雪和秦聰[4]利用2 126個村莊的調查數據進行傾向得分匹配實證檢驗,識別專業協會建立對處理組農戶人均純收入的平均處理效應.

第二,傾向得分匹配方法常與雙重差分法結合使用.由于原理和模型設置容易理解和運用,雙重差分法成為政策效應評估方法中的最流行的方法之一.十年間,使用傾向得分匹配-雙重差分法(PSM-DID)進行反事實估計的文章有107篇,占到發文總數的63.3%(其中宏觀政策效應評估有22篇,占20.6%;微觀政策效應評估有85篇,占79.4%).例如:宏觀政策層面的分析中,萬海遠和李實[5]采用傾向得分匹配與雙重差分的方法來構造反事實,從而在擬實驗環境下評估戶籍歧視對城鄉收入差距產生的影響.王庶和岳希明[6]使用PSM-DID評估退耕還林在農民增收、非農就業和扶貧開發等方面的政策效果.龍玉等[7]利用PSM-DID模型考察在高鐵開通前后的高鐵沿線各城市風險投資項目和投資金額的變化,來檢驗高鐵對風險投資區域特征的影響.微觀政策層面的分析中,孫文凱和王乙杰[8]采用PSM-DID方法估計父母外出務工對留守兒童自評健康的影響.張杰等[9]利用PSM-DID模型系統地檢驗了出口與生產率的關系.王桂軍和張輝[10]使用PSM-DID評估了“一帶一路”倡議對中國OFDI企業全要素生產率的影響.

第三,傾向得分匹配作為一種數據預處理方法,能讓處理組和對照組的可觀測特征盡可能接近,從而克服樣本自選擇帶來的估計偏誤,但是使用傾向匹配得分需要滿足兩個前提:一是平衡性假定,在計算傾向得分后,需要評估匹配的質量如何,即檢驗可觀測特征是否均衡;二是共同支撐假設,也即評估控制組和處理組傾向得分的分布,若兩組樣本沒有重合的傾向得分,或者重合的樣本量太小,就會導致無法匹配或匹配偏差較大.在梳理文獻時,本文發現僅有82篇文章(占比48.5%)在正文中匯報了平衡性假定檢驗的結果,有29篇文章(占比17.2%)未匯報具體檢驗統計指標,僅指出通過該檢驗或者檢驗結果備索,有58篇文章(占比34.3%)未進行平衡性檢驗.同時,本文還發現,十年間文獻進行平衡性檢驗基本都是基于比較處理組和對照組樣本均值是否存在統計意義上的差異,若兩組的均值差的t統計量顯示實驗組和對照組均值沒有顯著差異,則認為通過平衡性檢驗,使用傾向得分匹配后得到的樣本較為均衡.但是,僅僅基于均值的差異判斷兩組樣本的平衡性較為片面,一種可能的情況是雖然均值較為接近,但是方差差異很大,例如處理組的方差較小,控制組的方差較大,此時,將兩組進行比較得出的結論有較大偏差.因此,本文認為目前文獻中廣泛使用的平衡性檢驗方法存在不足,需要進行更多維度平衡性檢驗指標的檢測,只有確保處理組和對照組的樣本實現平衡后,基于匹配后的樣本所估計的因果效應才有意義[11, 12].

鑒于該方法的廣泛應用性和既有研究的不足,本文在梳理國內既有使用傾向得分匹配的文章的基礎上,首先對目前廣泛使用的平衡性測度指標進行總結,對文獻中普遍使用的均值差t檢驗方法進行回顧并說明其缺陷,然后推薦了六種多維度測度指標,分別基于標準化距離和分位數距離的視角對平衡性進行測度.第二,利用兩個實例(一個微觀層面的實證分析,一個宏觀層面實證分析)說明和驗證既有平衡性測度指標的不足,并計算新的平衡性測度指標,基于這些指標判斷樣本間的平衡性,研究發現均值差t檢驗可能將非平衡的樣本判定為平衡,因此單純基于均值差t檢驗判定平衡性比較片面且可能有誤導性.第三,若樣本匹配后在多種平衡性測度指標的判斷下顯示為不平衡,傳統估計方法將有較大偏誤,本文創新性地提出了一種新的更穩健的估計方法:傾向得分匹配-逆概率加權-雙重差分(PSM-IPW-DID),并基于蒙特卡洛模擬比較本文提出的PSM-IPW-DID估計量與傳統PSM-DID估計量的優劣.最后對兩個實例使用該新方法重新進行分析,以進一步說明使用PSM-DID和PSM-IPW-DID方法時估計結果的差異.

因此,本文的創新性體現在:一是明確指出既有文獻中廣泛使用的平衡性測度指標的不足,并給出了更為全面的平衡性測度指標.二是提出適用于非均衡樣本的新的估計方法:傾向得分匹配-逆概率加權-雙重差分(PSM-IPW-DID).逆概率加權(inverse probability weighting, IPW)由于其基于樣本對總體的還原,可以使模型推斷結果具有總體代表性,被廣泛地應用于缺失數據時的統計分析和因果推斷的計量估計中[13-15].文獻中已有證據表明在傾向得分重合度(overlap)較好時,IPW方法比PSM方法占優(有更小的方差);在傾向得分重合度比較差時,PSM比IPW更穩健[16-18].本文提出的新方法結合傾向得分匹配和逆概率加權的長處,規避其短處,在不進一步刪除樣本的情況下得到一種綜合更穩健的雙重差分估計方法.另一方面,已有的文獻或是單純比較傾向得分匹配和傾向得分逆概率加權的聯系與區別,如King 和Richard[19];或是探討在一般回歸模型中考慮傾向得分的使用,如Wooldridge[20]中的逆概率加權-回歸調整的估計量(IPWRA);本文將PSM-IPW與DID回歸模型結合起來,既考慮傾向得分重合度(overlap)對估計的影響,也為平衡多維控制變量提供了新的思路.(1)最新的相關文獻為 Arkhangelsky和Imbens[21],他們發現在存在組間異質性時,逆傾向得分加權使固定效應模型估計值更加穩健.

1 平衡性的測度

本節首先介紹文獻常用的平衡性檢驗實施方法,然后推薦6種本文認為應該更多關注的多維度平衡性測度.

1.1 文獻中常用的平衡性檢驗

基于對既有文獻的梳理和總結,本文發現既有文獻一般將傾向得分匹配后樣本每一個控制變量的處理組和控制組之間的加權均值差異(mean difference)進行t檢驗,以此作為平衡性檢驗.文獻中該方法的流行得益于Stata中pstest命令的便利性,該命令輸出結果呈現了各變量匹配前后的均值,并輸出加權均值差t檢驗的結果(如表1).(2)Stata程序pstest一般在psmatch2后使用,其匹配權重也來自于psmatch2中的_weight.關于匹配權重詳情,請見psmatch2的幫助文件.同時,文獻中通常會畫出匹配前后的傾向得分核概率密度分布圖用以支持共同支撐假設(如圖1和圖2).基于這兩步操作,既有文獻認為驗證了傾向得分匹配的有效性.然而,簡單的匹配加權均值差t檢驗只能反映加權總體控制變量分布平衡性的一個維度,比較片面.而傾向得分概率密度圖只是一種簡單的圖示,可能無法反映變量之間真實的匹配程度.

(a)匹配前

(a)匹配前

表1 匹配前后平衡性檢驗結果

1.2 值得關注的多維測度

簡單的加權均值差異t檢驗,只能反映控制變量的均值在處理組和控制組之間有無顯著性差異,且由于目標總體會隨著匹配權數的選擇而改變,容易忽略處理組和控制組樣本數量的差異,忽略對處理組控制變量和控制組處理變量的方差、分位數、分布高階矩等信息的考察.而平衡性要求(關鍵)控制變量的分布盡可能一致,所以僅僅依靠一種均值檢驗可能并不能說明平衡性的好壞,更無法判斷研究設計的優劣.特別地,在實證研究中,由于傾向得分模型可能被誤設,僅依靠傾向得分的平衡性并不足以判斷研究設計如“準自然實驗”構造的好壞,構造多種多維度的平衡性測度就顯得尤為迫切.基于此,本文參考前沿文獻[12],推薦以下六種值得關注的控制變量平衡性測度指標:

1.2.1 標準化均值差異

標準化均值差異是指經過處理組和控制組組間標準誤標準化后的組間均值差異,具體公式如下

(1)

(2)

(3)

使用樣本方差的優點是考慮了處理組和控制組之間的樣本數量的差異.在大多數政策評價實例中,處理組的個體數量一般遠小于控制組的個體數量.文獻經驗顯示,標準化均值差異和平均處理效應(ATE)的估計偏差高度相關,絕對標準化均值差異(即標準化均值差異的絕對值)在百分之十以下才能認為是達到一個比較好的平衡性[22].

1.2.2 馬氏距離

馬氏距離(Mahalanobis Distance),也稱馬哈拉諾比斯距離,是一種有效的衡量兩個樣本相似度的測度.與歐氏距離不同的是它考慮到了各個控制變量之間的聯系,并且是尺度獨立的(scale-invariant).其表達式為

(4)

1.2.3 線性化傾向得分的標準化均值差

(5)

1.2.4 對數樣本標準誤比

對數樣本標準誤比(Ln Ratio of Standard Deviations),即對處理組與控制組控制變量樣本標準誤比值取對數,主要反映樣本間控制變量的分散程度(spread dispersion)差異.數學表達式為

(6)

其中St、Sc分別為處理組、控制組的樣本標準誤.對數樣本標準誤比是一個控制變量分散度的測量,它也是尺度獨立的.與簡單的樣本標準誤差值或者樣本標準誤比值相比,對數樣本標準誤比值更接近于服從正態分布,便于下一步的判定.

1.2.5 分位數差異

(7)

(8)

1.2.6qc&qt

與分位數差異類似,另外一種直接的測度就是基于線性化傾向得分的分位數差異qc&qt,用以測量控制組和處理組的共同支撐.若至少能找到一個對照組(i′∶Wi′=1-Wi)中樣本和其有接近的線性化傾向得分值,也即線性化傾向得分差異小于一個門檻值lu(通常設為0.1或者0.05),定義二值變量ζi為1,否則為0.具體數學表達式如下

(9)

基于此,qc&qt具體表達式為

(10)

(11)

其中Nt是處理組樣本數,Nc是控制組樣本數,qc和qt反映的是控制組(和處理組)中能找到參照組中類似個體的樣本數占該組總樣本的比例.

總體上來看,以上推薦的六種測度中,測度(1)、測度(2)和測度(5)是針對每一個控制變量的度量;測度(3)、測度(4)和測度(6)是針對所有控制變量的多維平衡性測度.測度(1)~測度(4)是標準化距離的度量,測度(5)~測度(6)是控制組和處理組分位數差異的度量.這些測度方法更注重控制組和處理組整體分布的平衡性,比傳統的(加權)均值t檢驗更加全面與客觀.但是,要求所提出的六種平衡性檢驗全部滿足在觀測數據實證分析中難以實現,研究者可以根據樣本量和研究需要,盡可能滿足多種平衡性指標,如Imbens[22]和 Athey 和 Imbens[23]推薦至少滿足標準化均值差異、對數樣本標準誤和分位數差異這三種指標.

2 實例分析: PSM-DID

通過兩個實例來說明本文推薦的多種平衡性測度的有效性和實用性.

2.1 “營改增”試點對制造業經營多元化的影響

2.1.1 政策背景

為克服傳統稅制重復征稅的缺陷[24],國務院批準自2012 年1月1日起,率先在上海實施了交通運輸業和部分現代服務業營改增試點.在原有17% 和13%兩檔增值稅稅率下,新增了11% 和6%兩檔較低稅率.在上海試點的基礎上,2012年9月1日~2012年12月1日,“營改增”試點擴大至北京市、天津市、江蘇省、安徽省、浙江省、福建省、湖北省與廣東省8 個省份.一年后,“1+6”行業“營改增”推廣至全國所有地區.并逐步推廣至全國和其他服務部門.下面將基于我國“營改增”稅制試點政策這一“準自然實驗”,將2012年進行試點的上海市制造業上市公司作為處理組,使用PSM方法匹配其他未進行“1+6”行業“營改增”試點省份的制造企業作為控制組,探究稅制改革對制造業經營多元化的影響.

2.1.2 數據與模型

1)數據來源

數據來源Wind數據庫,使用2008年—2014年全部制造業行業的上市公司相關數據.從收集的數據中可以看出,非試點省份中有3 288個上市制造業公司觀測值,政策處理節點2012年以前觀測值1 794個,2012年以后1 494個;處理組(上海市)有475個上市制造業公司觀測值,其中政策時間節點2012年以前觀測值259個,2012年后216個.

2)實證模型

采用雙重差分方法來估計“營改增”試點政策的因果效應,并應用傾向得分匹配(PSM)來構造可比較的處理組和控制組,即在上海的制造業上市公司和非試點省份的上市制造業公司,減少由于樣本選擇所帶來的內生性風險.具體而言,使用的模型如下

PilotVATi=α0+α1Lnassetit+α2Inexrit+

α3Levit+α4Profitit+

α5Marketit+α6Intassetit+εi

(12)

Revstruraipt=β0+β1Treatp×Postt+

β2Xipt+ηi+γt+ζit

(13)

其中,下表i,p,t分別表示企業,省份和年份.具體地,方程(12)為估計傾向得分的選擇方程(Selection Equation),是用于PSM匹配的Pooling Logit回歸模型,被解釋變量PilotVATi為是否加入政策試點的虛擬變量.若企業i位于“營改增”政策試點地區則為1,否則為0.參照已有文獻[25],本文匹配變量選擇了可能影響“營改增”試點地區選擇的企業特征變量:Lnasset(對數資產總額),Inexr(投資支出比,用于購建固定資產、無形資產以及其他長期資產支付的現金與總資產之比),Lev(資產負債率,為企業年末負債總額與資產總額之比),Profit(利潤率,營業利潤與營業收入之比),Market(市場勢力,用勒納指數衡量,指產品價格與邊際成本間的差額,本文采用主營業務收入減主營業務成本之差除以主營業務收入之比獲得),Intasset(無形資產占比,企業的無形資產總額與總資產之比).

方程(13)是評估政策的結果方程(Outcome Equation),是一個雙重差分模型.其中選取Revstrura(主營構成第一名在營業收入中占比)為因變量,反映制造業公司的營業集中度.Treat為政策試點地區的虛擬變量,如果制造業上市公司所在地為上海則Treat為1,否則Treat為0;Post為政策實施年份前后的虛擬變量,2012年以前年份為0,2012年及以后為1.因此,雙重差分交互項Treat×Post前的系數為雙重差分估計的“營改增”對試點地區制造業上市公司的凈效應.Xipt為控制變量,即方程(12)中的6個企業特征(Lnasset、Inexr、Lev、Profit、Market、Intasset).在結果方程中,本文控制了公司層面個體固定效應ηi和年份固定效應γt.

2.1.3 傾向得分匹配結果

如前所述,本文先進行傾向得分匹配,在估計完傾向得分值之后,常用的匹配方法有以下幾種:1)有放回的最近臨近匹配,通常選擇1∶4[26]或者1∶1(最優的情況,但是會損失一定樣本)同時限制最大卡尺(Caliper)距離為0.05; 2)半徑匹配,即選擇一個傾向得分匹配所能允許的最大半徑值,可以選擇0.05或者選擇一個傾向得分的標準誤;3)核加權匹配,需要選擇一個匹配的核函數,一般選高斯核函數(Gaussian)或者雙權重核函數(Biweight).本文選擇文獻中常用的1∶1臨近匹配方法(用psmatch2實現).(4)考慮到估計的傾向得分所帶來的不確定性,1∶1近鄰匹配嚴格意義上應該使用teffect psmatch程序包,但是使用teffect psmatch時無法獲得控制變量的回歸系數及顯著性。鑒于此,本文采用了文獻中常用的psmatch2程序包中1∶1匹配方法,得到基于均值平衡性檢驗表及傾向得分重合度檢驗圖,并加上共同支撐假設進行樣本刪減,以便進行后續回歸分析.匹配前后控制變量的均值差異如表1所示.

表1中第二列為匹配前后標識變量,U代表未匹配(Unmatched),M代表匹配后(Matched).第三列、第四列為匹配權重加權后的均值,第三列為處理組均值,第四列為控制組均值.第五列%bias是標準化平均值差異.公式為(Weighted Mean_T-Weighted Mean_UT)/SD,即用表格中處理組與控制組的加權均值之差,除以該變量加權樣本的標準誤.(5)這里的加權樣本標準誤為控制組和處理組加權樣本方差的均值開根號,詳見Stata軟件中pstest幫助文件.第六列%reduct |bias|是匹配后標準化平均值差異下降的幅度,其數值是通過前面 %bias一列得到的,公式為(| UnMatched %bias |-|Matched % bias | ) / |UM%bias|,度量匹配之后處理組和控制組間的bias減少了多少.第七列、第八列的t-test,用于判斷前述的 %bias 是否顯著,若顯著則說明針對該變量而言,處理組和控制組的加權均值差異是顯著的.最后一列V(T)/V(C)為控制變量方差比.星號表示控制變量方差比值超過F統計量2.5%和97.5%分位值,表示值得關注的控制變量,詳見Austin[27].

從上表中可以看出匹配完后的樣本,加權均值差異的t檢驗都通過,加權均值差異在統計意義上都不顯著,但是方差比值(Varianceratio:=V(T)/V(C))仍然比較顯著,如Lnasset,Inexr,Profit,而且加權總體可能并不是政策研究所關注的總體.然而,在實證中這些通常被忽略.本文將在平衡性檢驗中使用更多的直觀測度來檢驗控制變量的平衡性.

圖1展示了匹配前后控制組和處理組傾向得分的核密度分布圖.圖1(a)中匹配前處理組的傾向得分分布和控制組的并不完全重合(特別是眾數明顯不一致),且有一些傾向得分較小或者較大的個體無法找到匹配個體(匹配奇異值).但是匹配后,從圖1(b)中可以看出處理組的傾向得分分布和控制組基本重合(眾數和分布區間基本一致),共同支撐假設基本成立.值得注意的是,匹配過程中刪掉了36個匹配奇異值.下文實例分析中本文將基于此匹配樣本比較常用的PSM-DID估計方法和本文提出的新方法.

2.1.4 平衡性測度

此處將第一章中推薦的六種平衡性測度方法應用到“營改增”的數據中,以期從多方面來衡量控制變量的平衡性,并從不同側面考察控制組和處理組的可比性.

表2中前4列為控制組均值、控制組標準誤、處理組均值和處理組標準誤.從表2第5列開始,匯報了四種新的平衡性測度:標準化差值、對數標準誤比、控制組5%分位點對應值和處理組5%分位點對應值.從表中可以發現,通過傾向得分匹配后,處理組與控制組均值和標準誤都比較接近,但是從新的測度指標發現,有些變量并沒有如預期的那樣完全平衡.例如,對數資產總額lnasset標準化差值和處理組5%分位點對應值都比較高,說明控制組在2.5%分位數以下及97.5%分位數以上的制造業上市企業很難找到與其匹配的處理組;資產負債率Lev對數標準誤比較大,說明盡管處理組和控制組均值接近,但是分布比較不均;利潤率Profit和無形資產占比Intasst也存在類似的問題;最后,本文發現即使將所有控制變量單一化為傾向得分,估計的傾向得分在處理組5%分位點對應值為0.098,表明控制組的傾向得分在2.5%分位數以下及97.5%分位數以上的制造業上市企業很難找到與其匹配的處理組.(6)這對于估計ATT來說問題不大,但是對估計ATE或者ATUT來說會產生一些偏誤.這從側面反映匹配后的樣本也存在一定程度的不平衡性.如果在實際測算中發現其值偏離0.05較多,則可依據更嚴格標準進行匹配或者加權.

表2 多維度平衡性檢驗

本文還計算了其他兩種平衡性的測度:Mahalanobis得分和qc&qt.計算得到的Mahalanobis得分是0.292 1,大于經驗值0.1.當固定最大傾向得分間距為0.1時,得到qt=0.981,qc=0.979,即有1.9%的處理組個體找不到匹配的控制組個體,有2.1%的控制組個體找不到匹配的處理組的個體.這些都從不同側面說明傾向得分匹配后樣本的平衡性還有進一步提高的空間或者模型還有待進一步改進.

2.2 智慧城市試點對城市PM2.5排放量的影響

2.2.1 政策背景

2010年開始,中央及地方政府就分別從頂層設計到具體應用不斷推出指導和鼓勵智慧城市建設的相關政策.2012 年 12 月 5 日正式發布“關于開展國家智慧城市試點工作的通知”,并印發《國家智慧城市試點暫行管理辦法》和《國家智慧城市(區、鎮)試點指標體系(試行)》.首批國家智慧城市試點共涉及 90 個地、縣級城市.本小節將基于我國首批智慧城市試點政策這一“準自然實驗”,以首批試點城市作為處理組,采用PSM方法選擇合適的非試點城市作為對照組,考察智慧城市試點對空氣污染物PM2.5排放量的影響,從側面檢驗數字化發展對環境保護的影響.

2.2.2 數據與模型

1)數據來源

PM2.5數據來自于哥倫比亞大學國際地球科學信息網絡中心(CIESIN)所屬的社會經濟數據和應用中心(SEDAC)公布的相關數據.城市層面控制變量數據來自 2006年—2016 年《中國城市統計年鑒》.智慧城市名單來自住建部公布名單,將其與中國城市統計年鑒、PM2.5數據匹配,最終得到 2005年—2016 年中國 278個地級市 12年的面板數據3 332個樣本.

2)實證模型

為探究智慧城市試點對城市PM2.5排放的影響,使用PSM-DID,基于具有可比性的處理組和控制組分析被處理城市的平均處理效應(ATT),減少由于樣本自選擇所帶來的內生性風險.具體來講,以省內試點城市為處理組,以省內非試點城市為對照組,構建模型如下

Smart_Cityc=α0+α1Popct+α3Economicct+

α4Financect+α5Urbanct+

α6Openct+εc

(14)

PM2.5ct=β0+β1TreatC×Postt+

β2Xct+δc+γt+ζit

(15)

其中,方程(14)為估計傾向得分的選擇方程(Selection Equation),采用logit回歸模型,被解釋變量Smart_CityC為是否加入政策試點的虛擬變量:若城市c為試點城市則為1,否則為0.參考既有文獻[28],本文控制了以下城市特征變量(Xct):人口規模(Pop),計算方式為ln(年末總人口);經濟發展水平(Economic),計算方式為ln(人均地區生產總值);金融發展水平(Finance),計算方式為ln(年末金融機構人民幣各項貸款余額);城市化水平(Urban),計算方式為100×非農業人口/年末總人口;市對外開放程度(Open),計算方式為外商實際投資額/地區生產總值.

方程(15)為評估政策的結果方程(Outcome Equation),基于匹配后樣本進行雙重差分回歸.被解釋變量為城市年平均PM2.5.TreatC為智慧城市二值變量:若為智慧城市試點城市,則為1,反之則為0.Postt為政策前后虛擬變量,若年份大于2011年,則為1,反之為0.因此,核心解釋變量為雙重差分交互項TreatC×Postt.Xct為城市層面控制變量.δc為城市層面固定效應,控制了不隨時間變化的城市特征.γt為年份固定效應,控制了宏觀趨勢對回歸結果的影響.

2.2.3 傾向得分匹配結果

由表3,對比傾向得分匹配完后的各變量的加權樣本均值,實驗組和對照組的均值差異在統計意義上都不顯著(p值都大于0.1),因此若按照文獻中廣泛使用的簡單比較均值差異將得出匹配后樣本滿足平衡性假定的結論.但是僅從表中信息看,城市化變量方差比值(Varianceratio:=V(T)/V(C))部分顯著,顯示出兩組分布的非均衡性,然而在實證中方差比值通常被忽略.后文將在平衡性檢測中使用更多的測度來檢驗控制變量的平衡性.

表3 匹配前后平衡性檢驗結果

更進一步,圖2展示的是匹配前后控制組和處理組傾向得分的核密度分布圖.圖2(a)中匹配前處理組的傾向得分分布和控制組的并非完全重合,眾數和均值表現出明顯不一致,且存在匹配奇異值(Outlier),有一些傾向得分較小或者較大的個體無法找到匹配個體.但是匹配后,從圖2(b)中可以看出處理組的傾向得分分布和控制組基本重合,眾數和分布區間基本一致.值得注意的是,匹配過程中刪掉了255個的匹配奇異值.類似地,在后文將基于此匹配樣本對常用的PSM-DID估計方法與本文提出的新方法進行比較.

2.2.4 平衡性測度

在此將第一章中推薦的六種平衡性測度方法應用到本案例中,以期從多方面來衡量控制變量的平衡性,也從側面考察控制組和處理組的可比性.

表4中前4列為控制組均值、控制組標準誤、處理組均值和處理組標準誤.從第5列開始,匯報了四種新的平衡性測度:標準化差值、對數標準誤比、控制組5%分位點對應值和處理組5%分位點對應值.表4顯示,經過傾向得分匹配后,處理組與控制組的均值和標準誤都比較接近,然而考察新的測度發現,部分變量并未實現完全平衡.例如,除對外開放水平外,其余控制變量的標準化差值都較高,說明盡管處理組和控制組均值接近,但是分布比較不均.城市化、對外開放水平的對數標準誤差比也都較高.經濟發展水平、金融發展、城市化水平控制組5%分位點對應值都比較高,說明處理組的2.5%分位數以下與97.5%分位數以上的城市很難找到與其匹配的控制組.人口規模、經濟發展水平處理組5%分位點對應值都比較高,說明控制組的2.5%分位數以下與97.5%分位數以上的制造業上市企業很難找到與其匹配的處理組.最后,表中結果顯示即使將所有控制變量單一化為傾向得分,估計的傾向得分在控制組和處理組5%分位點對應值都較大(相對于理想情況0.05而言),說明處理組和控制組的傾向得分都在2.5%分位數以下與97.5%分位數以上的制造業上市企業很難找到與其匹配的處理組.

表4 多維度平衡性檢驗

本案例仍計算了其他兩種平衡性的測度:Mahalanobis得分和qc&qt.計算得到的Mahalanobis得分是1.108,遠高于經驗值0.1.當最大傾向得分間距固定為0.1時,qt=0.988,qc=0.546,即有1.12%的處理組未能與控制組匹配,而有45.4%的控制組個體未能與處理組匹配,進一步說明了控制組與處理組之間樣本的不平衡性.以上案例分析結論進一步驗證了僅考察均值差異的片面性和誤導性,顯示出采用更為全面的平衡性測度指標的重要性和必要性.

3 改進的方法: PSM-IPW-DID

3.1 改進方法

通過前面的實例可以看出,僅僅只對均值差異(Mean Difference)做t檢驗只是一種方便性的選擇,遠不足以驗證控制變量的(分布)平衡性.對于平衡性的檢驗,研究者需要從多個角度多個維度來衡量,例如本文推薦的標準化均值差,分位數測度和離算程度差異等等.但是由于研究中通常使用觀測數據,使用多個平衡性測度后常常會發現有些控制變量不能完全平衡甚至分布相差很大,隨之而來的問題就是:怎樣提升平衡性呢?怎樣提升所估計因果效應(Causal Effect)的可靠性呢?

在引入多種平衡性測度后,可能會出現PSM很難滿足(絕對的)控制變量平衡性.為了達到更好的平衡性,一種直接的方法是使用嚴格的匹配的標準(Criterion),但是這樣不僅會使得樣本量大量減少,還可能導致后續的雙重差分估計結果不顯著.樣本量的減少會使得估計結果沒有代表性,雙重差分結果不顯著表明政策效應無法被干凈的識別和估計.

為了克服以上問題,本文提出了一種傾向得分匹配-逆概率加權-雙重差分(PSM-IPW-DID)的方法.逆概率加權(IPW)由Horvitz 和 Thompson[29]提出來(HT估計量),隨后被計量經濟學家廣泛引用,如Hahn[30]、Hirano等[31]、Fr?lich[16]、 Huber 等[17]、Busso 等[18]等等.類似地,文獻中用逆傾向得分概率加權來計算處理組和控制組的樣本均值,這樣能有效地去除處理組和控制組由于控制變量的不平衡性和差異性所帶來的處理效應估計誤差.具體來講,在非混淆假設(Confoundedness)下,利用重復期望法則能得到

(16)

(17)

基于此,兩個直接樣本的估計量為

(18)

(19)

因此,所感興趣的平均處理效應估計量(也是一個HT估計量)可寫為

(20)

在實際操作中,可對逆傾向得分權重進行標準化處理,使得其加總和為1

(21)

(22)

(23)

這是一種雙重穩健(Double Robust)的分析,詳見Sloczynski 和 Wooldridge[32].具體體現在

(24)

(25)

3.2 估計步驟

本質上,本文提出的方法結合了傾向得分匹配和逆概率加權的長處,規避了二者短處,得到了一種更為穩健的估計方法.傾向得分匹配會刪除掉一些樣本來增加控制變量的平衡性(從而克服樣本自選擇帶來的內生性)和滿足共同支撐(common support)的假設,而逆概率加權則可以在不減少樣本的情況下控制變量的不平衡性,基于(已匹配)樣本還原總體,通過概率加權的方法使得控制組和處理組更加可比,估計結果更有效.傾向得分匹配和逆概率加權的結合使用既能克服控制變量的不平衡性又能減少刪除樣本數量,而且克服了單獨使用傾向得分匹配(PSM)不足以平衡所有控制變量的短板,也規避了單獨使用逆概率加權(IPW)出現極端概率導致估計值方差過大的風險.具體來講,本文提出以下估計方法:

第二步,運用本文提出的多種平衡性測度衡量控制變量的平衡性,選出需要特別關注的不能平衡的控制變量Xub(控制變量X的一個子集);(7)對于這些通過PSM不能平衡的控制變量,需要將其加入到后續的DID回歸中,甚至考慮其高階形式.為了方便起見,后續實例研究中,本文只比較了不加入控制變量和加入所有控制變量兩種情況.

第四步,基于匹配后的樣本S和得到的逆概率加權,進行包含控制變量X(包含Xub)的加權雙重差分回歸,如下所示

Yit=α0+α1Treat+α2Post+α3Treat×

Post+Xit’β+εit

(26)

值得注意的是,本文提出的PSM-IPW也可應用于直接估計ATT的(均值相減)模型估計中.如引言中所述,在近十年發表在經濟學管理學主要期刊上的169篇使用傾向得分匹配的論文中,62篇是將傾向得分匹配直接應用于均值相減的處理效應ATT估計中.對于這些實例,本文提出的方法只需將第四步的估計方法中雙重差分模型改為一個加權均值相減模型使用加權最小二乘法(Weighted OLS)即可.

本文提出的方法既使用了逆概率加權,也加入了(不平衡的)控制變量進行回歸,得到的估計量是一個逆概率加權-回歸調整的估計量(IPWRA,詳見Wooldridge[20]).如上文所述,在處理選擇模型設定有誤而回歸模型是正確時,逆概率加權不會影響包含控制變量調整的回歸模型分析;另一方面如果處理選擇模型設定正確而回歸模型有誤時,逆概率加權可以糾正回歸模型,得到一致性的估計值.從這個意義上來講,該估計量沿襲了逆傾向得分加權回歸的優點,具有雙重穩健的性質(double robustness)[12].

同時,和其他DID的改進方法如Abadie[33]和Sant’Anna等[34]類似,本文提出的改進方法適用于面板數據,也適用于重復橫截面數據(repeated cross sectional data).基于DID設計,在處理重復橫截面數據時,需要構造一個“偽”面板數據(psudo panel data).如果不考慮DID設計,本文提出的加權方法也適用于截面數據,如文獻中Soczyński等[35]文章中提出的在截面數據中適用的類似方法.具體來講,首先估計傾向得分,以處理組為基礎,通過傾向得分來匹配控制組樣本,然后構造逆傾向得分權重(IPW),通過加權最小二乘回歸(OLS)估計處理組的平均處理效應,即ATT.

3.3 數值模擬

與Kang和Schafer[36]和Sant’Anna等[34]等文獻類似,本文考慮以下四種數據生成過程(data generating process)

DGP1:Y0(0)=freg(X)+v(X,D)+ε0,

Y1(d)=2freg(X)+v(X,D)+ε1(d),d=0,1

D=1{p(X)≥U}

DGP2:Y0(0)=freg(X)+v(X,D)+ε0,

Y1(d)=2freg(X)+v(X,D)+ε1(d),d=0,1

D=1{p(Z)≥U}

DGP3:Y0(0)=freg(Z)+v(Z,D)+ε0,

Y1(d)=2freg(Z)+v(Z,D)+ε1(d),d=0,1

D=1{p(X)≥U}

DGP4:Y0(0)=freg(Z)+v(Z,D)+ε0,

Y1(d)=2freg(Z)+v(Z,D)+ε1(d),d=0,1

D=1{p(Z)≥U}

由于本文關注于所觀測到的控制變量X線性加入到回歸模型和logit傾向得分模型中的情景,因此DGP1中回歸模型和傾向得分方程都正確設定,DGP2中只有回歸模型是正確設定的,DGP3中只有傾向得分方程是正確設定的,DGP4中回歸模型和傾向得分方程設定都不正確.蒙特卡洛數值模擬的結果如表5中所示.

表5 PSM-IPW-DID與PSM-DID估計值數值模擬分析

DGP2a:Y0(0)=frega(X)+va(X,D)+ε0,

Y1(d)=2frega(X)+va(X,D)+ε1(d),

d=0, 1

D=1{p(Z)≥U}

DGP2b:Y0(0)=fregb(X)+vb(X,D)+ε0,

Y1(d)=2fregb(X)+vb(X,D)+ε1(d),

d=0,1

D=1{p(Z)≥U}

表6 非平衡變量對PSM-IPW-DID估計值影響分析

表6中數值模擬結果顯示,控制非平衡變量的高階項的估計值與只控制非平衡變量的線性項估計值相比,其大小相同且均存在一定偏誤,但標準誤更小,回歸結果更顯著.更小的標準誤使得了無論是在5%還是10%顯著性水平上,控制非平衡變量的高階項的估計值都更顯著.比較兩種不同誤設程度的回歸模型DGP2a和DGP2b,可以發現,誤設程度較高的DGP2b模型的估計值偏誤較大(|1.429|和|-0.539|),但是一旦控制非平衡變量的高階項后,標準誤就極大降低,而且顯著性水平極大提高.這些結論進一步驗證了考慮控制非平衡變量的非線性函數關系的重要性,對實證分析也有重要指導意義.

4 實例分析: PSM-IPW-DID

本節將提出的PSM-IPW-DID方法應用于第二章所闡述的兩個政策評估實例中,并與文獻中常用的PSM-DID方法進行比較.通過實例對比研究,加深對本文所提出方法的理解和應用推廣.

4.1 “營改增”實例分析

首先,利用第三節中傾向得分匹配成功并依據共同支撐假設進行刪減后的樣本進行雙重差分估計,結果如下表7中第(1)列、表7第(2)列所示.表7第(1)列中是不包括控制變量的固定效應模型回歸結果,表7第(2)列中是包含了控制變量的回歸結果.回歸結果顯示,“營改增”政策對主營構成第一名在營業收入占比有顯著的負向作用,其大小為3.4到3.7個百分點.在加入所有企業層面控制變量和企業層面的固定效應后,平均意義上來講,“營改增”政策減少了試點地區上市制造業公司3.7個百分點的主營構成第一名在營業收入占比,這說明制造業上市公司有分散經營的動向.

表7 “營改增”對營業收入占比的影響

在表7第(3)列和表7第(4)列為使用本文提出的PSM-IPW-DID方法估計的政策處理效應.表7第(3)列中是不包括控制變量的固定效應模型回歸結果,表7第(4)列中是包含了控制變量的回歸結果.具體地,表7第(4)列加入了所有控制變量以及表2中非平衡變量Lev,Profit,Intasst的二次項,即Lev2,Profit2和Intasst2.回歸結果顯示,“營改增”政策對主營構成第一名在營業收入占比有顯著的負向作用,其大小為4.1到4.3個百分點.在加入所有企業控制變量和企業層面的固定效應后,平均意義上來講,“營改增”政策減少了試點地區上市制造業公司4.3個百分點的主營構成第一名在營業收入占比,這說明制造業上市公司經營更為多元化.

值得注意的是,表7中第(4)列是考慮了企業個體固定效應且加控制變量的IPW雙重差分模型,與表7第(2)列相比,控制變量的顯著性明顯降低(表7第(2)列中有三個在1%的顯著性上顯著,表7第(4)列中只有一個在1%的顯著性上顯著).控制變量的顯著性大幅減少能有效緩解由于雙重差分模型誤設所導致的估計偏誤.這些都從實證上驗證了本文所提出來的PSM-IPW-DID比PSM-DID更加穩健.

4.2 “智慧城市”實例分析

類似地,首先,利用傾向得分匹配成功的樣本進行雙重差分估計,結果如表8中第(1)列、表8第(2)列所示.表8中第(1)列、表8第(2)列為使用固定效應方法進行面板數據回歸的結果,其中表8第(1)列未控制城市層面控制變量,僅控制了年份固定效應和城市固定效應,表8第(2)列在其基礎上加入了城市控制變量.盡管表8第(1)列回歸結果仍然顯示該政策對城市PM2.5沒有顯著影響,但表8第(2)列為最為嚴格控制的模型,其回歸結果顯示相比非試點城市,試點城市的PM2.5顯著降低0.904,所有城市PM2.5的均值為36.68,因此平均而言,城市的PM2.5顯著降低2.5%.

表8 “智慧城市”對PM2.5的影響

隨后,將本文提出的PSM-IPW-DID的方法應用在上述的“智慧城市”數據上,得到的結果如表8中第(3)列、表8第(4)列所示.表8第(3)列未加入城市層面控制變量,僅控制了年份固定效應和城市固定效應,表8第(4)列在其基礎上加入了城市控制變量,并加入表2中非平衡變量Economic,Finance,Urban的二次項,即Economic2,Finance2和Urban2.回歸結果顯示,采用改進后的PSM-IPW-DID方法后,智慧城市試點政策對城市PM2.5的排放量沒有顯著的影響,表明原PSM-DID方法簡單平衡性測度錯誤判斷了匹配前后樣本的平衡性,從而導致了估計結果并非真實的因果效應,呈現出了虛假的統計顯著性,得出了智慧城市對城市PM2.5有顯著降低作用的錯誤結果.

值得注意的是,表8中第(4)列加入控制變量和非平衡變量二次項的IPW雙重差分模型與表8第(2)列傳統雙重差分模型相比,控制變量的顯著性減少了一半(粗略比較,表8第(2)列有4個顯著,表8第(4)列只有2個顯著,且前者顯著性明顯高于后者),與表8第(3)列不加控制變量的IPW雙重差分模型相比DID系數更加接近(-0.678和-0.332).控制變量的顯著性大幅減少能有效緩解由于雙重差分模型誤設所導致的估計偏誤.因此,本案例在城市層面的分析也驗證了本文提出的PSM-IPW-DID比PSM-DID更加穩健,PSM-DID現有平衡性測度導致樣本非均衡時可能呈現出虛假顯著性的回歸結果.

5 結束語

本文基于文獻中常用的PSM-DID估計方法及其平衡性檢驗的不足,提出了多種平衡性測度方法,并在此基礎上提出了一種更加穩健性的PSM-IPW-DID方法.在具體分析中,本文基于文獻中研究較多的“營改增”及“智慧城市”的政策評價分析進行探討,以期能提供更多可操作性的指引和建議.總結下來,本文建議: 1)選擇合適的傾向得分匹配方法,如1∶4近鄰匹配、半徑匹配或者核匹配,以確保匹配后不丟失過多樣本; 2)在進行傾向得分匹配后需要選用多種平衡性測度來檢驗控制變量的平衡性,簡單的均值差異t檢驗是不全面的,本文推薦使用多種多維度平衡性測度; 3)如果發現平衡性無法滿足,建議采用本文所提出的PSM-IPW-DID方法進行估計,以期在不進一步損失樣本情況下得到更加穩健的估計結果.

本文關注的平衡性測度問題是在傾向得分匹配之后進行的.在未來的研究中,研究者可以關注于傾向得分匹配的具體匹配操作,如基于橫截面估計的傾向得分在面板結構的數據如何進行精準匹配(Matching),最新的研究如謝申詳等[37]就探討了該類問題.另外,傾向得分在固定效應模型(不僅僅是雙重差分模型)中的應用也是一個值得深入探討和研究的領域,如Arkhangelsky和Imben[21].以上有益的嘗試為未來傾向得分匹配方法的研究提供了新的視角和方向.

猜你喜歡
平衡性控制組測度
三個數字集生成的自相似測度的乘積譜
R1上莫朗測度關于幾何平均誤差的最優Vornoi分劃
非等熵Chaplygin氣體測度值解存在性
Cookie-Cutter集上的Gibbs測度
給商品起名字
馬來西亞華文小學識字教學的字理識字研究
這個動作堅持二十秒預示壽命長
基于熵值法的山西省煤炭行業生產使用平衡性分析
多模態聽力教學模式對英語綜合能力的影響
突發事件的平衡性報道分析——以地震類報道為例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合