?

計量視角下離群值識別法的研究綜述與展望

2023-08-26 04:50范興宇楊陽
赤峰學院學報·自然科學版 2023年7期
關鍵詞:時間序列面板數據模型

范興宇 楊陽

摘 要:隨著大數據時代的到來,樣本數據的容量日趨增大且內容愈發復雜,對實證研究的準確性形成了巨大挑戰,而計量領域內基于樣本數據的離群值識別和處理會減少實證研究中的偏差,有效提升其研究的準確性。本文梳理和評述基于不同類型樣本數據模型和估計的離群值識別法,繼而提出未來研究的展望。

關鍵詞:離群值;模型;估計;時間序列;面板數據

中圖分類號:O212 ?文獻標識碼:A ?文章編號:1673-260X(2023)07-0004-06

1 引言

目前,對離群值的識別和處理的課題一直備受學者們關注,這是因為離群值會大幅惡化基于模型和估計的實證結果,使其出現嚴重的偏差和錯誤的預測。目前,離群值最常用的識別和處理方法有簡單去除法和縮尾處理法。簡單去除法是學者們根據數據本身的特征和直觀意識來判斷,將那些極值點(離群值)直接去除,以得到更穩定更有效的實證結果,但從統計學角度來說,該處理方式會對估計量造成較大偏差。另一種常用方法為縮尾處理法[1]。學者們用樣本數據分位數的值替代極值點而不是直接去除,但這種對原始數據進行隨意修改的方法會過多或過少的考慮離群值對實證結果的影響,使實證結果的誤差更大。雖然學者們提出了很多離群值識別法,但仍未有獲得學術界廣泛認同的識別法,本文認為可能的原因是離群值的定義不同或離群值的識別方法不同。

對于離群值的定義[2],包括描述性定義和定量性定義。離群值的描述性定義主要有:離群值是極端值或是數據中的不具代表性的觀測值。離群值的定量性定義主要有:離群值是數量值與數據集不一致的值,或是導致回歸系數結果發生劇烈變化的觀察值,或是超過樣本數據平均值至少三個標準差的觀察值,或是樣本數據中大于樣本數據1.5個標準差的觀察值。

離群值具有較強的隱蔽性,即便在樣本殘差的散點圖上它們也很難被發現??紤]到離群值會對實證結果產生較大偏差,離群值還可以分為X-軸離群值,Y-軸離群值和回歸離群值[3],其中X-軸離群值為水平方向上與樣本其他觀察值存在較大差異的觀察值,Y-軸離群值為垂直方向上與樣本其他觀察值存在較大差異的觀察值,回歸離群值為考慮某些觀察值后會直接改變回歸屬性(正相關、負相關)的那些觀察值。目前,學者們認定的極值點大多被認為是X-軸離群值或Y-軸離群值,而對于回歸離群值研究較少。此外,有些觀察值被認定為X-軸或Y-軸離群值,但實際上它們是回歸離群值,即它們并不改變實證中的回歸屬性,如果它們一直被認為是離群值,會過多的考慮了離群值對實證結果的影響,使實證結果的誤差更大。

隨著大數據時代到來,數據樣本愈加復雜,識別和處理不同類型數據模型和估計的離群值識別法是構建準確實證研究的前提,鑒于此,本文將討論基于不同樣本數據模型與估計的離群值識別法。學者們很關注時間序列數據和面板數據的離群值識別法研究,特別是時間序列數據,但對截面數據的離群值識別法研究甚少,如基于截面數據的四種離群值識別法[4],分別為反常結果判別法、跳躍度判別法、預測區間判斷法和羅曼諾夫斯基準則判別法,且有學者給出穩健的基于橫截面數據的離群值識別法[5],這是因為其與時間序列數據結構相似。

2 基于時間序列數據的離群值識別

基于時間序列數據的離群值識別法一直廣受學者們的關注,主要包括直接算法和間接算法的離群值識別法。經典的最小二乘法對于離群值是非常敏感的,這是因為OLS估計對離群值識別具有較大缺陷,包括不是離群值的觀察值被識別為離群值(淹沒現象,如基于低密度正則性的離群值識別法等),和本是離群值但并不被識別到(掩蓋現象,如基于Cook距離的離群值識別法等)。早期文獻[6]將離群值定義為加性離群值(Additive Outlier, AO)和革新性離群值(Innovation Outlier, IO),其中加性離群值考慮的是孤立的極端點,而革新性離群值考慮的是連續的極端點。針對基于時間序列數據的離群值定義,很多學者都給出了卓有成效的研究成果。有學者將離群值分為均值漂移(Level Shift, LS)離群值、暫時變化(Transient Changes, TC)離群值和方差變化(Variance Changes, VC)離群值[7]。特別的,有學者將離群值分為X-軸離群值、Y-軸離群值和回歸離群值[3]。

目前,基于時間序列數據的離群值識別法的主流算法包括兩種方法,分別為直接算法[8,9]和間接算法[10,11]。這兩種離群值識別法具有不同特點,其中基于直接算法的離群值識別法為使用合適的算法在實證研究之前識別離群值,而間接算法的離群值識別法為結合模型和估計法來識別離群值。具體而言,估計法有很多的,如L估計量(基于序次統計量的線性組合),R估計量(基于殘差的秩序),M估計量(通過考慮殘差的大小由位置的M估計擴展而來),GM估計(或者叫廣義M估計量,通過給予高權勢點和大殘差點較小的權重對M估計量的擴展),S估計量(將殘差尺度的穩健M估計最小化),MM估計量(基于M估計和S估計,具有更高的崩潰點和漸進效率)。當下,由于學者們未給予離群值足夠重視,導致基于間接算法的離群值識別法的成果要比直接算法的成果更少。有學者指出,相比于基于直接算法的離群值識別法,間接算法的離群值識別法更為準確且更切合實際,這是因為基于直接算法的離群值識別法并不能有效準確的發現離群值,而基于間接算法的離群值識別法能準確科學的發現離群值,特別是回歸離群值[12]。

2.1 基于時間序列數據間接算法的離群值識別

對于基于時間序列數據間接算法的離群值識別法,有學者提出了基于最小二乘估計的離群值識別法包括:最小絕對偏差估計法、M-估計法、LTS估計和S-估計[3],但這些估計需要進行很多次的迭代計算且耗時較多,會造成實證結果誤差越大。

針對這些問題,很多學者提出了基于模型和估計的離群值識別法,代表性的成果主要有:基于自相關函數和偏自相關函數估計的離群值識別法[13];基于極大似然估計的離群值識別法[14];基于干擾模型的離群值識別法[15];基于ARMA模型的離群值識別法[16];基于IO、AO型離群值的識別法[17];基于穩健Cook距離的離群值識別法[18]。由于這些間接算法的離群值定義不統一,基于模型和估計的間接算法離群值識別法更是差別較大,導致實證結果的誤差并不能有效解決,有待深入的研究和探討。

2.2 基于時間序列數據直接算法的離群值識別

針對基于時間序列數據直接算法的離群值識別法,早期代表性成果主要有:通過比較時間序列數據中觀察值的偏度和峰度來完成離群值的識別[19];定義與大部分觀察值存在較大跳動的觀察值為離群值[20];定義意外語義特征的觀察值為離群值[21];定義樣本中心點最小鄰域外觀察值為離群值[22]等,但當樣本數據容量較大時,這些識別法均不夠完善。

針對基于時間序列數據直接算法的離群值識別法,學術界中經典算法主要有:向前搜索算法[8]、影響矩陣算法[23]、聚類算法[24]、遺傳算法[25]和迭代算法[26]。隨著基于時間序列數據的模型和估計法日益復雜,基于復雜直接算法的離群值識別法的研究成果頗受學者們關注。目前,主流的基于時間序列數據直接算法的離群值識方法主要有:似然比檢驗法[27]、影響分析檢驗法[28]和殘差檢驗法[29]。此外,還包括一些基于前沿技術的直接算法的離群值識別法,主要有:應用最小體積橢圓法和最大截然似然估計法來判斷離群值[30];應用多維空間線性化模型來判定離群值[31];運用神經網絡方法判定散射型數據的離群值[32];應用小波分析來判定離群值[33];應用新息異常值診斷[34]。由于離群值的定義千差萬別且這些基于時間序列數據直接算法并不能完全有效識別離群值,致使實證結果依然存在偏差,值得更深一層的研究。

3 基于面板數據的離群值識別

相對于時間序列數據和橫截面數據,面板數據的容量更大,包含的離群值數量自然更多,在原始樣本中識別和處理離群值,繼而得到可靠正確的實證結論值得進一步研究。離群值的識別和處理對獲得準確可靠的實證結果是非常重要的,往往錯誤的觀察值很容易被復雜的數據結構掩蓋[35,36]。面板數據模型主要包括靜態模型,動態模型,變系數模型和隨機前沿模型,但當下學者們廣泛關注的面板數據模型為固定效應靜態面板數據模型和動態面板數據模型的離群值識別法。

3.1 基于固定效應靜態面板數據模型的離群值識別

近年來,基于固定效應靜態面板數據模型的主流研究是將離群值分為四類:垂直離群值,垂直集中塊離群值,水平離群值和水平集中塊離群值[37,38]。對于該模型的離群值識別法主要有:基于固定效應靜態面板數據模型和工具變量估計法的兩個離群值識別法(包括基于二階段廣義M估計的離群值識別法和基于GMM估計的離群值識別法[39]),但對包含異方差或自相關誤差的估計并非適用;基于面板數據模型和估計的離群值識別法,這些估計包括修正的群內估計[40]、轉化的廣義矩估計[41]和修正過高置信度的估計[42],但當面板數據為非嚴格平衡時,該文提出的離群值識別法存在誤差;基于面板數據模型和高崩潰值估計的離群值識別法[37],包括廣義群內M估計和群內MS估計(MS估計[43]),但計算需要花費很長的時間,特別是當面板數據容量較大時,該問題更加凸顯。

3.2 基于固定效應動態面板數據模型的離群值識別

基于固定效應靜態面板數據的離群值識別法較多但并未得到學術界一致認可,而將滯后一期被解釋變量作為解釋變量的固定效應動態面板數據模型的離群值識別法就更值得學者們進一步研究。目前,基于固定效應動態面板數據模型和估計的離群值識別法主要有:采用分位數和工具變量估計的離群值識別法[44],但基于面板數據模型和工具變量估計的離群值識別法很容易產生誤差;基于中位數的離群值識別法[45],但該法仍存在很大的偏差;基于有界影響函數的GMM估計的離群值識別法[46],但該估計的有效性要比差分GMM估計差;基于加權估計的離群值識別法[47,48],但離群值的度量尺度并不準確;基于改進型GMM估計的離群值識別法[49],但實證研究之前無法確定樣本是否存在離群值,且當面板數據中無離群值時,改進型GMM估計的有效性要比差分GMM估計差。

隨著面板數據容量的急劇增加和估計法的不斷創新,學者們開始關注以更多的估計法來識別基于固定效應動態面板數據模型中的離群值。目前,基于復雜面板數據模型和估計的離群值識別法主要有:基于混合分數階ARIMA模型的離群值識別法[50];基于復雜合適估計的離群值識別法[51-53];基于高崩潰值的最小協方差估計的離群值識別法[54,55];基于自組織映射與自適應非線性映射相結合的多元離群值識別法[56];基于對數線性模型和高擬合度估計的離群值識別法[57];基于最小模式的離群值識別法[58];基于復雜中位數估計的離群值識別法[59],其中觀測數N較大且時間周期數T較??;基于改進型一階或高階差分GMM估計的離群值識別法[49,60]。雖然已有復雜的離群值識別法能有效發現離群值,但對于復雜的樣本數據計算的時間會很久且難以出現較好的實證結果。

4 文獻評述與展望

目前,學者們過多關注X-軸離群值,Y-軸離群值的研究,而對于回歸離群值研究較少,但X-軸離群值或Y-軸離群值有時是回歸離群值,它們不改變實證研究中的回歸屬性,不應在樣本中被直接剔除致使樣本數據容量進一步減少,這樣會過多考慮了離群值對實證結果的影響,反而會使得實證結果的誤差更大。

基于時間序列數據的離群值識別法存在兩個不足之處,其一,很多學者都是以特定時間序列數據來分析離群值對實證結果的影響,但并不能推廣到一般情況下離群值對估計結果的影響;其二,部分學者提出的離群值識別法仍解決不了離群值對樣本的“污染”現象,包括“淹沒”現象和“掩蓋”現象,類似問題在橫截面數據中也依然存在。

基于面板數據的離群值識別法存在局限性,一方面,基于固定效應靜態面板數據模型的離群值識別法大多集中于研究合適估計方法來規避離群值對實證研究造成的偏差,但面板數據量巨大,處理數據時間較長,特別是在實證研究之前消除離群值對其影響,但會忽略實證研究背后的理論分析,往往會給其帶來更大偏差。另一方面,基于固定效應動態面板數據模型的離群值識別法研究開始關注以更復雜模型或更多復雜估計的離群值識別法,但他們對離群值的定義較為模糊且判別尺度極為復雜,致使離群值識別的有效性不斷降低。

雖然當前基于不同數據類型的離群值識別法研究中構建基于復雜模型和估計的離群值識別法成為主流研究方向,但從計量角度而言此類研究都存在缺陷和不足,無法得到廣泛應用。因此,對于離群值的識別和剔除只有通過合適的模型和估計、不同的離群值判定尺度來實現,面對不同類型樣本數據,才能較好的識別和剔除離群值,有效去除離群值對實證結果的影響,使其結果更可靠更準確。

隨著數據樣本逐步復雜,由時間序列數據、橫截面數據到面板數據,實證模型日益多樣,由靜態模型轉變為動態模型,本文提出未來需要研究的離群值識別法,該法基于固定效應面板數據模型,搜尋合適的估計和離群值判別尺度,進而得到更精確的實證結果。此外,對于面板數據模型的離群值識別法研究較少,特別是對于基于固定效應面板數據動態模型的離群值識別法還未得到進一步研究,以及它們對應的奇異信息對研究全球經濟關系的影響都值得更深層次的探討。

參考文獻:

〔1〕Lee M., Karlsson M. Trimmed and winsorized semiparametric estimator for left-truncated and right-censored regression models[J]. Metrika, 2015, 78(04): 1-11.

〔2〕Hawkins, D. Identification of Outliers[M]. London: Chapman and Hall, 1980: 20-23.

〔3〕Rousseeuw P., Leroy A. Robust regression and outlier detection[M]. Wiley-Interscience, 2003: 17-19.

〔4〕杜聰慧,崔永偉,李子奈.基于數據統計診斷的截面數據診斷方法[J].統計與決策,2012,10(01):7-9.

〔5〕Hawkes N. Six hospitals are named as "outliers" for mortality rates[J]. The British Medical Journal, 2014, 348(312): 1252-1252.

〔6〕Fox A. Outliers in Time Series[J]. Journal of the Royal Statistical Society, 1972, 34(03): 350-363.

〔7〕Tsay R. Time Series Model Specification in the Presence of Outliers[J]. Publications of the American Statistical Association, 1986, 81(393): 132-141.

〔8〕Hadi A., Simonoff J. Procedures for the Identification of Multiple Outliers in Linear Models[J]. Publications of the American Statistical Association, 1993, 88(424): 1264-1272.

〔9〕Liang T., Cao C. Outliers detect methods for time series data[J]. Journal of Discrete Mathematical Sciences and Cryptography, 2018, 21(04): 927-936.

〔10〕張德然.統計數據中異常值的檢驗方法[J].統計與決策,2003,5(01):53-55.

〔11〕王志堅.一種GARCH模型異常值的穩健檢測法及其應用[J].統計與決策,2020,36(10):41-44.

〔12〕Shen C., Luo F., Huang D. Analysis of earnings management influence on the investment efficiency of listed Chinese companies[J]. Journal of Empirical Finance, 2015, 34(01): 60-78.

〔13〕Masarotto G. Robust Identification of Autoregressive Moving Average Models[J]. Journal of the Royal Statistical Society, 1987, 36(02): 214-220.

〔14〕Abraham B., Chung A. Expecation-maximization algorithms and the estimation of time series model in the presence of outliers[J]. Journal of Time Series Analysis, 1993, 14(01): 221-234.

〔15〕Box G., Tiao G. Intervention Analysis with Applications to Economic and Environmental Problems[J]. Publications of the American Statistical Association, 1975, 70(349): 70-79.

〔16〕Bruce A., Martin R. Leave-k-out diagnostics for time series[J]. Journal of the Royal Statistical Society, 1989, 51(03): 363-424.

〔17〕王志堅,王斌會.時序IO與AO型異常值穩健聯合檢測法及其應用[J].統計與決策,2019,7(01):13-16.

〔18〕王志堅,羅舒琪,王斌會.基于穩健Cook距離的時間序列異常值診斷[J].統計與決策,2022,38(03):40-44.

〔19〕Huber P. Robust statistics: A review. The Annals of Mathematical Statistics, 1972, 43(01): 1041-1067.

〔20〕Wolfgang S. Properties and actions[J]. Natural Language and Logic, 1990, 459(01): 221-232.

〔21〕Angiulli, F., Ben-Eliyahu-Zohary R., Palopoli L. Outlier detection using default reasoning[J]. Artificial Intelligence: An International Journal, 2008, 172(16/17): 1837-1872.

〔22〕Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey[J]. ACM Computing Surveys, 2009, 41(03): 1-58.

〔23〕Pena D. and Yohai V. J. The Detection of Influential Subsets in Linear Regression by using an Influence Matrix[J]. Journal of the Royal Statistical Society. Series B (Methodological), 1995, 57(01): 145-156.

〔24〕Sebert D. M., Montgomery D. C., Rollier D. A. A clustering algorithm for identifying multiple outliers in linear regression[J]. Computational statistics & data analysis, 1998, 27(04): 461-484.

〔25〕Cucina D., Salvatore A., Protopapas M. Outliers detection in multivariate time series using genetic algorithms[J]. Chemometrics and Intelligent Laboratory Systems, 2014, 132(01): 103-110.

〔26〕Srivastava M. and Rosen D. Outliers in Multivariate Regression Models[J]. Journal of Multivariate Analysis: An International Journal, 1998, 65(02): 195-208.

〔27〕Gupta M., Gao J., Aggarval C., Han J. Outlier Detection for Temporal Data: A Survey[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(09): 2250-2267.

〔28〕Kannan K., Manoj K., Arumugam S. Outlier Detection and Missing Value in Time Series Ozone Data[J]. International Journal of Scientific Research in Knowledge, 2015, 3(09): 220-226.

〔29〕Seo H., Yoon M. A sequential outlier detecting method using a clustering algorithm[J]. Korean Journal of Applied Statistics, 2016, 29(04): 699-706.

〔30〕Yuen K., Gilberto O. Outlier detection and robust regression for correlated data[J]. Computer Methods in Applied Mechanics & Engineering, 2017, 313(01): 632-646.

〔31〕Militino A., Palacios M., Ugarte M. Outliers detection in multivariate spatial linear models[J]. Journal of Statistical Planning and Inference, 2006, 136(01):125-146.

〔32〕Bullen R., Dan C., Nabney I. Outlier detection in scatterometer data[J].Neural Networks, 2003, 16(03): 419-426.

〔33〕Grané A., Veiga H. Wavelet-based detection of outliers in financial time series[J]. Computational Statistics & Data Analysis, 2010, 54(11): 2580-2593.

〔34〕汪志紅,王志堅,王斌會.時間序列新息異常值穩健診斷新方法[J].統計與決策,2022,38(23):34-37.

〔35〕Zaman A., Rousseeuw P., Orhan M. Econometric applications of high-breakdown robust regression techniques[J]. Journal of Econometric Letter, 2001, 71(01): 1-8.

〔36〕Verardi V., Wagner J. Robust estimation of linear fixed effects panel data models with an application to the exporter productivity premium[J]. Journal of Economic Statistics, 2011, 231(04): 546-557.

〔37〕Bramati M., Croux C. Robust estimators for the fixed effects panel data model[J]. Journal of Econometric, 2007, 10(03): 521-540.

〔38〕彭斌,李雯萱.固定效應面板數據模型中偏誤更正的截面相關性檢驗研究[J].統計研究,2022,39(07):150-160.

〔39〕Wagenvoort R., Waldmann R. On B-robust instrumental variable estimation of the linear model with panel data[J]. Journal of Econometrics, 2002, 106(02): 297-324.

〔40〕Alvarez J., Arellano M. Robust likelihood estimation of dynamic panel data models[J]. Journal of Econometrics, 2021, 226(01): 21-61.

〔41〕Ronchetti E., Trojani F. Robust inference with GMM estimators[J]. Journal of Econometrics, 2001, 101(01): 37-69.

〔42〕劉鑫,王維國,馬超,李曉華.四分之一輪換面板下的穩健估計方法[J].統計與決策,2022,38(02):21-25.

〔43〕Maronna R., Yohai V. J. Robust regression with both continuous and categorical predictors[J]. Journal of Statistical Planning and Inference, 2000, 89(1-2):197-214.

〔44〕董婉瑩,肖燕婷.基于眾數回歸的變系數部分線性工具變量模型的穩健估計[J].數學的實踐與認識,2023,2(01):195-206.

〔45〕Dhaene G., Zhu Y. Median-based estimation of dynamic panel models with fixed effects[J]. Computational Statistics & Data Analysis, 2017, 113(01): 398-423.

〔46〕Lucas A., Van Dijk R., Kloek T. Outlier Robust Gmm Estimation of Leverage Determinants in Linear Dynamic Panel Data Models[J]. Ssrn Electronic Journal, 1997, 9(01): 1-30.

〔47〕Cí?觩ek P., Aquaro M. Robust estimation and moment selection in dynamic fixed-effects panel data models[J]. Journal of Computational Statistics, 2018, 33(02): 675-708.

〔48〕吳浩,彭非.基于協變量平衡加權的平均處理效應的穩健有效估計[J].統計研究,2020,37(04):114-128.

〔49〕Aquaro M., Cí?觩ek P. One-step robust estimation of fixed-effects panel data models[J]. Computational Statistics and Data Analysis, 2014, 57(01): 536-548.

〔50〕Chen W. Detecting and identifying interventions with the Whittle spectral approach in a long memory panel data model[J]. Journal of Applied Statistics, 2008, 35(07): 879-892.

〔51〕Willems G., Joe H., and Zamar R. Diagnosing multivariate outliers detected by robust estimators[J]. Journal of Computational and Graphical Statistics, 2009, 18(01): 73-91.

〔52〕Riani M., Atkinson A., and Cerioli A. Finding an unknown number of multivariate outliers[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2009, 71(02): 447-466.

〔53〕龐智強,王朝旭,牛璽娟.基于γ散度的單元水平模型小域穩健估計[J].統計與信息論壇,2023,3(01):3-15.

〔54〕Cerioli A. Multivariate outlier detection with high-breakdown estimators[J]. Journal of the American Statistical Association, 2010, 105(489): 147-156.

〔55〕宋鵬,劉程程,胡永宏.穩健高維協方差矩陣估計及其投資組合應用——基于中心正則化算法[J].統計研究,2020,37(07):116-128.

〔56〕Yan X. Multivariate outlier detection based on self-organizing map and adaptive nonlinear map and its application[J]. Chemometrics and Intelligent Laboratory Systems, 2011, 107(02): 251-257.

〔57〕Rapallo F. Outliers and patterns of outliers in contingency tables with algebraic statistics[J]. ?Scandinavian Journal of Statistics, 2012, 39(04): 784-797.

〔58〕Kuhnt S., Rapallo F., and Rehage A. Outlier detection in contingency tables based on minimal patterns[J]. Statistics and Computing, 2014, 24(03): 481-491.

〔59〕曾鑫,吳劉倉,曹幸運.混合偏正態數據下中位數回歸模型的參數估計[J].昆明理工大學學報(自然科學版),2021,46(03):167-174.

〔60〕劉沖,沙學康,張妍.交錯雙重差分:處理效應異質性與估計方法選擇[J].數量經濟技術經濟研究,2022,39(09):177-204.

猜你喜歡
時間序列面板數據模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于時間序列的我國人均GDP分析與預測
3D打印中的模型分割與打包
滇中產業新區建設的金融支持研究
我國的對外開放程度對城鄉收入差距的影響分析
基于線性散列索引的時間序列查詢方法研究
基于組合模型的能源需求預測
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合