穩健ARMA 殘差控制圖的構建及在金融市場的應用

2022-04-15 09:03黃水仁劉玉記胡杰

數學理論與應用 2022年1期

黃水仁劉玉記胡杰

(廣東財經大學統計與數學學院,廣州,510320)

1 引言

在統計過程控制中,傳統控制圖的基本假設是要求數據服從獨立同分布.但是在大數據時代背景下,數據的性質和分布變得更加復雜,導致受控過程違背了獨立同分布的基本假設.特別是金融數據,它們的自相關性以及異方差性會表現得更加明顯.數據的這些特征會導致常規控制圖監控失效，使得監控結果與實際情況存在偏差，導致控制圖出現錯報和漏報的概率增大.

國內外有不少專家學者對這一問題進行深入探討.對于存在自相關性的數據目前比較流行的是Alwan[1]提出的殘差控制圖方法,國內學者孫靜[2]、張志雷[3]、范翔[4]和肖艷[5]等也對這一問題進行了研究,他們將呈現自相關過程的監控問題轉化為相應的殘差的監控,從而用自回歸移動平均(Auto-Regressive Moving Average,ARMA)模型來擬合自相關過程,得到相應的殘差序列?對于具有異方差性的數據,目前最流行的是Severin 和Schmid[6]、夏遠強[7]、Sermad 和Roland[8]等學者提出的用波動的上、下控制限替代固定的上、下控制限來構建控制圖的方法? 對于自相關性和異方差性并存的數據,王志堅[9]、李雄英[10]等分別提出用ARMA-GARCH 型殘差控制圖和ARMA-TGARCH 型殘差控制圖對受控過程進行監控.但是在金融市場上,由于數據量龐大,離群值通常會很多,若采用迭代的自適應微調法,先識別超出均值控制限的點,再對它們進行刪除處理會存在一定的困難,特別是傳統殘差控制圖對離群值非常敏感.因此當使用ARMA 殘差控制圖對數據進行分析時需要一個新算法,這個算法既要考慮到如何消除或者降低離群值的影響,又要盡可能提供避免逐一識別離群值的這個功能.這就需要一種穩健、高抗差性的方法來檢測樣本中的離群值,使其結果比較合理地反映事實.

比較成熟的穩健統計的估計量是由Huber 提出的,它能在滿足經典假設的條件下獲得優良的結果,甚至在某些假設條件不能滿足的情況下,也只是受到輕微的影響.Huber[11-13],Maronna[14]以及Roussrruw[15]等學者把穩健估計量擴展為除了能反映大多數樣本數據的特征不受離群值干擾之外，還能把樣本中的離群值檢測出來.國內外也有專家學者使用穩健統計的思想對傳統方法進行改進.Yang 和Su[16]、仲建蘭[17]、王斌會[18]、劉曉華[19]以及宋鵬[20]等分別使用可變抽樣區間、Fast-MCD、異方差和中心正則化等穩健統計量對傳統馬爾可夫鏈、傳統因子分析方法、傳統ARCH 模型和傳統樣本協方差矩陣估計等方法進行穩健性改進,并且構建出穩健模型分析算法.研究結果均表明當數據中存在離群值時,穩健估計算法比傳統方法具有更高的抗差性和抗干擾性,這些研究為本文的方法構建提供了有益的基礎和借鑒.

2 傳統ARMA 控制圖的原理及其不穩健性

2.1 傳統ARMA 控制圖的原理

設受控的ARMA(p,q)過程為:

其中,γ(0)為受控過程Xt的方差,ρ(k)∈(-1,1).

定義統計量Zt如下:

其中φ表示回歸系數,θ表示平均偏移系數,且α=1-φ+θ.經過迭代后,有

其中,β=φα-θ.Zt的協方差為:

當k=0 時,得到Zt的方差

由Zt的均值和標準差可得到傳統ARMA 控制圖的上控制限(UCL)、中心線(CL)以及下控制限(LCL):

2.2 傳統ARMA 控制圖的不穩健性

在傳統ARMA 模型中,受控過程的自相關函數和偏自相關函數是由其樣本自協方差函數得到的,而這兩個統計量都對離群值比較敏感,有時僅僅一個離群值就可能使得計算結果與實際情況偏離較遠.為了說明離群值的存在可能會影響傳統ARMA 控制圖的計算結果,本文使用R 軟件模擬出一組樣本量為50 且服從標準正態分布的隨機數(稱為數據組1),構造兩個離群值-3.50 和3.50,分別代替數據組1 中的第24 號和26 號樣本值,得到的新數據組稱為數據組2,詳見表1.

表1 數據組1 和數據組2

根據表1 的兩組數據,利用傳統ARMA 方法繪制出各自的控制圖,結果見圖1,其中“虛線”表示不存在離群值時傳統ARMA 控制圖的控制限,“實線”表示存在離群值時傳統ARMA 控制圖的控制限?“實心點”代表正常值,“空心點”代表離群值.

圖1 不存在離群值和存在離群值的傳統ARMA 控制圖

由圖1 可知,當數據中不存在離群值時,傳統ARMA 控制圖的上、下控制限分別為-3.15 和3.16?當數據中存在少量離群值時,傳統ARMA 控制圖的上、下控制限發生了變化,變為-3.64 和3.67,此時傳統ARMA 控制圖并不能識別出第24 和26 號離群值,即出現了漏發報警的現象.這是因為當數據中存在離群值時,傳統ARMA 控制圖的控制限被拉大,導致離群值沒有被檢測到,以至于出現了漏發報警的現象.這說明統計量的不穩健性會直接導致傳統ARMA 控制圖的監控結果與實際情況產生偏差,因此,在相關的模型中需要運用穩健統計方法來對其進行改進.

3 穩健ARMA 殘差控制圖的構建

本文通過借鑒Huber 的M 估計基本理論,采用Hampel 權函數對原序列進行變換,再對變換后得到的新序列進行建模,得到穩健的ARMA 控制圖模型.

Hampel 權函數的表達式如下:

其中,a,b,c的值可以取任意大于0 的實數,這里參考文獻[9],分別取值1.5,3.0,4.5.當殘差絕對值小于aσ時,權重賦值為1,觀測的序列取原序列?當殘差絕對值大于或等于aσ而小于bσ時,權重賦值為aσ/|εi|?當殘差絕對值大于或等于bσ而小于cσ時,權重賦值為(a/|εi|)(cσ-|εi|)/(c-b),由此可知,權重隨著殘差絕對值的增大而逐漸減小?當殘差絕對值大于或等于cσ時,權重賦值為0,即該部分的觀測值不予采用.

穩健的樣本自協方差可表示為:

其中,ω為Hampel 權函數,εt為序列Xt的殘差.通過Hampel 權函數對原序列有差異性地賦予權重,有效地減輕了離群值帶來的影響,較大地提高了監測的準確性.

本文根據加權后的穩健樣本自相關函數和偏自相關函數的特點來選擇ARMA 模型的類型,確定模型的階數,從而構建出穩健的ARMA 控制圖,其上控制限(UCL)、中心線(CL)和下控制限(LCL)分別為:

由于殘差控制圖的中心線和上、下控制限均是波動的,經過對樣本自協方差、均值和標準差的穩健改進,得到穩健樣本自協方差?γ(k)、穩健均值?μ和穩健標準差?σ,從而增強ARMA 殘差控制圖對離群值的識別能力,降低其漏報或者虛報的概率.

4 模擬實驗

為了比較傳統ARMA 殘差控制圖和穩健ARMA 殘差控制圖對離群值的識別能力,本文對服從ARMA(1,1)模型的受控過程抽取容量為300 的樣本,并由此分別構造離群率為ε=0,ε=5%,ε=10%和ε=15%的序列.離群率ε=0(即序列中不含離群值)的序列即為原序列? 當離群率ε=5%時,數據序列中含有15 個離群值,依此類推.

下面分別是離群率ε=0,5%,10%和15%的序列圖(見圖2 和圖3).

圖2 不含離群值和含5%離群值的序列圖

圖3 含10%離群值和15%離群值的序列圖

對含有不同比例離群值的序列分別建立傳統的和穩健的時間序列ARMA 模型,結果見表2.

表2 含不同比例離群值時傳統和穩健ARMA 模型系數的比較

從表2 可知,當數據中含不同比例的離群值時,傳統ARMA 模型的系數變化較穩健ARMA 模型的系數變化偏大,說明傳統ARMA 模型容易受到離群值的影響,而穩健ARMA 模型較穩定,受離群值的影響程度較小.因此,穩健ARMA 模型對離群值具有一定的抗差性和抗干擾性.

為了進一步考察穩健ARMA 模型在含有不同比例離群值的序列上的表現,下面分別根據傳統與穩健ARMA 模型所得到的自相關序列構建殘差控制圖,比較其對離群值的檢測效果.

對不含離群值的序列,比較結果如圖4 所示(“虛線”表示傳統ARMA 殘差控制圖的上、下控制限,“實線”表示穩健ARMA 殘差控制圖的上、下控制限,下同).由圖4 可知,當數據中不存在離群值時,傳統ARMA 殘差控制圖的上、下控制限分別是-3.0007 和3.217?穩健ARMA 殘差控制圖的上、下控制限分別是-2.874 和3.13,兩者的控制限幾乎重合.

當數據中含有10%,即30 個離群值時,圖5 顯示,傳統ARMA 殘差控制圖識別出了22 個離群值,正確報警率約為73.3%,漏報警率約為26.7%?而穩健ARMA 殘差控制圖識別出了29 個離群值,正確報警率達到了96.7%,穩健效果達到了較佳的狀態.

當數據中含有15%,即45 個離群值時,圖6 顯示,傳統ARMA 殘差控制圖識別出了16 個離群值,正確報警率約為35.6%,漏報警率約為64.4%?而穩健ARMA 殘差控制圖識別出了43 個離群值,正確報警率達到了95.6%,且傳統ARMA 殘差控制圖能識別出來的離群值,穩健ARMA 殘差控制圖均能識別出來,說明相對傳統ARMA 殘差控制圖,穩健ARMA 殘差控制圖受離群值的影響程度較小,對離群值具有一定的抗干擾能力.

綜上,隨著數據中所含離群值數量的不斷增加,傳統ARMA 殘差控制圖受離群值的影響程度越來越明顯,漏發報警率越來越高?而穩健ARMA 殘差控制圖比較穩定,受離群值的影響不明顯,對離群值的識別程度還是很高,且傳統ARMA 殘差控制圖能識別出來的離群值,穩健ARMA 殘差控制圖均能識別出來.相反地,穩健ARMA 殘差控制圖能識別出來的離群值,傳統ARMA 殘差控制圖不一定能識別出來,這說明穩健ARMA 殘差控制圖對離群值的抗干擾性較強.

圖4 不含離群值時傳統與穩健ARMA 模型的殘差控制圖

圖5 含10%離群值的傳統與穩健ARMA 殘差控制圖

圖6 含15%離群值的傳統與穩健ARMA 殘差控制圖

5 實證分析

為了比較穩健ARMA 殘差控制圖與傳統ARMA 殘差控制圖在實際應用中對離群值的監控效果,本節選取搜狐(SOHU)公司2018 年7 月2 日至2020 年6 月30 日的502 個股票收盤價為樣本數據(數據來源于雅虎財經).由于2018 年7 月4 日美國金融市場休市,7 月30 日受美股漲跌影響,搜狐股價大跌超20%,而2020 年中國受新冠疫情影響,搜狐的股價又出現大跌,所以該股票數據中存在一定數量的離群值,這與本文的研究目標相吻合.

我們采用差分法將搜狐股票的收盤價數據轉化為對數收益率數據rt,分別作出該樣本數據的對數收益率圖和直方圖,見圖7.

從圖7 可初步判斷數據中可能存在離群值.為了進一步判斷離群值的存在是否會導致數據偏離正態分布,我們對rt進行Jarque Bera 檢驗.檢驗結果顯示P-value＜2.2e-16,說明搜狐的收益率序列不服從正態分布,即收益率序列中含有離群值.

然后對搜狐的對數收益率序列進行ADF 檢驗,結果顯示P-value 是0.01,說明有99%的把握拒絕收益率序列中存在單位根,這表明搜狐的收益率序列是平穩的.對收益率序列構建ACF 和PACF圖(見圖8 和9),經過多次試驗比較,最終確定傳統ARMA(p,q)模型中的p=1,q=1 時為最優.

圖7 搜狐樣本數據的對數收益率圖(左)和直方圖(右)

圖8 搜狐收益率序列ACF 圖

接著對傳統ARMA(1,1)模型的參數進行估計,結果如表3 所示:

表3 傳統ARMA(1,1)模型的參數估計結果

由表3 顯示的結果可得到如下的傳統ARMA(1,1)模型:

根據此模型可得到對數收益率的殘差序列,然后計算殘差序列的均值和標準差,即可構建出傳統ARMA 模型的殘差控制圖,如圖10 所示.

由圖10 可知,傳統ARMA 殘差控制圖的上、下控制限分別為-0.13 和0.13.傳統方法識別出了6 個離群值,分別是第18,205,273,427,429 和450 號樣本.

接下來使用穩健統計方法將對數收益率的殘差序列進行穩健處理.根據AIC 原則,可建立穩健ARMA(2,2)模型,其參數估計結果如表4 所示.

表4 穩健ARMA(2,2)模型的參數估計結果

由表4 的結果可得到如下的穩健ARMA(2,2)模型:

利用此模型構建出穩健ARMA 殘差控制圖,并將其與傳統ARMA 殘差控制圖進行比較,結果如圖11 所示(圖中,虛線表示傳統ARMA 殘差控制圖的上、下控制限,實線表示穩健ARMA 殘差控制圖的上、下控制限).

由圖10 可知,由傳統ARMA 模型構建的殘差控制圖只能識別出6 個離群值.這是由于離群值的存在,使得傳統ARMA 殘差控制圖的控制限被拉高了,才導致某些離群值沒有被檢測出來?而穩健ARMA 殘差控制圖的上、下控制限分別約為-0.0882 和0.0876,穩健ARMA 殘差控制圖能識別出18 個離群值(見表5).

表5 識別的離群值序號

由表5 可知,傳統ARMA 殘差控制圖能識別出來的離群值,穩健ARMA 殘差控制圖也能識別出來,而穩健ARMA 殘差控制圖能識別出來的離群值,傳統ARMA 殘差控制圖不一定能識別出來.可見,穩健ARMA 模型的殘差控制圖對離群值有著較好的抗御能力.

綜合上節模擬實驗和本節實證研究得到的結果可知,傳統ARMA 殘差控制圖易受離群值的影響,導致控制限被拉高,從而出現漏發報警的缺點?而本文構建的穩健ARMA 殘差控制圖不僅對離群值具有較好的抗干擾性,而且其控制限和控制中心不易受離群值的影響,能夠較好地監測到離群值的位置,并正確地發出警報.特別是,穩健ARMA 殘差控制圖能較好地處理金融市場中呈自相關的股票數據的監控問題,能給投資者提供有益的決策信息,有較好的實際意義.

圖9 搜狐收益率序列PACF 圖

圖10 搜狐股價對數收益率的傳統ARMA 殘差控制圖

圖11 傳統和穩健ARMA 殘差控制圖