基于HL－MAD組合估計量的常規控制圖穩健改進

2023-10-10 02:16李熠玲任凱亮王志堅

上饒師范學院學報 2023年3期

李熠玲,任凱亮,王志堅*

(1.廣東財經大學統計與數學學院,廣東廣州 510320;2.康涅狄格大學文理學院,美國康涅狄格州 06268)

1 引言

統計過程控制是一項建立在數理統計學原理基礎之上的過程質量管理技術。從誕生至今,經過近100年的發展與完善,統計過程控制技術已經被廣泛應用于社會經濟發展的各個領域,包括物流、數字經濟、服務業等,取得了良好的社會和經濟效益,其監控的過程也從傳統單變量過程拓展到各種多變量場景。而在實際工作中,控制圖則是常被用來對受控過程進行質量管理的工具之一,通過使用控制圖,能夠對過程績效及其波動原因進行直觀而實時的監控和分析,幫助人們及早地發現和識別異?，F象并找出異常原因,從而提高產品或服務質量。

質量控制圖的基本原理主要包含以下四個方面:受控過程服從正態分布的假定;控制限的準則;在一次試驗中小概率事件不發生的原理;數理統計學中的統計推斷基本思想。

受控過程的正態性假定是指受控過程在正常狀態下,其相關的特性指標數據服從正態分布假定?？刂葡薜臏蕜t是指當某個過程特性數據服從正態分布N(μ,σ2)時,可以利用正態分布的3σ準則得出控制圖的設計原理即控制上限UCL＝,控制中心線CL＝^μ,控制下限LCL＝。小概率事件不發生原理是指在一次觀測試驗中,正常情況下小概率事件通常認為不發生。統計推斷的基本思想認為,若在過程控制中一旦出現了“小概率事件發生”的現象,則可以認為受控過程出現異常。

同時,應注意到,一方面,統計過程控制技術的理論基礎之一,控制限的準則即為常規控制圖的控制設計原理,其中控制上限UCL＝、控制中心線CL＝、控制下限LCL＝所采用的統計量,均值與標準差σ^對離群值敏感,缺乏穩健性;另一方面,在離群值存在時,過程質量特性數據很難滿足正態分布假定。因此,常規控制圖在對過程異常情況識別時,易受離群值干擾,常出現“遮蔽效應”或“漏報警”現象,從而極大地降低了控制圖監測性能,如何解決此類問題即是本研究的出發點。

2 文獻綜述

近20年,穩健統計技術在各領域的過程控制中應用越來越多,包括經濟、金融、工業制造、服務業等。剛開始多是對單變量控制圖采用不同的穩健方法進行設計,如均值Xbar控制圖。維賈雅(Vijaya)和墨蒂(Murty)[1]討論了采用基于風險的方法來找到Xbar控制圖的最佳參數對Xbar控制圖進行穩健經濟設計。周純光等[2]提出了一種基于小波的預分析穩健控制圖,用于監測第一階段過程控制中的均值漂移。吳純杰和王兆軍[3]分析了休哈特Xbar控制圖的不穩健性,并對其進行了穩健修正。阿卜秋勒(Abdul)等[4]研究了利用考慮不確定參數區間估計的穩健優化方法進行Xbar控制圖的經濟統計設計(ESD),開發了一種啟發式算法來獲得控制圖的穩健方案,效果優于傳統ESD。薩利赫(Salih)等[5]對因素選擇控制圖的最優穩健設計進行了研究。

隨后,越來越多的學者開始關注多變量控制圖的穩健性。哈布沙(Habshah)和阿什坎(Ashkan)[6]提出了穩健多元CUSUM 圖和多元EWMA圖,以解決散點異常值變化小的問題。范(Fan)等[7]基于分層聚類樹原理開發了一種新的穩健多變量控制圖,該圖可以有效地檢測多維數據中的潛在異常值,同時控制遮蔽和淹沒效應。阿索坎(Asokan)和賈亞尚卡爾(Jayasankar)[8]提出了監測第一階段多變量個體觀測過程均值的穩健控制圖。張(Zhang)等[9]提出了一種無分布的多變量統計過程控制圖(MSPC),以檢測多變量過程變量的一般分布變化。安杰尼絲(Angellys)等[10]將截尾均值應用于穩健多變量控制圖的異常值診斷。拉吉(Raji)等[11]基于Stahel Donoho穩健估計量(SDRE)構建了一種穩健多變量控制圖,同時從第一階段估計過程參數?？惣{(Cabana)和利洛(Lillo)[12]基于穩健重加權收縮估計,提出了一種用于個體觀測的穩健多變量質量控制技術。薩巴諾(Sabahno)和塞拉諾(Celano)[13]用可變參數控制圖監測存在自相關的多變量變異系數。

近年來,也有學者研究自相關過程殘差控制圖的穩健性。王志堅[14]通過權重函數對ARMA 模型與GARCH 模型進行穩健建模,最后構建穩健殘差控制圖。王志堅等[15－16]通過構建穩健AR 模型,為自相關過程殘差控制圖的設計提供了理論依據。薩里阿提(Shariati)[17]提出了一種適用于自相關序列的穩健控制圖新方法,該圖對污染數據的影響具有穩健性。薩拉赫(Salah)等[18]研究了伽馬回歸模型下殘差控制圖的剖面監測。

通過梳理文獻發現,不少學者從控制圖控制限的位置參數、尺度參數角度采用穩健估計量來構建穩健控制圖。哈菲茲(Hafiz)等[19]建立了穩健Shewhart位置參數控制特征的逐步篩選方法。納迪婭(Nadia)和沙希德(Shahid)[20]比較了文獻中的六種不同穩健尺度估計下的EWMA 控制圖性能,模擬研究結果表明,基于估計量Q_n的控制圖在非正常過程中表現相對較好。吳純杰等[21]、莊芳等[22]分別分析了穩健似然比累積和控制圖及EWMA 方差控制圖的不穩健性,并給出了穩健改進的方法。王志堅、蘇擁英等[23－24]對常規過程控制圖的敏感性進行了分析并給出了穩健化方法?？▕W(Kao)[25]認為,當存在污染數據時,標準偏差的估計會由于其高偏差性而降低控制圖的檢測能力,于是提出了基于不同篩選的平方A 估計量,該估計量在抗干擾方面表現相對最好。

與前人不同的是,本研究嘗試采用估計量Hodges－Lehmann(簡寫HL)與中位絕對離差(MAD)相結合的方式對常規控制圖控制中心及控制限進行穩健改進,并通過改進前后對比的研究方法驗證穩健控制圖的可行性和有效性。

3 相關理論與方法

3.1 常規控制圖的不穩健性研究

常規休哈特控制圖設計原理,主要包括控制中心、上下控制限,相應表達式如(1)式所示:

(1)式中的k通常取3,顯然UCL、CL、LCL 所采用的統計量缺乏穩健性,導致整個控制圖對離群值過于敏感,當受控過程出現異常情況時會使得控制中心、控制限的值不能反映大多數樣本數據的特征,因此控制圖常會出現“漏報警”現象。

接下來通過舉例論證在對異?，F象監控時常規控制圖如何“失控”。先采用R 軟件生成20個服從N(0,1)分布的隨機數作為過程的特性指標數據,再通過隨機抽樣技術在20個隨機數里面隨機抽取一個數用4.5去代替之,我們將4.5作為20個隨機數里面的異常值。接下來基于不含異常值及含1個異常值的序列構建兩個常規控制圖,第一個是不含異常值常規控制圖,第二個是含1個異常值常規控制圖,兩個控制圖的監測結果如圖1所示。

圖1 不含異常值的常規控制圖(左)與含1個異常值的常規控制圖(右)

從圖1可以看出,兩個控制圖的中間實線為控制中心線,上下兩條虛線為控制上下限。由于圖1左圖中的受控過程不含異常值,所有的點均在上下控制限以內,沒有出現“虛假報警”或者“漏報警”現象,監控成功。而圖1右圖中的受控過程含有一個異常值,但從圖1右圖中可以看出,異常值在上下控制限內,控制圖并沒有對異常值進行報警,而是將異常值誤判正常值,監控失敗。顯然,監控失敗的原因是由于控制限對異常值敏感,異常值的存在導致控制上下限間距拉大所致。因此,對常規控制圖的控制中心及控制限進行穩健改進具有重要意義。

3.2 穩健常規控制圖構建的基本原理

尋找均值、標準差的穩健組合估計量來改進控制中心及控制限,對構造穩健控制圖具有重要作用。研究表明構建穩健控制圖是一個較為復雜的系統工作,并不是僅僅尋找均值與標準差的穩健估計量。由于均值與標準差在控制圖中是有機整體,若將兩者分開研究有可能會導致控制圖過于穩健或者缺乏穩健,其后果是:過于穩健會出現虛假報警,缺乏穩健會出現漏報警現象。常用的均值穩健估計量有:中位數(Median)、切尾均值(Trimmed Mean)、縮尾均值(Winsorized Mean)、三均值(Triple Mean)以及Hodges－Lehmann(HL1、HL2、HL3)等。常用的標準差穩健估計量有:縮尾標準差(WSD)、中位絕對離差(Median absolute deviation)、平均絕對離差(Mean absolute deviation)、四分位數間距(IQR)以及Shamos估計量等。

本研究經過反復模擬實驗比較后,采用昌世凱(Chanseok)等[26]提出的Hodges－Lehmann估計量作為均值穩健估計量,選取中位絕對離差(MAD)作為標準差穩健估計量,該兩個估計量組合在一起,稱為HLMAD 組合估計量。研究表明,采用該組合估計量來穩健改進常規控制圖能得到相對最優的穩健監測效果。Hodges－Lehmann估計量具有3種形式,可分別簡寫為HL1、HL2及HL3,其表達式分別為:

在此,經比較后選HL1,其中位絕對離差(MAD)表達式為:

將該兩個估計量作為控制圖的穩健組合估計量來改進控制中心與控制限,可得到如下穩健控制圖(圖2):

圖2 基于HL－MAD 組合估計量的穩健常規控制圖構建原理

3.3 模擬研究

下面通過數值模擬仿真研究來說明穩健改進的可行性和有效性。分別模擬隨機產生樣本量為20、100、200的標準正態分布N(0,1)隨機數,目的是從小樣本、中樣本和大樣本三種情形來觀測改進效果。三種情形的污染率分別為2%、10%、20%,即分別覆蓋輕污染、中污染、重污染。需要說明的是,在小樣本20的情形下,當污染率為2%時,異常值不足1個,為保證各樣本量、各污染率下至少有1個異常值,本研究將小樣本20的輕污染率由原來的2%增加到5%,其他情形不變。污染分布選擇均勻分布,污染分布構造過程如(2)式所示:

其中ε為污染率,N(n1;0,1)表示標準正態分布,Unif(n2;4,5)表示最小值為4、最大值為5的均勻分布。根據研究需要,有時要產生負異常值,這時可將污染分布(2)式變形為(3)式:

基于(2)式和(3)式產生的隨機數,得到各樣本量、各污染率下的監控效果如表1所示。

表1 不同樣本量不同污染率下的常規與穩健控制圖監控效果對比表

從表1可以看出,當樣本量為20時,常規控制圖在各污染率下的監控正確率全部為0,穩健控制圖為100%。當樣本量為100與200時,常規控制圖與穩健控制圖的報警正確率均隨著污染率的增加而減少,但穩健控制圖報警正確率一直顯著高于常規控制圖且數值相對穩定。

4 實證檢驗

為進一步檢驗本研究所提出的基于HL1－MAD 組合估計量所改進的穩健控制圖對含異常值序列的監控效果,本文選取2019年8月22日－2020年6月19日泰山石油(代碼:000554.SZ)收益率作為受控對象。數據來源于英為財情網站(https://cn.investing.com),有效樣本量為200。泰山石油數據的探索性分析結果如圖3所示。

圖3 泰山石油股票收盤價圖(左)與收益率圖(右)

圖3顯示:第一,泰山石油的收盤價圖波動幅度很大;第二,泰山石油的收益率圖呈現異方差性且存在多個絕對值較大的數,這一特征與本研究目標相吻合。至于絕對值較大的數是否為異常值,則需要通過統計檢驗進行識別。

采用王志堅、汪志紅和王斌會等提出的時間序列異常值穩健檢測法[27－30]對泰山石油樣本數據進行異常值檢測,結果為表2所示。

表2 泰山石油收益率異常值檢測結果表

從表2可以看出,穩健檢測法檢測到異常值共10個,其中,6個為IO 型,4個為AO 型。而泰山石油收益率的正態性檢驗結果顯示為:W＝0.91653,p value＝3.264e－09,即拒絕服從正態分布的原假設?？梢?異常值的存在導致序列違背了受控過程滿足正態分布假定。

接下來,采用常規控制圖與穩健改進控制圖分別對收益率序列進行監控,試圖通過監控將序列中異常值“報警”出來,監控結果見圖4。

圖4 常規控制圖(左)與穩健控制圖(右)監控結果圖

從圖4可以看出,常規控制圖出現6個異常值報警,序號分別是:91、105、148、150、153、187。穩健控制圖出現10個異常值報警,序號分別是:91、93、94、105、148、150、153、163、180、187。常規控制圖漏報警4個異常值,報警正確率60%,穩健控制圖所報警異常值個數與穩健檢測法檢測到異常點個數一致,報警正確率100%。泰山石油收益率的實證結果進一步驗證了穩健控制圖的可行性與有效性。

5 相對效比較

一個估計量的有效性,通常用相對效率來進行評價,相對效率的概念在各種估計量進行評估比較時非常有用。關于的相對效定義為:

(4)式中分子為估計量的最小方差,分母為實際方差,通常當該比值為1或者接近1時,才認為該估計量是有效的,或者稱為相對最優。

泰山石油樣本量為200,據此算出泰山石油收益率常用的位置參數與尺度參數估計量的相對效,結果如表3所示。

表3 各估計量的相對效比較

從表3可以看出,位置估計量相對效最小的是中位數median,尺度估計量相對效最小的是極差range。顯然中位數是位置估計量的一個很好的穩健估計,而極差并不是尺度估計量的一個好的估計量,但表3顯示,極差相對效最小。本文通過對比研究發現,由于控制圖的構建涉及到樣本均值與標準差兩個統計量,僅僅考慮單個統計量的相對效難以構建一個監控效果滿意的控制圖。因此,需要將位置與尺度統計量兩者結合起來構建組合估計量才能得到一個相對最優的穩健控制圖。因此,在控制圖的穩健估計量的選擇問題上,研究者不能僅僅用單個估計量的相對效比較來作為穩健估計量的唯一選取標準,從某種意義上講,此發現亦是本研究的學術貢獻之一。

6 結束語

本研究通過比較并選取均值的穩健估計量HL1與標準差的穩健估計量MAD 作為穩健組合估計量構建了穩健常規控制圖,模擬與實證分析均表明本研究構建的穩健控制圖能有效地對異常值進行監控。另外,本研究發現,在穩健控制圖構建過程中,均值與標準差的穩健估計量不應該分開選取,而要作為一個整體來考慮才能達到更好的效果,這一點在相對效的比較研究中得到了進一步論證。