?

Bootstrap和Jackknife的初步認識

2017-08-02 13:31喬汭熙
東方教育 2017年11期

喬汭熙

摘要:本文總結了Bootstrap和Jackknife的相關理論知識與已有研究;利用R語言進行模擬,設計復雜抽樣方案并進行抽樣,對Bootstrap和Jackknife的部分性質進行了驗證與解釋。除此之外,本文還對Bootstrap和Jackknife估計量的性質進行了簡要的介紹,并對方法的改進進行了討論。

關鍵詞:復雜抽樣;Bootstrap;Jackknife;估計

一、發展歷史與研究現狀

Jackknife是由Quenouille(1949)引入的一種方法,又稱刀切法。Jackknife方法的思想是,通過從原始數據集中每次刪除一個數據并利用其余數據重新計算估計量,根據得到的一組估計值,可以對待估參數及其他性質進行估計。

Quenouille在1949年提出,可以通過將樣本劃分為兩個半樣本的方式,以減少序列相關的估計量的偏差。在其1956年的研究中,提出將樣本量為n的樣本劃分為g組大小為h的樣本的方法,并討論了這種方法的可行性[1][2]。

Jackknife方法在對殘差的估計(P.S.R.S Rao and J.N.K.Rao,1970)、區間估計(Tukey)、極大似然估計(Fryer,1970)等方面優良性質均已被證明[1]。

對于多元的Jackknife,Dempster在其1966的研究中,提出了一種改進的Jackknife方法,用于處理典型相關問題。Layard(1972)指出,當傳統正態方法對兩個協方差矩陣相等性的檢驗不穩健時,Jackknife方法可以很好的處理。Lachenbruch和Mickey[1]提出了U方法(實際是Jackknife方法的應用)進行判別分析。

L.B.Jaeckel提出一種無窮細分的刀切法,雖然此方法不如原始Jackknife方法實用,但卻在Jackknife和穩健估計量之間建立了橋梁(1972)。

Jackknife在其他領域的應用也極為廣泛。有研究者將Jackknife與自適應加權相結合,提高了多傳感器有關數據處理的精確性和穩健性[3]。還有研究者將Jackknife用于測算準備電位啟始時間點[4]。

Bootstrap,又被稱為自舉法、自助法,是由美國斯坦福大學統計系的Efron(1979)提出的一種重抽樣的方法。它以原始數據為基礎,即可用于參數估計,又可用于非參數估計,在進行參數估計時只依賴于已有的觀測信息,是利用小樣本信息構造先驗分布的最理想的方法之一。

1979年Efron提出Bootstrap之初,曾因太簡單而被雜志拒收,后其發表在《The Annals of Statistics》上[2]。Bootstrap方法提出之后,統計學家爭相對其進行研究擴展:Hall對Bootstrap進行了Edgeworth展開;Efron和Tibshirani對Bootstrap的性質與估計方面進行了詳細的理論推導與證明,討論了其在各種復雜數據結構、回歸分析、交叉驗證等方面的應用;Lahiri介紹了Bootstrap在非獨立數據中的應用;Shao和Tu將Bootstrap與Jackknife進行了系統的介紹與對比。

Bootstrap對獨立同分布數據的研究是最早發展的一部分,Singh在此情形證明了在某些條件下Bootstrap近似比傳統正態近似的收斂速度快。

對于非獨立的數據,可以用塊狀的Bootstrap來處理,也可以使用基于變換的Bootstrap。對于塊狀的Bootstrap方法,主要思想是將具有相依關系的數據放在同一個單元進行重抽樣,該方法由Ktinsch與Liu和Singh首先提出。Hall等人對于塊狀Bootstrap樣本區間的劃分進行了討論。對于基于變換的Bootstrap,其思想是對非獨立的數據進行變換,使其轉換為獨立(或近似獨立)數據,其中,最常用的變換是傅里葉變換。

Bootstrap理論的基本思想、歷史發展及其若干比較前沿的研究方向包括:獨立同分布數據、基于模型、帶有塊結構、Sieve、基于變換、Markov過程、長期相依和空間數據的Bootstrap理論等[3]?,F如今Bootstrap方法已廣泛地應用于統計學的各個領域,成為當下最受歡迎的重抽樣方法之一。

除此之外,Bootstrap方法也被廣泛應用于各個領域。黎光明[5]等人在其研究中,以心理學為背景,對于正態分布、二項分布、多項分布和偏態分布的數據,對Bootstrap 方法進行校正,作點估計和方差估計,發現校正的Bootstrap 方法優于未校正的Bootstrap 方法;有學者將Bootstrap方法應用于森林系統的抽樣調查,提高了初始樣本的精度[6];有學者利用Bootstrap方法,計算了考試成績的均值、標準差、偏度與峰值,刻畫了考試成績前四階核密度函數曲線,對各個班級學生的考試成績情況進行了研究[7];還有學者將Bootstrap方法應用于過度分散的泊松模型中,得到了未決賠償準備金的預測均方誤差,進一步通過隨機模擬得到了預測分布,為保險業進行準備金評估提供了新思路[8]。

二、模擬仿真與結果分析

(一)模擬

本文利用R語言,采取模擬的方法進行研究,共進行1000次模擬。首先,進行二階段抽樣,第一階段采用PPS抽樣,第二階段采用簡單隨機抽樣,且簡單隨機抽樣抽取的樣本量相同。其次,進行分層二階抽樣,將所有的初級抽樣單元按規模分層,在每一層內進行二階段抽樣。分別利用傳統方法、Bootstrap和Jackknife的方法對兩種方法抽取得到的樣本方差進行估計和比較。對1000次模擬的結果進行匯總、比較。結果如下。由上表可見,根據Bootstrap和Jackknife的方法對抽樣誤差進行估計,其效果明顯好于利用傳統方法進行估計。而就Bootstrap和Jackknife來說,對于本研究中所使用的兩種抽樣方法,Jackknife方法的效果較好,Bootstrap對抽樣誤差估計并不是總優于傳統方法。

(二)結果分析

在一致性方面,Jackknife分布估計量在非常弱的條件下是一致的。

Jackknife無法獲得樣本分位數方差的一致估計,但Bootstrap卻可以通過選擇適當的底層分布F來獲得,這也是Bootstrap相對于Jackknife最大的優勢之一。Jackknife無法對分布進行估計,但Bootstrap卻可以。除此之外,Jackknife分布估計量的收斂率也不如Bootstrap的分布估計量那樣好。

Jackknife是非參數方法,它利用的是原數據集的子集。因此,Jackknife可能不如Bootstrap估計量效率高,但是,Jackknife對模型假設的變化更加穩健。Jackknife采用比Bootstrap更系統的取樣方法。因此,對于Jackknife會有更有效的計算方法。

對于方差估計,當底層分布F拖尾時,Bootstrap估計量 即使對光滑的都可能是不一致的。Bootstrap方差估計量通常向下偏的。

另外,現有的結果表明 的一致性并不涵蓋廣泛的統計量。 的計算通常比 更復雜。因此,對于 是光滑時的方差估計量,綜合考慮理論和計算,Jackknife比Bootstrap的效果要好,且Jackknife可以很容易地擴展到多變量的情況。推薦使用Bootstrap來處理更復雜的問題,例如估計抽樣分布和建立置信度等。

事實上,由于樣本來自于不同的正態分布,研究利用傳統方法進行估計已沒有意義,無論估計的數值大小如何,均無法說明總體的情況。在這種情況下,Bootstrap和Jackknife估計的結果更為可信。本文的模擬是對均值的方差(標準差)進行的估計,無論是從漸近性、一致性還是穩健性考慮,Jackknife效果都更好,模擬的結果也與該結論相一致。

三、Bootstrap與Jackknife的缺陷

(一)Bootstrap的缺陷

(1)在對經驗分布函數進行抽樣時,Bootstrap樣本來自于原樣本,若原樣本樣本量很小,Bootstrap樣本中必然會出現重復的樣本點,多次抽樣后會使概率分布集中于少數點,從而導致計算的結果遠遠偏離真實結果,使估計出現偏差。

(2)在分布連續的情況下,我們只能獲得觀測點處的分布情況,對于非觀測點處的分布并無了解,據此推斷出的分布很有可能偏離真實分布。

(3)在使用Bootstrap方法時,無法對分位數進行估計,對最大次序統計量、最小次序統計量自然也無法進行估計。

(二)Jackknife的缺陷

通常情況下,Jackknife方差估計量是一致的,但在一些情況下Jackknife方差估計量會出現不一致的情況。不一致性的出現主要是因為樣本函數的不平滑。

(三)模擬

(1)對Bootstrap的改進

選用的均值為2、標準差為5的正態分布對Bootstrap的改進進行模擬。對最大統計量和最小統計量進行鄰域的擴充并進行抽樣,方法為:,。選取不同的m值,各進行1000次模擬。結果如下。

“compare”代表了在1000次模擬中,改進后的方法更優的次數。由于模擬采取小樣本,所以m值應當取大一些??梢钥吹?,隨著m的增大,改進后的方法效果越來越好。模擬結果符合已有結論。

(2)棄d刀切法

對Jackknife和棄d刀切法進行模擬比較。生成100個均值為2、標準差為5的正態分布隨機數,分別利用刀切法和棄d刀切法進行標準差的估計,棄d刀切法選取了不同的d值。結果如下。

“sd”代表了棄d刀切法估計的標準差,橫坐標為抽取的樣本量r,橫線為刀切法估計的標準差。由上圖可見,當d=1時,棄d刀切法即為刀切法。棄d刀切法并不是總優于刀切法,其效果與d的選取有關。

參考文獻:

[1]Rupert G.Miller. The Jachhnife-A Review. Biometrika, 1974、30(1): 1-15.

[2]謝益輝,朱鈺. Bootstrap方法的歷史發展和前沿研究. 統計與信息論壇, 2008、23(2): 90-96.

[3]謝振南,楊宜民. 基于刀切法與自適應加權的多傳感器信息融合算法. 計算機與現代化, 2012、25(10): 34-37.

[4]呂博,劉明霞,劉麗莎. 單側化準備電位啟始時間點的測算:刀切法. 心理與行為研究, 2014、12(5): 707-711.

[5]謝益輝,朱鈺. Bootstrap方法的歷史發展和前沿研究. 統計與信息論壇, 2008、23(2) : 90-96.

[6]黎光明,張敏強. 校正的Bootstrap方法對概化理論方差分量及其變異量估計的改善. 心理學報, 2013、45(1): 114?124.

[7]余國寶,錢祖煌. 應用自動法樣本估計森林系統抽樣誤差的初步研究. 林業調查規劃, 1993、18(1):1-7.

[8]劉長虹,陳凱倫,郝杰,楊晨. Bootstrap 抽樣方法在考試成績分析中的應用. 紡織服裝教育, 2015、30(3): 196-198.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合