正態分布序列均值變點檢測的貝葉斯方法

2020-10-13 12:46郭衛娟

湖北第二師范學院學報 2020年8期

郭衛娟

(湖北第二師范學院數學與經濟學院；大數據建模與智能計算研究所,武漢 430205)

1 方差已知的的正態分布序列變點問題簡介

(1)

若通常稱為多未知變點模型，對于多個未知變點模型，我們要解決的問題主要有兩個，第一是確定變點的個數；第二是確定變點的具體位置，實際上變點的數目完全由變點的位置所決定，通常我們采用二分法來確定，其基本想法是首先我們只考慮僅有一個變點的模型，利用某種方法確定這個變點的具體位置，然后以此位置作為分界點，將全部數據集分成兩個不相交的子集，對于每個子集，按照前面的方法重新判斷，看看每個子集中是否存在變點，該過程一直進行到不再有變點為止。利用該方法，我們可以將原來模型簡化為沒有變點和僅僅只有一個變點的模型，下面我們按照貝葉斯統計學方法給出一個數據集有無變點和僅有一個變點時確定其位置的方法。

2 貝葉斯信息準則

(2)

(3)

而AIC和SIC的區別在于常數項懲罰項上，實際上，BIC給出了真實模型的漸近一致估計，因此在實際上應用較AIC更為廣泛。利用信息準則來估計變點的有無和位置較為實用和簡單?？紤]到本文主要用貝葉斯方法來研究變點問題，而所有的貝葉斯統計推斷都是基于參數的后驗分布進行的，因此可以將似然函數即經典統計中的樣本聯合概率密度函數修正為貝葉斯后驗概率密度似然函數，因此得到變點的貝葉斯信息準則為BSIC(n)(y表示可以觀察到的樣本數據，通常用向量表示):

(4)

令H0表示無變點，令H1表示有唯一的變點，下面分布計算這兩種情況的貝葉斯信息準則，

3 無變點下的正態序列的貝葉斯信息準則

(5)

(6)

4 僅有一個均值變點的正態序列的貝葉斯信息準則

此時模型(1)被簡化為：

顯然該模型中含有三個未知參數u1，u2，k，其中我們感興趣的參變點的位置數k，而u1，u2是我們不感興趣的參數，在貝葉斯統計中一切未知參數都是當作隨機變量，稱為多余參數或者叫討厭參數，為了去掉多余參數的影響，我們必須對它加合適的先驗分布以便積掉。為此假設

(7)

又因為根據已知信息，只有唯一的變點，其可能位置為1，2，…，n-1，因為沒有任何先驗信息，利用同等無知原理，應假設唯一的變點在1，2，…，n-1上服從均勻分布，由此得到變點的位置的先驗為：

(8)

此時利用正態分布密度的正則性，不難計算出完整的后驗概率密度為：

(9)

(10)

(11)

5 唯一變點位置的判別

按照貝葉斯理論任何統計推斷都因該基于后驗分布進行，為此計算以上先驗下三個參數u1，u2，k的后驗分布。(9)式可以看成是在y1，y2，…，yn給定的條件下參數u1，u2，k的聯合后驗分布，利用邊緣分布和聯合分布的關系，可以計算出：

(12)

同時利用11式，可以計算出其他兩個參數u1，u2的后驗期望為：

這說明參數u1，u2的后驗期望估計和前面求出的參數的極大似然估計也一致。

最后我們來看看數據擬合結果：

也就是用R軟件生成方差已知均值不同分布的正態分布的隨機數，然后利用上面的算法識別有無變點，在有變點的情況下，估計變點的具體位置；

下面以3個變點為例，也就是模擬樣本的真實變點在100、200的第300個位置上，總共抽取400個樣本。說明本次隨機模擬的結果：

為方便起見，本題中各個部分均值的差別越大，這樣做的目的是為了區分各個變點的顯著性，易知，在上面理論假設之下，識別的變點依次為300,200,100，這和實際情況完全吻合。因為以上總體方差都相等，這說明各組數據波動性相差不大，而在300這個位置上，前后均值差為4，是各部分差最大的，因此最先識別出來。因此本方法還是比較有效，尤其是在區別差異大的不同總體上。當然，缺點也是明顯的，就是計算量比較大，這也是任何貝葉斯方法的共性缺點?？偟膩碚f，貝葉斯方法對很多統計問題提出了一個粗略的近似解，所以該方法隨計算機計算能力的日益發展而展現出更多的用處。