?

Mlinex損失函數下反向帕累托分布形狀參數的Bayes估計

2024-02-28 03:28何貴陽周菊玲
關鍵詞:帕累托后驗先驗

何貴陽,周菊玲

(新疆師范大學 數學科學學院,新疆 烏魯木齊 830017)

帕累托分布是一類經典的,能充分反映冪律特征的分布函數,因此一直備受關注。其名稱是由意大利經濟學家維弗雷多·帕累托(1848—1923)定義的,這一分布在經濟學以外領域被稱為“布拉德福分布”。因帕累托分布中變量的獨特取值要求,即定義變量取值在特定數值之上,使得帕累托分布在應用上受限。如黃娟等人討論了Pareto 分布參數的經驗Bayes(EB)單邊檢驗問題,構造了參數的經驗Bayes 檢驗函數,證明了其具有漸近最優性,并且獲得了收斂速度[1]。李超建等人介紹了基于帕累托分布的禽畜種苗交易系統入侵容忍模型,每臺服務器的結構不同,但禽畜種苗交易網站服務內容相同,具有響應結果一致性[2]。溫利民等人建立貝葉斯模型,討論帕累托索賠額分布中參數的估計問題,得到了風險參數的極大似然估計、貝葉斯估計和信度估計,并證明了這些估計的強相合性[3]。錢小仕等人提到地震震級超過某一閾值的超出量分布可以近似為廣義帕累托分布,并介紹了基于廣義帕累托分布給出的若干地震活動性參數的估計公式[4]。張悅基于多種復雜刪失數據研究帕累托分布的統計特性,構建了逐步II 型刪失下的擬合優度檢驗,推導了廣義逐步II型刪失下帕累托分布的壽命績效指數的統計推斷,討論了適應性逐步II型刪失模式下帕累托分布的競爭風險模型分析,并將結論推廣到更復雜的廣義指數分布[5]。通過查閱近些年關于帕累托分布的相關研究文獻,可以確定帕累托分布只局限于刻畫冪律特征的分布函數中的上尾部分[1-7]。從此特性出發,考慮變量的取值,如果將帕累托分布變量的定義域取相反數,則可以求解其受限外的區域,即刻畫冪律特征的分布函數中的下尾部分。王超探討了反向帕累托分布的統計推斷問題,通過研究2010年我國655個城市人口規模,證明了中小型城市人口規??梢允褂梅聪蚺晾弁蟹植歼M行擬合[8]。簡單的取值變化彌補了帕累托分布刻畫區域的不足,同時也完善了對滿足冪律特征區域的一種刻畫問題。針對帕累托分布變量取相反數的特點,結合帕累托分布特點,提出反向帕累托分布。反向帕累托分布的密度函數和分布函數分別為

其中,a和λ分別為位置參數和形狀參數,且a>0,λ>0,符號表示為RP(a,λ).

在處理參數估計問題上,常見方法有極大似然估計、矩估計、熵估計、Bayes估計等。根本上是頻率學派與貝葉斯學派就估計方法進行激烈討論,其中頻率學派的極大似然估計與貝葉斯學派的最大后驗估計最具代表性。但無論是哪一學派的哪一種估計方法,都離不開樣本信息與損失函數的選取,其中常用的損失函數有熵損失函數、平方損失函數、加權平方損失函數、Linex 損失函數、復合Linex 損失函數、Mlinex 損失函數等。值得一提的是Mlinex 損失函數,Mlinex 損失函數是一類非對稱損失函數,是由Podder 在2004 年提出的一種修正的線性指數損失函數,其具體表達式為

其中,θ是未知參數λ判別空間的一個估計。Mlinex 損失函數雖是對原有損失函數的一種修正,但一直未停止對其進行研究。例如王琳等人基于逐步增加Ⅱ型截尾樣本,研究了Mlinex 損失下BurrⅫ部件可靠性指標的經驗Bayes 估計[9]。丁新月等人在Mlinex 損失函數下,討論了逆伽馬分布尺度參數的Bayes 估計及其可容許性[10]。李新鵬等人利用信度理論的方法得到了Mlinex 損失函數下Bühlmann-Straub 模型具有特殊相依效應的信度保費,進而推導出Mlinex損失函數下Bühlmann模型具有此種相依效應的信度保費[11]。

事先說明Mlinex 損失函數中常數c的取值問題。文章只研究c>0 的情況,c<0 的情形類似,不做充分討論。文章第一節為預備知識;第二節對頻率學派極大似然估計與貝葉斯學派最大后驗估計進行討論,并推導反向帕累托分布形狀參數在最大后驗估計方法下的具體表達式;第三節介紹了在Mlinex 損失函數下反向帕累托分布形狀參數的經典Bayes 估計,并推導出具體表達式;第四節在Mlinex 損失函數下,討論反向帕累托分布形狀參數的多層Bayes估計與E-Bayes估計;第五節通過數值模擬,驗證所列舉估計方法的準確性、穩健性、可靠性;第六節在參數最優環境下,利用最優估計方法,進行數據擬合,確定新疆縣市級城市的人均城市道路面積可以利用反向帕累托分布近似擬合,并結合最終數據給出相應的數據分析。

1 預備知識

在處理待估參數是客觀存在但未知的一類估計問題時,常用的估計方法是經典頻率學派觀點下的極大似然估計(MLE)。

引理1[9]若X1,X2,…,Xn是來自RP(a,λ)分布的簡單隨機樣本,其中a與λ分別為位置參數與形狀參數。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是其相應隨機樣本下的觀察值,則RP(a,λ)中位置參數a與形狀參數λ的極大似然估計分別為

在實際應用時,發現個別待估參數與樣本有關,針對這類情況,貝葉斯學派提出了最大后驗估計(MAP)方法。其估計原理是考慮待估參數的先驗信息與樣本信息有關,需選擇合適的估計量使得后驗分布密度達到最大值[12],同時最大后驗估計作為Bayes估計的一種近似解,也有一定的研究價值。

2 形狀參數λ的最大后驗估計

由于參數λ的最大后驗估計應使后驗分布達到最大[12]。即選定合適的估計量使p(X|λ)π(λ)達到最大,其中π(λ)是參數λ的先驗分布密度,p(X|λ)是樣本X1,X2,…,Xn對參數λ的條件密度。從處理參數估計問題的原理上可以看出,極大似然估計是最大后驗估計在π(λ) ∝1的先驗分布。接下來利用這一特點結合引理1給出的極大似然估計方法,推導出形狀參數λ的最大后驗估計方法。

定理1若X1,X2,…,Xn是來自RP(a,λ)分布的簡單隨機樣本,其中a與λ分別為位置參數與形狀參數。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是其相應隨機樣本下的觀察值,選取Γ(β,γ作為形狀參數λ的先驗分布π(λ),則在位置參數a已知的情況下,形狀參數λ的最大后驗估計為

證明選取形狀參數λ的先驗分布為其中參數β,γ為超參數,且β>0,γ>0,同時令p(X|λ)是樣本X1,X2,…,Xn對參數λ的條件密度,則有

考慮到形狀參數λ的最大后驗估計是尋找λ的估計量,使形狀參數λ的后驗密度函數達到最大值的情況,即找到使p(X|λ)π(λ)達到最大值。

令g(λ)=λn+β-1e-(γ-t)λ,由最大后驗估計方法的原理可知,要對p(X|λ)π(λ)關于λ求解最大值,就是要對g(λ)關于λ求解最大值。但關于g(λ)直接求解最值問題處理較為復雜,考慮變式,因g(λ)=exp{ln(g(λ))}=exp{ln(λn+β-1e-(γ-t)λ)},則對g(λ)求解最值問題可轉化對ln[g(λ)]求解最值問題。

對ln[g(λ)]關于形狀參數λ取一階微分,同時令微商為0,即

3 形狀參數λ的Bayes估計

上文介紹了反向帕累托形狀參數λ的最大后驗估計。由于最大后驗估計是Bayes 估計解的近似值,其估計結果相比于利用Bayes 理論下的經典估計方法得到的結果,還存在一定偏差。具體體現在損失函數的影響,所以下面將繼續討論在考慮損失函數情況下,反向帕累托形狀參數λ在Bayes 理論下的經典估計方法并確定估計結果的具體表達式。

考慮位置參數a已知的情況下,形狀參數λ在Mlinex損失函數下的經典Bayes估計問題。

定理2設X1,X2,…,Xn是來自RP(a,λ)分布的簡單隨機樣本,其中a與λ分別為位置參數與形狀參數。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是相應隨機樣本下的觀察值,在Mlinex 損失函數(1)下,對于任意的先驗分布π(λ),在位置參數已知的情況下,形狀參數λ的唯一Bayes估計為

其中,p(X|λ)π(λ)表示參數λ與樣本X=(X1,X2,…,Xn)的聯合密度函數。

由損失函數定義可知,在對特定分布的參數進行估計時,考慮到給定相應損失函數后,需要使風險函數盡可能的小,以保證參數估計時的準確性。為此需使風險函數中的極小化即可。

因為

將f((X))關于(X)求一階微分并令其等于零,便可解得形狀參數λ的Bayes估計為

由于f((X))是凸函數,所以(X)是f((X))的唯一最小值。同時若存在λ'使得R(X)(λ) <∞,對于參數λ的Bayes估計(X)是唯一存在的且是可容許的,所以可以確定形狀參數λ的唯一Bayes估計一般形式為

推論1同定理2條件。選取作為RP(a,λ)分布中形狀參數λ的先驗分布π(λ),其中參數β,γ為超參數,且β>0,γ>0,在Mlinex 損失函數(1)下,且位置參數a已知的情況下,形狀參數λ的Bayes 估計的精確表達式為

證明因為選取作為形狀參數λ的先驗分布π(λ),則由式(2)可得

又因為RP(a,λ)分布的密度函數是f(x;a,λ)=λa-λxλ-1;0 <x≤a,λ>0,所以樣本的似然函數由式(3)確定為

由式(5)可以看出,形狀參數λ的后驗分布服從伽馬分布Γ(n+β,γ-t).

于是有

因此,由定理2可知,Mlinex損失函數下形狀參數λ的Bayes估計的精確表達式為

4 形狀參數λ的E-Bayes估計(EB)與多層Bayes估計(HB)

在Bayes 理論不斷進步的同時,對特定分布參數的估計方法也一直不斷地發展與完善。這一系列的發展也使得參數估計不斷逼近于真值,使其誤差不斷地縮小,這樣的結果正是對特定分布參數進行估計的最終理想。所以接下來文章進一步研究形狀參數λ在Mlinex 損失函數下,先驗分布選定為Γ(β,γ) 的E-Bayes估計與多層Bayes 估計。根據相應文獻,為了使估計的效果較好,Γ(β,γ) 中參數β和γ的取值應使先驗分布密度函數為形狀參數λ的減函數[13]。再考慮估計的穩健性,最終確定0 <β<γ<m,其中m為常數[14]。

4.1 E-Bayes估計(EB)

定義1對于(a,b)∈D,若B(a,b)是連續的,則稱是參數λ的E-Bayes 估計,其中?DB(a,b)f(a,b)dadb是存在的,D是超參數a和b的取值集合,f(a,b)是a和b在集合D上的密度函數,B(a,b)為λ的Bayes估計。

從定義可以看出,參數λ的E-Bayes估計

是參數λ的Bayes估計B(a,b) 對超參數a和b的數學期望,即λ的E-Bayes估計是λ的Bayes估計對超參數的數學期望。

定理3設X1,X2,…,Xn是來自RP(a,λ)分布的簡單隨機樣本,其中a與λ分別為位置參數與形狀參數。選取Γ(β,γ) 作為形狀參數λ的先驗分布π(λ),其中參數β,γ為超參數,且β>0,γ>0.令X=(X1,X2,…,Xn),并且x1,x2,…,xn是相應隨機樣本下的觀察值,在位置參數已知時,RP(a,λ)分布中的形狀參數λ,在Mlinex損失函數下的E-Bayes估計的精確表達式為

證明首先由推論1 可知,RP(a,λ)分布的形狀參數λ,在Mlinex 損失函數下的Bayes 估計的精確表達式為

最后由定義1,RP(a,λ)分布的形狀參數λ,在Mlinex損失函數下的E-Bayes估計的精確表達式為

4.2 多層Bayes估計(HB)

定義2若λ的先驗分布為Γ(β,γ)分布,其密度函數其中參數β,γ為超參數,且β>0,γ>0.假設β,γ獨立,則有β和γ的先驗分布分別為上的均勻分布,所以得到先驗分布密度函數f(β,γ)=,同時在β和γ獨立時,則λ的多層先驗密度函數為

定理4同定理3條件。在位置參數a已知時,若形狀參數λ的多層先驗密度函數π*(λ) 由定義2給出,則在位置參數已知時,在Mlinex下形狀參數λ的多層Bayes估計為

證明設X1,X2,…,Xn為來自RP(a,λ)分布的簡單隨機樣本,在位置參數a已知時,樣本的似然函數由式(3)給定

若形狀參數λ的多層先驗密度函數由定義2給出,根據Bayes定理,形狀參數λ的多層后驗分布密度為

5 數值模擬

文章研究了形狀參數λ的五種估計方法并給出了相應的具體表達式。為確保估計所得結果的準確性、穩健性,接下來利用R 軟件對給出的估計方法進行MC 數值模擬,并在模擬中運用控制變量的原理,觀察對比偏差量Abs 的數值變化,逐步得到最優估計的參數環境。在最優估計參數環境下,通過對均方誤差MSE的數值變化進行討論,最終確定Bayes理論下的最優估計。

在RP(a,λ) 分布中,給定參數真值,即位置參數a=100 和形狀參數λ=3 時,對樣本取值為n=20、50、100、150,Mlinex 損失函數相應參數ω=1、形狀參數λ的先驗分布為Γ(2,1) 均給定。采用MC 方法進行數值模擬計算,每種情況均進行2000次模擬計算,其計算結果如表1、表2、表3所示。其中,表1為給定條件下,確定Mlinex損失函數中常數c的最優環境;表2為給定條件下,確定形狀參數λ的先驗分布下參數的最優環境;表3為在最優環境下形狀參數λ的三種估計方法下的均方誤差MSE.

表1 確定Mlinex損失函數中常數c的最優環境(給定條件)

表2 確定形狀參數λ的先驗分布中參數的最優環境(給定條件)

表3 在最優環境下形狀參數λ的三種估計方法下的均方誤差MSE

表4 2021年新疆20座縣市級城市人均城市道路面積數據

由表1數據可得結論如下:

(1)與近似Bayes估計方法和Bayes估計方法相比,基本估計方法中極大似然估計結果比真值大,即偏差量為正。相比于極大似然估計,最大后驗估計結果更接近真值。這是最大后驗估計在估計問題上考慮了待估參數先驗分布與樣本相關的體現。

(2)Mlinex 損失函數中常數c的取值變化對RP(a,λ)分布中形狀參數λ的Bayes 估計有一定的影響??梢钥闯?,當Mlinex 損失函數常數c=1 時,其估計結果最接近真值,所以可以判斷在已給定條件下,Mlinex 損失函數參數的最優環境為ω=1,c=1.

(3)對比三種估計方法在樣本容量逐步增大時,估計結果也逐步趨近真值,即三種估計方法均滿足大樣本性質。同時對比偏差量可知所列舉估計方法得到的結果是準確的,估計結果均滿足準確性。

(4)結合數據可以判斷出,在無損失函數環境影響下,處理滿足反向帕累托分布形狀參數的大樣本數據的估計問題上,選擇最大后驗估計是最優的。

由表2數據可得結論如下:

(1)在Bayes 理論下,相比于經典Bayes 估計(B)和E-Bayes 估計(EB),多層Bayes 估計(HB)估計結果的偏差為正偏差量,其他兩個為負偏差量。

(2)形狀參數λ的先驗分布中參數的數值選取對Bayes 估計結果有一定的影響,可以看出當先驗分布中參數的數值選取m=1時,其估計結果最接近真值。所以可以判斷在已給定條件下,形狀參數λ的先驗分布中參數的數值選取最優環境是m=1.同時對比m取值量的變化,三種Bayes 估計方法得到結果變化的幅度都較小,即可說明三種Bayes估計方法所得結果均滿足穩健性,其中E-Bayes估計穩健性最強。

(3)同表1結論,以上三種Bayes方法也均滿足大樣本性,估計結果均滿足準確性。

(4)結合數據可以判斷出:在Mlinex 損失函數環境影響下,如需準確地處理滿足反向帕累托分布形狀參數的大樣本數據估計問題時,選擇E-Bayes估計方法是最優的。如需處理滿足特定的正偏差逼近問題時,可選擇多層Bayes估計方法得到較準確的近似值。

由表3數據可得結論如下:

(1)在參數的最優環境下,Bayes 理論中的三種估計方法所得結果的均方誤差MSE 數值變化較穩定,結果能體現三種Bayes 估計方法的合理可靠性。同時隨著樣本數據的增加,均方誤差MSE 均控制在較小的有效值內,即三種Bayes估計方法所得結果是準確有效的。

(2)數據對比可得:三種Bayes 方法的均方誤差MSE 偏差量,在大樣本數據下均控制在0.001,即三種Bayes 估計方法所得結果較相近。同大樣本數據下,E-Bayes 估計方法中均方誤差MSE 控制較好,其可靠性較其他兩種較強。

6 結論

文章所給出的包括近似Bayes 與Bayes 理論下常用的三種估計方法,通過數值模擬并分析比較,得到以上五種估計方法都滿足大樣本性質且部分估計結果具有一定的可靠性、準確性、穩健性。結合樣本條件與穩健性要求,五種估計方法中E-Bayes估計法,在處理Mlinex損失函數下反向帕累托分布形狀參數的估計問題上較為快捷、準確、穩定,即可判斷E-Bayes估計是最優估計方法。

7 實例應用

文章1—4 節內容已解決了所提出的估計問題,并最終做出總結,給出了處理相應參數估計問題的最優方法。但理論研究不僅僅是對處理問題的方法進行總結,更是要解決實際問題。在對反向帕累托分布的研究中,鮮有見到相關實際問題的討論。王超探討了反向帕累托分布的統計推斷問題,通過2010 年我國655個城市人口規模的案例,證明了中小型城市人口規??梢允褂梅聪蚺晾弁蟹植歼M行擬合[8]。藍海等人基于E-Bayes 估計的定義,分別在加權平方損失函數和平方損失函數下討論了反向帕累托分布在位置參數已知時,形狀參數α的E-Bayes估計[15]。徐寶等人使用加權p,q對稱損失函數研究了反向帕累托分布的形狀參數在刻度參數給定條件下Bayes 估計的形式與性質。得到了形狀參數Bayes 估計的一般形式以及在給定共軛先驗下的精確形式,證明了所得Bayes 估計具有可容許性以及最小最大性[16]。文章將從文獻[16]提出的反向帕累托分布可以擬合中小型城市人口規模的研究出發,對新疆維吾爾自治區二十座縣市級城市的人均城市道路面積進行擬合研究。

一座城市的發展,不僅僅依賴于經濟水平的提升,經濟的發展與城市道路面積的擴建也體現在城市常住人口數的變化,但要考慮到經濟發展同時伴隨著人口流動。面對近些年不斷發展的新疆,常住人口數已不能再作為衡量某座城市的發展標準,所以文章引入人均城市道路面積作為城市發展的判斷依據。文章利用反向帕累托分布對新疆維吾爾自治區內二十座縣市級城市的人均城市道路面積進行擬合,并利用最優估計方法判斷擬合結果是否準確。以下數據來自于新疆維吾爾自治區統計局《2021 年新疆統計年鑒11-2 各城市市區設施水平》。

通過分析,設表中數據為X=(X1,X2,…,X20)的樣本,通過計算得到樣本均值與樣本方差:E(X)=32.50,Var(X)=345.50.觀察樣本數據分布情況,有較多的小樣本數據。同時結合人口分布的特點,數據可視為滿足冪律特征的下尾分布,即考慮利用反向帕累托分布擬合。通過反向帕累托分布期望與方差公式

結合樣本均值與樣本方差信息,求解得到參數真值a≈64.561,λ≈1.014.但由于限定0 <x≤a,所以上述表格中存在異常數據,從而限制了參數a的確定。對比實際人口數據判斷阿拉山口市與霍爾果斯市數據存在一定異常,主要體現為流動人口數較多,常住人口數較其他地區偏少,使得在同等城市道路面積下,人均城市道路面積值偏大。

利用Excel 軟件,在理想環境下,對已知的20 組數據進行參數的E-Bayes 估計。通過迭代擬合,修正參數a的值并對估計結果與真值進行數值比較,在誤差可允許范圍內找到最優估計下參數的近似估計值,最后驗證擬合的準確性。

由表5擬合結果可以得出:

表5 通過迭代修正參數a的值并對參數λ擬合,得到近似擬合值y(理想環境)

(1)2021 年新疆城市市區設施水平中人均城市道路面積數據可以用反向帕累托分布近似擬合,擬合結果相對準確。

(2)在處理2021年新疆城市市區設施水平中人均城市道路面積數據時,發現在給定數據的情況下,得到的參數a的真值存在誤差,在后期數據擬合中,也驗證了數據中阿拉山口市與霍爾果斯市數據存在異常。在數據不變的條件下,通過Excel軟件的迭代修正參數a數值,并對修正后數據進行估計。對比參數λ真值,可以判斷當a=244 時,估計結果與真值相同,數據擬合最完美。同時確定當a∈[136,845]時,數據均方誤差MSE ≤0.3640,即在可偏差范圍內。

(3)在對參數a進行修正過程中發現,表中給定的數據中存在異常,但異常不是錯誤。根據對資料的查詢與研究,找到阿拉山口市與霍爾果斯市數據異常原因為:該地區人口數據變化幅度較大,即流動人口數較多,常住人口數量較少,人口流動性較強。同時也說明該地區城市公共資源開發力度較強,開發后使用程度較低等問題。

(4)對比全國人居城市道路面積數據可以判斷,以上城市中較多數城市數據高于全國標準數據17.36 m2.即說明新疆縣市級城市資源利用率較低,固定人口數較少,人口流動性較強。

8 總結

文章對Mlinex 損失函數下反向帕累托分布形狀參數估計進行充分討論,對比了頻率學派的極大似然估計與貝葉斯學派的最大后驗估計兩大經典估計方法,兩者的估計結果在數值上較為相似。結合兩者在處理問題上的出發點不同,所以應用也各不相同。同時文章也在Bayes 理論下,對相應參數進行了近似Bayes 估計與經典Bayes 估計的對比,給定了形狀參數在估計時的參數最優環境,并通過數值模擬得到在Bayes 理論下,處理相應估計問題的最優估計,即E-Bayes估計是最優估計方法。最后利用最優估計方法,對《2021年新疆統計年鑒11-2 各城市市區設施水平》中人均城市道路面積的數據進行參數擬合,確定了新疆縣市級城市的人均城市道路面積可以利用反向帕累托分布擬合,并結合最終數據給出了相應的數據分析。

猜你喜歡
帕累托后驗先驗
成都經濟區極端降水廣義帕累托分布模型研究
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
貝葉斯統計中單參數后驗分布的精確計算方法
審判工作量何以最優:民事審判單元的“帕累托效率”——以C市基層法院為例
基于自適應塊組割先驗的噪聲圖像超分辨率重建
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
帕累托最優
基于平滑先驗法的被動聲信號趨勢項消除
先驗的廢話與功能的進路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合