右刪失數據下OLLMON分布的估計研究

2023-10-20 15:01王淑影程云飛羅琳燕

長春工業大學學報 2023年3期

王淑影, 李洋, 程云飛, 羅琳燕

(長春工業大學數學與統計學院, 吉林長春 130012)

0 引言

隨著社會的發展,刪失數據逐漸出現在各個領域且成為研究熱點,其中右刪失數據的模型估計問題備受關注。OLLMON分布與傳統的分布函數相比,具有適用范圍更為廣泛、靈活度更強等優點。

有關壽命數據的統計分析已經發展成為生物醫學界的一個重要分支,壽命數據是指各種與時間有關的數據,譬如個體的存活時間、失效時間等。壽命數據一般包括兩部分:一是完全數據,即實驗個體的生存時間能全部準確觀測到的數據;二是刪失數據,由于經費和時間等客觀條件的限制,獲得的不完全數據。

在生存數據分析中,為壽命數據找到合適的生存分布,使得數據與分布函數較好擬合是十分重要的。由于基礎理論的不斷發展和實踐的需求,出現了指數分布、威布爾分布、伽馬分布等多種參數壽命模型,然而在用這些經典分布對真實生存數據進行建模時,其效果并不令人滿意。為了使模型可以更好地擬合實際數據,學者們嘗試在原有的模型中添加新的參數或加入拓展項得到新的模型。Marshall A W等[1]、顏榮芳等[2]、 Gui W H[3]、Braga A S等[4]、Cruz J N D等[5]、李群等[6]、Alizadeh M等[7]、Vasconcelos J C S等[8]將提出的新模型運用到一般數據下,并進行參數推斷。隨著這些新模型在完全數據下的研究逐漸成熟,Ghitany M E等[9]、Ghitany M E等[10]、Kumar S S等[11]、Calabrese R等[12]、Ke W等[13]開始考慮將這些模型引入到刪失數據中。

根據國內外文獻綜述可以看出,近年來,有大量學者都投入到刪失數據下擴展分布的研究中,所以文中探究右刪失數據下OLLMON (Odd Log-logistic Marshall-Olkin Normal)分布的相關統計特性是有價值的。OLLMON分布是Vasconcelos J C S[14]在Marshall-Olkin分布與Odd Log-logistic分布基礎上拓展出來的新模型,其具有雙峰性和非對稱性,相較于正態分布、Odd Log-logistic分布與 Marshall-Olkin Normal分布,OLLMON分布更為靈活。OLLMON分布在完整數據下的相關研究已較為成熟,但是刪失數據下OLLMON分布的相關研究較少,故文中的探究具有一定的研究意義。

文中針對右刪失數據構建了基于OLLMON分布的參數模型,使用極大似然方法給出感興趣參數θ的估計。并進行了大量數值模擬研究,最后對NCCTG肺癌數據集進行了實例數據分析。

1 右刪失數據下OLLMON分布的極大似然估計

對于某感興趣事件,其生存時間記為Xi(i=1,2,…,n),刪失時間為Ci,當Xi≤Ci時,得到精確觀測值Xi,當Xi>Ci時,得不到精確觀測,則認為變量在Ci處發生了右刪失。故在右刪失情況下得到實際的觀測樣本為(Ti,δi),其中

Ti=min(Xi,Ci),

δi=I,Xi≤Ci。

設總體Xi服從參數為μ,σ,ν,τ的OLLMON分布,則其概率密度函數為

{Φ(z)τ+ν[1-Φ(z)]τ}-2,

μ,σ----N(μ,σ2)分布參數;

ν,τ----形狀參數,ν>0,τ>0;

Φ(·)----標準正態分布函數。

其分布函數與生存函數為:

當ν>0且τ=1時,即得Marshall-Olkin Normal分布;當τ>0且ν=1時,即得Odd Log-logistic Normal分布;當ν=τ=1時,得到N(μ,σ2)分布。

得到右刪失數據下的似然函數為

其對數似然函數為

(τ-1)lnΦ(zi)+(τ-1)ln[1-Φ(zi)]-

對上述對數似然函數關于參數μ,σ,ν,τ求一階偏導數,并令其等于0,得到似然方程,似然方程的解可作為μ,σ,ν,τ的極大似然估計。文中借助R語言stats包中的optim函數得出參數的極大似然估計值。在進行理論標準差求解時,需求出協方差矩陣的估計,文中采用Bootstrap方法,令θ=(μ,σ,ν,τ),首先生成服從OLLMON分布的右刪失數據集O,設B是提前設定好的正整數,對于每一個b=1,2,…,B,從刪失數據中重復抽樣得到B個獨立的Bootstrap樣本

記

2 數值模擬

為驗證分布模型的參數估計效果,采用蒙特卡洛方法進行數值模擬。具體步驟為:

首先,生成n個服從于均勻分布U(0,1)的簡單隨機樣本{Y1,Y2,…,Yn},那么Xi=F-1(Yi),i=1,2,…,n便是服從于OLLMON分布的獨立同分布樣本;對生存數據進行排序得到X(1),…,X(i),…,X(n),基于刪失比Cr確定刪失時間點X(m),繼而生成n個服從于均勻分布U(X(m)+ε1,X(m)+ε2)的簡單隨機樣本Ci,其中,ε1、ε2均表示任意大于零的極小數,且ε1>ε2,根據Ti=min(Xi,Ci)得到觀測變量Ti;定義當Xi≤Ci時,δi=1,當Xi>Ci時,δi=0,這樣就產生了n個服從OLLMON分布的右刪失數據(Ti,δi)。

將上面步驟重復1 000次,可得到1 000個右刪失機制下服從OLLMON分布的樣本。將其代入極大似然估計的算法公式,可得到參數的估計值,繼而得到偏差(Bias)、理論標準差(ESE)與均方根誤差(RMSE)?；跇颖玖繛?00和400,μ,σ,ν,τ取不同真值組合所得,模擬結果分別見表1和表2。

表1 參數估計的Bias、ESE及RMSE (Cr=30%)

表2 參數估計的Bias、ESE及RMSE (Cr=50%)

表1和表2分別給出刪失比例Cr為30%和50%時,不同參數組合的模擬結果。從結果可以看出,模擬的參數估計值相較于真值偏差較小,參數的均方根誤差趨近于理論標準差,且隨著樣本數量從200增加到400,估計的偏差和標準差等都一致地顯著減小,在一定程度上表明了參數估計量具有相合性。

對比表1和表2可以看出,隨著刪失比的改變,表2所展示的估計結果相較于表1有些許的波動,出現這種情況的原因是刪失數據包含的信息量發生了變化。

3 實例分析

文中將所提方法運用到R語言survival包中的NCCTG肺癌數據集中,此數據集是美國癌癥治療團隊NCCTG發布的一則肺癌統計數據報告,其中記錄了228例晚期肺癌患者的各項數據,其中包括性別、年齡和各項身體狀況表現得分等。

基于OLLMON模型的極大似然估計擬合得到模型的參數估計,同時也展示了MON分布與OLLN分布兩種特殊情況的參數估計值,具體見表3。

表3 OLLMON、MON與OLLN分布的參數估計結果和相應的標準差與95%置信區間

由上述結果可以看出,OLLMON分布的參數估計值分別為

對于MON分布,參數ν存在不顯著現象,對于OLLN分布,參數τ存在不顯著現象。而且相較于MON分布、OLLN分布與更加特殊的正態分布,OLLMON分布的適用范圍更為廣泛,靈活度更強,具有更好的建模能力。此外,表3還展示了估計值的標準差與95%置信區間,根據展示結果可以看出,參數估計結果較為理想。

基于估計結果得到的分布函數和生存函數圖如圖1所示。

(a) OLLMON分布

圖1分別展示了基于估計結果得到的OLLMON分布、MON分布與OLLN分布的分布函數與生存函數圖,生存函數均呈單調遞減趨勢,與理論相符。對于OLLMON分布,當x=2.5左右時,風險變小,下降速度減慢,因此,臨床試驗中可以考慮在此處實施某些治療方案,從而延長患者壽命,而對于MON分布和OLLN分布,可以分別在x=3.0和x=3.5左右時實施某些治療方案。

4 結語

OLLMON分布是一個新的擴展生存分布,與正態分布、OLLN分布、MON分布相比更為靈活。文中針對右刪失數據,構建了基于OLLMON分布的參數模型,并使用極大似然方法給出感興趣參數的估計。為驗證所提模型及方法的有效性,進行了大量數值模擬研究,結果表明,參數估計效果較好。最后對NCCTG肺癌數據集進行實例數據分析,給出估計值及相應的標準差和95%置信區間,結果表明,OLLMON分布具有良好的應用性和有效性。

文中還存在很多方面的擴展研究,首先,僅討論了右刪失數據下OLLMON分布的參數估計,在之后的研究中,可將此分布拓展到其他刪失機制下;其次,在文中分布的基礎上,還可以進行更多拓展,如引入協變量或轉化為半參數分布模型等;最后,對于參數估計方法的選擇也可以進一步研究。