?

基于最小距離法的穩健群組變量選擇

2024-01-22 08:09梅,秋,
大連理工大學學報 2024年1期
關鍵詞:群組參數估計組內

李 冬 梅, 王 明 秋, 王 秀 麗

(曲阜師范大學 統計與數據科學學院, 山東 曲阜 273165 )

0 引 言

近年來,變量選擇問題逐漸成為統計學熱點研究問題之一,隨著數據采集能力的提高,人們所能收集到的變量數量越來越多,但是其中有很多變量可能是不重要的,且變量數量的增加會造成計算成本增大、最優化難以實現等問題,因此變量選擇在數據分析中起著至關重要的作用.有效的變量選擇不僅可以給出簡潔易懂的模型,而且可以提高模型的可解釋性和預測效果.變量選擇的概念最初出現在20世紀60年代,一開始是通過子集選擇法進行變量選擇,主要有最優子集法和逐步法等,這些方法具有很強的實用性,但是也具有一些局限性,例如Fan等[1]指出最優子集法將參數估計與變量選擇分開,因此參數估計會額外受到變量選擇過程中帶來的隨機誤差影響.目前廣受歡迎的一類方法是基于懲罰函數的變量選擇法,最早是Breiman[2]提出的nonnegative garrote(NNG)方法,之后Tibshirani[3]提出了可以同時進行參數估計和變量選擇的Lasso方法,后來學者們又相繼對Lasso方法進行改進,提出了多種單變量選擇方法,如MCP方法[4]、Bridge方法[5]等.從Lasso懲罰函數開始,研究傾向于關注可微的損失函數和懲罰函數的特定組合,但這種特定組合大大增加了計算的復雜度,因此Liu等[6]利用Majorization-Minimization(MM)算法作為其核心優化引擎提出了一類通用算法,用于優化滿足一定條件的各種非光滑懲罰目標函數.

在實際應用中,解釋變量有時具有群組結構,例如考慮某個化學反應的反應速度這個多因子方差分析問題時,解釋變量中包含反應溫度、反應時間、催化劑種類,這3個解釋變量均呈現分組結構,因此在這種情形下進行變量選擇時,首先要能夠正確地選擇整組變量,特別地,在雙層變量選擇問題中合理的變量選擇方法要求在正確地選擇出整組變量的基礎上還能夠正確選擇單個變量.在研究群組變量選擇時,Zou等[7]提出了最早的具有群組變量選擇功能的Elastic Net(EN)方法,該方法的懲罰函數包括兩部分,其中嶺回歸部分可以處理具有多重共線性的數據,而Lasso部分可以進行變量選擇.有時可以知道解釋變量所具有的分組結構,Yuan等[8]最早提出了用于已知分組結構的Group Lasso方法,使用該方法選擇群組變量時具有全進全出的特點,即整組變量同時選入或剔除,而不能在組內選擇單個變量.但是在實際應用中,不僅要能選出重要群組變量而且需要進行組內單個變量的選擇,因此產生了雙層變量選擇方法.Huang等[9]最早提出了進行雙層變量選擇的Group Bridge方法,該方法的主要思想是在組內和組間均采用單個變量懲罰函數.之后,Breheny等[10]又提出了組內和組間懲罰都是MCP函數的Composite MCP方法.

異常值會引起較大的偏差,從而影響模型的擬合效果,且通常會使得參數估計變大,但是在使用logistic回歸模型的過程中發現極大似然估計(MLE)方法在解釋變量異常值存在的情況下會引起參數內爆,即參數向量收縮為零向量[11].于是在數據中存在異常值時,如果仍然使用極大似然估計方法進行參數估計,并基于Lasso方法[3]的懲罰函數進行變量選擇,那么一些非零參數向量收縮為零向量會導致一些重要變量被忽略,從而會降低變量選擇的準確率,進而降低模型的解釋性和預測效果.因此,針對logistic回歸模型的參數內爆現象,應該研究穩健的參數估計并進行群組變量選擇和雙層變量選擇.針對異常值的問題,Basu等[12]提供了極大似然估計的一個穩健擴展,他們提出了一種最小散度估計方法來進行穩健的參數估計.而基于最小距離法的L2距離之前被用于解決分類問題,Kim等[13]使用L2距離來進行分類,他們對L2距離的應用主要是與非參數密度估計有關,而不是考慮穩定地擬合參數模型.Chi等[14]基于最小距離法研究了解釋變量中存在異常值時logistic回歸模型的變量選擇方法,然而他們沒有將該方法推廣到自然群組變量選擇和雙層變量選擇問題中,而且,目前還沒有關于群組結構的logistic回歸模型下基于最小距離法實現穩健群組變量選擇的研究,這正是本文所做的工作.

1 模型與方法

1.1 Logistic回歸模型

假設響應變量Y是0-1型隨機變量,記Y的取值集合為χ={0,1}.現有n個獨立同分布的觀測樣本(xi1,…,xid;yi)(i=1,…,n),則logistic回歸模型可以表示為

(1)

通常使用極大似然估計方法對logistic回歸模型進行參數估計,由yi~B(1,pi)易知y1,…,yn的似然函數為

(2)

其負對數似然函數為

(3)

1.2 基于最小距離法的穩健參數估計

假設Pθ是隨機變量Y的含有未知參數的概率質量函數,其中未知參數θ∈Θ,記Θ為參數空間,而真實的概率質量函數是P.假如P已知,那么一個直觀的參數估計方法就是去尋找使得Pθ最接近P的參數.根據這個想法,可以考慮Pθ與P之間的L2距離,通過最小化該距離來得到上述logistic回歸模型的參數估計.

(4)

(5)

(6)

1.3 算 法

尋找上述logistic回歸模型的L2估計量問題可以歸結為求解一個目標函數最小值問題.由于MM算法在數值上表現穩定、易于操作并且也可以用來處理基于Lasso的懲罰函數,因此本文使用MM算法來求解這個最小化問題.但是MM算法不直接對目標函數進行最優化求解,而是尋找目標函數的近似替代函數,對這個替代函數進行迭代優化.每迭代一次,就尋找一個目標函數的上界函數,然后求這個上界函數的最小值,如此一來就可以將一個比較難的優化問題轉化為一系列較為簡單的優化問題.

(7)

(8)

則可推出(Mθ*)ii≤η,從而有

(9)

(10)

因此,目標函數LL2E的近似替代函數為

(11)

可以寫成

(12)

(13)

綜上所述,最小化LL2E的MM算法可以寫成如下步驟:

(2)利用下列迭代公式更新估計值:

(14)

(3)重復(2),迭代直至收斂,算法收斂性的證明詳見文獻[14].

2 基于懲罰函數的變量選擇方法

(15)

基于懲罰函數的群組變量選擇方法主要是先通過加入懲罰函數對模型的整組參數β(j)進行約束,在這種約束性質下往往會產生一些恰好為零的系數;之后在約束條件下最小化損失函數,從而同時實現參數估計和群組變量選擇.群組變量選擇方法的目標函數一般可以表示為

(16)

式中:LL2E(β)為損失函數,Pλ(β(j))為懲罰函數,λ>0為調整參數.

僅能選擇群組變量的懲罰函數可以表示為組間懲罰Po和組內懲罰Pi的復合函數:

(17)

其中組內懲罰Pi只作用在組內參數上,不具有變量選擇功能.

本文主要使用以下3種僅能選擇群組變量的懲罰函數:

(1)Group Lasso方法(GLasso)[8]

(18)

(2)Group MCP方法(GMCP)[15]

(19)

(3)Group SCAD方法(GSCAD)[16]

(20)

其中γ>2,

(21)

雙層變量選擇方法不僅能進行群組變量選擇,而且能對組內變量進行單個變量選擇,其懲罰函數可以表示為組間懲罰Po和組內懲罰Pi的復合函數,則第j組變量的復合懲罰函數可以表示為

本文主要使用如下3種雙層變量選擇方法的懲罰函數:

(1)Group Exponential Lasso方法(GEL)[17]

(22)

(2)復合MCP方法(CMCP)[10]

(23)

(3)Group Bridge方法(GBridge)[9]

(24)

3 數值模擬

為了較全面地通過數值模擬來檢驗L2E方法的有限樣本表現,設計了兩種不同類型的變量選擇問題且同時考慮兩種變量維數(p),結合上文中介紹的6種變量選擇方法進行模擬,該模擬試驗借助R語言的grpreg數據包實現.

懲罰函數中調整參數λ的選取對模型求解至關重要.先計算最大值λmax,然后設定最小值λmin為λmax的很小比例,如λmin=0.01λmax.本文利用訓練集建立模型,然后利用驗證集選取最優的λ.訓練集中樣本量為205,驗證集中樣本量為1 005,模擬重復1 000次.

例1考慮僅具有組稀疏的變量選擇問題并且考慮兩種變量維數d=20,40.數據生成過程為

yi~B(1,pi)

例2考慮具有雙層稀疏的變量選擇問題并且考慮兩種變量維數d=30,60.數據的產生方式與例1類似,但每組大小為3.回歸系數的真實值為

表1 例1的模擬結果

首先通過比較表1和表2中的L2E與MLE方法可以看出:(1)L2E方法總體上優于MLE方法,且不論變量維數為多少,MLE方法所得到的Fn都很大,這驗證了在logistic回歸模型中當解釋變量存在異常值時,MLE方法確實容易把非零參數估計為零.(2)L2E方法比MLE方法選出正確模型的頻率更高,且在該數值模擬中采用MLE方法時選出正確模型的頻率均為零,因此在多次進行模擬試驗中,使用L2E方法更有可能選出正確模型.綜合來看,當logistic回歸模型中解釋變量存在異常值時,采用L2E方法更為合理,該方法對解釋變量中的異常值穩健,減少了參數內爆對變量選擇帶來的影響,提高了變量選擇的性能,降低了參數估計的誤差.

然后,在采用L2E方法的條件下比較6種懲罰函數,可以得出:(1)根據表1和表2可知,GLasso方法的優點是能夠正確選擇出大部分重要變量,但同時會將不重要變量錯選為重要變量,因此容易造成模型的過擬合,于是為了模型的簡潔不應該優先選擇GLasso方法.(2)根據表1可知,在組內不存在稀疏性,解釋變量數量變化時,其余5種方法的衡量指標不相上下.根據表2的結果可知,在組內和組間均存在稀疏性時,使用雙層變量選擇的方法與使用僅選擇群組變量的方法所得到的6個衡量指標差別也不是很大,這可能是因為重要變量的數量和群組規模比較?。C合比較表1和表2的結果可知,GBridge方法更勝一籌.綜上所述,應該優先選擇L2E結合GBridge方法所得到的目標函數進行穩健群組變量選擇.

表2 例2的模擬結果

4 結 語

本文主要圍繞logistic回歸模型中解釋變量存在異常值時的群組變量選擇問題進行研究,首先基于最小距離法介紹了具有穩健性的L2E方法,當解釋變量中存在異常值時,該方法能夠減少回歸系數縮減為零帶來的對變量選擇的影響;之后,利用MM算法得到了L2E的迭代公式;最后,通過數值模擬比較了基于L2E方法和MLE方法在模型具有組稀疏和雙層稀疏的情況下,6種變量選擇方法在不同維數下的有限樣本表現,結果不僅驗證了本文L2E方法的合理性,即在logistic回歸模型中當解釋變量存在異常值時L2E方法具有穩健性,而且指出了在這6種懲罰函數方法中使用Group Bridge方法進行變量選擇的準確度更高.

猜你喜歡
群組參數估計組內
基于新型DFrFT的LFM信號參數估計算法
用心說題 提高效率 培養能力
關系圖特征在敏感群組挖掘中的應用研究
Logistic回歸模型的幾乎無偏兩參數估計
基于向前方程的平穩分布參數估計
基于競爭失效數據的Lindley分布參數估計
基于統計模型的空間群組目標空間位置計算研究
合作學習組內交流討論時間的遵循原則
合作學習“組內交流討論時間”注意問題
合作學習組內交流討論時間探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合