?

基于自適應稀疏監督典型相關分析的特征選擇

2022-06-24 10:02王凱明魯伊莎肖玉柱宋學力
計算機應用與軟件 2022年4期
關鍵詞:協方差特征選擇典型

王凱明 魯伊莎 肖玉柱 宋學力

(長安大學理學院 陜西 西安 710064)

0 引 言

隨著智能傳感器技術和數據存儲技術的不斷進步,高維數據的生成數量和速度呈指數爆發式的增長。在數據驅動建模問題中,這些高維數據不僅會消耗更多的計算時間,占用更多的存儲資源,甚至會降低模型學習的性能,而且還會引發后續建模任務的過擬合現象甚至“維數災難”[1]。為了解決這些問題,同時提升數據的可解釋性,需要從高維數據中按照某種數據挖掘方法或者統計規則選擇使特定模型目標達到最優且維度較低的特征子集,這就是特征選擇問題[2-5]。

稀疏典型相關分析[6-7](Sparse Canonical Correlation Analysis, SCCA)是一種多元統計方法,其目標是求得一對稀疏的基向量,使得兩模態數據集在這對基向量上的投影之間相關性最大。然而在一些實際應用領域中,隨著信息采集技術的發展,在得到某些樣本數據集的同時,也易獲得樣本的某種監督數據或可以看作監督數據的數據。但傳統的SCCA模型是無監督的,不能充分利用這些數據的監督信息,造成信息損失?,F有的大多數有監督特征選擇方法一般應用類標簽作為監督數據,如Witten等[6]通過引入類標簽提出了一種基于類標簽的稀疏監督的典型相關分析模型。事實上,除了類標簽,還有其他類型的監督數據,如樣本的某種量化結果數據(即樣本某個指標的定量結果),它也可作為樣本的監督數據。與類標簽監督數據相比,樣本的某種量化結果數據的引入有利于模型選擇出與量化結果相關的特征子集?;诖?,Witten等[6]通過引入樣本某量化結果的數據作為監督數據提出了稀疏監督的典型相關分析(Sparse supervised Canonical Correlation Analysis, Sparse sCCA)模型。該模型利用了樣本量化結果的數據,但是在求解優化問題的過程中為了提高計算效率,克服高維矩陣可能不可逆等缺陷,用對角矩陣甚至是單位矩陣替代目標函數中典型變量方差的約束條件,使模型的目標從相關系數組合簡化為協方差組合,然而兩兩典型變量的相關系數由于方差的差異可能導致目標協方差在尺度上相差很大。當某對典型變量的協方差較大時,其相關性可能會被過度加權。同時,值得注意的是,這樣的Sparse sCCA模型是通過求解一個約束優化問題實現的。眾所周知,待定參數問題是約束優化問題中的公開難題,而k折交叉驗證方法是確定待定參數現有的常用方法。如果Sparse sCCA模型的最優參數是通過k折交叉驗證方法確定的,這種過度加權將表現得更明顯。因為k折交叉驗證傾向于分配更大的權重給協方差較大的典型相關變量對,所以當典型變量兩兩高度相關而協方差較小時,數據的特征選擇結果將產生較大的偏差。究其本質原因,這種協方差尺度的差異是由多模態數據的異質性構成的,而且數據集的異質性越大,利用Sparse sCCA模型進行特征選擇時所得結果的偏差越嚴重。因此,如何減少甚至是消除這種偏差,以較大相關性實現更優的特征選擇具有重要的現實意義。為實現這種更優意義下的特征選擇,如何解決優化問題的求解難度和待定參數的不平衡性,是改進Sparse sCCA模型需要解決的關鍵問題。文獻[8]采用動態權重方法來提高最小二乘算法的性能,文獻[9]提出了三模態數據的自適應稀疏典型相關分析模型,受此啟發,本文在Sparse sCCA模型的基礎上,采用自適應動態加權優化,建立自適應稀疏監督典型相關分析模型,以實現特征選擇。

本文主要的研究思路包括有:① 引入一組新的自適應動態權重系數,提出基于自適應稀疏監督典型相關分析的特征選擇模型;② 從應用的角度而言,本文模型能在最大相關性目標下更準確地選擇出與樣本某種指標相關的特征子集,所以適用于具有量化結果指標的樣本數據集,同時對特征查準要求較高的實際問題,如某些腫瘤疾病的特征選擇問題。

1 方 法

1.1 稀疏監督的典型相關分析

設X∈Rn×p、Y∈Rn×q為同一樣本的兩模態標準化數據集,z∈Rn×1為樣本某種量化結果,可作為監督數據,n為樣本容量,p、q為樣本的特征維數。稀疏監督典型相關分析模型如下:

(1)

s.t.uTXTXu≤1,vTYTYv≤1,P1(u)≤c1,P2(v)≤c2

式中:P1(u)和P2(v)是凸的懲罰函數(如l1懲罰);c1和c2是控制典型向量u=(u1,u2,…,up)T∈Rp和v=(v1,v2,…,vq)T∈Rq稀疏程度的可調參數。該模型旨在尋找稀疏的典型向量對(u,v),使數據的典型相關變量(Xu,Yv)具有最大的相關性。

在求解式(1)時,一般需要求解矩陣XTX,YTY的逆,然而在高維數據集中,XTX,YTY常常是奇異的。為了避免這一問題,一般把約束條件uTXTXu≤1、vTYTYv≤1簡化為uTu≤1、vTv≤1[10],這時目標函數由最大相關系數組合犧牲為最大的協方差組合。對于兩模態的數據集,這樣處理也能產生一個相對較好的結果,并且減少了計算量,通常認為這種犧牲是可以被接受的。但是稀疏監督典型相關分析模型中引進了樣本某種量化結果的監督數據,原有的協方差改進為兩模態數據與監督數據的兩兩協方差組合,這樣的處理將造成特征選擇的嚴重偏差。

為了說明典型向量對典型變量的相關系數與協方差比值的影響程度,我們以一組經過標準化的樣本數據集X∈Rn×p、Y∈Rn×q和樣本的某種量化結果的監督數據z∈Rn×1(標準化處理)為例,比較它們的相關系數與協方差比值。為體現一般性,任意給出10組不同的單位典型向量(u,v),以此得到變量對(Xu,Yv)、(Xu,z)、(Yv,z)在10組(u,v)下的相關系數與協方差比值情況(如圖1所示)。

圖1 相關系數與協方差比值對比圖

圖1中,三對典型變量(Xu,Yv)、(Xu,z)、(Yv,z)的相關系數與協方差比值在每組典型向量對(u,v)下差異很大。其中(Xu,Yv)的比值接近1,表明對于兩模態數據集,SCCA模型中以協方差代替相關系數作為優化目標具有一定的合理性。然而(Xu,z)、(Yv,z)比值與(Xu,Yv)的比值差異較大,這種差異的大小說明了用最大協方差代替最大相關系數時,協方差對的固定權重會導致相關性占比的分配不公平現象,且這種不公平的嚴重程度依賴于典型變量的相關系數與協方差比值。另一方面,值得注意的是,典型向量對典型變量的相關系數與協方差的比值影響是隨機的,不可預測的。在實際應用中,噪聲的大小,數據服從的分布以及數據采集設備的精確度等都有可能影響典型變量相關系數與協方差的比值。因此,固定權重的Sparse sCCA模型不能解決該不平衡性問題,需要在傳統的Sparse sCCA模型中引入可以減弱這種偏差帶來的不平衡性的自適應權重,動態調節各對典型變量協方差使其達到最優占比。

1.2 ASSCCA模型

本節在Sparse sCCA模型中引入一組自適應權重系數,使其動態調整每對典型變量的“最大協方差”,直至目標函數無限逼近最大的相關系數,建立新特征選擇模型如下:

(2)

s.t. ‖u‖2=1,‖v‖2=1,‖u‖1≤c1,‖v‖1≤c2

該模型旨在減少由協方差組合代替相關系數組合所產生的偏差來提高特征選擇的準確率。以下稱之為自適應稀疏監督典型相關分析(Adaptive Sparse Supervised Canonical Correlation Analysis, ASSCCA)模型。

1.3 ASSCCA模型的求解

為求解方便,將式(2)的約束優化問題等價轉化為:

λu‖u‖1+λv‖v‖1

(3)

s.t. ‖u‖2=1,‖v‖2=1

式中:λu和λv為大于零的數,分別控制u和v的稀疏程度。

為求解式(3)中的典型向量u、v,使用軟閾值方法。根據文獻[11],引入如下引理。

引理1考慮以下優化問題:

(4)

S(a,Δ)=sgn(a)(|a|-Δ)+=

sgn(a)max(|a|-Δ,0)=

(5)

采用塊坐標下降法[12],結合引理1,式(3)的求解迭代過程如下:

(1) 固定v,解u。

(6)

(7) (2) 固定u,解v。

(8)

(9)

根據模型的求解過程,ASSCCA算法流程如算法1所示。

算法1ASSCCA算法

輸入: 標準化之后的數據X∈Rn×p,Y∈Rn×q,z∈Rn×1,可調參數λ1,λ2

輸出: 典型變量u和v

(1) 初始值t=0,ut∈Rp×1,vt∈Rq×1;

(2)While(算法終止條件不滿足)do

(4) 固定vt,解ut+1;

(5)ut+1←argmaxut+1Γ12XTYvt+Γ13XTz滿足‖ut+1‖2≤1,P1(ut+1)≤λu;

(6) 固定ut+1,解vt+1;

(7)vt+1←argmaxvt+1Γ12YTXut+1+Γ23YTz滿足‖vt+1‖2≤1,P2(vt+1)≤λv;

(8)t=t+1;

(9) end while

(10) 返回典型變量u和v的值

整個算法的關鍵是如何求解典型向量u和v,對應的關鍵步驟是式(7)和式(9)。此處由ASSCCA算法的步驟(4)、步驟(5)可知,首先固定v來求解u,再用得到的u來求解v(步驟(6)、步驟(7)),反復迭代直到算法收斂。使算法終止的條件為:

(10)

經過多次實驗,此處設置ξ=10-5最為合適。

2 仿真實驗

為了驗證本文模型算法的可實現性,以及引入自適應權重系數能否有效地提高特征選擇的準確率,本節使用一組模擬數據,針對不同的參數進行多次實驗,并將實驗結果與Sparse sCCA模型進行對比。

2.1 仿真數據的產生

數值仿真中X(n×p)和Y(n×q)是來自共同的n個樣本的不同模態的數據,z(n×1)為樣本對應的某種量化結果的監督數據,其中n=200是樣本個數,p和q分別為X和Y數據的特征維數。參考文獻[14]中潛變量被用于模擬數據集之間相關性的構造方法,模擬數據生成過程如下:① 生成兩個服從高斯分布的獨立的潛變量μ1∈R200×1和μ2∈R200×1。② 通過潛變量μ1和μ2、稀疏向量αi∈R1×500,i=1,2,3,4,使X的前200個特征與Y的前200個特征典型相關,而通過潛變量μ1,使X和Y僅有前100個特征與樣本的某種量化結果z典型相關,第101至200個特征與樣本的某種量化結果z不存在典型相關關系。同時為了檢驗模型的魯棒性,將高斯噪聲E1、E2、e分別引入到X、Y和z數據集中,產生的模擬數據如下:

X=μ1α1+μ2α2+E1

Y=μ1α3+μ2α4+E2

z=μ1+e

式中:每一個向量αi(i=1,2,3,4)有100個非零項,且αi非零項~U(0.4,0.6),其中α1和α3的非零項位于前100項,α2和α4的非零項位于第101到第200項,E1∈R200×500、E2∈R200×500和e∈R200×1分別表示X、Y和z的噪聲數據集,且都為高斯噪聲。

2.2 參數選擇與特征選擇

參數的選擇與一個優秀的模型和有效的算法同樣重要。本文有Λ12、Λ13、Λ23、λ1、λ2共五個參數,其中Λ12、Λ13、Λ23對應的值隨著典型變量u和v的變化而變化,所以設置一組u和v的初值,相應Λ12、Λ13、Λ23的初值也隨之確定,并且隨著算法的迭代其值也更新,因此本文只剩參數λ1和λ2需要調整。徐宗本等[15]指出可參考解的稀疏程度進行參數選擇,所以根據需要保留的特征數量指導參數λ1、λ2的選取,避免了盲目選擇參數的缺陷。實驗采用5折交叉驗證方法來產生所有的最優參數。將所有的樣本隨機平均分為5份,選擇每一份樣本輪流作為測試集,剩余4份作為訓練集,用訓練集擬合模型,用測試集來驗證模型的偏差,循環5次,直到5份數據全被依次選擇作為測試集為止。在此過程中對每一組給定的參數進行k(k=5)次實驗,并且在ASSCCA模型達到最大值的情況下,選擇使式(11)取得最小值時的一組參數作為最優參數。

(11)

式中:corr表示Pearson相關系數;corrtrain表示訓練集上的典型相關系數;corrtest表示測試集上的典型相關系數。

在確定稀疏參數后,使用穩定性選擇方法[16]來選擇穩定的特征子集。對整個樣本集重復執行bootstrapping(重采樣方法)200次,從而生成200個新的樣本集。然后在每個新樣本集上執行ASSCCA,并獲得200個不同的典型向量。根據這200個典型向量中候選特征子集出現的頻率高低來使用頻率截斷,選擇頻率高的特征子集作為最終的最優子集。

2.3 結果分析

本文用模擬數據集進行多次實驗,選擇了一組最優的特征子集,并從特征選擇的準確性和所求典型相關系數的大小兩個指標來對比本文模型與Sparse sCCA模型的性能。

(1) 模擬數據特征選擇的可視化對比如圖2-圖7所示,每幅圖的橫軸代表數據集的特征索引,縱軸代表u和v的值,即特征的權值系數,權值越大,表示該特征越重要。圖2和圖5分別給出了仿真生成的典型向量u和v的真實值。圖3和圖6分別給出了sparse sCCA特征選擇模型得到的u和v,圖4和圖7分別給出了ASSCCA特征選擇模型得到的u和v。

圖2 典型向量u的真實值

圖3 sparse sCCA模型u的估計值

圖4 ASSCCA模型u的估計值

圖5 典型向量v的真實值

圖6 Sparse sCCA模型v的估計值

圖7 ASSCCA模型v的估計值

從圖3、圖4與圖2的對比中可以清晰地看到固定權重系數的Sparse sCCA模型所得到的u選擇出了與樣本某種量化結果數據z相關的前100個特征,但同時也引入了許多冗余特征,造成了樣本某種量化結果數據z與數據集X和Y相關性的特征子集選擇的偏差;而本文的模型ASSCCA減小了Sparse sCCA模型選擇特征子集時引入的偏差,選擇出了數據集X和Y特定于某種量化結果數據z的特征子集,所得的u較準確地反映了某種量化結果數據z與數據集X和Y之間相關性的特征子集,特征選擇更優,有助于更好地理解和解釋與樣本某種量化結果數據有關的特征子集所提供的重要信息。對比圖6、圖7與圖5,典型向量v也有類似的實驗結果。該仿真實驗結果表明自適應權重的引入對于研究樣本某一量化結果與數據集相關性的特征選擇問題有很大的優勢。

(2) 模擬數據的典型變量Xu和Yv真實相關系數和Sparse sCCA與ASSCCA模型對應的目標函數滿足最大值時的典型變量Xu和Yv的相關系數(見表2)。

表2 Sparse sCCA和ASSCCA模型相關系數對比

其中rr表示典型相關系數。表2中的數值表示五折交叉驗證后的相關系數平均值±標準差。

從表2中可以看出,與模型Sparse sCCA相比,ASSCCA得到的相關系數不僅在訓練集上取得最優,而且在測試集中也取得最優,并且相應的標準差更小,即結果更穩定。這說明ASSCCA模型更魯棒,泛化能力更強(其中粗體的值為最優)。

綜合以上與Sparse sCCA模型的對比分析,本文的模型不僅充分利用了樣本某種量化結果的監督數據,而且引入了一組新的自適應權重系數,該系數不僅有助于重新調整目標函數協方差對的值,使模型減小了用協方差代替相關系數對特征選擇產生的偏差,而且在組合相關系數較大的條件下有效提高了特征選擇的準確率。

3 結 語

本文在Sparse sCCA模型的基礎上,引入了一組自適應權重系數,提出了一種新的自適應稀疏監督典型相關分析(ASSCCA)的特征選擇模型。在模擬數據集上的仿真實驗表明,與其他模型相比,本文的ASSCCA模型以較大的組合相關性實現了特征選擇,在與監督數據較高的相關性意義下提高了特征選擇的準確率。適用于已知某些監督數據信息的腫瘤疾病等的特征選擇問題。

在未來的研究中,將考慮構建一種將數據集與其他類型的監督數據進行聯合關聯、回歸等多任務統一的模型,使模型既能揭示數據集之間的關聯性又能實現關于某種監督數據的預測。

猜你喜歡
協方差特征選擇典型
《圓》典型易錯題
40年,我們宣傳推介的典型經驗
概率論中有關協方差計算的教學探討
基于智能優化算法選擇特征的網絡入侵檢測
故障診斷中的數據建模與特征選擇
二維隨機變量邊緣分布函數的教學探索
reliefF算法在數據發布隱私保護中的應用研究
一種多特征融合的中文微博評價對象提取方法
幾類典型題的解題技巧
基于關節信息和極限學習機的人體動作識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合