?

局部系數增強判別協同表示分類法

2023-06-13 14:03簡彩仁夏靖波
關鍵詞:正則類別準確率

簡彩仁,夏靖波

(廈門大學嘉庚學院,福建 漳州 363105)

模式分類是機器學習的重要研究方向,許多分類方法,比如支持向量機、隨機森林等需要訓練分類器,在追求準確率的同時容易產生過擬合問題[1].基于表示理論的分類方法利用表示系數和最小誤差準則[2]對測試樣本進行分類,而不需要訓練分類器,可以避免過擬合等問題,因此基于表示理論的分類方法得到了研究學者的青睞.基于表示理論的分類方法的關鍵在于求解表示系數.它的典型代表是Wright等[2]提出的稀疏表示分類法(SRC)和Zhang等[3]提出的協同表示分類法(CRC).SRC利用稀疏表示重構測試樣本得到表示系數,而CRC利用嶺回歸模型求解表示系數,因此,CRC也稱為最小二乘回歸分類法(LSRC)[4].Xu等[5]利用人臉的軸對稱性質對人臉圖像進行修正,提高了SRC的人臉識別準確率.Xu等[6]提出兩階段人臉圖像分類方法,利用選取近鄰樣本達到稀疏的目的,再利用CRC實現人臉圖像分類.文獻[3,7]對比了SRC和CRC兩種方法構造的正則項對分類的影響.因為CRC可以得到解析解,計算簡單并且可以得到理想的分類準確率,因此不同的學者提出了許多基于CRC的擴展模型[8-12].鑒于CRC求解表示系數的時候并沒有考慮類別信息,而類別信息對于提高分類準確率具有重要意義,因此利用類別信息求解表示系數是對CRC的一種改進.概率協同表示分類法(ProCRC)[10]利用協同子空間的概率改進CRC,充分利用類別信息提高分類準確率.判別稀疏表示分類法(DSRC)[11]引入判別信息項進行改進,求解具有降低類間相關性、增強類內相關性的表示系數.判別協同表示分類法(DCRC)[12]整合ProCRC和DSRC的判別信息項,對CRC進行改進.

ProCRC、DSRC和DCRC從不同的角度引入類別信息改進CRC,因此,考慮類別信息求解表示系數可以在一定程度上提高分類準確率.借鑒ProCRC、DSRC和DCRC的思想,本文通過定義判別信息懲罰項以增強表示系數的判別能力,并基于近鄰系數相似性定義局部系數強化項以增強近鄰樣本的協同表示能力,求解更加魯棒的表示系數,提出局部系數增強判別協同表示分類法(LDCRC).

1 CRC及其改進模型

CRC利用嶺回歸模型[13]求解表示系數,其數學模型如下

(1)

(2)

ProCRC[10]通過定義測試樣本屬于協同子空間的概率改進CRC,所有訓練樣本的C類標簽集是l(X)={1,2,…,C},每一個訓練樣本x∈X和測試樣本y的類別分別為l(x)和l(y),測試樣本y屬于類別c的概率定義為

P{l(y)=c}=P{l(y)∈l(X)}·P{l(y)=

(3)

其中:λ,γ>0是正則參數.如果y真的來自c類,公式(3)中概率P{l(y)=c}的最大化導致c類樣本對y的表示和對y的分類有顯著貢獻.對公式(3)取對數,ω可以等價的用

(4)

DSRC[11]通過引入判別信息項改進CRC,如下:

(5)

(6)

ProCRC、DSRC和DCRC都利用了類別信息改進CRC.基于類別信息,它們定義了不同的正則懲罰項,使求解的表示系數具有更強的判別能力.

2 LDCRC

針對CRC缺少類別信息的不足,借鑒DSRC和DCRC,定義判別信息懲罰項以增強表示系數的判別能力.同一空間下,兩個相似樣本的距離很接近,導致它們的表示系數有高度的相似性,基于這一發現,定義局部系數強化項以增強近鄰樣本的協同表示能力.基于判別信息懲罰項和局部系數強化項,提出LDCRC.

2.1 目標函數

受文獻[10-11]的啟發,為增強表示系數的判別能力,并考慮到DSRC和DCRC的解析解中含有類別數C,因此用C增強判別信息,定義判別信息懲罰項為

CTr(ωTMω),

(7)

(8)

其中,K表示近鄰樣本數.

(9)

其中λ,γ>0是正則參數.公式(9)的第2項包含判別信息以增強表示系數的判別能力,第3項包含局部信息以增強近鄰樣本的協同表示能力,因此公式(9)既可以強化局部信息提高近鄰樣本的協同表示能力,又可以利用類別信息,提高判別能力.

2.2 模型求解

利用矩陣的跡Tr,將公式(9)寫為

L(ω)=Tr[(y-Xω)T(y-Xω)]+

展開得

L(ω)=Tr(yTy)-2Tr(ωTXTy)+Tr(ωTXTXω)+

λCTr(ωTMω)+γKTr(ωTω)-

關于向量ω求導得

令其為0,得

(10)

因此,公式(10)為目標函數的解析解.

2.3 LDCRC算法

由于現實中的數據集往往是非線性的,因此基于歐式距離的相似度度量不夠準確.基于CRC的表示系數,定義一種新的相似度.由公式(1)的解析解得到表示系數ω=(XTX+λI)-1XTy,定義相似度為

d=|ω|,

(11)

其中,|ω|為表示系數ω的絕對值,di=|ωi|=sim(xi,y)表示樣本xi與測試樣本y的相似度,越大的di=|ωi|說明xi在重構y時的作用越大,也意味著xi與y的相似度越高.

基于以上的討論,將LDCRC歸納如下.

算法:LDCRC

輸入:訓練集X,類別數量C,待分類樣本y,近鄰樣本數量K,正則參數λ,γ;

輸入:y所屬類別l;

Step1:由公式(11)得到相似度度量,并降序排列選擇前K個樣本為近鄰樣本;

Step2:由公式(10)得到表示系數ω;

Step3:利用最小重構誤差準則,得到y的所屬類別l.

2.4 模型比較

ProCRC、DSRC、DCRC和LDCRC都利用了類別信息定義了不同的判別懲罰項.

利用判別信息矩陣M,ProCRC的解析解可以寫為ω=[(1+γ(C-2))XTX+λI+γM]-1XTy.

DSRC的解析解為ω=[(1+2λ)XTX+2λCM]-1XTy.

對比以上公式,不難發現4種方法都含有XTX和M,系數的大小反映了重構誤差項和判別信息項在求解表示系數的影響程度.LDCRC考慮了近鄰樣本對求解表示系數的影響,以增強近鄰樣本的協同表示能力.因此,LDCRC保留了ProCRC、DSRC和DCRC的判別能力,又增強了近鄰樣本的協同表示能力.

3 實驗分析

為驗證LDCRC的分類性能,采用對比實驗驗證LDCRC的有效性.選用CRC、ProCRC、DSRC和DCRC作為對比方法.由于所有的方法都具有解析解,從運行效率上分析,各種方法的差別不大,故在實驗中不比較各種方法的運行效率.

3.1 實驗參數設置和實驗數據

CRC、ProCRC、DSRC、DCRC和LDCRC都有正則參數,類似于文獻[10],將正則參數λ和γ都設為0.001.當γ=0時,DCRC退化為DSRC,根據文獻[11],本文將DCRC中的γ設為1.采用交叉驗證方法對比不同折數下的分類準確率,交叉驗證折數設為{2,4,6,8,10}.LDCRC的近鄰樣本數K設為5.

實驗選用6個常用的標準圖像數據集:AR_32x32(AR)、IMM_32x32(IMM)、LFW_32x32(LFW)、ORL_32x32(ORL)、PIE29_32x32(PIE29)、PolyU_Palmprint2_32x32(PolyU),其基本信息如表1所示.

表1 數據信息

3.2 結果分析

圖1給出了不同交叉驗證折數下各種方法的分類準確率.表2給出了各種方法在不同交叉驗證折數下的分類準確率的平均值.

圖1 不同交叉驗證折數下的分類準確率Fig.1 Classification accuracies under different cross-validation folds

表2 平均分類準確率

從圖1和表2的實驗結果不難發現,CRC的分類準確率是最低的,而ProCRC的分類準確率優于CRC,這一實驗結果表明考慮類別信息可以提高CRC的分類準確率.DSRC和DCRC的分類準確率優于ProCRC,這表明DSRC和DCRC的判別信息懲罰項可以降低類間相關性、增強類內相關性,從而提高分類準確率.LDCRC的分類準確率是最優的,這一結果說明,判別信息懲罰項可以保持DSRC和DCRC的優點,而局部系數強化項可以加強近鄰樣本的協同表示作用,更好地增強近鄰樣本對測試樣本的影響,使求解的表示系數有較好的表示能力,從而提高分類準確率.DCRC在IMM和ORL兩個數據集的分類準確率與LDCRC的相當,但是在別的數據集上,DCRC分類準確率低于LDCRC.一種可能原因是,IMM和ORL的樣本數量較少,LDCRC選取的近鄰樣本產生的協同表示能力不足.因此本文提出的LDCRC對提高CRC、ProCRC、DSRC和DCRC的分類準確率是有效的.

3.3 參數討論

本節討論正則參數λ和γ對LDCRC的影響.圖2給出了在交叉驗證折數為6,不同的參數λ和γ下,LDCRC的分類準確率.從實驗結果不難發現,當λ和γ較小時,LDCRC可以獲得較好的分類準確率,這一發現可以提高LDCRC的實用性.在AR、ORL、PIE29和PolyU等4個數據集上,LDCRC的分類準確率較高,在γ較小的情況下,LDCRC對λ并不敏感.對IMM和LFW這2個數據集,LDCRC的分類準確率受參數影響的波動較大,這說明IMM和LFW這2個數據集的結構較為復雜,導致基于表示理論的分類方法在研究這類數據集的分類準確率不高.

圖2 不同γ和λ下的分類準確率Fig.2 Classification accuracies under different γ and λ

4 結 論

本文提出LDCRC,通過定義判別信息懲罰項以增強表示系數的判別能力,并定義局部系數強化項以增強近鄰樣本的協同表示能力.在6個標準的圖像數據集上的實驗表明LDCRC具有判別能力和協同表示能力,可以提高CRC等方法的分類準確率.LDCRC在復雜數據集,如IMM和LFW上的分類準確率不高,將在今后的研究中給出更適合復雜數據集分類的方法.LDCRC存在著參數選擇問題,利用啟發式搜索方法,如遺傳算法等進行正則參數的選取將在今后的研究中給出.

猜你喜歡
正則類別準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
剩余有限Minimax可解群的4階正則自同構
類似于VNL環的環
高速公路車牌識別標識站準確率驗證法
服務類別
有限秩的可解群的正則自同構
論類別股東會
中醫類別全科醫師培養模式的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合