?

基于一致性和多樣性的多尺度自表示學習的深度子空間聚類

2024-03-21 02:25陳花竹
計算機應用 2024年2期
關鍵詞:編碼器尺度聚類

張 卓,陳花竹

(中原工學院 理學院,鄭州 450007)

0 引言

子空間聚類是高維數據聚類的有效方法之一,廣泛應用于人臉聚類[1-2]、運動分割[3-4]、圖像分割[5]等實際應用中。子空間聚類是基于高維數據近似分布在幾個低維線性子空間的假設,將來自不同子空間的高維數據分割到本質上所屬的低維子空間。傳統的基于譜聚類的子空間聚類(Subspace Clustering Based on Spectral Clustering,SCBSC)方法主要包括兩個步驟:首先,通過自表示學習從高維數據中學習一個相似度矩陣;其次,對相似度矩陣使用譜聚類算法來分割數據。第一步是最重要的,因為譜聚類算法的成功在很大程度上依賴于構建一個較好的相似度矩陣。本文關注的是第一步即如何得到一個較好的相似度矩陣?;赟CBSC 方法具有無須預先設定子空間的維度、對初始化和數據噪聲不敏感的優勢而得到了科研工作者越來越廣泛的關注。傳統的SCBSC雖然取得了很好的結果,但這些工作主要集中在聚類線性子空間上,在實際應用中,數據不一定符合線性子空間模型的要求。例如,在人臉圖像聚類中,反射率通常是non-Lambertian 的,人臉圖像通常包含了不同的姿勢和表情,在這些條件下,人臉圖像更可能位于非線性子空間(或子流形)中[6]。

由于深度學習中的神經網絡能夠有效地挖掘深層特征并且具有強大的表示能力,近年來,受深度神經網絡(Deep Neural Network,DNN)的啟發,許多深度子空間聚類方法[6-8]被提出。深度子空間聚類(Deep Subspace Clustering,DSC)網絡[6]是基于深度自編碼器(Deep Auto-Encoder,DAE)發展的網絡,該方法通過一系列的自編碼器學習深層的自表示系數矩陣。在DSC 的基礎上,很多方法[7-12]被提出。雖然這些方法在一定程度上都增強了數據聚類的性能,但還是存在一些不足。在基于DAE 的子空間聚類中,較淺的層學習更多的像素級信息,較深的層提取更多的語義級或抽象級信息。然而文獻[7-9,11-12]方法只考慮了最深層提取的特征,忽略了較淺層次中有用的特征。Kheirandishfard 等[13]提出了深度子空間聚類的多級表示學習(Multi-Level Representation learning for Deep Subspace Clustering,MLRDSC),該方法在各編碼層和對應的解碼層之間都插入了一個全連接層,通過學習各層的自表示系數矩陣提取不同尺度的特征信息,同時該方法引入偽標簽矩陣提升聚類精度。MLRDSC 相較于已有的方法,提高了聚類精度,但是它只考慮了多尺度特征的一致性,沒有深度分析多尺度特征的多樣性。同時,它也沒有考慮多級的輸入數據和輸出數據的重構損失。

本文仍然利用DAE 獲得的不同尺度的自表示系數矩陣解決子空間聚類的問題,為了能夠充分利用多尺度的特征表示,通過深入分析不同尺度特征之間的區別以及多尺度之間的自表示特征存在的多樣性的特點,能夠有效增強最終的聚類性能?;谝恢滦院投鄻有缘亩喑叨茸员硎緦W習的深度子空間聚類(Multiscale Self-representation Learning with Consistency and Diversity for Deep Subspace Clustering,MSCDDSC)與MLRDSC 相比,主要區別在于本文方法將多級別的自表示特征進行互補,同時對于優化目標進行改進,使多級編碼器能夠充分提取有利于最終聚類任務的特征,進而增強最終的聚類效果。主要工作包含以下幾個部分:

1)將輸入數據的重建損失函數替換為多級重建損失函數,監督不同級別編碼器參數的學習。

2)提出了一個新的正則項,該正則項有利于加強多尺度特征之間的聯系。

3)增加了特有的自表示矩陣的多樣性模塊,該模塊能夠使每層嵌入特征對應的自表示矩陣更具有塊對角性。

4)對4 個常用的數據集進行實驗,實驗結果表明本文方法可以有效地處理來自非線性子空間的數據聚類,并且它在大多數子空間聚類問題上的表現優于很多方法。

1 相關工作

1.1 符號說明

表1 對本文主要使用到的符號進行了說明。

表1 符號說明Tab.1 Symbol description

1.2 相關工作介紹

DSC 網絡以DAE 為基礎將傳統子空間聚類方法與深度神經網絡相結合,整體由堆疊編碼器、自表達層和堆疊解碼器3 部分組成。堆疊編碼器使用卷積自動編碼器,能使堆疊編碼器中的參數比全連接層的參數更少,更容易訓練網絡;在卷積中使用2×2 的卷積核;自表達層由無偏置值和線性全連接層構成,節點之間使用線性權值進行全連接,修正線性單元(Rectified Linear Unit,ReLU)激活函數作為編碼層、解碼層的非線性激活函數。整體網絡將輸入數據通過堆疊的卷積自動編碼器進行編碼,映射到潛在子空間,再經過自表達層學習權重,最后通過堆疊的反卷積自動解碼器將潛在子空間的數據還原到原始數據空間。

在DSC 基礎上很多模型被提出,如過完備深度子空間聚類網絡(Overcomplete Deep Subspace Clustering network,ODSC)[10]將數據并行輸入完備編碼層以及普通編碼層,融合它們輸出的特征矩陣,再通過自表示層學習自表示矩陣,使特征表示更具有魯棒性;具有雙域正則化的子空間聚類網絡(Robust Subspace Clustering Network with dual-domain regularization,RSCN)[11]將雙流行約束納入深度子空間聚類,使模型在有噪聲的情況下顯著提高了性能;基于局部拓撲嵌入的圖像深度聚類(Image Deep Clustering based on localtopology embedding,IDC)[12]通過建立數據本身特征與局部拓撲信息表示之間的聯系,增強了特征表示。

與上述方法不同,MLRDSC 在每一層的編碼器與其對應的解碼器之間都添加全連接層,并以此捕獲多尺度的特征,它的優化目標如下所示:

其中:原始數據X∈RN×C×H×W,N、C、H、W分別表示輸入數據數量、通道數、高度和寬度是X經過DAE 后的解碼數據;θe是編碼器、解碼器及全連接層的參數;L是網絡的深度;表示數據經過編碼層后通過改變形狀成為矩陣后的行數,Ml=Cl×Hl×Wl)是第l層網絡的嵌入特征;C∈RN×N是所有網絡層的嵌入特征共有的自表示系數矩陣;Dl∈RN×N(l=1,2,…,L)是第l層的嵌入特征特有的自表示系數矩陣;Q=(Qij) ∈RN×K是偽標簽矩陣,Qij表示第i個數據屬于第j類的可能性是為了使解碼后數據與原始數據盡可能地接近是為了找出第l層的嵌入特征的自表示矩陣用于將從輸入數據的初始為標簽中獲得的信息利用在網絡中;正則化項使相似度矩陣與各層的數據都有關聯性。

但是MLRDSC 沒有深度分析Dl之間的多樣性,同時,MLRDSC 雖然引入了多尺度嵌入特征,但只考慮了輸入數據和輸出數據的重構損失,而忽略了不同層嵌入特征的重構損失。這些對于最終的聚類效果都會有影響。

2 本文方法

2.1 本文方法原理

MLRDSC 學習了網絡層的多尺度特征,本文將這些多尺度特征分為所有網絡層嵌入特征共有的自表示系數矩陣(Common Self-Representation Matrix,CSRM)和特有的自表示矩陣(Special Self-Representation Matrix,SSRM)兩部分。由于較淺的層學習更多的像素級信息,較深的層提取更多的語義級或抽象級信息,所以每個網絡層的SSRM 之間應該具有多樣性,但是MLRDSC 沒有深度分析這些SSRM 之間的多樣性;其次,LRR(Low-Rank Representation)[14]指出,自表示矩陣應具有塊對角性,由于MLRDSC 中每一層的自表示矩陣是CSRM 和SSRM 的和,所以二者之和同樣具有塊對角性;最后,MLRDSC 只考慮了輸入數據和輸出數據的重構損失,不能保證各網絡層的編碼器能夠恢復對應層輸入的數據,所以應該建立不同層嵌入特征的重構損失,監督不同級別編碼器參數的學習,從而促進每層嵌入特征的學習。

2.2 方法構成

由于MLRDSC 忽略了多尺度特征的多樣性,本文方法為了深入分析不同網絡層的SSRM 之間的多樣性,在MLRDSC的基礎上,進行了如下改進:1)對于特征提取模塊,增加了不同層嵌入特征的重構損失;2)對于多尺度自表示模塊,本文提出了一個新的正則項,該正則項有利于加強多尺度特征之間的聯系;3)增加了SSRM 的多樣性模塊,該模塊能夠使每層嵌入特征對應的自表示矩陣更具有塊對角性。

MSCD-DSC 網絡主要由特征提取模塊、多尺度自表示模塊、多樣性的多尺度特征模塊以及譜聚類模塊組成。其中:特征提取模塊主要由自編碼器組成,負責提取多尺度特征;多尺度自表示模塊加強共有以及特有的自表示矩陣的聯系,獲得自表示矩陣;多樣性的多尺度特征模塊用來獲取不同尺度的特征的多樣性,學習更多有利的特征。本文的網絡架構如圖1 所示。

2.2.1 特征提取模塊

本文方法采用DAE 架構,即利用多個卷積層構造對稱的編碼器和解碼器。第l(l=1,2,…,L)層編碼器的輸入為和Wl分別表示數據的數量、第l層的通道數、高度和寬度),其中并且下一層的輸入為上一層的輸出;第(ll=1,2,…,L)層解碼器的輸出為整個網絡的重構損失函數為:

2.2.2 多尺度自表示模塊

2.2.3 多樣性的多尺度特征模塊

首先給出排他性的定義。(Vij) ∈Rn×n的排他性定義如下:

定義1排他性[15]。兩個矩陣U=(Uij) ∈Rn×n和V=

其中:⊙是Hadamard 積,即兩個矩陣對應元素的乘積。

由定義1 可知,排他性的目的是使兩個矩陣盡可能地具有多樣性,即如果Uij≠0,則對應Vij≠0。由于矩陣Dl是第l層嵌入的SSRM,所以本文希望不同層的SSRM 也具有這樣的多樣性,即:

但是‖ ? ‖0具有非凸性和離散性,本文將‖ ? ‖0松弛為‖ ? ‖1,因此在這一模塊中,定義如下優化目標:

這樣網絡可以學到具有多樣性的特有的自表示矩陣。以三層網絡為例,如圖2 所示,其中Dl(l=1,2,3),D=D1+D2+D3。

圖2 第l層特有的自表示矩陣Fig.2 Unique self-representation matrix of lth layer

2.2.4 網絡優化目標

綜上所述,整個網絡的優化目標為:

其中:λ1、λ2和λ3是調節參數。與MLRDSC 相比,本文方法增加了SSRM 矩陣多樣性模塊,考慮了每層嵌入特征的CSRM 和SSRM 和的塊對角性,同時增加了每個網絡層的重構損失函數。其中將重構損失設置為多層的重構損失累加求和,這樣的目的是深度自編碼器能夠盡可能還原每一層的原始輸入數據,監督編碼層參數的學習,提高特征學習的能力。

最后將W用在譜聚類算法[16]中得到最終的聚類結果。

2.3 求解算法

本文提出的MSCD-DSC 的求解算法總結如下:

算法1 MSCD-DSC 的求解算法。

輸入 原始數據X,更新周期T0,最大迭代次數T,隨機初始化自編碼器網絡參數θ,t=0;

3 實驗與結果分析

本文的MSCD-DSC 網絡是在Python 中使用Pytorch 實現,同時優化方法采用自適應動量的梯度下降算法Adam(Adaptive momentum)進行優化,在實驗中的學習率設置為1.0 × 10-3訓練網絡參數,對于DAE 中的卷積層,設置步幅為2 的濾波器,使用ReLU 為激活函數,對于自表示層使用線性無偏移值的全連接層。不同數據集的網絡結構如表2 所示,在本文中,為了與MLRDSC 進行有效的比較,對于網絡結構的設置與MLRDSC 的網絡結構保持一致。為了評估本文方法的效果,通過3 個用于子空間聚類的基準的人臉數據集(Extended Yale B[17]、ORL[18]和Umist[19])以及物體數據集(COIL20[20])進行大量實驗,這4個數據集的部分圖像見圖3。

圖3 不同數據集采樣圖像Fig.3 Sampled images from different datasets

表2 不同數據集的網絡結構Tab.2 Network structures of different datasets

本文對數據集進行了多個子空間聚類實驗,并且將以下幾個網絡作為基線與MSCD-DSC 網絡的聚類性能進行比較,包 括DSC[6]、EDSC(Efficient Dense Subspace Clustering)[7]、DASC(Deep Adversarial Subspace Clustering)[8]、MLRDSC[13]、LRR[14]、LRSC(Low Rank Subspace Clustering)[21]、SSC(Sparse Subspace Clustering)[22]、AE+SSC(SSC with the pretrained convolutional Auto-Encoder features)、KSSC(Kernel Sparse Subspace Clustering)[23]、SSC-OMP(SSC by Orthogonal Matching Pursuit)[24]、AE+EDSC(EDSC with the pre-trained convolutional Auto-Encoder features)。需要注意的是,所有對比方法的實驗結果所使用的網絡參數都依照原文設置,或者直接參考原文中的實驗結果。

3.1 在數據庫Extended Yale B上的實驗

Extended Yale B 數據集作為流行的子空間聚類基準,采集自38 個不同的受試者。每個受試者在不同光照條件下獲得64 個正面的面部圖像,為了與DSC 等算法對比,采取與文獻[11,14,25]中相同的實驗方案,對原始人臉圖像從192×168 下采樣到48 × 42,并且逐漸增加類別個數n進行測試,即n∈{10,15,20,25,30,35,38}。與文獻[8,14,24]中一樣給出每個(39 -n)實驗的均值聚類誤差,即當類別個數為n時,報告了(39 -n)個實驗的平均聚類誤差。

由于本文方法要與目前表現較好的MLRDSC 算法進行比較,在網絡結構上使用與之相同的自編碼器模型,即由3個堆疊的卷積編碼器組成,過濾器和卷積核分別是10、20、30 以及5×5、3×3、3×3。

在參數的選擇上,λ1=1 × 10(n/10-1),λ2=40,多樣性的多尺度模塊對應的參數項λ3=10,T=100,將最大的迭代次數設置為1 500。

不同比較算法的聚類錯誤率如表3 所示。從表3 中的數據觀察到,在所有列出的比較方法中,本文的MSCD-DSC 算法能顯著降低聚類錯誤率,并在n∈{25,30,35,38}時達到最低的聚類誤差,在n=38 時,相較于MLRDSC 降低了15.44%。特別當n=30 時,MSCD-DSC 獲得了1.09%的聚類誤差,比次優的MLRDSC 降低了38.76%。此外,MSCD-DSC在n∈{10,15,20}時也比絕大多數算法的效果好,這意味著MSCD-DSC 網絡從DAE 中學到了比較多有用的信息。對于n∈{10,15,20}的聚類結果,猜測是由于該算法對于較小的數據集使DAE 提取的多尺度特征不穩定而導致的。

表3 不同算法在Extended Yale B數據集上的聚類錯誤率 單位:%Tab.3 Clustering error rates of different algorithms on Extended Yale B dataset unit:%

表4 Extended Yale B上的消融實驗結果Tab.4 Ablation experiment results on Extended Yale B

3.2 在ORL、COIL20和Umist數據集上的實驗

ORL 數據集包含40 個受試者的面部圖像,其中每個受試者在不同的光照條件下有10 張面部圖像,具有不同的面部表情(睜眼/閉眼、微笑/不微笑)以及面部細節(戴眼鏡/不戴眼鏡),如圖3(b)所示。由于人臉圖像是在不同的面部表情和細節下拍攝的,與Extended Yale B 相比,ORL 數據集存在子空間更加非線性并且數據集規模更小的特點,因此對于子空間聚類就更具有挑戰性。為了易于比較,本文采取與DSC 一致的處理方式:將ORL 數據集的人臉圖像從112×92降采樣到32×32。

COIL20 數據集由20 個物體的圖像構成,每個物體對應72 張圖像,每張圖像都是由黑色背景下的不同角度拍攝照片構成,大視點變化可能對這兩個數據集的子空間聚類問題構成嚴重挑戰,如圖3(c)所示。

Umist 數據集包含20 個受試者的面部圖像,共計480 張,每張圖像都采用非常不同的姿勢,如圖3(d)所示。在使用數據集時本文將每個圖像都下采樣到32×32。

為了分析出不同的損失項對于實驗結果的影響,以ORL數據集為例,進行如下的參數分析:

1)令超參數λ1、λ2、λ3初始值為1。

2)通過固定λ1、λ2的值來調整λ3的值,使λ3在{10-2,10-1,1,10,100}范圍內取值,找到λ3的最佳取值。

3)用同樣的方式調整λ1、λ2的取值,獲取相對較好的取值為λ1=10,λ2=100,λ3=1。

4)進一步調整參數λ2的取值范圍為{5,10,15,20},調整方法與2)相同,獲取相對更好的取值,從而獲得最佳的參數取值。

為了分析得出不同損失項對于實驗的影響,本文以ORL數據集為例對參數進行消融實驗,結果如表5 所示。

表5 ORL上的參數消融實驗結果Tab.5 Parameter ablation experiment results on ORL

最終在數據集ORL、COIL20 和Umist 中λ1的值分別為10、170 和1,λ2的值分別為75、100 和1,λ3的值分別為1、65和1,T的值分別為10、5、10,最大迭代次數分別為1 110、85和130。ORL、COIL20 和Umist 數據集上不同方法的實驗結果如表6 所示。

表6 在數據集 ORL、COIL20和Umist上的聚類的錯誤率 單位:%Tab.6 Clustering error rates for datasets ORL,COIL20 and Umist unit:%

由表6 可知,本文提出的MSCD-DSC 網絡仍然比絕大多數的聚類方法的聚類錯誤率低,相較于次優的MLRDSC 降低了2.22%、3.37%與13.17%,這也說明本文方法有利于最終的聚類結果。

4 結語

本文在MLRDSC 網絡的基礎上通過分析不同尺度特征的多樣性,利用每層嵌入特征的CSRM 和SSRM 和的塊對角性、不同層的SSRM 之間的多樣性和每個網絡層的重構損失函數,提出基于一致性和多樣性的深度子空間聚類算法,使不同尺度的多樣性自表示特征不能充分利用的問題得到了有效的改善。所提算法在Extended Yale B、ORL、COIL20 和Umist 數據集上的實驗結果表明,該算法能有效處理非線性子空間中的聚類問題,對比同類的算法中取得了較好的結果,驗證了算法的有效性。在之后的研究工作中,會在本算法的基礎上繼續研究多尺度的多樣性自表示特征信息對于深度子空間聚類效果的影響。

猜你喜歡
編碼器尺度聚類
財產的五大尺度和五重應對
基于FPGA的同步機軸角編碼器
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
基于PRBS檢測的8B/IOB編碼器設計
宇宙的尺度
JESD204B接口協議中的8B10B編碼器設計
一種層次初始的聚類個數自適應的聚類方法研究
9
多總線式光電編碼器的設計與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合