?

融合鄰域分布LLE算法軸承故障信號檢測

2023-12-21 03:35張彥生張利來劉遠紅
吉林大學學報(信息科學版) 2023年5期
關鍵詞:高維降維鄰域

張彥生,張利來,劉遠紅

(東北石油大學 a.電氣信息工程學院; b.東北石油大學國家大學科技園,黑龍江 大慶 163318)

0 引 言

電機是現代重要的生產設備動力裝置,維持電機正常運行對社會的經濟發展具有重要意義。而電機軸承是電機較易損壞的零件之一[1],因此高效地檢測電機軸承運行狀態是非常必要的[2-3]。隨著信息技術的快速發展,電機軸承故障診斷過程中涉及到大量高維數據,分析與處理這些數據對及時發現并反饋問題,避免出現規模性的經濟損失,提高生產效率具有重要意義。然而,高維數據中包含大量的冗余信息,同時維數的增加會引起“維數災難”[4],這都將對數據的處理和分析造成不利的影響。

由于電機軸承數據在高維空間為流形結構,線性降維算法不能對其進行有效處理,因此利用非線性降維算法成為處理電機軸承數據的關鍵。LLE(Local Linear Embedding)是非線性降維的關鍵技術之一,因其良好的性能和簡單性而引起了人們的廣泛關注。但LLE仍存在沒有充分挖掘局部結構的缺陷,針對該問題,學者們提出了基于更換歐氏距離和多種算法組合技術。由于在高維流形上歐氏距離的局限性,更換歐氏距離的方法,能實現對高維流形結構的精準度量。Pan等[5]利用伽瑪函數和新的加權距離公式改善LLE,在數據的分布與高斯分布差距較大時表現良好。Varini等[6]將等距特征映射算法ISOMAP(Isometric Feature Mapping)中的測地線距離引入LLE中用于構建K最近鄰法KNN(K-Nearest Neighbor)圖,得到ISOLLE(Isometric Locally Linear Embedding)算法。將數據映射到不同的空間同樣能達到挖掘高維數據結構的作用。Zhang等[7]則利用LLE和線性判別分析LDA(Linear Discriminant Analysis)相結合得到ULLELDA算法(Unified Locally Linear Embedding and Linear Discriminant Algorithm)。Jiang等[8]將LLE與主成分分析(PCA:Principal Component Analysis)相結合得到 LLE-PCA算法。近年來,利用鄰域拓撲關系增強對鄰域結構的挖掘。例如,Kong等[9]提出的迭代LLE,該算法是一種利用包含對角矩陣的強化線性嵌入的LLE優化方法。Luo[10]等提出用混合圖學習方法能有效地揭示高維數據之間的內在關系,Luo[11]還提出了一種多結構統一判別嵌入方法,該方法考慮高光譜圖像集中每個樣本的鄰域、切向和統計特性,以實現不同特征的互補。

但上述方法僅挖掘原始空間的拓撲關系,并未考慮鄰域和鄰域之間的拓撲關系,因此在很多數據中不利于維持原始數據在低維空間的結構關系。為充分挖掘電機軸承信號的高維空間結構,筆者提出了一種新的融合鄰域分布屬性的局部線性嵌入算法,即利用高斯分布將每個最近鄰樣本與中心樣本之間的相似度轉換為最近鄰樣本的條件概率。通過計算每個鄰域樣本與其鄰域中心點臨近點分布的KL(Kullback-Leibler)散度,度量中心點與近鄰點各自鄰域分布的相似度。最后,權重修正函數調整權重系數,實現了對高維數據鄰域間結構的挖掘。

1 局部線性嵌入算法

LLE算法是經典局部流形學習算法,其核心思想是找到每個高維流形上樣本點的近鄰域樣本,并用其線性重構該樣本點,以此挖掘高維數據局部的拓撲結構信息。高維樣本數據集為X=[x1,x2,…,xN]∈RD×N,其中xi(i=1,2,…,N)為第i個樣本,D為高維樣本的特征維數,N為樣本總數。設低維映射結果為Y=[y1,y2,…,yN]∈Rd×N,d為低維空間的維數。LLE算法具體計算步驟[12]如下。

步驟1) 設定鄰域大小超參數為K且假設較小局部中的數據是線性的,針對每個樣本點,選擇與其相似度最高的前K個樣本點作為近鄰點。

步驟2) 利用樣本xi與周圍K個近鄰點,通過最小化均方差計算每個樣本點的重構權重w,計算函數如下:

(1)

其中n(i)為第i個樣本鄰域。通過高維重構權重計算樣本點的低維輸出,低維空間的線性重構公式如下:

(2)

2 融合鄰域分布屬性的局部線性嵌入算法

針對LLE算法未能充分保持高維數據鄰域之間結構的問題,筆者提出了一種融合鄰域分布的屬性的局部線性嵌入算法DLLE(Local Linear Embedding algorithm incorporating the properties of the neighborhood Distribution),通過加強分布屬性相似鄰域的權重,提高降維效果。首先,對每個樣本點,選擇相似度最高的前K個樣本點作為最近鄰點。計算每個樣本xj在xi鄰域中對應的高斯分布概率[13]:

(3)

則對以xj為中心的鄰域樣本xjj的高斯分布概率為

(4)

其次,將樣本xi的鄰域分布設為Li,其鄰域樣本xj的鄰域分布設為Lj。由散度計算其之間的分布差異。相應的散度公式為

(5)

歸一化散度函數為

(6)

鑒于LLE算法沒有考慮到樣本鄰域分布之間的差異,通過在原始的降維過程中添加對權重w的修正函數,使鄰域Li與Lj分布的相似性關系信息傳送到低維空間。修正函數如下:

(7)

其中α為修正系數(0<α<1),通過調整其大小可以控制高維數據鄰域分布相似性關系對低維數據的影響。圖1為KL散度度量鄰域分布的示意圖。

圖1 KL散度度量鄰域分布

為滿足低維數據的生成條件,每個樣本的權值之和為1,因此有:

(8)

3 實驗仿真及結果分析

為評估DLLE算法應用在電機軸承信號檢測上的效果,利用DLLE算法對兩個軸承故障數據集的實驗結果數據進行評估。由可視化、定量聚類和識別精度評估3個實驗驗證該方法在可視化、數據分類與識別精度,從而驗證DLLE算法具有較強的電機軸承信號數據高維空間結構的挖掘能力。

3.1 數據集

為充分證明算法的廣泛有效性,使用分別來自凱斯西儲大學CWRU(Case Western Reserve University)和江蘇千鵬公司生產的QPZZ-Ⅱ型軸承故障診斷設備實驗平臺采集的兩組滾動軸承數據集。

CWRU數據集采樣平臺如圖2所示,包括一個2馬力1.5 kW的電機,一個轉矩傳感器,一個功率測試計與電子控制設備(圖2中未顯示)。待檢測的軸承支撐著電動機的轉軸,驅動端轉軸為SKF6250,風扇端軸承為SKF6203。安裝在基座上的加速度傳感器在負載為0,頻率為12 kHz,轉子轉速為1 720 r/min的情況下進行采集,包含正常、滾珠故障、軸承內圈故障和外圈故障4類數據,且每種數據采集100個樣本,每個樣本包含1 024個特征。

圖2 CWRU數據集采樣平臺

千鵬數據集采樣平臺如圖3所示,平臺由電機、軸承和齒輪箱組成,傳感器在無負載,電機采樣頻率為10 kHz,轉速為1 400 r/min的情況下,共采集正常、滾珠故障、軸承內圈故障和外圈故障數據,每種數據有100個樣本,每個樣本有1 024個特征。

3.2 效果可視化評估

利用LLE、局部切空間排列LTSA(Local Tangent Space Alignment)、拉普拉斯特征映射LE(Laplacian Eigenmaps)和DLLE 4種降維算法在兩種數據集上的三維效果進行對比,其中正方形代表正常數據,菱形代表內圈故障數據,五角星代表滾珠故障數據,三角形代表外圈故障數據。4種電機數據由于特征不同,在高維空間中處于不同的區域。在降維過程中,由于沒有保留高維數據中鄰域之間的結構,導致在低維空間不能有效反應不同種類數據之間的空間關系,即不同種類數據發生相互堆疊。因此,通過不同算法能否有效分離同一數據集,可以有效判斷算法的保留高維數據中鄰域之間的結構能力。

不同降維算法處理CWRU數據結果如圖4所示,在多種降維算法處理CWRU數據的三維效果中,圖4a為LLE算法處理得到的低維結果,外圈故障數據集中,其余3種數據分散,數據堆疊情況嚴重,沒有明顯的匯集點。LTSA處理效果如圖4b所示,低維結果均比較聚集,呈現柱狀分布,4種數據間具有明顯的匯集點。圖4c是LE算法的處理的可視化效果圖,能明確反映外圈故障數據,正常數據被分為兩個部分,另外兩種數據堆疊嚴重,不能有效區分。DLLE算法效果如圖4d所示,同類數據均聚集為一點,且不同種類之間分散,基本沒有發生數據堆疊。

圖4 不同降維算法處理CWRU數據結果

不同降維算法處理千鵬數據結果如圖5所示。在其三維效果中,LLE算法處理得到的低維結果如圖5a所示,4種故障匯集成柱狀,有明顯的交叉部分。LTSA處理效果中,不同種類數據仍然集中,如圖5b所示。圖5c表明LE算法難以區分正常和外圈故障數據。DLLE算法效果如圖5d所示,正常和外圈故障數據呈現柱狀分布,滾珠故障和內圈故障數據聚集呈點狀分布,低維數據仍然無明顯堆疊現象。綜上,LLE、LTSA和LE通過處理CWRU數據與千鵬數據得到的4種數據發生堆疊現象,DLLE的低維結果正確反映高維數據空間分布,表明其提高了LLE保留高維數據中鄰域之間的結構的能力。

圖5 不同降維算法處理千鵬數據結果

3.3 效果Fisher度量評估

Fisher度量是一種常用的數據聚類效果評估的方法,該方法通過利用類間距離Sb和類內距離Sw的商反應同一類數據的分散程度和不同類之間的分離程度,進一步評估不同降維算法的分類效果。

Fisher度量及相關參數Sb、Sw的具體求解公式如下:

(9)

在LLE、LTSA、局部保留投影算法LPP(Locality Preserving Projections)、LE和DLLE算法處理的兩組數據的結果上使用Fisher度量計算公式,得到具體的相關參數Sb、Sw和F如表1、表2所示。

表1 不同算法對CWRU數據的Fisher度量的比較

表2 不同算法對千鵬數據的Fisher度量的比較

通過數據對比,可以觀察到DLLE在5種降維算法中的表現,表1是不同算法對CWRU數據的Fisher度量的比較。其中類間距離中DLLE類間距離1.480 7,在5種降維算法中為最大值,表現出良好的分類效果能力,類內距離為0.774 9,相較LLE聚類效果提升明顯,Fisher度量值1.910 7,除LPP算法Fisher度量值外最高。不同算法對千鵬數據的Fisher度量如表2所示。其中DLLE類間距離1.877 1在多種算法中仍為最大值,類內距離較小,Fisher度量值4.906 5為最大值。因此,DLLE的分類效果在5種算法中表現良好,有效提高了LLE的分類效果。

3.4 效果識別精度評估

分別在CWRU數據集和千鵬數據集上對多種不同算法的效果識別精度做評估,對每類樣本80%進行訓練,20%測試,結果如圖5,圖6所示。從圖5,圖6中可看出,在兩組數據集上,DLLE算法在CWRU數據集上對4類樣本的識別精度均較高,平均精度維持在91%左右,該算法在特征識別上具有較高精確度。

圖6 CWRU數據集類別識別精度評估

4 結 語

為解決LLE算法難以充分挖掘高維電機軸承數據結構的問題,筆者提出了一種融合鄰域分布屬性的局部線性嵌入算法。該算法通過計算樣本鄰域分布之間的散度,對權重系數進行修正,實現了在低維空間中的數據保持高維空間中的鄰域相似性關系。該算法在CWRU數據集和千鵬數據集上利用可視化、效果Fisher度量和效應識別精度對該算法進行評估。其中,在Fisher測量中,算法分別為1.910 7和4.906 5。在效果識別精度評價中,該算法保持了識別精度的91%左右,驗證了該算法對軸承信號處理結果在可視化、分類和識別精度的優勢。證明該算法對增強LLE算法挖掘電機軸承檢測數據高維非線性結構具有一定意義。

猜你喜歡
高維降維鄰域
混動成為降維打擊的實力 東風風神皓極
稀疏圖平方圖的染色數上界
降維打擊
一種改進的GP-CLIQUE自適應高維子空間聚類算法
基于鄰域競賽的多目標優化算法
基于加權自學習散列的高維數據最近鄰查詢算法
關于-型鄰域空間
一般非齊次非線性擴散方程的等價變換和高維不變子空間
高維Kramers系統離出點的分布問題
拋物化Navier-Stokes方程的降維仿真模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合