?

基于深度可分離卷積神經網絡的軸承故障診斷模型

2024-02-21 11:26金鈺森鄭雁鵬黃偉韜
無線電通信技術 2024年1期
關鍵詞:殘差準確率軸承

金鈺森,丁 飛,*,陳 竺,鄭雁鵬,黃偉韜

(1.南京郵電大學 智慧物聯網應用技術研究院,江蘇 南京 210003;2.上海市工業物聯網與大數據專家工作站,上海 200233)

0 引言

在工業活動中,為了避免由于設備故障而產生的經濟損失,對相關工業設備進行有效的故障診斷尤為重要。旋轉機械在現代工業設備中應用最廣泛,比如壓縮機、發動機、感應電機等[1]。旋轉機械常常處于高度負荷或惡劣的工作環境中,導致其發生故障的概率大大增加,若不能及時對故障進行診斷,可能會導致整個系統的中斷甚至是災難性的故障[2]。軸承作為旋轉機械中的核心部件,如何快速準確識別其工作狀態并進行故障診斷一直受到廣泛關注[3]。

近年來,隨著機器學習算法研究的不斷深入,深度學習已被應用于諸多領域中[4]。作為深度學習中的一個重要分支,卷積神經網絡(Convolutional Neural Network,CNN)在機械設備故障診斷中表現出了優異的性能[5]。當前的深度學習方法主要處理的是二維結構數據,在機械故障信號的處理中,起初主要將原始振動信號經過圖像變換從一維時序信號轉變為二維圖像信號作為CNN的輸入[6],然后進行特征提取和識別分類,劉星辰等人[7]通過短時傅里葉變換獲得振動數據集的頻率圖,對訓練數據集進行交叉驗證來更新CNN參數,根據訓練好的模型來對振動數據集的頻率圖進行分類。Shao等人[8]利用小波變換對旋轉機械振動信號進行分解,通過連續小波變換獲得振動頻率圖,將其作為CNN的輸入來對網絡進行訓練,根據訓練后的CNN模型進行故障特征識別。Verstraete等人[9]通過短時傅里葉變換和小波變換將原始振動信號轉為二維圖像信息,然后將其作為深度CNN輸入來進行故障分類和診斷。

以上方法都需要將一維信號轉換為圖像形式作為輸入,但是由于振動數據在時間上具有相關性,將其轉換為二維結構容易破壞時間相關性,丟失部分故障信息,因此可以通過構建一維卷積神經網絡 (One-Dimensional Convolutional Neural Network,1D-CNN),直接將原始一維信號作為網絡的輸入,在保留原始信息的同時,降低網絡復雜度,實現端對端的故障識別[10]。楊潔等人[11]通過多個傳感器采集航空發動機故障數據,將多個傳感器的數據進行融合后輸入到1D-CNN中實現了較高精度的故障分類;卞景藝等人[12]提出一種多尺度深度CNN,通過構造不同卷積池化層的多通道網絡對軸承和齒輪故障數據進行分析;Liang等人[13]以滾動軸承的一維時序信號作為CNN的輸入,通過包含空洞卷積的殘差網絡結構和通道域注意力方法提出了基于殘差連接的一維空洞卷積網絡方法,該方法能夠有效診斷不同噪聲環境和不同載荷下的滾動軸承故障;Wang等人[14]基于視覺幾何組(Visual Geometry Group,VGG)16改進1D-CNN模型,將原始振動信號作為網絡輸入進行特征融合,提出一種基于最優SWD和1D-CNN的多傳感器數據融合層混合模型,將提取的特征在融合層中進行融合,該模型可以準確有效地識別故障類型并具有良好的泛化能力。

1D-CNN也存在一定的不足,當網絡層數較少時故障信息提取不完整,對含噪聲較大的數據的非線性擬合能力較差,網絡層數過多則會使模型計算量過大、訓練困難,且容易出現梯度爆炸。為了解決以上問題,并滿足實際工業場景中對計算開銷和計算時延的需求,提出了一種基于深度一維可分離CNN的軸承遷移故障診斷方法,通過對卷積層進行可分離操作來降低計算時間并向構建的網絡中添加殘差層來保證故障診斷準確率。對軸承數據集根據不同工況進行任務劃分來驗證不同工作條件的設備之間的遷移診斷效果,通過對比不同的訓練網絡來驗證方法的有效性。

1 1D-CNN

1.1 CNN

一個完整的CNN結構包含輸入層、卷積層、激活層、池化層、全連接層以及輸出層。卷積層通過卷積核進行數據之間的特征提取和特征映射;激活層將卷積層的運算結果進行非線性映射,將特征映射到高維的非線性空間;池化層對數據進行下采樣操作,通過對特征圖進行稀疏處理進而減少數據運算量;全連接層通常位于卷積運算的末尾,通過對數據重新擬合來減少特征信息的損失。

CNN通常有多個卷積層,作為CNN的核心組件,卷積層通過卷積核根據設定步長對所在層的輸入進行局部卷積操作,輸入數據經過卷積運算后輸出相應特征圖,卷積核通常為一個權值矩陣,CNN通過卷積過程實現權值共享,通過權值共享可以極大減少CNN的參數量,降低模型的復雜度[15]。卷積計算的公式為:

(1)

1.2 1D-CNN模型

1.2.1 1D-VGG16

VGG16神經網絡模型是由牛津大學計算機視覺組開發的一個CNN結構,作為一個經典的CNN模型,VGG16的簡潔性和易于實現的特點至今仍有研究價值[16]。

1D-VGG16神經網絡模型通過組合與堆疊多個卷積維度為3×1的卷積核來提取輸入數據的細微特征;通過卷積核對輸入數據進行卷積操作;通過最大池化操作對數據進行降維處理,提取數據主要特征;通過全連接層進一步降低網絡參數量并結合Softmax分類器達到分類的目的。1D-VGG16網絡模型結構如圖1所示。

圖1 1D-VGG16網絡模型Fig.1 1D-VGG16 network model

1.2.2 1D-ResNet50

在CNN結構中,隨著網絡模型深度的增加,傳統CNN容易出現梯度消失/爆炸等問題,導致網絡模型訓練困難和準確率下降。針對這一問題,文獻[17]通過引入跨連接層來構建殘差網絡,實現網絡層數增加并提高訓練準確率,殘差單元結構如圖2所示。

圖2 一維殘差單元結構圖Fig.2 1D structure diagram of residual unit

在一維殘差單元中,輸入數據x進入網絡,經過權重層后得到映射函數F(x),然后通過ReLU函數進行激活后進入第2個權重層,并和輸入數據x進行連接得到最終映射函數F(x)+x。在這種映射下,可以保證淺層特征直接映射到深層,降低訓練產生的誤差。

由于殘差塊的結構是相似的,通過構建一個可變參數的殘差塊并進行反復調用來實現不同的卷積塊。當輸入通道與輸出通道不一致的時候,讓輸入經過一個卷積核大小為1的卷積層,讓該卷積層的輸出與主體卷積的輸出通道相同,實現直接相加操作。此外,當輸入通道和輸出通道數目一致并需要進行降采樣操作時,將卷積層中第1個卷積核的步長由1更改為2;當輸入通道和輸出通道數目不一致并需要進行降采樣操作時,需要將主體卷積層中第1個卷積核的步長由1更改為2,同時也需要更改為了統一輸入輸出通道數目的卷積層的卷積核,將其步長由1更改為2。

在1D-ResNet50網絡中包含了49個卷積層和1個全連接層,每個卷積層所包含卷積核的卷積維度是3×1,1D-ResNet50網絡結構可以分成7部分:第1部分不包含殘差塊,主要對輸入數據進行卷積、正則化、激活、最大池化操作,第2~5部分的卷積都包含殘差塊,每個殘差塊有3層卷積,1D-ResNet50網絡結構如圖3所示。

圖3 1D-ResNet50網絡模型Fig.3 1D-ResNet50 network model

1.2.3 可分離卷積神經網絡

可分離卷積神經網絡(Separable Convolutional Neural Network,SCNN)相比傳統CNN,具有更少的參數,并且實現了訓練過程中通道和區域的分離。SCNN由逐通道卷積和逐點卷積組成。在逐通道卷積過程中,卷積層的輸入與輸出均為具有相同通道數目的特征圖;在逐點卷積過程中,對輸入特征采用1×1的卷積核進行卷積操作,重復該過程n次即可增加通道數至n層。普通卷積過程與可分離卷積過程分別如圖4和圖5所示。

圖4 普通卷積過程圖Fig.4 Ordinary convolution process diagram

(b) 逐點卷積過程

通過可分離卷積操作可以減少卷積過程中的運算次數,假設輸入數據大小為DK×DK×M,輸出通道數目為N的特征圖。若采用傳統卷積操作,需要將N個DK×DK×M的卷積核完成卷積操作,共需參數數量為DK×DK×M×N×DF×DF。

若采用可分離卷積操作,在逐通道卷積過程中通過M個DK×DK×1的卷積核進行卷積操作,在逐點卷積過程中通過N個1×1×M的卷積核進行卷積操作即可完成普通卷積的卷積效果,共需參數數量為DK×DK×M×DF×DF+M×N×DF×DF??煞蛛x卷積操作與傳統卷積操作所需參數數量之比如式(2)所示:

(2)

所節省的計算資源成本與卷積核大小及輸出通道數目成正比。

2 網絡模型構建

2.1 主干網絡

由于輸入數據為滾動軸承一維振動信號,通過構建1D-CNN作為故障診斷模型的主干,所構建主干網絡模型的卷積層和池化層均為一維結構。圖6為 1D-CNN模型結構,模型包括4個卷積層、1個最大池化層、1個自適應最大池化層以及1個全連接層和瓶頸層。瓶頸層由1個輸入輸出維度相同的全連接層、1個ReLU激活函數以及1個丟失層組成,作用是更改通道數目,消除對輸入特征維度的限制并減少網絡訓練所需參數的數量,并讓源域和目標域共享相同的模型和參數。相比于傳統CNN,主要做了如下改進:

圖6 1D-CNN結構圖Fig.6 1D-CNN structure diagram

① 在每次卷積操作后需要對輸出進行批歸一化和激活處理,通過批歸一化處理可以增加模型的泛化能力。

② 在模型的第1個卷積層中,采用大尺度卷積核來提取短時特征,并為后續網絡的構建提供更多的數據。

③ 在網絡結構末尾添加瓶頸層,從而消除維度限制,使得源域和目標域可以共享相同的模型和參數。

2.2 深度1D-SCNN

在主干CNN的基礎上,引入可分離卷積操作以及殘差模塊,將主干CNN的卷積層替換為可分類卷積層構建一維可分離卷積神經網絡(One-dimensional Separable Convolutional Neural Network,1D-SCNN)。在主干CNN中,若輸入通道數為16、輸出通道數為32,卷積層采用32個卷積寬度為3的卷積核進行卷積操作,所需運算參數為16×3×32。在1D-SCNN中,首先進行逐通道卷積,采用16個卷積寬度為3的卷積核進行卷積操作,再進行逐點卷積,采用32個卷積寬度為1的卷積核進行卷積操作。通過對卷積層進行可分離操作,共需運算次數為16×3+16×1×32,可以降低的參數量為976。圖7為1D-SCNN模型結構,1D-SCNN和傳統CNN相比有如下優勢:

圖7 1D-SCNN結構圖Fig.7 1D-SCNN structure diagram

① 減少了卷積過程中所需的參數,降低了網絡訓練所需的時間。

② 改變傳統卷積模式,實現了通道和區域的分離。

③ 通過添加殘差連接模塊,保證網絡訓練的準確率。

3 實驗驗證

3.1 數據集介紹

為驗證1D-SCNN在滾動軸承故障中的效果,采用美國凱斯西儲大學(CWRU)的軸承數據集[18]進行實驗。該數據集為Matlab的mat格式,數據內容分為風扇端和驅動端,采樣頻率為12 kHz和48 kHz,故障類型包括滾動體故障、外圈故障以及內圈故障,損傷直徑包含0.177 8、0.335 6、0.533 4 mm,不同負載對應不同轉速,分別為1 730、1 750、1 772、1 797 r/min。

采用12 kHz采樣頻率下的驅動端軸承振動信號為數據集,共13組故障數據以及1組健康數據,如表1所示。取1 024個采樣點作為采樣長度,按照的8∶2的比例,將每種類型的數據劃分為訓練集和測試集。

表1 CWRU軸承故障數據集

為了更直觀地展示CWRU軸承振動信號,繪制其時域以及經過快速傅里葉變換的頻域數據圖,圖8為12 kHz下驅動端軸承在0負載情況下的內圈故障數據時域以及頻域信號圖。

(a) 時域信號

(b) 頻域信號

3.2 參數設置

對12 kHz的驅動端軸承數據進行分類,表2列出了14種軸承工況,根據故障尺寸將1種正常軸承數據和3種故障類型(內圈故障、滾子故障、外圈故障)分為14種狀態(1種健康狀態和13種故障狀態)。

表2 CWRU軸承工況劃分

在遷移學習任務設置中,所獲取的數據集在4種負載狀態下,對應4種不同工作速度,將這些工作條件視為不同的任務,如表3所示,包括0、1、2、3,例如0→1表示電機負載為0 kW的源域遷移到電機負載為0.735 kW的目標域,共有12個遷移學習任務。

表3 CWRU遷移學習任務設置

根據模型構建部分所描述的模型結構搭建1D-CNN網絡,通過反復實驗最終確定1D-CNN模型的相關參數,如表4所示。按照輸出特征圖的大小,1D-CNN共有5個卷積層。從卷積層1~4依次減小特征向量大小,最終輸出大小為256的特征向量。為提取短時特征,第1個卷積層中采用大尺度卷積核,在模塊2和模塊3中卷積核設置大小為3,在網絡結構末尾添加一維全連接層,從而消除輸入特征維度的限制并減少網絡訓練所需參數的數量。

表4 1D-CNN參數

通過將可分離卷積替代普通卷積實現1D-SCNN模型的構建,1D-SCNN模型的相關參數如表5所示。

表5 1D-SCNN參數

3.3 實驗結果分析

為驗證所提網絡的有效性,基于深度學習框架為Pytorch1.1構建改進的SCNN,仿真硬件為Intel(R) Core(TM) i5-7300HQ CPU @ 2.50 GHz、8 GB內存的計算機。

3.3.1 模型訓練

首先訓練普通遷移學習,按照設置的參數構建網絡模型,通過帶標簽的源域數據集分別對構建好的 1D-CNN、1D-SCNN、1D-VGG16及1D-ResNet50網絡模型進行預訓練,獲取預訓練模型,根據獲取的預訓練模型對不帶標簽的目標域數據進行測試,模型訓練過程如圖9所示。為觀測訓練效果,選取前300 epoch進行展示。4個網絡模型均在150 epoch內收斂穩定,在源域和目標域的訓練準確率都可以達到99%,但是SCNN模型具有更好的收斂效果。

(a) SCNN模型

(d) VGG16模型

3.3.2 對比分析

從時間角度對不同網絡進行分析,在域對抗遷移學習中,4種網絡的源域訓練過程、源域測試過程以及目標域測試過程的200 epoch訓練時間分別如圖10所示。由于網絡層數不同,1D-SCNN相比1D-VGG16以及1D-ResNet50在網絡訓練所需的時間上具有明顯優勢,此外1D-SCNN為了實現和 1D-CNN相同的卷積操作需要更多的卷積層,但是1D-SCNN相比1D-CNN的網絡訓練時間在源域訓練集、源域測試集以及目標域測試集上分別降低了4.8%、8.9%以及8.0%。

圖10 不同網絡訓練消耗時間Fig.10 Time spent on training different networks

從準確率以及損失值角度對不同網絡進行分析,對比數據為網絡收斂穩定后所獲取的最大準確率以及該準確率對應的損失值。圖11為4種遷移學習任務對應的最大準確率和損失值,在4種遷移學習任務中,1D-SCNN在各個遷移學習任務中具有最高的識別準確率,并且識別效果越好的網絡損失值越小。

圖11 不同遷移學習任務的準確率以及損失值對比Fig.11 Comparison of accuracy and loss values of different transfer learning tasks

為進一步驗證1D-SCNN模型的特征提取能力,采用t-SNE降維算法將原始輸入和所提取特征按相似度投影到二維空間中進行分析,圖12為原始樣本分布。在1D-SCNN、1D-CNN、1D-VGG16、1D-ResNet50 這4種網絡模型中,1D-ResNet50模型和1D-SCNN模型訓練效果相近。對于遷移學習任務T01,圖13(a)為1D-SCNN模型輸出結果,圖13(b)為1D-ResNet50模型輸出結果,1D-SCNN可以將13種故障類型和1種正常數據類型完全區分,且不同標簽樣本在二維空間分布中很集中,1D-ResNet50模型的輸出特征也可以區分不同的樣本但是分類界限以及樣本集中程度均不如1D-SCNN模型。

圖12 原始樣本分布Fig.12 Raw sample input

(b) 1D-ResNet50模型輸出結果

4 結論

針對工業故障診斷過程中的低時延和高準確性需求,在傳統CNN的基礎上提出深度SCNN,通過對卷積層進行可分離操作,降低卷積過程中所需的參數數量進而降低計算時延,并向SCNN中添加殘差網絡來保證診斷準確率。通過構建主干CNN、SCNN、VGG16以及ResNet50這4種CNN模型,分別對CWRU滾動軸承振動數據進行分類識別來驗證所構建網絡的有效性。實驗結果表明,本研究方法在滾動軸承故障識別中具有較高的識別準確率以及更快的訓練速度。

猜你喜歡
殘差準確率軸承
軸承知識
基于雙向GRU與殘差擬合的車輛跟馳建模
軸承知識
軸承知識
軸承知識
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合