?

云模型和集成分類結合的故障數據不平衡學習?

2024-01-05 07:16馬森財趙榮珍吳耀春
振動、測試與診斷 2023年6期
關鍵詞:訓練樣本分類器軸承

馬森財, 趙榮珍, 吳耀春

(蘭州理工大學機電工程學院 蘭州,730050)

引 言

大數據時代的來臨為旋轉機械故障數據的處理、存儲和利用帶來了新的機遇和挑戰[1]。一直以來,分類問題是故障診斷甚至是機器學習研究領域的重要組成部分[2-4]。然而,在采集的旋轉機械狀態數據中,某些類別的數據數量遠少于其他一些類別的數據數量,但這些樣本數量較少的類別往往又十分重要,不可忽略。此現象造成了不平衡數據集的產生,傳統分類器在這種類間分布不平衡的數據集上訓練時常常會出現分類面偏移,導致故障誤分類,使模型辨識精度降低。因此,對不平衡數據分析技術進行深入研究,是工業大數據挖掘的重要前提之一,對旋轉機械智能故障診斷技術的發展具有積極的促進作用。

針對不平衡數據的學習,相關研究主要從數據層面、分類算法層面來找尋和探討其解決方法。文獻[5]提出了一種不平衡分類與深度學習相結合的疾病自動檢測方法,首先使用Borderline-SMOTE算法對訓練集做了平衡處理,然后設計了一種一維深度卷積神經網絡,并利用平衡處理后的訓練集進行訓練,有效避免了由于多數類樣本較多而造成的過擬合。文獻[6]提出了基于密度聚類與多工序制造特征的質檢數據過采樣方法,在少數類簇中進行了數據生成,使用多數類簇剔除了無效數據,解決了汽車零部件質檢數據存在的合格與不合格產品數量不平衡問題,提高了汽車零部件的檢測效率。文獻[7]提出了一種混合方法來解決不平衡數據學習問題,利用聚類方法指導了新的樣本生成,并構建了集成模型以進一步提升算法的性能。上述研究成果都有效解決了不平衡數據帶來的困擾,且經歸納后發現,結合集成學習的不平衡學習算法在解決類別分布不平衡的問題上卓有成效。大量研究表明[8-11],在數據層面和分類算法層面共同處理數據不平衡問題將成為主要趨勢。

筆者基于上述分析,首先,通過實驗分析不同程度的類別不平衡數據作為訓練集時對傳統分類器的影響;其次,提出一種基于云模型的樣本再生技術,并將其和集成ELM 分類模型結合,在樣本層面和分類器層面上解決訓練樣本類別不平衡對故障模式辨識精度的影響;最后,將該方法運用在滾動軸承故障數據集中,通過實驗驗證了方法的可行性。

1 相關理論簡介

1.1 云模型

假設U={x}為一個精確數值組成的論域,C為與U對應的定性概念,U中的元素xi對于定性概念C的確定度為yi,是一個在穩定范圍內的隨機數,則x在論域U上的分布稱為云,每一個xi稱為云滴。云模型用期望Ex、熵En和超熵He這3 個特征來描述云滴群的整體特性。

云模型是一種能實現定性定量轉換的雙向認知模型,其依靠云發生器來實現,云發生器主要分為正向云發生器和逆向云發生器2 種。正向云發生器根據云的3 個數字特征(Ex,En,He)產生若干含有確定度yi的云滴(xi,yi),實現了定性到定量的映射。其中:定量值xi為論域U上的一次隨機實現,服從以Ex為期望、En′2為方差的高斯分布。同時,E′2n又是服從以En為期望、He2為方差的高斯分布的一次隨機實現。因此,xi對U的確定度yi滿足

逆向云發生器可以將云滴群(x,y)轉換為以數字特征(Ex,En,He)表示的云模型,實現從定量值到定性概念的轉換。云發生器模型如圖1 所示,然而在實際工作中表示云滴確定度的y值很難獲得,因此圖1(b)所示的逆向云發生器實用性并不高。針對此問題,文獻[12]提到了一種無需確定度y的逆向云發生器算法,根據此改進算法,可以在實際樣本的基礎上計算滾動軸承各狀態下特征的高斯云分布模型指標,即期望Ex、熵En和超熵He。具體計算公式如下

其中:為樣本均值;S2為樣本方差。

1.2 裝袋式集成學習算法

裝袋式(Bagging)集成學習是并行式集成學習方法的代表,在學習過程中要構造多個學習器。若構造的學習器是同一類,則稱為同質集成,反之則稱之為異質集成[13]。其在學習時,先從包含n個樣本的原始訓練集中隨機選擇一個樣本,將其復制到訓練子集中,此時該樣本仍存在于初始訓練集中,在下次采樣時仍有被選中的可能。這樣,經過n次隨機采樣,可得到一個內含n個樣本的訓練子集(該訓練子集中可含有重復的樣本)。照此方法,重復t輪可得到t個訓練子集,然后基于每個訓練子集訓練出一個子學習器。Bagging 集成學習的子學習器也被稱作弱學習器,常用的弱學習器包括人工神經網絡和決策樹等,這些學習器在m類問題上的識別準確率一般不低于1/m。

Bagging 集成學習結果通過綜合t個子學習器的學習結果得到。對于回歸預測問題,通常將子學習器的結果經過簡單平均后得到集成學習結果;對于分類問題,最終結果常用投票法得到。

綜上所述,集成學習綜合多個分類器給出了最終的預測結果,但多個分類器參與學習會消耗大量時間。為彌補這一缺陷,需要選用效率較高、泛化性相對較好的子分類器。ELM 與其他分類器相比,恰好具有計算復雜度低、泛化性強等特點[14]。

1.3 定義的樣本類別不平衡程度度量公式

在類別不平衡問題中,將樣本數較多的一類稱為多數類,反之被稱為少數類。設多數類樣本數為kmuch,少數類樣本數為kleast,則樣本不平衡比率(imbalance ratio,簡稱IR)的計算公式為

根據IR 值,類別不平衡可劃分為輕度不平衡和重度不平衡問題。前者的IR 值較小,對傳統分類器的分類影響不大;后者會在極端條件下令分類器完全失效。

2 基于云模型的樣本生成模型和基于裝袋法的集成ELM 模型

2.1 滾動軸承狀態信號采集和信號特征提取

本研究以無錫市厚德自動化儀表有限公司的一套雙跨雙轉子綜合故障模擬平臺(圖2)來模擬滾動軸承故障。故障軸承安裝端如圖3 所示,信號的采樣通道共5 個,其中:通道1~3 連接1 個三向加速度傳感器,采集故障軸承的2 個徑向和1 個軸向方向的振動加速度信號;通道4 和5 各自連接1 個電渦流傳感器,采集軸的徑向振動信號(故障軸承直接安裝在該軸上)。圖4 為具體的故障軸承,其中:1 為內圈故障軸承;2 為外圈故障軸承;3 為滾動體故障軸承;4 為保持架故障軸承。 實驗測得滾動軸承NSK6308 在4 種故障和正常共5 種狀態下的振動信號5×80=400 組,選擇5×20 組作為測試樣本。采樣轉速分別為2 600,2 800,3 000 和3 200 r/min,采樣頻率為8 kHz。

圖2 雙跨雙轉子綜合故障模擬平臺Fig.2 Double-span double-rotor comprehensive fault simulation platform

圖3 故障軸承安裝端Fig.3 Fault bearing mounting end

圖4 故障軸承Fig.4 Fault bearing

轉速為3 000 r/min 時軸承部分故障的振動信號如圖5 所示。將振動信號用一維小波進行消噪后,構建出5×11=55 維的多域多通道特征數據集,為i通道構造的原始特征集如表1 所示。為后續實驗及分類考慮,將特征數據歸一化至[-1,1]的區間上。

表1 為i 通道構造的原始特征集(i=1~5)Tab.1 The original feature set for the channel i(i=1~5)

圖5 3 000 r/min 時軸承部分故障的振動信號Fig.5 Vibration signal of partial failure when rolling bearing speed is 3 000 r/min

2.2 基于云模型的滾動軸承特征樣本再生成技術

設滾動軸承的狀態序號m=(1,2,3,4,5),分別表示滾動體故障、保持架故障、內圈故障、外圈故障和正常狀態;特征序號為j=(1,2,…,55)。首先,以滾動軸承在狀態m下第j個特征的特征值為輸入,利用1.1 節所提的改進逆向云算法計算出云模型指標(Exm,j,Enm,j,Hem,j);其次,將該指標作為正向云發生器的輸入,可以獲得帶有確定度的云滴(xi,yi),設云滴個數i=1 000。高斯云由這些云滴匯聚而成,云滴的xi值即可視為狀態m下第j個特征的再生樣本。

設樣本數為60 的特征值期望為標準值,以實際樣本數為自變量、實際樣本數目下的特征期望與標準期望的比值為因變量來繪圖,不同數目實際樣本的期望與標準期望的關系如圖6 所示。由圖可知,當實際樣本的數量極少時(最少為1),特征云模型會發生期望Ex偏移的現象,其中外圈故障特征偏移較為明顯,但總體上樣本特征的期望值趨于相對穩定,這說明基于云模型的樣本再生技術在該故障數據集上具有可行性。

圖6 不同數目實際樣本的期望與標準期望的關系Fig.6 Relationship between expectations of different numbers of true samples and standard expectations

以轉速為3 000 r/min 時滾動體故障和軸承外圈故障情況下通道1 信號的頻譜二階矩為例來說明樣本的再生成過程。設少數類的實際樣本數僅為8個,2 種故障情況下通道1 振動信號的頻譜二階矩云模型如圖7 所示,其橫、縱坐標均為無量綱量。實際樣本原本無對應的確定度值,故無法進行基于云模型的可視化表達。每個特征屬于對應概念的程度,即確定度可按式(6)進行計算

圖7 2 種故障情況下通道1 振動信號的頻譜二階矩云模型Fig.7 Spectrum second-order momen cloud model of the vibration signal of channel 1 under two fault conditions

其 中:ym,j為 狀 態m下 第k個 實 際 樣 本Nm,k的 第j個特征與對應特征云的確定度;Fkm,j為實際樣本Nm,k的第j個特征值;Exm,j為狀態m中第j個特征的期望值;En′m,j為狀態m中 第j個 特 征 的等效方 差,是 以特征的En為期望、He為標準差生成的一個正態隨機數。

由圖7(b,d)還可看出,特征值符合高斯分布,且大多數樣本分布在高斯云的峰頂,從頂至尾逐漸減少。因此,在借助云模型進行樣本生成時要進行分層抽樣,本研究將確定度范圍[0,1]等分為5 個區間,分別按照5∶4∶3∶2∶1 的比例來進行抽樣,以獲得不同確定度區間內的再生特征樣本。虛擬樣本的采樣分布如圖8 所示。

圖8 虛擬樣本的采樣分布Fig.8 Sampling distribution of virtual samples

云模型是根據現存的實際樣本構造而出,同樣,再生樣本也必須根據已有的樣本來衍生。通過基于固有樣本的高斯云模型,可以衍生出滾動軸承在不同狀態下各個特征的再生樣本。

2.3 基于裝袋法的集成極限學習機

在隱含層節點相同的情況下,相較于極限學習機,集成極限學習機具有更好的分類精度。本研究將ELM 的隱含層節點數設定為10 個,在確定了隱含層節點的情況下,以分類誤差不小于95%為原則,確定參與集成學習的子分類器數目(即ELM 的數目)。經驗證,子分類器ELM 的數目不小于30 時滿足實驗要求,至此完成了集成極限學習機的2 個超參設置。E-ELM 學習流程如圖9 所示,其中輸入至子分類器ELMi的訓練子集Ti由訓練集通過自助采樣得到,測試樣本U的最終結果借助了相對多數投票法,綜合考慮了各子分類器的結果。

圖9 E-ELM 學習流程Fig.9 Learning process of E-ELM

2.4 總體流程

設計的方法流程如下:

1) 計算訓練集中各類的樣本數km(m=1,2,…,5),kmuch=max(km),若50

2) 按式(1)計算各類樣本的IR 值,將IR>1.4的類視為少數類,需要進行樣本生成,將該類的樣本數擴充至60;若IR<0.857,則該類樣本過多,需要進行欠采樣,使樣本數目至60;

3) 將平衡樣本集輸入至E-ELM 中進行訓練;

4) 利用測試集驗證分類效果。

本研究中各類訓練樣本最大數量為60,故無需進行欠采樣操作。圖10 為不平衡數據學習流程圖。

圖10 不平衡數據的學習流程Fig.10 The learning process of imbalanced data

3 實驗分析及探討

3.1 訓練樣本類別不平衡對傳統分類器的影響

實驗時,少數類樣本數目統一設為5,即IR=60/5=12,此時訓練樣本類別分布極度不平衡。分別用“G”,“B”,“N”,“W”和“Z”表示訓練集中滾動體故障樣本較少、保持架故障樣本較少、內圈故障樣本較少、外圈故障樣本較少以及正常狀態樣本較少,將其定義為一類不平衡情況;“GB”,“GN”,“GW”,“BN”和“BW”表示對應的兩類樣本數據量較少,將其定義為二類不平衡情況。

本節驗證了滾動軸承故障訓練數據存在一類和二類不平衡時,傳統分類器ELM、誤差反向傳播網絡(back propagation neural networks,簡稱BPNN)和K 近鄰(K-nearest neighbor,簡稱KNN)分類器的識別精度。在實驗時,ELM 和E-ELM 的隱層神經元數目均為10;BPNN 的隱含層為1 層,隱層神經元數目設為12,訓練最小誤差為0.1,訓練次數為1 000次;KNN 的近鄰樣本數目設置為6。

在2 600 和3 000 r/min 2 種轉速下,一類不平衡訓練樣本分類器的分類精度分別如表2,3 所示;二類不平衡訓練樣本分類器的分類精度分別如表4,5所示。按照組合C25=10,即兩類不平衡的情況有10 種,表中只取5 種二類不平衡情況進行實驗。

表2 2 600 r/min時一類不平衡訓練樣本分類器的分類精度Tab.2 Classification accuracy of classifiers with a kind of imbalanced training samples at 2 600 r/min %

表3 3 000 r/min時一類不平衡訓練樣本分類器的分類精度Tab.3 Classification accuracy of classifiers with a kind of imbalanced training samples at 3 000 r/min %

表4 2 600 r/min時二類不平衡訓練樣本分類器的分類精度Tab.4 Classification accuracy of classifiers with two kinds of imbalanced training samples at 2 600 r/min %

由表2~5 可知:訓練樣本不平衡對KNN 分類器影響最大;訓練集二類不平衡對分類器的影響比一類不平衡要大;BPNN 和KNN 對軸承外圈故障樣本不平衡的訓練集比較敏感;在樣本極度不平衡時,ELM 的辨識精度總體上要高于BPNN 和KNN。

3.2 本研究所提樣本再生技術的有效性驗證

采用本研究的樣本再生技術將類別分布不平衡的訓練集補充完整后訓練分類器,并驗證其分類精度。在3 000 和3 200 r/min 轉速下,訓練集經再生技術補充后訓練的分類器學習能力分別如表6,7所示。

表6 3 000 r/min 時訓練樣本經再生技術補充后訓練的分類器學習能力Tab.6 The learning ability of classifiers trained after training samples supplemented by regeneration technology at 3 000 r/min %

表7 3 200 r/min 時訓練樣本經再生技術補充后訓練的分類器學習能力Tab.7 The learning ability of classifiers trained after training samples supplemented by regeneration technology at 3 200 r/min %

對比表3 和表6 發現,經再生樣本補充的訓練集訓練的分類器在分類精度上有較好的提升。對比同轉速下不同分類器的分類精度發現,ELM 的分類精度較好,且ELM 的訓練時間(0.021 s)低于BP 神經網絡的訓練時間(0.27 s),這說明ELM 比BPNN 更適合作為Bagging 集成學習模型的子分類器。

3.3 本研究的樣本再生技術和E-ELM 結合后對不平衡數據集的學習效果驗證

為獲得更好的學習效果,不平衡訓練集用基于云模型的再生樣本補充平衡后訓練出了E-ELM 模型,擬在算法層面提高數據的最終學習效果。結合方法對不同工況下一類不平衡數據和二類不平衡數據的學習情況分別如表8,9 所示。

表8 結合方法對不同工況下一類不平衡數據的學習情況Tab.8 The combined method on the learning situation of the one type of unbalanced data under different working conditions %

表8 表明,基于云模型的樣本再生技術和E-ELM 結合后,能大幅度改善一類不平衡數據的學習效果。對比表9 和表4、表5 后發現,本研究方法對于二類不平衡數據同樣具有較強的學習能力。

表9 結合方法對不同工況下二類不平衡數據的學習情況Tab.9 The combined method on the learning situation of the two types of unbalanced data under different working conditions %

3.4 實驗小結

首先,驗證了不平衡數據對傳統分類器的影響;其次,用所提的樣本再生技術平衡了數據,并用傳統分類器驗證了本方法在不平衡問題上的作用;最后,證明了E-ELM 作為本方法體系的分類器時,對不平衡學習的促進作用。實驗表明,本研究設計的方法能較好地消除訓練樣本類別不平衡對滾動軸承故障辨識精度的影響,解決了因個別類訓練樣本較少引起的數據不平衡問題。

4 結 論

1) 基于云模型的樣本再生技術本質上是依靠特征自身的分布趨勢來構造虛擬樣本,可視化效果強,可以直觀地了解樣本的分布。

2) 采用分層抽樣技術從眾多再生樣本中獲取部分用于填充不平衡訓練集,在兼顧泛化性的同時盡量使得大部分再生樣本靠近期望值。

3) 在分類階段引入了集成的思想,以消耗一定時間為代價換取了分類精度的大幅提高。

4) 正態分布并不是所有故障數據的分布形式。有時同一類故障聚類時,類內會聚成若干個小簇?;谠颇P偷臉颖驹偕杉夹g在處理這種類型的數據時是否有較好的效果,還需進一步探討。

猜你喜歡
訓練樣本分類器軸承
軸承知識
軸承知識
軸承知識
軸承知識
人工智能
BP-GA光照分類器在車道線識別中的應用
寬帶光譜成像系統最優訓練樣本選擇方法研究
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
融合原始樣本和虛擬樣本的人臉識別算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合