?

基于機器學習的機械設備故障預測

2023-09-25 01:10聶亞珍
關鍵詞:決策樹梯度機械設備

聶亞珍,崔 俊

(湖北師范大學 經濟管理與法學院,湖北 黃石 435002)

0 引言

制造業是國民經濟的主體,近十年來,嫦娥探月、祝融探火、北斗組網,一大批重大標志性創新成果引領中國制造業不斷攀上新高度。作為制造業的核心,機械設備在工業生產的各個環節都扮演著不可或缺的重要角色。但是,在機械設備運轉過程中會產生不可避免的磨損、老化等問題,隨著損耗的增加,會導致各種故障的發生,影響生產質量和效率。實際生產中,若能根據機械設備的使用情況,提前預測潛在的故障風險,精準地進行檢修維護,維持機械設備穩定運轉,不但能夠確保整體工業環境運行具備穩定性,也能切實幫助企業提高經濟效益。

現實生活中機械設備的使用情況數據是嚴重不平衡的,出現故障的設備遠遠少于正常設備的,為了更好的學習故障設備數據,要進行樣本不平衡處理。目前針對不平衡數據集的研究主要集中在分類算法層面和數據預處理層面。分類算法層面主要是代價敏感學習[1]、集成學習[2]或改進現有分類算法[3]。數據預處理層面,主要有上采樣和下采樣方法,下采樣包括隨機下采樣,樣本鄰域選擇的下采樣,樣本鄰域清理的下采樣等。上采樣包括隨機上采樣,SMOTE上采樣及其改進的算法[4],ADASYN上采樣[5]。由于工業設備異常的樣本遠遠少于正常設備,對數據集進行過采樣處理是解決數據量少且不平衡的有效辦法。本文采用的是ADASYN算法。

變量選擇的方法很多,常用方法有過濾法、包裝法、嵌入法,并且在上述方法中又有單變量選擇、多變量選擇、有監督選擇、無監督選擇。結合工業設備數據的具體特點,本文采用樹模型算法輸出的feature importance值結合連續變量相關性分析來進行變量選擇。

二分類和多分類預測的算法有很多,Logistics算法,神經網絡算法,決策樹算法,支持向量機算法,KNN算法,樸素貝葉斯算法,集成學習算法等。本文采用LightGBM算法進行二分類預測,來判別機械設備是否發生故障,用決策樹模型進行多分類預測,用于判別機械設備發生故障的具體類別,并通過對決策樹模型的可視化研究來探究每類故障的主要成因,找出與其相關的特征屬性,進行量化分析,挖掘可能存在的模式/規則。

1 算法模型相關原理

1.1 One-hot編碼

One-hot編碼是一種非常有效的編碼方式,它將不可排序的離散變量映射到歐式空間,離散變量的每種取值就是歐式空間中的某個點,這使得距離的比較與相似度的度量可計算,并且保持了原有離散變量的等距特性。歐式距離的計算公式如下:

(1)

通過One-hot編碼后,離散變量的每一個維度都可以看成一個連續變量。編碼后的變量,其數值范圍已經在[0,1],這與變量歸一化效果一致。

1.2 ADASYN算法

ADASYN算法即自適應綜合過采樣方法。算法步驟如下:

1)計算不平衡度

記少數樣本為ms,多數樣本為ml,則不平衡度為:

d=ms/ml,d∈[0,1]

(2)

2)計算需要合成的樣本數量

G=(ml-ms)*b,b∈[0,1]

(3)

其中b參數控制渴望的平衡水平,當b=1時,即G等于少數類和多數類的差值,此時合成數據后的多數類個數和少數類數據正好平衡。

3)計算比率r

ri=Δi/K,i=1,2,3,…,ms

(4)

分子Δi是xi(屬于少數類別)的K個近鄰中屬于多數類別的樣本數量。

4)將r歸一化處理

(5)

5)計算對于xi需要生成的樣本數量

6)gi個樣本生成執行下面的循環:

從的K個鄰近中隨機選擇一個少數類別xzi,合成數據樣本公式如下:

si=xi+(xzi-xi)×λ

(7)

λ是[0,1]間的隨機數。

1.3 相關性指標變量篩選

相關性度量的準則就是“最大相關最小冗余”,即輸入變量與標簽變量之間要有強相關,而輸入變量之間要弱相關,以去除變量間的冗余,消除多重共線性問題。一般可以采用相關系數反映變量之間的相關性,相關系數計算公式如下:

(8)

其中,Coν(x,y)是兩個變量的協方差,σx為變量的標準差。協方差本身就能反映變量之間的相關性,這里除以各自的標準差是一種歸一化去量綱的過程。相關系數結果的關聯程度如表1所示。

表1 相關性水平

1.4 LightBGM模型變量選擇

LightBGN變量選擇時側重于對變量的重要性進行排序,即LightBGM的結構構造完成后,對于每一個樣本經過樹結構的映射,都會經過某一個變量,則該變量的重要性就很高。反之,某一個變量組成的規則,只有很少的樣本才會經過該變量,那么這個變量的重要性就很低。因此,LightGBM變量選擇并沒有給出選擇多少變量,而是給出每個變量的重要性排序,剔除重要性低的變量。

1.5 LightGBM的基本原理

LightGBM的基本原理如下:

1)直方圖算法(Histogram算法)

LightGBM采用了基于直方圖的算法將連續的特征值離散化成了K個整數,構造寬度為K的直方圖,遍歷訓練數據,統計每個離散值在直方圖中的累積統計量。在選取特征的分裂點的時候,只需要遍歷排序直方圖的離散值。使用直方圖算法降低了算法的計算代價,XGBoost采用的預排序需要遍歷每一個特征值,計算分裂增益,而直方圖算法只需要計算K次,提高了尋找分裂點的效率;降低了算法的內存消耗,不需要存儲預排序結果,只需要保存特征離散化后的值。

但是特征值被離散化后,找到的并不是精確的分割點,會不會對學習的精度上造成影響呢?在實際的數據集上表明,離散化的分裂點對最終學習的精度影響并不大,甚至會更好一些。因為這里的決策樹本身就是弱學習器,采用直方圖離散化特征值反而會起到正則化的效果,提高算法的泛化能力。

大多數的決策樹學習算法的樹生成方式都是采用按層生長(level-wise)的策略。如圖1所示:

圖1 按層生長策略

不同的是,LightGBM采用了一種更為高效的按葉子生長(leaf-wise)的策略。該策略每次從當前決策樹所有的葉子節點中,找到分裂增益最大的一個葉子節點,然后分裂,如此循環往復。這樣的機制,減少了對增益較低的葉子節點的分裂計算,減少了很多沒必要的開銷。與leve-wise的策略相比,在分裂次數相同的情況下,leaf-wise可以降低誤差,得到更好的精度。Leaf-wise算法的缺點是可能會生成較深的決策樹。因此,LightGBM在Leaf-wise上增加了限制最大深度的參數,在保證算法高效的同時,防止過擬合。如圖2所示:

圖2 按葉子生長策略

3)單邊梯度采樣算法(Grandient-based One-Side Sampling,GOSS)

LightGBM使用GOSS算法進行訓練樣本采樣的優化[3]。在AdaBoost算法中,采用了增加被錯誤分類的樣本的權重來優化下一次迭代時對哪些樣本進行重點訓練。在GBDT算法中沒有樣本的權重,LightGBM算法采用了基于每個樣本的梯度進行訓練樣本的優化:具有較大梯度的數據對計算信息增益的貢獻比較大;當一個樣本點的梯度很小,說明該樣本的訓練誤差很小,即該樣本已經被充分訓練。然而在計算過程中,僅僅保留梯度較大的樣本(例如:預設置一個閾值,或者保留最高若干百分位的梯度樣本),拋棄梯度較小樣本,會改變樣本的分布并且降低學習的精度。GOSS算法的提出很好的解決了這個問題。

GOSS算法的基本思想是首先對訓練集數據根據梯度排序,預設一個比例,保留在所有樣本中梯度高于該比例的數據樣本;梯度低于該比例的數據樣本不會直接丟棄,而是設置一個采樣比例,從梯度較小的樣本中按比例抽取樣本。為了彌補對樣本分布造成的影響,GOSS算法在計算信息增益時,會對較小梯度的數據集乘以一個系數,用來放大。這樣,在計算信息增益時,算法可以更加關注“未被充分訓練”的樣本數據。

4)Exclusive Feature Bundling 算法(EFB)

國內資料表明先天性聽力損傷其發病率高達2‰~6‰,在目前可篩查的出生缺陷中其發病率最高[1],輕中度聽力障礙均能影響患兒的語言、認知及社交能力的發展[2]。目前自動耳聲發射檢查(otoacoustic emission,OAE)已廣泛應用于新生兒聽力篩查。本所從2006年起利用耳聲發射檢查對本縣出生的3個月內嬰兒進行聽力篩查,現將2006-2011年開展的聽力篩查情況進行總結分析,報道如下。

LightGBM算法不僅通過GOSS算法對訓練樣本進行采樣優化,也進行了特征抽取,以進一步優化模型的訓練速度。但是這里的特征抽取與特征提取還不一樣,并不減少訓練時數據特征向量的維度,而是將互斥特征綁定在一起,從而減少特征維度。該算法的主要思想是:假設通常高維度的數據往往也是稀疏的,而且在稀疏的特征空間中,大量的特征是互斥的,也就是,它們不會同時取到非0值。 這樣,可以安全的將互斥特征綁定在一起形成一個單一的特征包(稱為Exclusive Feature Bundling)[6]。

模型評估指標Recall召回率公式如下:

其中TP是真正例即正確預測出來故障的設備數,FN為假反例即錯誤預測為正常的設備數。召回率衡量了在所有正例中模型正確預測的概率。

1.6 決策樹模型

決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy表示系統的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念[4]。

決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。

模型評價指標準確率Acc公式如下:

(10)

其中TP為真正例,TN為真反例,FP為假正例,FN為假反例。多分類問題需要求出所有類別的上述值然后算出平均值代入公式求出。

2 實驗與結果分析

2.1 實驗數據

此次實驗的數據為某企業機械設備的使用情況及故障發生情況數據,用于設備故障預測及故障主要相關因素的探究。數據包含9 000行,每一行數據記錄了機械設備對應的運轉及故障發生情況記錄。因機械設備在使用環境以及工作強度上存在較大差異,其所需的維護頻率和檢修問題也通常有所不同。數據提供了實際生產中常見的機械設備使用環境和工作強度等指標,包含不同設備所處廠房的室溫(單位為開爾文K)記為SW1,其工作時的機器溫度(單位為開爾文K)記為SW2、轉速(單位為每分鐘的旋轉次數rpm)記為ZS、扭矩(單位為牛米Nm)記為NJ,及機器運轉時長(單位為分鐘min)記為SYSC。除此之外,還提供了機械設備的統一規范代碼、質量等級及在該企業中的機器編號,其中質量等級分為高、中、低(HML)三個等級。對于機械設備的故障情況,數據提供了兩列數據描述——“是否發生故障”和“具體故障類別”。其中“是否發生故障”取值為0/1,0代表設備正常運轉,1代表設備發生故障;“具體故障類別”包含6種情況,分別是NORMAL、TWF、HDF、PWF、OSF、RNF,其中,NORMAL代表設別正常運轉(與是否發生故障”為0相對應),其余代碼代表的是發生故障的類別,包含5種,其中TWF代表磨損故障,HDF代表散熱故障,PWF代表電力故障,OSF代表過載故障,RNF代表其他故障。

2.2 實驗步驟

1)對原始數據集的離散變量機器質量等級進行One-hot編碼。

2)對編碼后的數據集進行ADASYN上采樣。

3)對采樣之后的樣本進行變量篩選。

4)篩選后的數據集進行二分類模型訓練;篩選后數據集去除正常樣本進行多分類模型訓練。

5)對多分類模型可視化,并進行成因分析。

流程圖如圖3所示:

圖3 流程圖

2.3 實驗結果

對離散變量機器質量等級進行One-hot編碼結果如表2所示:

表2 機器質量等級的One-hot編碼

ADASYN上采樣結果如圖4所示:

圖4 采樣前后對比圖

連續變量相關性分析如表3所示。

表3 變量之間相關系數

可以看到室溫和機器溫度的相關系數為0.839,表示兩者有很強的相關性,因此需要剔除其中一個變量,LightGBM算法訓練數據,輸出變量重要性排序如圖5所示:

圖5 變量重要性排序

可以看到SW1(室溫)的重要性低于SW2(機器溫度)的重要性,因此剔除室溫變量。最終我們選取工作時的機器溫度、轉速、扭矩及機器運轉時長和機器質量等級五個變量作為預測指標。

用LightGBM算法對數據進行二分類預測,最終模型評估指標Recall為0.9437.

用決策樹模型進行多分類預測,最終模型評估指標Acc為0.9168.決策樹模型訓練結果可視化如圖6所示。

圖6 決策樹模型可視化

對可視化結果進行分析,可以得到不同故障類型的成因:

1)TWF因為轉速過快,發生TWF故障的設備大都轉速超過1 378 rpm.

2)HDF是因為工作時機器溫度過高,溫度都在310 K左右。

3)PWF是因為機器扭矩過小,很多都小于22 N·m.

4)OSF是因為機器工作時間過長,都在181至200分鐘之間。

5)RNF具體成因未知,可能受多重因素影響。

3 總結

在實際生產中,根據機械設備的使用情況,提前預測潛在的故障風險,精準地進行檢修維護,維持機械設備穩定運轉,不但能夠確保整體工業環境運行具備穩定性,也能切實幫助企業提高經濟效益。本文通過機器學習算法對工業機械設備的使用情況數據進行建模,旨在對工業設備故障進行預測。

企業可以通過本文提出的方法分析不同故障的成因,在實際生產中,注意這些成因,合理地生產和使用機器設備,避免造成嚴重損失。本文還有值得進一步研究的空間,如可采用更多算法探析故障成因,挖掘更多更詳細、更準的規則。

猜你喜歡
決策樹梯度機械設備
機電機械設備安裝中的安全隱患及其處理對策
一個改進的WYL型三項共軛梯度法
廣州鈺鉑機械設備制造有限公司
一種自適應Dai-Liao共軛梯度法
一種針對不均衡數據集的SVM決策樹算法
廣州鈺鉑機械設備制造有限公司
一類扭積形式的梯度近Ricci孤立子
決策樹和隨機森林方法在管理決策中的應用
基于決策樹的出租車乘客出行目的識別
做好機械設備維護與保養的措施
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合