新型基于數據驅動的汽車生產線電機故障預測方法

2021-11-18 11:14賈歆瑩

裝備維修技術 2021年34期

賈歆瑩

摘? 要：針對汽車生產線電機設備中滾動軸承故障預測困難的問題，提出一種基于主成分分析法（PCA）降維和隨機森林預測方法的故障預測模型。首先從原始數據中提取若干能夠有效反應軸承退化趨勢的數據特征量，利用PCA方法縮減特征量的維數，最后將降維后得到的主成分作為輸入，輸入到隨機森林預測模型中進行預測分析。并且選取BP神經網絡作為對比實驗，通過多種評價指標將隨機森林與BP神經網絡進行對比，結果表明提出的故障預測模型具有更高的預測精度。

關鍵詞：滾動軸承;故障預測;主成分分析;隨機森林

中圖分類號：TH133? 文獻標識碼：A

引言

在汽車生產中，電機設備是汽車生產線運轉的動力源泉。由于生產線復雜且惡劣的運行環境，電機常常處于高轉速、高負荷的工作狀態之下，極易引發各種故障。而一旦電機設備出現故障，生產線將被迫停止，這對于如今強競爭、高產量的汽車制造生產線來說，將導致巨大的經濟損失。而導致電機發生故障的根本原因，往往是電機中的滾動軸承導致的。因此，對電機設備中的滾動軸承進行故障趨勢預測[1-2]是非常有意義的，這樣能夠有效防止故障的發生。

1 特征提取與降維

在電機滾動軸承故障趨勢預測中，由于工作條件通常都非常惡劣，軸承在運行過程中通常伴有強噪聲等干擾因素。因此從軸承運行中提取的原始振動信號并不能有效的反映出軸承的健康狀況，所以需要從原始信號中提取大量的時域、頻域以及時頻域的特征，這些特征往往能夠反映軸承的運行狀態。但是通常在分析過程中，需要提取的物理量即特征數量很多，這些特征對于故障預測的貢獻也參差不齊，這就需要對物理量的維數進行縮減，將有利于故障預測的成分集中到少數的主成分之中，這將極大縮短計算時間，并且能夠提高分析的精度。

2 決策樹與隨機森林算法

2.1 決策樹

決策樹是一種非常有效的分類及預測算法。該算法通過對實例問題的歸納總結，計算目標對象在特定條件下發生的概率，從而進行決策。決策樹的一個重要優勢就是它在構造過程中并不需要設置參數，且無需相關領域先驗知識的支撐。決策樹顧名思義就是從根節點出發，根據對象的屬性是否符合節點條件，發散出若干個分支節點。每個節點即代表對所屬對象的預測結果，同時每個分支也表示對象值與對象屬性之間的一種映射關系。在決策樹算法中，關鍵在于構建分支的分裂判別條件，即分裂屬性。分裂屬性表示所有對象從根節點開始是否能成為有效的分支節點。

2.2 隨機森林

以下是隨機森林的具體步驟：

（1）假設一個數據樣本集，樣本個數為N，變量數目為M;

（2）在決策樹生成過程中，每個分支節點都會隨機從M個變量中隨機選擇m（m<M）個變量，用于確定該分支節點是否為最佳的分裂點，并且m值在分裂過程中值保持不變;

（3）采用可放回的方式從N個樣本中取樣N次（bootstrap取樣），形成訓練集。由此形成一顆決策樹，該樹也被用于預測分析剩余的樣本類別及其誤差情況。

（4）每個分支節點根據步驟（2）中選擇的m個變量，計算相應的最佳分裂點;

（5）在決策樹的分裂過程中不進行剪枝（Pruning）操作，這樣保證了決策樹能夠最大程度的進行生長，最終匯總所有生成的決策數預測新的數據。

3 基于隨機森林的故障趨勢預測

3.1 實驗數據

本文的實驗數據來源于美國辛辛那提大學智能系統維護中心提供的實驗數據進行趨勢預測實驗，該實驗為滾動軸承全壽命周期加速性能退化實驗。其中實驗的采樣間隔為10分鐘一次，頻率20，000Hz，每次采樣的點數目為2048個，實驗總共記錄了984條數據。本文為證明提出方法的有效性，從中截取軸承中后期由正常逐漸衰退的過程數據。

3.2 特征提取與降維處理

如前文所述，原始數據種類與數據量繁多，且伴有強噪聲干擾，因此需要對原始數據進行預處理。首先將原始的時域數據經過傅里葉變換轉換為頻域數據，分別從時域與頻域數據中提取有效的特征量，本文實驗中提取時域特征15個，頻域特征10個，總共提取25個特征，并對其進行主成分分析。

數據從大約520點開始具有上升趨勢，且在大概700左右的位置出現第一個波峰，即該均方根值能夠反映軸承的退化趨勢。大概在700點左右軸承也開始有了退化趨勢。因此，根據對所有25個特征的形態判斷，實際能夠反映軸承退化情況的特征有20個。同時為了進一步減少干擾因素與計算量，提高分析的精度，利用PCA算法對這20個特征進行降維處理。經過主成分分析過后，得到前5個主成分的貢獻率情況，根據PCA算法中特征分量的選取原則，高于85%的分量可以作為主成分進行進一步的分析，因此選取分量1和分量2作為輸入，用于隨機森林算法的預測分析。

3.3 實驗方案與分析結果

根據隨機森林算法的結構以及實驗數據情況確定訓練集和預測集的大小，這里將主成分分析后得到的984個具有軸承退化趨勢判斷能力的數據點中選取兩部分，其中訓練集為701-900數據點的區間段，預測集為901-920數據點的區間段。然后建立訓練集的特征空間S，S=[X，Y]，具體樣本空間表示如下：

其中預測步長X為26列，而實驗中選擇10、15、20、25以及30為步長分別輸入模型觀察預測效果，結果表明25為最佳步長，因此調整預測步長為25。隨機森林數的數量選取是從100開始，以100為步長逐步步進分別輸入模型中預測，結果表明數量為500時預測精度更高。另外模型的參數均為默認值即可。

同時，為了進一步驗證本文提出的方法，選取BP神經網絡預測模型作為對比實驗。分別選取RMSE、MSE以及R方作為指標，衡量實際值與預測值的契合程度。BP神經網絡在預測初期就與實際情況值出現了較大的偏差，而后實際值出現波動的時候也未能準確反映出波動情況。而隨機森林算法在整個預測過程中與實際值都保持有較高的契合度，當實際值出現波動時，隨機森林也能夠將波動情況大致的反映出來，能夠較好的起到預測的效果，具備較高的預測精度。

4 結論

提出一種基于PCA與隨機森林的滾動軸承故障預測模型。在詳細推導PCA降維算法與隨機森林預測算法的原理之后，使用實際故障數據對提出的模型進行故障預測，并且利用BP神經網絡模型作為對比實驗，使用RMSE、MSE以及R方作為指標進行近一步對比分析。最終實驗結果表明，提出的故障預測模型具有更高的預測精度，與實際情況具有更高的契合度，能夠更好的反映出故障軸承的性能退化趨勢。

參考文獻：

[1]丁秋月，和堯，董超.故障預測與健康管理體系結構綜述[J].航空維修與工程，2021（01）：70-74.

[2]董楠.機械設備故障規律及運行趨勢預測方法研究[J].建材與裝飾，2018（06）：224-225.

[3]趙騰，王林童，張焰，田世明.采用互信息與隨機森林算法的用戶用電關聯因素辨識及用電量預測方法[J].中國電機工程學報，2016，36（03）：604-614.