?

改進遺傳算法嵌入經典分類算法實現潤滑油添加劑微小量多種類同步識別

2024-03-06 02:15夏延秋謝培元NAYMINAUNG
光譜學與光譜分析 2024年3期
關鍵詞:適應度波段潤滑油

夏延秋, 謝培元, NAY MIN AUNG, 張 濤, 馮 欣, 2*

1. 華北電力大學能源動力與機械工程學院, 北京 102206

2. 中國科學院蘭州化學物理研究所固體潤滑國家重點實驗室, 甘肅 蘭州 730000

引 言

隨著各種高精尖設備的廣泛應用, 設備對潤滑油品的性能要求不斷提高。 添加劑作為潤滑油的精髓, 多種類添加劑協同作用, 改善了潤滑油物理化學性能、 滿足了特殊工況潤滑需求[1]。 雖然油品添加劑的種類繁多, 但其含量通常只占潤滑油質量極小的部分, 僅從油品外觀上難以區分使用類別, 一旦標簽失效或丟失, 將造成油品的管理和使用混亂, 并且帶來經濟損失; 對運轉設備的殘油、 廢油、 漏油中添加劑的種類識別, 可以及時分析油品健康狀態、 精準定位并預測不良狀態部件, 達到對設備的監測及維護提供前期預警目的。 研究一種快速且準確的微小量、 多品種潤滑油添加劑的同步識別方法具有現實意義。

紅外光譜分析法具有方便、 快捷、 精確等特點, 結合現代模式識別技術、 計算機技術, 被越來越多地應用于各種物質的定性及定量分析[2]。 人工智能、 機器學習的發展帶動了諸多行業與智能算法的關聯, 為人類鑒別、 區分物質提供了快捷的方法。 如近紅外光譜與支持向量機(SVM)結合進行水稻類型識別[3], 近紅外光譜和中紅外光譜結合偏最小二乘分析法對意大利初榨橄欖油進行分類[4], 采用偏最小二乘法[5]、 區間最小二乘法[6]、 最小二乘支持向量機[7]等方法預測某種成分的含量。 有一部分學者使用拉曼光譜[8]、 氣相-色譜、 太赫茲光譜、 阻抗譜等獲取數據, 不過中紅外光譜測量的波數范圍為4 000~400 cm-1, 其含有潤滑油豐富的分子結構信息, 可通過直接或間接關聯的方法測定潤滑油的族組成、 添加劑的含量等。 研究人員致力于嘗試在高維的數據中選擇某些特征, 來提高求解效率[9]。 這些方法與技術在設備潤滑油領域的研究, 多數仍僅限于針對某一特定物質含量的檢測來評估潤滑油的老化程度等質量問題[10], 或者是潤滑油的種類識別、 品牌識別[11]。

基本遺傳算法(GA)是一種經典的仿生算法, 具有群體搜索特性并被廣泛應用于各種領域, GA具有過早收斂和易于陷入局部最優的問題。 為了保證GA的計算效率和全局搜索的準確性, 對于遺傳操作的研究一直是GA算法中最活躍的領域之一。 Zhou等[12]對比了普通遺傳算法、 粒子群算法和一種嵌入免疫算法思想作為選擇算子的遺傳算法再解決無人飛行器返回基地的路徑選擇問題上的表現, 發現嵌入免疫思想選擇算子的遺傳算法成功搜索目標的次數更多。 Diana等[13]探索了可變下降領域VND作為局部搜索算子改進了包括遺傳算法在內的三種啟發式算法解決經典問題的表現, 發現其在三種算法的評價中都超過了目前最先進的改進方式。 對于潤滑油添加劑種類識別的問題, 夏延秋等使用極限學習機結合遺傳算法和貪心算法建立了模型, 但是僅識別了含單一添加劑的潤滑油[14]。 夏延秋等使用遺傳算法與二進制粒子群算法混合優化基于隨機森林(RF)和K近鄰(KNN)兩種經典分類算法的光譜全波段篩選, 但是篩選的光譜特征波段與表征潤滑油添加劑的特征峰所在波段對應較差[15]。

本工作選用一對多支持向量機(OVR SVMs)[16-17]、 加隨機森林(RF)[18]兩種典型分類算法, 分別嵌入基本遺傳算法(GA)和一種基于免疫算法改進局部搜索算子的遺傳算法(LGA)優選中紅外光譜特征波段, 構建多類別分類模型, 解決設備潤滑油中微小量添加劑多種類同步識別問題。

1 實驗部分

1.1 試驗材料

設備潤滑油測試樣本所用基礎油為PAO-10, 油品添加劑選用硫化異丁烯T321、 烷基二苯胺T534、 硫代磷酸銨鹽T307三種較常見使用的潤滑油添加劑。 按照油品中同時添加品種的種類數目構成的8類樣本如表1所示, 每種添加劑均選取1%含量加入油樣中, 1表示含有該種添加劑, 0則表示不含有。 每種樣本采集10條光譜數據, 樣品數據共計80條, 訓練集與測試集按7∶3的比例均勻劃分, 即每種樣品采集的10條光譜數據中隨機選擇7條作為訓練集, 3條作為測試集。 56條光譜數據, 每條譜線1 868個譜特征, 經min-max標準歸一化后, 被導入各模型開始進行訓練。 訓練結束后, 將剩余的24條光譜數據導入訓練好的模型中, 獲得各模型對每一種類添加劑的模型識別準確率。

表1 添加劑組合方式

1.2 光譜采集儀器

試驗樣本數據采集儀器為Thermo Scientific Nicolet iS5傅里葉變換紅外光譜儀, 光譜范圍: 7 800~350 cm-1, 采用KBr(溴化鉀)窗片, 透過波長7 800~400 cm-1, (1~25 μm)透過率大于92%。 采集設置: 掃描次數16次, 分辨率4, 數據間隔1 928 cm-1(掃描速度: 0.10~2 cm·s-1)。 每個樣本重新裝樣后采集10次光譜數據, 模擬不同采集人員在紅外光譜采集過程中產生的人工誤差, 最終獲得80個光譜數據。

1.3 min-max標準歸一化

為避免測量儀器零點漂移和數據數值差距過大, 采用式(1)min-max標準化方法對原始紅外光譜數據進行歸一化處理, 將數據映射到[0, 1]之間。

(1)

式(1)中,xi為原始的光譜數據,xmin為原始光譜數據的最小值,xmax為原始光譜數據的最大值。

1.4 分類準確性指標

接收者操作特征(ROC)曲線能有效反映分類器分類的準確性, 曲線的橫縱坐標分別為真正利率(TPR)和假正例率(FPR), 定義如式(2)和式(3)

(2)

(3)

式(2)和式(3)中,TP為預測為真正例的個數;TN為預測為真負例的個數;FP為預測為假正例的個數;FN為預測為假負例的個數。 曲線下面積(AUC)值定義為以ROC曲線下的坐標軸為邊界的面積。 該區域不能大于1。 由于ROC曲線始終在Y=X線上, AUC在0.5到1之間。 AUC值越接近1.0, 分類器的可靠性越高。

識別準確率, 即模型預測正確數量所占總量的比例, 計算公式如式(4)

(4)

式(4)中,TP+TN為識別準確的總數,P+N為總識別數。

各添加劑官能團在紅外光譜上的位置: 經過查閱紅外光譜譜圖資料[14]得到各添加劑所含基團對應吸收峰在紅外光譜上的位置: T321在657 cm-1處出現因C—S—C振動產生的吸收峰, 以及在1 178 cm-1處出現因C—S振動產生的吸收峰; T534在885~805 cm-1處出現苯環對位雙取代烷基峰和1 500和1 600 cm-1位置苯環骨架振動; T307在930~1 110 cm-1處出現因P—N振動產生的吸收峰。 所篩選的波段若能同時包含以上三個吸收峰位置的波段, 則認為種類識別模型建立成功。

1.5 遺傳算法及其改進

原始的中紅外光譜數據在采集的過程中難免會存在諸多環境與人為因素的影響及干擾, 出現數據摻雜高噪聲和高冗余。 因此對光譜波段進行特征優化篩選, 有效剔除原特征集中的弱相關信息和摻雜的干擾信息, 不僅可以確保模型的穩健性和精確性, 而且對提高模型識別效率尤為重要。 基本遺傳算法是一種模擬生命演化的仿生算法, 從一個隨機的初始種群開始, 不斷進行選擇、 雜交和變異的過程, 使種群逐漸向一個設定好的方向進化。 將種群中的每個個體基因型表示為一個n位的0-1編碼組合, 對應的將經過歸一化處理的光譜(1 868個數據點)劃分為n個子區間。 計算識別準確率時, 若基因編碼為1, 則計算時包含此波段; 若基因編碼為0, 則計算時不包含此波段。 由此, 波段篩選的問題就轉換成選擇一個識別準確率更高的0-1數字串, 可以認為最終得到的0-1數字串中1所在的位置組合代表的波段即為光譜的波段篩選結果。

GA初始種群數設置為50, 個體基因型長度n經測試后設置為19, 最大迭代次數為100, 使用輪盤賭方法進行選擇, 使用兩點交叉以概率pc=0.6進行交叉, 以概率pm=0.01進行行位點隨機變異, 以種類識別模型輸出的識別準確率作為適應度函數值, 若到達最大迭代次數或識別準確率達到100%則停止迭代。

1.6 基于局部搜索算子的遺傳算法(LGA)優化

使用局部搜索算子改進GA的選擇步驟, 能顯著增加GA的全局搜索能力以避免過早收斂和陷入局部最優的問題。 采用了文獻[19]中的一種基于優良模式的局部搜索算子, 首先從種群中選取適應度值高于平均值的一部分個體提取出一個“優良模式”, 然后基于優良模式生成優良模式附近的局部最優解, 并利用生成的局部最優解與當前最優解進行對比, 若生成解的適應度值和樣本長度均優于當前種群最優解, 則用生成解替代最優解。 局部搜索算子的設計如下:

步驟1 生成“優良模式”: 從當前種群中選取α·n個個體, 其中α為比例系數, 實際選擇0.14,n為群體規模。 將這些個體作為較優個體, 記為:x1,x2, …,x(α·n)前其中較優群體的長度記為l。

(1) 首先統計較優群體中每個基因位置上的0和1的個數ni

(5)

式(5)中,i=1~l,xij表示第j個較優個體的第i個基因位上的值。

(2) 采用一下規則產生優良模式: 若ni≥β·α·n則yi=1; 若ni≤β·α·n則yi=0; 若(1-β)·α·n

步驟2 生成局部最優解: 以優良模式y1,y2, …,yα·n,yi={0, 1, 2},i=1~l為基礎, 在其附近采用貪婪接受的思想搜索局部最優解z1,z2, …,zi,i=1~l。 搜索方法如下:

①z=bestpop其中bestpop為較優種群中的最優解, 令k=0;

② 隨機產生一個優良模式附近的最優解h={h1,h2, …,hi},i=1~l, 其中hi的生成規則如下: 若yi=0則ki=0; 若yi=1則hi=1; 若yi=2則hi以均勻分布的隨機數取0或者1;

③ 若個體h的適應度大于個體z的適應度, 則z=h;

④ 若k≥n, 結束, 并輸出局部最優解z, 否則k=k+1, 轉②。m為搜索次數, 實際設置m=10。

步驟3 代替: 用局部最優解代替當前群體中適應度值最小的個體。

由于采用了局部最優個體保留的機制, 在迭代過程中容易出現多個相同0/1數字串的問題, 從而導致“早熟”現象的出現。 因此在選擇過程中利用了免疫算法中基于適應度和濃度的混合選擇機制, 由此需要先給出每個數字串的相似度和濃度的定義:

定義1 相似度: 在二進制遺傳算法中, 兩個長度為l的個體x=(x1,x2, …,xl),y=(y1,y2, …,yl),i=1~l之間的相似度定義為式(6)

(6)

定義2 濃度: 在二進制遺傳算法中, 種群規模為n, 任意一個個體x的濃度定義為式(7)

(7)

式(7)中,Q(x,y)表示群體中和個體x之間的相似度大于閾值λ的個體的總數, 實際計算時閾值λ=0.8。 顯然,s(x,y)∈[0, 1]越大, 個體(x,y)就越相似, 當s(x,y)=1時,x和y是相同的個體;c(x)越大表示群體中和個體x相似的個體越多。

設群體中個體為x1,x2, …,xn, 每個個體的適應度為F(xi), 個體xi的濃度為c(xi)。 則基于適應度和濃度的混合選擇機制步驟如下:

步驟1 分別計算群體中每個個體基于適應度值的選擇概率, 見式(8)

(8)

每個個體基于濃度值的選擇概率, 見式(9)

(9)

步驟2 計算群體中每個個體基于適應度值和濃度值的混合選擇概率

p(xi)=μ·ps(xi)+(1-μ)pc(xi)

(10)

式(10)中,μ∈[0, 1]為濃度和適應度在選擇中的重要程度調節系數, 實際設置μ=0.8。

步驟3 用p(xi)作為概率指導輪盤賭選擇并產生新個體。

1.7 經典分類器算法

本研究對比了GA、 LGA分別嵌入兩種經典機器學習分類器算法: 一對多支持向量機(OVR SVMs)、 隨機森林(RF)進行波段篩選的效果, 以下是對2種經典分類器算法的簡要介紹:

(1)支持向量機(SVM)的主要思想是在特征空間中尋找間隔最大化的分離超平面以解決二分類問題, 一對多支持向量機(OVR SVMs)則是由多個二分類SVM組成, 以解決多分類問題。 本文中SVM的主要參數如下: C=1; gamma=1/1 868; kernel=‘poly’。

(2)隨機森林(RF)屬于集成學習方法, 采用多顆決策樹對樣本進行訓練并預測。 通過Bootstrap技術, 從原始訓練集樣本集中有放回地重復隨機抽取k個樣本生成新的訓練樣本集合, 根據樣本集生成若干個決策樹, 并且隨機組合得到隨機森林, 新數據的分類結果按決策樹投票多少形成的分數而定。 RF的主要參數如下:n_estimators=238; max_depth=3。

1.8 機器學習算法構建

所有算法代碼均由Pyuhon語言編寫, 使用的編譯器為Spyder, 其中SVM以及RF分類由Scikit_learn學習庫完成, GA、 LGA等其余部分均由作者自行編寫。 以OVR SVMs/RF種類識別分類模型為基礎, 分別嵌入GA和LGA進行潤滑油樣品中紅外光譜特征波段篩選, 構建了潤滑油添加劑種類識別分類模型, 其工作流程見圖1。

圖1 經典分類算法種類識別模型與GA/ESGA/LGA優選波段嵌入過程流程圖

2 結果與討論

2.1 原始光譜數據預處理

圖2為經預處理后的原始光譜圖像; 圖3為圖2中較易辨認的各微小量添加劑的特征峰局部放大圖片。 其中(a)為T321的C-S振動吸收峰; (b)、 (c)分別為T534的苯環對位雙取代烷基峰和苯環骨架震動吸收峰; (d)為T307的P-N振動吸收峰。

圖2 原始紅外光譜數據歸一化圖像

圖3 各添加劑特征峰及其位置

2.2 模型測試結果

按照圖1中所示的流程, 分別采用原波段數據作為輸入, 獲得經OVR SVMs+GA, RF+GA優選的特征波段數據; OVR SVMs+GA, RF+GA優選的特征波段數據, 導入各模型訓練并測試, 多種類潤滑油添加劑的同步識別結果見表2; 使用原始數據及各被選波段輸入各分類器的ROC曲線見圖3; 各模型的波段篩選結果見表3、 圖4。

圖4 各被選波段在不同分類器模型下的ROC曲線

表2 各模型對多種類潤滑油添加劑的同步識別準確率

表3 各算法模型波段篩選結果

圖4顯示, 在OVR SVMs分類器模型下, 嵌入GA優選波段后ROC曲線的AUC值雖有略微下降, 但仍維持在0.92的較高值; 而嵌入LGA后ROC曲線的AUC值達到了0.97。 可認為其具有較優的分類效果。 在RF分類器模型下, 嵌入GA和LGA優選波段后, 雖然AUC值都有小幅度下降, 但均大于0.97, 具有很好的分類效果。

圖5(a—d)顯示: 圖5(a)優選波段中包括了代表T321的657 cm-1處的C-S-C振動; 圖5(d)還包含了T321在1 178 cm-1處的C-S振動; OVR SVMs+GA及RF+GA均選擇到了代表T534在1 500 cm-1附近的N-H伸縮振動, 且選擇到了在930~1 110 cm-1處代表T307的P-N振動; 圖5(c)優選波段顯示OVR SVMs+LGA能有效縮短波段篩選的長度, 但是篩選出的波段僅包含了位于930~1 110 cm-1處代表T307的P-N振動以及位于1 178 cm-1處的代表T321的C-S振動, 并未選擇到代表T534的波段; 圖5(d)中RF+LGA優選波段成功選取了代表全部三種添加劑的波段, 且選取波段的長度為原長度的36.7%。 其中, OVR SVMs+GA及RF+LGA優選波段既包含了三種添加劑的特征峰, 又達到了100%的識別準確率, 可認為其成功同步識別三種潤滑油添加劑, 且RF+LGA篩選波段的長度更短, 為原波段長度的36.7%; 而擁有更少特征點數的RF+GA及OVR SVMs+LGA并未選中代表T534的特征波段, 因此認為該兩種模型雖然在算法上達到了識別準確率100%, 但不能認為其能成功識別三種添加劑。

圖5 嵌入GA優選光譜特征波段的新模型測試結果

3 結 論

(1) 采用經典的分類算法結合紅外光譜法能夠實現對未知微小量多品種添加劑的同步種類識別, 不僅擺脫了傳統方法的一些弊端, 也有效地提高了模型識別效率和識別準確率, 可以大大降低成本。

(2) 嵌入GA優選技術對原始光譜全波段進行特征區間篩選, 能夠快速剔除冗余的特征波段, 從而提升經典分類算法的識別準確率、 減少計算量、 縮短模型運行時間。

(3) LGA作為GA的改進算法, 提高了GA的全局搜索能力, 能有效防止GA在搜索中陷入局部最優, RF+LGA建立的種類識別模型不但種類識別準確率達到了100%, 而且選出的波段與添加劑特征峰的對應性最好, 且波段長度僅為原波段長度的36.7%。

猜你喜歡
適應度波段潤滑油
改進的自適應復制、交叉和突變遺傳算法
昆侖潤滑油
長城潤滑油
M87的多波段輻射過程及其能譜擬合
基于空調導風板成型工藝的Kriging模型適應度研究
長城潤滑油
日常維護對L 波段雷達的重要性
基于SPOT影像的最佳波段組合選取研究
選擇潤滑油的常識和技巧
L波段雷達磁控管的使用與維護
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合