基于DN-LSSVM模型的危險氣體定量識別

2023-05-29 09:24朱澤昊田兵樊小鵬曾敏楊志

電子技術與軟件工程 2023年7期

朱澤昊田兵樊小鵬曾敏楊志*

（1.薄膜與微細技術教育部重點實驗室上海交通大學上海市 200240）（2.南方電網數字電網研究院有限公司廣東省廣州市 510700）

在煤礦開采業、石油生產和天然氣傳輸業中，常常伴隨著大量的易燃易爆和有毒氣體產生，諸如甲烷（CH4）、一氧化碳（CO）和氫氣（H2）等。準確可靠地檢測CH4、CO 和H2以及預測它們的混合氣體的種類和濃度，對開采工作人員的安全健康、避免事故的發生以及環境保護有著重要的研究價值[1]。目前，電子鼻系統已被廣泛應用于混合氣體的分類識別和濃度預測領域，但是仍面臨一些挑戰。比如電子鼻傳感器獲取的參數信號中存在來自溫濕度干擾和測量誤差等方面的復雜噪聲干擾，在分類識別時要求分類算法能夠處理多個輸入和輸出的模式識別算法，并且能夠甄別數據中的復雜關系[2]。如劉偉玲等人[3]采用結合主成分分析（PCA）的支持向量機（SVM）和反向傳播神經網絡（BPNN）對甲硫醚、乙酸乙酯及其混合物進行分類識別，其識別精度分別達到92%和94%。

混合氣體濃度預測的主要挑戰之一是不同濃度和比例的混合氣體在一起產生的復雜性，導致傳感器響應信號和單一氣體組分濃度之間的關系往往是非線性關系，難以直觀地建立起相互之間的對應關系[4]。最小二乘支持向量機（LSSVM）在SVM 的數學框架上結合了最小二乘優化技術，擁有很強的非線性擬合能力，在氣體的濃度預測中顯示出較高的精度。如Khalaf W 等人[5]通過建立LSSVM 模型來精確預測不同揮發性有機化合物的濃度。Huang L X 等人[6]用電子鼻系統鑒定蜂蜜的植物來源，實驗結果表明LSSVM 在蜂蜜質量預測方面具有高性能。Zhang W L 等人[7]用多層感知機（MLP）和LSSVM 等多種算法對四種空氣污染物（C6H6、NO2、SO2、SO2和NO2的混合物）進行分析，結果表明LSSVM 獲得了最高的預測精度。

本文針對CH4、CO 和H2三種單一氣體組分及其二元混合物的分類識別及濃度預測問題，設計了可以實現高精度識別和預測的電子鼻系統，通過時域特征提取來降低響應信號受到的噪聲干擾。本文提出基于DN 算法的氣體分類模型，解決傳統機器學習算法在小樣本數據集下識別準確率低的問題。針對混合氣體濃度預測的難點，采用先分類再預測的“雙步策略”，結合DN 算法對氣體分類識別的結果建立LSSVM 模型。在小樣本數據集的訓練情況下，DN-LSSVM 模型將進一步提升電子鼻的濃度預測性能。

1 實驗裝置設計及樣本采集流程

1.1 電子鼻系統設計

本文設計的電子鼻系統主要由三個部分組成：氣體傳感器陣列、硬件電路以及軟件系統。為了實現針對三種待測目標氣體（CH4、CO 和H2）的檢測，購買了6 個商用氣體傳感器用來組成氣體傳感器陣列：TGS2600、TGS2612、TGS2619、TGS813、MQ-8 和MQ-9B。電子鼻硬件電路包括了信號調理及采集電路模塊、通訊傳輸電路模塊、電源電壓轉換模塊以及藍牙信號發射器等輔助配件。軟件系統主要實現了傳感器陣列響應波形的可視化、多信道的數據實時存儲及分析等功能。

1.2 實驗裝置及流程

在密閉的氣體腔室中放入電子鼻系統后，采用氣體質量流量控制器（MFC）調節通入腔室的待測氣體和空氣的流速和比率，從而配置出不同濃度的待測氣體。同時在電腦上通過藍牙信號接收每個氣體傳感器的實時響應值。在完成一次數據采集后，通入純凈空氣直到氣體腔室內部所有氣體傳感器恢復到無響應狀態，以便于進行下一次采樣。整個實驗裝置的設置和實驗流程如圖1所示。對于某個單種氣體，從5ppm 開始，以5ppm 作為濃度間隔，然后增加到50ppm，每個濃度測試兩次，共獲得20 組與濃度相對應的電子鼻響應數據。對于混合氣體中的每種氣體，分別從5ppm 和10ppm 開始，以10ppm 作為濃度間隔相互混合，各類別混合氣體經測試，可以得到150 組與濃度對應的電子鼻響應數據。

圖1：氣體采集實驗的流程步驟

2 混合氣體的分類識別和濃度預測

2.1 特征提取

由于傳感器自身的漂移和實驗環境中存在的噪聲干擾，直接使用原始響應數據難以達到較好的效果，因此需要進行特征提取。時域特征提取是指直接從傳感器的原始響應中提取穩態響應和瞬態響應等信息。本文采用分式差分法作為時域特征提取，如式（1）所示：

其中，Rair表示傳感器在空氣中的基線電阻值，Rgas表示傳感器在待測氣體響應中的穩定電阻值，F為所提取的時域特征。

2.2 基于DN算法的氣體分類識別

傳統的氣體分類識別算法往往需要建立高復雜度的模型以適應復雜的氣體特征空間，從而導致其泛化性能降低，容易出現過擬合問題。DN 算法主要由樹突模塊和線性模塊組成[8]。樹突模塊的計算僅包含矩陣乘法和Hadamard 乘積，其計算復雜度顯著低于非線性函數，計算公式如下：

其中Al-1和Al分別是模塊的輸入和輸出。X表示原始輸入數據，Wl,l-1是從第l-1 個模塊到第l個模塊的權重矩陣，L表示模塊的數量，°表示Hadamard 乘積。DN 的總體架構如圖2 所示。

圖2：DN 模型的結構圖

2.3 基于LSSVM模型的氣體濃度預測

LSSVM 通過求解線性方程組更適合處理高維空間問題，不僅表現出卓越的泛化能力，而且解決問題的速度也更快[9]。假設給定訓練數據集i為訓練數據集的樣本個數，xi為一組1×n維的向量，yi為函數y=f(x)的對應輸出，則LSSVM 回歸的初始優化問題為：

其中，w 為一組權值向量，b為閾值，ei為誤差，γ為正則化參數，為原空間向高維空間對應的非線性映射。由于w 可能具有無限維數，一般無法直接進行求解，而是需要采用拉格朗日乘子法來求解上式。引入拉格朗日函數為：

其中，非負輔助變量稱為拉格朗日乘子。構造核函數：

分別對式（4）中的w,b,,ei求偏導數并令其為0，結合核函數可得到下列線性方程組：

其中，為訓練樣本的目標值所構成的一組向量，矩陣Ω 的第(i,j)個元素為，I 為維度合適的單位矩陣。求解式（6）的線性方程組得到a和b的表達式為：

根據式（7）求出的a和b構造LSSVM 的解析函數表達式為：

3 實驗結果分析

3.1 數據預處理

PCA 是一種常用的降維算法，可以減少高維數據中的冗余信息[10]。為了保留氣體響應信號中最重要的特征，本文對經過時域特征提取的傳感器信號數據進行PCA降維處理，其對應的三維空間分布如圖3 所示。將PCA降維后的結果作為分類模型的輸入，可以降低計算的復雜性，并起到防止過度擬合的作用。

圖3：混合氣體樣本在三維空間上的分布圖

3.2 氣體分類識別結果

為了驗證DN 算法的效果，本文使用四種傳統機器學習算法（隨機森林（RF）、隨機梯度下降（SGD）、SVM 和MLP）與DN 算法進行了比較。不同算法的分類性能對比結果如圖4 所示。

圖4：不同分類算法的識別準確率對比圖

從圖4 中可以看出，基于DN 算法的分類模型的識別準確率達到96.2%，遠優于四種傳統的機器學習算法。

3.3 氣體濃度預測結果

針對氣體的濃度預測，本文先利用DN 算法對樣本進行分類識別，然后再針對每個分類結果建立LSSVM模型進行氣體濃度的精確預測。LSSVM 模型和DNLSSVM 模型對CH4、CO 和H2的濃度預測結果如圖5所示。

圖5：CH4、CO 和H2 的濃度預測結果對比

從圖5 中可以看出，DN-LSSVM 模型的預測值相比于LSSVM 模型的預測值，更加接近中間的真實濃度直線。進一步地分析了兩種模型預測結果的決定系數（R2）、均方根誤差（RMSE）以及平均絕對誤差（MAE）作為模型的評價指標，其具體值如表1 所示。

表1：不同氣體的濃度預測評價指標

從表1 中可以看出，相較于LSSVM 模型，DNLSSVM 提高了模型對于混合氣體組分濃度預測的準確性，其對CH4、CO 和H2濃度預測的R2分別提升到了0.909、0.896 和0.937。

4 結語

本文完成了電子鼻系統的軟硬件設計，可以實現針對CH4、CO 和H2的分類定性識別與濃度定量預測。首先采用時域特征提取降低了響應信號受環境噪聲干擾的影響，基于DN 算法的分類定性識別模型對單一氣體組分及其二元混合物共6 種氣體類別的識別準確率達到了96.2%，遠優于作為對比的四種傳統機器學習算法（RF、SGD、SVM 和MLP）。在針對混合氣體的濃度定量預測中，與傳統的直接建立預測模型相比，結合DN 算法先對混合氣體組分進行定性識別，再建立LSSVM 模型進行濃度預測，DN-LSSVM 模型有效地提升了混合氣體的濃度定量預測性能。實驗結果表明，本文設計的電子鼻系統可以實現對CH4、CO 和H2三種氣體的高精度定性識別與濃度定量預測，為煤礦開采、石油生產和天然氣傳輸等應用場景中易燃易爆危險氣體的高精度在線氣體傳感提供技術支持。