?

不同工況下可見-近紅外光譜的煤矸識別研究

2024-03-07 01:51王學文
光譜學與光譜分析 2024年3期
關鍵詞:煤矸矸石預處理

劉 濤, 李 博, 夏 蕊, 李 瑞, 王學文

太原理工大學機械與運載工程學院煤礦綜采裝備山西省重點實驗室, 山西 太原 030024

引 言

中國是全球最大的煤炭生產國與消費國, 煤炭長久以來就是中國的第一能源, 占據一次能源的60%左右[1]。 在煤炭開采過程中, 沒有經過任何處理的煤炭稱為原煤。 在現代化機械開采過程中, 由于開采環境的限制, 原煤中往往包含著大量矸石, 含矸率的上升會影響原煤質量[2]。 煤矸分選是實現煤炭高效潔凈利用的必經步驟。

目前我國已采用的煤矸分選方法中, 人工選矸無法保證分選質量, 且工作環境惡劣, 危害工人的身體健康; 動篩跳汰選矸以及重介質淺槽選矸均需要消耗大量的水資源; 復合干法選矸會產生嚴重的粉塵, 并且分選精度也較低; 基于圖像識別的選矸方法[3], 容易受到周圍光照條件以及粉塵的影響; 基于射線識別的選矸方法[4], 具有輻射危害。 而可見-近紅外光譜識別技術具有高速、 可靠、 準確等優點, 是煤矸分選的最佳方法之一。

雖然已有一些基于可見-近紅外光譜對煤和矸石的性質[5-7]、 種類[8-9]等問題的探討, 但在不同工況下基于光譜數據進行煤和矸石識別的研究還較少。 Yang等對煤和碳質頁巖的光譜特性進行研究, 并對6種典型煙煤、 碳質頁巖樣品在350~2 500 nm波長范圍內的光譜反射率進行了分析[10]; Le等采集了不同種類煤的近紅外光譜數據, 利用卷積神經網絡提取光譜特征, 并應用極限學習機算法構建了基于光譜特征數據的預測分析模型[11]。 此外, 也有少數研究人員對不同工況下煤巖近紅外光譜數據的性質進行研究, 但這些研究并沒有結合識別算法進行有效分析。 周悅等在實驗室利用光譜儀采集常見探測距離與探測角度下的4種典型煤巖的近紅外漫反射光譜, 對其光譜特征進行分析, 并利用余弦相似度與皮爾遜相關系數兩種模型分別進行煤巖定性分析[12]; 丁震等通過對煤和矸石近紅外反射光譜特征分析, 發現探測距離和粉塵濃度變化對煤矸近紅外反射光譜曲線波形和吸收谷位置無明顯影響[13]。

本研究的具體目標是:(1)在實驗室中模擬煤矸分選過程中不同探測角度、 探測距離、 光照角度三種工況, 并分析不同工況下煤和矸石可見-近紅外光譜的差異; (2)對采集的光譜數據進行預處理, 探究不同工況下各識別算法的可行性; (3)分析不同工況對煤矸識別準確率影響的主次順序, 用正交試驗法尋找最優的工況條件, 為可見-近紅外光譜技術在煤矸識別領域的實際應用提供理論基礎。

1 實驗部分

1.1 樣本

實驗樣本為山西太原西銘煤礦的焦煤以及黑色矸石, 樣本中煤和矸石的數量均為40塊, 樣本高度在15~55 mm之間。 在實驗前, 將所有樣本放到室內環境下靜置, 并對實驗樣本進行排序標號, 每次實驗中樣本的采集順序不變。 圖1為實驗樣本圖片, 其中圖1(a)為煤的部分樣本, 圖1(b)為矸石的部分樣本, 從圖中可以看出樣本的煤和矸石顏色相近, 難以直接識別。

圖1 實驗部分煤樣本(a)與矸石樣本(b)

1.2 實驗裝置的搭建

針對實際分選過程中不同光纖探頭探測角度、 光纖探頭探測距離、 鹵素燈光照角度三種工況, 在實驗室中進行工況模擬實驗。 圖2為搭建的可見-近紅外光譜采集裝置的實物照片以及原理圖, 將100 W的鹵素燈(LT05114 12V/100w MR16, LAITE, China)固定在燈架上用作光源, 光纖探頭(1SMA1s-SI0.6-1.5m, SL, China)固定在探頭支架上用于光譜的采集。 光譜儀(Oceanview optics usb 2000+, Ocean Insight, USA)一端與光纖探頭直接連接, 另一端通過USB3.0接口與采集計算機相連, 利用與光譜儀配套的專業Oceanview軟件實時采集和顯示樣本光譜數據。 通過調節燈架的角度可以改變鹵素燈光照角度, 探頭支架可以調節光纖探頭與樣本之間的探測角度及探測距離。 此外, 為了更加貼合實際工況, 以純黑色皮帶為背景。

圖2 可見-近紅外光譜采集裝置(a)與原理圖(b)

1.3 不同工況下光譜數據的采集

試驗中, 將鹵素燈光源固定在樣本左側, 設定光源與探頭水平距離為50 cm, 與黑色皮帶垂直距離為45 cm。 采集數據時, 提前將光譜儀和鹵素燈打開, 等待30 min后設備穩定再進行試驗, 將樣本放置到黑色皮帶上, 積分時間設置為11 ms。 此外, 在正式實驗開始前進行預實驗, 通過觀察采集軟件實時顯示的光譜波形, 校正樣本的擺放位置和角度, 并記錄樣本擺放情況, 使每次實驗各樣本在三維空間上的擺放姿態基本相同, 降低由樣本擺放位置或角度差異引起的誤差。 同時, 為了減少照明不均勻以及儀器暗電流的干擾, 需要對采集的光譜數據進行黑白校正, 將整個試驗臺置于防光黑布中, 使樣品不受外界雜散光的干擾, 在相同的環境下, 利用反射率接近100%的聚四氟乙烯白板采集白參考, 再采集黑色皮帶作為黑參考, 樣品反射率的計算公式如式(1)所示

(1)

式(1)中:R為樣品的光譜反射率;Iorigin為樣品的反射光譜強度;Iwhite為白參考的反射光譜強度;Iblack為黑參考的反射光譜強度。

1.3.1 單因素試驗

(1)由于煤和矸石各表面粗糙度不同, 因此光纖探頭檢測角度的變化會影響光譜數據的采集。 為此, 在靜止條件下, 通過改變光纖探頭的探測角度, 來模擬樣本被檢測角度的變化。 在采集不同探測角度下光譜數據的試驗過程中, 設定探測距離為20 cm、 光照角度為35°, 將光纖探頭相對于豎直方向的角度設為試驗變量, 設置0°、 10°、 20°、 30°共4個水平, 單次誤差不大于0.5°。

(2)由于煤和矸石樣本高度不一, 以及檢測過程中可能出現的樣本堆疊等現象, 因此樣本表面到光纖探頭的距離并不固定, 探測距離的變化會對光譜數據的采集產生一定的影響。 為此, 通過改變光纖探頭的探測距離, 模擬樣本被測距離的變化。 在采集不同探測距離下光譜數據的試驗過程中, 設定探測角度為0°、 光照角度為35°, 將光纖探頭到樣本的垂直距離設為試驗變量, 設置10、 15、 20和25 cm共4個水平, 單次誤差不大于1 mm。

(3)采集數據過程中, 作為光源的鹵素燈無法均勻照射在傳送機構上, 距離光源中心不同的區域, 光強也不一致。 為此, 通過在靜止條件下改變光源的光照角度, 模擬樣本所受光照角度的變化。 在采集不同光照角度下光譜數據的試驗過程中, 設定探測距離為20 cm、 探測角度為0°, 將鹵素燈相對于豎直方向的角度設為試驗變量, 設置15°、 25°、 35°、 45°共4個水平, 單次誤差不大于0.5°。

1.3.2 多因素試驗

實際生產環境中, 煤和矸石受到的是多因素的影響, 工況更為復雜惡劣, 例如光照角度過大的同時探測距離過大, 都會影響光譜數據采集的穩定性, 從而降低煤矸識別的準確率。

正交試驗設計, 是研究多因素多水平的一種試驗設計方法[14]。 該設計方法可以依托正交表, 根據正交性在全部試驗中選出部分具有代表性的點進行試驗, 這些有代表性的點具備均勻分散, 整齊可比的特點, 可實現以最少的試驗次數達到與大量全面試驗等效的結果。 綜合考慮后, 選用三因素四水平的L16正交試驗方案表, 如表1所示, 表格中因素A為探測距離, 因素B為探測角度, 因素C為光照角度。 正交試驗表的選用以及相關計算均借助軟件Minitab 19來完成, 正交試驗設計表見表2。

表1 因素水平表

表2 正交試驗設計表

2 結果與討論

2.1 光譜預處理

由于受到儀器自身或外界環境的干擾, 采集的可見-近紅外光譜信號中既含有有用的信息, 也包含著儀器噪聲, 雜散光等無關信息, 因此在建模前需要對采集的原始光譜進行預處理。 采用的預處理方法為Savitzky-Golay(SG)卷積平滑和標準正態變量變換(standard normal variate transformation, SNV)。 SG卷積平滑是光譜分析中常用的預處理方法, 能有效提高光譜的平滑性, 并降低噪聲的干擾。 SNV法可以消除表面散射, 固體顆粒大小和光程變化對反射光譜的影響。 所有數據預處理均借助軟件Matlab R2018b完成。

由于原始光譜波長最大和最小端有相當大的隨機噪聲, 故只取481~903 nm(1 248個變量)范圍內的光譜進行分析。 圖3(a)為按序號選取的前20塊煤和矸石樣本在探測角度35°, 探測距離20 cm, 光照角度15°條件下的原始平均反射光譜, 從圖3(a)中可以看出, 由于隨機噪聲的影響, 原始光譜曲線含有較多的毛刺, 光譜的吸收特征不夠明顯, 因此需要經過預處理來消除噪聲的干擾。

圖3 樣本原始光譜(a)及預處理后光譜(b)

圖3(b)為經SG卷積平滑處理后的反射光譜曲線, 經過預處理后, 光譜波形特征更明顯。 由于煤分子結構的特點, 其吸收光譜多集中于中紅外波段, 因此在圖3(b)中, 煤的可見-近紅外漫反射光譜曲線在481~903 nm波段之間沒有較為明顯的吸收谷。 同時, 由于樣本中焦煤和矸石均為黑色, 反射能量少, 因此譜線上仍有一定噪聲。 從圖3(b)中樣本光譜在800~900 nm波段的局部放大圖中可以看出, 雖然預處理后煤和黑矸的光譜形狀大致相似, 但在825和900 nm附近仍存在一定差異。 此外, 由于在可見-近紅外波段, 煤分子的芳構化程度高, 且芳香分子中電子躍遷趨向于長波長方向, 因此煤在該波段長波方向的光譜系數大, 整體反射率較低且反射光譜的斜率小于矸石。

從圖4中可以看出, 不同工況下煤和矸石的反射率變化趨勢基本一致。 由圖4(a)、 (d)可知, 在探測角度0°~20°之間, 隨著探測角度的增大, 煤和矸石反射率呈現增大的趨勢, 在探測角度30°時的反射率最低, 推測是由于樣本的表面顆粒不均勻且粗糙度不同, 導致探測角度改變時光譜的反射率也發生變化。 由圖4(b)、 (e)可知, 在探測距離10~25 cm之間, 樣本的反射率隨著探測距離的升高而增大。 主要是因為探測距離的上升引起光程差變化, 導致黑白校正時白參考反射強度降低, 平均反射率上升。 由圖4(c)、 (f)可知, 在不同光照角度下樣本反射率大小依次為光照角度45°、 25°、 35°、 15°。 主要原因是鹵素燈光照角度的不同導致樣本受到的光照強度不同, 從而引起光譜的平均反射率發生改變。

圖4 不同探測角度下煤(a)和矸(d)、 不同探測距離下煤(b)和矸(e)、 不同光照角度下煤(c)和矸(f)的平均光譜

2.2 煤矸識別模型

2.2.1 AdaBoost算法

決策樹(decision tree, DT)中的分類決策樹模型是一種對實例進行分類的樹形結構, 由結點和有向邊組成, 可以將其看做一個if-then規則的結合, 是最常用的分類算法之一。

AdaBoost(adaptive boosting)算法[15]是一種常用的集成算法, 在分類問題中, 該算法通過改變訓練樣本的權重, 學習多個分類器, 并將這些分類器進行線性組合, 提高模型的性能。 集成學習不僅擁有更好的預測性能, 而且解決了單個學習器容易欠擬合或過擬合的問題。 本工作采用的AdaBoost算法是把多個決策樹預測模型作為弱分類器, 之后通過算法改變權重構成強分類器。

2.2.2 建模方法及評價指標

為了獲得可靠的分類結果, 選用決策樹(DT)、 K近鄰(k-nearest neighbor, KNN)、 偏最小二乘判別分析(partial least squares discriminant analysis, PLS-DA)、 支持向量機(support vector machines, SVM)、 AdaBoost共5種分類算法進行判別模型的建立。 所有數據訓練均借助軟件PyCharm Community Edition 2021.2.2, 環境Python 3.9來實現。 基于校正集訓練判別模型, 基于預測集對模型進行性能評估, 將煤作為正類, 矸石作為負類, 將正確率(accuracy)作為模型評價的指標, 正確率的計算公式如式(2)所示

(2)

式(2)中:TP為實際為煤, 預測為煤的數量;TN為實際為矸石, 預測為矸石的數量;FP為實際為矸石, 預測為煤的數量;FN為實際為煤, 預測為矸石的數量。

2.3 不同工況下建模方法對比

2.3.1 單因素下建模方法對比

將采集的可見-近紅外光譜數據按照7∶3的比例隨機劃分為校正集和預測集。 對原始數據進行SNV+SG卷積平滑預處理后, 基于校正集訓練DT、 KNN、 PLS-DA、 SVM、 AdaBoost模型, 這些模型在不同工況下預測集的分類結果如表3所示。

表3 不同工況下各模型的訓練結果

分析試驗數據可得, SNV+SG卷積平滑的預處理方法結合AdaBoost模型的表現最為優異, 在各個工況下對煤和矸石的識別準確率均可以達到100%。 SVM模型的分類表現較為優異, 識別準確率均在95.83%及以上; PLS-DA模型的識別準確率均為95.83%; KNN模型的準確率維持在91.67%~95.83%之間; 決策樹的識別準確率在83.33%~100%之間。 此外, 計算模型準確率的均值可以得到, 在探測角度0°、 探測距離20 、 光照角度35°條件下的模型準確率均值最高, 為98.33%。

2.3.2 多因素下建模方法對比

分析單因素試驗的結果可得, AdaBoost模型在各個預測集上的表現最佳, 但該模型計算時間相對較長, 在單因素的12次試驗中平均計算時間為0.6s。 由于SNV+SG卷積平滑的預處理方法結合SVM模型同樣具有較高的魯棒性和泛化性, 而且SVM模型在單因素的12次試驗中平均計算時間僅為0.01 s, 因此在正交試驗中, 采用SNV+SG卷積平滑結合SVM模型進行煤矸識別。

正交試驗的數據采集方法為: 在每種工況(每個試驗號)條件下進行光譜數據采集, 把不同工況下, 原始光譜數據和預處理后光譜數據中測定的準確率分別記入試驗結果中, 如表4所示。 對試驗結果進行主次因素分析, 如表5所示。 表5中, 某一試驗因素的Ti代表該因素在第i個水平下的試驗數據之和,ti為某一因素在第i個水平下的均值,R為某一因素在試驗范圍內其試驗數據的變化幅值。

表4 正交試驗結果

表5 正交試驗數據分析

以各因素的水平為橫坐標, 以相應水平下的ti為縱坐標, 畫出試驗因素與準確率均值關系的趨勢圖, 如圖5(a)所示。 在原始數據中, 因素C的ti波動最劇烈, 而因素A和B的ti變化幅度基本相同。 根據正交表的綜合可比性以及趨勢圖可以得出, 各因素對煤矸識別準確率的影響次序從大到小為C>B>A。 從準確率均值可以看出, 在因素A、 B、 C中表現最優的條件分別是水平1、 水平3、 水平1。

圖5 原始(a)和預處理(b)數據中各因素水平與準確率關系

畫出預處理后數據中各因素水平與準確率關系的趨勢圖, 如圖5(b)所示。 在預處理后的數據中, 因素C的ti波動仍然最劇烈, 而因素B比因素A的ti變化幅度大。 同時, 從R值大小來看, 因素C對識別準確率的影響最大, 因素A和B對準確率的影響程度相同。 與原始數據相比, 各個因素下表現較優的條件都發生了改變, 在因素A、 B、 C中表現最優的條件分別是水平3、 水平1、 水平3。 根據正交表的綜合可比性以及趨勢圖可以得出, 各因素對煤矸識別準確率的影響依次為C>B>A。 因素C對煤矸識別準確率影響較大的原因是, 當光照角度發生變化后, 光源中心與探測中心產生偏離, 被測樣本所受的光照強度發生改變, 造成光譜有效信息在采集過程中的缺失, 從而導致識別準確率的下降。

對原始數據和預處理后數據的準確率均值變化趨勢進行比較, 預處理后的數據變化幅度更小, 表明預處理后不同工況對樣本識別準確率的影響有所降低。 同時, 可以根據單因素試驗的結果以及表5選出A3、 B1、 C3作為預處理后數據中的最優水平組合。

2.4 隨機對照試驗

隨機選擇一組條件, 與尋找的最優水平組合下的條件進行3次重復對照試驗, 來驗證最優組條件是否優于其他組合。 隨機選擇的條件為探測角度0°、 探測距離20、 光照角度45°。 對照試驗的結果如表6所示, 從表中可以得出, 最優組的試驗準確率在各個模型上均等于或大于隨機組的結果, 最優組的平均分類準確率均大于隨機組。 試驗證明最優組條件下識別模型的表現優于其他組合。

表6 對照試驗

3 結 論

對煤矸分選過程中的不同探測角度、 探測距離、 光照角度三種工況進行模擬試驗, 并分別在單因素條件以及正交試驗設計的條件下, 采集可見-近紅外光譜數據進行分析, 得到以下結論:

(1)在可見-近紅外波段, 不同工況下煤和矸石的反射光譜吸收峰差異并不明顯, 煤的反射率較低且反射光譜的斜率小于矸石, 隨著工況的變化, 樣本自身的反射率也會發生改變, 但煤和矸石的反射率變化趨勢基本一致。

(2)單因素條件下, SNV+SG卷積平滑的預處理方法結合AdaBoost模型的表現最為優異, 在各個工況下識別準確率均為100%。 正交試驗條件下, 在原始數據和預處理后數據中, 三種工況對識別準確率的影響次序從大到小為不同光照角度、 探測距離、 探測角度。 同時, 可以選出探測角度0°、 探測距離20、 光照角度35°, 作為預處理后數據中的最優水平組合。 此外, 對比原始數據和預處理后數據的實驗結果可以得出, 選用合適的預處理方法和建模方法可以降低工況對準確率的影響。

(3)研究結果對不同環境下煤矸識別最優工況條件的尋找具有借鑒意義, 也為可見-近紅外光譜技術在煤矸識別領域的實際應用提供了參考。

猜你喜歡
煤矸矸石預處理
X 射線透射煤矸智能識別方法
礦井矸石山環境危害與防治措施分析
新疆主要煤區煤矸石的特征及其利用研究
礦山矸石綠色充填系統設計及參數研究*
邢東礦ZC5160/30/50型復合型充填液壓支架的研究與應用
選煤廠封閉式自動煤矸分選機設計應用
基于預處理MUSIC算法的分布式陣列DOA估計
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
基于自適應預處理的改進CPF-GMRES算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合