?

基于CARS和1D-CNN聯合的XRF土壤重金屬超標分析方法研究

2024-03-07 01:50楊婉琪李智琪李福生呂樹彬樊佳婧
光譜學與光譜分析 2024年3期
關鍵詞:金屬元素光譜卷積

楊婉琪, 李智琪, 李福生*, 呂樹彬, 樊佳婧

1. 電子科技大學自動化工程學院, 四川 成都 611731

2. 電子科技大學長三角研究院(湖州), 浙江 湖州 313001

3. 清華大學深圳國際研究生院先進制造學部, 廣東 深圳 518055

引 言

土壤中的重金屬污染是世界上突出的環境污染問題之一。 隨著社會城市化的快速發展, 燃料燃燒、 礦產開采、 農藥使用等人類活動[1-2]加劇著土壤中重金屬的污染程度。 鎳、 銅、 砷、 鉛等重金屬在人類生活和工業排放中通過大氣沉降和農業灌溉等方式進入土壤, 并且長時間滯留難以降解。 這些累積在土壤中的重金屬對生態環境影響大, 同時也對人類的健康構成了嚴重威脅。 我國南方紅壤、 黃壤等多表現為酸性, pH值在5.0~6.5[3-4]。 根據GB15618—2018《中國人民共和國國家標準土壤環境質量農業地土壤污染風險管控標準(試行)》, 當土壤中重金屬元素含量超過其風險篩選值時, 可能會對人體健康造成威脅, 應該開展進一步的詳細調查以評估該區域的土壤污染風險程度。

然而, 土壤重金屬污染具有隱蔽性[5], 人們很難憑借肉眼分辨出土壤中是否存在重金屬及其含量, 需要依靠相關檢測技術對土壤中的元素含量進行測定及風險評估。 能量色散型X射線熒光光譜(ED-XRF)分析是一種常用的無損分析、 快速檢測元素的方法, 因其制樣簡單、 快捷、 環保、 經濟、 準確有效等優點被廣泛用于土壤、 合金等的重金屬檢驗[6-7]。 由于通常需要檢測的重金屬含量很低, 元素特征峰會出現與其對應干擾元素特征峰發生譜線重疊, 從而導致元素檢測分析結果的誤差顯著增加[8]。 隨著人工智能算法進入成分分析領域, 解決土壤重金屬污染風險測定出現了新思路。 何迎一[9]基于支持向量機建立土壤重金屬污染評價模型, Hu[10]等利用隨機森林算法來預測土壤重金屬含量。

本工作以土壤重金屬元素為研究對象, 采集國家標準土壤樣品的XRF光譜數據, 通過小波閾值去噪、 迭代離散小波變換本底扣除對譜線進行預處理, 然后利用競爭性自適應重加權采樣算法(CARS)結合一維卷積神經網絡(1D-CNN), 將經過特征篩選后的一維光譜數據作為模型的輸入, 對土壤中的重金屬污染進行風險篩選。

1 實驗部分

1.1 樣品與儀器

實驗樣品采用59份國家標準土壤樣品, 包含 GBW(E) 農業土壤成分分析標準物質、 GSD 水系沉積物成分分析標準物質、 GSS土壤成分分析標準物質三個系列樣本。 實驗使用了TecSonde生產的型號為TS-XH4000的手持便攜式ED-XRF光譜儀, 實驗土壤樣品和儀器如圖1(a, b)所示。 光譜儀工作電壓為45 kV, 工作電流為25 μA, 多道采集系統的成峰時間設置為0.8 μs。 激發源為Ag靶x射線光管, 光子激發特定樣品后, 通過SDD探測器接收特定樣品被激發后的能量, 并通過采集板進行解析, 從而生成能譜。

圖1 土壤樣品和儀器的示意圖

1.2 光譜獲取

為保證光譜數據測量的準確性, 在室溫下選擇XRF光譜儀的土壤測量模式, 并調試儀器測試最優參數, 每個樣品的測試時間設置為90 s。 將樣品放置在光譜儀的檢測窗口上進行測量, 對同一土壤樣品進行三次測試, 并將三次測試結果取平均值作為該樣品的最終光譜數據, 每份樣品均獲得2 048個通道數的光譜信息。 表1為59 份樣本中研究的Ni、 Cu、 As、 Pb四種重金屬元素的統計特征。 在土壤pH值呈酸性的條件下農用耕地、 草地等土壤中Ni、 Cu、 As、 Pb元素污染的風險篩選值分別為60、 50、 40、 70 mg·kg-1。

表1 重金屬元素統計特征(單位: mg·kg-1)

1.3 數據分析方法及評價指標

1.3.1 CARS算法

CARS算法是一種特征變量選擇方法, 將偏最小二乘(PLS)模型回歸系數與蒙特卡羅采樣技術相結合[11], 基本原理是用蒙特卡羅隨機選擇一定量樣本進行模型校準, 去除PLS模型中回歸系數權值較小的點, 最后在多次采樣中選擇交叉驗證均方根誤差(RMSECV)值最小的數據, 得到一系列最優子集。 CARS算法[12-13]的主要步驟包括: (1)用蒙特卡羅采樣一定數量的樣本作為建模集和預測集, 建立PLS模型; (2)計算PLS模型回歸系數的絕對值權重, 利用指數衰減函數去除回歸系數絕對值權重較小的變量; (3)利用自適應加權算法, 使得有較大權重的變量將以較高的頻率被選擇, 得到最終特征點; (4)重復以上步驟N次, 計算特征點集的RMSECV, 選取RMSECV 最小的一組特征點, 得到最優采樣結果, 即為CARS方法的最終結果。

1.3.2 1D-CNN模型

卷積神經網絡(CNN)是帶有卷積操作的深度前饋神經網絡[14-15]。 對于XRF光譜數據來說, 使用一維卷積神經網絡(1D-CNN)可以不需要將原始一維向量轉換為二維矩陣, 相較二維卷積神經網絡能夠減少計算復雜度。 通過構建一維卷積核, 提出土壤重金屬元素含量超標檢測的一維卷積神經網絡X熒光光譜分析模型。

卷積神經網絡通常由輸入層、 卷積層、 池化層、 全連接層組成。 一維CNN的結構與二維CNN相似, 最主要的區別是在一維卷積層中將二維CNN中卷積核的大小修改為一維, 降低了網絡的復雜程度, 1D-CNN模型結構如圖2所示。 實驗構造了一個10層一維CNN用于判斷土壤中重金屬元素是否存在污染風險, 包括輸入層—卷積層1—池化層1—卷積層2—池化層2—卷積層3—池化層3—全連接層1—全連接層2—輸出層, 使用篩選準確率作為評價指標。

圖2 1D-CNN模型結構圖

2 結果與討論

2.1 光譜數據預處理

通過小波閾值法對光譜數據進行去噪處理, 分解層數為3層, 小波基為db4, 以土壤樣品GBW(E)0070006為例, 去噪結果如圖3(a)所示。 可以看出在未改變樣本的光譜譜線波形的基礎上, 150~680通道能量的光譜譜線更加平滑, 有著很好的去噪效果。 利用迭代離散小波變換對信號進行分解, 并與其主要分量比較取小更新信號, 經多次迭代, 可得到近似光譜本底的曲線[16]。 小波分解高層越高, 主要分量越能代表光譜譜線的主要信息, 與譜線本底越為接近, 但分解層數越高, 主要分量中也損失了更多的細節信息。 經過多次實驗, 本底扣除過程中選擇分解層數為7層, sym4為小波基, 迭代5次時得到的譜線本底與真實本底最為接近。 以樣品GBW(E)0070006為例, 得到背景扣除后的光譜如圖3(b)所示。

圖3 預處理結果

2.2 基于CARS算法的特征點采樣

X射線熒光光譜中有2 048個通道(能量段)信息, 而許多通道不在研究目標范圍內, 有必要進一步剔除區間能量中的無關變量, 有效的變量選擇方法能夠提高模型的預測性能。 采用CARS算法進行特征篩選, 在去除冗余信息的同時還提高了數據的可靠性, 參數設置如下: 迭代次數為20次, 蒙特卡羅采樣時建模集與校正集的比例為0.8, 最大主成分數為20, 交叉驗證數為10。 將59份經過預處理后的土壤樣品作為輸入, 大小為59×2 048, 以單一目標元素的含量作為輸出, 大小為59×1。 以Pb為例, 圖4為基于CARS算法Pb元素的能量段變量篩選過程。

圖4 針對Pb元素光譜數據CARS采樣過程

由圖4可知, 篩選出來的特征變量數呈指數函數下降趨勢, 譜圖的特征通道從原始的2048個急劇減少至400個通道, 然后逐漸緩慢減少并趨于穩定。 RMSECV變化趨勢呈現先減小后增大的特點, RMSECV值減小則表明篩選過程中成功剔除了與Pb元素不相關的特征峰。 圖中“*”為RMSECV值最低點, 此時MCS采樣次數為16, 所保留的45個變量數將作為土壤污染風險篩選模型的輸入。 基于CARS算法對Ni, Cu, As和Pb元素的光譜數據篩選結果如表2所示。 經過CARS采樣, 特征變量數出現大幅度減少, Ni、 Cu、 As、 Pb元素從原來的2 048個特征分別減少至37、 53、 37、 45個, 為原來通道數的1.81%~2.59%, 去除了XRF光譜能量區間中大量的無用信息。

表2 重金屬元素在RMSECV值最小時對應的采樣次數及最優變量子集包含的變量個數

2.3 1D-CNN模型的建立與驗證

在基于XRF光譜的土壤重金屬元素污染風險篩選任務中, 對于1D-CNN模型則是一個“是”或“否”的二分類問題。 當土壤樣品中的元素超過風險篩選值則意味著土壤中有該元素重金屬污染的風險。 以Pb元素為例, 當Pb元素含量大于風險篩選值70 mg·kg-1時, 標簽被設置為1, 小于等于風險篩選值時設置為0。 在網絡輸出層對兩個標簽進行獨熱碼(One-hot)編碼, 模型參數設置如表3所示。 1D-CNN模型在Pytorch框架下進行訓練, 使用10折交叉驗證, 設置epoch為5 000, batch size為32, 學習率為10×10-6, 損失函數為MSEloss, 通過使用Adam訓練。 實驗中以經預處理及特征篩選后的特征峰計數值作為輸入, 即輸入大小為59×45, 以經獨熱碼編碼的Pb元素是否有污染風險作為標簽, 模型的輸出即為模型對該數據屬于這兩種類別的分數, 篩選判斷結果則為兩者間分數高的一類。

表3 1D-CNN模型參數設置

采用CARS算法對原始光譜信息進行變量篩選, 并與連續投影算法(SPA)進行比較, 然后利用1D-CNN方法建立土壤重金屬元素含量超標檢測模型。 針對SPA 變量選擇方法[17], 其利用矢量空間共線性最小化原理, 設置最小波長數為1, 最大波長數為50, 找到最小冗余信息的變量篩選結果, 將篩選后的結果輸入到1D-CNN模型進行預測。

將1D-CNN模型與上述模型作對比, 表4為不同方法下元素含量風險篩選模型的準確率。 首先對比CARS和SPA篩選算法的有效性, 可以看出CARS算法在X射線熒光光譜的變量選擇方面具有較明顯優勢, 可以篩選出更為有用的通道信息并去除冗余信息, 降低模型計算量。 在CARS算法基礎上, 對比1D-CNN和PLSR模型的效果, 發現1D-CNN模型的預測準確率優于傳統的PLSR模型, 可以提取到比PLSR方法更多更深層的有用光譜信息, 模型精度更高。 將CRAS篩選算法和1D-CNN方法結合可以很好地提取光譜特征信息, 大幅度提高了模型的準確性。

表4 十折交叉驗證下基于不同風險篩選方法的元素含量超標預測結果準確率

3 結 論

基于X熒光光譜分析, 建立CARS-1D-CNN模型對重金屬元素進行土壤風險篩選判別與分析。 首先, 采用小波閾值去噪和迭代離散小波變換本底扣除對譜圖進行預處理, 然后基于CARS 方法進行能量特征選擇, 并將篩選后的數據作為1D-CNN模型輸入, 判斷是否有重金屬污染風險。 與全能量段1D-CNN、 SPA-1D-CNN相比, CARS方法有效去除了冗余的干擾信息, 在降低模型計算量的同時還提高了風險篩選的效率。 在CARS篩選的基礎上, 1D-CNN相比于傳統的PLSR模型具有更優的預測精度和預測能力, Ni、 Cu、 As、 Pb的風險準確率分別為96.67%, 93.22%, 91.67%, 88.33%。 首次提出將CARS結合1D-CNN模型用于土壤風險篩選, 對XRF光譜土壤重金屬元素污染篩選有一定的指導意義, 為深度學習在本領域應用提供新的思路。

猜你喜歡
金屬元素光譜卷積
基于三維Saab變換的高光譜圖像壓縮方法
固體廢物中金屬元素檢測方法研究進展
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
微波消解-ICP-MS法同時測定牛蒡子中8種重金屬元素
基于傅里葉域卷積表示的目標跟蹤算法
星載近紅外高光譜CO2遙感進展
苦味酸與牛血清蛋白相互作用的光譜研究
一種基于卷積神經網絡的性別識別方法
鋱(Ⅲ)與PvdA作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合