?

機器學習在土壤重金屬污染研究中的應用

2024-01-02 06:58郭華雨馬海麗陳一平李蕓邑梁嘉良
三峽生態環境監測 2023年4期
關鍵詞:機器重金屬污染

郭華雨,馬海麗,陳一平,李蕓邑,梁嘉良*

(1.海軍后勤部專項工程建設辦公室,北京 100841;2.重慶大學 環境與生態學院,重慶 400045)

土壤重金屬污染問題在全球范圍內受到長期關注[1]。土壤中的重金屬因其毒性、持久性、生物可利用性和較長的生物半衰期而被認為是土壤環境中最危險的污染物之一。世界衛生組織認為,整個生態系統正在由于過度暴露于重金屬而不斷受到威脅[2-4]。土壤重金屬可能通過皮膚吸收、口服攝入、口鼻呼吸等途徑進入人體,從而損害人體的神經、消化和內分泌系統,甚至可能誘發癌癥[5]。一些重金屬還能夠通過抑制酶的活性,引起中度的細胞質損傷,從而影響神經組織,甚至損害解毒的關鍵器官[6]。因此,調查和研究土壤重金屬的相關信息,開發合理的土壤重金屬污染修復技術,從而加強重點地區的污染防治成為了研究熱點。目前,傳統的方法主要依靠現場采樣和復雜的、多步驟的實驗室測試來獲得土壤重金屬的相關信息[7]。重金屬的濃度通常由專業的實驗室測定,檢測結果雖然具有較高的精度,但對于大規模的污染調查,現場采樣成本高且耗時長,生態環境信息綜合分析能力弱,使得傳統的化學方法難以在監測土壤重金屬污染時具有高效率和較強的時效性[8-9]。因此,有必要開發新的技術,既能得到準確的土壤重金屬相關數據,又減少人力、財力及時間上的消耗。

機器學習是基于樣本數據建立模型,在沒有明確編程的情況下做出預測或決策的新技術,其模型包括監督、無監督和半監督學習,輸入的數據常被分成訓練集和測試集,模型在訓練集上訓練,而測試集用于評估模型的穩健性和準確性[10]。機器學習擁有強大的擬合能力,分析和學習大量復雜、多維的數據集,發現數據中隱藏的關聯,并且比其他方式更加有效和準確[11]。因此,在過去十年,機器學習,尤其是深度學習在圖像分類、機器翻譯[12]、化學[13]、材料科學[14]、生物醫學[15]和量子物理[16]等領域得到了長足的發展。近幾年,機器學習在環境領域也得到了廣泛應用,在評估環境風險[17]、評估水和廢水基礎設施的健康狀況[18]、優化處理技術[19]、識別和確定污染源的特征[20]以及進行生命周期分析[21]等方面顯示良好的應用前景。

近年來,基于機器學習模型的土壤重金屬研究受到了極大的關注[22],不僅將勞動力、經濟、時間和空間要求方面的成本負擔最小化,還促進了對自變量和因變量之間的非線性和復雜聯系的理解[23]。然而,模型的性能會受到某些因素的影響,如數據集的數量、數據類型、數據優化以及由算法而產生的偏差等等[24]。由于算法類型眾多,通常需要基于數據類型和應用方面,首先對數據集進行篩選,然后對模型進行訓練和驗證,以獲得最穩健、準確的計算模型。因此,本文總結了機器學習在土壤重金屬領域不同方面的應用,對各方面的常用建模過程和模型篩選過程進行了綜述,以期進一步推動機器學習在土壤重金屬研究中的應用。

1 機器學習與土壤重金屬污染

1.1 重金屬含量

在土壤重金屬污染領域,機器學習最常被應用于土壤重金屬含量的預測。研究者們通常以土壤的光譜信息、遙感信息、理化性質、采樣點氣候等因素為輸入參數,以實驗室測定的重金屬含量為目標函數進行模型構建,并比較不同計算模型的預測準確度。該技術方案不僅能夠實現對指定地點的重金屬含量的預測,還可以分析決定不同地點重金屬濃度的關鍵因素,進而繪制土壤重金屬分布地圖。

1.1.1 土壤重金屬含量預測

重金屬含量是評價土壤重金屬污染程度最重要的特征,而土壤中重金屬濃度與土壤性質息息相關。高光譜遙感技術由于其豐富的光譜信息,已逐漸被應用于土壤的物理化學性質檢測[25]。然而,高光譜數據的高維數和冗余特性嚴重影響了估算模型的準確性和穩定性[26],因此需要對高光譜進行篩選。研究者們使用Pearson 相關系數閾值來確定與土壤重金屬含量相關性最高的光譜變量[27-28],也有研究者在提取高光譜數據作為參數時就使用了機器學習法[29]。偏最小二乘回歸(partial least squares regression,PLSR)能夠在輸入參數存在嚴重多重相關性的條件下進行回歸建模,更易于辨識高光譜中的系統信息與噪聲。Tang等[30]利用PLSR-VIP 值評價和相關分析方法選擇特定光譜特征波段,提取的有效特征帶與強相關系數基本一致,共計提取了637 個Cr 的特征帶,756個Ni的特征帶。Han等[31]通過序貫正交化(sequential preprocessing of orthogonalization,SPORT)對PLSR模型進行優化后得到序貫正交偏小二乘(sequential and orthogonalized - partial least square,SO-PLSR),大大提高了建模精度,訓練集R2達到0.89,測試集R2達到0.82。

提升樹(boosting tree,BT)是弱分類器組合起來形成強分類器的一類模型,梯度提升決策樹(gradient boosting decision tree,GBDT)是其中一種,可在缺失輸入參數持續可控的情況下保持強抗噪性[32]。Tang 等人[30]以高光譜特征值和Al-Fe 礦物含量作為參數,使用GBDT、隨機森林(random forest,RF)、支持向量機(support vector machine,SVM)、極端梯度增強樹(extreme gradient boosting,XGBoost)、自適應提升樹(adaptive boosting,AdaBoost)5 種模型對Cr、Ni 濃度進行預測,結果表明GBDT 為最佳預測模型,Cr 和Ni 的R2分別達到0.85 和0.71。極端梯度增強樹(XGBoost)是在GBDT的基礎上改進得到的模型,可以根據重要性排序來識別敏感特征,防止模型過擬合[33]。Sun等[34]以高光譜降維得到的特征值和Ni濃度相關的光譜指標作為參數,使用RF、XGBoost、SVM、反向傳播神經網絡(back propagation neural network,BPNN)、高斯過程回歸(Gaussian process regression,GPR)5 種模型對Ni 濃度進行預測,結果表明XGBoost為最佳預測模型,標準差(standard deviation,SD)與均方根誤差(root mean squared error,RMSE) 之比(residual predictive deviation,RPD)可達到2.08。為提高Boosting 的預測精度,可以與其他算法聯合使用。傳統的AdaBoost 模型通常采用分類回歸樹(classification and regression tree,CART)作為基本學習器[24-35],Lin 等人[36]提出了一種新的堆疊AdaBoost 模型,選擇CART、SVM、GPR、k 近鄰(k-nearest neighbor,KNN)、多層感知器(multilayer perceptron,MLP)、核嶺回歸(kernel ridge regression,KRR)6種機器學習模型作為AdaBoost 的基本學習器。結果表明,將CART、GPR、MLP、SVM 作為基礎學習器的堆疊AdaBoost模型相對穩定,精度更高。

表1 機器學習在土壤重金屬濃度預測中的部分應用Table 1 Application of machine learning in soil heavy metal concentration prediction

1.1.2 土壤重金屬含量的影響因素

土壤環境是復雜的,沒有單一因素可以單獨影響土壤重金屬含量,各種影響因素之間可能表現出復雜的相互作用。在某些情況下,某一因素可能與土壤重金屬含量沒有直接關系,但可能與其他因素相互作用,從而影響土壤重金屬含量[40-41]。

RF模型使用特征重要性指標來分析影響因素,特征重要性是通過對每個特征的重要度分數進行排序來計算的,這些分數反映了每個特征對模型預測性能的貢獻程度[42]。Li 等人[43]使用RF 模型甄別了自然和人為因素導致的Cd 污染,定量評估自然和人為因素對Cd 積累的貢獻,并進一步確定了影響因素之間的相互作用。Yang等人[44]使用正交矩陣因子分解(positive matrix factorization,PMF)模型和RF 模型相結合的方法確定了重金屬的潛在環境影響。結果表明,不同重金屬的關鍵影響因素不同,例如,影響Cd和Cu濃度的關鍵因素是與污染源的距離,而As、Ni 和Cr 的關鍵影響因素則是土壤母質、pH、有機質等。

重金屬來源的空間位置也會影響其含量,因此研究者們引入二元局部莫蘭指數(bivariate local moran’s I,BLMI)對污染企業網格進行空間分析。Jia 等[45]使用多項樸素貝葉斯(naive bayes,NB)方法對26 萬多家企業的地理數據進行了分類,之后使用BLMI 進行了分析,探討了不同工業類別與土壤Cd和Hg含量之間的關系,例如,過度施肥和采煤是導致地區高Cd 濃度的主要原因。Huang等[46]將NB、RF、BLMI 相結合,分析了某工業地區土壤重金屬濃度的影響因素,具體來說,先利用NB 識別出作為貢獻因子的250 家污染企業,之后利用RF 測定了影響因素對As、Cd 和Hg 濃度的定量貢獻,最后利用BLMI 生成了重金屬濃度與關鍵影響因素之間的空間聚類圖,明確揭示了它們之間的相互作用和內在效應。

表2 機器學習在土壤重金屬影響因素分析中的應用Table 2 Application of machine learning in soil heavy metal influence factor analysis

1.1.3 土壤重金屬分布地圖

繪制重金屬分布地圖是了解土壤重金屬空間分布最直觀的方式,是針對性地對土壤污染問題進行治理的前提[49]。傳統的土壤化學污染調查方法昂貴、費時、費力,而使用機器學習進行數字土壤制圖則在便捷性方面擁有顯著優勢[50]。數字土壤制圖基于不同的機器學習模型,這些模型的輸入數據來自全球定位系統(global positioning system,GPS)、地理信息系統(geographic information system,GIS)、光譜波、現場掃描儀、遙感數據等[51-53],而機器學習模型的選擇對于建模過程和結果都至關重要。

Azizi等人[54]將遙感數據、地形屬性、專題地圖和土壤屬性作為輸入參數,評估了RF、立體回歸樹(cubist regression tree,Cubist)對空間重金屬含量分布的預測精度,結果表明,RF 模型對Ni和Cu的預測精度較高,而Cubist模型對Mn的預測性能更佳。Yang 等人[55]從150 篇文獻中收集了有關重金屬的土壤吸附數據、土壤特性、吸附系統性質,研究了CART、線性回歸(linear regression,LR)、隨機梯度下降回歸(stochastic gradient descent regression,SGDR)、支持向量回歸(support vector regression,SVR)、KNN、脊回歸(ridge regression,Ridge)6 種傳統學習模型和RF、GBDT、XGBoost、極端隨機樹(extremely randomized tree,ET)4 種集合模型,建立了6 種金屬的獨立模型,可在已知土壤性質的情況下,預測并繪制土壤重金屬的全球分布圖??臻g插值法是指在給定的有限點數據集上,通過某種計算模型,對未知位置的數值進行估計或預測的方法,被廣泛應用于與地理有關的領域中[56-58]。Sergeev等人[59]以空間坐標為輸入參數,以元素含量為輸出參數建立模型,首先分析了人工神經網絡(artificial neural network,ANN)-MLP 和廣義回歸神經網絡(general regression neural network,GRNN)模型的殘差(預測值與實際值的差),然后對殘差加以普通克里金(ordinary kriging,OK)計算,并將輸出與人工神經網絡模型相結合,得到MLPRK和GRNNRK模型的預測結果。Song 等[60]使用多元線性回歸-普通克里金法(MLR-OK)、支持向量機-普通克里金法(SVM-OK)和隨機森林-普通克里金法(RF-OK)的混合統計模型進行土壤重金屬空間分布預測和制圖,結果表明,OK的引入使模型預測精度(R2)提高了30%。

1.2 重金屬固定

固定化是土壤重金屬修復的一種有效技術,它具有高效、環境可持續和低成本的優勢[61]。生物炭具有比表面積高、孔隙結構發達、易于表面改性等特點,可以通過絡合、沉淀和吸附的方式將重金屬固定在土壤中[62-63],是常用的土壤重金屬修復材料。然而,由于生物炭理化性質的多樣性,探究生物炭固定重金屬效率的定量構效關系存在著費時、費力、成本高的局限性[64-65]。

機器學習可以基于龐大、復雜和大維度的數據來構建預測模型,為研究生物炭在固定土壤重金屬方面的定量構效關系提供了有力工具[66]。Guo等[67]收集了32 篇文獻,提取了844 個數據點,使用RF、SVMR、GBDT、LR四種模型預測了生物炭對重金屬固定效率,結果表明RF 模型預測效果最佳,其中生物炭投加量、土壤pH和有機碳含量對土壤重金屬固定效率的影響最大,且呈正相關關系。Sun 等人[68]從發表的文獻整理得到包含74 種生物炭和43 種土壤的數據庫,使用ANN 和RF對生物炭固定5種不同重金屬和類金屬的過程進行建模,通過生物炭特性、土壤理化性質、操作條件和重金屬的初始狀態對重金屬吸附效率進行了預測。由于文獻提供的數據類型不一致,作者還評估了各模型對缺失數據的容忍度和插值的可靠性,結果表明ANN 和RF 都具有較好的預測性能,而RF模型具有更高的數據容錯性。Palansooriya等[69]從文獻中篩選出了20 個變量作為參數輸入RF、SVMR、ANN模型,在訓練階段對最佳超參數進行了調整,使用五次交叉驗證將預測誤差降至最低,優化后的RF 模型預測效果最佳。因果分析表明,影響重金屬固定效率的因素依次為生物炭性質>實驗條件>土壤性質>重金屬性質。

表4 機器學習在重金屬固定中的應用Table 4 Application of machine learning in the fixation of heavy metals

1.3 重金屬溯源

了解土壤中重金屬的來源是治理土壤污染的關鍵。傳統的溯源方法主要包括主成分分析(principal component analysis,PCA)、PMF 和同位素分析[70],其中PMF 模型使用最小二乘法對數據進行迭代計算,并在非負約束條件下評估各因子的貢獻,目前已被廣泛應用于土壤重金屬污染源的量化分析,但是如果數據點之間存在多重共線性,則該方法失效[71-72]。機器學習方法可以建立具有較強預測能力的非線性模型,從而克服上述缺陷。例如RF 可用于確定各種來源對土壤重金屬污染的貢獻[73],自組織映射(self-organizing map,SOM)作為一種高維可視化方法,已被應用于分析污染源及其分布[74-75]。

Shi等人[76]采用傳統的統計分析——PMF和三種機器學習方法——SOM、條件推理決策樹(conditional inference tree,CIT)、RF 來識別和評估土壤中不同來源的重金屬的貢獻,利用PMF 模型得到了各來源的土壤重金屬總負荷貢獻率占比,利用SOM 模型分析了各種重金屬的主要來源,利用CIT模型識別了各種重金屬的重要影響因素,利用RF 模型量化并識別了潛在影響因素。Zheng 等人[77]提出了PMF 與GBDT 和SOM 相結合的方法,以量化土壤重金屬各種來源的貢獻,并從野外采樣和地理空間數據中識別相關驅動因素,不僅評估了土壤重金屬的濃度和空間分布,還利用GBDT-偏相關圖(partial dependence plot,PDP)模型識別了影響污染源的驅動變量。重金屬之間的相關性會導致圖形結構各元素之間的關系發生變化,但是在使用SOM 模型的研究中,這些關系往往被忽視,導致評估不準確。圖卷積神經網絡(graph convolutional network,GCN)在自動化的同時能夠學習到圖的特征信息與結構信息,具有優異的魯棒性[78-79]。Gao 等[80]首先訓練GCN 學習了土壤樣本之間的圖結構關系,然后使用SOM 和圖卷積自組織映射(graph convolutional self-organizing map,GCSOM)將數據可視化,結果顯示,GCSOM 得到的數據圖具有更大的聚集性和更清晰的分類邊界。

表5 機器學習在土壤重金屬溯源中的應用Table 5 Application of machine learning in soil heavy metal traceability

1.4 重金屬污染風險評估

常用的土壤重金屬污染風險評估方法包括單因素污染指數法[82]、污染負荷指數法[82]、Nemerow 綜合污染指數法(nemerow integrated pollution index,NIPI)[83]和潛在生態風險評價法(potential ecological risk index,RI)[84]等。隨著人工智能和機器學習在各個領域的興起,人們開始將機器學習與傳統評價方法相結合,以更加準確快捷地評估污染風險。RI 可以將重金屬的環境生態影響與毒理學相聯系,評估任何潛在的生態危害。Huang等[85]根據RI 值使用K-means 將數據集劃分為5 種類型,有效覆蓋了不同的土壤重金屬污染程度,然后利用SVM 構建了風險評價模型,該模型訓練集和測試集的準確率均能達到95%以上,具有良好的分類和評價性能。NIPI 可以綜合反映重金屬對土壤的不同影響,突出重金屬高濃度對環境質量的影響,避免因平均而弱化重金屬權重的現象。Wang 等[86]首先將土壤樣本的可見和近紅外光譜(visible and near-infrared spectroscopy,VNIR)進行預處理,測得土壤中重金屬含量,計算出每個樣品的NIPI和RI值,并將NIPI和RI數值分為不同的風險等級,然后利用PLSR、Cubist、GPR 和SVM 構建重金屬含量和2 種污染指數的預測模型,結果表明,SVM 具有較高的預測精度和較強的泛化能力。Zhou等[87]將單因素指數法與NIPI結合使用,單因素定義為pH,NIPI 直接反映土壤重金屬超標倍數和污染程度,使用遺傳算法(genetic algorithm,GA)-反向傳播(back propagation,BP)、MLR、BP、M5 模型樹4 種模型預測某地區的重金屬污染風險,結果表明,GA-BP 模型具有較快的收斂速度,并且預測精度最佳。

表6 機器學習在土壤重金屬風險預測中的應用Table 6 Application of machine learning in soil heavy metal risk prediction

2 總結與展望

機器學習的應用大大提高了土壤重金屬研究的效率,已然成為相關研究的熱點之一。在土壤重金屬濃度預測、重金屬濃度決定因素分析、重金屬污染溯源、重金屬固定劑設計和土壤重金屬污染風險評估等方面,機器學習均表現出強大的應用潛力。然而,機器學習在土壤重金屬相關研究中的應用還處于初級階段。具體來說,數據集和算法是機器學習的兩大關鍵要素,而數據集又是模型構建的基礎?,F階段數據集的構建主要依賴研究者們自行到各個地點采取上百個樣本并進行測定。由于相關數據測定的成本和時效性問題,此類研究往往依舊耗時費力。更嚴重的是,由于不同研究者數據采集方法之間的差異,不同研究之間的數據往往不能夠通用,客觀上降低了研究的參考價值。因此,建議依托物聯網技術收集整理土壤樣本的相關數據集信息,構建平臺,以實現低成本、高效率的實時數據共享。

猜你喜歡
機器重金屬污染
機器狗
機器狗
重金屬對膨潤土膨脹性的影響
堅決打好污染防治攻堅戰
堅決打好污染防治攻堅戰
未來機器城
測定不同產地寬筋藤中5種重金屬
ICP-AES、ICP-MS測定水中重金屬的對比研究
再生水回灌中DOM對重金屬遷移與保留問題研究
對抗塵污染,遠離“霾”伏
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合