基于機器學習模型的北海市銀海區小流域地表水中銨氮污染預測

2024-02-24 14:34王令占謝國剛張宗言

安全與環境工程 2024年1期

涂兵,楊博,王令占,李響,謝國剛,馬筱,張宗言

(中國地質調查局武漢地質調查中心(中南地質科技創新中心),湖北武漢 430205)

近年來,機器學習方法因其能夠很好地描述不同變量之間的復雜關系而被廣泛應用于預測各種水體中污染物濃度的空間分布[5-9]。多元線性回歸模型長期以來一直被用于水體污染物濃度預測,雖然多元線性回歸模型結構簡單,但與復雜的模型相比,其性能仍具有競爭力[6]。而針對數據量較小的數據集,支持向量機因其稀疏表示而具有出色的泛化能力,因此也被廣泛用于污染物濃度預測[10-11]。隨機森林是一種基于樹的集成算法,能夠處理輸入變量之間的相互依賴和非線性關系,前人的相關工作已經證明了該方法的可靠性[12-15]。

1 材料與方法

1.1 研究區概況

馮家江流域、三合口江流域和福成河流域位于廣西壯族自治區北海市區南部沿海(圖1)。研究區位于北回歸線以南,屬亞熱帶季風型海洋性氣候,陽光充足、雨水豐沛,多年平均氣溫為22.6 ℃,多年平均降雨量約為1 751 mm,降雨主要集中在每年的5—10月份,降雨量占全年的80%以上,年均蒸發量約為1 166 mm。河流容易受到潮汐作用影響而不斷變化。研究區位于南康盆地,南康盆地基底為志留系、泥盆系砂巖、泥巖,盆地上覆蓋第四系、新近系互層狀的松散礫石、砂和黏土,松散層厚度自北向南呈增厚之勢,最厚達200 m以上。其中,第四系松散沉積物廣泛分布于馮家江、三合口江和福成河兩岸,巖性主要為全新世灰、灰黃色砂礫、含礫砂、粉砂、砂質黏土、黏土等,含腐殖質,具下粗上細的二元結構。

圖1 研究區地理位置和地表水采樣點分布Fig.1 Geographic location of the study area and distri-bution of surface water sampling sites

1.2 樣品采集與測試分析方法

2021年7月至8月,分別對馮家江流域、三合口江流域和福成河流域地表水進行了采樣。采樣主要遵循以下原則:①地表水取樣點盡量選擇代表性的采樣點;②采樣點涵蓋研究區不同地理特征和水文條件;③在河流上游、下游以及河流入?？诘任恢眠x取采樣點,在水質發生變化處適當加密采樣點。水樣采集點利用GPS精確定位,其中馮家江流域地表水樣40個,三合口江流域地表水樣13個,福成河流域地表水樣14個,具體采樣點位分布見圖1。

無機物采樣瓶采用500 mL高密度聚乙烯瓶,取樣前用待取水樣潤洗3次。地表水樣采用1 L采樣器在水面下約0.5 m處采集;采集地下水樣時,先用低流速潛水泵抽取3～15 min,待水溫、pH值、溶解氧(DO)、氧化還原電位(ORP)等現場測試指標達到穩定后再采集地下水樣品。所有無機物測試樣品經0.45 μm水系濾膜過濾后分別裝入3個500 mL聚乙烯瓶中,不留頂空。其中,1瓶水樣加入適量濃H2SO4調節pH值至小于2,用于主要陽離子測試,其余2瓶水樣用于主要陰離子和其他指標測試。所有水樣均置于4 ℃冰箱并避光保存,并于取樣后一周內完成實驗室測試分析。

1.3 機器學習模型

1.3.1 多元線性回歸模型

多元線性回歸模型是一種用于建模和預測因變量(響應變量)與多個自變量(特征)之間關系的統計方法。它假設目標變量與自變量之間存在線性關系,并且通過尋找最佳擬合直線來建立這種關系。多元線性回歸模型的數學表達式如下:

y=β0+β1x1+…+βnxn+ε

(1)

式中:y為目標變量(預測值);x1、x2、…、xn為自變量(輸入變量);β1、β2、…、βn為模型的參數,表示每個自變量對應的權重(斜率);ε為誤差項,表示模型無法完全解釋的隨機誤差。

多元線性回歸模型的目標是找到一組最優的參數β1、β2、…、βn,使得預測值y與實際值(觀測值)盡可能接近。

1.3.2 支持向量機模型

支持向量機模型的目標是找到一個超平面f(x),使得樣本數據點盡可能地靠近這個超平面[20]。這一方法適用于解決連續變量的預測問題。支持向量機的數學表達式如下:

(2)

式中:f(x)為預測函數,用于預測目標變量y的值;β0為回歸模型的截距項;αi為拉格朗日乘數,用于表示每個樣本點的權重;K(x,xi)為核函數,用于將樣本數據x映射到高維特征空間,并計算預測函數f(x)的值。在本研究中,核函數選用線性核函數。

1.3.3 隨機森林模型

隨機森林模型是一種集成學習算法,它采用集成學習的思想,將多個決策回歸樹組合成一個強學習器,通過集成多個決策回歸樹的預測結果,可以獲得更準確和穩健的回歸結果[20-22]。決策回歸樹是一種樹狀結構的回歸模型。首先,它通過對特征空間進行不斷劃分,將數據分為不同的區域,并在每個區域內擬合一個常量值作為該區域內所有數據點的預測值。單獨的決策回歸樹容易過擬合,但通過集成多棵決策樹,可以降低過擬合的風險。其次,在構建每棵決策樹時,隨機森林模型會對訓練數據進行隨機采樣(有放回采樣),這意味著每棵決策樹的訓練數據都是不同的。這樣可以使得每棵決策樹看到不同的樣本數據,增加了模型的多樣性[20]。最后,隨機森林模型將各個決策樹的預測結果取平均作為最終預測值。通過平均的方式,可以降低個別決策樹的誤差對最終回歸結果的影響,提高了模型的穩健性。隨機森林模型的數學表達主要涉及多個決策樹的組合和回歸結果的計算。對于含N棵決策樹的隨機森林模型,每棵決策樹i的回歸模型可以表示為

(3)

式中:fi(x)為第i棵決策樹的回歸輸出,表示預測值;Mi為決策樹i的葉節點數目;cij為決策樹i第j個葉節點的輸出值;Rij為決策樹i第j個葉節點對應的區域,表示樣本x被劃分到該葉節點的條件;I(x∈Rij)是一個指示函數,當x屬于Rij時,取值為1,否則為0。

隨機森林模型的最終輸出是所有決策樹回歸預測結果的平均值,其表達式為

(4)

1.4 模型訓練

圖2 模型訓練與預測流程圖Fig.2 Flowchart of model training and prediction

2 結果與討論

2.1 模型性能評估

表2列出了北海市銀海區小流域地表水樣分析數據集(訓練集和測試集)的描述性統計結果。通過對比訓練集和測試集上的觀察值和預測值,可以直觀地看出3種預測模型的性能(圖3)。

表2 北海市銀海區小流域地表水樣分析數據描述統計結果

圖3 隨機森林模型、多元線性回歸以及支持向量機模型在測試集上預測地表水中N-N濃度與實際濃度的對比Fig.3 N-N concentrations predicted by random forest model,multiple linear regression model and support vector machine model based on the test set in surface water versus actual concentrations

由圖3可以看出:隨機森林模型的預測值最為準確,其在y=x線上的分布最為集中,而多元線性回歸模型與支持向量機模型的預測效果較為接近。

圖4 隨機森林模型、多元線性回歸模型和支持向量機模型預測值的均方根誤差箱形圖Fig.4 Box plots of root-mean-square error for predicted values by random forest model,multiple linear regression model and support vector machine model

由圖4可知,在測試集上,隨機森林模型預測值的均方根誤差變化范圍在0.41 mg/L至7.83 mg/L(中值為1.38 mg/L)之間,而多元線性回歸模型和支持向量機模型表現相對穩定,其預測值的均方根誤差變化范圍分別在1.19 mg/L至2.91 mg/L(中值為1.85 mg/L)和1.49 mg/L至2.89 mg/L(中值為2.07 mg/L)之間,其中隨機森林模型的中值最小,表示其預測誤差相對較小。這表明通過調整隨機森林模型超參數能夠獲得預測性能更好的機器學習模型。

2.2 小流域地表水中N-N濃度分布預測

2.3 輸入變量相對重要性分析

圖6 基于隨機森林模型的輸入變量相對重要性排序Fig.6 Relative importance ranking of input variables based on the random forest model