?

基于機器學習KNN方法的星云湖表層沉積物氮、磷元素空間分布及驅動因素研究

2024-02-27 02:05尹鵬飛賈雨欣尹繼清張文翔
生物學雜志 2024年1期
關鍵詞:星云湖泊插值

熊 靜, 尹鵬飛, 賈雨欣, 尹繼清, 張文翔

(云南師范大學地理學部云南省高原地理過程與環境變化重點實驗室, 昆明 650500)

近年來,伴隨社會經濟的快速發展,湖泊富營養化問題日趨突出,且研究表明氮、磷元素含量是關鍵影響因素[1-2]。對氮、磷元素空間分布研究常用的插值方法有普通克里金(Ordinary Kriging, OK)[3]、反距離權重(Inverse Distance Weight, IDW)[4]和核平滑(Kernel Smoothing, KS)[5]等。但由于傳統插值算法大多對數據質量要求較高,需要對數據進行一定假設,若數據不符合假設條件,其預測值往往會產生較大偏差,同時還易受異常值影響而發生“牛眼”現象或“邊緣效應”,所以一般不能保證插值結果的總體最優性,而出現預測誤差較大的情況[6-7]。機器學習因其無需條件假設,而是憑借數據的時空依賴性,利用多元線性回歸模型進行數值預測,以此獲取更接近的樣本數據等優勢,在環境數據的模擬中得到越來越多的應用[8-9]。目前利用機器學習方法進行優化空間插值的研究已經比較成熟,包括K近鄰(K-Nearest Neighbor, KNN)、隨機森林(Random Forest, RF)及支持向量機(Support Vector Machines, SVM)等[10-11]。利用機器學習方法對氣象干旱[12]、土壤有機質[13]、地下水鹽度[14]和湖泊水體中營養物質[15]的空間插值,與傳統插值方法比較,發現基于機器學習的插值算法誤差顯著減少[16]。但相對地理學其他領域已開展的機器學習模型研究,其在湖泊表層沉積物中的應用還有待進一步加強。云南高原湖泊水體富營養化是重要的環境問題,特別是滇中湖泊水體富營養化治理依然嚴峻[17]。前期通過對星云湖沉積物中有機碳、氮指數測定,并結合同位素示蹤技術的相關研究發現,沉積物中有機物濃度與湖泊沿岸各種農業活動相關[18],且TN含量呈現逐年增大的趨勢[19]。同時,基于熵值法對星云湖水質、富營養化、沉積物與水生生物等的研究,也得到了較一致的結果[20]。

本文通過對星云湖表層沉積物中氮、磷元素含量的研究,基于湖泊不同時期的營養鹽數據及機器學習KNN算法對氮、磷元素的空間插值,分析機器學習KNN算法與傳統IDW、OK及KS算法在空間插值特征與預測精度上的差異,探討機器學習KNN算法在沉積物氮、磷元素含量預測的主要優勢。研究結果將為機器學習算法在高原湖泊表層沉積物中的元素含量插值方法研究,以及低緯高原湖泊生態保護提供一定的科學依據與參考。

1 材料與方法

1.1 研究區概況

星云湖位于云南省玉溪市江川區(24°17′~24°23′N,102°45′~102°48′E)[圖1(a)],為高原淺水湖泊。湖區總面積34.71 km2,平均水深約4.7 m[21]。由于受西南季風、西風和青藏高原的共同影響,形成北亞熱帶半濕潤高原季風氣候,降水主要集中在每年5—10月間[22]。流域內土地利用類型主要為林地與耕地,且磷礦開采活動聚集,開采總面積為741.73 hm2,生態環境受人類活動影響較大,水質污染較重、富營養化嚴重[23][圖1(b)]。

(a) 星云湖在云南省的位置; (b) 星云湖流域土地利用類型及采樣點。圖1 研究區采樣點分布Figure 1 Distribution of sampling points in the study area

1.2 樣品采集與分析

根據湖泊形態、面積等特征,以1 km2為控制單元在湖區內布設網格化采樣區域,并于2020年8月,采用UWTTEC重力式柱狀采樣器[24],在湖區內獲得沉積巖芯23個[圖1(b)],取水-沉積物界面0~5 cm的沉積物裝入密封袋帶回實驗室。

樣品在云南省高原地理過程與環境變化重點實驗室內經凍干過篩后,利用凱氏法在全自動凱氏定氮儀(K1100)上完成TN含量測定;TP含量則采用堿熔-鉬銻抗分光光度法[25]利用分光光度計(UV-1750)測定。土地利用類型數據主要來源于歐洲航天局公布的2021年全球土地利用數據集(https://viewer.esa-worldcover.org/worldcover),其分辨率為10 m。

1.3 KNN法

KNN是一種常用的基于實例學習的機器學習監督算法,其通過構建特征向量來選取最接近的樣本進行回歸或分類[26]。對給定測試的樣本,基于某種距離度量找出訓練集中與其最接近的K個訓練樣本,并以K個“鄰居”的信息為基準進行預測,其距離度量用Lp表示,具體公式如下:

D={(x1,y1),(x2,y2),…,(xm,ym)}

(1)

xi=(xi(1),xi(2),…,xi(n))

(2)

(3)

式中,D為訓練數據集,m為樣本數,y為不同樣本對應類別,且不同樣本間有n個特征,xi為樣本的特征向量,p為指數,權重對距離較近的點影響大于距離較遠的點,p指數越大,距離越近的點影響越大。

2 結果與分析

2.1 湖泊沉積物TN、TP空間分布特征

通過利用IDW、OK、KS和KNN模型,重建的星云湖表層沉積物TN含量的空間分布特征表明(圖2),TN含量在0.56%~0.86%波動,平均值為0.71%;IDW、OK、KS和KNN模型,空間插值得到的星云湖表層沉積物TN含量空間分布總體上呈現一致的趨勢,表現出氮含量由湖區西南部向東北部逐漸減少的趨勢。

(a) IDW; (b) OK; (c) KS; (d) KNN。圖2 星云湖TN空間分布特征Figure 2 Spatial distribution characteristics of TN in Xingyun Lake

同時,基于IDW、OK、KS和KNN模型獲得的星云湖表層沉積物TP含量為0.57%~0.91%(圖3),平均值為0.78%,磷含量的空間分布均表現出由東至西遞減的趨勢,其中,湖區東北部為高值區,西部為低值區。

(a) IDW; (b) OK; (c) KS; (d) KNN。圖3 星云湖TP空間分布特征Figure 3 Spatial distribution characteristics of TP in Xingyun Lake

2.2 湖泊沉積物營養元素插值結果對比

基于各模型空間插值得到的星云湖表層沉積物氮、磷元素的空間分布趨勢整體一致,但局部存在差異:使用IDW算法進行空間插值時“牛眼”現象最為明顯,KS的平滑效應突出,OK出現條帶狀的空間分布特征,而使用KNN算法對局部湖區分布細節有明顯的改善,空間分辨率更高,能清晰呈現其變化分布趨勢的同時,細節信息更突出。實測數據極值的預測中,TN極值為0.589%和0.863%,對應IDW預測值為0.54%和0.733%,OK為0.766%和0.727%,KS為0.683%和0.729%,KNN為0.706%和0.768%;TP實測極值為0.57%和0.91%,IDW為0.768%和0.77%,OK為0.72%和0.78%,KS為0.748%和0.774%,KNN為0.694%和0.803%??擅黠@看出,無論是對極大值或極小值的預測,KNN的預測誤差是最小的、最接近實測數值,預測空間梯度最大。

基于平均絕對誤差(Mean Absolute Error, MAE)、均方誤差(Mean Square Error, MSE)、最大殘差(Max Error)等誤差評價指標分析,對KNN、KS、OK和IDW等4種不同算法模型的空間插值結果與真實值間的誤差比較發現(表1),機器學習KNN算法對TN和TP的插值誤差均是最小的,對應MAE、MSE及Max Error分別為0.045、0.004、0.133和0.035、0.002、0.113;而IDW的預測誤差最大,分別為0.070、0.007、0.165和0.062、0.006、0.190,誤差精度表現為KNN>KS>OK>IDW。其中,KNN模型插值的TP含量誤差指數(MAE、MSE和Max Error)相較IDW、OK和KS分別下降了43.5%、66.7%、40.5%,37.5%、60.0%、21.5%和35.2%、50.0%、13.7%;而TN含量誤差指數則分別下降了35.7%、42.9%、19.4%,33.8%、42.9%、24.9%和25.0%、33.3%、0.7%。

表1 不同空間插值算法預測精度Table 1 Different spatial interpolation algorithms predict accuracy

2.3 不同時期星云湖TN和TP空間差異

為進一步驗證機器學習KNN算法在不同時期、不同氮和磷濃度下的插值誤差,通過對已有星云湖營養鹽相關研究結果[18-19],并利用上述4種插值模型對其進行空間插值(圖4),且基于MAE、MSE和Max Error等指標評估各自誤差。研究結果表明(表2),機器學習KNN算法依舊是4種空間插值算法模型中表現最優的,其預測誤差最小、預測精度最高。IDW、OK和KS模型預測的TN及TP含量空間插值誤差較大,約為KNN插值模型的2~42倍。同時,研究還表明不同時期的沉積物中氮、磷元素含量存在較大差異,呈現增大的趨勢。對比不同時期氮、磷元素空間插值的預測精度,機器學習KNN算法的預測精度在4種插值算法中均是最優的,但其在低濃度范圍區間內的預測誤差更小,此時TN、TP對應的預測均方誤差值分別為9×10-4和1×10-4。

表2 不同空間插值算法預測精度Table 2 Different spatial interpolation algorithms predict accuracy

(a)TN的IDW插值; (b) TN的OK插值; (c) TN的KS插值; (d) TN的KNN插值;(e)TP的IDW插值; (f) TP的OK插值; (g) TP的KS插值; (h) TP的KNN插值。圖4 2019年星云湖表層沉積物TN、TP空間分布特征(數據來源于文獻[19])Figure 4 Spatial distribution characteristics of TN and TP in surface sediments of Xingyun Lake in 2019 (data source literature[19])

3 討論

由于常規方法無法同時對空間內的所有點進行觀測,只能通過獲取一定數量的空間樣本,并據此預測未知地理空間的特征。因此,湖泊營養鹽濃度的空間內插方法,對污染物分析的研究及生態保護具有十分重要的實際意義[27-28]。通過對比機器學習KNN與KS、OK和IDW等4種不同插值算法所獲得的星云湖表層沉積物氮、磷元素含量來看,基于機器學習的KNN方法較其他方法在空間插值上更接近實測值、誤差更小,對應預測精度更高。同時對比不同時期星云湖表層沉積物氮、磷元素的空間插值結果可知,在氮磷元素空間濃度整體較低時利用機器學習KNN算法的預測值與實測值的誤差更小。治理湖泊的重點是降低湖泊富營養化指數,在此趨勢下KNN算法的優勢更為突出,它可有效代替傳統插值算法進行空間預測,從而保證空間預測的準確性,為湖泊富營養化治理提供重要參考。湖泊水體與沉積物中的營養元素分布常受到自然與人類活動等多種因素的共同影響,不同區域的湖泊沉積物營養元素在空間分布上可能存在顯著差異,而IDW、OK等算法在插值前需要對數據進行一定的假設,這往往使預測結果與實際數值間存在顯著的偏差。相反,機器學習KNN算法所建立的模型結構是根據湖泊中的氮、磷元素含量的真實數據來決定的,能有效避免條件假設對預測數據的影響,較好地減少湖泊沉積物氮、磷元素在插值過程中存在的“高值低估,低值高估”問題,以及極值凸顯的“牛眼”或過度平滑引起的“邊緣效應”等現象,整體表現出較好的預測空間梯度性。此外,相較我國其他區域的湖泊研究,云南高原連續、大范圍的湖泊表層沉積物營養鹽研究數據還較少[29],而KNN算法在運算過程中,除較為快捷高效以外,還可同步處理可能的數據缺失[30]。這也在一定程度上彌補了云南高原湖泊沉積物中氮、磷元素研究的不足,體現其廣泛適用性。雖然利用機器學習KNN算法在滇中星云湖不同時期的表層沉積物氮、磷元素的空間插值中均獲得了較好的結果,但如何進行自適應選擇k值,使其具有最小分類誤差等仍有待進一步研究分析。

同時,星云湖表層沉積物氮、磷元素含量的空間分布與流域土地利用具有較好的相關性[31],本文研究結果與前人研究結果[19]在空間總體分布趨勢上整體相近,這與近年來湖區西部沿岸人口聚集、農業活動持續增強[19],且受湖流作用沉積于西部湖區水深較大處有關。而營養鹽含量的不斷增大,說明近年來星云湖湖泊富營養化程度仍在持續加劇[32],湖泊水質仍需科學的、有效的方法進行持續緩解與改善,而流域內的磷礦開采[33]與農業面源污染仍是當前星云湖污染治理亟待解決的問題[34]。

4 結論

通過對星云湖表層沉積物中氮、磷含量的分析,并基于KNN與IDW、OK及KS等方法的誤差分析,研究了星云湖表層沉積物氮、磷元素的空間分布特征及其驅動機制,探討了機器學習KNN算法與傳統插值方法在湖泊表層沉積物氮、磷元素含量預測的優勢。

(1)星云湖表層沉積物中TN平均值為0.71%,TP含量平均值為0.78%,與前人研究結果相比,含量整體呈現出增加的趨勢;氮含量呈現由西南部向東北部逐漸減少的趨勢,而磷含量為由東至西遞減的空間分布特征,且湖泊表層沉積物中氮、磷元素的空間分布深受流域內土地利用類型、農業面源及湖泊自然要素的影響。

(2)對比不同時期的KNN和KS、OK、IDW各算法模型的空間插值結果評估發現,基于機器學習的KNN算法對星云湖表層沉積物氮、磷元素空間插值預測的平均絕對誤差、均方誤差、最大殘差等評價指標在4種插值模型中均為最小,表現出擬合精度最高、誤差最小的特性,且在氮、磷元素濃度較低時的空間預測誤差更小、準確性更高。KNN無需條件假設、可同步處理數據缺失的特性,在現階段將能夠有效地彌補云南高原湖泊沉積物中氮、磷元素研究的不足,將有利于更為深入地開展低緯高原湖泊表層沉積物營養鹽空間分布特征及影響要素的研究。

致謝:感謝梁秋實博士、劉圣之碩士等在野外樣品采集與分析研究過程中給予的幫助與支持。

猜你喜歡
星云湖泊插值
有眼無珠
戴一片宇宙星云
你相信嗎?湖泊也可以“生死輪回”
基于Sinc插值與相關譜的縱橫波速度比掃描方法
“害羞”的湖泊
奇異的湖泊
玫魂星云
三葉星云
一種改進FFT多譜線插值諧波分析方法
基于四項最低旁瓣Nuttall窗的插值FFT諧波分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合