?

基于多源環境變量和隨機森林模型的江西省耕地土壤pH值空間預測

2023-12-28 07:27鐘驍勇李洪義郭冬艷謝模典趙婉如胡碧峰
自然資源遙感 2023年4期
關鍵詞:環境變量江西省耕地

鐘驍勇, 李洪義, 郭冬艷, 謝模典, 趙婉如, 胡碧峰

(1.江西財經大學財稅與公共管理學院,南昌 330013; 2.中國自然資源經濟研究院,北京 101149; 3.江西財經大學旅游與城市管理學院,南昌 330013; 4.江西財經大學財經數據科學重點實驗室,南昌 330013)

0 引言

耕地資源是人類賴以生存的重要物質基礎和生產資料,土壤pH值作為耕地土壤關鍵屬性之一,不僅是影響農作物生長發育的重要因素,也是影響土壤養分有效性和土壤重金屬元素遷移轉換的關鍵因子[1]。但是,隨著人類社會工業化進程加快,酸性氣體(SO2)、顆粒污染物排放以及氮肥的大量施用等,使得土壤酸化在許多地方成為一個普遍的趨勢[2-4]。張福鎖院士團隊在Science上發表的研究結果表明,從20世紀80年代—21世紀初,中國主要農作物產區土壤pH值明顯下降[5]。土壤酸化會增加土壤重金屬的活性,不利于農作物健康生長,進而威脅中國的糧食生產安全,這一問題在中國南方地區尤為突出[6-7]。因此,獲得準確的土壤pH值空間分布信息對于遏制土壤酸化趨勢、保護土壤環境質量和保障糧食生產安全具有十分重要的意義和價值。

國內外許多研究學者使用地統計學等空間插值方法用于土壤屬性空間信息的預測,主要有普通克里格插值法(ordinary Kriging,OK)、反距離權重插值法(inverse distance weighted,IDW)、普通最小二乘法(ordinary least squares,OLS)、地理加權回歸(geographically weighted regression,GWR)等[6,8-12]。近年來,隨著計算機技術、衛星遙感和土壤近地傳感器等技術的快速發展,機器學習算法應用于數字土壤制圖(digital soil mapping,DSM)成為一個新的研究熱點[13-21]。張甘霖等[22]指出: DSM未來有從地統計學走向機器學習為主導模型的趨勢。隨機森林(random forest,RF)作為一種以數據為驅動的機器學習方法[23],具有訓練速度快、對多元線性不敏感、易于處理缺失數據等優點,還可避免對模型的過度擬合[24-26]。RF能夠獲取和表達土壤屬性空間變化與環境變量的復雜非線性關系,并根據這種關系推測土壤屬性空間分布,還能以相對較少的樣本量取得較好的預測精度[27]。目前已有研究將RF模型用于土壤有機碳、土壤類型和土壤質地等屬性空間預測和制圖[28-31,26]。但是目前將RF應用于土壤pH值空間預測制圖的研究還較為少見,尤其是國內運用RF模型開展大尺度耕地pH值空間預測分析的研究鮮有報道。

因此,本文以土壤酸化現象顯著的江西省為例,使用RF算法和環境協變量信息開展耕地土壤pH值的預測研究。同時將預測結果與使用OK方法插值結果進行對比,驗證使用RF算法開展大尺度耕地土壤pH值預測研究的可行性和可靠性,為江西省土壤酸化問題的治理和農業生產管理提供數據基礎和依據。

1 研究區概況及數據源

1.1 研究區概況

江西省位于中國東南部,長江中下游南岸,位于E113°34′36″~118°28′58″,N24°29′14″~30°04′41″之間(圖1),屬于亞熱帶季風性濕潤氣候,是我國重要的糧食、油料、棉花、蔬菜和水果生產基地。江西地貌類型以山地、丘陵為主,山地占全省面積的36%,丘陵占42%,平原占12%,水域占10%。主要土壤類型為偏酸性的紅壤,面積達93 111.32 km2,約占全省總面積的56%,具有較為明顯的地帶性和地域分布規律。

圖1 研究區土壤采樣點分布

1.2 數據源及預處理

采集土壤樣點16 582個,同時選取樣點的土壤屬性以及植被指數、地形變量、氣候變量和耕地利用條件作為耕地土壤pH值空間預測的環境變量。其中土壤屬性包括土壤類型、有機質、有效磷、速效鉀、全氮、全磷、全鉀、陽離子交換量、成土母質和耕層質地,數據來源于2018年江西省耕地質量等別數據庫、1980年和2010年江西省農業測土配方項目數據。歸一化植被指數、地形變量的地貌類型和高程以及氣象因子的年均氣溫和年降水量均通過資源環境科學數據中心(http: //www.resdc.cn/)網站下載獲取,影像空間分辨率均為30 m。為了更好地反映出江西省地形條件對土壤屬性變化的影響,選擇高程、坡度、坡向、剖面曲率、平面曲率、溝谷深度、地形濕度指數、垂直到溝谷距離和多分辨率谷底平坦度等地形因子,分別借助ArcGIS 10.2和SAGA 7.6.2軟件從數字高程模型(digital elevation model,DEM)數據中提取。耕地利用條件包括灌溉保證率、排水條件、氮肥用量、磷肥P2O5用量、鉀肥K2O用量、秸稈還田比例和秸稈還田量,數據來源于2018年江西省耕地質量等別數據庫(表1)。

表1 土壤pH值空間預測的環境變量及數據來源

2 研究方法

2.1 環境變量的組合和篩選

為全面分析土壤pH值空間變異規律以及探索不同環境變量對模型預測精度的貢獻程度,將表1中30個環境變量分成2種不同的組合: ①以地形變量、氣候變量和植被指數等遙感數據為基礎,增加土壤屬性和耕地利用條件等實測數據進行模型訓練(RF-A); ②采用傳統的地形變量、氣候變量和植被指數等遙感數據訓練模型(RF-B)。

2.2 RF模型構建

基于采集到的16 582個土壤樣點數據,按照8∶2,7∶3和6∶4的比例分為訓練集和驗證集。RF模型采用bootstrap方法對樣本進行放回抽樣,沒有被抽取的樣本會自動生成一個對照集,因此不需要進行交叉驗證。RF模型中2個可調參數決策樹數量ntree和節點分裂次數mtry決定了模型的配置。

2.3 精度分析與比較

RF模型精度評價選用皮爾遜相關系數r、平均誤差ME、絕對平均誤差MAE和均方根誤差RMSE等4個統計指標,其計算公式分別為:

,

(1)

,

(2)

,

(3)

,

(4)

3 結果與分析

3.1 土壤pH值的描述性統計分析

通過江西省耕地土壤pH值描述性統計結果可知,土壤pH值范圍在4.00~8.30之間,平均值為5.20,中位數為5.10,標準差為4.91,變異系數為9.43%,表明江西省耕地土壤pH值呈弱變異。參考通用標準將江西省土壤pH值劃分為7個等級: 極強酸性(pH<4.5)、強酸性[4.5,5.5)、酸性[5.5,6.5)、中性[6.5,7.5)、堿性[7.5,8.5)、強堿性[8.5,9.5)和極強堿性(pH≥9.5)。結果顯示,江西省耕地土壤pH值樣點中,極強酸性樣本數67個,占比0.43%; 強酸性樣本數12 718個,占比76.69%; 酸性樣本數3 301個,占比19.90%; 中性樣本數435個,占比2.62%; 堿性樣本數61個,占比0.36%; 沒有強堿性樣本。綜上可知,江西省耕地土壤總體呈現明顯的酸性特征。

3.2 RF模型最優參數分析

通過逐次試驗,確定RF模型中mtry和ntree參數的最優值。固定mtry(分別設為2,4,6和8),逐次調整ntree(分別設為300,600,900,1 200和1 500),進行4組20次試驗。為避免過擬合問題,通過比較訓練集和驗證集的相關系數(r值),根據兩者最為接近的結果確定最優預測模型的參數。結果表明(表2): 當mtry=8,ntree=900時,pH值預測模型的訓練集和驗證集r值最為接近,表明此時的模型穩定性最佳。

表2 RF模型中節點分裂次數和決策樹數量的篩選

3.3 不同訓練集的RF和OK模型預測精度比較

基于不同訓練集運行模型所獲得的預測結果有所不同(表3)。從相關系數r看,不同訓練集的RF-A和RF-B模型預測的土壤pH值與實測值的r較高(均大于0.96)且差別不大,而OK模型r處于0.65左右,預測精度明顯低于RF模型; 從誤差看,RF-A模型的ME,MAE和RMSE值最小,而OK模型的誤差明顯更高。3種模型的擬合能力隨訓練樣本量呈現不同的變化趨勢??傮w上看,RF-A模型略微優于RF-B模型,OK模型明顯弱于前2個模型,并且訓練集和驗證集抽樣比在7∶3時RF-A模型精度最佳。在驗證數據集中,除了抽樣比7∶3時,OK模型比RF-A模型精度高外,其他情況下RF-A模型的r更高。這表明環境變量增加耕地土壤實測數據有利于提高模型預測精度。因此在土壤樣點數據充足的情況下,應優先選擇RF-A模型用于土壤pH值的建模預測制圖。

表3 使用不同訓練集時RF和OK模型預測精度比較

3.4 環境變量重要性分析

使用RF模型定量計算出不同變量對于土壤pH值預測的重要性(圖2)。由圖2可知,氣候因素如年均氣溫和年降水量是決定土壤pH值的最重要因素,這一結果與Chen等[32]、盧宏亮等[33]和王世航等[34]的研究結果基本一致。此外,地形地貌因子如溝谷深度、高程和多分辨率谷底平坦度也是決定土壤pH值的重要因子。說明江西省土壤pH值分布與地形地貌特征高度相關。土壤理化性質對于土壤pH值也有著不可忽視的影響。人為因素如化肥施用量、排水和灌溉條件等也對土壤pH值有較大影響。但是部分因子如土壤類型、秸稈還田比例的重要性低于預期,需要后續進一步研究加以分析。

圖2 RF-A模型變量相對重要性

3.5 耕地土壤pH值空間預測制圖

研究區耕地土壤pH值空間分布如圖3所示,整體上使用OK模型、RF-A和RF-B模型獲得的研究區土壤pH值空間分布特征大體相同,其中土壤pH低值區主要分布在江西省中部鄱陽湖平原的南昌市、撫州市和吉安市等地區,高值區域主要分布于江西省西部和東部山地丘陵區域,如九江市、鷹潭市、萍鄉市和上饒市等地區。結合圖1高程信息可知,這一分布特征與江西省地形地勢較為相似,表明江西省土壤pH值分布與地形地貌因素存在較大的關聯性,這一結果與圖2結果相互印證。本文預測結果與周宏冀[35]采用OK模型、協同克里格和BP神經網絡所獲得的預測結果也基本一致。

(a) RF-A模型預測結果 (b) RF-B模型預測結果 (c) OK模型預測結果

4 討論

4.1 模型精度分析

根據表3評價結果所示,當訓練集和驗證集劃分比例為8∶2時,RF-A模型對于pH值的預測結果精度最高,其r為0.599,RMSE為0.392,其預測值與實測值散點圖見圖4。模型精度略低于齊雁冰等[36]的研究結果。主要原因可能是江西省地貌類型復雜,山地丘陵地貌區所占比重較大,山區耕地分布面積小而破碎,土壤pH值預測難度相比地勢平坦、地形地貌類型單一的小區域難度更大[37]。雖然本文使用RF模型預測精度仍需進一步提高,但是預測結果基本符合預期,仍然可以為江西省耕地資源管理提供寶貴的數據基礎。

圖4 RF-A模型預測值與實測值散點圖

4.2 pH值空間變異的影響因素分析

通過運用R Studio軟件開展pH值空間變異的影響因素分析,結果顯示江西省耕地土壤pH值與年均氣溫和年降水量關系密切(圖2),這一結論與Chen等[32]、盧宏亮等[33]和王世航等[34]的研究結果基本一致。此外,溝谷深度、多分辨率谷底平坦度、高程、坡度和坡向等地形地貌因子也可以通過影響溫度、光照、水分和熱量的再分配以及母巖形成分布等影響土壤的發育,從而間接影響土壤pH值[38]。因此,地形因子對于預測土壤pH值也具有很高的重要性(圖2)。土壤pH值與土壤有機質含量呈現極其顯著負相關關系,而土壤pH值與陽離子交換量呈現極其顯著的正相關關系,這一結果與戴萬宏等[39]、許亞琪[40]、康婷等[41]和王暉等[42]的研究結果一致。耕層質地和土壤類型對于土壤pH值也有明顯的影響,輕壤pH值明顯高于其他耕層質地類型,黏土次之,不同土壤類型pH值差異也十分顯著,其中草洲沙泥土、鱔泥棕紅壤和棕色石灰土土壤pH值相對最高,這一結果與前人研究基本一致[32]。需要注意的是,排水條件和灌溉保證率對于耕地土壤pH值也有不可忽視的影響,本研究結果表明,耕地排水能力不滿足的情況下耕地土壤pH值最高,在排水能力充分滿足和基本滿足的耕地土壤pH值相對較低。同時灌溉能力不滿足的耕地土壤pH值也高于灌溉能力基本滿足和充分滿足的耕地土壤,這一結果與朱丹妹等[43]和Ding等[44]的研究結果較為相符(圖5)。

(a) pH與有機質含量的相關性 (b) pH與陽離子交換量的相關性 (c) pH與土壤類型的相關性

5 結論

綜合使用地形、氣候、植被指數、土壤屬性和耕地利用條件等自然環境協變量和人為管理因素數據,基于大量土壤實測樣點,分別訓練使用2種不同變量組合、不同模型參數設置和不同訓練抽樣比數據集合的隨機森林模型,并預測江西省耕地土壤pH值,再將預測結果與普通克里格方法進行對比。得到如下結論:

1)增加土壤屬性和耕地利用條件作為環境變量的RF-A模型預測耕地土壤pH值的精度優于以地形、氣候、植被屬性作為環境變量的RF-B模型和普通克里格的預測結果。

2)環境變量重要性分析結果顯示,氣候因素如年均氣溫和年降水量是決定土壤pH的最重要因素,地形因子、化肥施用量、排水和灌溉條件對土壤pH值變異的影響次之,分析結果與前人研究基本一致,表明相關結論較為可靠,對開展大尺度耕地土壤pH值預測具有一定的理論借鑒和實際應用價值。

但是,對于土壤pH值空間預測精度仍有待提高,今后將考慮增加環境協變量因子,提高基礎數據空間分辨率等,進一步提高隨機森林模型預測土壤pH值的精度。

猜你喜歡
環境變量江西省耕地
自然資源部:加強黑土耕地保護
我國將加快制定耕地保護法
模擬成真
保護耕地
新增200億元列入耕地地力保護補貼支出
《江西省志?審計志》順利通過驗收
考了個大的
從桌面右鍵菜單調用環境變量選項
徹底弄懂Windows 10環境變量
基于三階段DEA—Malmquist模型的中國省域城鎮化效率測度及其收斂分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合