?

基于多源地理數據和隨機森林模型的土壤類型模擬預測研究
——以寧洱縣為例

2024-01-26 02:46盧加華
地礦測繪 2023年4期
關鍵詞:成土樣點外業

盧加華

(云南省地礦測繪院有限公司,云南 昆明 650218)

0 引言

土壤普查是查明土壤類型、理化性質及其空間分布規律,查清土壤資源數量和質量等的重要手段,普查成果可以為土壤的科學分類、改良利用、保護管理等提供科學依據,也可以為國民經濟建設和地方政府重大政策的制定提供決策依據。我國先后于1958年和1979年開展了兩次全國土壤普查?,F如今距第二次全國土壤普查(簡稱二普)已經有40余年,二普的普查成果數據的現勢性已經不能全面如實地反映當前農用地的土壤質量情況。2022年2月16日,國務院印發《關于開展第三次全國土壤普查的通知》,決定自2022年起開展第三次全國土壤普查。當前,全國上下正在緊鑼密鼓地開展第三次全國土壤普查(簡稱三普)工作。通過普查,可以對耕地、園地等農用地和未利用地的土壤類型、性狀、立地條件等進行“全面體檢”,摸清土壤質量家底。

土壤類型模擬預測,是第三次土壤普查成果形成的核心工作。土壤屬性圖、土壤農業適宜類型評價、土壤志等成果形成,都需要基于土壤型圖來開展,土壤類型模擬預測的重要性不言而喻。本研究在寧洱縣土壤三普試點工作的基礎上開展,旨在研究土壤類型模擬預測實用方法和存在的問題,以指導后續土壤三普工作按時、按質、按量完成。

1 數據來源及研究方法

1.1 區域概況

寧洱縣位于云南省南部,在普洱市中部,距省會昆明市370 km,南距市政府駐地思茅區33 km。地處東經100°43′至101°37′,北緯22°41′至23°36′之間。北部與鎮沅縣相接,東北部和東部沿把邊江與墨江縣分界,東南與江城縣山水相連,西南與思茅區接壤,西北沿小黑江與景谷縣為鄰。全縣總面積3 670 km2,其中,縣城建成區面積7.6 km2,山區面積占96.8%。全縣轄6鎮3鄉、89個村(居)民委員會,總人口16.27萬人,城鎮化率45.3%,少數民族人口占55.5%。全境山區較多,地質構造屬喀斯特地貌,地貌縱橫交錯復雜,氣候屬于南亞熱帶山地季風氣候,并兼有南溫帶、熱帶、中亞熱帶等氣候類型。

1.2 數據來源

數據類型涵蓋了地質、地形地貌、遙感、土地利用類型和土壤三普外業采樣等成果。其中,1∶25萬地質圖來源于云南省地質礦產勘查開發局,行政區劃圖、數字高程模型(DEM)、土地利用類型等數據來源于寧洱縣自然資源局,1∶5萬土壤名稱校準后土壤圖和樣點制備數據來源于云南省第三次土壤普查辦公室下發給寧洱縣第三次土壤普查辦公室的數據,高分多光譜遙感影像從地理空間數據云(https:∥geocloud.cgs.gov.cn/)網上獲取。

1.3 隨機森林模型

經典的隨機森林(Random Forest,簡稱RF),是由Breiman提出的一種基于分類回歸樹的非參數機器學習模型,能從數據中學習復雜的非線性關系和交互特征[1]。它通過建立多個決策樹來完成分類或回歸任務,并通過集成這些決策樹的結果來作出最終的預測,具有較高的預測準確性和穩定性。

隨機森林模型中存在大量需要調優的超參數,其中一部分來自于基決策樹,一部分來自于最終的隨機森林模型自身[2]。主要參數包括基決策樹棵樹n(ntree)和特征數量m(mtry)?;鶝Q策樹棵樹n(ntree)是指隨機森林所包含的決策樹數量,默認為500。若ntree太小容易欠擬合,太大容易過擬合,可根據誤差大小調整決策樹的數量,默認情況下取數據集變量個數的1/3。通常情況下,需要進行反復訓練來確定最佳值。

2 模擬預測結果

2.1 成土環境因素確定和預處理

環境變量的選取原則是基于土壤發生學理論,綜合考慮研究區域的土壤景觀特點和成土環境條件,選取與土壤類型形成與演變相關或協同的環境因素變量,結合寧洱縣實際情況及已有資料完整性來分析。本研究選取母巖母質、植被覆蓋指數、土地利用現狀、高程、坡度、坡向、坡位、平面曲率、剖面曲率、地形濕度指數共10種成土環境因素。確定成土環境因素后,利用GIS軟件對10個成土環境因素進行處理,轉換為格式統一柵格數據,使之能被R語言識別,并進行回歸分析,預測土壤類型。

1)母質(MZ),采用校正后的二普土壤類型圖與樣點數據進行空間連接并賦值,得到母質分布圖。為便于R語言識別,將母質類型按數字連續編號處理,研究區域的范圍為1~11。

2)歸一化植被指數(Normalized Difference Vegetation Index,NDVI),是一種常用的遙感指數,用于評估地表植被狀況。它通過計算紅外波段和可見光波段的差異來反映植被的活力和繁茂程度。歸一化是指將NDVI的值范圍進行統一化,使其在0到1之間,使得不同數據集之間的植被指數可以進行比較和分析。研究區域的歸一化植被指數范圍為-0.21~0.69。

3)土地利用類型(TDLY),土地利用方式也是影響土壤養分分布的重要因素,但土地利用方式為類別變量,不能直接用于回歸分析。本研究采用啞變量方法處理土地利用類型,啞變量處理后,對數值做連續對應關系處理,處理后研究區域的土地利用類型取值為2~14。

4)地形濕度指數(Topographic Wetness Index,TWI)是一個地表濕度評估指標,用于描述地表的排水性和潮濕程度。地形濕度指數根據地形因素計算得出,包括地形斜率和流域貢獻面積。地形斜率越大,流域貢獻面積越大,則地形濕度指數越高,表示該區域可能有較高的濕度和排水性較差。研究區域的地形濕度指數取值范圍為2.56~23.64。

5)高程數據(GC)、坡度(PD)、坡向(PX)、坡位(PW),均由數字高程模型(DEM)生成。對坡度重分類為5級,坡位重分類為上、中、下3級,對應數值為1、2、3。

6)平面曲率(PMQL)及剖面曲率(POMQL)代表地形表面的凹凸程度,其間接影響土壤發育。平面曲率值為正值時,表明地形表面為向上凸,負值表明地形向下凹,值為0時表面為水平。剖面曲率與平面曲率相反,正值表明地面向下凹,負值表明向上凸[2]。

主要成土環境因素的空間分布特征見圖1。

圖1 主要成土環境因素的空間分布特征Fig.1 Spatial distribution characteristics of main soil forming environmental factors

2.2 隨機森林模型訓練

2.2.1 模型訓練及參數調優

首先,基于土壤三普剖面樣點、表層樣點制作樣點數據集,并以此來訓練隨機森林模型。土種為因變量,10種成土環境因子為自變量。預測結果表明,僅選擇三普采樣點作為樣本訓練模型,可解釋度(Mean of squared residuals:81.78)和整體解釋率(% Var explained:9.54)均不高,且預測出的土種類型缺失,共缺失10個土種。

其次,提取一定數量的典型虛點來參與隨機森林模型的構建。從二普土壤圖上拾取土壤類型典型點(虛點,非實際調查觀測點)作為補充性樣本點。通過人機交互的方式,篩選典型虛點數量和空間分布的合理性。對土種樣點數量少于10個、圖斑面積較少或空間分布較零碎的土種進行空間插值處理。全縣共提取1 190個典型虛點,典型虛點主要分布于樣點少于10個、土種面積較小和空間分布零碎的水稻土、灰泡土等土種。

融合典型虛點和三普外業采集的樣點數據形成樣點數據集,來訓練隨機森林模型。經多次訓練結果對比顯示,可解釋度(Mean of squared residuals:98.25)和整體解釋率(% Var explained:23.32)分別提高了16.47和13.78個百分點,且各成土環境因子重要性得分均有提高,其中母質重要性提高了約15個百分點。增加典型虛點前后的重要性對比如圖2所示。

圖2 原始樣點與增加典型虛點重要性對比圖Fig.2 Comparison of importance between original samples and added typical virtual points

確定樣點數據集后,對隨機森林模型中的超參數經過不斷的調試挑選,最終確定n(ntree)最佳取值為1 000,m(mtry)最佳取值為4。

2.2.2 環境變量重要性分析

對利用土壤類型與環境變量關系,進行土壤類型與環境變量之間的相關性分析,保證兩者之間存在顯著相關性,以判斷哪些環境變量可以保留在模型中,并去除環境變量之間的共線性。采用成土環境因子重要性得分(%IncMSE)來評價相關性,是通過對每一個成土環境因子進行隨機賦值,如果該成土環境因子更為重要,那么它被隨機替換后模擬預測的誤差會增大。因此,該值越大表示該變量的重要性越大。從表1可以看出,成土環境因子母質的重要性得分最高,歸一化植被指數次之,坡位的影響最小。

2.3 土壤類型空間推測

將最終篩選樣點數據集、訓練好的隨機森林模型、成土環境因子柵格數據集成到R語言中。依次讀入預處理好的成土因子柵格變量數據,將柵格轉為矩陣和向量,再將向量合并為數據框,然后,利用Predict函數預測土種類型的柵格分布。研究區域共43個土種,用連續數字分別進行編碼,預測出38個土種,預測完整率為88.37%。其中,有5種土種因圖斑面積太小未被預測出來,分別為黑香面土、紅砂土、棕末香土、黃膠泥田和灰泡土,通過外業校核來完善土壤類型圖。 R語言模擬預測土種圖見圖3。經GIS處理校準后的土種圖見圖4。

圖3 R語言模擬預測土種圖Fig.3 Soil type map of simulated prediction using R language

圖4 經GIS處理校準后的土種圖Fig.4 Soil type map after processing and calibration by GIS

2.4 土壤圖校核與更新

2.4.1 土壤類型圖校核

土壤圖校核工作包括內業和野外校核。內業校核結合第三次全國國土調查數據和成土環境因子進行邊界調整,調整依據為地形地貌、母質、植被、土地利用等在景觀上的明顯變異點。

利用GIS軟件提取土壤類型名稱或邊界疑似發生改變區域和模擬預測不出來的土種圖斑,經人工篩選優化處理后,形成的校核圖斑。全縣共提取54個圖斑,分三條路線開展野外校核工作。野外校核工作組由土壤調查分類、土壤制圖專家和熟悉當地土壤類型的專家組成。通過打鉆和專家經驗現場判別土種類型,利用GNSS記錄校核點的經緯度坐標、景觀部位和土壤利用情況等信息,驗證模擬預測的土種名稱和土壤類型圖斑邊界正確性。外業結束后,內業根據外業校核反饋的結果來修正模擬預測結果。

通過野外校核,發現土壤名稱發生改變的圖斑有3個,分析其原因主要有兩方面:一是二普時候為水田,后長期水改旱,導致耕作層已經不具備水稻土特征;二是二普有兩個名稱,對應到三普只有一個名稱,干擾機器學習結果。絕大部分圖斑邊界均需要調整,調整原因多數為土地利用類型發生改變,導致土壤類型邊界改變。

2.4.2 土壤類型圖更新

通過野外校核和內業邊界調整,獲取土壤類型改變區代表性圖斑的土壤類型變化情況,經過歸納整理,形成縣域內土地利用變更等原因導致土壤類型變化的知識規則,根據這些知識規則對土壤類型改變區進行土壤類型和邊界更新。將土壤類型改變區更新圖斑與土壤類型未改變區更新圖斑在ArcGIS軟件中進行合并和融合,生成新的土壤三普土壤類型圖。

經過分析發現,引起寧洱縣土壤類型發生改變的知識規則主要有以下幾種情況:一是水田改為旱地、園地、林地、草地,導致耕作層已不具備水稻土特征;二是旱地、林地、草地等改為水田,耕作層具備水稻土特征;三是通過占補平衡措施,采取覆土、填埋等方式建成的新增耕地;四是潛育化土壤因水分條件變化脫潛;五是表土層因土壤侵蝕導致表土層變薄或表土層消失;六是水土流失、酸雨等其他原因。

3 結論

寧洱縣第三次土壤普查土壤類型,經過GIS軟件處理多源地理數據,選取母巖母質、植被覆蓋指數、土地利用現狀、高程、坡度、坡向、坡位、平面曲率、剖面曲率、地形濕度指數10個成土環境因素,在R語言中模擬預測土壤類型生成土壤類型柵格圖。經過內業和野外校核,得出以下結論:

1)基于多源地理數據和隨機森林模型的土壤類型預測方法具有較高的準確性和可靠性,預測的土壤類型邊界與實際吻合度較高。

2)提高外業采樣點分布的合理性,可以提高預測成果的準確性。

3)提取合理的典型虛點作為樣本數據集,可以提高預測成果的準確性。

4)預測土種有一定的準確率,但需要結合外業采樣點和第二次土壤普查成果的土壤類型圖來校準土種名稱。

此外,通過對寧洱縣土壤類型模擬預測研究發現,寧洱縣第三次全國土壤普查試點工作還存在以下問題:

一是表層樣采樣樣點布局不合理。表層樣樣點過分集中于某幾種土種,少部分土種樣點數據過多,過度擬合;大部分土種樣點數量過少,欠擬合。從而導致樣點少的土種不能被預測出來,過度擬合的土種邊界與實際情況不吻合,加大了外業校核工作量。

二是土壤類型圖邊界校核工作前后倒置。受各種因素的影響,三普土壤類型圖斑邊界校核工作滯后。外業取樣工作完成后才開展土壤類型圖邊界校核,致使部分區域外業工作重復。

三是利用低影響高精度底圖來校核高影響低精度地圖。如:重要性最高的母質圖比例尺為1∶25萬,而土地利用類型數據精度為1∶1萬,重要性排名為第四位。用低影響高精度去校核高影響低精度比例尺地圖,需要大量的野外校核工作來核實確認邊界的正確性。

因此,結合本研究成果和試點成果形成工作,對土壤類型圖制作提出幾點建議:

一是加大外業采樣樣點布局分布合理性檢查。在樣點校核布局的時候,各級三普辦應加大各土種表層樣取樣的數量和空間分布的合理性檢查,對樣點數量少于10個的土種進行加密,建議每個土種圖斑不少于3個樣點。

二是將土壤類型圖邊界校核工作前置。建議將土壤類型圖邊界校核工作和表層樣采樣工作同步開展,減少外業工作量。通過外業判別對土壤類型邊界發生改變區域進行標注,大幅提高土壤類型圖邊界校核的準確性和真實性。

三是采取全圖斑校核方法,提高土壤類型圖精度。建議依托地方政府和基層專家的力量,采取沿圖斑邊界發生改變的區域開展全圖斑野外校核工作,以提高土壤類型圖邊界的正確性和準確性。

猜你喜歡
成土樣點外業
試論礦山生態修復的地質成土
小麥條銹病田間為害損失的初步分析
土壤侵蝕作用是雛形土和新成土廣泛分布的成因研究
基于空間模擬退火算法的最優土壤采樣尺度選擇研究①
基于移動 GIS 的公路工程外業調查系統研究
貴州成土母巖類型及其與耕地土壤關系探討
基于市政管線外業采集命名規則和輔助軟件開發
天津市第一次全國地理國情普查外業調繪核查
基于分融策略的土壤采樣設計方法*
公路外業測量中GPS RTK測量技術的應用探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合