?

基于偏最小二乘與隨機森林的土壤鹽含量反演研究

2021-05-11 05:53肖志云徐新宇
安徽農業科學 2021年8期

肖志云 徐新宇

摘要 針對土默川平原地區的土壤鹽分含量提出了偏最小二乘與隨機森林相結合(RF-PLSR、PLSR-RF)對土壤鹽分含量進行預測的回歸反演模型。該研究共采集45份土壤樣本,隨機選取35份為建模集,10份為驗證集。試驗首先對采集到的高光譜土壤圖像進行分割處理提取出土壤在400~1 000 nm的原始反射光譜,其次對原始反射光譜進行4種光譜變換(一階微分、多元散射校正的一階微分、SG平滑去噪的一階微分、對數的一階微分),并與土壤的實測鹽分量進行相關性分析(CA),利用相關系數選取敏感波段,最后建立偏最小二乘與隨機森林結合的回歸反演模型。結果表明,與偏最小二乘回歸、隨機森林回歸單獨建模相比,2種模型結合后的預測精度有明顯的改善。光譜經過對數的一階微分變換建立的PLSR-RF反演模型更為明顯,其建模集決定系數Rc2為0.852,均方根誤差RMSEc為0.102 g/kg,相對分析誤差RPDc為2.600,驗證集決定系數Rv2為0.941,均方根誤差RMSEv為0.049 g/kg,相對分析誤差RPDv為4.117。

關鍵詞 高光譜;土壤鹽含量;光譜變換;偏最小二乘回歸;隨機森林回歸

中圖分類號 TP391.4;TP79文獻標識碼 A

文章編號 0517-6611(2021)08-0010-06

doi:10.3969/j.issn.0517-6611.2021.08.004

開放科學(資源服務)標識碼(OSID):

Research on Inversion of Soil Salt Content Based on Partial Least Squares Combined with Random Forest

XIAO Zhi-yun1,2,XU Xin-yu1,2 (1.College of Electric Power,Inner Mongolia University of Technology,Huhhot,Inner Mongolia 010080;2.Inner Mongolia Key Laboratory of Mechatronic Control,Huhhot,Inner Mongolia 010051)

Abstract Aiming at the soil salt content in the Tumochuan Plain,a regression inversion model combining partial least squares and random forest (RF-PLSR,PLSR-RF) to predict soil salt content was proposed.A total of 45 soil samples were collected in the study,35 of which were randomly selected as the modeling set and 10 of which were randomly selected as the verification set. The experiment first performed segmentation processing on the collected hyperspectral image of the soil to extract the original reflection spectrum of the soil at 400-1 000 nm,and then performed 4 kinds of spectral transformations on the original reflection spectrum (first-order differential,first-order differential of multiple scattering correction,SG smoothing Denoising first-order differential and logarithmic first-order differential). And it performed correlation analysis (CA) with the measured salt content of the soil,utilized the correlation coefficient to select the sensitive band,and finally established a regression model combining partial least squares and random forest. Compared with partial least square regression and random forest regression,the prediction accuracy of the combination of the two models was significantly improved. The PLSR-RF inversion model that established by the first-order differential transformation of the spectrum was more obvious. Its modeling set determination coefficient Rc2 was 0.852,the root mean square error RMSEc was 0.102 g/kg,and the relative analysis error RPDc was 2.600. The set determination coefficient Rv2 was 0.941,the root mean square error RMSEv was 0.049 g/kg,and the relative analysis error RPDv was 4.117.

Key words Hyperspectral; Soil salt content; Spectral transformation;Partial least squares regression; Random forest regression

土壤鹽堿化是目前世界面臨的最主要的環境問題之一,直接影響著農業的可持續發展,而土默川平原地區是內蒙古主要的糧食生產基地之一,由于特定的水文地質條件、不合理的耕作和灌溉系統,該地區出現了大面積的鹽堿地[1]。土地鹽漬化問題變得越來越嚴重,這嚴重影響了該地區農牧民的收入和農業生產[2]。因此研究土壤鹽含量具有重要的意義。

隨著光譜技術的發展,越來越多的學者利用光譜技術對土壤鹽含量進行了一定的反演研究[3-8],Farifteh等[9]研究發現土壤鹽分含量與光譜反射率之間存在顯著相關性,表明光譜之間的相似性隨土壤中鹽分濃度的增加而降低。Srivastava等[10]證明了光譜反射率對鹽度變化非常敏感。張智韜等[11]引入敏感波段組、光譜指數組、全變量組作為模型輸入變量,并建立了4種反演模型,通過對比分析得出基于光譜指數組的隨機森林鹽分反演模型在12個模型中反演效果最佳。陳俊英等[12]利用無人機搭載六波段多光譜相機和熱紅外成像儀獲取大田葵花土壤的遙感數據,并同步采集區域內不同土壤深度處的鹽分數據;通過建立反演模型得出鹽分指數和光譜指數作為變量組構建的模型效果優于植被指數變量組,且建立的支持向量機、反向傳播神經網絡、極限學習機等機器學習鹽分反演模型比傳統偏最小二乘方法較優。馬利芳等[13]利用在新疆阜康市實測的VIS-NIR光譜通過相關性分析選取特征波段建立的RF模型具有很好的預測效果。張賢龍等[14]對原始光譜進行15種光譜變換,并構造光譜指數對土壤鹽分含量進行反演,得出基于倒數的對數光譜變換構建歸一化植被指數建立的土壤鹽分反演模型精度最高。馬馳[15]對采集到的HJ-1A高光譜影像數據進行大氣校正,并對校正之后的光譜進行多種數學變換,結果表明一階微分和倒數的一階微分可以提高土壤反射率與實際鹽分含量的相關系數。

綜上所述,國內外針對土壤鹽分含量進行的高光譜反演已經做了一定的研究,肯定了高光譜在預測土壤鹽分含量的可行性。大多數都是采用多種光譜變換之后建立的回歸預測模型,其模型反演精度低,而利用多種光譜變換建立的2種回歸模型相結合反演土壤鹽含量的研究很少,所以該研究提出了用2種算法相結合的預測模型,首先對采集到的高光譜土壤圖像樣本進行處理,提取出土壤的原始光譜數據,其次對其進行多種光譜變換,通過與實測土壤鹽分含量進行相關性分析,選出敏感波段,最后建立偏最小二乘回歸、隨機森林回歸及2種模型相結合的回歸反演模型,以期為指導農田種植提供參考。

1 材料與方法

1.1 研究區概況 察哈爾右翼中旗位于內蒙古自治區烏蘭察布市,土壤類型為砂質土,農田土壤適宜馬鈴薯、玉米等多種農作物種植,耕種制度為一年一熟。該試驗研究地區位于察哈爾右翼中旗馬鈴薯示范基地,是內蒙古馬鈴薯高產高效理論應用技術創新團隊的實驗基地。

1.2 土壤樣本采集與測定 樣本的采集通過野外調查取樣,根據該研究區耕種面積,共采集土樣45份,采集土壤樣本時應均勻布局采樣點,采樣深度為0~20 cm,將采集到的樣本土壤裝入密封袋內帶回實驗室,土壤樣品過篩去除雜質,每個樣本分為2份,一份利用手持式高光譜相機Specim IQ采集獲得目標高光譜圖像數據樣本庫,數據樣本庫的采集在實驗室用室內拍攝系統(圖1)拍攝獲得土壤的高光譜圖像,高光譜相機拍攝時,樣本和白板一起拍攝,白板校正可以消除環境不匹配的問題;另一份利用HM-WSYP土壤鹽分速測儀對其進行測量,HM-WSYP土壤鹽分速測儀測量精度為±2%,故每份樣本測量3次取其平均數作為該樣本的實測鹽含量。將45個樣本隨機分為兩組,選取35個樣本用于建立反演回歸模型,10個樣本用于模型精度的驗證(表1)。

1.3 樣本的光譜獲取

土壤高光譜圖像的獲取采用高光譜相機Specim IQ獲取,Specim IQ相機的波長為400~1 000 nm,光譜分辨率為3 nm,生成的高光譜圖像是3D數據結構,相機始終捕獲2D圖像,其分辨率為512×512像素,在光譜維度上記錄的光譜波段數量為204。該研究根據采集到樣本圖像中每個像素點的光譜曲線特征進行圖像的分割及光譜的提取。不同的物體由于組成它們的分子結構不同,故它們對電磁波能量的反射、吸收、透射隨波長的不同而不同。由于白板、背景和土壤的光譜反射曲線存在明顯不同,根據每個像素點光譜曲線的不同進行分類,提取出土壤所有像素點的光譜曲線,并對土壤中的所有像素點的光譜反射率進行算術平均作為此樣本的實際光譜曲線。

1.4 光譜預處理

高光譜圖像的光譜域噪聲在采集和傳輸等各處理環節都有可能被引入并交織呈現在高光譜圖像中。常用的光譜預處理方法包括SG平滑去噪、多元散射校正、倒數、對數、微分等。其中SG平滑變換可以減少雜點,有效去除由于儀器噪聲和隨機誤差等原因導致的高頻噪聲;多元散射校正可以消除土壤顆粒的不均勻,增強光譜與數據之間的相關性;倒數變換有利于顯示隱藏信息,增強光譜細節,提高分辨率;微分變換可以消除其他背景干擾,提供比原始光譜更清晰的光譜輪廓變化和更高的分辨率[16-18]。針對所采集的土壤高光譜圖像特性,該研究采用一階微分(1D)、多元散射校正的一階微分(MSC+1D)、SG平滑去噪的一階微分(SG+1D)、對數的一階微分(LD)對原始光譜(R)進行處理。

1.5 敏感波段的選擇

由于高光譜圖像的光譜波段范圍廣、波段窄、波段數量多,導致相鄰波段之間相關性較大,高光譜圖像中會存在較高的信息冗余,使得預測精度受到影響[19]。為了提取敏感波段,該研究對土壤含鹽量與光譜反射率的4種變換形式進行相關性分析,并對相關系數進行α=0.01水平的顯著性檢驗,相關系數越大表示相關性越高,此波段就越敏感。根據這一特性,選取相關系數超過顯著性檢驗的波段為敏感波段。

1.6 偏最小二乘與隨機森林模型的建立

偏最小二乘回歸(PLSR)提供一種多對多線性回歸建模的方法,尤其是當觀測數據的樣本量較少且變量之間存在多個相關性時,用偏最小二乘回歸建立模型可以具有傳統的經典回歸分析等方法所沒有的優點[20-21],可有效簡化數據結構,進而解決多個自變量之間高度線性相關的問題。

隨機森林(RF)算法結構清晰、易于解釋、運行效率高,對于數據要求低,且具有很好的抗噪聲能力,能夠處理高維度數據,不用做特征選擇,訓練速度快,泛化能力強,比較容易實現并行計算,不易出現過擬合問題,對于不平衡的數據來說,其還可以平衡誤差[22]。在土壤鹽含量的預測中,光譜的采集會受多種不確定因素的影響,有著高度的隨機性和非線性,隨機森林作為非參數預測模型由于不對模型的形式做假設,可以在較大的函數空間內對函數進行擬合,因而可以更好地擬合實際的模型結構,提高預測的精度。

從統計學習理論的角度分析,單個預測算法往往是基于某一類假設空間。將多個預測算法相結合,可以擴大假設空間,從而避免單個預測算法泛化性能不佳的風險,達到更高的預測精度[23]。該研究提出的偏最小二乘與隨機森林的新模型(RF-PLSR、PLSR-RF)分為3個階段: ①首先利用隨機森林(或偏最小二乘)建立初始的預測模型,輸入波段xi(n)(i表示樣本,n表示波段)則可以得到隨機森林(或偏最小二乘)在訓練樣本上的輸出預測值y^i1,用實際值yi減去預測值y^i1得到訓練殘差yi2(yi2=yi-y^i1),然后輸入的波段xi(n)與訓練殘差yi2進行組合形成新的數據集;②采用偏最小二乘(或隨機森林)算法,對新的數據集進行訓練,輸入波段xi(n)則可以得到預測殘差y^i2;③將第1階段的預測結果y^i1與第2階段的預測結果y^i2相加即形成最終預測結果y^i(y^i=y^i1+y^i2)。

該研究的模型即兩階段的模型相加,得到最終的預測模型。圖2為算法的原理圖。

1.7 模型的檢驗

對模型精度和質量的分析,通過計算比較模型的決定系數(R2)、均方根誤差(RMSE)和相對分析誤差(RPD)來進行評價。R2的取值在[0,1]區間內,R2越接近于1,表示模型的擬合效果越好;R2越接近于0,表示模型的擬合效果越差。其計算公式如下:

R2=ni=1(yi-y^i)2/ni=1(yi-y)2(1)

式中,yi為實際測量值;y^i為預測值;y為實際值的平均;n為樣本數。

RMSE是用來判定模型的預測能力,RMSE越小,模型精度越高,預測能力越好,其計算公式如下:

RMSE=ni=1(yi-y^i)2/n(2)

式中,yi為實際測量值;y^i為預測值;n為樣本數。

RPD應用較廣,可以一定程度上減少不同研究中預測樣本屬性值范圍差異的影響,有利于與其他相關研究對比分析。RPD越大說明所建模型越可靠,能夠用于模型分析。其計算公式如下:

PRD=11-R2 (3)

式中,R2為決定系數。

該研究建模集的決定系數用Rc2表示,均方根誤差用RMSEc表示,相對分析誤差用RPDc表示;驗證集的決定系數用Rv2表示,均方根誤差用RMSEv表示,相對分析誤差用RPDv表示。當決定系數R2越高、RMSE越小、RPD越大時,模型的反演準確率越高,可靠性越強,反之越低。

2 結果與分析

2.1 光譜與土壤鹽含量相關性分析

土壤鹽含量分別與原始光譜及其4種變換形式(1D、MSC+1D、SG+1D、LD)進行相關性分析并進行α=0.01水平的顯著性檢驗,結果如圖3所示。由圖3可知,光譜進行微分變換可以使敏感波段變明顯,由于土壤鹽含量與原始光譜相關性較小,沒有波段通過α=0.01的顯著性檢驗,故不適合進行波段提取及建模估算;而土壤含鹽量與經過1D、MSC+1D、SG+1D和LD處理后的光譜的相關性明顯提高,經過1D光譜變換后敏感波段主要集中在467~549、811~854 nm,經過MSC+1D光譜變換后的敏感波段主要集中在472~549、810~863 nm,經過SG+1D光譜變換后的敏感波段主要集中在472 ~ 549、835 ~839 nm,經過LD光譜變換后的敏感波段主要集中在467 ~ 549、729 ~ 863 nm。

安徽農業科學 2021年

2.2 偏最小二乘與隨機森林模型的驗證

由于光譜范圍的首尾部分信噪比通常較低,數據分析過程中要考慮去除首尾部分,即400~450和900~1 000 nm的光譜。為了用采集到的土壤高光譜圖像對土壤實際含鹽量進行預測,該研究中所有回歸模型的自變量為選取相關系數由高到低的前10個敏感波段,因變量為樣本土壤的鹽分實測含量。PLSR回歸模型、RF回歸模型、RF-PLSR回歸模型和PLSR-RF回歸模型的檢驗結果如表2所示。通過表2可以發現,偏最小二乘(PLSR)建模集的決定系數Rc2相對偏低,均方根誤差RMSEc相對偏大,相對分析誤差RPDc沒有超過1.4,證明模型的擬合度和可靠性較差,預測精度較低。建立的RF-PLSR回歸模型和PLSR-RF回歸模型與PLSR和RF回歸模型相比,發現2種模型結合后建模集的決定系數Rc2有所提高,均方根誤差RMSEc有所降低,相對分析誤差RPDc都超過2.0。其中最優模型為光譜經過對數的一階微分變換建立的PLSR-RF反演模型,其建模集決定系數Rc2為0.852,均方根

誤差RMSEc為0.102 g/kg,相對分析誤差RPDc為2.600,驗證集決定系數Rv2為0.941,均方根誤差RMSEv為0.049 g/kg,相對分析誤差RPDv為4.117。

從鹽含量與PLSR、RF、RF-PLSR、PLSR-RF回歸模型預測值與實測值的比較(圖4~7)可以看出,PLSR和RF回歸預測模型的驗證集中有些樣本偏離1∶1線較為嚴重,而RF-PLSR、PLSR-RF回歸預測模型驗樣本基本在1∶1線附近。說明將2個預測算法相結合可以提高預測精度。

從研究結果來看,原始光譜的反射率經過光譜變換后與實測含鹽量的相關性有明顯的提高,可以更好地突出敏感波段,建立的4種回歸反演模型中新提出的RF-PLSR和PLSR-RF回歸模型相比PLSR和RF回歸模型決定系數提高、均方根誤差降低、相對分析誤差變高,證明模型的擬合效果提高,精度變高,可靠性變強,可以更好地反演土壤含鹽量。而通過LD光譜變換所建立的PLSR-RF回歸模型擬合效果最好,且預測精度最高,其建模集決定系數Rc2為0.852,均方根誤差RMSEc為0.102 g/kg,相對分析誤差RPDc為2.600,驗證集決定系數Rv2為0.941,均方根誤差RMSEv為0.049 g/kg,相對分析誤差RPDv為4.117。由此可見,PLSR-RF回歸模型為今后預測土鹽含量提供了一個新的思路。

通過表2中各預測方法的結果可知,該研究提出的偏最小二乘與隨機森林結合的預測方法取得了較高的預測精度,原因是采用了殘差學習,如果使用偏最小二乘與隨機森林單獨建模預測則可能會導致訓練數據中某些相關信息缺失,從統計學習理論的角度分析,采用2種模型預測可以擴大模型的假設空間,盡可能地使假設空間包含數據之間的真實關系,而通過殘差學習對各個模型進行組合,可以擴大預測模型的假設空間,進而在更大的假設空間內對數據之間的真實關系進行搜索,提高了模型對數據之間真實關系的逼近能力,從而提高模型的預測精度。在預測土壤鹽含量的研究中,該研究首次提出的2種模型的結合,與現有的高光譜反演土壤鹽含量的研究相比,2種模型的結合可以提高反演土壤鹽含量的精確度,為指導農田提供參考。

3 結論

該研究結果表明,土默川平原土壤高光譜反射率進行光譜變換可以更好地突出敏感波段;而采用對殘差進行學習的2種模型的結合可以提高泛化能力和反演精度,模型的可靠性也提高。該研究提出的2種模型相結合不僅為研究土壤鹽含量提供了參考價值,同時也為今后研究土壤其他成分含量提供了一個新的思路。

參考文獻

[1]劉全明,成秋明,王學,等.河套灌區土壤鹽漬化微波雷達反演[J].農業工程學報,2016,32(16):109-114.

[2]郝遠遠,徐旭,任東陽,等.河套灌區土壤水鹽和作物生長的HYDRUS-EPIC模型分布式模擬[J].農業工程學報,2015,31(11):110-116,315.

[3]吳亞坤,劉廣明,蘇里坦,等.多源數據的區域土壤鹽漬化精確評估[J].光譜學與光譜分析,2018,38(11):3528-3533.

[4]王濤,喻彩麗,姚娜,等. MLR和PLSR的沙壤土鹽分含量光譜檢測對比研究[J].干旱區地理,2018,41(6):1295-1302.

[5]張俊華,賈萍萍,孫媛,等.基于高光譜特征的鹽漬化土壤不同土層鹽分離子含量預測[J].農業工程學報,2019,35(12):106-115.

[6]陶培峰,王建華,李志忠,等.基于高光譜的土壤養分含量反演模型研究[J].地質與資源,2020,29(1):68-75,84.

[7]王丹陽,陳紅艷,王桂峰,等.無人機多光譜反演黃河口重度鹽漬土鹽分的研究[J].中國農業科學,2019,52(10):1698-1709.

[8]張雅莉,塔西甫拉提·特依拜,阿爾達克·克里木,等. 基于Landsat8 OLI影像光譜的土壤鹽分估算模型研究[J].國土資源遙感 2018,30(1):87-94.

[9]FARIFTEH J,VAN DER MEER F,CARRANZA E J M. Similarity measures for spectral discrimination of salt-affected soils[J]. International journal of remote sensing,2007,28(23):5273-5293.

[10]SRIVASTAVA R,SETHI M,YADAV R K,et al. Visible-near infrared reflectance spectroscopy for rapid characterization of salt-affected soil in the indo-gangetic plains of Haryana,India[J]. Journal of the Indian society of remote sensing,2017,45(2):307-315.

[11]張智韜,魏廣飛,姚志華,等.基于無人機多光譜遙感的土壤含鹽量反演模型研究[J].農業機械學報,2019,50(12):151-160.

[12]陳俊英,姚志華,張智韜,等.大田葵花土壤含鹽量無人機遙感反演研究[J].農業機械學報, 2020,51(7):178-191.

[13]馬利芳,熊黑鋼,張芳.基于野外 VIS-NIR 光譜的土壤鹽分主要離子預測[J].土壤,2020,52(1):188-194.

[14]張賢龍,張飛,張海威,等.基于光譜變換的高光譜指數土壤鹽分反演模型優選[J].農業工程學報,2018,34(1):110-117.

[15]馬馳.基于HJ-1A高光譜影像的土壤鹽堿化遙感研究[J].干旱區資源與環境,2014,28(2):180-184.

[16]石樸杰,王世東,張合兵,等.基于高光譜的復墾農田土壤有機質含量估測[J].土壤,2018,50(3):558-565.

[17]于雷,洪永勝,耿雷,等.基于偏最小二乘回歸的土壤有機質含量高光譜估算[J].農業工程學報,2015,31(14):103-109.

[18]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,16(4):528-542.

[19]張號逵,李映,姜曄楠.深度學習在高光譜圖像分類領域的研究現狀與展望[J].自動化學報,2018,44(6):961-977.

[20]蔣燁林,王讓會,李焱,等.艾比湖流域不同土地覆蓋類型土壤養分高光譜反演模型研究[J].中國生態農業學報,2016,24(11):1555-1564.

[21]高惠璇.兩個多重相關變量組的統計分析(3)(偏最小二乘回歸與PLS過程)[J].數理統計與管理,2002,21(2):58-64.

[22]賈文超,戚蘭蘭,施凡,等.采用隨機森林改進算法的WebShell檢測方法[J].計算機應用研究,2018,35(5):1558-1561.

[23]ZHOU Z H. Ensemble methods:Foundations and algorithms[M].Boca Raton,USA:CRC Press,2012.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合