?

基于機器學習算法的森林生物量多源遙感估測

2024-01-20 03:32黃天寶歐光龍徐熊偉王振會藺如喜
西北林學院學報 2024年1期
關鍵詞:樣地生物量森林

黃天寶,歐光龍,吳 勇,徐熊偉,王振會,藺如喜,徐 燦*

(1.西南林業大學,云南 昆明 650244;2.中國地質調查局 昆明自然資源調查中心,云南 昆明 650111;3.自然資源部 自然生態系統碳匯工程技術創新中心,云南 昆明 650111)

森林生物量是森林生態系統的重要數量、質量指標,對其精準監測是提高森林生態系統碳匯效益的重要保障[1]。傳統野外調查方法獲取森林生物量信息存在諸多局限性,利用遙感手段對森林生物量估測已然成為當前的熱點[2]。被動遙感系統的光學遙感數據不僅具有覆蓋范圍廣、獲取容易、時間、空間分辨率高、技術成熟等優點,而且多光譜光學遙感具有紅色、近紅外(NIR)或紅邊波段,對植被具有較好敏感性等,被泛應用于森林生物量研究估測領域[3-5]。在光學遙感森林生物量遙感估測中,空間分辨率和光譜特征在很大程度上影響著森林生物量遙感估測精度[7],不同空間分辨率影像對地物的光譜特征及與樣地尺度不匹配產生的混合像元都會造成估測差異[7-8]。隨著遙感技術的不斷發展,多源遙感數據協同估測森林生物量成為熱點,多源遙感數據協同估測可以克服單一影像對地物特征描述的片面性,因此具有較好的估測精度[9-10],此外,環境因子也被廣泛用于協同遙感估測,且在一定程度上可以提高森林生物量遙感估測精度[11-12]。然而,在整合多源數據估測森林生物量中,信息冗余無疑是面臨的一個問題,在眾多變量中選擇最優特征變量參與建模是影響估測效果的關鍵一步[13-15]。在變量選擇方法中Boruta是一種基于隨機森林學習器的啟發式算法,是通過變量與學習器結合的包裝式變量選擇方法,具有從復雜數據中挑選出與模型適應性較強特征變量的能力[16-18]。

在森林生物量遙感估測中的模型按結構通??煞譃閰的P秃头菂的P?非參數模型大多統稱為機器學習模型,機器學習算法在森林生物量遙感估測中具有能充分捕捉復雜遙感變量與森林生物量之間的非線性復雜關系的能力,相較于參數模型,往往具有更好的估測效果[19]。常見的經典機器學習算法隨機森林、k-近鄰、支持向量機、BP神經網絡等算法被廣泛運用于森林生物量遙感估測[19-21]。Stacking集成算法作為經典的集成算法之一,相較于單一模型,Stacking集成模型能對特征數據充分學習,集各基礎模型優點于一身、具有較強的泛化能力,可以克服單一模型結果的偶然性和片面性,具有較好的學習效果[22-23]。

森林生物量分為地上生物量和地下生物量,大多研究都是基于地上生物量遙感估測,全株樹木生物量估測的研究相對較少。Landsat 8 OLI、sentinel 2A、GF2(國產高分2號)影像分別具有30、10、4 m不同的空間分辨率及不同波段,然而很少有研究在樣地大小為10 m×10 m尺度上比較3種影像及影像整合的估測性能,為進一步探索基于機器學習算法的3種空間分辨率影像及整合3種影像在10 m×10 m樣地下的森林生物量(地上+地下)估測性能,以及協同機器學習算法(RF、SVM、DT、GBM、k-NN、Stacking)的估測效果,本研究引入地形因子、氣候因子、林分因子為輔助因子對GF2、sentinel 2A、Landsat 8 OLI影像、整合3種影像4種情況下基于Boruta算法變量選擇方法,對楚雄州元謀縣喬木林森林生物量遙感估測展開探索,可為森林生物量遙感估測提供參考和借鑒。

1 研究區概況

元謀縣位于云南省楚雄州(25°33′44″-25°36′50″N,101°51′21″-101°53′32″E),為干熱河谷典型區(圖1),屬于生態脆弱區,該地區旱濕季節分明,年平均降水量<800 mm,年平均氣溫21.9 ℃,最高溫達40°以上,年積溫7 791.6 ℃。年平均蒸發量為3 847.8 mm,年平均降水量634 mm,年平均蒸發量遠大于年降水量。全年降水量大多集中在6-10月。由于地形和降水導致植被在垂直方向的分布差異明顯,1 600 m以下主要以灌木為主,1 600 m以上主要喬木為主[24-25]。

地圖審圖號:GS(2019)1822號

2 研究方法

2.1 樣地數據處理

樣地數據為2022年按樹種分布、地理位置特征等調查的元謀縣77塊喬木樹種,樣地大小為10 m×10 m,用RTK記錄樣地質心點坐標,其樣地分布見圖1,涵蓋了元謀地區主要喬木樹種分布區域。樹種主要包括云南松(Pinusyunnanensis)、錐鏈櫟(Quercusfranchetii)、余甘子(Phyllanthusemblica)、旱冬瓜(Alnusnepalensis)、油杉(Keteleeriafortunei)、桉樹(Eucalyptusrobusta)、華山松(P.armandii)、厚皮香(Ternstroemiagymnanthera)、黃檀(Dalbergiahupeana)等。參考tang等[26]、Luo等[27]、胥輝等[28]的云南省優勢樹種生長異速生長方程,計算單株樹木的森林生物量,各公式見表1,沒有生長異速方程的樹種采用相近樹種或按常綠落葉林、落葉闊葉林選取生長異速方程。

表1 單木生物量計算Table 1 Biomass calculation of individual trees

樣地單位面積生物量(Q)計算公式為

(1)

式中:n為樣地樹種株樹;W為單木生物量(t);S為樣地面積(hm2)。

圖2為樣地單位面積生物量按優勢樹種、森林類型分布基本情況,其中闊葉林的樣地較多,針葉林和混交林樣地相對較少,所調查樣地中針葉林的平均生物量大于混交林,大于闊葉林;松屬、櫟屬為優勢樹種的樣地單位面積生物量值分布差異較大;樣地單位面積生物量最小值為1.86 t·hm-2,最大值為184.11 t·hm-2,平均值為60.53 t·hm-2。

圖2 樣地生物量基本情況Fig.2 Basic situation of biomass in sample plots

2.2 數據獲取及預處理

Landsat 8 OLI為地理空間數據云(http://www.gscloud.cn/)下載得到,分辨率30 m×30 m,本研究用了b1-b7波段;GF2為云南巡天衛星科技有限公司購買,分辨率4 m×4 m,共4個波段,將獲得的Landsat 8 OLI、GF2在ENVI 5.3中經過大氣校正、輻射定標、裁剪等預處理工作,最終得到地表反射率產品;sentinel 2A為GEE(google earth engine)云計算平臺下載得到元謀地區2A級地表反射率產品,sentinel 2A分辨率10 m×10 m,共12個波段;環境因子來源于http://www.worldclim.org/,包括年均降水(MAP)和年均氣溫(MAT);DEM高程數據來源于地理空間數據云(http://www.gscloud.cn/)。

2.3 特征變量提取

參考Miura等[29]、Schlerf等[30]、Hashemi等[31]的研究在ENVI 5.3中完成對植被指數的計算,包括GF2、Sentinel 2A、Landsat 8 OLI 的單波段、植被指數、紋理特征。林分因子包括優勢樹種、森林類型(針葉林、闊葉林、針闊混交林),樣地坐標與影像坐標均為高斯-克呂格投影坐標(CGCS2000_3_Degree_GK_Zone_34),并在Arcgis 10.7中以“多值提取至點”功能完成各樣地遙感變量統計值提取,DEM數據(坡向、坡面、海拔)的提取,以及環境因子統計值提取,變量見表2。

表2 變量名稱Table 2 Variables

2.4 特征變量選擇

Boruta是一種基于隨機森林學習器的啟發式算法,其核心思想是通過對原始真實特征進行訓練,構造陰影特征,并將原始特征與陰影特征聚合為特征矩陣進行訓練,然后以陰影特征的特征重要性分數為參考,從原始真實特征中選擇與因變量相關的特征集[32]。Boruta算法除了生成特征排序外還將特征分為3種類型(confirmed、tentative、rejected)對變量重要性進行定性評價[16-18]。在R語言中利用boruta程序包,分別對GF2、sentinel 2A、Landsat 8 OLI及三者變量整合情況下進行變量選擇。

2.5 模型構建

利用R語言的caret包實現隨機森林模型(RF)[33]、支持向量機(SVM)[34]、決策樹(DT)[35-36]和梯度提升機(GBM)[37-38]模型的構建。堆疊集成算法(Stacking)一般由兩層學習器組成,第1層為初級學習器,第2層稱為元學習器,其基本思想是利用訓練數據集訓練模型構造基學習器,將所有基學習器的預測結果與響應變量真值組合為一個新的數據集,最后基于元學習器對新數據集進行訓練和預測,也逐漸被應用于森林生物量遙感估[22-23]。在本研究中,以RF、k-NN、SVM、DT、GBM作為基礎模型,最終以RF算法進行Stacking集成。77塊均為建模樣本,并采用K折交叉驗證對模型評價。利用R語言的caret包實現RF、k-NN、SVM、GBM、DT模型的構建,采用網格化模型參數調優。

2.6 評價指標

K折交叉驗證能有效避免過學習和欠學習狀態的發生,尤其針對小樣本數據建模具有較好的適用性,其模型評價結果也比較具有說服性[39],因此,本研究所有機器學習算法均采用K折交叉驗證對模型檢驗評價,K取10。采用決定系數(R2)和均方根誤差(RMSE)對模型評價。

3 結果與分析

3.1 boruta算法選擇

經過boruta算法分別對基于sentinel 2A條件下、Landsat 8 OLI條件下、GF2條件下及整合多源遙感條件下進行森林生物量遙感測進行變量選擇,boruta算法結果見圖3,結果皆為Confirmed下的特征變量,在基于sentinel 2A估測森林生物量中,選擇的變量為林分因子中的森林類型(forests_types)、植被指數和紋理因子,其中植被指數PEIP的得分最高;在Landsat 8 OLI下,紋理因子b2_ME_9×9的得分最高;在GF2下,植被指數GNDVI的得分最高;在SUM下GF2的GNDVI得分最高,但環境因子和地形因子特征沒有被捕獲。

圖3 變量選擇Fig.3 Variable selection

3.2 模型評價

在基于boruta算法變量選擇下,分別在sentinel 2A、Landsat 8 OLI、GF2及SUM條件下完成RF、DT、k-NN、GBM、SVM模型、Stacking集成算法模型構建,經過K折交叉驗證,K=10,取其R2和RMSE的平均值作為評價指標,建模結果見圖4。集成算法相較于單模型均有較好的估測性能,從集成算法的結果看,SUM估測森林生物量相較于單一遙感具有較好的估測效果,此外,GF2在元謀地區遙感估測森林生物量中相較于sentinel 2A、Landsat 8 OLI具有較好的估測性能,sentinel 2A的估測性能優于Landsat 8 OLI,SUM下的Stacking模型R2為 0.73,RMSE為28.46 t·hm-2,為本研究的最優模型形式。此外在單一算法中RF具有較好的估測效果。

圖4 建模結果Fig.4 Modeling results

3.3 反演估算

圖5為基于sentinel 2A、Landsat 8 OLI、GF2、及SUM下Stacking集成算法的元謀地區森林生物量遙感估測反演結果,由圖5可以看出,4種情況下的反演結果均有較好的異質性,其中基于Landsat 8 OLI的估測結果相較于sentinel 2A、GF2、SUM位于60~90 t·hm-2的圖斑居多,sentinel 2A為影像源下,低值的圖斑居多,基于GF2和SUM的估算結果較為相似,從模型評價效果來看整合多源遙感和GF2模型性能優于sentinel 2A和Landsat OLI,在高值估測能力方面SUM優于GF2,具有較寬的估測范圍,基于SUM的估測結果更具參考意義。

圖5 元謀地區森林生物量遙感估算結果Fig.5 Estimation results of forest biomass remote sensing in Yuanmou area

4 討論

基于Boruta算法在單一影像變量重要性得分中sentinel 2A影像的植被指數PEIP(紅邊感染點指數)、GF2的GNDVI得分最高,具紅邊波段的植被指數具有較好的得分,這與光學影像的紅邊波段對植被敏感的特征相呼應,此外在高分辨率影像GF2中,相對較多紋理特征與較高的得分,這與高分辨率影像估測森林生物量中紋理特征具有較好的估測效果相呼應[8]?;趕entinel 2A感測森林生物量中,林分因子森林類型也有較好的貢獻率,若能有更多容易獲取的林分因子協同森林生物量遙感估測[40-41],將會獲得更好的估測效果。此外,光學遙感對針葉林、闊葉林、針闊混交林的光譜特征存在差異,由于受樣本量限制,本研究僅將森林類型作為一個變量,若能分森林類型進行遙感估測,在一定程度上可以提高估測精度[41]。本研究引入年平均降水、年平均氣溫作為變量,但效果稍遜于遙感因子,在特征變量選擇時沒有被捕獲,可能是由于區域尺度較小,氣候因子的變化梯度不夠明顯,往往在大區域森林生物量遙感估測中,氣候因子能發揮較好的效果[42]。

在本研究中,GF2相較于sentinel 2A、Landsat 8 OLI具有較好的估測效果,這與高分辨率遙感影像更具區分光譜特征變化能力、空間信息更加豐富、紋理和細節等信息更加突出等優點相呼應,相較于粗分辨率往往具有更好的估測效果相呼應[43],sentinel 2A估測效果優于Landsat 8 OLI,這與sentinel 2A與10 m×10 m樣地尺度匹配,在理論上不存在混合像元,且與Landsat 8 OLI相比具有更高的空間分辨率相呼應。整合多源遙感往往比單一遙感具有較好的估測性能[44-45],本研究也如此,但在單一模型層面基于GF2構建的k-NN模型R2為0.46,整合3種影像后k-NN模型R2為0.39,GF2的RF模型R2為0.58,而整合3種影像后的RF模型R2為0.52,存在整合后反而模型效果比單一影像差的情況,本研究的解釋為在變量選擇方面只用了Boruta算法進行特征選擇,在一定程度上可能存在偶然性和片面性、存在有用信息遺漏的情況以及針對所選擇的同一份數據集對不同的學習器普適性會存在差異所導致,恰好集成算法在一定程度可以彌補這種缺陷,克服單一模型結果的偶然性和片面性,綜合各模型對數據集進行客觀評價,在一定程度上更具說服力[22-23],若能綜合多種變量選擇方法或許可以彌補單一變量選擇手段的不足[46-48]。Stacking集成算法可以提高估測精度[22,43,49],通過降低生物量估計偏差的形式來提高估測精度[49],本研究最優集成模型的R2為0.73,RMSE為28.46 t·hm-2,在光學遙感估測森林生物量中,與Lin[22]、岳彩榮[50]和孫雪蓮[51]基于光學遙感估測森林生物量相比較,其精度偏中上,主動遙感機載傳感器系列在小區域往往有更好的估測效果[53-54]。

此外,在森林生物量遙感估測中,影像像元大小與樣地尺寸的匹配問題導致產生大量混合像元也會影響森林生物量遙感估測精度,本研究比較了3種空間分辨率影像尺度在10 m×10 m樣地尺度的估測效果,但沒有體現混合像元帶來的具體誤差,Yu等[7]提出了一種熵加權指數的尺度轉換方法,以修正粗分辨率遙感圖像估計的生物量結果的尺度誤差,改善了尺度不匹配帶來的誤差,值得參考和借鑒。在融合高、中低分辨率森林生物量遙感估測中,若能用高分辨率影像提取林分結構信息結合中低分辨率影像的多波段、光譜信息,應該可以很好地改善森林生物量遙感估測效果,有待進一步探索。

5 結論

通過機器學習算法用GF2、sentinel 2A、Landsat 8 OLI、SUM影像及輔助因子對元謀地區喬木林森林生物量展開估測,研究表明,在10 m×10 m樣地尺度下SUM的估測效果最佳,其余依次為GF2、sentinel 2A和Landsat 8 OLI,SUM下的Stacking集成算法為最終估測模型,模型的R2為0.73,RMSE為28.46 t·hm-2。Boruta算法進行特征選擇下,單一影像中sentinel 2A的植被指數PEIP、Landsat 8 OLI的紋理因子b2_ME_9×9、GF2的GNDVI分別具有最高的得分,GF2的GNDVI為SUM下的最高得分變量。在構建RF、SVM、DT、GBM、k-NN及對5個模型的Stacking集成算法中,Stacking集成算法均優于單一基礎模型,在單一算法層面RF具有較好的估測性能。進一步說明高分辨率影像在10 m×10 m樣地尺度下具有較好的估測效果,整合多源遙感和集成算法相較于單一遙感源和單一算法具有較好的估測精度,可為森林生物量遙感估測提供一定的參考和借鑒。

猜你喜歡
樣地生物量森林
額爾古納市興安落葉松中齡林植被碳儲量研究
昆明市主要綠化樹種閾值測定與分析
基于角尺度模型的林業樣地空間結構分析
輪牧能有效促進高寒草地生物量和穩定性
哈Q森林
哈Q森林
哈Q森林
哈Q森林
生物量高的富鋅酵母的開發應用
基于SPOT-5遙感影像估算玉米成熟期地上生物量及其碳氮累積量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合