?

應用多時序特征的哨兵系列影像對南方丘陵區樹種識別1)

2024-01-12 10:15王潔李恒凱龍北平張建瑩
東北林業大學學報 2024年3期
關鍵詞:樹種精度分類

王潔 李恒凱 龍北平 張建瑩

(江西理工大學,贛州,341000) (江西省煤田地質局測繪大隊) (江西理工大學)

森林生態系統變化的長期調查監測與評價是實現經濟、社會與環境和諧快速發展的保障[1]。中國南方丘陵地區位于秦嶺-淮河以南、青藏高原以東的山地和丘陵分布區,區域內森林資源豐富,植被覆蓋面積廣、林分結構復雜、地形破碎,傳統的森林資源調查方法成本高、周期長。通過遙感影像能快速、準確地進行樹種識別和分類,已有多種類型遙感影像應用于樹種識別和監測[2-5]。利用時序遙感影像提取和分析植被物候信息,能夠準確的反映植被生長過程中明顯的季節周期性變化,進而提升樹種分類的效果[6-7]。近年來,歐洲空間局(ESA)哥白尼計劃發布的哨兵-2(Sentinel-2)時間序列影像數據,為樹種分類提供了具有高空間分辨率的數據源。其紅邊、近紅外和短波紅外等波段提供了多種光譜信息,在樹種識別研究中具有巨大潛力[8]。然而,在大尺度多云雨的南方丘陵地區,光學影像數據的獲取極易受到限制。

合成孔徑雷達(SAR)具有全天時、全天候等特點,雷達后向散射系數能夠提供不同于光學影像的信息,包括植被的含水量、土壤含水量以及地表的幾何特征等,廣泛用于植被監測及分類。楊丹等[9]利用時序哨兵-1(Sentinel-1)數據和深度循環網絡方法對植被進行分類制圖,總體精度為82%。

為了提高樹種分類精度,將光譜數據和其它數據相結合,發現對樹冠形狀不同的樹種,紋理特征具有重要作用[10]。不同空間分布的樹種的地形特征也有所不同,地形特征對地形復雜區域樹種的提取也具有重要作用[11]。黃翀等[12]利用Sentinel-2和Sentinel-1對人工林進行分類,總體精度為85%,驗證了紋理特征、后向散射特征在樹種精細分類上的能力。Ma et al.[13]通過實驗證明地形特征能提高樹種提取精度。因此,利用雷達、光學影像數據和地形數據提取不同樹種特征,可實現多源遙感互補[14]。

除影像數據外,算法也是影響樹種分類精度的重要因素,遙感數據和機器學習的結合已成為樹種分類的主要方法。Wang et al.[15]使用隨機森林(RF)算法結合多時相、多特征Sentinel-2數據對長白山樹種進行分類,總體精度為99.79%;Hu et al.[16]采用支持向量比(SVM)算法應用多源遙感數據對樹種進行分類,總體精度為89%;Chen et al.[17]采用決策樹算法(CART)和QuickBird圖像進行樹種分類,總體精度為80.50%。表明隨機森林算法(RF)、支持向量機算法(SVM)、決策樹算法(CART)等機器學習算法均可以用于樹種分類。

本研究以江西省宜春市袁州區為例,結合研究區林地實地調查數據,將時序Sentinel-1、Sentinel-2和數字高程模型(DEM)數據相結合,提取不同樹種特征,利用分離閾值法(SEaTH)和特征權重算法(ReliefF)進行特征優選,通過RF、SVM和CART分類算法進行對比分析,構建適用于南方丘陵山地的最佳樹種分類算法模型,并驗證多源數據相結合對大范圍樹種分類提取的可行性。分析適合南方丘陵地區樹種分類的最佳特征因子組合,提取不同樹種的空間分布信息,提高森林資源調查和監測的時效性。

1 研究區概況

袁州區位于中國江西省宜春市西南部,地理坐標位于113°54′~114°37′E、27°33′~28°5′N,土地總面積2 532 km2。區域內地貌以山地、丘陵為主,地勢西高東低,是典型的南方丘陵區。氣候屬亞熱帶季風濕潤性氣候,森林資源豐富,植被物種多種多樣,森林覆蓋率達60.15%。袁州區主要樹種為杉木(Cunninghamialanceolata)、油茶(Camelliaoleifera)、松樹(Pinus)等。其中,杉木、松樹和桉樹(Eucalyptus)并稱為中國南方三大用材樹種,具有較高的經濟價值。油茶產業是袁州區的特色優勢產業,其產量和面積均位于中國前列。根據袁州區林地實地調查數據提取邊界,劃分區域總面積為2 221.5 km2(見圖1)。本研究采用的行政區劃數據來源于全國地理信息資源目錄服務系統(https://www.webmap.cn)。

2 研究方法

2.1 數據來源與處理

本研究所使用的Sentinel系列數據來源哥白尼開放存取中心(https://scihub.copernicus.eu/),Sentinel-1為干涉寬幅模式(IW)的地距多視產品(GRD),分辨率為10 m,極化方式為VV+VH。Sentinel-2擁有13個不同空間分辨率的光譜波段,試驗選取10 m和20 m空間分辨率波段共10個。數字高程模型(DEM)數據下載于地理空間數據云平臺(http://www.gscloud.cn)。影像數據采集時間見表1,研究所使用的Sentinel-2影像波段信息見表2。

圖1 研究區地理位置

表1 影像數據采集時間表

表2 本研究使用的哨兵-2波段信息

Sentinel-1數據通過軌道校正、熱噪聲去除、輻射定標、濾波、地形校正和分貝化處理將其轉化為后向散射系數圖,最后進行裁剪得到研究區雷達影像。Sentinel-2數據通過大氣校正,將其從L1C級數據轉化為L2A級別數據,剔除60 m分辨率波段后,將20 m分辨率波段重采樣至10 m分辨率,最后進行裁剪拼接。DEM數據經過拼接裁剪后重采樣至10 m分辨率,并生成地形因子。

樣本點數據來源于2019年袁州區林地實地調查數據。根據研究區植被覆蓋情況,確定分類類別為油茶、杉木、松樹、其它樹種、耕地、裸地、水體和建設用地等8類。根據林地調查圖生成油茶、杉木、松樹和其它樹種等4類樣本隨機點,然后通過谷歌地圖(Google Earth)高分辨率影像和實地調查數據剔除異常點。通過目視解譯得到耕地、裸地、水體和建設用地等4類樣本。最后得到油茶樣本2 710個、杉木樣本3 184個、松樹樣本810個、其它樹種樣本2 873個、耕地樣本658個、裸地樣本177個、水體樣本128個、建設用地樣本321個,按照7∶3的比例隨機分為訓練樣本和驗證樣本。

利用預處理后的Sentinel-1、Sentinel-2和DEM數據提取不同特征。在光譜特征、水體指數和植被指數的基礎上,通過不同的特征組合,構建多特征隨機森林樹種分類模型,然后分別利用分離閾值法和特征權重算法(ReliefF)進行特征優選,篩選出最佳分類特征組合,然后與SVM和CART分類算法進行對比分析。利用混淆矩陣評估3種算法分類結果,選擇最優樹種分類模型(見圖2)。

圖2 技術路線與特征變量組合方案信息

2.2 樹種分類特征提取

選取Sentinel-2影像的B2(藍光)、B3(綠光)、B4(紅光)、B5(紅邊1)、B6(紅邊2)、B7(紅邊3)、B8(近紅外)、B8a(狹窄近紅外)、B11(短波紅外1)、B12(短波紅外2)波段作為研究波段,并提取水體指數、植被指數和紅邊指數(見表3)。采用灰度共生矩陣(GLCM)提取紋理特征(均值、方差、同質性、對比度、差異性、熵、二階矩和相關性),為了避免數據冗余,首先對Sentinel-2數據進行主成分分析,提取第一主成分數據,根據第一主成分進行紋理特征提取。利用DEM數據提取高程、坡度、坡向作為地形特征。根據Sentinel-1雷達數據提取后采用VV和VH雙極化方式的后向散射系數(后向散射系數VV、后向散射系數VH)作為雷達特征。共獲取適應南方丘陵山區的35類特征變量[18]。

2.3 樹種分類特征優選

綜合利用多種特征分類,能夠充分利用遙感數據信息,提高樹種提取精度。但相關性較弱的特征在分類時會造成特征冗余,導致分類精度的降低。特征優選的原則是在確保分類精度的前提下使用較少的特征子集,對特征集進行特征優選能夠有效提升分類效率。

2.3.1 分離閾值法的特征優選

分離閾值法(SEaTH)采用賈弗里斯松下距離(JM)[19]對類間可分性進行分析,并確定最佳特征組合。JM距離的計算公式如下:

J=2(1-e-B)。

式中:m1和m2分別為兩個類別的特征均值;σ1和σ2分別為兩類別特征值的標準差;B為巴氏距離;J為樣本間的分離度,J值范圍為[0,2],數值越大,代表類間可分性越好。

2.3.2 ReliefF算法的特征優選

式中:A為某個分類特征;C為樣本類別;class()為與R不同的樣本類別;dA()為2個樣本在特征上A的距離;Hj(C)為樣本R最鄰近的同類樣本;Mj(C)為樣本R最鄰近的不同類樣本;p()為某類樣本在訓練集D中所占比例;m為迭代次數;i為權重更新時當前迭代次數(i=1、2、…、m);k為最鄰近樣本個數。

2.4 樹種分類算法

隨機森林算法(RF)是以決策樹為基本分類器的集成學習算法,適用于高維遙感數據集,比其它機器學習算法更加高效和低成本[22-23]。RF還可以解決過擬合的問題,適用于時間序列遙感林地植被分類[24];

支持向量機算法(SVM)是將非線性分類問題轉化為高維線性問題,并在高維特征空間中構造線性判別函數,同時引入核函數減少運算量;

分類回歸樹算法(CART)是通過對由測試變量和目標變量構成的訓練數據集的循環分析形成二叉樹形式的決策樹,CART算法生成的決策樹沒有人工干預,減少了主觀誤差。

2.5 樹種分類精度評價

為評估樹種分類的準確性,本研究利用混淆矩陣和驗證樣本對樹種分類結果進行精度驗證,精度評價指標為用戶精度(UA)、生產者精度(PA)、總體精度(OA)和Kappa系數(KPa)。計算公式如下:

式中:N為總樣本數,k為總類別數,Nii為被分到正確類別的樣本數,N+i為第i類的真實值,Ni+為第i類的預測值。

3 結果與分析

3.1 樹種光學和雷達特征

由表4可知,各樹種9—12月歸一化植被指數(NDVI)均值,整個時間段內變化趨勢基本相同,均呈下降趨勢,歸一化植被指數值為0.4~0.6,樹種分離程度不明顯,原因是油茶、杉木、松樹都屬于常綠樹種。表5展示了不同樹種在各光譜特征下的像元均值,樹種在光譜特征上沒有明顯差異,僅松樹和油茶在比值植被指數和紅邊葉綠素指數上與其它植被有所區分。

表4 不同時間各樹種歸一化植被指數

表5 不同樹種光譜特征

由圖3可知,根據Sentinel-1雷達數據統計不同樹種在對應日期VV和VH極化下的樹種時序后向散射系數曲線。不同植被全年時序后向散射特征與植被的生長物候和形態相關,所有樹種在兩種極化下的后向散射系數變化趨勢基本相同。VV極化下,其它樹種在6月中旬左右后向散射強度明顯升高,其后向散射強度全年高于其它植被;1—9月松樹后向散射強度持續低于其它植被,杉木后向散射強度在12月呈現同其它植被不同的下降趨勢。VH極化下,油茶VH極化后向散射強度全年低于其它植被,2月左右出現明顯增幅和減幅,9月末到12月初出現明顯減幅,12月松樹和杉木呈現同其它植被不同的下降趨勢。

圖3 樹種VV/VH極化時序特征曲線

通過對不同特征變量的疊加分析,可以近似分離出不同樹種,雷達數據彌補了光學影像的不足,結合光學和雷達數據可以增強對樹種的識別能力和提高分類精度。

3.2 南方丘陵山區樹種特征優選結果

本研究分別利用分離閾值法和特征權重算法(ReliefF)對所構建的樹種分類特征集進行特征優選。樹種分類特征集共171個特征變量,通過試驗獲取樣本的特征均值和標準差,根據公式計算樹種之間的分離度,計算單個特征的巴氏距離以及同類特征巴氏距離的均值。同類特征中選取高于均值的特征,完成同類特征優選。

由表6可知,利用特征權重算法(ReliefF)進行特征優選及排序,排名前15和后15的特征,根據重要性對特征進行排序分組,并利用隨機森林算法進行分類,共分為7組。

由表7可知,分類精度隨著分類特征的增加呈先上升后下降的趨勢,第5組分類精度最高,因此選取第5組作為特征權重算法(ReliefF)最優特征集。

3.3 南方丘陵山區樹種分類精度評價

由表8可知,方案1僅使用光譜特征、植被指數和水體指數,分類結果總體精度為80.97%。在方案1的基礎上分別加入紅邊特征、雷達特征、地形特征、紋理特征,總體精度分別提高了2.75%、2.26%、3.93%、2.81%。方案6融合所有特征后,總體精度提高了2.35%。方案7在方案6的基礎上分別利用分離閾值法與特征權重算法(ReliefF)對所有特征進行優選,不僅取得了更高的精度,而且有效降低了數據量,減少了運算時間。特征優選后的總體精度比方案6分別提高了1.89%和2.01%,其中ReliefF算法優選的結果精度最高,總體精度為85.33%,Kappa系數為0.81。

表6 特征重要性排名

表7 分組情況及分類精度

由圖4可知,水體在所有方案中都具有較高的分類精度。方案2在加入紅邊特征后,不同樹種分類精度均有所提高,證明紅邊特征的加入有助樹種提取;方案3加入雷達特征后樹種精度提高,因為雷達波段能夠穿透冠層獲取樹種信息,提高光譜特征相似的樹種的類間差異;方案4在加入地形特征后,與其它方案相比杉木和油茶的生產者精度提升最大,南方丘陵山地山體陰影嚴重,不同樹種混合分布、相互滲透,很難進行區分,地形特征變量能夠有效減少錯分概率;方案5加入紋理特征后,樹種的分類精度提升沒有地形特征高,主要是因為丘陵山區地形破碎、植被樹冠茂盛,影像上紋理特征不明顯,同時油茶在種植初期會和耕地存在誤分。

表8 各方案分類精度

由表9可知,隨機森林算法比支持向量機算法和分類回歸樹算法總體分類精度分別提高了3.99%和4.55%,Kappa系數分別提高了0.05和0.06。結合各地物生產者精度,隨機森林算法分類的松樹生產者精度比分類回歸樹算法高了13.75%,油茶生產者精度比支持向量機算法提高了10.34%。

表9 不同分類方法的分類精度

由圖5可知,杉木和油茶作為袁州區主要樹種,大面積混合分布,3種算法結果的樹種分布區域大致一樣,但某些區域的油茶和松樹的提取結果存在明顯差異;但對比不同分類方法的局部分類結果(見圖6),隨機森林算法與支持向量機算法和分類回歸樹算法相比,隨機森林算法降低了分類結果的破碎度。

4 討論

準確高效地獲取樹種的數量和分布信息對于林業的管理和監測至關重要。遙感影像為樹種調查提供了有力的工具,Sentinel數據在樹種分類上具有廣泛的實用性[12,25],Sentinel-2影像的紅邊、近紅外(NIR)和短波紅外(SWIR)波段對于植被分類制圖具有重要的作用[6,8,26]。本研究結合Sentinel影像和數字高程模型(DEM)數據,對南方丘陵山區的樹種識別,結果發現重要性排名前15個特征中,紅邊特征所占比例最大,紅邊葉綠素指數在樹種分類中重要性最高。

由于光譜特征相似,不同樹種間存在不同程度的混淆,僅利用Sentinel-2光譜特征、植被指數、水體指數,樹種的識別精度相對較低,將光譜特征與灰度共生矩陣(GLCM)紋理特征結合有效提高了樹種分類精度[27]。本研究中紋理特征沒有包含在最優特征集中,特征重要性排名中紋理特征處于靠后位置,由于研究區域過大導致細節紋理缺失,同時,樹種紋理特征也受研究區地理位置和樹種類別影響。不同樹種受地形因子影響呈現不同的光譜特征,地形特征可有效降低山體效應帶來的光譜差異,減少錯分概率,地形特征比物候特征和紋理特征對樹種分類更準確有效[15],地形特征在不同特征融合的南方丘陵山區樹種分類中起著重要作用。

圖4 各地物生產者精度和用戶精度

加入雷達特征后,樹種分類精度同樣有所提升,證實Sentinel-1雷達特征能提高樹種間的區分度。本研究只利用了Sentinel-1的雷達后向散射系數,杉木、松樹、油茶都屬于常綠樹種,物候變化不顯著,難以利用遙感提取植被物候[28]。由于雷達數據的特性,Sentinel-1數據同樣含有豐富的紋理信息,可進一步提高紋理特征對南方丘陵山區樹種的分類制圖的精度。本研究最高準確率為85.33%,Kappa系數為0.81,仍有提升空間,可利用更有效的輔助數據或先進的深度學習技術,對大面積樹種識別監測進行深入研究。

5 結論

以袁州區為研究區,結合Sentinel和數字高程模型(DEM)數據提取樹種光譜特征、植被指數、水體指數、紅邊特征、雷達特征、地形特征和紋理特征,分別采用特征權重算法(Relief)和分離閾值法進行特征優選,通過不同特征組合對比,分析各特征對樹種分類精度的影響,利用3種常用樹種分類機器學習算法對最優特征集進行樹種分類。樹種在不同特征上具有一定差異性,可通過特征優選選取樹種分類的有效特征,通過特征優選,能夠在保證分類精度的同時減少數據冗余,提高運算效率和精度。根據最優特征集分別使用3種機器學習算法(隨機森林、支持向量機和回歸決策樹)對樹種進行分類,隨機森林算法分類精度最高,總體精度為85.33%。Sentinel影像和DEM數據的結合應用可提高樹種分類的準確性,可為南方丘陵山區大范圍樹種調查監測提供技術方法。

圖5 不同分類方法樹種分類結果

圖6 不同分類方法的局部分類結果

猜你喜歡
樹種精度分類
分類算一算
分類討論求坐標
基于DSPIC33F微處理器的采集精度的提高
數據分析中的分類討論
常綠樹種在新疆的應用現狀
教你一招:數的分類
GPS/GLONASS/BDS組合PPP精度分析
城市綠化樹種選擇,只顧眼前你就輸了
一個樹種的國家戰略
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合