?

應用無人機可見光影像和面向對象的隨機森林模型對城市樹種分類1)

2024-01-12 10:15陳遜龍孫一銘郭仕杰段煜柯唐桉琦葉章熙張厚喜
東北林業大學學報 2024年3期
關鍵詞:樹種尺度精度

陳遜龍 孫一銘 郭仕杰 段煜柯 唐桉琦 葉章熙 張厚喜

(福建農林大學,福州,350002)

城市樹木作為城市的重要組成部分是評估城市生態環境的重要指標之一,具有重要的生態、經濟和社會效益[1]。隨著城市化進程的不斷深化,城市樹木的生態效益也日漸凸顯。然而,不同種類、種植結構和種植區域的城市樹木會產生不同的生態環境效益[2]。因此,及時準確地獲取城市樹種的類別和空間分布信息對城市規劃、城市樹木的管理與維護具有重要意義[3]。

傳統的城市樹種分類主要依靠地面調查,然而該方法存在成本高、耗時長且難以獲取大尺度數據等不足[4]。近年來,遙感技術飛速發展,為城市樹種的準確快速識別提供了新的途徑。然而,傳統的高分辨率衛星遙感影像易受天氣和環境因素干擾、時效性較差且費用昂貴。此外,免費提供的衛星遙感影像空間分辨率低,難以適用于樹種層面的識別研究[5]。相比傳統的遙感平臺,近地無人機(UAV)能在較小空間尺度上提供高分辨率的遙感影像和地理數據,具有更高的適用性,是遙感數據獲取的重要手段之一[6]。然而,目前有關樹種信息提取的無人機遙感研究多集中于多光譜、高光譜影像的分類領域,但由于搭載多光譜、高光譜傳感器的無人機普遍價格昂貴,極大地限制了其在實際生產中的推廣應用。隨著數碼技術的發展,通過搭載可見光傳感器的無人機獲取包含樹種信息的遙感影像,具有獲取方便、成本低、空間分辨率高等優點,已成為遙感影像識別樹種研究方向上重要的數據源之一[7]。

根據遙感影像分類單元的不同,可將分類方法歸為基于像元和面向對象兩類?;谙裨姆椒ㄖ饕P注局部像素的光譜信息,在處理高分辨率遙感影像時對噪聲比較敏感、穩健性差,極易出現錯分、漏分現象[8]。為彌補基于像元方法的不足,面向對象的影像分析技術(OBIA)逐漸被用于處理高分辨率遙感影像[9]。OBIA方法綜合考慮區域相鄰像素的紋理、形態以及空間結構等多維特征,減少了“椒鹽噪聲”的同時,通常具有更高的準確率[10]。然而,隨著特征維數的增加,數據處理的難度呈幾何倍數增長,使得傳統分類算法的應用受到一定限制。隨機森林(RF)是一種基于集成學習思想集成多顆決策樹的機器學習算法,通過對樣本的決策樹建模以及組合多棵決策樹的預測,最終由分類樹投票決定數據的分類[11]。隨機森林算法不僅具有模型簡單、分類精度更高、校正參數更少的特點,而且魯棒性強,不易過擬合,在遙感領域高維特征分類中得到廣泛應用[12]。

面向對象方法可以有效減少“同物異譜”現象,而隨機森林算法在處理高維數據時有其獨特的性能優勢,二者的結合在一定程度上提高了分類精度。宗影等[13]將面向對象方法和隨機森林算法的有機結合,有效提高了濱海濕地植被的分類精度,總體精度達87.07%;趙士肄等[14]將面向對象方法和隨機森林算法應用于耕地領域,并與其他機器學習分類算法進行對比驗證,結果表明基于面向對象的隨機森林模型取得了最高的耕地提取精度,并減弱了“椒鹽”噪聲,優化了分類結果;耿仁方等[15]研究結果表明,基于面向對象結合隨機森林算法對巖溶濕地植被具有較高的識別能力,在95%置信區間內的總體精度為86.75%。雖然該方法的研究已經取得了一定的成功,但不同類型的特征對城市樹種信息提取效果的影響尚不明確。因此,面向對象結合隨機森林的方法對于城市樹種分類的效果有待進一步探討。此外,目前主流的數據源是大尺度的衛星影像和航空影像,或者是特征信息更加豐富的多光譜和激光雷達影像,而消費級無人機可見光影像在城市樹種的精細分類方面還鮮有報道。因此,本文以福州市倉山區無人機可見光影像為研究對象,基于OBIA-RF模型,通過特征優選,構建最佳子集并比較不同機器學習算法的分類精度,并分析不同特征對城市樹種分類的影響,構建該研究區城市行道樹的最佳特征子集,比較不同分類算法對城市樹種的分類效果,進一步評估OBIA-RF模型的分類性能和適用性,為城市生態系統保護及生態環境治理提供技術支持。

1 研究區概況

研究區位于福建省福州市倉山區(見圖1),該區域屬于南亞熱帶海洋性季風氣候溫暖濕潤,冬季無嚴寒,夏季無酷暑。年日照時間1 700~1 980 h,年降水量900~2 100 mm,氣溫20~25 ℃。福州市倉山區典型樹種包括白蘭(Michelia×alba)、荔枝(Litchichinensis)、芒果(Mangiferaindica)、南洋楹(Falcatariafalcata)、榕樹(Ficusmicrocarpa)、棕櫚(Trachycarpusfortunei)、樟(Cinnamomumcamphora)等。研究區地勢平坦,自然環境相對復雜,具備城市的基本特征,對研究城市樹種分類具有一定的代表性。

2 研究方法

2.1 無人機數據采集與預處理

實驗數據于2020年2月8日采集,采用搭載FC6310S可見光鏡頭的大疆精靈4Pro(DJI Phantom 4Pro)無人機進行航拍獲取研究區影像,為削弱陰影對分類過程的干擾,選擇天氣狀況良好無風有云的時間段進行作業。飛行相關參數設置如下:航高設置為60 m,航向與旁向重疊率均為70%,鏡頭角度-90°,光圈值f/5,曝光時間1/200 s,IOS速度為IOS-400。本次飛行共獲得450張航拍影像,照片分辨率為5 472×3 078。通過瑞士Pix4Dmapper專業攝影測量軟件對所采集的原始數據進行空中三角測量、點云重建、裁切以及鑲嵌等操作,得到研究區的正射影像(DOM)和數字地表模型(DSM)。

為了精確獲得研究區的道路信息,采用天地圖在線矢量影像作為輔助信息,并通過手繪的方式提取道路矢量數據。根據實際調查情況,利用緩沖分析,將緩沖距離設置為5 m,得到了行道樹的矢量分布圖,然后,將矢量布圖與原始影像疊加,最終裁剪出了研究區影像。

2.2 地形特征提取

歸一化數字表面模型(nDSM)是一種反映地物絕對高度的高程模型[16],可為地物判別提供可靠依據。使用ArcMap10.2軟件進行地形特征提取。首先,通過人工目視解譯方法從DSM中選取950個地面點,并批量提取柵格的高程信息,其中100個樣本點的高程數據用以驗證精度。其次采用插值的方法生成數字高程模型(DEM)。為獲取更加精確的地面高程信息,比較常見的插值方法(克里金插值法、反距離權重法、樣條插值法以及自然鄰域法)生成的數字高程模型(DEM),以均方根誤差、平均絕對值誤差和決定系數(R2)作為評分指標(見表1)。4種插值方法均可得到較高精度的DEM數據,綜合考慮決定系數(R2)、平均絕對值誤差以及均方根誤差,最終確定采用克里金插值法生成連續的DEM數據。最后,根據已生成的DEM數據,利用ArcMap10.2軟件中的柵格計算器,將DSM數據與DEM數據相減得到nDSM數據[17]。

圖1 研究區概況圖

表1 不同插值方法精度評價

2.3 最佳分割尺度確定

影像分割是面向對象方法中至關重要的初始環節,分割結果將直接影響分類精度[18]。本研究采用尺度參數評價工具(ESP2),結合目視解譯的方法確定最佳分割尺度,所有圖像分割過程均在eCognition9.0 Developer 9.0軟件完成。ESP2是用以評價不同尺度影像整體最大差異性的工具,通過計算整體局部方差均值隨尺度變化率評估不同地物所對應的最佳尺度參數[19]。而ESP2計算出的尺度參數往往是多個值,需要結合人工目視才能確定最佳分割尺度。形狀參數和緊致度參數是準確表示不同樹種輪廓,使得對象內部同質性高的關鍵。綜合考慮無人機影像的特點以及影像對象形狀和緊致度因子的相互關系,將形狀參數設置為0.5,緊致度參數設置為0.3。其他必要參數為:各波段的權重值設置為1、起始分割尺度為40、分割步長為1、迭代80次。隨著尺度的增大,局部方差均值整體呈現上升的趨勢,而尺度變化率呈現下降的趨勢(見圖2)。為了獲得圖像的過分割和欠分割之間的臨界值,選取尺度變化率峰值為51、57、76、80、89、104、109和118作為相對最佳分割尺度參數,采用多尺度分割算法得到分割結果(見圖3)。當分割尺度參數設置較大(分割尺度參數大于104)時,白蘭、榕樹和背景多處被劃分為同一個對象,不同樹種存在混淆現象難以被區分。當分割尺度參數設置較小(分割尺度小于76)時,不同地物內部出現了過分割現象,增加了數據冗余。當分割尺度參數設置76~89時,植被與背景區分相對明顯,不同的樹種之間能夠被分割成獨立的對象,整體分割效果較為理想。權衡分割效果與實際情況的吻合度,最終確定研究區無人機影像最佳分割尺度參數為76,并利用該分割尺度參數進行城市行道樹提取。

圖2 ESP2最佳分割尺度估計圖

圖3 不同尺度參數分割效果圖

2.4 對象光譜特征提取

光譜特征是遙感影像的重要特征之一,地物通常具有不同的光譜特征,因此根據可見光影像中的地物光譜信息的差異可以用來區分不同的地物類型[20]。植被指數利用植被在不同波段下反射和吸收的特性,增強植被信息的同時使非植被信息最小化[21],被廣泛應用于林業病蟲害防治、農作物生長量估計、生態環境監測等領域[22]。在遙感圖像中,不同地物通常具有復雜程度不同的邊緣特征,因此,形狀特征可以作為快速準確識別地物類型的有效手段[23]。紋理特征是遙感影像的底層特征,不受圖像亮度的影響,能夠綜合反映像素的灰度分布和結構信息,利用紋理特征可以有效彌補可見光影像光譜信息的不足[6]。在面向對象的分類過程中,結合紋理特征對于提升分類精度效果顯著[24]。地形特征能真實反映不同地物的高程信息,在影像分類過程中對于區分不同類型的地物具有重要意義。因此,本研究共選取光譜、指數、紋理、幾何以及地形5大特征,剔除無效特征篩選出40個子特征,具體如下:

(1)光譜特征(SPEC):主要包括:紅色(R)波段的像元亮度的均值(MR)、綠色(G)波段的像元亮度的均值(MG)、藍色(B)波段像元亮度的均值(MB)、最大差異值(Md)、亮度值(Br)。

(2)指數特征(INDE):包括植被顏色指數(ICIVE)、可見光波段差異植被指數(IVDVI)、聯合指數2(ICOM2)、超綠指數(IEXG)、超綠超紅差分指數(IEXGR)、植被指數(IVGE)、歸一化紅綠差異指數(INGRDI)以及歸一化綠藍差異指數(INGBDI)(見表2)。

(3)幾何特征(GEOM):包括面積、邊界長、寬度、長度、不對稱性、長寬比、邊界指數、圓度、像素個數、緊致度、體積、密度、橢圓擬合、主方向、形狀指數、最大封閉橢圓半徑、最小封閉橢圓半徑以及矩形擬合。

(4)紋理特征(GLCM):基于灰度共生矩陣(GLCM)提取影像的紋理特征,包括對比度(TCON)、相關性(TCOR)、相異性(TDIS)、熵(TENT)、同質度(THOM)、均值(TMEA)、角二階矩(TASM)和標準差(TSD)等特征值[6](見表3)。

(5)地形特征:歸一化數字表面模型(nDSM)。

表2 植被指數及表達式

表3 紋理特征及表達式

2.5 試驗樣本選取

本實驗通過實地調查獲取樣本數據。調查者沿著研究區的主要道路記錄了綠化樹種,并排除了數量較少或被其他冠層遮擋的樹種,最終確定了7類樹種(白蘭(Michelia×alba)、荔枝(Litchichinensis)、芒果(Mangiferaindica)、南洋楹(Falcatariafalcata)、榕樹(Ficusmicrocarpa)、棕櫚(Trachycarpusfortunei)、樟(Cinnamomumcamphora))以及草地、灌木作為研究對象。根據遙感影像中不同地物類型的分布位置與大致面積比例,共選取了1100個樣本點。為了避免較小的樣本數量影響模型分類精度,將最小樣本數量設置為60。采用Scikit-learn中內置的train_test_split函數進行分層抽樣,按7:3的比例將數據劃分為訓練集和測試集(見表4),使各類別樣本點數量大致與該類別的總面積成比例。訓練集用于構建分類模型,測試集用于驗證分類精度。

表4 訓練和驗證樣本

2.6 分類模型與參數優化

2.6.1 隨機森林算法

隨機森林算法(RF)是一種通過集成學習的裝袋思想將多棵決策樹集合起來的算法,每棵決策樹都充當預測目標類別的分類器。隨機森林模型在樣本數據和分類特征選擇方面具有隨機性,不容易過擬合,并且表現出良好的穩健性,即使在處理具有缺失值的高維數據時,仍能保持較高的分類精度。因此,它被認為是當今最好的算法之一[32]。目前,隨機森林算法已經廣泛集成在各種軟件包中,使用Stata數據管理統計繪圖軟件、R語言統計軟件可以輕松實現。在模型構造的過程中,通常只需要確定每個樹節點包含的特征數量(M)以及決策樹數量(N),就足以保證模型的性能[33]。

本文采取遞歸特征消除法(RFE)[34]結合交叉驗證(Cross-Validation)確定最佳特征數(見圖4)。隨著特征維數的增加,整體分類精度曲線經歷“幾何增長”、“緩慢上升”這個兩個階段后趨于平穩。當特征數為20時,各分類精度曲線均處于相對最高點,因此最終將特征數量的參數設置為20。

在使用裝袋方法生成訓練集的過程中,隨機森林算法會導致原始數據集中大約37%的數據未被抽到,這部分數據被稱為袋外(OOB)數據。利用袋外數據對隨機森林模型進行評估是一種無偏估計方法,且在一定程度上能減少計算量,提高算法的運行效率[35]。因此,本文采取遍歷不同數量(1~1 000)決策樹的方法,通過比較袋外誤差的大小,確定最佳的決策樹數量(見圖5)。當決策樹數量小于85時,不同子集的袋外數據誤差均隨著決策樹數量的增加而急劇下降,而后隨著決策樹數量的增加袋外數據誤差的下降速度逐漸遲緩,當決策樹數量為200時,袋外數據誤差處于相對最低點。因此,選擇決策樹的最佳數量為200。

圖4 模型分類精度與特征數的關系曲線

圖5 袋外誤差與決策樹數量的關系曲線

2.6.2 其他分類模型

為充分探索隨機森林算法對城市樹種信息提取的適用性,引入當下流行的機器學習算法作為對照,包括極致梯度提升(XGBoost)、輕量級梯度提升機(LightGBM)以及k最近鄰算法(KNN)。XGBoost是一種基于增強學習(Boosting)的集成算法,它通過在梯度下降方向上將弱分類器集成到強分類器中,并迭代生成新樹以擬合先前樹的殘差。XGBoost能夠自動利用中央處理器(CPU)的多線程進行分布式學習和多核計算,在保證分類準確度的前提下提高計算效率,尤其適用于處理大規模數據[36-37]。LightGBM也屬于增強學習方法,基本原理與XGBoost相似。但LightGBM使用基于直方圖的決策樹算法來減少存儲與計算成本,并優化模型訓練速度[38]。KNN算法是一種近似自變量與連續結果之間的關系的非參數方法[39],其基本思路是通過計算待分類樣本與臨近樣本的距離(歐氏距離、曼哈頓距離)來確定所屬類別,是一種簡單而有效的分類算法。為了防止過擬合,本研究在Jupyter Notebook平臺上利用Scikit-learn庫中的GridSearchCV包對這3種分類器參數進行了調優(見表5)。

表5 不同分類器的超參數

2.7 試驗方案構建

不同樹種之間單一特征的差異有限,難以滿足樹種分類的要求。因此,本研究采取增加特征數量的方式來提高分類精度,并探究不同特征組合對分類結果的影響(見表6)。

表6 研究區各地物特征值

續(表6)

根據優選特征貢獻率(見表7),將所選取的5大特征組合形成了10種試驗方案(S1~S10)。光譜特征作為每幅遙感影像的基本特征,作為基礎被納入到這10種方案的構建中。其中,S1僅包含光譜特征;為了全面探究其他特征對分類結果的影響,在S1基礎上引入了地形、指數、紋理等3個總體特征貢獻率較高的特征,通過遍歷這3個特征的各種組合得到了S2~S8;S9包含了所有的特征;根據20個優選特征組合建立S10,具體的分類方案見表8。

表7 優選特征重要性

表8 分類方案

2.8 精度評價

本文根據混淆矩陣對模型的分類精度進行定量評價?;煜仃囈卜Q為誤差矩陣,是遙感影像二分類問題上的一種評價方法,反映了分類結果與真實地物類別之間的相關性[40]?;煜仃嚨脑u價指標包括總體精度(OA)、Kappa系數(Kp)、生產者精度(PA)以及用戶精度(UA)。其中,總體精度指正確分類樣本與總體樣本的比值;生產者精度指分類結果與參考分類相符合的程度;用戶精度指樣本分類正確的可能性;Kappa系數是用于檢驗遙感影像分類結果的一致性,也可以用以均衡分類效果[41]。各指標計算公式如下:

PA=xii/x+i;

UA=xii/xi+。

式中:N為參與評價的樣本總數;n為混淆矩陣的行列數;xii為混淆矩陣第i行、第i列上的樣本數;xi+和x+i分別為第i行和第i列的樣本總數。

3 結果與分析

3.1 隨機森林算法的不同分類方案精度

由表9可知,隨著不同特征類型數量的增加,總體分類精度和kappa系數整體呈上升趨勢。其中,僅利用光譜特征作為分類依據的方案S1精度最低,總體精度和kappa系數分別為82.12%和0.79,說明光譜特征是遙感影像最重要的特征之一,但僅利用光譜特征難以達到所需的分類精度。方案S2~S4是在S1的基礎上分別加上地形、指數和紋理特征,相比方案S1,這3個方案的總體分類精度分別提高了5.15%、4.55%、1.82%,kappa系數分別提高了0.06、0.06、0.03。在分類過程中,地形特征相較于指數和紋理特征扮演著更重要的角色,大幅提高了分類精度。方案S5~S7是在光譜特征的基礎上加入地形、指數和紋理特征的兩兩組合,旨在研究它們之間的相互作用對分類精度的影響。整體而言,與S2~S4相比,這3個方案的總體分類精度呈上升趨勢。其中,S6具有最高的總體精度和kappa系數,分別達到90%和0.88;其次是S7,和S1相比,總體精度和kappa系數分別提高了7.27%和0.09;而S5總體精度和kappa系數只增長了6.36%和0.08。表明地形與指數特征交互作用在分類過程中提供了更大的貢獻度。方案S8是由特征重要性靠前的光譜、地形、指數以及紋理特征構成。與包含所有特征的方案S9相比,S8反而具有更高的總體分類精度和kappa系數,分別達到92.12%和0.91。表明幾何特征對分類精度具有負向影響,它的加入降低了分類精度。方案S10由優選特征組成,其獲得了所有子集中最高的分類精度和kappa系數,分別為92.42%和0.91。與S9相比,分類精度提高了0.60%。說明特征優選方法能消除高維復雜特征間的信息冗余,使模型僅利用較少特征數量并獲得更高的運行效率和分類精度。

表9 不同分類方案分類精度

由表10可知,雖然S1方案的用戶精度與生產者精度整體上處于最低水平,但棕櫚樹的用戶精度達到了100%,表明棕櫚與其他樹種存在明顯的光譜差異。方案S2加入地形指數后,各類地物的用戶精度與生產者精度相比S1都有不同程度的提高,用戶精度提升幅度1.88%~8.18%,生產者精度提升幅度2.78%~11.11%,因為地形特征的加入更好的反映了不同地物之間的空間關系,從而大幅提高了分類精度。方案S3在S1的基礎上加入了指數特征,荔枝、榕樹以及樟的用戶精度分別提升了10.95%、9.18%和8.72%,說明植被指數對荔枝、榕樹以及樟分類效果顯著,但對于其他樹種的區分能力有限。方案S4加入紋理特征,芒果和樟的用戶精度提升了8.85%和9.00%,而棕櫚和榕樹的生產者精度分別提升了22.22%和11.9%,說明這些樹種的紋理結構特異性強與其他地物的差異顯著,因此紋理特征的加入對分類精度有正向影響。方案S5與S2相比,荔枝和榕樹的用戶精度提升了7.05%和5.12%,而草地的精度下降了5.88%;與S3相比,灌木的用戶精度提升了4.47%??傮w而言,地形特征與指數特征的組合對分類精度的提升不顯著,并且在某些樹種的分類上精度出現不同程度的下降,說明這二者的組合產生了冗余信息影響了分類精度。方案S6與S2相比,芒果與樟的用戶精度分別提升了6.44%和7.66%,而棕櫚樹和榕樹的生產者精度分別提升了27.78%和11.90%,這個結果與方案S4類似,說明地形特征和紋理特征的組合與樹種的分類精度呈正相關。方案S7與S6相比,除個別樹種外,整體精度出現了不同程度的降低,波動范圍為-6.21%~4.04%。然而,與方案S5相比,總體分類精度有一定的提升,波動范圍是-0.58%~7.55%。方案S8與表現最好的方案S7相比,荔枝和榕樹的總體分類精度分別提升了9.42%和6.67%,其他樹種的總體分類精度保持穩定,這表明高維度的特征組合帶來了更多的信息,在一定程度上提高了分類精度。綜合所有特征的方案S9與S8相比,總體分類精度呈現出不升反降的現象,波動范圍為-10.23%~4.74%,說明高緯度的特征產生了冗余信息,影響了隨機森林模型的分類性能。優選特征子集S10與S9相比,總體分類精度有所提升,其中灌木、草地以及荔枝的用戶精度分別提升了10.23%、5.88%和3.55%。由此可見,特征優選通過對高維數據集的降維和優化,使模型僅利用較少的特征仍能保證良好的分類效果。

3.2 應用優選特征子集對不同分類模型的精度評價

由表11可知,隨機森林模型的分類精度最高,總體精度為92.42%,比k最近鄰算法(KNN)、極致梯度提升(XGBoost)和輕量級梯度提升機(LightGBM)算法分別提高了15.15%、1.51%和1.81%;隨機森林模型的kappa系數為0.91,比KNN、XGBoost和LightGBM算法的kappa系數分別提高了0.17、0.01和0.02。表明隨機森林模型具有更高的分類精度。

表10 不同分類方案地物生產者精度和用戶精度

地物不同方案地物用戶精度/%方案S1方案S2方案S3方案S4方案S5方案S6方案S7方案S8方案S9方案S10草地87.5094.1287.5093.3388.2494.4488.2494.1288.2494.12灌木84.2189.4785.0080.0089.4794.4488.8994.4484.2194.44白蘭96.3698.2596.6798.2896.7298.2896.7296.7298.3396.72荔枝69.0575.0080.0062.7982.0573.9174.4783.3381.8285.37芒果73.9182.0977.1482.7681.1688.5288.7189.0690.1689.06南洋楹94.59100.00100.0092.11100.00100.00100.00100.00100.00100.00榕樹82.9389.4792.1181.2594.5990.7094.7497.3797.4497.37棕櫚100.0086.6787.5089.4787.5090.0089.4790.0094.7490.00樟68.4275.6877.1477.4277.7883.3381.8285.2985.7185.71

表11 不同分類模型分類精度比較

由圖4可知,使用最佳特征組合子集作為樣本數據,結合隨機森林(RF)、k最近鄰算法(KNN)、極致梯度提升(XGBoost)和輕量級梯度提升機(LightGBM)算法對整個研究區的行道樹進行分類提取。隨機森林(RF)算法的分類效果相對理想,大部分地物邊緣較為清晰,整體與研究區域實際情況較為一致。XGBoost算法容易將白蘭誤分為榕樹(見圖4b)和將榕樹誤分為樟(見圖4c)。LightGBM算法容易將荔枝、白蘭和榕樹混淆(見圖4a和圖4c)。KNN算法的分類效果最差,破碎化情況明顯,出現了大量的錯分(見4a和4b圖中南洋楹誤分為芒果)。綜合來看,RF模型在進行城市樹種精細分類時,具有最強的適用性和最佳的提取效果。

4 討論

本研究應用隨機森林模型的特征重要性排序構建了不同特征組合的方案,充分考慮特征對分類模型的影響,表明優選特征方案(S10)具有最高的分類精度。由于本研究采用了遞歸式特征消除法,通過定量分析特征貢獻率,在盡可能保留重要特征的同時降低數據冗余,從而提高模型整體運行效率與精度。其中,光譜特征起到了最重要的作用,僅利用光譜特征分類的總體精度達到82.12%。雖然不同樹種間組織細胞中葉綠素、類胡蘿卜素、花青素、葉黃素的含量和綠色波段的反射率有緊密聯系[6],但芒果、榕樹、南洋楹和樟的光譜信息比較相似,因此利用光譜特征難以實現更精細的樹種分類。地形特征對分類效果具有重要作用,隨著地形特征的加入,總體分類精度得到了大幅度的提升,其貢獻度達14.96%。研究區樹種之間存在天然的高差,南洋楹屬于高大喬木,平均樹高達20 m以上,而荔枝的平均高度只有7~8 m,精確的冠層高度信息可以彌補光譜信息的不足,進一步提高了分類精度。本研究所選取的植被指數對分類結果均產生了一定的影響,其中比較重要的是聯合指數和植被顏色指數,這兩種指數在反映典型地物的像元特征時具有更低的變動絕對差值[42]。但紋理特征的引入并未顯著提高分類精度,由于無人機影像不規則和較小的分割尺度以及幾何特征的加入產生了數據冗余,從而降低了隨機森林模型的分類精度[43]。

為進一步驗證RF模型在城市樹種信息提取上的適用性,本試驗將其與其它常見的機器學習算法(XGBoost、LightGBM和KNN)進行了比較。隨機森林算法取得了最高的分類精度和Kappa系數,并具有最佳的分類效果。楊紅艷等[44]應用無人機高光譜遙感影像研究了荒漠草原草地植被分類,結果表明隨機森林分類算法優于其他傳統機器學習分類算法,說明隨機森林算法在處理高維特征數據和有限訓練樣本時具有更好的適用性和穩定性。其原因在于隨機森林模型通過隨機選擇樣本和特征構成決策樹,同時利用遞歸特征消除法排除非必要特征數據帶來的冗余信息。隨機森林在處理復雜數據和有限訓練樣本時能最大程度降低誤差值對其分類性能的影響,仍然保持強大的穩健性。與隨機森林模型相比,KNN算法只有77%的分類精度,并且存在大量的錯分和漏分現象。KNN算法本質是一種基于實際樣本的學習算法,通過計算未知樣本和已知樣本之間的距離來判斷所屬類別,由于本研究區地物豐富(喬木、灌木、道路以及建筑物等),在一定程度上導致了錯分和漏分的現象;顯著的樣本數量差異(芒果為200個,草地為60個)也會影響模型的性能,降低分類精度,從某種程度上說明KNN算法不適用于復雜地物的精細分類[45]。而XGBoost和LightGBM的核心思想是通過迭代地添加新的模型來糾正前一個模型的錯誤,從而不斷提高模型的準確性。由于樣本數據中包含大量的噪聲,且樣本量過少,這在一定程度上會導致模型的性能下降,出現過擬合的現象。然而,這兩種算法的分類精度均達到了90%以上,說明它們仍具有巨大的潛力[46-47]。在后續的研究中,可以采用基于衛星影像與激光雷達點云數據的結合,并通過數據預處理(去除缺失值、進行標準化等)、增加樣本數據量以及合理調整參數的方式,充分發揮這兩種算法的特點,以提高分類精度,實現大尺度城市植被信息的提取與反演。

圖4 不同分類模型樹種信息提取效果

盡管本研究根據最佳特征組合方案所構建的隨機森林模型能有效識別城市樹種,但仍存在一定的局限性。首先,尺度參數缺乏客觀性,采用的ESP2插件,通過計算局部方差均值與尺度的變化率的關系,得出相對最佳尺度的備選值,但這種方法仍需要通過人工目視解譯比較分割效果確定最終的尺度。由于受人為主觀因素的影響,缺乏足夠的客觀性,無法得出適用于特定類型地物的最優分割尺度。劉金麗等[48]在ESP2插件的基礎上提出了基于地物樣本點的評價方法,提高了操作的簡易性和評價因素的全面性。其次,分類模型難以推廣,研究對象是根據某一時段的無人機可見光影像的植被信息提取,未充分考慮到植被物候差異的時間變化,導致OBIA-RF模型在全天候城市樹種信息精確提取方面存在一定的局限性。劉靈等[49]基于Sentinel時序影像成功實現了香格里拉針葉林優勢樹種的精細識別。說明根據多時序的無人機可見光數據,計算不同樹種物候特征與時序特征的回歸關系,構建具有時間尺度的分類模型,可以提高模型的適用性。最后,盡管利用消費級無人機可見光影像實現了城市行道樹的精細分類取得了一定的成果(分類精度為92.42%,kappa系數為0.91),但僅依賴可見光影像的三通道數據難以實現更高精度的分類。因此,在今后的研究中,可以考慮結合多光譜和激光雷達數據,充分利用多光譜影像的多通道數據和更精確的激光雷達點云信息(特別是多光譜影像中對植被信息敏感的近紅外波段和激光雷達點云中的點云大小、點云密度、點云強度等特征)進行地物分類。

5 結論

本研究根據城市樹種信息精細分類的需求,提出了一種基于消費級無人機高分辨可見光影像的城市行道樹信息提取方法。應用OBIA-RF模型和植被的光譜、指數、幾何、紋理以及地形特征,通過遞歸式特征消除法構建最佳特征子集的方式,實現城市行道樹信息的提取,并探究了不同的特征組合對分類結果的影響,并引入XGBoost、LightGBM以及KNN等3類機器學習算法與隨機森林模型在城市樹種分類上的適用性進行對比。遞歸式特征消除是一種減少數據冗余提高模型運行效率的有效方法,經過優選特征變量組合(S10)取得了較高的分類精度。不同的特征對分類結果的影響不同,光譜特征、地形特征、指數特征以及紋理特征對分類結果起正向作用,光譜特征最為重要,僅利用光譜特征就能達到較高的分類精度;幾何特征對分類精度有負向影響,高維幾何特征的加入降低了分類精度;地形特征通過提供精確的冠層高度數據彌補了可見光影像光譜信息的不足,在分類過程具有最高的貢獻度。而指數特征和紋理特征特征通過數學運算提取樹種對象內部更深層次的光譜、紋理信息,對提高分類精度也具有重要作用。隨機森林(RF)算法與當前流行機器學習算法(XGBoost、LightGBM以及KNN)相比,總體精度最高,提取效果最好,說明OBIA-RF模型在處理高維特征數據和有限訓練樣本時具有更好的適用性和穩定性。該方法為準確的獲取城市樹種空間分布信息提供了一種新思路,有助于提升城市居民生活水平和城市生態系統可持續發展。

猜你喜歡
樹種尺度精度
財產的五大尺度和五重應對
基于DSPIC33F微處理器的采集精度的提高
常綠樹種在新疆的應用現狀
宇宙的尺度
GPS/GLONASS/BDS組合PPP精度分析
城市綠化樹種選擇,只顧眼前你就輸了
一個樹種的國家戰略
改進的Goldschmidt雙精度浮點除法器
9
珍貴樹種紅豆樹生態位測定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合