?

最優特征選擇下多層次分割的城市道路提取

2022-04-20 09:47雷惠敏張和生
中國空間科學技術 2022年2期
關鍵詞:特征選擇分類器精度

雷惠敏,張和生

太原理工大學 礦業工程學院,太原 030024

1 引言

道路是基礎地理信息的重要組成部分,道路提取的相關方法和理論具有較大的探索前景。隨著遙感技術的發展,遙感影像的分辨率不斷提高,影像所包含的幾何特征以及紋理信息也不斷增加,因此利用高分辨率影像進行道路提取的方法也獲得了很大的發展。目前最常用的道路提取的方法有基于像元的方法、面向對象的方法和深度學習的方法。陳立福等利用數學形態學和MRF分割的方法對高分辨率SAR影像的道路進行提取,有效的提取出了道路輪廓,但未能充分利用影像的光譜信息、紋理信息,在復雜場景的道路提取中不具有普適性[1]。王文慶、袁偉等利用深度學習方法實現了道路的自動化提取[2-3]。但深度學習方法對計算機性能要求較高,需要的數據集較多,模型搭建復雜,對于普通的道路提取效果一般。面向對象作為道路自動提取中最常用的方法,現階段仍具有重要的意義。例如,Ding等發現道路局部區域通常具有一致性,將像素合并到具有相似主方向的對象中,以計算幾何測量值,然后,使用線段連接算法提取其中的道路對象[4]。Huang等基于對象多尺度結構特征,利用SVM對不同地物進行分類,利用多數投票機制識別道路對象[5]。Maboudi、Stein等利用面向對象方法提取道路獲得了較好的效果[6-7]。面向對象的方法充分利用了影像信息對道路進行提取,雖然避免了僅利用光譜像元分類造成的影像“同譜異物和”“椒鹽現象”,取得了很好的效果[8]。但同時參與道路提取的特征增多,也造成了特征維數的增大,在一定程度上降低了道路提取過程中影像的分類精度,因此在分類前需要對特征進行選擇降低其維度[9]。

隨機森林算法是一種機器學習分類算法,可以直接處理高維數據的降維問題[10]。目前與隨機森林結合使用的特征選擇算法主要有過濾式(Filter)和封裝式(Wrapper)。溫小樂等通過隨機森林封裝算法進行特征選擇對喬木林樹種進行分類,提高了樹種的分類精度[11]。馬玥、姚登舉等利用隨機森林算法封裝式特征選擇方法對特征變量進行降維,將降維后的變量用于影像分類,提高了分類的精度[12-13]。但封裝式算法對分類器和搜索算法的依賴性較大,根據原始特征集在分類器上的性能評估特征子集的優劣,效率較低。Filter方法具有較好的預測能力,并獨立于封裝式算法,將其與封裝式算法結合使用構成過濾式-封裝式特征選擇方法,能充分利用兩者的優勢。例如,劉舒等采用ReliefF過濾式算法和基于隨機森林的封裝式多目標遺傳算法相結合的方法優化特征集,將所得的特征集用于濕地提取,取得了較好的效果[14]。傳統隨機森林分類在選擇特征時具有隨意性,會忽略特征對類別的重要性,很難選擇出隨機森林的最優參數組合并且選擇過程效率低。因此本文在前人的基礎上提出了將PSO搜索算法與優化的隨機森林算法結合使用構成PSO_OPRF封裝式特征選擇方法并和ReliefF過濾式算法共同使用。在充分考慮特征間相關關系的同時選擇最優的隨機森林的參數組合,來提高影像分類和道路提取的精度。

2 研究區概況及數據準備

2.1 研究區概況

研究區位于山西省太原市城區內部,位置為112°30′29″-112°32′37″E,37°52′27″-37°53′47″N(如圖1),根據城市生態用地的分類經驗將研究區分為水體、植被、主干路、次干道、支路、建筑、陰影和其他8類地物[15]。

2.2 數據來源及預處理

數據選用2020年7月7日獲取的全色分辨率為1 m,多光譜分辨率為4 m的GF-2遙感影像(如圖1)。利用ENVI平臺對GF-2遙感影像進行正射校正、幾何配準,將配準后的影像進行融合、裁剪得到研究區初始影像,進一步采用中值濾波去除噪聲提高影像對比度,利用改進的雙閾值canny算子對研究區影像進行邊緣提取[16],將提取的邊緣和原始影像疊加得到最終研究區圖像(如圖2)。最終圖像在不減少光譜信息的情況下同時擁有了邊緣信息,能得到更好的影像分割效果。

圖1 研究區示意圖Fig.1 Schematic diagram of the study area

圖2 添加邊緣算子圖Fig.2 Add edge operator graph

3 研究方法及原理

3.1 影像多尺度分割算法

多尺度分割算法是一種自底向上的區域生長算法[17]。其依據異質性準則,將單個像元逐層合并成具有相似性特征的影像對象,具體流程為:設置影像的尺度參數、光譜、形狀的權值,將影像的局部區域異質性與給定閾值大小進行對比,當異質性小于給定閾值時進行迭代合并,依次循環,當異質性大于給定閾值時,停止合并。使得影像分割后對象內部同質性和對象間異質性達到最大[18]。多尺度分割根據影像中各個地物特征的不同,選擇不同的尺度對遙感影像進行分割[19],形成不同地物間的層次等級網絡體系,在特定影像層上提取出特定地物。本文在不同的尺度層次上對3種類型的道路進行了提取,首先根據ESP插件獲得影像多尺度分割的大致尺度為120、180、210、260、300,再根據RMAS指數法[19]結合目視方法分別獲得各個地物的尺度參數、形狀與緊致度因子的參數見表1。

表1 各個地物最佳分割尺度和形狀緊致度因子參數

3.2 特征初選

研究共選擇93個特征,其中包括光譜特征8個,幾何特征15個,紋理特征51個,語義特征16個 ,自定義特征3個。光譜特征包括4個波段的均值和標準差;幾何特征包括面積、邊界長度、長寬比、寬度、不對稱性、密度等;紋理特征包括GLCM和GLDV方向的均值、標準差、熵、同質性、對比度、非相似性、角二階矩、相關性等;語義特征包括距離相關性和相鄰邊界相關性等;自定義特征包括建筑指數(BAI)、自定義水體指數(NDWI)以及自定義植被指數(NDVI)。

3.3 特征選擇的方法

(1)ReliefF特征選擇

ReliefF是由Kononeill通過改進Kira提出,Relief得到的一種過濾式特征選擇算法,可以解決多類別問題。它基于特征和類別之間的相關性來確定權重,濾除權重小于閾值的特征。具體過程為:隨機選取訓練樣本集中的一個特征樣本R,分別選擇樣本R的k個同類最近鄰樣本和異類最近鄰樣本構成樣本集H和樣本集T,求出H和T中特征與原始樣本R中特征的差值,將其定義為特征權重W[20]。對于任意特征樣本集m,進行n次抽樣的特征權重Wm計算式[21]如下:

(1)

式中:c為異類樣本集類別;R[m]代表特征集R中特征為m的值;p(c)為異類樣本類別c的概率;Hj[m]為同類樣本中距離m的第j個最近鄰特征的值;class(R)代表對象集R的類別,p(class(R))是所有樣本中與R相同的概率;T(c)j[m]為距離c類樣本第j個最近鄰特征m的值。

(2)粒子群優化搜索算法

Kennedy和Eberhart在1995年提出的粒子群優化算法(PSO)是一種群體協作式的隨機搜索算法[22]。根據粒子的適應值和速度與其他粒子協作共享信息尋找解空間中的最優解。本文中將粒子群優化算法作為封裝式算法中的搜索算法,在預處理后的特征集中選擇更優的特征。

(3)PSO_OPRF封裝算法

首先按權重大小對原始特征子集進行排序,利用ReliefF過濾式算法對排序后的特征子集進行篩選,去除權重較小的特征,保留權重較大的特征用參與到下一步的特征選擇。然后,利用PSO算法和OPRF算法共同構成封裝式(Wrapper)子集評估器對預選出的特征進一步降維。將PSO算法作為封裝算法中的搜索算法,對經過ReliefF過濾式算法篩選出的特征的重要性進行評估判斷,對冗余特征進一步消除,降低其維度。利用OPRF作為封裝算法中的分類器, 對隨機森林的參數進行自動選擇,同時考慮特征之間的相關性,刪除PSO算法中重要性較低的特征,逐次迭代,依據分類精度的大小對特征選擇的優劣進行判斷,建立分類精度變化與特征維度之間的關系,最終選擇出最優的特征子集。并利用十折交叉驗證法驗證該特征選擇方法對地物的分類精度。

3.4 影像分類

(1)J48決策樹分類

J48決策樹的基本理論算法為ID3算法,如圖3所示?;趶纳系较碌倪f歸策略,構造決策樹的分支,依次循環,對連續屬性進行離散化處理[23]。以J48決策樹構建分類規則集對影像進行多層次分類,進一步在多層次分類的基礎上提取城市道路。與通過優化隨機森林分類器分類的結果進行對比。

圖3 ReliefF_PSO_OPRF特征選擇流程圖Fig.3 ReliefF_PSO_OPRF feature selection flow chart

(2)隨機森林算法(RF)分類

隨機森林算法是由多個決策樹組成的一種機器學習的分類算法。該算法對訓練數據中隨機選取的子訓練樣本構建決策樹,并對決策樹每個節點上特征進行隨機抽取。根據選取的特征信息量分裂和增長決策樹的節點,重復循環此過程,直到不再繼續分裂。對各決策樹進行分類,并對其結果進行投票,得到最終的投票分類結果[24]。

(3)優化的隨機森林(OPRF)分類

現有的隨機森林算法通常構建大量決策樹,對內存消耗較大計算效率較低。使用遺傳算法優化隨機森林中決策樹的個數,選擇高質量的個體樹來作為遺傳算法的初始種群,可以提高隨機森林的算法精度[25]。首先將OPRF作為封裝算法中的分類器,對選擇后的特征集合進行評估,在剩余的特征中選擇出最優的特征集,再依據分類規則對三個等級的道路分別進行提取。

3.5 分類后道路拓撲處理

利用ArcGIS軟件對提取后的道路進行細化處理,對樹木、房屋陰影造成的道路斷裂問題,進行拓撲處理實現道路連接,對提取出的道路面進行線化處理細化道路,去除粗提取產生的道路毛刺,對道路進行平滑。道路提取流程圖如圖4所示。

圖4 道路提取流程Fig.4 Flow chart of road extraction

4 實驗與結果分析

本文采用FNEA分割算法按RMAS指數法獲得的各個地物的分割尺度和形狀緊密度因子,利用eCognition9.1對遙感影像進行逐層分割,在分割好的影像的基礎上共選擇903個樣本點,選擇其中2/3作為測試數據,1/3作為驗證數據,利用weka3.9平臺設計對初始特征進行選擇,得到最優特征參與后續分類過程,在不同層級上對不同尺度的道路進行粗提取。

4.1 ReliefF_PSO_OPRF特征選擇

對原始空間特征利用weka3.9平臺設計實驗首先利用ReliefF過濾算法進行初始選擇,保留與目標類別相關性較大的60個特征,再利用粒子群優化算法對預選出的特征重要性進行排序,同時優化隨機森林算法,選擇最優隨機森林子樹組合對特征子集進行評估,得到最終的26個特征(如表2)。其中包括光譜特征3個,幾何特征5個,紋理特征7個,語義特征9個,自定義特征2個??倐€數比僅使用ReliefF少34個,比ReliefF_PSO_RF選擇出的特征少8個,比ReliefF_PSO_J48少了10個。ReliefF_PSO_OPRF特征選擇方法選擇出了最少的特征子集參與后續的影像分類,減少了計算時間,提高了影像分類的精度。

表2 ReliefF_PSO_OPRF選擇的特征

4.2 不同特征選擇方法分類結果對比

為了進一步驗證ReliefF_PSO_OPRF方法的可靠性,將其與ReliefF_OPRF、PSO_RF、PSO_J48等方法的結果對比分析,見表3。從表3中可以看出4種方法中ReliefF_PSO_OPRF分類的總精度和kappa系數最高。相比于ReliefF_OPRF分類精度高出4%左右,kappa系數也高出0.04,驗證了在封裝算法中引入PSO搜索算法的必要性。發現ReliefF_PSO_OPRF方法的分類精度分別提高了3.87%、3.21%、10.3%,kappa系數提高了0.047 6、0.039 4、0.124 8。利用PSO_ORPF構成封裝式算法選擇的特征分類精度比PSO_RF構成封裝式算法選擇的特征分類精度高3%,kappa系數高出0.04;比PSO_J48構成封裝式算法選擇的特征分類精度高出10%,kappa系數高出0.12,驗證了將OPRF作為封裝式算法中分類器的有效性。實驗證明ReliefF_PSO_OPRF構成的過濾式-封裝式特征選擇方法選出的特征最優。將該特征集依據分類器構建的分類規則參與到影像的多層次分類中能將道路與其他地物很好地區分開(如圖4),提高了道路提取的精度。

表3 不同特征選擇方法分類精度對比

5 道路提取的質量評價

利用以上多種特征選擇方法及分類方法在多個層次上對不同類型的道路進行提取,在此過程中將選出的不同特征集的閾值構造作為規則集寫入易康軟件中作為分類的依據,建立分類模型。通過對道路提取的查全率、查準率、F-measure,三個指標來判斷道路提取的質量。

查全率(Recall):指道路提取的完整程度,用于衡量正確分類的道路總面積與目視解參考道路總面積之比:

(2)

查準率(Precision):指正確提取道路數據的百分比,即算法分類之后的得到的正確分類的道路總面積與提取的道路網總面積之比:

(3)

F-Measure(F度量):是查準率和查全率的調和平均數,是查準率和查全率的綜合表示:

(4)

式中:TP代表道路提取中將正類判定為正類;FP是指將負類判定為正類,即“存偽”;FN是指將正類判定為負類,即“去真”。

由表4可知,本文提出的ReliefF_PSO_OPRF方法選擇的特征參與影像分類后,提取出的道路具有較好的效果,主干道和支路的查全率、查準率、F度量值都達到了0.9以上,次干道的查全率、F度量都達到了0.8以上,查準率達到了0.85以上,支路的查準率、查全率和F度量值都達到了0.9以上,高于其余幾種方法。ReliefF_PSO_RF特征選擇方法選取的特征提取出的道路精度次之,查準率、查全率和F度量都低于本文提出的方法。結合圖6可以明顯看出基于ReliefF_PSO_RF選擇的特征提取出的道路存在錯提,漏提的現象。驗證了優化的隨機森林算法的有效性。僅使用ReliefF算法與優化的隨機森林算法結合使用選擇出來的特征提取出來的道路的質量低于ReliefF_PSO_OPRF、ReliefF_PSO_RF方法選擇出來的特征提取的道路質量。單獨使用ReliefF算法進行特征選擇,只能依據特征權重過濾掉權重較低的特征,不能充分考慮特征子集之間的關系對其進行準確的評估,選擇出的特征對道路提取的質量較低。利用J48作為封裝式算法的分類器評估特征子集,選擇出的特征對道路的提取效果相較于前三種方法最差。驗證了隨機森林算法作為分類器選擇特征時,具有較高的預測準確性。

表4 不同方法道路提取質量對比

圖5 四種特征選擇方法分類結果對比Fig.5 Comparison of classification results of four feature selection methods

圖6 四種特征選擇方法部分道路提取對比圖Fig.6 Comparison diagram of partial road extraction of four feature selection methods

6 結論

本文針對GF-2遙感影像道路提取中遇到的特征冗余的問題, 提出了ReliefF_PSO_OPRF特征選擇方法,將選擇的特征應用于面向對象的道路提取中,取得了較好的效果,對主干道的提取質量達到了0.959,對次干道的提取質量達到了0.853,對支路的提取質量達到了0.931。通過四個試驗對比可知:特征選擇可以降低特征維度,提高道路的提取精度;封裝式算法的分類器選擇中本文選用的OPRF分類器相較于RF分類器和J48分類器選擇出的特征集更優,對道路的提取效果更好;結合過濾式-封裝式算法選擇的特征對道路的提取精度高于僅使用過濾式算法選擇的特征提取的道路精度。驗證了本文方法在特征選擇方面的可行性。由于城市中地物類型復雜,本文對主干道、支路的提取效果較好,在次干道的提取質量中還有待精進。

猜你喜歡
特征選擇分類器精度
分類器集成綜述
基于不同快速星歷的GAMIT解算精度分析
少樣本條件下基于K-最近鄰及多分類器協同的樣本擴增分類
學貫中西(6):闡述ML分類器的工作流程
近似邊界精度信息熵的屬性約簡
基于AdaBoost算法的在線連續極限學習機集成算法
電力系統短期負荷預測方法與預測精度
基于智能優化算法選擇特征的網絡入侵檢測
故障診斷中的數據建模與特征選擇
reliefF算法在數據發布隱私保護中的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合