?

多尺度分割與特征優選下的鹽堿地提取

2022-02-06 06:35國巧真吳正鵬吳歡歡何云海
地球環境學報 2022年6期
關鍵詞:鹽堿地尺度異質性

朱 麗,國巧真*,吳正鵬,吳歡歡,何云海

1.天津城建大學 地質與測繪學院,天津 300384

2.天津市測繪院有限公司,天津 300381

鹽堿地是鹽土和堿土的總稱,其形成的根本原因是土壤中水鹽失衡導致鹽分在土壤表面移動與積累(翁永玲和宮鵬,2006)。鹽堿地的堿性性質會抑制甚至危害作物的生長發育,因此鹽堿地的存在會造成糧食減產、土壤退化等問題,嚴重制約經濟和生態環境的發展。鹽堿地作為潛在的土地資源,對其進行監測與改良,對于緩解土地資源緊張、挖掘農業發展潛力具有重要意義。

傳統的鹽堿地監測主要采用實地土壤調查取樣的方法,通過分析土壤各組分含量來驗證土壤類型,其精度較高,但在大范圍區域監測中,該方法需要消耗大量的社會資源且及時性不強,實現實時動態監測存在一定的困難。隨著空間信息技術的不斷發展,國內外已經開始廣泛利用影像數據如 Landsat、QuickBird、SPOT、IKONOS、GF-1等對土地的鹽漬化信息進行提取,以此提高土地鹽漬化的監測效率(Elnaggar and Noller,2009;Ivits et al,2013;Allbed et al,2014;Sidike et al,2014;牛增懿等,2016)。由于高空間分辨率遙感影像包含了更豐富的地物信息,因此選擇合適的圖像分割算法能夠提高目標識別的精確度和穩健性(高仁強等,2020)。隨著影像分辨率的不斷提高和影像特征的不斷增加,傳統的圖像分割方法如閾值分割、區域合成、邊緣檢測等方法也在不斷發展,分形網絡演化算法(FNEA)作為一種基于區域合成的多尺度分割算法,能綜合考慮地物之間的光譜、紋理信息等特征差異,目前已被廣泛運用于圖像分割中。

從20世紀80年代至今,國內外針對鹽堿地的提取方法研究也在不斷發展,決策樹、支持向量機、神經網絡、隨機森林等機器學習方法也普遍用于鹽堿地信息的提取和反演(李晉等,2014;姜紅等,2017;徐存東等,2018;Jiang et al,2019;Wang et al,2019;楊練兵等,2021),隨機森林作為一種并行的集成學習算法,在決策樹的基礎上進行集成,突破了單分類器的性能提升瓶頸,各個樹之間的獨立運行讓它可以在高維數據上實現并行處理,但其在高維數據上性能仍有提升空間(王奕森和夏樹濤,2018)。Rodríguez et al(2006)通過主成分變換(PCA)對隨機森林的特征進行降維,但使用該方法時只保留了主成分值較大的值,一些主成分值小但相關性強的特征會被過濾掉。還有學者通過構建特征子空間來優化隨機森林,主要思想都是通過分析特征的信息量和相互關系來構建算法(Amaratunga et al,2008;Ye et al,2013)。鹽堿地信息由于受到季節變化、土壤濕度等影響,利用機器學習需要充分考慮鹽堿地的信息復雜性,需結合鹽堿地的形狀、紋理等特征,但當特征維數過大,會造成數據冗余和無關特征的增加,反而會導致機器學習能力下降,也會使得分類精度降低(Cui et al,2020),因此在機器學習前需進行特征優選,進而提高機器學習的分類性能。目前特征優選在干旱區精細植被分類、沙化土地識別、濕地分類等方向皆有所應用,而在鹽堿地提取方向,仍需要進一步的研究(李長龍等,2015;張磊等,2019;張文博等,2021)。

本文基于GF-6多光譜影像數據,利用分形網絡演化算法(FNEA)對影像對象進行多尺度分割,針對多維數和數據不平衡問題,使用數據挖掘中的經典算法 —— CFS算法與Relief F算法進行數據降維,精簡特征子集,再利用這兩種特征優選算法對面向對象的隨機森林算法進行優化。

1 研究區概況及數據源

1.1 研究區概況

研究區位于天津市濱海新區東北部,位置范圍北緯38°40′ — 39°00′,東經117°20′ — 118°00′。天津市北面區域緊鄰燕山山脈,山區南部與華北平原地區相連,自此至東南區域地勢總體上平緩,海拔在8 m以下,一般處于3 — 5 m。濱海新區瀕臨渤海,處于海陸交接處,多年以來受海水浸漬土壤,在溫帶季風氣候影響下,年降水量在500 mm左右,而年蒸發量達到降水量的4倍(楊曉瀟等,2019),因此導致該地區土壤的淺層不斷積累鹽分,從而形成鹽漬化土壤。其次,工業化的迅速發展、農業耕作中不合理的灌溉方式也在加重該區域的土壤鹽漬化程度。由于土壤含鹽量高,肥力低,區域正常植被生長受到抑制,多生長堿蓬(Suaeda glauca)、檉柳(Tamarix chinensis)等鹽生植物。本文選擇研究區域位于濱海新區北大港水庫附近,研究區大小為1500× 1500個像元,研究區內主要包含的土地利用類型為裸露鹽堿地、鹽生植被、建筑區、道路、水體等地物,土地鹽漬化程度不均勻,土壤環境復雜。

1.2 數據源

研究區采用的數據源為高分六號PMS多光譜波段數據,主要參數如表1所示。研究區遙感影像獲取時間為2019年9月30日,處于夏季旱期,植被生長旺盛,日照強烈,降水少且蒸發量大,在鹽堿地形成過程中正處于脫鹽末期,較適合對其進行提取。

表1 高分六號主要參數Tab.1 Main parameters of GF-6

2 研究方法

2.1 多尺度分割

高空間分辨率遙感影像的優勢在于展現地物豐富的形態特征,對于小目標的識別能力也更強,利用傳統基于像元的分類方法往往會造成空間數據的冗余,產生椒鹽圖像,進而降低分類效果。本文選取面向對象方法,其基本思想是通過綜合分析不同對象在特征和屬性上的差異,將具有相同特質的像元歸為一個研究對象。面向對象的分類方法過程主要包含影像分割、影像對象構建、分類規則的建立、信息提?。愒坪频?,2006)。

影像分割是面向對象分類方法中關鍵的過程之一,其分割尺度的確定對影像分類精度有直接影響。本文利用一種基于區域生長的多尺度分割算法 —— 分形網絡演化算法(FNEA)進行圖像分割,該算法通過將影像對象間的平均異質性(average heterogeneity)最小化,并將其各自的同質性(homogeneity)最大化,綜合考慮影像的光譜和空間紋理信息,基于成對區域合并技術進行自下而上的影像對象合并(Benz et al,2004)。該算法中異質性由光譜異質性與形狀異質性共同決定,其中形狀異質性又由緊致度與光滑度兩部分組成。FNEA算法(張萌,2019)如下:

式中:H為異質性值;ω為光譜異質性值的權重;Hcolor為光譜異質性值;Hshape為形狀異質性值;ωn為某一波段權重;σn為某一波段的像元標準差;Hsmooth為光滑度;Hcompact為緊致度。

不同的地物類型,由于各自的屬性特征,在不同分割尺度上有不同的分割效果,因此本文利用ESP(estimation of scale parameter)尺度評價工具進行鹽堿地的最優尺度選擇,多尺度分割中的尺度參數需要進行多次人為調試,而ESP則通過計算不同分割尺度下影像對象的局部變化(local variance,LV),通過變化率(rate of change,ROC)峰值來確定適宜的分割尺度,來消除人工調試的主觀因素影響(Drǎgu? et al,2010)。由于影像中存在多種地物,通過計算得到的ROC峰值一般也不止1個,針對出現的若干分割尺度,需要進行試驗確定地物對應的分割尺度。

2.2 特征選擇

Relief F算法是Kononenko et al(1997)在只適用于處理二分類問題的Relief算法上進行改進的支持多分類的數據分析方法。作為數據挖掘中經典的Filter算法,其基本思想是對每一個特征進行評價,根據每一個特征與已定義樣本類別的相關性,賦予特征權重,每個特征的權重是通過在樣本集D中隨機選擇一個樣本S,計算樣本S特征值與同類的其他特征值的k個最近鄰距離與不同類樣本的k個最近鄰距離,通過循環迭代M次,類別相關性高的特征將會賦予高的權重。權重計算公式(何牧宇和周暉,2019)如下:

式中:ωA為特征A的權重;Hi為與S同類的最近鄰樣本;Mi為與S不同類的最近鄰樣本;PC為類別為C的概率;class(S)為樣本S所屬的同類別樣本子集;diff(A,S,Mi)為樣本S1與S2在特征A上的差,當特征為數值變量時,將數據歸一化至[0, 1]。

CFS算法是一種關聯性的Filter算法,通過計算特征與類別、特征與特征之間的相關性進行評估,從而實現數據清洗(Li et al,2011)。CFS算法首先針對初始特征空間,采用前向選擇或后向選擇進行特征子空間的搜索,構建特征子空間T,基于啟發式估計方法對特征子空間內特征與特征、特征與類別間的相關性進行評估,其相關性強弱利用皮爾遜相關系數進行計算,去除特征與類別間相關性低的特征以及特征與特征相關性過高的特征。啟發式評估公式(孫寧青,2010)如下:

式中:MT為特征子集T的評估值;為類別與特征的平均相關性;為特征與特征間的相關性;α表示特征子集包含的特征個數。

2.3 影像分類算法

隨機森林(random forest,RF)算法作為集成決策樹的機器學習方法,通過在訓練集中隨機抽取樣本且放回的方法,進行每一個決策樹的無剪枝生長,來消除決策樹受訓練集影響而泛化能力弱的問題(Breiman,2001)。高維數據下隨機森林產生的并行分類器在處理速度和分類精度都有較好的效果,但當數據噪聲量過大時,隨機森林仍然缺少去除多余噪聲的能力,在分類過程中出現過擬合(Wang et al,2018),特征個數過大,會產生過擬合問題,而特征個數不夠,則會降低每個樹的分類能力,從而增加了算法的錯誤率,針對該問題,該算法采用基于OOB(out of bag)誤差的無偏估計進行隨機選擇最大特征數的確定。

3 結果與討論

3.1 分割結果

使用ESP分割尺度工具時需要先確定分割的起始尺度,本文每隔10單位進行一次分割,目視對比分割效果和各分割尺度下的LV與ROC的曲線變化,當分割尺度為70時,既可以較好地將鹽堿地與其他地物分割開,又避免了內部的過分割現象。尺度分割LV與ROC變化如圖1所示,可以看出當分割尺度為71、97、123、132、152、166時為峰值,分別使用這些尺度對影像進行分割,當分割尺度為123時,能較好地區分鹽堿地與周圍地物類型。對于異質性相關因子權重的設置,采用單一參數設定法進行多次試驗,發現增加近紅外波段的權重,可以使鹽堿地在該波段光譜信息更為豐富;將形狀異質性與緊致度因子分別設定為0.5和0.6,能夠最大化體現目標的邊界特征。

圖1 分割尺度效果圖Fig.1 Effect of segmentation scale

3.2 特征優選

從目標對象紋理特征、光譜特征、形狀特征以及遙感指數等自定義特征中選擇適宜的特征數量和類型,可以提高分類的精度,減少數據的冗余計算。本文針對鹽堿地的特征信息,構建了初始特征空間,在光譜特征與紋理特征中,每一個特征屬性均在藍、綠、紅、近紅波段上進行特征構建,最大化保留每一個波段的特征信息,選擇遙感指數SAVI(土壤調節植被指數)、NDVI(歸一化植被指數)、SI(鹽度指數)作為獨立波段參與分類。該初始特征空間包含93個特征。初始特征空間中各屬性數據量級不同,為防止數據數值之間差異過大而導致數據被吞噬問題,對各屬性數據進行Min-max標準化處理,將各屬性值限定至[ ?1, 1]。

利用Relief F算法對初始特征空間進行降維,采取Ranker搜索策略對每一個特征進行權重計算并按順序排列,得到的特征重要性排序如圖2所示。按排序可知前9個特征得分較高,依次為HIS變換、土壤調節植被指數、歸一化植被指數、最大差分、近紅外波段、紅波段、鹽度指數、藍波段、綠波段;第10 — 20個特征處于中等得分,主要是灰度共生矩陣紋理特征以及部分形狀特征,說明光譜特征與遙感指數在鹽堿地提取中占有重要地位,紋理特征次之,形狀特征最末。這是由于鹽堿地的含鹽量越高,在近紅外區域反射率則越高,而裸露鹽堿地多與鹽生植被混合存在,因此紋理方向不定,紋理特征復雜。鹽生植被的簇狀生長,在土壤含鹽量高的地方生長受抑制,土壤含鹽量低則生長旺盛,鹽堿地也受到其影響,形狀呈簇狀聚集,邊緣形狀彎曲多變。Relief F算法雖然賦予了每個特征權重,但不能確定特征子集的數目,本文利用隨機森林方法對數據集進行建模,通過得到不同特征數目下的分類總體精度(overall accuracy)與Kappa系數來確定最優特征數目。建模過程中對訓練集采用十折交叉驗證法進行訓練,即將數據集分為十等份,將其中9份作為訓練集,1份作為驗證集,直到每份數據都作為驗證子集進行驗證且驗證1次。十折交叉驗證法使得每個數據都參與了訓練與測試兩個環節,避免了模型的過度學習以及欠學習。由圖3可知:隨著特征變量數目逐漸增加,總體精度與Kappa系數也在快速增加,當特征變量達到15之后,曲線開始轉變為波動狀態,直到當特征數目為40時,精度達到峰值,分類總體精度達到96%,Kappa系數為0.95,因此選擇前40個特征作為優選特征,選擇特征如表2所示。

針對CFS算法,采用全局最優算法(best first)作為搜索策略進行啟發式搜索,進行特征預選,去除不相關變量。CFS算法并不對每個特征變量進行排序,通過對特征子集的評估直接得到最優特征空間。通過CFS篩選后共有17個特征,結果如表2所示。通過比較可得兩個算法所獲得的特征中共有14個重合特征?;赗elief F得到的特征結果包括了82%的CFS篩選的特征,說明兩種算法對重要特征均有較好的搜索效果,通過對比可以看出:各波段的光譜信息與自定義遙感指數在兩種算法中都得到了保留,與上述重要性得分排序表現的結論相同,說明光譜信息在識別鹽堿地類中的重要性,是區分其與其他地類的重要特征。CFS算法在紋理特征與形狀特征中相對于Relief F算法則約簡了更多屬性。

圖2 特征重要性得分Fig.2 Scores of feature importance

3.3 分類結果及精度驗證

通過Relief F與CFS算法篩選后的特征對研究區域進行隨機森林分類,通過選取的隨機樣本點利用解譯標志以及Google Earth目視解譯賦予樣本數據屬性,利用生產者精度(produce accuracy)、用戶精度(user accuracy)統計不同算法下漏分誤差與錯分誤差,利用總體分類精度(overall accuracy)、Kappa系數評價總體分類效果。由表3可知:Relief F-RF在鹽堿地與鹽化植被的分類上,生產者精度與用戶精度均有所提高,但在其他類別上精度降低了0.7%與1.6%,原因是Relief F算法進行特征篩選時,對于相關性較強的特征過濾效果不好,導致冗余特征,進而影響了分類性能;Relief F-RF算法的總體精度提高了1.1%。而CFS基于相關性的特征篩選算法則在分類效果有了明顯提升,相較于直接建立隨機森林,總體精度達到83.7%,提高了7.4%,Kappa系數為0.74,鹽堿地的生產者精度提高了8.9%,用戶精度提高了6.8%。鹽化植被的生產者精度提高了10.4%,用戶精度提高了12.2%。

上述結果表明:基于Relief F與CFS對隨機森林進行優化均能提高對鹽漬化土地的提取精度,未進行特征優選的隨機森林算法提取精度最低,表現出多維數問題對機器學習的分類性能存在一定的影響。Relief F算法在特征中篩選出40個特征,相較來說CFS算法只保留了17個特征,卻得到了更高的提取精度,說明特征數目與精度不呈現正相關性,特征之間的高相關性也會影響機器的學習能力(李文杰等,2020)。

不同算法下的分類結果以及局部細節如圖4所示。通過對比遙感影像圖,可以看出CFS-RF算法對鹽堿地識別精度更高。究其原因,是受到土壤含鹽量高低的影響,鹽漬化土地上會生長較為單一的植被如堿蓬、蘆葦(Phragmites australis)等,分布稀疏,呈簇狀聚集。植被的生長發育受到抑制,NDVI值會比正常植被低,在假彩色圖像上呈現暗紅色,而鹽漬化嚴重區域則會表現出亮斑現象。鹽堿地與鹽化植被在影像上通常呈交錯分布,鹽漬化植被分布不均,與鹽堿地成為混合像元。對于鹽堿地與鹽化植被的混分現象,通過多尺度分割以及CFS的特征篩選,增大了類別之間的可分離性,CFS優化后鹽化植被的分類精度提升最多。有些鹽堿地區域由于排水不暢、土壤濕度增大造成的地表反射率降低,在影像上呈現暗色調,CFS-RF對此也有很好的識別效果。

圖3 特征數目與精度關系Fig.3 Relationship between feature numbers and accuracy

表2 Relief F與CFS特征優選結果Tab.2 Results of Relief F and CFS feature selection

表3 基于不同算法的分類精度統計Tab.3 Statistics of classification accuracy based on different algorithms

4 結論

本文通過對GF-6遙感影像利用FNEA算法進行面向對象的多尺度分割,確定適宜鹽堿地提取的分割尺度,利用Relief F與CFS算法進行特征篩選,以此實現對隨機森林的優化。得到結論如下:(1)確定了在GF-6高空間分辨率下鹽堿地的分割尺度,為鹽漬化土地信息的提取提供參考依據;(2)特征篩選可以過濾冗余數據,提高機器學習的分類精度,CFS算法對特征的過濾程度大于Relief F算法;(3)本文提出的利用CFS算法對隨機森林進行優化,在鹽堿地提取應用上有較好的分類效果,特征變量減至17個,且總體精度達到83.7%,提高了7.4%,Kappa系數為0.74;(4)對于高維屬性數據特征復雜問題,本文提出的方法也可以適用于其他地類信息的提取,可以有效提高特征子集的數據質量與數據挖掘的效率。

猜你喜歡
鹽堿地尺度異質性
Meta分析中的異質性檢驗
18F-FDG PET/CT代謝參數及代謝異質性與胃癌臨床病理特征的相關性
基于可持續發展的異質性債務治理與制度完善
張巍婷 鹽堿地上拓出“常豐”路
財產的五大尺度和五重應對
鹽堿地枸杞提質增效關鍵技術
三種土壤改良劑對鹽堿地冬棗園的影響
融合感知差異的貨代和貨主選擇行為異質性揭示
宇宙的尺度
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合