?

基于多尺度條件生成對抗網絡(MSR-cGAN)的高分辨率遙感圖像目標區域檢測

2022-11-09 08:35郭楊亮馬瑞娟韓子清
河南科學 2022年9期
關鍵詞:建筑物卷積像素

郭楊亮, 馬瑞娟, 韓子清

(1.河南省地球物理空間信息研究院,鄭州 450009;2.河南省地質礦產勘查開發局第五地質勘查院,鄭州 450052; 3.河南省地質調查院,鄭州 450007)

隨著遙感技術的發展,遙感影像的空間分辨率不斷提高,為獲取高分辨率遙感影像提供了便利[1]. 從高分辨率遙感圖像中提取建筑物在城市規劃、人口估算、災害監測和智慧城市建設中發揮著重要作用[2]. 傳統的建筑物提取方法主要使用人工建圖,存在效率低、成本高的問題,不能滿足實時性要求[3]. 計算機視覺和模式識別的進步,使許多自然光學圖像處理方法被已廣泛應用于遙感建筑物提取任務. 然而,不同的光照條件、圖像采集角度和建筑材料不可避免地對遙感圖像中建筑物的準確提取提出了更大的挑戰.

以往的遙感影像建筑物提取研究主要依賴于影像的基本特征,如光譜、形狀、輪廓、紋理、顏色、陰影等,在這一領域已經提出了一些有效的方法. Zheng和Wang[4]提出了一種基于對象的馬爾可夫隨機場(OMRF)模型進行建筑物提取,該模型通過區域大小和邊緣特征信息建立加權區域鄰接圖,然后使用帶有區域懲罰項的OMRF來完成準確的建筑區域提??;Zhang等[5]提出了一種基于顯著性分析的建筑物提取方法,通過傅里葉變換和自適應小波提取遙感圖像的多尺度紋理和邊緣特征;Xie 和Zhou[6]使用擴展多分辨率分割(EMRS)和反向傳播(BP)網絡完成了建筑區域提取,其中EMRS用于多尺度空間分辨率特征表示,BP網絡用于分類具有不同建筑區域的像素點;Liu等[7]提出了一種局部競爭超像素分割方法,可以有效融合遙感圖像的空間分辨率和多尺度特征,完成建筑區域的準確提??;Li等[8]提出了一種基于混合稀疏表示的建筑物提取方法,將遙感圖像分割成具有不同分量的子圖組合,然后用稀疏表示來表達不同的子圖特征,并使用支持向量機完成建筑物區域的提取. 以上基本特征的建筑物提取方法取得了一定的效果. 然而,由于對遙感圖像中包含的深層語義特征和全局空間特征的提取不足,其分割提取結果仍然存在邊界信息丟失和形狀結構不完整等問題.

近年來,得益于卷積神經網絡(CNNs)強大的特征提取和表示能力,它被廣泛應用于圖像分類、目標檢測、圖像分割和目標跟蹤[9-11]. CNNs是一種局部連接和權重共享的深度前饋神經網絡模型,對輸入信息具有很強的局部不變性,可以自動獲取不同尺度的特征信息. 因此,使用CNNs可以解決傳統建筑物提取方法中手動設計特征提取器的問題. 現有的基于CNNs的建筑物提取方法可以概括為以下幾類:①第一種方法是基于CNNs的圖像分類任務,其中將固定大小的圖像放入CNNs模型中并預測一個或幾個像素;②第二種方法稱為面向對象的CNNs語義分割,將圖像分割與神經網絡分類相結合;③第三種方法稱為語義分割,基于全卷積神經網絡(FCN). Xu等[12]提出了一種結合深度殘差網絡和引導濾波的建筑物提取方法,利用殘差網絡提取遙感圖像的多尺度分辨率特征,然后通過引導濾波對建筑物區域進行逐像素分割;Hui等[13]提出了一種用于建筑物提取的多任務U-Net模型,該模型利用多特征跳躍連接來獲得遙感圖像的空間分辨率,并通過多任務學習來融合建筑物的區域結構特征信息;Zhang等[14]提出了一種局部-全局雙流網絡(DS-Net),可以獲取全局上下文特征信息用于建筑物區域提取,采用雙流互補的方法在不同特征之間交換信息以獲得更好的建筑物提取結果;Xie等[15]使用多特征卷積神經網絡(MFCNN)提取建筑物區域的多個特征信息,然后使用形態學濾波從高分辨率遙感圖像中提取建筑物. 盡管現有的基于CNNs的建筑物提取方法雖然取得了較好的效果,但無法充分提取遙感影像中包含的多尺度特征信息和空間特征信息,使得提取結果存在不同程度的邊界模糊和輪廓信息丟失現象.

1 MSR-cGAN方法

針對遙感影像中建筑物提取任務,本文提出了一種用于遙感建筑物提取的生成對抗網絡模型,使用該模型用于遙感影像中的建筑物提取任務. 所提出的MSR-cGAN包括生成網絡和對抗網絡兩個部分,其中生成網絡用于生成預測結果,對抗網絡用于修正預測結果與地面真值之間的誤差,MSR-cGAN的結構如圖1所示.

1.1 生成網絡

生成網絡(Generative Network)包括編碼結構和解碼結構兩部分,其中編碼結構用于提取遙感圖像的多尺度特征;解碼結構用于恢復圖像分辨率尺寸. 編碼結構包括五個循環殘差卷積模塊(Recurrent Residual Convolution Module,RRCM),每個模塊由1×1卷積、3×3卷積、最大池化操作(Max-pooling)組成;解碼結構包括四個卷積(Conv)模塊,每個模塊包括反卷積(Deconvolution)和上采樣(Up-sampling)操作;同時在每個編碼結構和解碼結構之間使用注意力門限跳躍連接操作進行不同尺度的特征傳遞.

MSR-cGAN中的生成網絡是在U-Net的基礎上改進的,為了使生成網絡具有更好的自適應能力,保留了U-Net模型的端到端結構. 由于U-Net為多層結構,直接使用其對遙感圖像進行分割將導致梯度消失、梯度爆炸和過擬合等問題. 而且,由于遙感圖像的目標區域受到復雜背景干擾,U-Net不能抑制背景干擾信息.所提出的生成網絡為編解碼結構,編碼結構能夠充分提取輸入圖像的多尺度信息,解碼結構用于緩解背景噪聲干擾和恢復圖像分辨率,生成網絡結構如圖1所示.

圖1 MSR-cGAN網絡模型結構Fig.1 The model structure of MSR-cGAN

1.1.1 循環殘差卷積模塊

為了解決由于網絡層數增加導致的分割準確率下降問題,在生成網絡中引入循環殘差卷積模塊,增強不同卷積層的特征信息傳遞和特征復用,從而提升模型對目標區域的分割準確率. 循環殘差卷積模塊能夠增強特征傳遞,合并不同卷積層特征,同時有效地利用輸出特征圖,有益于遙感圖像目標區域的特征提取.使用循環殘差卷積能夠學習不同局部感受野的多尺度特征,同時能夠有效地進一步提取目標區域特征. 循環殘差卷積模塊包含三個由卷積、池化、批歸一化、ReLu激活函數組成的特征提取模塊. 對輸入特征圖在特征提取模塊中進行循環卷積核特征合并操作,之后將其輸入1×1卷積層進行特征壓縮,其能夠有效解決由多個卷積操作造成的特征信息和網絡參數殘余等問題.

1.1.2 門限跳躍連接

為更有效地聚合多尺度特征信息,使用注意力門限跳躍連接操作替代原始U-Net的跳躍連接操作,其能夠增加遙感目標區域的特征信息權重,同時減少背景區域的特征信息權重. 如圖1所示,生成網絡的編碼結構由下采樣層和卷積層組成,每個下采樣層包含兩個并行通道,其中卷積層的尺寸為3×3大小,初始卷積層的特征通道數為64,使用的卷積操作為循環殘差卷積;解碼結構由四個上采樣層和卷積層組成,其卷積層的參數與編碼結構相同,同時解碼結構的最后一層為1×1卷積層,用于輸出分割結果. 在編碼結構與解碼結構之間使用門限跳躍連接操作進行圖像特征信息融合,同時緩解背景特征對目標區域的干擾.

1.2 對抗網絡

對抗網絡(Adversarial Network)為雙分支并行結構,每個分支包含兩個下采樣(Down-sampling)模塊和三個卷積模塊. 對抗網絡的輸入為生成網絡的預測結果、原始遙感圖像、地面真值;下采樣模塊包含下采樣層、組歸一化層(GroupNorm)和LeakReLu激活函數;每個分支的輸出結果使用1×1卷積層進行特征融合,同時使用L1損失函數計算預測結果與地面真值之間的誤差.

在MSR-cGAN 模型中,對抗網絡用于區分生成網絡分割結果與地面真值圖像之間的誤差. 在遙感圖像分割任務中,生成網絡的優化目標用于最小化生成損失,使對抗網絡難以區分分割結果與地面真值之間的誤差. 對抗網絡的優化目標是使對抗損失最小化,并使分割結果與地面真值之間的差異最大. 在模型訓練過程中,對抗網絡將逐步提高判別能力,并引導生成網進行訓練. 因此,對抗網絡等效于可訓練的損失函數,能夠根據深度數據分布計算出生成結果與地面真值之間的差,所以對抗網絡能夠較好地監督生成網絡的訓練.

MSR-cGAN 的對抗網絡是一種類似于生成網絡的編解碼結構,使得模型更易于訓練,并且可以避免由于對抗網絡的強大區分能力而導致生成網絡的訓練崩潰. 此外,為了防止對抗網絡的過度擬合,所構建的模型使用簡單的下采樣池化層和卷積層,對抗網絡的結構如圖1 所示. 對抗網絡使用兩個具有相同結構的下采樣池化層. 每個下采樣層使用步長為2 的4×4 池化核,并在下采樣操作之前對輸入要素執行填充操作. 這種方式能夠有效地合并下采樣池化特征,并且輸出特征可以是稀疏的,避免了由于下采樣操作而導致的細節特征信息丟失的問題. 此外,對抗網絡使用三個具有相同結構的卷積模塊,每個卷積模塊使用3×3 大小,步長為1 的卷積核進行特征提取,對輸入特征執行大小為2 的填充操作在卷積運算之前. 使用構造的卷積模塊進行特征提取能夠有效融合多尺度特征,而無須更改特征尺度. 對抗網絡的輸出層為單個卷積層,內核大小為1×1,步幅尺寸為1,能夠確保輸出特征層不會產生下采樣,并且輸出系數特征能夠更好地匹配L1損失函數.

2 具體案例分析

2.1 數據集

IAILD(Inria Aerial Image Labeling Dataset)數據集包含810 km2的遙感圖像,空間分辨率為0.3 m,其中405 km2的建筑物已經被正確標注. 數據集來源于奧斯汀、芝加哥、基薩普、西蒂羅爾、維也納五個地區,每個地區建筑物風格差異較大,數據集樣本如圖2所示. IAILD數據集包含180幅分辨率為5000×5000像素的遙感圖像,為了加快模型訓練和提高泛化能力,將數據集圖像裁剪為4500幅分辨率為1000×1000像素的遙感圖像. 在實驗過程中,將數據集分為訓練集、驗證集、測試集,其中用于模型訓練的訓練集圖像數量為3150幅,用于優化模型性能的驗證集包含900幅圖像,用于測試模型性能的測試數據集包含450幅圖像.

圖2 IAILD數據集樣本示例Fig.2 Sample images of IAILD dataset

2.2 量化指標

為了更加公平地比較算法性能,對IAILD 數據集使用不同的量化指標. 由于IAILD 數據集中僅包含建筑物區域和背景區域,可以將其視為像素二分類問題,因此將召回率(recall)、分割精度(accuracy)、和F1_measure作為量化指標. 其中,召回率表示分類為建筑物的像素與真實建筑物像素之比;分割精度表示正確分類為建筑物的像素與所有分類為建筑物的像素之比;F1_measure表示召回率和分割精度的綜合評價指標. 量化指標的具體計算公式分別如下:

式中:Bseg表示分割結果中建筑物區域被正確分類的像素;Iunseg表示圖像中屬于建筑物區域但未被歸類為建筑物的像素;Iwseg表示背景區域像素被錯誤分類為建筑物區域的像素.

2.3 消融實驗

為了驗證所提出方法在IAILD 數據集上的性能,我們將MSR-cGAN 與其他方法進行比較,其中包括通用的語義分割方法FCN、SegNet和U-Net. 此外,還與基于GAN的遙感圖像分割方法進行比較,包括具有空間和通道注意力機制的生成對抗網絡(GAN-SCA)和基于貝葉斯理論的生成對抗網絡(BAS-Net). 具體的,FCN為全卷積神經網絡模型,使用卷積和池化操作獲取輸入圖像的多尺度特征,而上采樣則用于恢復特征圖分辨率;SegNet和U-Net為編解碼結構,其中編碼結構用于提取輸入圖像特征,解碼結構用于恢復圖像分辨率,其區別在于SegNet 使用池化索引還原特征圖,而U-Net 通過復制和裁剪進行特征轉移. GAN-SCA 在GAN的基礎上引入了空間和通道注意力機制,在生成網絡中引入了空間注意力機制提高模型對遙感圖像的特征提取能力,在對抗網絡中引入通道注意力機制提高模型的判別能力. BAS-Net將FCN的分割結果作為先驗知識輸入GAN進行遙感圖像分割,有效地避免了模型訓練過程中的過擬合問題.

2.4 結果分析

表1 和圖3 顯示了不同方法在IAILD 數據集上不同方法的分割結果. 由于FCN、SegNet、和U-Net 為通用的語義分割網絡,因此無法完全提取遙感建筑物區域的特征,因此其F1_measure 分別為0.802、0.815、0.822. 從圖3 的可視化分割結果中看出遙感建筑物的大面積區域尚未完成準確分割. GAN-SCA 的精度、召回率和F1_measure 分別為0.920、0.864、0.891. 由于引入了注意力機制,可以較好地提取建筑物區域的多尺度特征,從可視化結果能夠看出,GAN-SCA 能夠對大面積建筑物進行分割,但對建筑物邊緣分割結果較差. BAS-Net 可以更好地分割建筑物區域的邊緣和輪廓,但對密集建筑物區域的分割效果較差,其精度、召回率和F1_measure 分別為0.932、0.872、0.901. 所提出的MSR-cGAN 在量化指標上均優于其他被比較的方法,從表1 中能夠看出,其分割精度、召回率和F1_measure 分別為0.954、0.897、0.925,圖3 的可視化結果表明MSR-cGAN 能夠準確分割遙感圖像的建筑物區域,并能準確完成對募集區域建筑物的分割.

圖3 不同方法在IAILD數據集上的分割結果Fig.3 Segmentation results of different methods on IAILD dataset

表1 IAILD數據集實驗結果Tab.1 Experimental results of IAILD dataset

圖4顯示了不同方法的ROC曲線和RP曲線,能夠看出FCN、SegNet和U-Net的性能明顯劣于GAN-SCA和BAS-Net,而MSR-cGAN的結果優于GAN-SCA和BAS-Net,證明了提出方法的有效性.

圖4 不同方法在IAILD數據集上的ROC和PR曲線Fig.4 ROC and PR curves of different methods on IAILD dataset

3 結語

本文中提出了一個基于CNNs 的建筑物提取框架. 提出的方法由生成網絡和對抗網絡組成,其中生成網絡能夠提取遙感建筑物區域的多尺度和多分辨率特征,對抗網絡是一個并行的編碼器-解碼器結構,它通過計算預測結果與標注信息之間的誤差來指導模型優化訓練. 此外,在模型訓練過程中引入條件信息約束以緩解過擬合問題,提高建筑物提取精度. IAILD建筑數據集的實驗結果表明,MSR-cGAN在建筑提取精度方面明顯優于其他建筑物提取方法. 在未來的工作中,本文考慮引入無監督學習策略,使模型能夠在未標記的數據集中獲得更好的提取結果.

猜你喜歡
建筑物卷積像素
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設計及FPGA實現
鄰近既有建筑物全套管回轉鉆機拔樁技術
卷積神經網絡的分析與設計
描寫建筑物的詞語
“像素”仙人掌
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
Relationship between mode of sport training and general cognitive performance
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合