?

基于U 型殘差網絡的遙感圖像道路提取方法研究

2023-09-21 15:48李梓瑜王大東于曉鵬
智能計算機與應用 2023年9期
關鍵詞:殘差卷積像素

李梓瑜, 王大東, 于曉鵬

(吉林師范大學數學與計算機學院, 吉林 四平 136000)

0 引 言

道路是城市規劃、地理信息系統更新和交通導航等許重要領域的主干和基礎設施。 近年來,隨著衛星觀測技術的飛速發展,使得高分辨率遙感圖像的道路提取問題成為人們關注的焦點。 然而,通過傳統人工標注提取信息的方式來分割道路,不僅費時費力,且只能提取到圖像表層信息,所得的分割結果也存在較大誤差[1]。 因此,針對遙感道路提取的自動化處理方法就顯得尤為重要。

利用高分辨率遙感圖像進行道路分割一直是遙感領域研究的重難點,遙感圖像從空中俯拍包含的物體繁多,同類物體的顏色、紋理、大小極其相似,且植被、建筑等影響因素的遮擋給分割任務帶來巨大的難度[2]。 2015 年,Long 等人[3]提出了圖像分割領域具有開創性意義的全卷積網絡 ( Fully Convolutional Network,FCN),該方法利用反卷積替換了卷積神經網絡(Convolutional Neural Networks,CNN)中的全連接,實現了端到端的網絡訓練。 這種基于像素的方法相較于CNN 和傳統人工提取雖更為高效,但對圖像信息保留不夠完整。 同年,Ronneberger 等人[4]提出的U-Net 網絡實現了多尺度信息的融合,因其性能優越且訓練速度較快,目前廣泛應用于圖像分割領域。 隨著深度學習技術在計算機視覺領域的發展進步,眾多學者經多年研究對深度學習方法做出改進,旨在提高遙感圖像道路提取的精確度。 2016 年,He 等人[5]提出殘差網絡(ResNet)對更深層次信息進行提取,在增加網絡深度的同時,提高網絡訓練結果的精確度。 2018 年,Zhang 等人[6]受殘差網絡啟發,將U-Net 與ResNet進行結合,提出ResUNet 網絡用于道路特征提取,簡化了深層網絡的訓練,并充分利用跳躍連接實現模型內部的信息傳遞,在圖像分割領域取得良好的效果。 He 等人[7]將空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)[8]與編碼-解碼網絡結構相結合,實現了對道路特征更加精細的提取。Zhou 等人[9]基于Link Net[10]和空洞卷積(Dilated convolution)開發了一個名為D-LinkNet 的Encoder-Decoder 網絡,借助更大的感受野,融合提取到的低級、高級語義特征,最終贏得了2018 年國際計算機視覺與模式識別會議中Deep Globe[11]道路提取挑戰賽 ( CVPR Deep Globe Road Extraction Challenge)的第一名。 Yang 等人[12]在U-Net 網絡的基礎上設計了一個循環卷積神經網絡模塊,能夠更好的提取空間上下文信息,實現道路提取。 Han等人[13]提出基于帶孔卷積改進的殘差網絡和基于密集連接改進的空洞空間卷積池化金字塔模塊的圖像分割網絡,利用遙感圖像不同尺度特征信息,有效提高城市地區的圖像分割效果。 Xiao 等人[14]基于殘差網絡、ASPP 和門控卷積開發了Gated-ResNet網絡,使得提取的道路信息更加完整,在圖像分割方面取得不錯的效果。 Chen 等人[15]將殘差網絡與非對稱卷積塊進行結合,提出一種編碼-解碼器結構的AFU-Net 網絡,對不同層次信息進行多尺度融合,使得圖像邊緣信息的提取更加清晰明了。

在語義分割任務中,低級特征(如:邊緣和輪廓)可以在卷積神經網絡的淺層中捕獲,而隨著網絡深度的增加,淺層特征逐漸退化,且傳統的低級特征與高級特征往往采用固定比例的方式進行融合,但通常會出現細節特征與語義特征丟失的現象。

綜上分析,雖然在遙感圖像道路提取任務中取得良好的分割效果,但是在深層次語義特征和淺層紋理特征的提取融合方面表現一般,導致地物信息復雜且道路遮擋嚴重的遙感圖像提取效果不佳。 為了解決上述問題,本文受U 形網絡結構、殘差連接、像素重組(Pixelshuffle)、多尺度特征融合和自適應混合(Adaptive Mixup)等操作的啟發,提出一種使用超參數自適應操作,能夠調節高級特征與低級特征混合比例的殘差分割網絡AMP-ResUNet(ASPP +Mixup+Pixelshuffle- ResUNet),以提升遙感圖像道路分割的精度及完整度。

1 AMP-ResUNet 網絡工作原理

如圖1 所示,AMP-ResUNet 是一種端到端的網絡結構模型。 首先,在編碼器中使用預訓練的ResNet101 網絡替換掉原始U-Net 網絡中的下采樣部分,在有效保持其特征表達能力的同時,在一定程度解決因網絡層數加深而導致的梯度消失或梯度爆炸問題。 其次,在編碼器與解碼器的銜接部分引入空洞空間金字塔池化模塊,并對模塊中擴張率進行改進,避免由于擴張率過大帶來的模型退化問題,實現對圖像的多尺度特征提取。 在特征融合過程中加入Adaptive Mixup 操作,使得來自下采樣部分的淺層特征信息自適應地從上采樣部分流向高級特征,對特征信息進行動態融合。 最后,使用轉置卷積與Pixelshuffle 操作結合的方式作為網絡的解碼部分,在上采樣的最后一層使用Pixelshuffle 操作,替換傳統基于數學的雙線性插值和填充零操作,對縮小后的特征圖進行有效放大,提升網絡的運行效率和整體性能。

圖1 AMP-ResUNet 網絡結構Fig. 1 Network structure of the AMP-ResUNet

1.1 AMP-ResUNet 網絡編碼結構

眾所周知,在訓練神經網絡模型的過程中,隨著網絡層數不斷加深,會出現網絡“退化” 現象,ResNet 網絡中殘差模塊的提出,能夠使深層網絡訓練出的模型效果優于淺層網絡,有效緩解了這一現象。 該模塊的引入不僅增加了神經網絡的深度,還能有效保持其特征表達能力,在一定程度上解決了因網絡層數加深而引發的梯度消失或梯度爆炸問題。 模塊中每個殘差單元可表示為

式中:xj代表該層網絡的輸入信息,xj+1則代表輸出信息,wj表示該層待學習的參數。

將式(1)進行遞歸運算,得到任意深層單元特征表示如式(2):

本文使用Pytorch 官方提供的預訓練ResNet101網絡作為編碼器來提升特征提取的效果,該網絡以VGG 網絡為基礎,基于短路機制添加殘差學習模塊搭建。 為適應本文模型結構,去掉原始ResNet101 網絡中的平均池化層和分類層,其具體結構如圖2 所示。

圖2 ResNet101 網絡結構圖Fig. 2 Network structure of the ResNet101

1.2 改進的ASPP 模塊

空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)在DeepLab 等網絡中被廣泛應用。該模塊中的空洞卷積,可以有效地增加神經元的感受野,對所給定的輸入以不同擴張率的空洞卷積進行并行采樣,從多尺度捕捉圖像的特征信息,模塊中每個空洞卷積可表示為式(3):

式中:i表示每個遙感圖像的像素點,x為空洞卷積的輸入,y為網絡輸出,ω[k] 代表過濾器的長度為k,r是步長的擴張率,通過給定r的不同數值來改變過濾器的感受野。

原始的ASPP 是由擴張率為1、6、12、18 的4 個卷積核組成的,但是當擴張率過大時,會產生無意義的權重,導致有效權重的卷積核數量減少。 因此,本文對ASPP 模塊的擴張率進行改進。 具體結構如圖3 所示。

本文使用空洞率為1、3、5 的擴張卷積核,其對應的感受野大小分別為3×3、7×7、11×11,之后將這3 張特征圖進行通道維度的拼接,最后進行一次卷積核大小為1×1 的卷積操作,對通道數進行壓縮。由于本文對擴張率大小進行改進并選擇了合適的采樣率,不存在因擴張率過大導致的模型退化問題,因此取消原始ASPP 模塊中的池化層。

1.3 Adaptive Mixup 操作

由于低級特征通??梢栽诰矸e神經網絡的淺層中被捕獲,但隨著網絡深度的增加,淺層特征逐漸退化。 為解決這個問題,已有很多研究通過添加或串聯跳躍連接,將淺層特征與深層特征進行結合,輔助圖像重構。 雖然跳躍連接在一定程度上緩解了細節丟失問題,但仍然存在一定的改進空間。 2021 年,Wu 等人[16]提出自適應混合操作(Adaptive Mixup Operation),對上采樣層和下采樣層之間的特征進行動態融合,通過改進層間的信息流動方式,提升特征融合的效果。 該操作結構如圖4 所示。

圖4 Adaptive Mixup 操作Fig. 4 Adaptive Mixup operation

由圖中可見,第一行和第二行分別進行上采樣和下采樣操作。 傳統的特征融合是高級特征與低級特征一比一進行融合,而Adaptive Mixup 使得來自下采樣部分的淺層特征信息,自適應地從上采樣部分流向高級特征,混合運算的最終輸出可以表示為:

式中:f↓i和f↑i分別是來自第i個下采樣層和上采樣層的特征映射,f↑是最終輸出。σ(θ)i,i=1,2 是融合來自第i下采樣層和第i上采樣層輸入的第一個可學習因素,其值由參數θi上的符號算子σ決定。在訓練過程中,可以對這兩個因素進行有效率的學習,使其性能和效果遠好于常量因素。

1.4 Pixelshuffle 操作

AMP-ResUNet 使用轉置卷積與PixelShuffle 操作相結合的方式進行上采樣,但由于轉置卷積生成的圖像會出現邊緣生硬和不真實的情況,因此在解碼器部分的最后一層將轉置卷積替換為PixelShuffle上采樣方法,對縮小后的特征圖進行有效的放大,使其邊緣恢復更加完整,提升網絡的魯棒性和準確性。PixelShuffle 的主要功能是將低分辨的特征圖,通過卷積和多通道間的重組得到高分辨率的特征圖。 文獻[17] 中提出亞像素卷積層( sub - pixel convolutional layer)的方法來擴大特征圖,具體結構如圖5 所示。

圖5 亞像素卷積神經網絡(ESPCN)Fig. 5 Subpixel convolutional neural network (ESPCN)

如圖5 所示,網絡的輸入是原始低分辨率圖像,通過兩個卷積層以后,特征圖像與輸入圖像大小一樣,特征通道變為r2。 再將每個像素的r2個通道重新排列成一個r×r的區域,對應于高分辨率圖像中的一個r×r大小的子塊,從而大小為r2×H×W的特征圖像被重新排列成1×rH×rW大小的高分辨率圖像。 通過使用sub-pixel convolution 方法, 圖像從低分辨率到高分辨率放大的過程中,可以被自動學習到的插值函數被隱含地包含在卷積層中。 由于在低分辨率圖像上進行卷積運算,只在最后一層對圖像大小進行變換,因此所需處理時間較短,提高了模型的運算效率。 圖中彩色部分從r2channels →High-resolution image 的示意過程即為PixelShuffle。因此,PixelShuffle 可以看成一個特殊的重組操作,通過將通道維度的像素向長寬維度搬移來實現上采樣。

1.5 損失函數

損失函數是用來評估模型訓練效果的一個標準,簡單來說就是用來表現預測值與實際數據的差距程度,損失函數值越小,代表其模型的魯棒性就越好。本文使用的是MS-SSIM(多尺度結構相似) 損失函數和Dice損失函數。MS-SSIM損失函數的公式如式(5):

式中:M表示尺度的總數量,μρ,μg,σp,σg和σpg分別表示預測圖片與地面真實值的均值、標準差和協方差。βm,γm為兩者間的相對重要性。C1、C2防止除數為0。MS-SSIM損失函數賦予了模糊邊緣更高的權重,區域分布差異越大,MS-SSIM值越高。

Dice損失函數是一種計算樣本之間相似度的度量函數,是把一個類別中的所有像素看做一個整體進行計算,在一定程度上解決了正負樣本不均衡的問題,且收斂速度很快。Dice損失函數的公式如式(6):

式中:X代表地面真實道路面積的區域,Y代表預測道路面積的區域,取值范圍在0~1 之間。

本文使用的總損失函數是將MS-SSIM損失函數和Dice損失函數1:1 進行相加,具體公式如式(7):

2 實驗

2.1 實驗環境

本文實驗代碼基于Pytorch 框架構建,編譯環境為Python3.8,操作系統為64 GB 內存的Ubuntu 20.04LTS。硬件配置GPU 型號為Intel Xeon Gold 5215@ 2.50 GHz,顯卡為NVIDIA GeForce RTX 2080Ti。

2.2 數據集

本文選取美國馬薩諸塞州道路數據集(Massachusetts Roads Dataset)和DeepGlobe 遙感圖像道路提取數據集作為實驗數據。 Massachusetts 道路數據集是目前最大的遙感影像道路數據集,覆蓋面積超過2 600 KM2,覆蓋地物信息主要包含城市、農村、郊區的道路分布。 數據集中共有1 171 張大小為1 500×1 500 像素的遙感圖像,地面分辨率約為1m/像素,包含1 108 張訓練集、49 張測試集和14 張驗證集,每組數據集圖像如圖6 所示。

圖6 Massachusetts 道路數據集展示Fig. 6 Massachusetts dataset presentation

由于東南亞地區與美國馬薩諸塞州道路場景存在較大差距,則選取DeepGlobe 道路數據集,來驗證算法的可行性與泛化性。 該數據集中包含6 226 張1 024×1 024 像素大小的訓練圖像及其對應的標簽,每張圖像都是由DigitalGlobe 衛星采集的地面分辨率為0.5 m/pixel 的RGB 圖像,覆蓋范圍包括東南亞多個國家的郊區、雨林等不同場景的道路分布。將數據集隨機分為5 800 張訓練集、178 張測試集和248 張驗證集。 其中,便簽中道路信息與非道路信息像素分別為255 和0,是與輸入圖像有著相同尺寸的灰度二值圖像。 每組數據集圖像如圖7所示。

圖7 DeepGlobe 道路數據集展示Fig. 7 DeepGlobe dataset presentation

由于訓練數據集中存在影像與便簽相差較大的部分,且GPU 內存的運算能力有限,因此需對數據集進行預處理,剔除信息缺失的圖片。 在此,將美國馬薩諸塞州道路數據集每張1 500×1 500 像素的遙感圖像切成大小為 256 × 256 像素圖像, 將DeepGlobe 遙感圖像道路提取數據集1 024×1 024像素大小的訓練圖像裁剪為256×256 像素大小的圖像,切塊后對兩個數據集進行簡單的數據增廣,通過水平鏡像、旋轉角度、色彩抖動、模糊、增加噪音的方式進行樣本擴充,數據增廣效果如圖8、圖9所示。

圖8 Massachusetts 數據增廣效果圖Fig. 8 Data augmentation presentation

圖9 DeepGlobe 數據增廣效果圖Fig. 9 Data augmentation presentation

2.3 評價指標

本文模型使用精確率(Precision)、 召回率(Recall)、F1-measure值(F1 值) 和交并比(IoU)4項指標作為評價網絡模型性能的標準,其計算公式如下:

遙感圖像道路信息提取,實際上是對像素進行二分類,所提取的道路信息為正樣本,背景信息即為負樣本。

式中:TP表示實際道路被正確分類的像素數量,FP表示背景像素被誤分的像素數量,TN表示背景像素被正確分類的像素數量,FN表示實際道路像素被誤分為背景的像素數量。 精確率表示被正確分類的道路占總區域的比重,召回率表示被正確分類的道路占實際標注樣本道路的比率,F1 值代表精確率與召回率之間的加權平均數,交并比與F1 值可以反映預測道路信息與真實道路之間的相關性,數值越高,代表提取效果越好。

2.4 實驗結果與分析

在Massachusetts 道路數據集上對模型進行訓練,本文選用經典網絡模型SegNet、FCN、DeepLabV3+、U-Net與本文網絡模型AMP-ResUNet 做對比,實驗效果如圖10 所示。

圖10 網絡模型在Massachusetts 測試集上分割效果圖Fig. 10 The network model segmented the effect picture on Massachusetts Roads Dataset

圖10 中展示的4 幅道路圖片,其背景復雜度、道路遮擋及交錯情況各不相同,圖中分別展示了原始圖像、原始標簽,以及SegNet、FCN、DeepLabV3+、U-Net 與AMP-ResUNet 的預測效果。 從分割結果中可以看出,本文網絡模型預測圖較其他對比網絡預測效果而言,出現錯分、漏分的情況更少,對圖像邊緣和細節恢復的更加完整。 在第三行圖片中存在著樹木、建筑物遮擋或邊緣模糊的道路,本文網絡雖也存在一定邊緣不清和漏分情況,但較其他對比網絡而言,本文模型對復雜道路的分割效果較好,錯分、漏分情況相對較少,邊緣信息恢復的更加完整,能夠得到更加準確、完整的道路信息情況。

為驗證改進網絡在遙感圖像道路分割任務上的廣泛應用性,在DeepGlobe 道路數據集上再次進行驗證。 該數據集中存在大量農村泥土道路和郊區道路信息,相較于分割城市道路而言具有更高的分割難度。 同上,與各類經典網絡進行對比,結果如圖11 所示。

圖11 網絡模型在DeepGlobe 測試集上分割效果圖Fig. 11 The network model segmented the effect picture on DeepGlobe Roads Dataset

圖11 中展示了4 幅圖像在不同網絡下的分割結果,第一行和第二行圖片右上角的邊緣道路和泥土道路在網絡訓練中較難分割,結果圖片中都存在一定的漏分現象,但本文網絡相較于其他對比網絡而言漏分情況較少且對于道路邊緣信息的恢復完整度更高。 第三行和第四行圖片是夾雜著泥土道路的郊區路線分布圖,在FCN 和DeepLab 網絡分割結果中可以看出,圖中道路與道路間的間隔小而模糊,分割結果將兩條道路混在一起,出現錯分的情況。 圖四右上角道路被植被樹木遮擋,不易分割出正確的道路,相比于其他網絡而言,本文網絡的分割結果良好,雖也存在邊緣信息丟失的問題,但能夠精準的分割出黏連的道路信息,而且對于遮擋道路也能夠清晰的識別,使得道路信息恢復更加完整。

基于上文介紹的遙感圖像道路提取情況的評價指標,將對比網絡與本文模型網絡在Massachusetts數據集和DeepGlobe 數據集上的預測結果進行評價比較,具體情況見表1、表2。

表1 Massachusetts 數據集上不同模型指標評價Tab. 1 Evaluation of different model indicators on the Massachusetts Roads Dataset%

表2 DeepGlobe 數據集上不同模型指標評價Tab. 2 Evaluation of different model indicators on DeepGlobe Roads Dataset%

由表中實驗數據可知,本文網絡AMP-ResUNet在兩個遙感道路數據集的雙重驗證下,較SegNet、FCN 網絡在各項指標上均有大幅度提升。 在Massachusetts 數據集上,改進后的U 型殘差結構網絡模型較DeepLabV3+網絡在精確率、召回率、F1 值和交并比上分別提高了1.58%、1.84%、1.75%、2.19%。較U-Net 網絡在精確率、召回率、F1 值和交并比上分別提高了1.06%、1.97%、1.18%、1.46%。在DeepGlobe 數據集上,U 型殘差結構網絡模型較DeepLabV3+網絡在精確率、召回率、F1 值和交并比上分別提高了3.37%、0.73%、1.40%、3.98%。 較UNet 網絡在精確率、召回率、F1 值和交并比上分別提高了2.14%、1.34%、1.16%、3.62%。 本文網絡編碼器結構選用ResNet101 網絡,添加了ASPP 模塊,解碼器部分運用自適應混合操作以及PixelShuffle上采樣方式,從多尺度融合深淺層次信息,在保證效果的同時提高網絡整體性能。 從兩個數據集的實驗數據中可以看出,相比于其他經典網絡,AMPResUNet 網絡訓練結果的評價指標均達到最高值,充分證明了該網絡模型在遙感道路分割領域上的有效性與廣泛實用性。

3 結束語

本文對遙感圖像進行道路分割研究,受殘差網絡、空洞金字塔池化、 Adaptive Mixup 操作和Pixelshuffle 等操作的啟發,提出了一種使用超參數自適應操作調節高級特征與低級特征混合比例的殘差分割網絡模型AMP-ResUNet。 在編碼器部分使用ResNet101 網絡保持其特征表達能力,并在一定程度上解決梯度消失或梯度爆炸問題。 在編碼器、解碼器銜接部分引入ASPP 模塊,對特征信息進行多尺度提取。 然后,在特征融合過程中Adaptive Mixup 操作,對特征信息進行動態融合。 最后,使用轉置卷積與Pixelshuffle 操作結合的方式對縮小后的特征圖進行有效的放大。 從預測結果圖上看,本文模型對地物細節和邊緣信息的提取更加完整且出現錯分、漏分的情況相對較少。 與其他經典語義分割網絡相比,本文網絡模型在精確率、F1 值等評價指標中均達到最高值。 實驗表明,本文提出的AMP-ResUNet 網絡對地物信息復雜且道路遮擋嚴重的遙感圖像有較好的分割效果,具備一定的實際應用性。 在未來的工作中,將著重關注被建筑物、樹木等無關信息遮擋的道路分割情況,旨在提升圖像分割的準確率,實現高精度、高效率的遙感圖像道路提取。

猜你喜歡
殘差卷積像素
趙運哲作品
像素前線之“幻影”2000
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
基于殘差學習的自適應無人機目標跟蹤算法
“像素”仙人掌
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合