?

融入CBAM 的Res-UNet 高分辨率遙感影像語義分割模型

2024-03-04 07:48孫凌輝趙麗科成子怡
地理空間信息 2024年2期
關鍵詞:殘差注意力語義

孫凌輝,趙麗科,李 琛,成子怡

(1.河南工業大學 信息科學與工程學院,河南 鄭州 450001)

遙感圖像具有的數據量大、空間相關性強、分辨率高的特點,適合采用卷積神經網絡的方法開展語義分割的方法提取地物信息。本文根據其特點,采用融入殘差模塊的U-Net網絡作為主干,避免模型發生退化,同時融入通道和空間注意力模塊,增強地物的細節特征,改善高分辨率遙感影像語義分割的精度[1-3]。

1 融入CBAM的Res-UNet遙感影像語義分割模型

1.1 整體結構框架

鑒于采用編解碼結構的UNet在語義分割中表現出來的優勢,本文模型主干選用UNet網絡結構,同時在編碼器部分融入殘差連接模塊與通道空間注意力模塊[4]。網絡的主干由三部分組成,分別為獲取地物特征的編碼器、對影像進行分類的解碼器、連接底層信息與高層信息的跳躍連接,在此基礎上還加入了抑制網絡退化的殘差結構和提高網絡聚焦特征的CBAM注意力模塊,改善細節信息的特征抽取能力。

1.2 Res-UNet結構

編碼器-解碼器結構是研究語義分割方面普遍使用的一種結構,由編碼器、過渡層和解碼器共同組成。編碼器負責通過下采樣降低圖像維度;過渡層存在于編碼器和解碼器之間,提取并傳遞高維特征信息;解碼器負責通過上采樣將特征圖還原為原始維度。U-Net 網絡是基于編解碼結構的經典模型,由編碼結構、解碼結構和跳躍連接構成,跳躍連接的本質就是將下采樣過程中獲得的特征圖像融合到上采樣中,所用的融合方式就是將特征圖像通道疊加。

由于在網絡層數增加的過程中,預測效果越來越差,梯度消失和梯度爆炸產生了網絡退化問題,“殘差結構”跳過一些神經元節點,跨層相連,減弱各個網絡層之間的強聯系,提高網絡訓練效率。鑒于殘差結構的優點,將殘差結構融入到U-Net網絡中,以達到提高精度的目的。

1.3 CBAM注意力模塊

由于遙感影像的復雜性,語義分割經常會受到模糊或者是雜糅等區域的影響且影像本身的時相可能不同,以及數據來源、陰影等變化導致使用傳統方法不能很好地進行各類地物的分割。因此在嵌入殘差結構的U-Net 模型中添加CBAM 注意力模塊以強化地物的細節特征,提高遙感影像語義分割的精度,如圖1 為CBAM模塊的示意圖[5]。

圖1 CBAM示意圖

CBAM 憑借自身是一個輕量級通用注意力模塊的特點,可以無縫集成到各種神經網絡架構中。首先對于語義分割來說,有多個通道的特征輸出,有些通道的特征對最終的分類結果影響很大,有必要使注意力聚集在這些通道中,具體做法是通過全局池化,在通道注意力模塊中使用最大池化和均值池化,得到2 個1×1×C的特征圖,然后通過MLP進行非線性的特征變化,進行像素級相加后經激活函數激活得到對應的注意力權重,表達式為:

對于空間注意力,它是使網絡模型更集中于具有空間形狀的特征上,它將通道注意力特征圖作為輸入,分別進行最大池化和均值池化,生成2個2D特征圖,之后對其進行級聯,經卷積層降維至單通道,最后由激活函數激活得到注意力權重,表達式為:

CBAM 按照通道、空間域2 個獨立的維度對遙感影像進行注意力“注入”,然后將已獲得“注意力”的圖像乘以讀取的特征圖像進行圖像特征細化。CBAM對特征圖F∈RC×H×W分別進行通道、空間注意力計算,會分別得到一維的和二維的通道和注意力權重Mc∈RC×1×1和Ms∈R1×H×W,之后對特征圖進行加權計算,表達式為(3)。

在公式(3)中,?為矩陣與所對應的元素依次相乘,在這個過程中,按照對應的維度,注意力的值會進行復制,通道和空間注意力權重分別以通道、空間維度進行復制。最后的F''為輸出的特征圖。CBAM注意力模塊的嵌入,可以有效提升地物的細節特征,改善語義分割的精度。

2 實驗結果與分析

為了驗證本文方法的可靠性,選用ISPRS Potsdam[6]數據集開展實驗分析,Potsdam遙感數據集一共包含38幅高分辨率遙感影像,影像的大小為6 000×6 000像素,其空間分辨率為5 cm,將每張影像劃分為6類,分別是建筑物(藍色)、非滲透表面(白色)、灌木植被(青色)、車輛(黃色)、樹木(綠色)以及雜波層(紅色)。本實驗選取17幅圖像用作訓練、5幅圖像用作驗證、其余圖像用作測試。

為了客觀且全面地評估網絡模型進行遙感影像語義分割的效果,采用了遙感影像語義分割比較常用的評價指標客觀地評估語義分割效果[7],使用的精度評價指標為精確度(Precision)、像素準確率(PA)、召回率(Recall)、特異度(Specificity)、均交并比(MIoU)頻權交互比(FWIoU)以及F1 分數(F1),各評價指標的數學表達為:

式中,TP為正樣本預測正確;TN為負樣本預測正確;FP為將負樣本預測錯誤;FN為將正樣本預測錯誤。將2 種模型的預測結果與原始的標簽圖像對比后分別計算。

Res-UNet網絡模型與融入了CBAM注意力機制的Res-UNet 神經網絡模型在精確度、像素準確率、F1、MIoU以及FWIoU 5個方面的整體平均值如表1所示。

表1 整體預測結果評估指標

Res-UNet 網絡模型與融入了注意力機制的Res-UNet 神經網絡模型在精確度、MIoU、特異度以及召回率4個方面的整類別平均值如表2所示。

表2 類別預測結果評估指標

從表1 和表2 中可以看出,通道與空間注意力的融入可以明顯改善遙感影像語義分割的精度,Precision、PA、Precision、Recall、F1、MIoU 及FWIoU 各項指標均有所提升,通道與空間注意力模塊能夠強化遙感影像中的細節信息,提高語義分割的精度,表明本文方法的有效性。

為了定性觀察融入CBAM模塊后遙感影像語義分割的效果,如圖2 展示了典型的遙感圖像分割結果,圖中a 為原始遙感影像,b 為真值標簽,c 為未融入CBAM 的分割結果,d 融入CBAM 的分割結果。比較第一行c 與d 的分割結果,影像中孤立的噪聲被去除;第二行展示了遙感影像中細窄地物的分割結果,加入注意力模塊后,對細節的識別能力有所提升,分割結果更為連續;第三行的圖像則表明了未融入CBAM 時,結果多呈“鋸齒狀”,融入注意力模塊后會有明顯改善;第四行展示了對面積較小地物的分割結果,融入注意力模塊后,細節信息補全,提高影像語義分割的精度。

圖2 實驗結果展示

3 結 論

本文提出一種融入通道和空間注意力模塊的Res-UNet 模型,模型主干采用編解碼結構的UNet 模型,將殘差結構嵌入到編碼部分,有效避免模型退化問題,將CBAM模塊連接到網絡中,挖掘地物間不同特征信息,增強地物的細節,提升遙感影像語義分割精度。在ISPRS Potsdam 數據集上進行分析驗證,該模型能夠強化地物的細節特征,有效去除噪聲、改善地物邊緣的分割結果,提升語義分割的精度,驗證了本文提出方法的魯棒性和科學性。但本文對地物邊界提取仍有待進一步優化,后續考慮增加邊緣感知模塊,改善地物邊緣特征。

猜你喜歡
殘差注意力語義
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學習的自適應無人機目標跟蹤算法
語言與語義
基于遞歸殘差網絡的圖像超分辨率重建
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認知闡釋
平穩自相關過程的殘差累積和控制圖
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合