?

基于多尺度特征注意的遙感圖像語義分割方法

2023-12-26 12:47趙春暉閆奕名
黑龍江大學工程學報 2023年4期
關鍵詞:類別尺度注意力

王 涵,趙春暉,閆奕名

(哈爾濱工程大學 信息與通信工程學院,哈爾濱 150001)

0 引 言

遙感影像作為一種包含大量地面信息的圖像載體,在氣象監測、防震減災、軍事戰爭及日常生活[1-4]等領域有著廣泛的應用。語義分割是對圖像進行逐像素分類的任務,目前在土地覆蓋分類、智慧城市和智慧交通等方面發揮著重要作用,張銳等[5]結合了超像素分割的方法對高分辨率影像進行分割,借助高分辨率圖像中明顯的紋理和色彩信息設計了一種相似度測量方式,并在產生的超像素塊上應用分水嶺算法以實現精細的分割。自深度學習出現以來,基于卷積神經網絡的語義分割模型占據了主流。針對遙感圖像中的長距離上下文關系對分割準確性的影響,Mou L[6]提出了空間關系模塊和全局關系模塊以學習任意兩個空間位置或特征映射之間的全局關系,從而生成關系增強的特征表示。針對遙感圖像中前景背景不平衡的問題,Zheng Z[7]設計了前后景關系模塊并增強前景關聯的上下文,同時通過前景感知優化抑制背景,提高了對前景信息的識別能力。Li X[8]針對遙感圖像背景的復雜性,提出了點級別的相似性傳播模塊減少背景噪音,并設計了雙點匹配器對特征顯著區域和邊界區域進行類別匹配。Seong S等[9]為了在高分辨率的圖像中提高城市建筑物的分割精度,在HRNet[10]中加入了門控通道和空間注意力機制,提高了對復雜建筑和與周邊地區特征相似的大型建筑的分割精度。為了使高分辨率影像的分割適用于實時場景,Bello I M等[11]在網絡結構中嵌入了密集連接的設計,使梯度可以輕松地在網絡中傳播,顯著提高了網絡的表示能力,且具有較少的訓練參數。Transformer[12]因其強大的長距離建模能力而被應用于計算機視覺領域,Wang L等[13]提出了一種將Transformer與卷積結合的雙邊感知網絡,利用依賴路徑和紋理路徑分別提取長距離關系和細粒度細節,并利用一種線性注意力進行特征的融合,取得了先進的效果。

與自然場景圖像相比,遙感圖像包含了更豐富的信息量,覆蓋范圍更加廣闊,因此也存在圖像中不同類別地物尺度相差甚大,或某些地物類別內部存在較大的尺度方差的問題。隨著遙感技術的發展,獲取到的遙感影像圖像分辨率也逐漸提高,圖像紋理更加清晰而產生的類內方差也給分割帶來了難度。提出了一種基于多尺度特征聚合和通道注意增強的語義分割方法:基于圖像的多尺度特征和注意力機制,提出了一種遙感圖像語義分割方法。該方法能夠對遙感圖像實現端到端的語義分割,且能夠在遙感圖像中尺度差異較大的地物類別和類內方差較大的類別上實現較高的分類精度,實現智能準確的語義分割。為提高網絡對多尺度特征的提取及融合效果,提出了一種雙向聚合的特征金字塔網絡(Bidirectional Aggregation Feature Pyramid Network,BAFPN),通過雙向融合和跳躍連接的方式充分融合圖像的底層和高層特征,對多尺度特征進行增強。為適應高分辨率遙感圖像較大的類內方差,引入了一條并行的通道注意力分支(Parallel Channel Attention,PCA)用于分配注意力權重,提高特征表達。同時,設計了一個特征聚合模塊(Feature Aggregation Module,FAM)進行特征融合,并使用空洞卷積來降低計算成本。

1 方 法

遙感圖像的語義分割中,多尺度的特點要求網絡有效地融合語義信息豐富的高層特征和保留細節信息的低層特征,并選擇關鍵特征進行增強。為此,本文設計了一種基于Transformer的多尺度特征注意網絡,使用Swin Transformer block[14]構成特征提取的主干網絡,經過雙向聚合特征金字塔網絡BAFPN獲得增強的多尺度特征;由通道注意力塊(Channel Attention block,CA block)構成一條并行的通道注意分支,沿通道維度推導注意力圖,用于自適應特征細化;由特征聚合模塊FAM對特征進行融合,提取出具有豐富多尺度信息和關系增強上下文的特征(圖1)。

圖1 網絡整體結構Fig.1 Overall network structure

1.1 雙向聚合特征金字塔網絡

高分辨率遙感圖像中的多尺度物體給語義分割帶來了困難。小尺度圖像的特征主要編碼大物體,而大尺度圖像的特征更多地響應小物體。多尺度特征融合可將不同分辨率的特征進行有效的融合。盡管最初的特征金字塔網絡(Feature Pyramid Network,FPN)[15]使用自頂向下的方法來組合多尺度特征,但仍然受到單向信息的限制。與FPN相比,本文增加了一條自底向上的路徑,通過雙向融合的方式對多尺度特征進行增強,同時將同層輸入節點跳躍連接到自底向上路徑的同層輸出節點,在不增加額外計算的情況下,使特征融合得更充分。

由于不同的輸入特征對應不同的分辨率,它們的貢獻是不相等的。因此,在特征融合階段為每個輸入設置額外的權重[16]:

(1)

其中wi是一個可學習的權重,并通過一個ReLU激活函數來保證wi≥0;ε=0.000 1是一個很小的值,用來避免計算出現數值不穩定。

(2)

(3)

(4)

(5)

其中,Conv為一個深度可分離卷積后接一個BN層組成的結構;Up為最近鄰插值上采樣;w0,w1為分配給不同特征的權重。

雙向聚合后的特征金字塔輸出特征{N2,N3,N4,N5}融合了不同分辨率的圖像特征,可表示為

(6)

(7)

(8)

(9)

其中,Down為最大池化下采樣。

1.2 并行通道注意力分支

1.2.1 通道注意模塊CA block

在語義分割網絡中,特征圖中的每個通道都是對分割對象的重要響應。在高分辨率遙感圖像中,雖然高分辨率帶來了更加豐富的信息量,但圖像紋理更加清晰,地物類別的表面信息也更加豐富,造成了類內方差大的問題,容易導致語義類別的混淆。

通道注意機制通過顯式地建模通道之間的相互依賴關系為每個特征通道生成權重。不同的特征通道對語義類別判斷的貢獻是不相等的。因此,對于貢獻較大的通道,應賦予較高的權重?;谶@種考慮,設計了并行通道注意分支生成每個特征映射通道的權重,目的是為了提取到圖像中更為關鍵的分類特征。通過利用不同通道之間的關系,進一步增強了不同語義類別的特征表示。每個通道注意模塊(CA block)的結構見圖2。

圖2 通道注意力模塊Fig.2 Channel attention block

將輸入變量表示為X∈RC×H×W,其中C,H,W分別為輸入圖像的通道數、高度和寬度。計算通道注意力,首先將輸入變量通過一個標準的1×1卷積來對通道數進行壓縮。然后,通過reshape操作將查詢特征圖(query)和鍵特征圖(key)分別變形為C/2×HW和HW×1×1。參考Liu H[17]的設計,在瓶頸張量處(注意塊中最小特征張量),使用針對二維高斯映射的softmax歸一化函數進行非線性激活,增加特征的動態注意范圍;使用針對二項分布的Sigmoid激活函數進行類別映射。經過通道注意計算,相似性矩陣的計算公式可表示為

A(X)=Fsg[Wv((σ1(Wq(X))×Fsm(σ2(Wk(X))))]

(10)

其中,Wv,Wq和Wk均為1×1卷積;σ1,σ2為reshape操作;Fsm(·)為一個softmax算子,其運算公式可寫為

(11)

“×”代表矩陣點積運算,Fsg(·)為一個sigmoid函數。通道注意力模塊的輸出表示為Z=A(X)·X∈RC×H×W,其中“·”為乘法運算。

1.2.2 特征聚合模塊FAM

將雙向聚合特征金字塔輸出的特征與并行通道注意力分支的輸出相加后,通過一個特征聚合模塊FAM來對特征進行聚合。其結構見圖3。

圖3 特征聚合模塊FAMFig.3 Feature aggregation module

由圖3可見,每層輸入的特征經過一個空洞卷積,使用空洞卷積的目的是減小計算量;通過一個1×1的卷積調整通道數,再通過歸一化層和ReLU激活函數;進行上采樣到輸出圖像大小。

2 實驗結果與分析

2.1 數據集介紹

采用兩個開放基準數據集ISPRS Vaihingen和Potsdam數據集(https://www.isprs.org/education/benchmarks/UrbanSemLab/semantic-labeling.aspx)進行實驗,以評估所提出的網絡性能。ISPRS Vaihingen數據集由33個圖像塊組成,平均大小為2 494×2 064像素。地面采樣距離(ground sampling distance,GSD)為9 cm。按照基準方法的劃分方式使用數據,即其中16張圖像作為訓練集,其余17張圖像作為測試集。ISPRS波茨坦數據集包含38個GSD為5 cm的圖像塊。所有圖像塊的大小均為6 000像素×6 000像素。其中編號為7_10的圖片有部分標注錯誤,除此之外,其余23張訓練圖像用于訓練,14張用于評估模型。兩個數據集均含有5個地物類別,分別為不透水地表、建筑、低矮植被、樹木和車輛。實驗中,圖片在訓練時被隨機裁剪為1 024×1 024大小。

2.2 結果展示與分析

在語義分割中,平均交并比(Mean intersection over union,mIoU)、F1分數(F1-score)和總體精度(Overall accuracy,OA)分別為3個被廣泛使用的評估指標。選用上述3指標作為方法有效性的評估標準,具體計算方式可參見文獻[18]。表中顯示了每個類別的F1分數;OA計算了包括背景在內的所有類別的總體精度。本文方法及其他對比方法在ISPRS Vaihingen和Potsdam數據集上的評價精度分別見表1、表2。

表1 Vaihingen測試集定量比較結果Table 1 Quantitative results on Vaihingen test

表2 Potsdam測試集定量比較結果Table 2 Quantitative results on Potsdam test

由表1和表2可見,本文提出的方法相比于DeepLabV3+、PSPNet等自然場景的語義分割方法,以及V -FuseNet、EaNet等針對遙感圖像的語義分割方法,均達到了更高的精度。在Vaihingen測試集上的OA和mIoU分別達到91.46%和83.32%,在Potsdam測試集上OA和mIoU分別達到了91.91%和87.65%。在Potsdam數據集的結果上,本文方法在低矮植被(Low veg.)類別上,相比于表中該類精度第二的CASIA2的F1分數高出0.95%;在樹木(Tree)類別上比排名第二的OCRNet高出1.41%。為了驗證BAFPN結構及并行通道注意力分支的有效性,本文在兩個數據集上分別進行了消融實驗,其結果見表3。

表3 消融實驗結果

由表3可見,在Swin-S模型作為baseline的基礎上,逐步添加BAFPN和PCA分支。在baseline之上加入BAFPN后,Vaihingen測試集的mIoU增加了1.34%,Potsdam測試集的mIoU增加了1.03%,說明了BAFPN結構通過雙向地將主干網絡提取到的淺層和深層特征進行充分的融合,增強了網絡提取特征的能力,提高了分割網絡對于遙感圖像尺度變化的自適應能力。進一步加入PCA分支后,本文方法在Vaihingen和Potsdam測試集上的mIoU分別較baseline提高了1.52%和1.21%,表示PCA分支通過對不同層次特征進行通道維度上的注意力權重的分配,加強了對關鍵特征的利用能力。為了更直觀地顯示多尺度特征注意網絡的有效性,不同方法的可視化結果見圖4(上半部和下半部分別為Vaihingen數據集和Potsdam數據集)。

圖4 可視化結果Fig.4 Visualization results

由圖4可見,相比于其他分割網絡,本文方法首先在分割邊緣上更加清晰準確,說明BAFPN結構增強了對低層細節特征的提取能力。另外,所占像素較少或面積較小的物體能夠被更精確的分類,同時類內尺度變化較大的類別(如建筑物,標簽為藍色)也得到更為準確的分類,說明本方法提高了對多尺度特征的利用能力。最后,紋理復雜的大物體中像素的錯分也大大減少,說明方法對關鍵特征的利用得到增強。綜上所述,本文方法提出的多尺度特征注意方法能夠在遙感圖像中實現更準確有效的語義分割。

3 結 論

提出了一種基于多尺度特征注意網絡的遙感圖像語義分割方法。多尺度信息對語義分割至關重要,因此首先設計了一種雙向聚合多尺度信息的BAFPN,能夠將具有更多細節信息的底層特征與語義信息豐富的高層特征進行充分融合,從而更有效地獲取圖像的多尺度信息。同時,通過PCA 分支對每層的特征進行通道注意力增強,從而提高語義分割的準確性。通過在ISPRS Potsdam 和Vaihingen 數據集上的實驗,從定量和定性方面驗證了本文方法的有效性,在遙感分割的應用中具有巨大的潛力。

猜你喜歡
類別尺度注意力
讓注意力“飛”回來
財產的五大尺度和五重應對
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
服務類別
9
論類別股東會
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合