?

基于特征融合和注意力機制的遙感目標檢測

2024-01-05 11:10劉樹東任慧娟張眾維
遙感信息 2023年5期
關鍵詞:殘差尺度注意力

劉樹東,任慧娟,張眾維

(天津城建大學 計算機與信息工程學院,天津 300384)

0 引言

遙感圖像能進行多視角、大規模的監測,在軍事調查、城市規劃、自然災害評估與災后救援等領域有著重要的應用價值[1]。但遙感圖像分辨率高、背景復雜,圖像中目標尺度變化大、長寬比變化極端等特點,均為遙感目標檢測帶來了挑戰。

隨著深度學習技術的發展,姚群力等[2]提出基于多尺度卷積神經網絡的遙感目標檢測框架,通過引入膨脹瓶頸結構,構造深度特征金字塔,增強對多尺度目標特征的表征能力;李竺強等[3]提出一種針對機場目標的檢測網絡,在特征提取階段利用深度殘差塊卷積神經網絡對特征圖進行提取;Xu等[4]在YOLOv3中引入密集連接網絡來增強特征提取的能力;楊志鋼等[5]提出了多重特征金字塔網絡,通過添加跨層連接來提高特征的傳播和重用率。上述算法在一定程度上提高了對多尺度目標的檢測能力,但是對于長寬比變化極端的目標檢測性能較低。一般來說,淺層特征感受野小,適合檢測小目標,而長寬比較大的目標則需要更大的感受野。為此,本文引入了基于膨脹編碼的多尺度特征融合模塊以增大感受野,提高對長寬比變化極端目標的檢測性能。

近年來,注意力機制因為打破了卷積神經網絡短距離建模的局限性而備受關注。Hua等[6]提出了一種強化目標的自注意預篩選全卷積網絡,引入自注意力模塊并通過結合卷積長短期記憶網絡構建深度特征金字塔來優化注意力特征圖;Ran等[7]提出了多尺度上下文和增強通道注意模型,增強特征圖像通道注意力并將上下文信息與多尺度檢測方法融合,以提高卷積神經網絡的表征能力;Liu等[8]提出了一種中心-邊界雙重注意模塊,利用雙重注意機制提取目標的中心和邊界區域的注意特征。由于注意力機制可以獲得長距離建模的優勢,能夠在全局范圍內根據賦予的權重來快速、準確地關注到權重較大的目標區域,達到提升網絡性能和效率的目的。因此,為了解決遙感圖像中極大目標檢測困難的問題,本文算法采用注意力機制,通過建模捕獲長距離依賴性和自適應性,提高檢測準確率。針對上述問題,本文提出了一種基于多尺度特征融合和全局-局部注意力的遙感圖像目標檢測模型,主要工作如下。

1)設計多尺度特征融合模塊(multiscale feature fusion,MSFF),通過堆疊不同膨脹率的殘差空洞卷積塊,生成具有多個感受野的輸出特征,強化感受野的多尺度性,增強對深層特征信息的提取;添加殘差連接,保留淺層信息以提取小目標特征,二者結合有利于提取多尺度目標特征,保證小目標檢測的同時提升對長寬比變化極端目標檢測的性能。

2)采用全局-局部注意力模塊(global-local attention,GLA),將大卷積核分解為空間卷積和通道卷積,分別捕獲空間和通道維度的長期依賴性和適應性,實現動態地提取豐富的全局上下文信息;利用卷積神經網絡(convolutional neural network,CNN)短距離建模的空間局部性和平移不變性來提取局部上下文信息。結合以上兩部分,能夠在近乎不增加參數量的同時提高全局和局部信息的建模能力,提高對大尺寸目標的檢測精度。

3)通過消融實驗驗證了本文算法的有效性,在航空遙感DOTA數據集上與當前主流算法進行了客觀對比,并與YOLOv5m模型檢測結果進行了主觀對比,均證實了本文算法的優越性。

1 遙感圖像目標檢測算法

YOLOv5對中、小目標具有較高的檢測準確率,然而,遙感圖像中還存在著大量尺寸相對較大且長寬比變化極端的目標。因此,為了在保證小目標檢測性能的基礎上提升對其他類型目標的檢測精度,同時對比了YOLOv5在s、m、l和x模型上的性能,綜合考慮設備能力和效率、精度之間的平衡,本文選擇以YOLOv5m中6.0版本模型為基礎進行改進。改進后的整體網絡結構如圖1所示,主要由特征提取模塊、特征融合模塊和檢測頭構成,具體改進如紅框所標注。

圖1 基于多尺度特征融合和全局-局部注意力的遙感圖像目標檢測網絡結構

1.1 特征提取模塊

特征提取模塊即主干網絡部分,該模型將原有Focus模塊替換為6×6大小的卷積,使得模型更加高效。然后經過Conv模塊和C3模塊交替連接,實現網絡的加深和下采樣操作。其中Conv模塊包括一般的卷積操作(conv)、批量歸一化操作(batch normalization,BN)和SiLU激活函數。C3模塊輸入輸出通道數相同,其中,n為目標種類數,主干網絡中的Bottleneck默認shortcut為True,頸部結構中沒有shortcut。利用SPPF替換了原始版本中的SPP模塊以減少模型的計算量。

1.2 特征融合模塊

特征融合模塊即頸部結構,是特征提取模塊的輸出特征圖通過自下而上和自上而下的操作,再與中間層特征進行融合來構成的。為進一步提高模型對多尺度目標的檢測性能和對全局信息的提取能力,本文在C3_1(與head1相連的C3模塊)后添加全局-局部注意力模塊,將與head3檢測頭連接的C3_3模塊替換為多尺度特征融合模塊。

1)多尺度特征融合模塊。為解決遙感圖像中部分目標尺寸大及長寬比變化極端的問題,本文提出了一種基于膨脹編碼塊(dilated encode block,DEB)[9]的多尺度特征融合模塊,其結構如圖2所示。

圖2 多尺度特征融合模塊

該模塊上分支的輸入特征x通過Conv1中的1×1卷積降維后連接DEB模塊來提取多尺度特征。下分支的x經過Conv2形成了一個殘差連接,充分保留了原始的特征信息,且其中的1×1卷積能降低通道維度和計算復雜度,減少參數量。Concat充分融合上述特征,并利用Conv3得到相同的輸入輸出通道。多尺度特征融合模塊MSFF(x)表示為式(1)。

MSFF(x)=Conv3(Concat(Conv2(x),DEB(Conv1(x))))

(1)

式中:x表示輸入特征;MSFF(x)表示提取多尺度特征操作。每個卷積塊(Convi,i=1,2,3)都包含卷積層、批量歸一化層和激活層。其中,卷積層中卷積核大小為1×1,步長為1,填充為0。

膨脹編碼塊包含兩個主要的組件:投影層和膨脹殘差組,其結構如圖3所示。

圖3 膨脹編碼塊結構圖

膨脹編碼塊DEB(x)可以表示為式(2)。

DEB(x)=DRG(Projector(x))

(2)

式中:x表示輸入特征;DRG(·)表示提取的不同感受野特征的融合操作;Projector(·)表示提取上下文信息操作。

投影層結構如圖4所示。輸入特征x首先通過Conv4中1×1的卷積降低通道維度,然后通過Conv5中3×3的卷積進行局部特征提取和細化,使得語義信息更明顯,最后增加殘差連接,將細化后的特征與原始特征進行相加,得到更加豐富的特征信息。每個卷積塊中的卷積層后都有一個BN層,目的是加快網絡訓練和收斂的速度。投影層Projector(x)可以表示為式(3)。

圖4 投影層結構圖

Projector(x)=Conv5(Conv4(x))+x

(3)

式中:x表示輸入特征;Conv4(·)表示提取降低通道維度后的特征操作;Conv5(·)表示細化語義信息操作。

膨脹殘差組結構如圖5所示,4個不同膨脹率的膨脹殘差塊(dilated residual block,DRB)通過堆疊的方式獲得不同大小的感受野以提取多尺度特征。單個膨脹殘差塊的結構如圖6所示,3個卷積塊中卷積核大小分別為1×1,3×3和1×1,且所有卷積層后都有1個BN層和1個ReLU層。其中第一個1×1卷積可以降低通道維度,3×3膨脹卷積可擴大感受野,盡量保證長寬比大的目標特征。最后,利用1×1卷積恢復通道維度。此外,殘差連接也保證了小尺度目標的特征。膨脹殘差組DRG(x)表示為式(4)。

圖5 膨脹殘差組結構圖

圖6 膨脹殘差塊結構圖

DRG(x)=DRB4(DRB3(DRB2(DRB1(x))))

(4)

式中:x表示輸入特征;DRG(·)表示提取具有多個感受野的特征操作;DRBi(x),i=1,2,3,4是4個不同膨脹率的膨脹殘差塊,可以表示為式(5)。

DRBi(x)=Conv8(Conv7i(Conv6(x)))+x,
i=1,2,3,4

(5)

式中:Conv7i(·)表示第i個膨脹殘差塊中的膨脹卷積操作,其膨脹卷積的卷積核ki的大小可表示為式(6)。

(6)

式中:i表示膨脹殘差塊的位置;ri表示第i個殘差塊中膨脹卷積的膨脹率。

2)全局-局部注意力模塊。在卷積神經網絡中,卷積核的大小限制了網絡提取深層特征的能力,自注意力機制[10]可以通過長距離建模實現空間維度的長期依賴性和適應性,但卻忽略了通道維度的適應性。為了解決這些問題,本文引入了全局-局部注意力模塊,充分利用了自注意力具有適應性和長期依賴性的優點和卷積獲取局部上下文信息的特點。

全局-局部注意力模塊結構如圖7所示[11]。其中每個卷積層的卷積核大小為1×1,步長為1。全局-局部注意力模塊可以表示為式(7)。

圖7 全局-局部注意力模塊

GLA(x)=BN(Conv(LKA(GeLU(Conv(x)))))+x

(7)

式中:x表示輸入特征;GLA(x)表示該模塊提取的到的融合特征;GeLU(·)表示激活函數;LKA(·)表示大核注意力模塊(large kernel attention,LKA);BN(·)表示進行批量歸一化。

圖8 LKA模塊

(8)

式中:x∈RC×H×W表示輸入特征;DW-Conv類似CNN中的卷積,用來提取局部上下文信息,因此又稱為空間局部卷積;DW-D-Conv為加入膨脹率的DW-Conv,稱為空間遠程卷積,能夠通過擴大感受野來建立內部空間特征信息間的長期依賴關系,提取全局上下文信息;Conv1×1又叫通道卷積,能在通道維度建立長期依賴性并提取特征信息,加強在通道維度上的適應性,使得適應性和長期依賴性相關;Attention∈RC×H×W表示生成的注意圖,圖中的值表示每個特征的重要性,?表示按像素相乘。

2 實驗與結果分析

為了驗證多尺度特征融合模塊和全局-局部注意力的有效性,在Ubuntu系統上基于DOTA數據集進行消融實驗,將結果上傳DOTA官方網站后,根據官方反饋的mAP評價指標的客觀數據來分析網絡的性能。

2.1 數據集與實驗設置

1)數據集。DOTA-v1.0是2017年由武漢大學公開發布的用于遙感圖像目標檢測的大型數據集。該數據集共有2 806張圖像,其中訓練集、驗證集和測試集的占比分別為1/2、1/6和1/3。DOTA數據集包含15個常見類別:飛機、棒球場、橋梁、田徑場、小型車輛、大型車輛、船舶、網球場、籃球場、儲罐、足球場、環島、港口、游泳池和直升機。

為了更有效地進行訓練,將DOTA數據集裁剪并調整成尺寸為1 024像素×1 024像素的子圖像,重疊部分為200像素,分別獲得15 749和5 297張子圖像用于訓練和驗證和測試,并通過拼接各子圖像的檢測結果得到最終完整的檢測結果。

綜上所述,與現有的遙感圖像公開數據集相比,DOTA-v1.0數據集的數據量較為龐大,足夠完成訓練和測試任務,且該數據集中包含15類不同大小、不同形狀的目標,也有諸如飛機或直升機、小型汽車或大型汽車等容易混淆的目標,在提高檢測難度的同時更有利于驗證算法的有效性。后續實驗均在該數據集上進行訓練、驗證和測試,并將測試結果上傳到DOTA官網,得到每一類目標的AP值和3種COCO類型的評價指標。

2)實驗設置。模型訓練時的硬件平臺CPU為Intel(R) Core(TM) i7-7700 CPU @ 3.60 GHz,內存為16 GB,GPU為NVIDIA GeForce GTX 1 080,8 GB。軟件平臺為Ubuntu18.04操作系統、Pytorch深度學習框架和Python編程語言。

2.2 實驗結果及分析

本文采用平均精度(average precision,AP)和均值平均精度(mean average precision,mAP)對實驗進行評估。

1)消融實驗。為了驗證本文所提MSFF模塊和GLA模塊對長寬比變化極端目標和大尺寸目標的檢測性能的提升,進行消融實驗。具體指標如表1所示。

表1 本文消融實驗在DOTA測試集上的定量比較

由表1可知,第一,與改進前的YOLOv5m模型相比,添加MSFF后的新模型中,橋梁、船舶和港口的AP值分別提高了6.91%、4.12%和4.34%,充分說明了MSFF模塊對長寬比變化極端類目標的有效性。除此之外,部分小目標如大型車輛、儲罐等和大目標如環島等目標的AP值均有小幅度的提升,也說明了該模塊能夠有效提高多尺度目標檢測的性能。第二,與改進前的YOLOv5m模型相比,添加GLA后的新模型中,田徑場、足球場和環島的AP值分別提高了0.83%、0.72%和2.68%,充分驗證了GLA模塊對大尺寸目標的有效性。此外,部分其他目標如棒球場、橋梁、直升飛機等不同目標的AP值也均有不等的提升,也充分說明了GLA通過長距離建模有效獲取全局上下文信息,對大多類目標均能夠有較好的檢測效果。第三,僅添加MSFF的模型和僅添加GLA的模型比初始模型的mAP50分別提升了1.03%和1.17%,這表明所加模塊在該模型中起到加強作用。此外,mAP75、mAP50:95均有一定提升,充分證明這兩個模塊的有效性。同時添加2個模塊的模型(即本文算法)比前面3個模型的mAP50分別提升了1.66%、0.63%和0.49%,表明這兩個模塊之間不存在排斥作用,相互兼容性較強,可以聯合使用以提高模型的性能。

綜上所述,消融實驗充分驗證了本文提出的遙感圖像目標檢測算法中多尺度特征融合模塊和全局-局部注意力模塊的實際有效性。

除了客觀的評價指標外,模型的參數量和計算量也是分析模型性能的重要指標。消融實驗中模型的性能指標如表2所示。

表2 DOTA數據集上不同模型的性能比較

從表2可以看出,首先,本文模型與YOLOv5m相比,mAP值提高了1.77%,參數量增加了2 M,計算量增加了7 B,這是由于模型越大,網絡越復雜,但復雜度增幅較小。其次,添加GLA的模型較原模型的參數量和計算量相差不大,但mAP50增長了1.17%,充分驗證了GLA在達到較好檢測效果的同時并沒有造成繁重的計算開銷和參數。

2)對比實驗結果分析。為了驗證本文算法的有效性和優越性,將其與目前主流的RRPN[12]、P-RSDet[13]、R3Det[14]、SCRDet++[15]、PolarDet[16]、S2A-Net[17]、OPLD[18]等遙感圖像目標檢測算法進行定量比較。實驗選擇mAP50(以下簡稱mAP)作為評估指標,mAP值越高表示檢測效果越好。定量對比結果如表3所示。

表3 本文算法與其他算法在DOTA測試集上的定量比較

由表3可知,當前主流算法中S2A-Net和OPLD的mAP較高,達到76%以上,而本文算法的mAP值比上述算法分別高出0.94%和0.62%,整體檢測性能最優。從單個類別的AP值來看,首先,YOLOv5m自身對小目標的檢測性能較高,而本文改進后的算法在近乎不影響小目標檢測性能的基礎上,對大尺寸目標(如田徑場、足球場、環島等)和長寬比變化極端的目標(如橋梁、船艦、港口等)的AP值分別提高了2%~4%和4%~6%,整體的mAP值提高了1.66%,充分證明了本文所提算法對大尺寸目標和長寬比變化極端目標的有效性。其次,針對長寬比變化極端的目標(如橋梁、港口等)和大尺寸目標(如田徑場、足球場、環島等),PolarDet、S2A-Net和OPLD算法更具有優勢,與之相比,本文對相應目標的檢測性能略有差距,但仍優于多數方法,同時上述算法在小目標(如大小車輛、船艦、籃球場、儲罐、游泳池等)上的檢測性能表現不足,且總的mAP次于本文算法??梢钥闯?本文算法對于多種尺度類型的目標檢測的整體效果更佳。

3)實驗可視化結果分析。為了進一步證明本文算法對YOLOv5算法的提升,在DOTA測試集結果中選取7張典型圖片,包括8個場景及多個不同類型的目標。對YOLOv5m與本文算法的檢測結果進行主觀評價,如圖9所示。

圖9 YOLOv5與本文算法在DOTA數據集上的可視化結果對比圖

圖9(a)~圖9(c)分別展示了船舶、港口和橋梁等長寬比變化極端的目標的檢測結果;圖9(d)~圖9(f)分別展示了環島、田徑場和足球場等大尺寸目標的檢測結果;圖9(d)、圖9(h)分別展示了車輛、儲罐等小目標的檢測結果。從圖中可以看出,本文算法較好地改善了YOLOv5m對以上類別目標的漏檢情況,且對相同目標的檢測精度也更高(如圖9(c)中的橋梁),從視覺效果上充分驗證了本文所提算法的有效性。

3 結束語

針對遙感圖像中部分目標尺寸大且長寬比變化極端等問題,本文提出了一種基于多尺度特征融合和全局-局部注意力改進的YOLOv5算法,用于遙感圖像目標檢測。利用多尺度特征融合模塊可以獲得多個不同感受野的輸出,有效地提取和融合網絡中不同尺度的特征信息;采用全局-局部注意力機制,在建立長期依賴關系的同時,保證了空間維度和通道維度的適應性,使得網絡在多方面共同關注感興趣目標區域,抑制無用信息,加強了網絡在全局范圍內對特征的提取。本文所提算法提高了遙感圖像目標檢測的性能,在與當前主流算法對比中取得了最優的總體評價指標,既保留了YOLOv5網絡在小目標檢測方面的優勢,又提高了大目標以及長寬比大的目標的檢測性能。本文算法可應用到航空建筑物檢測、車輛檢測等相關領域,為智能檢測、城市規劃等領域提供理論和技術支持。

猜你喜歡
殘差尺度注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學習的自適應無人機目標跟蹤算法
財產的五大尺度和五重應對
基于遞歸殘差網絡的圖像超分辨率重建
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
平穩自相關過程的殘差累積和控制圖
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合