?

基于掩模注意型交互的SAR艦船實例分割

2024-03-05 10:21張天文張曉玲邵子康曾天嬌
系統工程與電子技術 2024年3期
關鍵詞:掩模艦船實例

張天文, 張曉玲,*, 邵子康, 曾天嬌

(1. 電子科技大學信息與通信工程學院, 四川 成都 611731;2. 電子科技大學航空航天學院, 四川 成都 611731)

0 引 言

合成孔徑雷達(synthetic aperture radar, SAR)具有全天時、全天候工作的能力[1],并因此特性被廣泛應用于艦船檢測領域[2]。傳統SAR艦船檢測方法依靠專家提取的手工特征[3],例如基于恒虛警率檢測[4]和基于視覺顯著性檢測[5]。近年來,基于深度學習的SAR艦船檢測方法受到學者廣泛關注[6-7]。文獻[8]改進了深度殘差網絡(residual network, ResNet)網絡,實現了復數SAR圖像艦船檢測。文獻[9]改進了YOLOX[10],實現了近岸復雜場景的輕量化SAR艦船檢測。文獻[11]基于平衡學習,提出了一種能夠平衡復雜場景與簡單場景的SAR艦船檢測機制。大多數學者實現了框等級檢測,而未實現SAR艦船的像素級表征[12]。

為了實現SAR艦船的像素級表征,一些學者將實例分割引入至SAR艦船檢測領域。文獻[13]發布了用于SAR艦船實例分割的HRSID數據集,但未提供新的方法論。文獻[14]設計了一種基于協同注意力機制的實例分割方法,但在復雜場景中精度較差。文獻[15]基于設計了一種基于上下文機制和壓縮激勵機制的實例分割方法,但其方法精度有限。以上方法未實現掩模交互或提供交互收益有限,可能阻礙實例分割精度提高。

因此,本文提出一種基于掩模注意型交互網絡(mask attention interaction network, MAI-Net)的SAR艦船實例分割方法,主要創新點如下:

(1) MAI-Net使用了膨脹空間金字塔池化(atrous spatial pyramid pooling, ASPP),來獲取多分辨率特征響應,增強了對背景鑒別能力。

(2) MAI-Net使用了非局部模塊(non-local block, NLB),來抑制低價值信息,實現了空間特征自注意。

(3) MAI-Net提出了拼接混洗注意力模塊(concatenation shuffle attention block, CSAB),來充分利用多階段掩模信息,進一步提高實例分割精度。

1 方法原理

MAI-Net網絡結構如圖1所示,類似于經典的雙階段實例分割網絡混合任務級聯(hybrid task cascade, HTC)[16],MAI-Net由骨干網絡、特征金字塔網絡(feature pyramid network, FPN)[17]、區域建議網絡(region proposal network, RPN)和檢測網絡構成。輸入圖像首先由骨干網絡和FPN提取多尺度特征圖,接著由RPN和感興趣區域對齊(region of interest alignment, ROIAlign)提取特征子集,最后將特征子集輸入檢測網絡來獲得實例分割結果。

圖1 MAI-Net結構圖Fig.1 Structure of MAI-Net

本文提出的MAI-Net基于HTC模型,將其檢測網絡改進為注意型交互檢測網絡,具體結構如圖2所示。掩模交互指在多階段掩模預測中,下一階段的輸入在原有輸入特征圖的基礎上融合上一個階段的掩模預測輸出特征圖。MAI-Net在每個掩模預測階段使用ASPP和NLB提取前一階段中更具有代表性的多視野特征和全局空間依賴特征,并將其與下一階段的輸入特征圖進行融合。這里,ASPP輸入為前一階段掩模特征圖輸出Mi-1(F),其中F記為ROIAlign特征子集,ASPP輸出記為FASPP。NLB輸入為FASPP,NLB輸出記為FNLB。此外,MAI-Net使用CSAB進行特征求和,這樣可以平衡前一階段掩模特征圖Mi-1(F)和注意型交互檢測網絡的輸入特征圖F兩種類型的特征輸入的貢獻,從而解決可能存在深淺層特征語義不平衡的問題[18]。這里,CSAB輸入為FNLB和F,CSAB輸出記為FCSAB。通過使用ASPP,NLB和CSAB模塊,MAI-Net獲取了多分辨率響應,進行了精細化提煉,平衡了不同特征圖的貢獻,從而增強了網絡的掩模交互性能。下面詳細介紹MAI-Net的各項改進。

圖2 注意型交互檢測網絡結構Fig.2 Structure of attentive interactive detection network

1.1 膨脹空間金字塔池化ASPP

艦船周圍包含各種類型的上下文環境,如模糊輪廓、旁瓣、相干斑噪聲和岸上設施等[19]。這些背景上下文信息都會影響最終的艦船像素預測性能。為了關注艦船上下文信息,獲取多分辨率響應,受文獻[20]和文獻[21]啟發,引入ASPP。ASPP通過使用具有不同膨脹率的膨脹卷積在單分辨率分支中提取多分辨率的特征響應,使多階段掩模預測網絡中能夠充分利用先前階段的多視野特征,增強掩模交互的多分辨率響應。圖3展示了ASPP具體結構。

圖3 ASPP結構圖Fig.3 Structure of ASPP

由圖3可知,ASPP使用4個3×3膨脹卷積對輸入特征圖處理,并設置膨脹率d分別為經驗值2、3、4、5,每個膨脹卷積輸出被拼接起來得到通道被擴展4倍的特征圖;為保持原有維度便于后續操作,一個1×1卷積被用來進行通道降維,得到ASPP輸出FASPP。以上過程可描述為

(1)

1.2 非局部注意力模塊NLB

在ASPP中采用4個并行的3×3卷積能夠提取不同范圍上下文的特征,但是當擴張率較大時,ASPP可能會引入過多的低價值背景的干擾,從而導致定位精度的下降[22]。因此,受文獻[23]和文獻[24]的啟發,本文使用NLB來對ASPP的輸出進行精細化提煉。NLB建模輸入特征圖中每個元素在整個空間中的全局依賴關系,抑制低價值信息,從而抑制掩模交互過程中的低價值信息,NLB可描述為

(2)

式中:x是NLB的輸入;xi對應第i位置的輸入;xj對應第j位置的輸入;ζ(·)是一個學習映射函數,用于計算第i位置和第j位置之間的空間內容相似度;f(·)是一個學習映射函數,用來表征第j位置的空間特征;g(·)表示歸一化系數,用來對輸入每個位置響應進行歸一化操作。式(2)中第i位置表示當前位置響應,第j位置表示除i之外全局響應,故加權求和需遍歷所有參數j,即?j。

NLB的具體結構如圖4所示。類似于文獻[25],使用一個卷積層(記為g)來自適應學習第j位置的空間特征表征:

g(FASPP)=Wg·FASPP

(3)

式中:Wg為1×1卷積層g的權重系數。使用一個嵌入高斯函數來計算第i位置和第j位置之間的空間內容相似度f,即

f(xi,xj)=eθT(xi)φ(xj)

(4)

式中:T表示轉置;θ(FASPP,i)=Wθ·FASPP,i,表示第i位置的特征嵌入,使用一個1×1卷積層(記為θ)來學習權重系數Wθ;φ(FASPP,j)=Wφ·FASPP,j,為第j位置特征嵌入,使用一個1×1卷積層(記為φ)來學習權重系數Wφ。

圖4 NLB結構圖Fig.4 Structure of NLB

此外,歸一化系數ζ(·)通過輸入所有位置相似度求和得到,即

(5)

基于以上卷積實現,式(4)可實例化為

(6)

最終,式(6)可通過一個softmax計算函數來實現,softmax函數定義為

(7)

如圖4所示,首先兩個1×1卷積層θ和φ分別被用來計算Wθ和Wφ,然后通過矩陣乘法計算θTφ,得到相似度f。另外一個1×1卷積層g被用來計算Wg,得到特征表示。最后,被softmax函數激活過的f與特征表示g的乘積得到NLB的輸出yi。此外,yi還由另外一個1×1卷積層(記為o)處理進行維度變化,目的是使輸出和輸入維度一致,便于后續殘差連接操作,即

FNLB=Wo·yi+FASPP

(8)

式中:Wo為該1×1卷積層o的權重系數;FNLB表示NLB的輸出。

1.3 拼接混洗注意力模塊CSAB

為平衡兩種類型的特征圖,即掩模交互過程中前一階段掩模特征圖和注意型交互檢測網絡的輸入特征圖,對檢測結果的貢獻,從而解決可能存在的深淺層特征語義不平衡的問題,本文提出了CSAB來對兩種類型輸入特征進行處理。圖5展示了拼接混洗注意力模塊CSAB的網絡結構示意圖。由圖5可知,CSAB主要由特征拼接、通道混洗和特征注意這3個基本步驟組成,下面將進行詳細介紹。

圖5 CSAB結構圖Fig.5 Structure of CSAB

步驟 1特征拼接。將兩種類型輸入特征圖FNLB和F拼接起來,然后使用一個3×3分組卷積對拼接后的特征圖進行通道降維,便可以對不同輸入進行差異的特征提取,分組系數設為2。以上過程可以描述為

(9)

步驟 2通道混洗。為了盡可能降低因通道協同一致性效應可能導致的特征學習局部優化,將步驟1輸出特征圖FCat的通道進行隨機打亂操作,得到FShuffle。

步驟 3特征注意。使用通道注意力機制和空間注意力機制對通道混洗后特征圖FShuffle進行細化處理,學習得到自適應通道加權系數和自適應空間加權系數來平衡兩種不同輸入特征的貢獻。通道注意力模塊操作過程可描述為

FCA=WCA·FShuffle=sigmoid{MLP[GAP(FShuffle)]+ MLP[GMP(FShuffle)]}·FShuffle

(10)

式中:GAP(·)表示全局平均池化操作;GMP(·)表示全局最大池化操作;MLP(·)表示多層感知機處理;sigmoid(·)表示sigmoid激活函數。最終,產生的通道權重WCA=(w1,w2,…,wn)T,其中n為輸入特征圖通道數,wi來衡量第i個通道重要性,通過這種通道加權方式便可實現通道間特征注意。

空間注意力模塊操作過程可描述為

FSA=WSA·FCA=sigmoid{DS-Conv7×7· (GAP(FCA)?GMP(FCA))}·FCA

(11)

式中:DS-Conv7×7(·)表示7×7深度可分離卷積。最終,產生的WSA=(wi,j)1≤i≤l,1≤j≤l,其中l示輸入特征圖二維空間尺寸,wi,j表示輸入(i,j),通過空間信息加權方式可實現空間上特征注意。

2 實驗數據及配置

2.1 實驗數據

本文在多邊形分割SAR艦船檢測數據集(polygon segmentation SAR ship detection dataset, PSeg-SSDD)[26]上進行實驗。表1展示了PSeg-SSDD的信息概覽。如表1所示,PSeg-SSDD有來自多個衛星的1 160個樣本,其中圖像平均尺寸為500像素×500像素,PSeg-SSDD數據集中共有2 587只艦船,其中最小尺寸艦船所占像素為66像素,最大艦船所占像素為78 597像素。

表1 PSeg-SSDD數據集信息Table 1 Information of PSeg-SSDD

2.2 實驗設置

MAI-Net的骨干網絡使用在ImageNet數據集[27]上預訓練過的ResNet-101[28],這可加速網絡收斂。訓練及測試的輸入圖像大小均統一調整為512像素×512像素,除此以外對輸入圖像沒有其他的數據增強預處理操作。使用隨機梯度下降(stochastic gradient descent, SGD)優化器[29]來訓練模型,設置學習率為0.004,動量為0.9,權重衰減系數為0.000 1,總訓練迭代次數為12次,當迭代次數到第8次和第11次時,學習率降低為原來的10倍。由于圖形處理單元內存限制,訓練批次大小設置為2。

訓練MAI-Net的損失函數由分類損失和回歸損失兩部分組成,分類損失LCLS選擇經典交叉熵損失[30],回歸損失LREG選擇經典平滑L1[31],即

(12)

(13)

(14)

(15)

(16)

(17)

smoothL1為平滑L1損失,定義為

(18)

MAI-Net的分類損失LCLS除上述類別預測損失外,還包含像素預測損失,該像素預測損失也使用經典交叉熵損失。在測試期間,使用非極大值抑制(non-maximum suppression, NMS)[32]去除冗余重復的檢測框,NMS的重疊度(intersection over union, IOU)閾值設置為經驗值0.5。

3 實驗結果與分析

3.1 評價指標

本文采用COCO數據集[33]的評價指標來評估SAR艦船實例分割性能。記實例分割平均精度為AP,定義為

(19)

式中:r表示召回率;p表示準確率;p(r)表示精度召回率曲線。詳細評價指標如表2所示,APS表示小型目標的實例分割精度,APM表示中等目標的實例分割精度,APL表示大型目標的實例分割精度,AP反映了在不同IOUM閾值條件下的綜合檢測性能,因此被選擇作為衡量SAR艦船實例分割精度的唯一核心指標[34],計算公式為

(20)

式中:IOUM∈[0.50∶0.05∶0.95]。IOUM計算公式為

(21)

式中:MaskG為艦船真值像素掩模;MaskP為艦船預測像素掩模。

表2 實例分割精度評估指標Table 2 Instance segmentation accuracy evaluation index

3.2 對比實驗結果

表3展示了在艦船實例分割數據集PSeg-SSDD上,MAI-Net和其他11種現有方法的SAR艦船實例分割的定量對比結果。包括掩膜區域卷積神經網絡(mask region-convolutional neural network, Mask R-CNN)[35]、Mask scoring R-CNN[36]、級聯Mask R-CNN[37]、HTC[16]、路經聚合網絡(path aggregation network, PANet)[38]、YOLACT(you only look at coefficients)[39]、GRoIE(generic RoI extractor)[40]、HQ-ISNet-w18(high-quality instance segmentation-w18)[41]、HQ-ISNet-w32[41]、HQ-ISNet-w40[41]和SA R-CNN(synergistic attention R-CNN)[42]。前7個方法為通用實例分割網絡,后4種方法為SAR艦船實例分割網絡,通用性模型參數與它們的原始工作基本保持一致。其他SAR艦船檢測任務模型超參數與MAI-Net基本保持一致。其中,最優檢測結果用加粗字體標出,次優檢測結果用下劃線標出。

表3 定性對比實驗結果Table 3 Quantitative comparison of experimental results %

由表3可知,本文提出的MAI-Net提供了精度最高的SAR艦船實例分割,具體地,其AP達到了61.1%,比其他11種對比方法中最優模型PANet還要高出1.5% AP,這充分表明了MAI-Net更優越的SAR艦船實例分割性能。此外,MAI-Net的其他所有指標均優于其他11種對比方法,這充分證明了MAI-Net對于多尺度目標均有較好的實例分割性能。相較于同樣具有掩模交互結構的網絡HTC,MAI-Net由于使用了ASPP、NLB和CSAB等模塊,增強了掩模交互性能,可以進一步改善多尺度艦船檢測精度。雖然在數學上難以對掩模交互性能做出準確定義,但是實驗結果從側面證明了MAI-Net具有更好的掩模交互性能??偠灾?根據以上定量評估對比結果,本文提出的MAI-Net可以提供更優越的SAR艦船實例分割精度。

圖6展示了在PSeg-SSDD數據集上,本文提出的MAI-Net和HTC的SAR艦船實例分割定性檢測結果對比。由于MAI-Net是在HTC模型基礎上進行改進的,受限于篇幅,這里只展示其與HTC的定性檢測結果對比。

圖6 實例分割定性結果對比Fig.6 Instance segmentation qualitative results comparison

由圖6可知,MAI-Net具有良好的虛警抑制能力,例如對比圖6(a)和圖6(b)中第1行第2列圖像中的艦船實例分割結果,HTC在陸地和海面產生了許多虛警,但是MAI-Net可以成功抑制該虛警。又例如,對比圖6(a)和圖6(b)中第1行第3列圖像中的艦船實例分割結果,HTC在檢測一些并排停泊在港口中的艦船時,出現了很多由于艦船船體交疊導致的檢測虛警,但是MAI-Net沒有產生任何虛警。又例如,對比圖6(a)和圖6(b)中第2行第2列圖像中艦船實例分割結果,HTC在檢測海面小尺度艦船時,錯誤地將島嶼檢測為艦船,但是MAI-Net沒有產生虛警。這都表明了MAI-Net具有更優越的復雜場景適應能力。

此外,MAI-Net相較于HTC模型,能夠檢測出更多艦船,具有更低的漏檢概率,例如對比圖6(a)和圖6(b)中第2行第2列圖像中艦船實例分割結果,HTC遺漏了很多小尺寸艦船,但是MAI-Net檢測遺漏較少,這也表明MAI-Net具有更優越的小目標實例分割性能。

最后,MAI-Net還能提供更好的艦船定位準確度,例如對比圖6(a)和圖6(b)中第1行第1列圖像中艦船檢測結果,HTC和MAI-Net都能夠成功檢測出該只艦船。不同的是,HTC檢測框和真值框存在較大空間錯位,因此其框定位準確度不夠高,但是MAI-Net檢測框更貼近真值框,所以MAI-Net能夠更準確地定位艦船,當框定位準確度被提高,框中艦船船體實例分割精度也會得到相應的改善。根據以上定性評估結果, MAI-Net可以提供更高實例分割精度。

3.3 消融實驗結果

表4 MAI-Net逐漸加入改進模塊對精度影響Table 4 Impact of gradually adding improvement block to MAI-Net on accuracy %

4 結 論

針對現有SAR艦船實例分割方法未實現多階段掩模預測或未充分利用多階段掩模預測信息的問題,本文提出了一種基于MAI的SAR艦船實例分割方法MAI-Net。首先,MAI-Net使用了膨脹空間金字塔池化,來獲取多分辨率特征響應,增強了對背景鑒別能力;其次,MAI-Net使用了非局部注意力模塊,來抑制低價值信息,實現了空間特征自注意;最后,MAI-Net提出了拼接混洗注意力模塊,來增強掩模交互性能,提高了實例分割精度。在公開數據集PSeg-SSDD上的實驗結果顯示,MAI-Net的檢測精度高于其他11種對比模型,高于次優模型1.5%。消融實驗證明了MAI-Net每項改進的有效性。

猜你喜歡
掩模艦船實例
艦船通信中的噪聲消除研究
艦船測風傳感器安裝位置數值仿真
基于直寫技術的微納掩模制作技術研究進展*
掩模圖像生成時閾值取值的合理性探討
掩模位置誤差對光刻投影物鏡畸變的影響
艦船腐蝕預防與控制系統工程
Cr光柵掩模對金屬平板超透鏡成像質量的影響
完形填空Ⅱ
完形填空Ⅰ
臺日艦船對峙內幕曝光
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合