?

融合視覺機制和多尺度特征的小目標檢測算法*

2024-02-28 03:09武德彬劉笑楠劉振宇
電訊技術 2024年2期
關鍵詞:淺層深層卷積

武德彬,劉笑楠,劉振宇,楊 娜

(沈陽工業大學 信息科學與工程學院,沈陽 110870)

0 引 言

隨著深度學習的快速發展,目標檢測技術已經在交通、醫療等各領域取得了顯著的成果。近年來基于深度學習的目標檢測技術在卷積神經網絡的基礎上不斷發展,整體上可以分為有錨框與無錨框兩大類,其中有錨框的目標檢測算法包括兩階段目標檢測算法如R-CNN[1]、Fast-RCNN[2]、Faster-RCNN[3]和單階段目標檢測算法如SSD[4]、YOLO[5-6]系列。單階段目標檢測算法相較于兩階段目標檢測算法檢測速度更快,但檢測精度較低。而無錨框的目標檢測算法包括CornerNet[7]等。

在目標檢測過程中,圖像中的小目標所占像素小,特征不明顯,易受背景及噪聲影響,導致檢測精度不好,如何提高小目標的檢測精度一直是目標檢測技術的研究熱點。雖然SSD算法通過多尺度特征圖預測在速度與精度上有所提高,但是由于信息傳遞是單向的,未充分利用各特征層之間關系,其對小目標檢測效果依然不理想,為此研究者們對其進行了大量的改進[8-14]。

原始SSD算法雖然能利用多尺度特征圖檢測不同大小的目標,但是淺層特征層缺少細節語義信息,檢測時會存在誤檢漏檢的問題,現有的改進方法還存在忽略深層特征層傳遞到淺層特征層造成小目標語義信息損失的問題。為了彌補這種小目標信息弱化的問題,本文提出一種融合視覺機制和改進的PANet[15](Path Aggregation Network)多尺度特征提取的視覺特征融合SSD目標檢測算法,簡稱為VFF-SSD(Vision Feature Fusion SSD)。該方法旨在強化淺層特征的同時,提高對小目標的檢測能力。VFF-SSD網絡在SSD基礎上引入RFB-S視覺機制,使淺層特征層的感受野增大,增強特征提取能力。在前4個特征層使用改進PANet特征融合網絡進行多尺度特征融合,使深層特征層的特征信息能夠傳遞到淺層特征層,以增強淺層特征層的語義信息;利用深層特征增強模塊在后3個特征層對深層特征層進行特征增強,增強深層特征的細節信息;最后在每一個預測特征層的最后添加CBAM[16](Convolutional Block Attention Module)注意力機制,以提高關鍵信息的權重,加強對重要信息的學習能力。

1 SSD算法

SSD(Single Shot MultiBox Detector)目標檢測算法以VGG16為主干網絡,利用多尺度特征層進行分類和定位,并將Fc6和Fc7分別轉換成卷積層,用于提取淺層特征層。該算法分別在大小為38×38,19×19,10×10,5×5,3×3,1×1并命名為Conv4_3,Fc7,Conv8_2,Conv9_2,Conv10_2和Conv11_2的6個不同尺度特征層上進行檢測,利用淺層特征層檢測小目標,深層特征層檢測大目標。整體檢測過程為,首先輸入圖像,經過SSD算法對位置與類別進行預測后輸出候選框,然后通過NMS非極大值抑制得到最終檢測的預測框和類別。其結構示意圖見圖1。

圖1 SSD結構示意圖

在原始SSD算法中,每個輸出特征層都是直接輸出結果,使得淺層特征層缺乏特征的語義信息,從而導致SSD算法在目標檢測以及小目標檢測任務上檢測效果不佳。因此,針對上述問題,本文提出一種改進的融合網絡增強SSD淺層特征層之間的關系,以提高對目標的檢測能力。

2 VFF-SSD算法

本文所提出的網絡模型如圖2所示。該網絡結合了RFB-S視覺機制、改進PANet多尺度特征融合模塊、深層特征增強模塊和注意力機制模塊,通過RFB-S視覺機制提高淺層網絡的感受野,再利用PANet特征融合模塊豐富語義信息,從而增強淺層特征層的特征提取能力,并在此基礎上加入深層特征增強模塊和注意力機制,加強上下文信息及關鍵信息的提取,使模型在小目標檢測上的性能獲得顯著提高。本文算法將7個特征層命名為Conv4_3,Conv5_3,Fc7,Conv8_2,Conv9_2,Conv10_2和Conv11_2,除Conv5_3以外的其余6個特征層對應特征圖像素大小分別為(38,38),(19,19),(10,10),(5,5),(3,3)和(1,1),從而生成尺度不同的6個特征圖。首先,在Conv4_3和Fc7特征層先使用RFB-S結構擴大感受野,增強特征提取能力。其次,為了豐富淺層特征層的語義信息,將Conv4_3,Conv5_3,Fc7,Conv8_2 4個特征層輸入到改進PANet多尺度特征融合模塊中。然后,將Conv9_2,Conv10_2,Conv11_2 3個特征層輸入到深層特征增強模塊中旨在提高深層特征層特征的表征能力,有助于確定目標的位置信息和分類信息。接著,將6個特征層提取到的特征圖分別使用CBAM注意力機制模塊,將關鍵信息權重加在原特征圖中,從而提高對重要信息的學習能力。最后,使用NMS非極大值抑制篩選預測框,得到最終的預測結果。

2.1 RFB-S視覺機制

RFB-S視覺機制結構與RFB結構一樣都是受啟發于人的視覺感知系統,利用群體感受野來模擬人類視網膜,能夠突出視網膜中心區域目標的重要性[14]。這種視覺機制結構是利用多分支卷積與空洞卷積來實現的。而在整個網絡的淺層網絡引入這種視覺機制,可以獲取不同尺寸的特征,并且擴大感受野,從而提高網絡的檢測能力。本文所采用的RFB-S結構如圖3所示。

圖3 RFB-S結構示意圖

RFB-S結構采用的多分支結構中,每個分支都分別采用不同大小的卷積核來得到不同比例的感受野,并且還運用了直連結構。而相對于RFB結構,RFB-S結構分支更多而且卷積核大小更小,并結合空洞卷積增加淺層特征層的感受野,獲取更多的上下文信息。RFB-S結構在沒有增加復雜計算量的情況下提高了感受野的范圍,使網絡在輕量化的同時獲得具有高判別性的特征,使整個結構更加接近人類的視網膜模型。

2.2 改進PANet多尺度特征融合模塊

針對原始SSD算法淺層特征層僅包含單層語義信息,導致沒有足夠的全局信息的問題,本文使用改進PANet多尺度特征融合模塊將淺層特征層的位置信息與經過多次卷積的深層特征層的細節語義信息進行特征融合,使淺層特征層能夠通過反向路徑獲取更多的語義信息,從而在確定小目標位置的基礎上提高對小目標的分類能力。改進PANet模塊結構如圖4所示,先將4個原始特征圖分別經過卷積核大小為3的卷積,進行初步的特征提取,將卷積后的Conv8_2進行上采樣和3×3卷積向淺層特征層Conv4_3進行反向傳遞,并依次與卷積后的Fc7和Conv4_3進行Concat通道拼接;再使用1×1卷積進行平滑特征,最終得到Conv4_3的特征層。與原始PANet不同的是,為了加快淺層信息的傳播效率,將Conv4_3最終的特征圖進行空洞卷積下采樣,達到擴大感受野提取細節信息的作用,并向Conv8_2層傳遞信息,在Fc7與Conv8_2特征層進行Concat特征融合,并進行1×1卷積平滑生成對應的最終特征圖。使用改進PANet多尺度特征融合模塊可以將深層特征層的語義信息傳遞到淺層特征層,并且將淺層特征層的信息有效傳遞到深層特征層,達到特征反復提取的目的。通過增強小目標的細節特征表達能力,增加了淺層特征層對小目標檢測的優勢。

圖4 PANet多尺度特征融合模塊

2.3 深層特征增強模塊

為了增強深層特征的細節信息,提高檢測的準確性,本文采用了深層特征增強模塊,如圖5所示。首先,由于Conv11_2,Conv10_2,Conv9_2都包含豐富的細節語義信息,所以先使用3×3卷積提取局部上下文信息。其次,將卷積后的Conv11_2上采樣并卷積與卷積后的Conv10_2進行特征融合,將融合后的圖像繼續進行上采樣與卷積,然后與卷積后的Conv9_2進行特征融合。最后,將Conv10_2和Conv9_2兩層得到的特征圖經過1×1卷積平滑。使用深層特征增強模塊旨在獲得更全面的上下文信息,增強特征之間的關系。這種結構解決了局部模糊的問題并有利于對目標更好地分類。

圖5 深層特征增強模塊

2.4 注意力機制

本文所使用的CBAM注意力機制主要分為通道和空間注意力兩部分,將每一層經過平滑卷積后的特征圖先后經過上述兩部分,如圖6所示。

圖6 CBAM注意力機制結構示意圖

通道注意力模塊如圖7所示,將輸入的特征圖同時進行全局平均池化與全局最大池化,再將得到的結果送入一個共享網絡,并將兩個特征圖按照像素求和合并,經過激活函數產生一個權重結果,最后將權重結果和輸入圖像相乘得到縮放后的新特征圖。

圖7 通道注意力結構示意圖

空間注意力模塊如圖8所示。首先,通過平均池化和最大池化減少通道數。其次,將得到的兩個特征圖拼接融合在一起,然后再經過激活函數得到新的權重結果。最后,將這個權重結果與通道注意力生成的新結果相乘,得到最后縮放的特征圖。

圖8 空間注意力結構示意圖

3 實驗與分析

3.1 實驗環境、實驗數據集及評價指標

為測試本文算法的性能,在編譯環境為torch-1.8.0、torchvision-0.9.0、python3.8,Windows10操作系統,顯卡為NVIDIA GeForce RTX3060的條件下進行實驗。

實驗采用PASCAL VOC開放數據集中的PASCAL VOC2007和PASCAL VOC2012數據集的訓練集進行模型訓練。兩個訓練數據集均包括20個類別,共16 651張圖片。使用PASCAL VOC2007test中4 952張圖片進行模型測試,具體類別如表1所示。

表1 數據集類別

實驗使用的評價標準是所有類別的平均精度值(Mean Average Precision,mAP)和單類別平均精度(Average Precision,AP),其定義式如下:

(1)

(2)

式(1)和(2)中:P表示準確率;R表示召回率;N表示數據集總類別數。

為了說明本文方法小目標檢測的性能,實驗將目標面積小于32 pixel×32 pixel的物體歸為小目標,大于96 pixel×96 pixel的歸為大目標,介于兩者之間的歸為中等目標,采用IOU=0.5∶0.05∶0.95 10個閾值(0.5~0.95,以0.05為步長)的PmAs檢測小目標的平均精度。

3.2 實驗超參數設置及分析

本文使用SGD優化器進行120 000次迭代,Batch size設為16,共訓練116個周期。初始學習率設為0.001,權重衰減參數設為0.000 5。在迭代80 000次學習率下降為0.000 1,在迭代100 000次學習率下降為0.000 01。將VFF-SSD算法與SSD算法的訓練損失進行比較,結果如圖9所示,可見VFF-SSD算法的訓練損失低于SSD算法,證明了本文改進算法的有效性。

圖9 訓練損失圖

3.3 實驗結果及分析

3.3.1 VOC2007測試集目標檢測性能檢測對比

為了說明本文方法目標檢測性能,將本文方法應用于PASCAL VOC2007test數據集并將實現結果與近年流行的目標檢測算法的檢測精度進行比較,實驗結果如表2所示。從表2可以看出,本文的改進算法相對于Faster RCNN[3]在兩種骨干網絡下取得了更好的檢測結果,分別提高了7.9%和4.7%;相對于同為單階段目標檢測算法的YOLOv1[5]和YOLOv2[6]有顯著提升,分別提高了17.7%和7.4%;相較于原始SSD算法檢測精度提高3.9%,而與其他研究者們對原始SSD算法改進的DSSD[17]、RSSD[18]、文獻[9]、文獻[10]也有一定的優勢,說明VFF-SSD方法在輸入尺寸為300 pixel的情況下,檢測精度具有明顯的優勢,較其他輸入分辨率較大的目標檢測方法檢測效果也有一定的提高。

表2 在PASCAL VOC2007測試集本方法與其他方法對比(IOU=0.5)

3.3.2 小目標檢測性能評估

為了進一步說明本文方法對小目標檢測的性能,實驗使用相應的評價指標PmAs對實驗結果進行評估,并與兩種主干網絡下的兩階段目標檢測算法Faster RCNN、兩種主干網絡下的SSD算法進行比較,實驗結果如表3所示。由表3可以發現,本文提出的VFF-SSD算法對小目標的檢測精度達到17.2%,遠高于其他算法,相較于原始SSD算法有顯著提升,提高6.6%,證明了本文改進算法對小目標檢測有明顯的優勢。雖然VFF-SSD算法對淺層特征進行反復特征提取導致算法計算量有一定增加,但是該算法對小目標的檢測性能提升顯著,整體看該算法對小目標效果良好,可以應用到實際場景中。

表3 算法性能比較

3.3.3 單類別實驗結果及分析

實驗還將數據集中20個類別檢測精度與4種流行算法以及傳統SSD算法進行了單類別比較,結果如表4所示。從表4中可以發現,VFF-SSD算法有18個類別物體的檢測精度超過其他對比算法,尤其是像杯子、植物、飛機等這種在圖片中所占像素比低的小目標,而其他類別檢測精度與幾種算法最優的檢測精度相差甚微;與傳統SSD算法相比,VFF-SSD算法20個類別檢測精度均超過原始SSD算法。根據表中數據,本文改進算法對遠景小目標有良好的檢測精度,對近景目標檢測精度有待加強。綜上,VFF-SSD算法對小目標檢測有顯著的優勢。

表4 單類別精度比較

3.3.4 定性結果分析

相應的檢測結果可視化,如圖10所示。從圖10可以明顯看出,本文提出的改進算法相較于SSD算法可以有效地解決小目標漏檢的問題。通過對比發現,原始SSD算法未檢測出的牛和羊、錯檢的羊、密集的小車、密集重疊的人,經過VFF-SSD算法都可以被檢測出來,更進一步證明增強淺層語義信息與加強深層特征融合能夠提高模型對小目標的檢測能力。

圖10 定性結果分析

4 結束語

針對原始SSD算法對小目標檢測精度不高以及漏檢錯檢的問題,本文提出一種利用RFB-S視覺機制增強淺層網絡感受野并結合改進PANet加強淺層網絡語義信息提取,利用深層特征增強模塊進行深層網絡特征增強,同時使用CBAM注意力機制加強對關鍵信息學習的VFF-SSD改進算法。在PASCAL VOC2007test數據集上使用兩種評價指標進行評估,分別得到檢測精度有效提高,尤其對小目標的mAP達到17.2%,較原SSD算法提高了6.6%。

下一步工作擬解決小目標漏檢錯檢問題以及提高小目標檢測能力問題,研究如何在不減少精度的情況下將模型進行輕量化。

猜你喜歡
淺層深層卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
淺層換填技術在深厚軟土路基中的應用
基于淺層曝氣原理的好氧顆粒污泥的快速培養
考慮各向異性滲流的重力壩深層抗滑穩定分析
從濾波器理解卷積
SAM系統對TDCS數據的優化處理與深層應用
基于傅里葉域卷積表示的目標跟蹤算法
淺層地下水超采區劃分探究
包氣帶淺層地熱容量計算方法商榷
對“醫患失去信任”的深層憂慮
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合