?

基于多特征交叉融合及跨層級聯的航拍目標檢測算法

2024-01-03 03:10高武奇楊婷李亮亮
西北工業大學學報 2023年6期
關鍵詞:航拍尺度注意力

高武奇,楊婷,李亮亮

(1.西安工業大學 計算機科學與工程學院,陜西 西安 710021;2.西安工業大學 兵器科學與技術學院,陜西 西安 710021;3.西安工業大學 機電工程學院,陜西 西安 710021)

近年來,由于無人機規模的急劇增加和應用,通過無人機采集的航拍畫面規模和品質也得到了飛躍級的提升[1]。對特殊目標識別和定位是復雜場景態勢感知中至關重要的因素[2]。所以在大量無人機航拍圖像上進行面向復雜環境特殊目標的檢測技術研究對于態勢的產生與分析有著重要的意義。

傳統目標檢測算法一般都是先手工提取目標特征,然后將其歸類,它們依賴于領域專家對不同對象的紋理、形狀、顏色等特征分析,設計出多類型特征描述子,從而檢測出帶有全局特征的對象[3-4]。許多學者利用Hough變換進行角點提取,先提取出合作目標邊緣,再求出邊緣相交點就是期望合作目標角點[5]。這種方法能夠達到亞像素級的精度,但這種方法需要很好的邊緣提取效果且魯棒性較差。曾接賢等[6]在K均值算法的基礎上改進了一個新的多尺度分形特征矢量,能夠實現低對比度下紅外坦克圖像的準確分割,但是對具體場景目標的檢測結果不夠精確。郝帥等[7]提出了基于SIFT分區雙向匹配的角點檢測算法,實現了圖像發生大尺度和角度畸變時,協作目標角點的提取。王永學等[8]將人工神經網絡與蟻群優化相結合,以提供一種新的坦克目標檢測算法,雖然這一結合方式具備了速度快、訓練耗時較短的優勢,但是在與目標相距較遠時,檢測準確度卻較差。傳統依靠機器學習的方式仍是利用機械特性來推測對象的重要部分,而不能擺脫對目標整體識別這一難題。因此在物體受到遮擋、出現形變、物體部位沒有充分暴露特征等情況下,仍然不能很好地解決要害部位的檢測問題。

伴隨著近年來計算機技術以及人工神經網絡的發展,深度卷積神經網絡在各種目標探測領域[9-10]中均得到了廣泛應用,深度學習具有更強的非線性擬合能力,利用其替代傳統手工提取方法對復雜目標深層特征進行分析,提高了算法精度和魯棒性,更加適合實際復雜場景中航拍目標探測與識別。文獻[11]以特征金字塔網絡為切入點,通過向FPN中加入融合因子刻畫相鄰層耦合度以控制深層對淺層信息的傳遞,從而使FPN更適應小目標并改善其檢測性能。文獻[12]通過引入多尺度卷積模塊對特征權重進行自適應優化,針對小目標的特點建立多尺度特征融合預測網絡,選擇多層級特征映射將其融合為高分辨率特征圖以增強無人機影像目標檢測精度。2020年張瑞倩等[13]利用多尺度空洞卷積對特征進行感受野擴大以改善復雜背景及存在遮擋時目標檢測結果。在多任務旋轉區域卷積神經網絡檢測模型中,Yang等[14]提出了構造稠密特征金字塔的方法來增強稠密航拍圖像檢測的準確性。王靖宇等[15]為了解決低空飛行過程中其他視覺物體的干擾問題,提出了一種多隱含層無人機深度神經網絡探測模型,通過深入刻畫和提取無人機目標多尺度視覺特性,有效地增強探測模型泛化能力以實現長距離弱小無人機的精確探測。軍事目標檢測技術屬于軍事領域的基礎技術,對于目標跟蹤、導彈導航、精準打擊都具有重要意義。2016年,Neagoe等[16]提出了一種基于神經網絡的合成孔徑雷達(synthetic aperture radar,SAR)航空圖像目標自動識別方法,總成功率為97.36%。2018年王全東等[17]針對Faster R-CNN在小尺度坦克裝甲車輛目標檢測方面存在的問題,提出了一種改進算法,mAP可達93.3%,但是檢測速度較慢。2020年,陳科名[18]基于SSD算法,針對小目標問題,采用ResNet18代替VGG16,同時改進邊框尺寸,提升了檢測速度。2021年,舒朗等[19]基于YOLOv5算法,針對尺度變化大、場景多變、可用特征不足的紅外圖像,提出了一種Dende-Yolov5的網絡結構,提升了精度和召回率。從整個研究的歷程可以看出,目標檢測越來越依賴于深度學習算法的提升。

綜上所述,現有常用的目標檢測算法均不能很好地適應復雜航拍場景中的目標識別問題,當航拍圖像出現復雜背景干擾、目標角度多變、尺度不一問題時算法均存在漏檢和誤檢情況,并且檢測速度較慢,無法達到較高的實時性要求,未能實現復雜場景目標的快速準確識別任務。本文在YOLOv5算法的基礎上,提出了一種基于多特征交叉融合及跨層級聯的航拍目標檢測算法YOLOv5-MFCL(multi-feature cross fusion and cross-layer concatenation,YOLOv5-MFCL),通過改進網絡結構提高復雜背景下真實場景的目標檢測性能,同時保證檢測算法的實時性以便于實現移動端的部署。

1 YOLOv5-MFCL算法分析與設計

1.1 YOLOv5基本原理

YOLOv5整體結構如圖1所示。其中,輸入端實現數據訓練前預處理。主干網絡Backbone主要用來實現目標特征的提取。頸部網絡Neck主要實現目標特征的收集。輸出檢測層Head主要用于預測信息損失部分,從而提高對目標識別的準確度。

圖1 YOLOv5算法檢測結構

原始YOLOv5模型適用于COCO數據集,在檢測大目標時具有明顯的優勢,但針對航拍小目標圖像存在的諸多難點問題,如:①大視場問題。無人機的探測范圍較廣,得到的圖像視場較大。具有小目標較多、目標分布不均問題。②背景復雜問題。無人機高空拍攝,視野廣闊、角度靈活,背景復雜變化,增加了對目標的檢測難度,容易引起誤檢與漏檢問題。③目標多尺度問題。無人機攝像頭拍攝范圍較廣且角度各異,導致圖像中包含目標的角度和尺度差異懸殊。大目標檢測效果較好時,小目標容易漏檢。針對以上問題,本文對原始模型進行針對性的優化和改進,使其更加適合無人機航拍的復雜特殊目標檢測任務。

1.2 YOLOv5-MFCL算法架構設計

本文提出了一種基于改進YOLOv5的多尺度航拍目標檢測算法YOLOv5-MFCL,通過構建一種多特征交叉的融合注意力機制和跨層級聯的多尺度特征融合金字塔對算法進行改進和優化,以提高算法的檢測精度與性能,從而更加適合無人機航拍的復雜場景目標檢測任務。圖2給出了本文算法設計的整體結構,核心思想是利用注意力機制和特征金字塔在保證模型實時性的前提下,通過修改算法網絡結構,盡可能挖掘小目標密集區域的特征信息,減少背景噪聲干擾,提高檢測精度。

圖2 本文算法檢測結構

1) 針對特殊目標保密性高、公開資源匱乏、數據集難以獲取的問題,提出一種模擬真實場景的航拍目標數據增強方法,如圖2左側灰色方框所示。

2) 針對航拍背景復雜問題,設計并引入多特征交叉融合注意力機制,聚焦并選擇對任務有用的信息,提高檢測準確率,如圖2中間部分粉色方框所示。

3) 針對航拍圖像目標跨尺度問題,構建一個跨層級聯的多尺度特征融合金字塔,最終實現不同尺度的特征融合,如圖2中間部分紫色方框所示。

通過上述改進方法對原始YOLOv5算法進行優化,從而提高模型檢測精度。

2 基于模擬真實場景的數據增強算法設計

考慮到實際特殊復雜場景中所包含的目標類別,本文所要識別的目標種類包括人(person)、坦克裝甲車(tank)、普通車輛(car)、軍事用車(military-car)4類目標。本文首先進行基礎數據構建,然后針對不同問題采用2種增強方法進行數據擴增。

2.1 基礎數據集構建

本文采用無人機自主拍攝,爬蟲網絡搜索和影視資源截取方式獲取基礎數據,整理得到5 500張圖片,采用LableImg軟件對其進行標注,最終得到本文初始數據集,如圖3所示。

圖3 基礎數據樣本

通過分析基礎數據集存在的問題,本文決定通過基于隨機拼接的數據增強算法和基于目標提取嵌入的數據增強算法對原始數據進行增強以增強數據集中小目標占比和實現數據類別均衡,同時提高數據多樣性和模型泛化能力。

2.2 基于隨機拼接的數據增強算法設計

由于無人機航拍和目標的特殊性,無人機拍攝時攝像頭探測范圍較廣,得到的圖像視場很大,導致航拍角度的圖像中包含的小目標數量較大,現有基礎數據集包含較多的中目標和大目標,為了更進一步貼近航拍目標包含小目標多的特點,本文采用一種隨機圖像拼接方式增強圖像中的小目標占比。具體方法流程如圖4所示。

圖4 隨機拼接算法示意圖

如圖4所示,從基礎數據集中隨機選取4張樣本作為待拼接圖片,同時獲取每張樣本的標注信息,并進行一系列旋轉、加噪、加霧、加雨等操作變換;最后,新建一個空的大圖,將各個小圖填充進去,同時更新拼接后圖像每個目標的標注信息。

2.3 基于隨機目標提取嵌入的目標增強算法設計

對于基礎數據集person類目標占比較大,tank和military-car占比較小,數據集分布不平衡的問題,本文構建了一種基于隨機目標提取嵌入的小目標增強方法來模擬航拍目標。其增強流程如圖5所示。

圖5 目標提取嵌入示意圖

首先運用Sobel算子將圖片中的目標從背景中分離出來,并進行一系列操作,然后隨機選擇不同的背景圖像,兩者結合得到新的模擬航拍圖像,實現對罕見數據的增強。

3 YOLOv5-MFCL航拍目標檢測模型構建

3.1 多特征交叉融合注意力機制構建

航拍圖像中的小目標所占像素較小,同時也容易受到高空攝影的復雜背景條件限制,原YOLOv5模型對小目標的檢測作用較差,本文通過分析GAM和CA存的缺陷與不足,采用殘差模塊的思想構建了一個多特征交叉融合注意力機制,以進一步提高復雜背景下算法的檢測性能。其結構圖如圖6所示。

圖6 多特征交叉融合注意力機制結構

輸入特征首先進入GAM模塊中的通道注意力模塊來保留三維信息并放大跨維通道-空間依賴關系,再經過空間注意力模塊進行空間信息的聚焦。對于全局注意力和坐標注意力的連接方式,本文采用引入殘差結構的方式進行組合。此操作不僅能綜合GAM對空間通道信息的跨維交互,而且能夠結合CA對位置信息的精確定位,進一步增強有用的特征信息,聚焦并選擇復雜背景中對任務有效的信息,強化特征輸入到后續網絡中,從而提高整體網絡的性能,提升網絡模型的運行效率。

3.2 跨層級聯的多尺度特征融合金字塔設計

無人機的飛行高度不定,空中拍攝角度多變、拍攝范圍廣的特點導致不同目標之間尺度差異較大。YOLOv5采用PANet結構來實現多尺度特征融合模塊,通過簡單的雙向特征提取網絡直接融合不同密度的信息,忽略了不同尺度特征之間沖突信息的存在,限制多尺度特征的表達。本文在PANet的基礎上融合BIFPN的思想,并建立了一個全新的跨層級聯的多尺度特征融合金字塔模型,具體結構如圖7所示,主要包括下面幾個部分。

圖7 本文設計金字塔結構圖

3.2.1 跨層級聯特征增強路徑

在3層FPN結構的基礎上基于BIFPN的網絡結構設計了一種跨層級聯的特征融合金字塔,將其深度變為4層,向上加深了金字塔的深度,如圖8所示。

圖8 跨層級聯特征增強路徑

圖中紅色虛線所示即為跨層級聯路徑。在自底向上的通路中進一步結合基礎特征圖中的豐富信息,可以使深層網絡的語義信息和淺層網絡的細節信息進一步融合。另外采用加權特征融合的方式WFF(wighted feature fusion,WFF)來平衡不同特征層的權重,判斷不同輸入的重要性,不僅可以保留更多的特征信息,還可以簡化融合計算,提高計算速度。

3.2.2 基于反卷積的上采樣方式

原網絡最鄰近插值法會造成很嚴重的特征損失,降低小目標的檢測精度。針對此問題,本文采用反卷積的方式來進行上采樣,以減少采樣過程帶來的信息丟失。其結構圖如圖9所示。

圖9 卷積與反卷積示意圖

如圖9所示,3×3特征圖作為轉置卷積的基礎輸入,對3×3特征圖上每間隔一行與一列進行插0操作,得到的填充后的特征圖作為新的輸入,最后用3×3的卷積核進行步長為1的反卷積操作,得到最終的5×5特征圖。

3.2.3 自適應空間特征融合ASFF模塊設計

在目前的目標檢測任務預測分支當中,低層特征適合檢測圖片中的小物體,高層特征適合檢測圖片中的大物體,中等大小的目標則適用中間的特征層。一般FPN均采用直接連接或者按元素相加這種特征拼接的方式,但是這種連接方式不能充分學習到不同尺度之間的特征信息,從而不能有效地進行多尺度特征融合。因此,本文提出利用一種自適應空間特征融合ASFF(adaptively spatial feature fusion,ASFF)的方式來進行跨尺度特征融合。其網絡結構如圖10所示。

圖10 ASFF結構示意圖

ASFF通過利用權重參數調整特征融合時不同尺寸特征的貢獻大小,避免了小尺度語義信息和大尺度細節信息的混亂和丟失,進一步增強了多尺度之間的信息交互融合,提高了檢測精度。

4 實驗分析

4.1 實驗環境及參數配置

本文實驗的操作系統為Ubuntu16.04,深度學習框架為PyTorch。所有對比實驗采用相同的數據集和硬件平臺,除了引入不同模塊之外,其他所有訓練參數均保持相同,模型訓練參數設置如表1所示。

表1 模型訓練參數設置

4.2 數據增強效果分析

4.2.1 隨機拼接算法增強結果

經過統計,采用隨機拼接算法得到的圖片數量為5 820張,通過統計圖片中不同大小目標的具體個數,圖11給出了隨機拼接算法增強前后數據集中目標大小分布圖,橫坐標和縱坐標分別代表物體的寬和高,由對比圖可觀察到增強之前總目標數量較少,且小目標占比較小,中目標占比較多;增強之后色塊向坐標原點位置移動,說明小目標占比增多,且總體數據量也得到提升。

圖11 數據增強前后目標大小分布對比

4.2.2 隨機提取嵌入算法增強結果

經過統計,采用隨機提取嵌入算法之后得到的圖片數量為4 963張,圖12給出了隨機提取嵌入方法增強前后military-car和tank這兩類目標的數量分布情況。如圖所示,藍色表示增強之前基礎數據,紅色表示增強之后數據,柱形圖代表military-car,折線圖代表tank,橫坐標為小目標、中目標和大目標,縱坐標為目標數量,可以看出采用本文方法進行增強之后2類目標的數量明顯有了大幅度提升,并且其中的小目標占比也得到較大提升。

圖12 隨機提取嵌入數據增強前后目標數量分析

綜上所述,本文的數據增強算法解決了基礎數據集小目標占比小和數據種類分布不平衡的問題,同時針對本文研究背景實現了各種真實場景下的圖像構建,共計得到了15 783張圖片,并對其標注文件進行整理,訓練集和測試集的劃分比例為7∶3,為后續航拍目標檢測提供了豐富可靠的數據支持。

4.3 消融實驗

4.3.1 多特征交叉融合注意力機制實驗結果對比

為了驗證本文構建的融合注意力機制的有效性,本節對分別引入本文設計注意力機制和單一注意力之后的檢測結果進行對比,通過分析實驗結果說明本文構建注意力機制的有效性,其中,具體對比方法和實驗結果如表2所示。

表2 改進注意力實驗方法及結果對比

由表2可知,加入注意力機制普遍能夠提升網絡的檢測精度,本節實驗通過對比單獨GAM、CA注意力和多特征交叉融合注意力機制GAM-CA發現,引入GAM-CA之后閾值為0.5的平均準確率提升了0.6%,閾值為0.5∶0.95)的平均準確率提升了0.7%。因此本文最終決定引入GAM-CA來進行主干網絡的特征融合,從而進一步提高航拍復雜場景下算法的檢測性能。

對引入GAM-CA前后加權熱力圖進行了對比,結果如表3所示。從表中可以看出,和其他2種主流注意力機制相比,加入本文設計注意力機制后,網絡對檢測目標區域的覆蓋度和關注程度都獲得了提升,證明本文設計的注意力機制能夠幫助深度卷積網絡提取到更加關鍵的特征信息,在復雜的航拍圖像中能夠更快地捕獲其中的關鍵信息,從而使檢測器對目標進行“有區別”檢測,提升網絡模型運行效率。

表3 不同注意力的熱力圖對比

4.3.2 跨層級聯多尺度特征融合金字塔

為了驗證本文所設計金字塔的有效性,本節選擇以上述引入本文設計注意力機制的模型YOLOv5s-GC1作為基線,接著在網絡中逐步引入多尺度金字塔的不同模塊,通過對比引入前后的精度變化來說明本文改進機制的有效性。各模塊消融實驗對比如表4所示。

表4 改進金字塔實驗結果對比

由表4可知,引入金字塔的不同模塊對模型精度均有一定增長作用,最終的模型閾值為0.5的平均準確率達到了81.0%,閾值為0.5∶0.95的平均準確率達到了51.3%,相比于基線網絡分別提升了4.6%和5.5%,召回率達到了73.3%,提升了5.0%。證明了本文跨層級聯多尺度金字塔結構能進一步提高網絡對邊界的回歸精度。

4.4 目標檢測性能分析

為了更加直觀地說明本文算法改進前后的對比情況,圖13給出了對比曲線。通過圖13a)精度對比可知改進算法優于原算法,通過圖13b)損失函數對比可知改進算法損失低于原算法,具有更好的性能。

圖13 算法改進前后對比

圖14 雪天環境結果對比

圖15 霧天環境結果對比

圖16 夜晚環境結果對比

圖17 遮擋條件結果對比

圖18 多尺度條件下結果對比

4.5 先進性對比

為了進一步說明本文改進算法的有效性,表5給出了本文提出的算法與目前主流的其他目標檢測算法的結果對比。

表5 不同算法檢測精度對比

4.6 檢測效果分析

為展示本文改進算法在實際場景中檢測的有效性,選取了部分真實場景圖片進行測試,通過可視化分析對比不同場景下的檢測效果。

綜上所述,不論是從客觀還是主觀方面分析,本文提出的改進算法均具有較好的表現,檢測精度高于原始算法,并且成功地降低了航拍圖像在復雜背景、目標密集和多尺度情況下網絡的誤檢和漏檢率,具有較好的性能。

5 結 論

本文通過隨機拼接、隨機提取嵌入等多個數據增強算法構建并擴充了基于真實場景的航拍特殊目標數據集,提出了一種基于多特征交叉融合和跨層級聯的多尺度航拍目標檢測算法(YOLOv5-MFCL),解決了真實場景下由于復雜背景干擾、目標角度多變、尺度不一等帶來的檢測正確率低、誤檢率高等問題,本文提出的改進檢測算法達到了81.0%的準確率,相比于原網絡提高了5.2%,檢測速度可達到56 frame/s,可以快速、準確地檢測到多種實際場景中的航拍特殊目標,為實際態勢把握提供準確、高效的理論支持。在未來的研究中,為了實現實際特殊場景移動端目標檢測的部署,本文將考慮對網絡進行剪枝、蒸餾等處理,進一步降低模型參數和復雜度,實現模型的輕量化。

猜你喜歡
航拍尺度注意力
讓注意力“飛”回來
財產的五大尺度和五重應對
航拍巴彥呼碩
航拍,蒼穹下的醉美視角
難忘的航拍
《航拍中國》美得讓人想哭
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合