?

DETR-Maritime模型:海上救援無人機小目標檢測研究

2024-04-08 13:13呂述杭于營徐金輝
互聯網周刊 2024年5期
關鍵詞:救援卷積精度

呂述杭 于營 徐金輝

摘要:目標檢測功能在海上人員搜救中扮演著至關重要的作用,特別是在復雜的海洋環境中,利用該功能可以對海面上的游泳者和船只進行精準定位。本文提出了一種專門設計和優化的DETR-Maritime模型。此模型基于RT-DETR實時檢測架構,并結合高效部分可重參數化塊,可以有效提升對小目標檢測的精度和實時處理能力。實驗結果顯示,與YOLOv8-L相比,該模型的參數量減少了67.7%,計算復雜度降低了73.9%,而mAP提升了2.6個百分點,達到0.544,可以為海上救援提供有效的支持。

關鍵詞:小目標檢測;海上救援;RT-DETR;SeaDronesSee

引言

在計算機視覺領域,目標檢測作為一項基礎技術,一直是研究的焦點。特別是在復雜的海上救援環境中,小目標檢測面臨重大挑戰,且直接關系到生命安全和救援效率。在海上救援中,無人機的應用要求目標檢測模型不僅能夠實時處理大量數據,還必須具有極高的精確性和穩定性。

在小目標檢測研究中,卷積神經網絡(CNN)和基于Transformer的模型是兩大主流研究方向。CNN架構,特別是YOLO系列(如YOLO v5、YOLO v7和YOLO v8),憑借其快速處理速度和良好性能在實時任務中占據主導地位。然而,這些模型在處理小目標時通常存在一定局限性,例如在復雜海洋背景下容易丟失關鍵特征信息。

近年來,Transformer模型由于其出色的特征提取能力和長距離依賴處理能力而受到關注。盡管如此,這種模型通常在處理速度上無法滿足實時任務需求。RT-DETR[1]的提出,標志著在保持Transformer高精準度的同時,顯著提高處理速度的一大進步。對于海上救援中的無人機目標檢測來說,這是一個重要創新。

在海上救援小目標檢測的具體應用中,研究面臨多種挑戰。例如,海面反射和波動可能導致目標檢測模型出現誤判或漏檢;在遙遠的海洋環境中,小目標的可見度極低;動態變化的環境對實時處理能力提出了更高的要求。本文旨在通過對RT-DETR主干網絡Resnet中basic block模塊的創新設計,有效解決上述問題。實驗結果表明,本文的方法不僅提升了模型對小目標的檢測能力,也保證了在復雜環境下的實時性和準確性,為未來執行海上救援任務的無人機應用提供了新視角和可能性。

本文的貢獻可以歸納為以下兩點:

一是提出了EPRepBlock(efficient partial reparametrizable block),這是一種創新型模塊,融合了部分卷積和可替換卷積的概念,在訓練階段使用多分支結構以提高準確度,在推理階段則通過分支融合以提高效率。該模塊還能夠處理具有不規則區域的輸入,如遮擋、數據缺失或尺寸不一的特征。

二是在Seadronesse Object Detection v2這一公共基準小目標檢測數據集上評估了本文提出的方法,并與多種最先進的方法進行了比較。實驗結果證明了本文方法在小物體檢測方面的卓越性能。

1. 相關工作

RT-DETR為一種基于Transformer的端到端對象檢測器,設計靈感來源于Carion等人[2]提出的DETR(檢測變換器),由于其獨特的特點而受到重視。DETR的顯著特點是消除了傳統檢測流程中的手動設計錨點(anchor)和非極大值抑制(NMS)組件,而采用二分匹配(bipartite matching)直接預測一對一的對象集合。通過采用這種策略,DETR簡化了檢測流程并緩解了由NMS引起的性能瓶頸。

然而,DETR面臨兩個主要問題:慢速的訓練收斂和難以優化的查詢。為解決這些問題,研究人員提出了許多DETR的變體。RT-DETR作為這些努力的結果,不僅在準確性和速度上超越了當前最先進的實時檢測器,而且不需要后處理,因此檢測器的推理速度沒有延遲,且保持穩定,充分利用了端到端檢測流程的優勢。這意味著RT-DETR在處理對象檢測任務時更加高效和準確,特別適用于需要快速準確檢測的應用場景,如實時監控或自動駕駛系統。

2. 方法

2.1 高效部分可重參數化塊

本文提出了一種命名為“高效部分可重參數化塊”(efficient partial reparametrizable block,EPRepBlock)的創新性殘差結構。EPRepBlock整合了部分卷積(PConv)和可重參數化卷積(RepConv)的理念,分別源于最新的FasterNet(CVPR 2023)[3]和廣泛認可的RepVGG(CVPR 2021)。PConv利用特征圖間的冗余,僅在輸入通道的一部分上執行卷積,這樣做能夠減少計算和內存訪問需求。受RepVGG架構的啟發,EPRepBlock在訓練結束后,通過可重參數化技術將多個卷積和恒等映射融合為單一卷積核,以此提高推理階段的效率。本文將EPRepBlock這種理念應用在了殘差網絡塊(ResNet blocks)中。

2.2 EPRepBlock的結構與操作

EPRepBlock的主要特征是其訓練期間的多分支架構,通過實現y=x+g(x)+f(x)的形式,允許模型隱式集成多個簡化模型,類似于ResNet中的殘差學習方法。在EPRepBlock中,g(x)表示1×1卷積分支,而f(x)表示經過部分卷積處理的特征圖。在維度匹配的情況下,本文利用恒等分支來保持信息流的完整性。

在推理時,為減少模型復雜度并提高效率,采用RepConv技術將訓練時的多分支結構重參數化為單一的3×3卷積層。具體轉換過程如下:

(1)分支融合:將1×1卷積和3×3卷積的BN層參數融合進卷積核和偏置中,得到W(0)和b(0)。

(2)偏置向量的合并:將各分支的偏置向量相加,得到最終的偏置b。

(3)卷積核的合并:將1×1卷積核填充為3×3大小,然后與3×3卷積核相加,得到最終的卷積核W。

2.3 EPRepBlock的計算優化

EPRepBlock在設計上充分考慮了計算和內存效率。利用PConv,僅對cp個通道執行卷積操作,顯著降低了FLOPs,如FasterNet所建議的。選擇這些cp個通道是基于特征圖間的相似性,這一點在先前的工作中已經被觀察到,但很少有工作像FasterNet那樣在簡化模型的同時充分利用這一點。由于在EPRepBlock中,未參與卷積操作的通道在后續PWConv層中仍然起作用,因此這些通道仍然被保留,使得信息能夠在所有通道間自由流動。

2.4 評測方法

交并比(intersection over union,IoU)構成了衡量對象檢測模型性能的一個關鍵指標,特別是在計算平均精度(AP)和平均精度均值(mAP)方面。IoU是預測框(prediction frame)和目標框(target frame)之間的交集與并集的比值。一個高IoU值表明預測框與目標框高度重疊,意味著檢測精確。本文選擇mAP,mAP在IoU閾值為0.5~0.95(以0.05為步長),mAP@50,即單一IoU閾值0.5時的mAP,兩個指標評估了不同模型在驗證集上的表現。

3. 實驗

本節將詳細介紹本文的實驗設置與框架,包括實驗數據集、對比實驗設計。這些設置共同構成了本文的嚴謹實驗架構,目的是確保結果的準確性和可靠性,以及驗證和分析不同改進策略對模型性能的影響。

3.1 數據集

SeaDronesSee為一個大型數據集,目的在于幫助開發在海上場景中使用無人機進行搜索和救援的系統。該數據集全部來自2023年第一屆海事計算機視覺(MaCVi)研討會,本文使用的是該賽事中Object detection v2賽道的數據集。數據集包含14227幅圖像,分別包括8930張訓練集圖像、1547張驗證集圖像和3750張測試集圖像。該任務的目標是檢測包括游泳者、船只、摩托艇、浮標和救生設備(救生衣/腰帶)在內的物體類別。每幅圖像均配備了人工標記的真實標簽(Ground-truth)檢測框,算法模型須學習并推理這些真實物體的位置及其檢測框的大小。

3.2 實驗結果與分析

本文通過采用EPRepBlock改良了Resnet-18中的Basic Blocks,并將此模塊應用于RT-DETR主干網絡Resnet的相應殘差塊,從而開發出一種名為“DETR-Maritime”的新型結構。本文比較了三種類型的算法模型:實時目標檢測模型、端到端目標檢測模型和實時端到端目標檢測模型,進行了共計6組的對比實驗。實驗結果如表1所示。

3.2.1 性能比較

相比當前流行的實時目標檢測模型如YOLO v5-L和YOLO v8-L,本文開發的DETR-Maritime在參數數量和計算復雜度方面實現了顯著降低。具體來說,DETR-Maritime的參數數量僅為14.10M,相比YOLO v5-L的53.17M和YOLO v8-L的43.63M,分別降低了73.5%和67.7%。在計算復雜度(GFLOPs)方面,DETR-Maritime僅需43.2GFLOPs,相比YOLO v5-L的135.3GFLOPs和YOLO v8-L的165.4GFLOPs,分別降低了68.1%和73.9%。

3.2.2 精度提升

在目標檢測精度方面,DETR-Maritime在驗證集上的平均精度均值(mAP)和mAP@50值分別達到0.544和0.869,比RT-DETR-R18和RT-DETR-L等其他實時端到端目標檢測模型高出0.12和0.2個百分點(AP50)。與端到端目標檢測器Faster-RCNN相比,DETR-Maritime在AP50上的提升尤為顯著,達到了197%。

3.2.3 綜合效率

雖然DETR-Maritime的幀率(FPS)為39.37,略低于YOLO系列模型,但考慮到其較低的計算復雜度和參數數量,這一表現顯示了在實時性和精度之間取得了良好的平衡。相比RT-DETR-R18和RT-DETR-L,DETR-Maritime在保證較高幀率的同時,實現了更高的檢測精度。

結語

本文開發了一種新型模塊EPRepBlock,并將其應用于RT-DETR結構,構建出名為DETR-Maritime的海上救援模型。該模型作為高精度實時端到端檢測器,在精度上超越了現有主流目標檢測模型,且無須額外訓練數據。盡管這種創新結構在理論和實驗方面取得了顯著成果,但在實際應用中面臨的挑戰,特別是在不同環境條件下的魯棒性和適應性,仍須進一步驗證。例如,在極端天氣條件或復雜海域背景下,模型的檢測精度和實時性可能會受到影響。未來的研究可以探索如何優化模型結構,以適應更廣泛的應用場景,包括不同類型的海上活動和不同的海洋環境。

參考文獻:

[1]Lv WY,Xu SL,Zhao Y,et al.Detrs beat YOLOs on real-time object detection[EB/OL].(2023-07-06)[2024-01-20].https://arxiv.org/abs/2304.08069.

[2]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//European conference on computer vision.Cham:Springer International Publishing,2020:213-229.

[3]Chen J,Kao S,He H,et al.Run,Don't Walk:Chasing Higher FLOPS for Faster Neural Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:12021-12031.

作者簡介:呂述杭,本科,研究方向:計算機深度學習目標檢測;于營,博士研究生,副教授,研究方向:語義分割、目標檢測;徐金輝,本科,研究方向:計算機深度學習目標檢測。

基金項目:海南省院士創新平臺科研專項(編號:YSPTZX202144);海南省自然科學基金項目(編號:621QN270);海南省高等學校教育教學改革研究項目(編號:Hnjg2023ZD-44)。

猜你喜歡
救援卷積精度
緊急救援
基于3D-Winograd的快速卷積算法設計及FPGA實現
3D打印大救援
從濾波器理解卷積
基于DSPIC33F微處理器的采集精度的提高
基于傅里葉域卷積表示的目標跟蹤算法
GPS/GLONASS/BDS組合PPP精度分析
救援行動
改進的Goldschmidt雙精度浮點除法器
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合