?

YOLOv5算法簡述

2022-07-06 13:56程興林
客聯 2022年11期

程興林

摘 要:目標檢測的任務是找出圖像中所有感興趣的目標物體,確定它們的位置和大小,是機器視覺領域的核心問題之一。由于各類物體有不同的外觀,形狀,姿態,加上成像時光照,遮擋等因素的干擾,目標檢測一直是機器視覺領域最具有挑戰性的問題。本文主要結合對Yolov5算法方式綜述模型的研究現狀,對其網絡模型結構圖中Input、Backbone、Neck以及輸出端四個模塊的主干網絡和偵測網絡進行解析。

關鍵詞:YOLO;車輛檢測;圖片分割

一、YOLOv5主干網絡

Yolov5的輸入端采用了和Yolov4一樣的Mosaic數據增強的方式。Mosaic數據增強提出的作者也是來自Yolov5團隊的成員,在其訓練模型階段使用了Mosaic數據增強方法,該算法是在CutMix數據增強方法的基礎上改進而來的。CutMix對兩張圖片進行拼接,而Mosaic數據增強方法則采用了4張圖片,并且按照隨機縮放、隨機裁剪和隨機排布的方式進行拼接而成,這種增強方法可以將幾張圖片組合成一張,這樣不僅可以豐富數據集的同時極大的提升網絡的訓練速度,而且可以降低模型的內存需求,對于小目標的檢測效果提升極大。該設計的主要有幾個優點是豐富數據集,隨機使用4張圖片,隨機縮放,再隨機分布進行拼接,大大豐富了檢測數據集,特別是隨機縮放增加了很多小目標,讓網絡的魯棒性更好。其次是減少GPU使用,考慮到很多人可能只有一個GPU,因此Mosaic增強訓練時,可以直接計算4張圖片的數據,使得Mini-batch大小并不需要很大,一個GPU就可以達到比較好的效果。Backbone(在不同圖像細粒度上聚合并形成圖像特征的卷積神經網絡),YOLO V5和V4都使用CSPDarknet作為Backbone,從輸入圖像中提取豐富的信息特征。CSPNet(Cross Stage Partial Networks)即跨階段局部網絡。CSPNet實際上是基于Densnet的思想,復制基礎層的特征映射圖,通過dense block發送副本到下一個階段,從而將基礎層的特征映射圖分離出來。CSPNet解決了其他大型卷積神經網絡框架Backbone中網絡優化的梯度信息重復問題,將梯度的變化從頭到尾地集成到特征圖中,因此減少了模型的參數量和FLOPS數值,既保證了推理速度和準確率,又減小了模型尺寸。這樣可以有效緩解梯度消失問題(通過非常深的網絡很難去反推丟失信號),支持特征傳播,鼓勵網絡重用特征,從而減少網絡參數數量.

二、YOLOv5偵測網絡

Neck(一系列混合和組合圖像特征的網絡層,并將圖像特征傳遞到預測層)PANET基于Mask R-CNN和FPN框架,加強了信息傳播,具有準確保留空間信息的能力,這有助于對像素進行適當的定位以形成掩模,YOLOv5現在的Neck和YOLOv4中一樣,都采用FPN+PAN的結構。FPN 是自上而下的,利用上采樣的方式對信息進行傳遞融合,獲得預測的特征圖。PAN 采用自底向上的特征金字塔。Bounding box損失函數Yolov5中采用CIOU_Loss做Bounding box的損失函數。損失函數使用了 CIOU_Loss。Prediction 包括 Bounding box 損失函數和非極大值抑制( NMS) ,有效解決了邊界框不重合時問題。在目標檢測預測結果處理階段,針對出現的眾多目標框的篩選,采用加權 NMS 操作,獲得最優目標框。YOLOv5與YOLOv4不同點在于,YOLOv4中只有主干網絡使用了CSP結構。而Yolov5中設計了兩種CSP結構,以YOLOv5s網絡為例,CSP1_X結構應用于Backbone主干網絡,另一種CSP2_X結構則應用于Neck中。

三、結語

我相信伴隨著研究的深入進行,進一步提升程序的準確性以及其它物體種類的識別,對于未來人工智能的普及以及推動智慧城市的發展有著巨大的幫助。從目前來看,相關學術論文對YOLOv5s的研究和創新還很少,這就需要我們靜下心去探索改善更多更好的方法,根據不同的場景、不同項目需求靈活使用,取長補短,發揮YOLOv5快速高效、準確性高的檢測優勢。

參考文獻:

[1]Kaijie Zhang, C. Wang, Xiaoyong Yu, Aihua Zheng, Mingyue Gao, Zhenggao Pan, Guolong Chen,Zhiqi Shen, “Research on mine vehicle tracking and detection technology based on YOLOv5,”Systems Science & Control Engineering, Volume 10, Issue 1 (2022), pp. 347-366, Apr 22,2022

[2]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.

[3]張星. 運動目標的穩定跟蹤算法研究[D]. 中國科學院大學.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合