?

YOLOv5算法簡述

2022-07-06 13:56程興林

客聯 2022年11期

程興林

摘要：目標檢測的任務是找出圖像中所有感興趣的目標物體，確定它們的位置和大小，是機器視覺領域的核心問題之一。由于各類物體有不同的外觀，形狀，姿態，加上成像時光照，遮擋等因素的干擾，目標檢測一直是機器視覺領域最具有挑戰性的問題。本文主要結合對Yolov5算法方式綜述模型的研究現狀，對其網絡模型結構圖中Input、Backbone、Neck以及輸出端四個模塊的主干網絡和偵測網絡進行解析。

關鍵詞：YOLO；車輛檢測；圖片分割

一、YOLOv5主干網絡

Yolov5的輸入端采用了和Yolov4一樣的Mosaic數據增強的方式。Mosaic數據增強提出的作者也是來自Yolov5團隊的成員，在其訓練模型階段使用了Mosaic數據增強方法，該算法是在CutMix數據增強方法的基礎上改進而來的。CutMix對兩張圖片進行拼接，而Mosaic數據增強方法則采用了4張圖片，并且按照隨機縮放、隨機裁剪和隨機排布的方式進行拼接而成，這種增強方法可以將幾張圖片組合成一張，這樣不僅可以豐富數據集的同時極大的提升網絡的訓練速度，而且可以降低模型的內存需求，對于小目標的檢測效果提升極大。該設計的主要有幾個優點是豐富數據集，隨機使用4張圖片，隨機縮放，再隨機分布進行拼接，大大豐富了檢測數據集，特別是隨機縮放增加了很多小目標，讓網絡的魯棒性更好。其次是減少GPU使用，考慮到很多人可能只有一個GPU，因此Mosaic增強訓練時，可以直接計算4張圖片的數據，使得Mini-batch大小并不需要很大，一個GPU就可以達到比較好的效果。Backbone（在不同圖像細粒度上聚合并形成圖像特征的卷積神經網絡），YOLO V5和V4都使用CSPDarknet作為Backbone，從輸入圖像中提取豐富的信息特征。CSPNet（Cross Stage Partial Networks）即跨階段局部網絡。CSPNet實際上是基于Densnet的思想，復制基礎層的特征映射圖，通過dense block發送副本到下一個階段，從而將基礎層的特征映射圖分離出來。CSPNet解決了其他大型卷積神經網絡框架Backbone中網絡優化的梯度信息重復問題，將梯度的變化從頭到尾地集成到特征圖中，因此減少了模型的參數量和FLOPS數值，既保證了推理速度和準確率，又減小了模型尺寸。這樣可以有效緩解梯度消失問題（通過非常深的網絡很難去反推丟失信號），支持特征傳播，鼓勵網絡重用特征，從而減少網絡參數數量.

二、YOLOv5偵測網絡

Neck（一系列混合和組合圖像特征的網絡層，并將圖像特征傳遞到預測層）PANET基于Mask R-CNN和FPN框架，加強了信息傳播，具有準確保留空間信息的能力，這有助于對像素進行適當的定位以形成掩模，YOLOv5現在的Neck和YOLOv4中一樣，都采用FPN+PAN的結構。FPN 是自上而下的，利用上采樣的方式對信息進行傳遞融合，獲得預測的特征圖。PAN 采用自底向上的特征金字塔。Bounding box損失函數Yolov5中采用CIOU_Loss做Bounding box的損失函數。損失函數使用了 CIOU_Loss。Prediction 包括 Bounding box 損失函數和非極大值抑制（ NMS），有效解決了邊界框不重合時問題。在目標檢測預測結果處理階段，針對出現的眾多目標框的篩選，采用加權 NMS 操作，獲得最優目標框。YOLOv5與YOLOv4不同點在于，YOLOv4中只有主干網絡使用了CSP結構。而Yolov5中設計了兩種CSP結構，以YOLOv5s網絡為例，CSP1_X結構應用于Backbone主干網絡，另一種CSP2_X結構則應用于Neck中。

三、結語

我相信伴隨著研究的深入進行，進一步提升程序的準確性以及其它物體種類的識別，對于未來人工智能的普及以及推動智慧城市的發展有著巨大的幫助。從目前來看，相關學術論文對YOLOv5s的研究和創新還很少，這就需要我們靜下心去探索改善更多更好的方法，根據不同的場景、不同項目需求靈活使用，取長補短，發揮YOLOv5快速高效、準確性高的檢測優勢。

參考文獻：

[1]Kaijie Zhang， C. Wang， Xiaoyong Yu， Aihua Zheng， Mingyue Gao， Zhenggao Pan， Guolong Chen，Zhiqi Shen， “Research on mine vehicle tracking and detection technology based on YOLOv5，”Systems Science & Control Engineering， Volume 10， Issue 1 （2022）， pp. 347-366， Apr 22，2022

[2]Redmon J， Divvala S， Girshick R， et al. You only look once： Unified， real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016： 779-788.

[3]張星. 運動目標的穩定跟蹤算法研究[D]. 中國科學院大學.

客聯2022年11期

客聯的其它文章: 社會工作介入社區志愿者服務隊培育的實踐探析; 人口老齡化背景下農村地區養老問題的研究; 高校學生黨員檔案管理模式探究; 民辦本科高校節約意識及行為的現狀調查及對策研究; 后疫情時代大學生就業工作路徑研究; “剩女”特征研究及其社會環境和諧性建設路徑

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合