?

基于YOLOv3的改進目標檢測算法

2021-11-07 01:53田新春
電腦知識與技術 2021年25期
關鍵詞:特征融合目標檢測

田新春

摘要:目標檢測作為計算機視覺領域的一個重要問題之一,近年來隨著深度學習的不斷發展,基于深度學習的目標檢測算法越來越受到廣泛的關注。在近年來較新的目標檢測算法中,選用YOLOv3(You Only Look Once v3)算法,并在其基礎上為進一步提高檢測精度,再增加一個特征尺度,與其他特征尺度進行特征融合,并使用k-means聚類重新確定錨框,同時增加一定的網絡層數。實驗在PASCAL VOC數據集完成,實驗結果表明,改進的YOLOv3算法檢測精度和召回率達到了75.3%和98.1%,較原算法分別提高了2.3%和0.7%。

關鍵詞: YOLOv3; 目標檢測; 特征融合; k-means; PASCAL VOC

中圖分類號:TP181? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)25-0028-03

Abstract:Object detection is one of the important problems in the field of computer vision. In recent years, with the continuous development of deep learning, target detection algorithms based on deep learning have attracted more and more attention. Among the newer target detection algorithms in recent years, YOLOV3 (You Only Look Once V3) algorithm is selected. In order to further improve the detection accuracy, another feature scale is added to carry out feature fusion with other feature scales. In addition, k-means clustering is used to redetermine the anchor frame and at the same time, a certain number of network layers are added. Experimental results show that the detection accuracy and recall rate of the improved YOLOV3 algorithm reach 75.3% and 98.1%, which are 2.3% and 0.7% higher than the original algorithm, respectively.

Key words:YOLOv3;? object detection;? k-means;? feature fusion;? PASCAL VOC

1 引言

目標檢測是計算機視覺領域中最基本也最具挑戰性的問題之一,近年來隨著深度學習的不斷發展取得了十分顯著的成果,同時也被應用于許多領域,如人臉檢測、行人檢測、車輛檢測、文本檢測等等。在目標檢測方面,國內外學者先后提出了許多不同的算法。自2012年Krizhcvsky等人提出AlexNet[1]這種深度卷積神經網絡(DCNN)模型起,計算機視覺領域大部分研究重點都放在了深度學習方法之上。從R-CNN[2]、SPP-Net[3]、Fast R-CNN[4]、Faster R-CNN[5]等這些two-stage算法,再到YOLO[6](You Only Look Once)、YOLOv2[7]、YOLOv3[8]、SSD[9]等one-stage算法,檢測精度和檢測速度逐漸提升。本文在YOLOv3算法的基礎上進行了改進,經實驗對比證明,與原YOLOv3算法相比檢測效果得以提升。

2? YOLO算法

在YOLO算法出現之前,目標檢測需要重新利用分類器來進行檢測,流程復雜,很難優化。YOLO算法則將目標檢測框架看作回歸問題,從空間上分割邊界框和相關的類別概率,經過一次評估即從圖像上預測邊界框和類別概率,可以實現直接對檢測性能端到端的優化,檢測速度得到大大的提升。

YOLO算法首先將輸入圖像分為S×S個網格,如果某個目標的中心位置坐標在某個網格中,這個網格就負責檢測這個目標,如圖1所示。每個網格負責預測B個邊界框(bounding box),每個邊界框再負責預測邊界框位置(x,y,w,h),其中(x,y)為邊界框的中心坐標,(w,h)為邊界框的寬和高。此外還要預測置信度(confidence score,即該位置有目標的置信度),以及C個類別概率(即該目標屬于哪一類別的概率)。

YOLOv2在YOLO的基礎上作出一些改進,在每個卷積層后添加批量歸一化層(Batch Normalization),加快訓練的收斂速度,有利于模型的正則化,采用Darknet-19作為主干網絡,使用分辨率更高的分類器,并使用錨框(anchor box)進一步提升精度。

YOLOv3的網絡結構由Darknet-53和檢測網絡兩部分組成,分別用于特征提取和多尺度預測。主干網絡Darknet-53在YOLOv2的Darknet-19基礎上改進而成,由卷積層和殘差層構成,如表一所示,在這里去掉了所有的Maxpool層,并增加了更多卷積層,共包含23個殘差塊。YOLOv3首先將原始圖像縮放到416×416的大小,接著通過DarkNet-53網絡將原始圖像按照特征圖的尺度大小劃分為S×S個等大的單元格,對應的3個尺度的特征圖大小為13×13、26×26、52×52,再對這些特征圖進行特征融合。經過5次下采樣,最終輸出大小為輸入的1/32。該算法使用殘差網絡結構作為特征提取器,并采用FPN架構(Feature Pyramid Networks,特征金字塔網絡)來實現多尺度檢測,使得分類效果更好,在小目標上的識別率也有所提升,由于網絡層次加深,所以速度相較YOLOv2會稍慢,但檢測精度進一步得到提升。

猜你喜歡
特征融合目標檢測
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
基于SIFT特征的港口內艦船檢測方法
融合整體與局部特征的車輛型號識別方法
視頻中目標檢測算法研究
行為識別中的人體運動目標檢測方法
移動機器人圖像目標識別
基于背景建模法的運動目標檢測
基于P3電位的目標檢測研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合