?

基于改進YOLOv5s的車輛檢測研究

2024-04-15 20:11肖的成李艷生
河南科技 2024年4期
關鍵詞:注意力機制目標檢測深度學習

肖的成 李艷生

摘 要:【目的】針對目標檢測算法在車輛檢測領域中應用時存在模型復雜、檢測精度較低的問題,基于改進YOLOv5s算法開展車輛檢測研究?!痉椒ā恳訥host模塊來替換YOLOv5s中的主干網絡,以達到模型剪枝的目的,改進后的網絡模型復雜度有所降低,從而解決了網絡模型較大的問題。同時,可引入擠壓—激勵注意力機制來提取更重要的特征信息,達到提高檢測精度的目的。本研究所用到的數據集均為汽車圖像,車輛檢測數據集共有12 786張圖片,將該數據集按照8∶1∶1的比例進行劃分。其中,訓練集為10 228張,測試集和驗證集均為1 279張,采用對比試驗法進行研究?!窘Y果】試驗結果表明,與原有的YOLOv5s相比,改進后的網絡模型在車輛檢測數據集上的平均準確率均值提升3%,查準率和召回率分別提升1.9%和3.2%,模型大小下降42%?!窘Y論】改進后的網絡模型有效降低了模型的復雜度,提高了檢測精度,并節約成本。

關鍵詞:深度學習;目標檢測;注意力機制;YOLOv5s

中圖分類號:TP391? ? ?文獻標志碼:A? ? ?文章編號:1003-5168(2024)04-0026-06

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.04.005

Research on Vehicle Detection Based on Improved YOLOv5s

XIAO Dicheng? ? LI Yansheng

(College of Physics and Electronics, Hubei Normal University, Huangshi 435002, China)

Abstract: [Purposes] Aiming at the problems of complex model and low detection accuracy of the current object detection algorithm in the field of vehicle detection, a vehicle detection research based on improved YOLOv5s is carried out. [Methods] The Ghost module was replaced with the original YOLOv5s backbone network to achieve the purpose of model pruning, which reduced the complexity of the improved network model and solved the problem of large network model; Then the Squeeze and Excitation attention mechanism is introduced to extract more important feature information to improve detection accuracy. The data sets used in this study are all images of cars, and on the vehicle detection dataset, a total of 12 786 pictures, the dataset is divided into 8∶1∶1.And among them, the training set is 10 228 pictures, the test set and verification set are 1 279 pictures and the method of comparative experiment was used in this study. [Findings] Experimental results show that compared with the original YOLOv5s, the average accuracy of the improved network model is increased by 3%, the accuracy and recall rate are increased by 1.9% and 3.2%, respectively, and the model size is reduced by 42%.[Conclusions] The improved network model effectively reduces the complexity of the model, saves costs and improves the detection accuracy.

Keywords: deep learning; object detection; attention mechanism; YOLOv5s

0 引言

隨著我國科技的蓬勃發展,汽車也日益普及。汽車普及在給人們帶來極大便利的同時,也帶來了交通路況擁堵、交通事故頻發等需要解決的難題,這些難題一直困擾著人們。因此,對交通目標識別系統進行研究是非常必要的。傳統檢測方法包括梯度直方圖、支持向量機,主要以滑動窗口來檢測目標,缺點是冗余時間長、手工設計的特征沒有魯棒性[1]。2012年,基于深度卷積神經網絡的Alex Net[2]以顯著優勢奪得ImageNet圖像識別比賽的冠軍,從此深度學習的檢測方法開始受到學者們的廣泛關注[3],目標檢測也步入以深度學習為基礎的新紀元。在當前計算機視覺領域研究中,以深度學習與目標檢測算法相結合的方式為主流研究方法。由于實際交通路況復雜、目標種類多,使目標檢測模型的參數過大,導致目標檢測精確度不高,且速度緩慢。本研究以YOLOv5s[4]為基礎進行優化改進,從而提高目標檢測的精度與速度。

YOLO[5]算法在確保檢測精度高的同時,還能提高檢測速度,因此,其在車輛交通檢測領域中的應用十分廣泛。周晴等[6]用更輕量化的主干網絡模型進行替換,在特征提取中采用加權雙向特征金字塔,并優化損失函數,以達到算法模型小、精確度高的目的;章程軍等[7]針對目標檢測算法在自動駕駛等領域車輛目標檢測中存在檢測精度不高、實時性和魯棒性較差等問題,在算法中引入一次性聚合模塊,并采用非局部注意力機制,同時利用加權非極大值抑制法,使平均準確率均值和平均準確率均得到有效提升,且檢測速度滿足實時性的要求。YOLOv5s作為當前YOLO系列最輕量化的模型之一,其參數量和模型復雜度仍較高[8]。華為公司于2020年提出一種輕量化模塊——Ghost模塊[9],能有效降低網絡模型的參數量和計算復雜度。本研究采用Ghost模塊來替換YOLOv5s的主干網絡,實現降低網絡參數量且提高檢測速度的目的,并在網絡中引入注意力機制(Squeeze and Excitation attention,SE)[10],使網絡提取出更加重要的特征信息。

1 YOLOv5s目標檢測算法

YOLO模型采用預定義預測區域法來完成目標檢測,將原始輸入圖像劃分為S×S個網格,每個網格允許預測出X個邊界框及一個類別信息,其中,邊界框涵蓋該目標位置信息和置信度信息。YOLOv5s網絡基于上述檢測方式,每個網格可預測3個邊界框(Bounding box),每個邊界框預測涵蓋(x,y,w,h,c)這5個元素,分別表示邊界框的位置、大小與置信度[11]。

YOLOv5s網絡結構主要由輸入端、主干網絡Backbone、頸部網絡Neck和輸出端組成,如圖1所示。輸入端要求輸入圖片大小是32的倍數,當輸入圖片不滿足要求時,輸入端會按照標準尺寸來自適應填充或縮放圖片大小。其中,Mosaic[12]數據增強法是通過隨機選取4張圖片進行縮放、旋轉等操作,經過上述操作后,會隨機拼接成新的訓練數據,不僅豐富了數據集,還使網絡模型在推理階段減少計算量,提高目標檢測速度。Mosaic數據增強效果如圖2所示。主干網絡由四部分組成,分別為Focus、CBL、CSP和SPP。對輸入的圖像進行Focus操作,即對圖像進行切片操作,圖像經過2倍下采樣得到4張特征圖,該方法不丟失圖像的特征信息,并使網絡提取到更加充分的特征信息??珉A段局部(Cross Stage Partial,CSP)模塊會構建更深的網絡,用于跨通道融合,通過融合每層的特征信息來獲得更豐富的特征圖像。Neck網絡結合上采樣層和CSP模塊,使高層語義信息與底層位置信息融合,得到預測的特征圖像,并將其送到輸出端。輸出端中的3個檢測頭分別對原圖像進行8倍、16倍和32倍的下采樣,從而生成3個不同尺寸的特征向量,可用來預測圖像特征,并生成邊界框坐標和返回目標類別的概率和置信度。

YOLOv5s在目標檢測領域中具有很強的檢測性能,但其不是專門對車輛目標進行檢測的,故存在檢測效果差等問題,尤其當車輛目標較為密集時,檢測效果并不理想。為滿足對車輛目標檢測時具有實時精確性、網絡輕量化的需求,本研究對YOLOv5s網絡進行改進,旨在提高對車輛目標檢測的精度和速度。

2 改進的YOLOv5s目標檢測算法

2.1 主干網絡的改進

卷積神經網絡(Convolutional Neural Networks,CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡[13],目標檢測模型作為主干網絡多用來提取目標特征。本研究在YOLOv5s模型的基礎上,將采用Ghost模塊來替換YOLOv5s模型主干網絡中的2個CSP模塊,以達到模型剪枝效果。

GhostNet以普通卷積和線性運算的方式,將線性變換作用于普通卷積特征圖上,可獲得相似的特征圖,通過結合這兩種方式,能有效減少模型參數和計算次數,Ghost模塊如圖3所示。Y的固有特征圖由普通卷積生成,Y′的冗余特征圖由線性運算生成。Ghost模塊表示見式(1)。

Y=X*f+b (1)

式中:[X∈Rc×w×h]為輸入特征圖;c為其通道數;h為其高度;w為其寬度;*為卷積操作;b為偏置項。

需要使用卷積核大小為[k×k]的卷積塊,可得到通道數為[n]的輸出特征圖[Y∈Rn×w′×h′],即[f∈Rc×k×k×n]。運用該方法進行一次特征提取需要的運算量見式(2)

[cost=h′×w′×n×k×k×c] (2)

由此可知,大多數特征圖是相似的,部分卷積操作得到冗余的特征圖。多余的網絡計算會浪費大量的算力和存儲資源。針對該問題,Ghost模塊通過普通卷積運算得到固有特征圖,見式(3)。

[Y′=X*f ′+b] (3)

式中:[Y′∈Rm×w′×h′];[f ′∈Rc×k×k×m];m為通道數。

為了獲得與原輸出特征圖相同數量的n維通道,Ghost模塊將m維固有特征圖進行一系列線性變換,見式(4)。

[yij=?ij(yi′)?i=1,...,m;j=1,...,s] (4)

式中:[yi′]為第i個固有特征圖;[?ij]為第i個特征圖進行的第j個線性變換的函數。

若提取前n個作為最終輸出,則獲得的特征圖數量與原輸出特征圖Y相同,即Ghost模塊完成一次特征提取需要的運算量見式(5)。

[cost′=h′×w′×ns×k×k×c+(s-1)×h′×w′×? ? ? ? ? ? ?ns×k×k] (5)

將前后兩個運算量相比,因為s?c,則運算量參數比見式(6)。

[r=ccs+s-1s=s×cc+s-1≈s] (6)

由此可知,用Ghost模塊來替代原主干網絡,可有效降低參數量及計算量,能獲得更好的特征提取效果。

2.2 引入注意力機制

對于輸入的一張圖像信息,需要關注的是圖像上下文全局信息。隨著網絡的不斷加深,深層特征信息往往會被損失,為了解決這個問題,本研究引入擠壓—激勵注意力機制(Squeeze-and-Excitation,SE)模塊。SE模塊是從特征的通道關系切入,經全連接層和Sigmoid激活函數來獲取圖像特征通道的權重,根據權重的不同能抑制一些無用的通道特征,從而提取更加關鍵的特征信息,使得檢測效果更好。SE模塊如圖4所示。其中,Ftr為傳統卷積操作,以X為輸入,U為Ftr的輸出,C′、H′、W′分別為圖像的通道數及高度和寬度,C、H、W分別為圖像經過卷積操作后得到的圖像通道數及高度和寬度,Fsq(·)為對圖像特征做全局平均池化操作。

SE注意力機制先將輸入大小為[H×W×C]的特征Uc,進行全局平均池化,得到[1×1×C]的特征Zc,本質上是將整體空間特征編碼為一個富含全局信息的特征,見式(7)。

[Zc=Fsq(Uc)=1H×Wi=1Hj=1W Uc(i, j)] (7)

先將全局大小的特征信息經過Excitation操作,即Fex(·,W),獲得特征通道之間的聯系,并獲得各通道的權重。再通過ReLU激活函數,并經過全連接層恢復輸入時的通道數。最后經過Sigmoid函數得到權重,見式(8)。

[S=Fexz,W=σgz,W=σW2δW1z]? ? (8)

式中:z為全局特征,即式(7)中的Zc先經過全連接層降維;W1為降維系數。

將式(8)中的S與特征Uc相乘,得到權重Sc,生成最終的目標特征見式(9)。

[Xc=FscaleUc , Sc=ScUc] (9)

3 試驗結果與分析

3.1 數據集

試驗的數據集是從coco[14]數據集中提取的,包含一萬兩千多張圖片及相應的標注文件,圖片信息較為豐富,且涵蓋了不同地理、環境等條件因素下的圖片數據。數據集中只包含車輛類別car,將該數據集按照8∶1∶1的比例劃分為訓練集、驗證集、測試集,其中,訓練集有10 228幅圖片、驗證集有1 279幅圖片、測試集有1 279幅圖片。

3.2 試驗環境及評價指標

試驗的硬件配置如下:CPU為Intel(R) Core(TM) i5-12500H;GPU為NVIDIA GeForce RTX 3050Ti;內存為16 G。軟件環境為:Windows操作系統;python 3.8;Torch 1.13.0 cuda 10.1。設置網絡訓練超參數見表1。

本研究的主要評價指標是精確率(precision)、召回率(recall)、平均準確率(AP)、平均準確率均值(mAP)及推理時間。精確率和召回率的計算見式(10)、式(11)。

[precision=TPTP+FP] (10)

[recall=TPTP+FN] (11)

式中:TP(True Positives)為正樣本數據中與真實框交并比大于閾值的檢測框的個數,即被正確識別的車輛目標;FP(False Positives)為正樣本數據中與真實框交并比小于閾值的檢測框的個數,即誤檢的車輛目標;FN(False Negatives)為正樣本中未檢測到的真實框的數量,即漏檢的車輛目標。

平均準確率(AP)和平均準確率均值(mAP)是目標分類和定位性能的主要衡量指標計算見式(12)、式(13)。

[AP=01PRdR] (12)

[mAP=1Ni=1NAPi] (13)

3.3 模塊改進對比分析

本研究通過逐步修改每個改進模塊,來驗證改進模塊對網絡整體性能的影響,并驗證是否能提升網絡性能。試驗結果見表2。

只對主干網絡進行改進,用Ghost模塊來替換YOLOv5s主干網絡中的兩個CSP模塊,得到I-YOLOv5s。與YOLOv5s網絡相比,I-YOLOv5s的mAP.5從0.678提升至0.685,提高了0.7%,而模型大小由14.4 MB減少至7.8 MB。II-YOLOv5s是在I-YOLOv5s的基礎上,引入擠壓—激勵注意力機制。相比較I-YOLOv5s網絡,II-YOLOv5s網絡的mAP.5值從0.685提升至0.708,提高了2.3%,模型大小沒有顯著變化。

由表2可知,對網絡每個模塊進行改進后,其mAP.5和mAP.5∶.95值均逐步提升,且推理時間沒有顯著增加。

3.4 改進前后YOLOv5s對比分析

為了研究II-YOLOv5s性能與原網絡的差異,對兩個模型的訓練結果進行對比分析,結果見表3。

由表3可知,改進模型II-YOLOv5s的平均準確率均值(mAP)為70.8%,比原網絡模型的mAP值提升3%,查準率和召回率分別提升1.9%和3.2%,推理時間變化不大,但仍滿足實時性的要求。YOLOv5s與II-YOLOv5s的損失值和mAP對比如圖5所示。

由圖5可知,隨著訓練批次逐步遞增,位置損失值不斷下降,在訓練批次為60次左右時,曲線趨于穩定,II-YOLOv5s模型位置損失值明顯低于YOLOv5s模型位置損失值。從YOLOv5s與II-YOLOv5s的mAP值對比曲線得出,模型趨于穩定后,II-YOLOv5s的mAP值優于YOLOv5s模型。

4 結語

本研究在YOLOv5s網絡模型基礎上,對其功能進行了改進,并將其應用于交通目標識別系統中。II-YOLOv5s網絡模型在主干網絡中使用Ghost模塊,減少了網絡模型參數量和計算量,提高了平均準確率均值。通過引入SE注意力機制,根據不同權重來抑制無用的通道特征,并有效提取了更加關鍵的特征信息,使得檢測精度更高。試驗結果表明,改進后的網絡模型平均準確率均值較原網絡模型有所提升,位置損失值有一定程度的降低,可作為移植到移動端設備的網絡模型,且改進后的模型更符合網絡檢測速度的實時性要求。后續研究將改進后的網絡模型嵌入到移動設備中,做進一步驗證。

參考文獻:

[1]肖雨晴,楊慧敏.目標檢測算法在交通場景中應用綜述[J].計算機工程與應用,2021(6):30-41.

[2]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNetclassification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2017(6)84-90.

[3]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015(7553):436-444.

[4]董延華,李佳澳.改進YOLOv5s遙感圖像識別算法研究[J].吉林師范大學學報(自然科學版),2023(2):117-123.

[5]REDMON J,DIVVALA K S,GIRSHICK B R,et al.You only look once: unified,real-time object detection[C]//Computer Vision & Pattern Recognition.IEEE,2016:779-788.

[6]周晴,譚功全,尹宋麟,等.改進YOLOv5s的道路目標檢測算法[J].液晶與顯示,2023(5):680-690.

[7]章程軍,胡曉兵,牛洪超.基于改進YOLOv5的車輛目標檢測研究[J].四川大學學報(自然科學版),2022(5):79-87.

[8]蔣超,張豪,章恩澤,等.基于改進YOLOv5s的行人車輛目標檢測算法[J].揚州大學學報(自然科學版),2022(6):45-49.

[9]HAN K,WANG Y,TIAN Q,et al.GhostNet:more features from cheap operations[J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:1577-1586.

[10]HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2018:7132-7141.

[11]邵延華,張鐸,楚紅雨,等.基于深度學習的YOLO目標檢測綜述[J].電子與信息學報,2022(10):3697-3708.

[12]YUN S,HAN D,OH S J,et al.CutMix:regularization strategy to train strong classifiers with localizable features[J].CoRR,2019:1-14.

[13]李炳臻,劉克,顧佼佼,等.卷積神經網絡研究綜述[J].計算機時代,2021(4):8-12,17.

[14]LIN T Y,MAIRE M,BELONGIE J S,et al.Microsoft coco:common objects in context[J].CoRR,2014,8693:740-755.

猜你喜歡
注意力機制目標檢測深度學習
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統
視頻中目標檢測算法研究
行為識別中的人體運動目標檢測方法
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合