?

基于改進YOLOv6 電動單車違法停放的檢測方法研究

2023-09-21 15:49汪燕超胡旭曉
智能計算機與應用 2023年9期
關鍵詞:池化網絡結構單車

汪燕超, 胡旭曉

(浙江理工大學機械工程學院, 杭州 310018)

0 引 言

電動單車是生活中常見的交通工具,據相關資料顯示,中國居民電動單車擁有數已超過3 億,而大量電動單車隨意停放的現象對公眾的人身和財產安全造成了巨大威脅[1]。

以往對于電動單車違法停放的監測主要依靠在場所附近安裝監控并拍攝照片,而后交給監控中心的工作人員進行監控和預警。 這種方法消耗了大量的人力和物力,對于電動單車違法停放的識別準確率也不高。 近年來人工智能技術快速發展,有學者提出了基于深度學習的目標檢測模型,深度學習模型主要分為兩大類:一類是基于候選區域的二階段目標檢測模型,另一類是基于回歸的一階段目標檢測模型,兩者分別依據候選框卷積和模型回歸對目標進行檢測,代表算法有Faster -RCNN(Faster Region with CNN feature)、SSD(Single Shot MultiBox Detector)和YOLO 系列等,但這些算法常常存在對小目標漏檢和誤檢等問題。

針對傳統檢測方法的不足,本文提出了改進的YOLOv6 模型,在YOLOv6 模型檢測部分嵌入CBAM(Convolutional Block Attention Module)卷積注意力模塊,并引入Ghost 幻影卷積模塊,以提高模型的精確度和檢測速度。 改變外接攝像頭所拍攝電動單車停放圖片的亮度、遮擋范圍和目標個數等屬性制作相應數據集,據此評估改進后的模型的魯棒性、識別速度和精度,進一步提升改進后模型的性能。

1 YOLOv6 模型簡介

YOLO 系列模型采用直接回歸的方法,與傳統的目標檢測模型相比,YOLO 系列模型計算效率高,能夠方便地進行端到端的訓練,因此能快速地檢測出目標,在許多實際的應用場景都取得了較好的效果。

YOLOv6 模型的網絡結構主要由輸入端(input)、骨干網絡(backbone)、頸部(neck)以及輸出端(output)構成。 YOLOv6 在輸入端采用了HSV(Hue,Saturation,Value)數據增強方式,將輸入端所輸入的RGB 圖片拆分成3 個通道即色度,飽和度和明度,在此基礎上設置Hgain 色度增值、Sgain 飽和度增值和Vgain 明度增值系數,將3 個通道各自的增值系數與輸入端產生的范圍在-1 ~1 的3 個隨機系數相乘,加一可求得隨機的增益系數,借此可重新獲得映射增強后的RGB 圖片,不僅可以減少原始圖像中的噪聲干擾,還避免了在圖像增強的過程中造成失真。

在頸部部分,YOLOv6 模型引入了重參數化的視覺幾何組結構,提出了效率更高的高效重參數化方法EffcientRep,將頸部中步長為2 的卷積層替換為了步長為2 的重參數化卷積層,降低了模型對內存的占用率,并且將信號處理塊改為重參數化塊結構,加快了模型的推理速度[2]。

YOLOv6 模型在頸部部分的特征融合上同樣引入了重參數化的結構,將像素聚合網絡與重參數化塊兩者結合,降低了模型在硬件上的延時。 而在輸出端部分對檢測頭進行了解耦, 基于Hybrid Channels 的策略重新設計出了一個更高效的解耦頭結構,避免了YOLOvx 在解耦頭中新增兩個額外的3×3 的卷積,降低了網絡運算的復雜度,此外YOLOv6 模型還分開了邊框回歸與類別分類的過程,提高了模型的性能,且由于重新定義了算法的距離損失,導致YOLOv6 模型加快了收斂的速度并降低了檢測頭的復雜度[3]。

YOLOv6 模型網絡結構如圖1 所示。

圖1 YOLOv6 網絡結構圖Fig. 1 YOLOv6 network structure

2 改進的YOLOv6 模型

(1) 在neck 結構中將普通卷積替換為輕量級的Ghost 幻影卷積模塊,如圖2 和圖3 所示;

圖2 普通卷積Fig. 2 Ordinary convolution

傳統的卷積運算為了得到較為全面信息,采用了較大的卷積核和通道數會產生較多相似的特征圖,假設輸入特征圖的大小為w*h*c,經過n個卷積核,每個卷積核大小為k*k*1,根據卷積運算規則可知總體計算量為w*h*c*k*k*n,其中h和w是輸入特征圖的長度和寬度,c是輸入特征圖通道數,k是采用卷積核的長度和寬度,n指卷積的次數。

普通卷積過程所產生相似的特征圖,可以直接通過線性變換得到,而不需要進行復雜的非線性變換得到。 于是引入了Ghost 模塊,Ghost 模塊將傳統的卷積模塊分成了兩個部分,第一步仍然進行普通卷積,但減少特征圖的輸出數量,第二步在此基礎上進行線性變換生成相似特征圖,最終所得特征圖數量與傳統卷積運算一致, 其總體計算量為n/s*h*w*k*k*c+(s-1)*n/s*h*w*d*d,其中s和d分別是線性變換的次數以及線性變換過程中卷積核的大小。

由上述結論可得出傳統卷積運算核與Ghost 卷積運算所耗時間比值,式(1):

由于s是個常量,上述公式比值約為s即線性變換的次數,故可知Ghost 卷積運算相比與傳統卷積運算減少了網絡模型計算量,降低了所耗時間成本。

(2)卷積注意力模塊CBAM

CBAM 模塊是一種結合了空間和通道的注意力機制模塊,常在深度學習網絡結構中被用于提升網絡特征提取的性能,與通道注意力模塊相比增加了空間的注意力模塊,因此能夠取得更好的目標識別效果,因此能夠取得更好的目標識別效果。 CBAM模塊具體的網絡結構如圖4 所示。

圖4 CBAM 模塊網絡結構Fig. 4 Network structure of CBAM module

由圖4 可知,CBAM 模塊主要由通道注意力模塊和空間注意力模塊所組成,CBAM 模塊中的通道注意力模塊與傳統通道注意力模塊相比采取了全局平均池化和全局最大池化,兩種不同的池化意味著提取的高層次特征更加豐富,并且平均池化和最大池化共同與多層共享感知機連接以減少學習參數。通道注意力模塊網絡結構如圖5 所示。

圖5 通道注意力模塊網絡結構Fig. 5 Channel attention module network structure

在通道注意力模塊中的多層共享感知機是一種3 層結構的人工神經網絡,包括輸入層,輸出層和隱含層3 個部分,其中隱含層可以由多個隱層所構成,并且多層共享感知機中層與層是全連接的,w1,w2,w3則是權重,&為偏置,X為輸入參數,可知隱藏層輸出為w1X+&,其結構如圖6 所示。

圖6 多層共享感知機結構圖Fig. 6 Structure of multi-layer shared perceptron

空間注意力模塊同樣采用了最大池化和平均池化,不同的是在通道這個維度上進行的操作,即把所有的輸入通道池化成2 個實數,接著通過一個7*7的卷積核得到空間注意力矩陣,在此矩陣基礎上與輸入特征圖相計算可得最終的輸出特征圖,其結構如圖7 所示。

本文采用的CBAM 注意力模塊盡可能提取所識別目標的特征信息,忽略目標背景等非必要信息,從而提升改進后的網絡模型檢測精度。

3 數據集制作及實驗過程

本文對于電動單車違法停放的現象標注了在電梯和消防通道兩個場景下的數據,并結合開源的coco 數據制作了數據集,但由于數據格式不匹配或圖像文件損壞等問題需要篩掉不符合要求的圖像文件,采用HSV 數據增強方法對所得數據集進行數據預處理,增強電動單車圖像的色彩深度和對比度,經處理后得到符合條件的圖像數據共計1 030 幅,并將所得圖像數據使用LabelImg 工具標注。

將標注好的數據集按8:2 的比例劃分為訓練集和測試集,得到訓練集圖片共計824 幅,測試集圖片206 幅。

本次實驗在Ubuntu 22.04 操作系統上完成,硬件配置采用NVIDIA GFore GTX1660Ti 顯卡和Intel i5-7300H 處理器。 網絡模型采用pytorch1.10.2 搭建,在訓練過程中,設置初始學習率為0.01,訓練周期上限設置為500,批次大小設置為32,即每次參與訓練的樣本數量。

4 評價標準和實驗結果

查準率(Precision) 指正確預測為正的占全部預測為正的比例,式(2):

其中,TP指的是將正例判定為正例,即將圖中消防通道和電梯等場所背景中的電動單車檢測為電動單車的樣本,而FP指的是將反例判定為正例,即將圖中消防通道和電梯等場所背景檢測為電動單車的樣本。

查全率(Recall) 指即正確預測為正的占全部實際為正的比例,式(3):

其中,FN指的是將正例判定為反例,即將圖中消防通道和電梯等場所背景中的電動單車檢測為背景。

綜合查準率和查全率可得到P-R曲線,P-R曲線代表了網絡模型的預測效果,P-R曲線所圍成的面積大小被稱為AP平均精度,而針對檢測的每個目標都有單個的平均精度AP值,由此可引入全類平均準確率mAP,即對所有的目標類別的AP值再次求和取平均,式(4) :

此外,工程的實時性也十分重要,因此FPS(Frames Per Second)幀率也是衡量目標檢測算法性能的重要指標,代表了網絡模型每秒中圖像的檢測速度。

本文將改進后的網絡模型與原YOLOv6 模型在平均準確率、精確率和幀率這3 個方面進行比較,實驗結果如圖8,圖9 和表1 所示,改進后的網絡模型準確率提升了1.5 個百分點。

表1 實驗結果Tab. 1 Experimental results

圖9 改進后的YOLOv6 模型檢測結果Fig. 9 Improved YOLOv6 model detection results

5 結束語

本文提出了一種改進的YOLOv6 模型用于電動單車違法停放檢測,在YOLOv6 模型的neck 部分加入Ghost 卷積模塊,并在輸入端部分嵌入CBAM 卷積注意力模塊。 相比與傳統的YOLOv6 模型,目標的檢測精度和推理速度得到一定的提升,具有一定的實際應用價值。

猜你喜歡
池化網絡結構單車
基于Sobel算子的池化算法設計
共享單車為什么在國外火不起來
卷積神經網絡中的自適應加權池化
設施蔬菜病害識別中的CNN池化選擇
飛吧,單車
基于卷積神經網絡和池化算法的表情識別研究
對惡意破壞共享單車行為要“零容忍”
共享單車(外四首)
基于互信息的貝葉斯網絡結構學習
知識網絡結構維對于創新績效的作用機制——遠程創新搜尋的中介作用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合