?

改進YOLOV5目標檢測模型的實時抽煙檢測方法

2023-12-27 12:59周翔宇曲喜悅許杰倪文瀚
計算技術與自動化 2023年4期
關鍵詞:精度特征融合

周翔宇,曲喜悅,許杰,倪文瀚

(1.華北水利水電大學,河南 鄭州 450045;2.哈爾濱工業大學,黑龍江 哈爾濱 150001)

在公共場所以及一些特定的禁煙場所抽煙具有很大的危害,傳統的抽煙檢測方法主要依靠煙霧警報以及人力監測,但煙霧警報主要應用在較小的室內封閉空間,且存在較高的誤判性,如對各種噴霧型產品的誤判等,不易針對抽煙行為進行單一監測;人力監測則是一種成本較高的方式,且適用場所十分有限。

目前,基于機器視覺的目標檢測已在很多領域取得顯著的成果[1-3],但在抽煙檢測方面的相關研究較少。當前主流的目標檢測網絡對于小目標(如香煙)的識別具有一定局限性[4],追求針對小目標檢測的精度,難免要加深網絡的結構,導致整體模型參數量過大,速度下降,不利于部署在實際應用場景中成本較低的終端設備;若反之追求檢測速度,則很容易導致精度的大量丟失,無法滿足實際需求。

針對以上問題,本文基于YOLOV5網絡進行改進,將頸部網絡的FPN+PAN結構改為BiFPN結構,增強相同網絡層之間的特征信息融合與不同網絡層之間的特征信息傳遞。實驗結果表明,改進后的YOLOV5網絡在抽煙檢測數據集上的檢測精度更高,且檢測速度滿足實際場景應用需求。

1 改進YOLOV5網絡

1.1 YOLOV5網絡

YOLO[5-7]系列算法屬于單階段的目標檢測算法,目前被廣泛應用在各個領域。從YOLOV1到YOLOV7,近年來YOLO系列算法在不斷地更新迭代,本文采用的YOLOV5相較于之前的版本,主要進行了以下幾處優化:

1)Input:采用Mosaic數據增強,將4張圖片通過隨機縮放、裁剪、排布的方式拼接,豐富檢測背景,對小目標檢測有積極作用;同時采用了自適應anchor計算以及自適應圖片縮放的計算方法,在一定程度上從數據處理方面提升了檢測精度與檢測速度。

2)BackBone:采用Focus結構,在一張圖片上,每隔一個像素點取一個值,將一張圖片分成4張,在不丟失信息的情況下將通道數擴充為原來的4倍,即由原來的RGB三通道變為12通道,較高地提升了檢測速度。

3)Neck:采用FPN+PAN[8]結構。FPN和PAN分別采用自頂向下和自底向上的方式傳遞體征信息,進行特征融合,兩者結合使得到的特征更加明顯,進一步提升對不同尺度目標的檢測能力。

4)Prediction:采用CIOU_loss作為回歸損失函數。近些年提出的回歸損失函數有IOU_loss, GIOU_loss、DIOU_loss以及YOLOV5采用的CIOU_loss[9]?;貧w損失函數在不斷進行著完善, YOLOV5采用CIOU_loss作為回歸損失函數,使得預測框的回歸速度和精度均有提升。

1.2 加權雙向特征金字塔網絡

Tan[10]提出的加權雙向特征金字塔網絡(BiFPN)增強了相同網絡層之間的特征信息融合與不同網絡層之間的特征信息傳遞,能夠使目標檢測模型具有更高的精度。

YOLOV5網絡中使用的FPN+PAN網絡,在自頂向下的特征融合之后,引入了自底向上的路徑,使得底層信息更容易傳遞到高層。BiFPN結構主要有以下幾點改進:

1)刪除部分節點,將FPN+PAN結構(圖1)中P3和P7的中間節點刪除,因其僅有一條輸入邊或沒有進行特征融合,則認為其對融合不同特征的網絡貢獻更小,故將其刪除,簡化了雙向網絡。

2)在有中間節點的相同層增加跳躍連接,越過中間節點,將輸入節點與輸出節點進行一個連接,因為它們屬于同一層,所以這樣的操作并不會增加許多計算成本,卻可以融合更多的特征。

3)將每個自頂向下和自底向上的雙向路徑看作一個特征網絡層,且重復利用同一層,能夠實現更高層次的特征融合。

4)加權特征融合,不同的輸入特征具有不同的分辨率,常用的方法是將其調整為相同的分辨率,但其對輸出特征的貢獻卻總是不同的,所以對每個輸入特征增加一個權重,以少量的計算量為代價,獲取更好的特征融合輸出。權重公式如式(1)。

(1)

其中wi是可學習的權重,可以是向量(通道)、標量(特征)或多維張量(像素),在其后添加ReLU激活函數確保其大于零?!适菍W習率。

將YOLOV5網絡中的FPN+PAN結構替換為BiFPN結構,其結構如圖1所示。

2 實驗

2.1 模型評估參數

本實驗將選用以下幾個指標對網絡模型進行評估:

1)AP: 由Recall作為橫坐標、Precision作為縱坐標,模型的RP曲線圖(召回率和準確率的關系曲線)所圍成的面積,計算公式如式(2)。

(2)

式中,P(Precision)為準確率,R(Recall)為召回率,P(R)為準確率-召回率曲線函數,IoU為真實框與預測框的交并比,本實驗采用AP0.5作為評估標準。

2)Params:網絡模型參數量,代表網絡模型的大小。

3)FLOPs:每秒浮點運算次數,代表網絡模型的計算量。

4)FPS:每秒能處理的圖像數量,代表網絡模型的檢測速度。

圖1 使用BiFPN替換FPN+PAN示意圖

2.2 數據集與實驗設置

本實驗使用的數據集為網上采集視頻后,分幀提取圖片,然后使用LabelImg軟件進行數據標注得到的,大約1800張圖片,多為影視劇場景中的手持抽煙鏡頭。數據集按8∶2劃分訓練集和驗證集。

實驗基于pytorch1.10環境;NVIDIA RTX A6000顯卡一張。實驗選取的優化器為隨機梯度下降(SDG)算法,初始學習率為0.01,動量參數為0.937,訓練批次大小設置為16,每個模型均訓練200輪次。

2.3 實驗結果與分析

本實驗以YOLOV5-6.1版本作為Baseline,分別對YOLOV5-n、YOLOV5-s、YOLOV5-m、YOLOV5n-BiFPN和YOLOV5s-BiFPN這幾個網絡模型進行實驗評估,實驗結果如表1所示。將YOLOV5-s和YOLOV5s-BiFPN作對比,可以看出,替換為BiFPN的網絡模型精確度明顯提高,且網絡模型參數量、計算量以及FPS幾乎沒有變化;再將YOLOV5n-BiFPN與YOLOV5s-BiFPN對比可知,s版本的網絡模型精準度明顯高于n版本,參數量與計算量仍滿足部署在低成本終端設備的條件,且FPS僅下降3~4,完全滿足實際應用場景中的實時性要求;再對比s與m版本的模型,發現m版本模型精度提升十分有限,且參數量與計算量大幅上升,已不適用于低成本終端設備的應用場景。故本實驗最終選取YOLOV5s-BiFPN作為實時抽煙檢測的算法模型。

表1 各版本網絡模型性能比較結果

2.4 模擬實驗

在一般情況下,由于成本限制,實際應用場景中終端設備的計算能力比較低,因此選用100萬像素的攝像頭及NVIDIA GeForce MX150(2G)顯卡進行模擬實驗。模擬實驗分別進行手持香煙特寫鏡頭識別、正面抽煙識別以及側面抽煙識別。實際效果如圖2所示,可以看出,本文采用的方法針對抽煙檢測具有良好的效果。

圖2 模擬實際場景的抽煙檢測效果

3 結 論

針對實際場景中抽煙檢測困難的問題,提出了改進YOLOV5的模型應用在實時抽煙檢測中的方法,將其中的FPN+PAN結構替換為BiFPN結構。實驗表明,在幾乎不增加模型大小以及計算量的情況下,本文方法提升了模型的檢測精度,且滿足部署在計算能力較低的終端設備上進行實時檢測的條件。

小目標檢測在現實場景中更容易受到背景噪聲的影響,因此將來會繼續對增加注意力機制等改進方案進行研究,進一步提升模型對小目標的檢測能力。

猜你喜歡
精度特征融合
村企黨建聯建融合共贏
融合菜
從創新出發,與高考數列相遇、融合
《融合》
如何表達“特征”
不忠誠的四個特征
基于DSPIC33F微處理器的采集精度的提高
抓住特征巧觀察
GPS/GLONASS/BDS組合PPP精度分析
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合