?

一種基于改進YOLOv5s的高速公路廣告實時檢測算法

2024-01-26 06:29趙丁瑩劉正才雷宇斌朱建偉王書涵
湘潭大學自然科學學報 2023年6期
關鍵詞:廣告牌高速公路精度

趙丁瑩,劉正才,雷宇斌,朱建偉,王書涵,

(1.湘潭大學 土木工程學院,湖南 湘潭 411105;2.湖南科技大學 地理空間信息技術國家地方聯合工程實驗室,湖南 湘潭 411201;3.湖南省第一測繪院,湖南 長沙 410114)

0 引言

高速公路廣告牌基數龐大,隨著我國高速公路現代化建設的不斷推進,高速公路廣告牌的數量將持續增長.作為高速公路的重要運營模塊之一,現階段對于高速公路廣告牌的管理依舊采用人工巡檢的方式,該方式存在作業危險系數高、效率低下以及信息管理不便等問題[1-2].研發新型的高速公路廣告牌智能巡檢技術已成為亟須解決的一大問題.目標檢測作為幾乎涵蓋各類AI項目的第一步,對整個項目最終的結果具有重要意義.現階段目標檢測算法直接應用于高速公路廣告牌目標檢測,面臨以下幾個主要問題:(1)高速公路廣告牌影像數據集匱乏;(2)移動小型設備提供的算力有限,模型需盡量輕巧;(3)在高速行駛條件下進行實時檢測,目標尺度變化劇烈,同時容易造成廣告牌密集區域數據的運動模糊,降低檢測精度.

傳統的數字圖像處理技術難以滿足實時檢測的需求.近年來,深度學習對目標高緯度信息強大的挖掘能力被廣泛應用于各類目標檢測任務中.李晗等[3]提出了一種以固態硬盤(SSD)進行遷移學習的戶外廣告牌檢測方法,雖可行度高,但易出現漏檢.卜江等[4]采用模糊決策樹探測視頻流關鍵幀,抽幀后基于圖像顏色特征和局部尺度不變特征變化的特性與模板商標進行匹配來實現對廣告牌目標的檢測,該方法較好地結合了傳統方法與機器學習的優勢,但模板匹配的方法需要大量的樣本建立數據庫.黨倩[5]基于無人機平臺,以YOLOv5算法結合級聯分類器的方法實時檢測高速公路廣告設施,但在高速巡檢狀態下檢測精度欠佳.劉羅成等[6]融合YOLOv3目標檢測算法和語義分割算法識別城市道路旁的違規廣告牌,該方法雖實時檢測性能較好,但檢測速度較慢.盡管現有目標檢測方法在精度和實時檢測能力上遠遠超越了傳統方法,但在面對小型移動式嵌入檢測平臺處于高速運動狀態且僅能提供有限算力等苛刻條件時,算法性能有待進一步的提升.

當下主流的目標檢測算法按照深度學習模型的網絡架構階段數的差異分為兩類:雙階段模型(two-stage)和單階段模型(one-stage).其中,雙階段檢測法雖然檢測精度較高,但是模型體積大、計算速度慢且算力要求高,難以滿足實時檢測的需求,其代表性算法有Faster-RCNN[7]等;而單階段檢測法將目標檢測當作回歸問題來解決,可以一步得出待識別物體類型及所處圖像的位置坐標值,檢測速度和模型體積更適用于實時檢測任務,其代表算法為YOLO[8-11]系列,還有SSD[12]、EfficientNet[13]、RetinaNet[14]等.YOLOv1于2016年首次被Redmon等[8]提出,隨后該團隊更新了YOLOv2和YOLOv3,2020年,YOLOv4、YOLOv5 又相繼被提出.本文聚焦于解決高速公路廣告牌目標檢測所面臨的主要問題,提出一種改進的YOLOv5s標檢測算法,為高速公路廣告牌智能巡檢平臺視覺系統提供技術支撐.

1 YOLOv5介紹與改進

YOLOv5作為最具代表性的一階段檢測算法,其網絡架構可以靈活地進行網絡深度、寬度調整以及網絡組件配置,非常適合于算力有限設備的基礎部署模型.

1.1 YOLOv5算法介紹

YOLOv5網絡架構分為輸入端、骨干網絡(Backbone)、頸部網絡(Neck)、預測層(Head)4部分,其中YOLOv5s的簡化網絡架構如圖1所示.

圖1 未改進YOLOv5s的網絡架構Fig.1 does not improve the network architecture of YOLOv5s

輸入端主要包含數據增強、自適應錨框計算等功能.骨干網絡包含Foucs、CSP1-x/C3、SPP/SPPF 等組件;其中CSP1-x/C3模塊一共封裝了向量卷積運算[15]、歸一化處理[16]、線性整流函數[17]和池化[18]4個功能;SPPF對特征圖進行多次最大池化,盡可能多地提取高層級的語義特征,同時保證特征圖尺寸和通道數不變;但骨干網絡中的CSP1-x結構包含的參數量較大,使模型應用受限.頸部網絡(Neck)負責完成多尺度特征融合,Neck部分的組件有CBS、Upsample、Concat和不帶殘差神經網絡的CSP2-1;YOLOv5采用FPN[18](Feature Pyramid Network)+PA-Net[19]雙向耦合的特征融合策略,Neck層的特征融合金字塔中包含兩個PA-Net結構,此外YOLOv5將Neck的普通卷積升級為CSP2-1結構;雖然相比YOLOv4版本具有更強的特征融合能力,但在應對尺寸變化劇烈的檢測任務時依舊存在可提升的空間.預測層主要完成錨框的非極大值抑制以及訓練損失函數計算[20],表達公式如式(1)所示,通過改變每個損失函數權值(λ)可以調整對三者(分類損失Lclsj、定位損失Lobjj、置信度損失LCIoUj)的關注度.

(1)

式中:λ1、λ2、λ3為損失函數權值;Lclsj為分類損失;Lobjj為定位損失;LCIoUj為置信度損失.

1.2 YOLOv5改進

針對現有算法難以滿足高速公路廣告牌高精度實時檢測任務需求的問題,本文基于YOLOv5s進行改進,主要改進為:將骨干網絡中的CSP1-x模塊替換為性能更優、參數量更少的PP-LCNet網絡,在特征提取能力基本不變的同時實現模型的輕量化;將頸部網絡中的雙向金字塔特征融合網絡中的PA-Net網絡改為ASFF自適應特征融合網絡,進一步提高輕量化模型的特征融合能力,改進后的YOLOv5s網絡架構如圖2所示.

圖2 改進后的YOLOv5s網絡架構Fig.2 Improved YOLOv5s network architecture

1.2.1 骨干網絡的改進

YOLOv5骨干網絡中采用CSP1-x結構使其獲得了強大的深層特征提取能力,但大量的網絡參數和浮點數導致該算法在小型移動設備實時檢測應用中效果欠佳.為了兼容模型強大的特征提取能力與輕量化的體積,本文引入百度團隊提出的PP-LCNet網絡[21]對骨干網絡中的CSP-x模塊進行替換.PP-LCNet在檢測精度和模型體積上的優勢超越現有的輕量級網絡.PP-LCNet網絡架構如圖3所示,Stem部分使用標準的3×3卷積,基本模塊為深度可分離卷積(DepthSepConv);DW表示深度方向卷積,從Stem層開始,中間包含了13層DW;PW表示方向卷積;GAP表示全局平均池化;此外還包含虛線框內的SE注意力模塊.

圖3 PP-LCNet網絡架構Fig.3 PP-LCNet network architecture

PP-LCNet較同級網絡能保證在推理時間不變的情況下挖掘到更多的深度語義特征,PP-LCNet中深度可分離卷積選擇了性能更好的H-Swish激活函數,避免了大量的指數運算;同時采用了更大的卷積核,在網絡的末端進行了5×5卷積內核替換操作;此外,在最后的全局平均池化層與全連接層之間插入一個1 280維大小1×1的卷積核,解決網絡輸出尺寸較小的問題;最后,為了注意力機制能更好地捕捉顯著特征,調整了SE模塊至更合適的安裝位置,文獻[22]經過大量實驗驗證指出,當SE模塊位于網絡末端時,能產生最佳的精度與速度的平衡.PP-CLNet較CSP1-x參數量減少了36%,但該網絡的特征提取依舊具有魯棒性.

1.2.2 頸部網絡的改進

高速巡檢時要求檢測模型能夠在目標尺度變化劇烈的條件下進行高效的特征融合.YOLOv5現有的PA-Net特征融合方法只是簡單地對FPN輸出的不同特征層統一尺寸后再相加,這種融合方式不能有效地對抗不同尺度目標的不同層級特征之間沖突的不一致性導致的梯度傳播干擾.ASFF算法[23]能學習自適應融合不同層級的特征,在空間上過濾沖突信息以抑制梯度反向傳播時的不一致性.其適配最優融合的操作過程是差分的,所以非常方便在網絡中進行部署,且不干預主干模型,實現簡單.本文將特征融合層中的PA-Net替換為ASFF組成新的特征融合網絡,在計算體積基本不變的情況下能更好地融合高層的語義特征和底層的細粒度特征.ASFF結構如圖4所示:

圖4中的第一層、第二層、第三層分別為FPN特征金字塔輸出的特征圖,虛線框內則演示了ASFF-3的特征融合過程.融合的ASFF-3為不同層級輸出與可學習權重系數α3、β3、γ3的乘積的和,計算表達式如下:

(2)

(3)

圖4 ASFF網絡結構Fig.4 ASFF network structure

在高速公路廣告牌目標檢測任務中,雖然只有廣告牌一個目標類別,但在高速運動狀態下進行目標檢測任務,目標尺度變化劇烈,瞬時圖像中往往存在多個不同尺度的目標,如圖5所示,圖中從左到右廣告牌目標尺度依次增大,按該順序定義圖中3個目標分別為小目標、中目標和大目標,分別對這3個目標做可視化分析.

在圖6所示的第一層、第二層、第三層中,左邊為小目標的可視化特征圖,中間為中目標的可視化特征圖,右邊為大目標的可視化特征圖.

圖5 高速公路廣告牌多目標樣例 圖6 特征圖可視化Fig.5 Example of a highway billboard with multiple targets Fig.6 Feature map visualization

在第一層中,相對尺度最大的大目標響應劇烈,很容易就被檢測到,這說明深層網絡更注重語義信息,對于尺度相對較大的檢測目標,檢測頭需要配置更大的感受野,更加顧及基于底層特征的相互邏輯關系所構建的高級的語義特征,如由廣告牌邊緣、顏色、紋理等所構成的“廣告牌目標”這個高層的語義特征;第二層檢測到相對尺度較小的中目標和小目標;而相對尺度最小的小目標在第三層響應劇烈,大目標在該層則未被檢測到,這說明淺層網絡更加注重細節信息,對于尺度較小的目標則需要底層的細粒度特征來判別,諸如廣告牌中的邊緣特征、局部的顏色特征、輪廓特征、空間關系特征等.ASFF實現了每一層的權重參數與特征求積再相加的特征融合方式,只保留該層的有效信息,該方式能更好地融合不同層的特征信息,相較于原有模型簡單統一特征圖尺寸后就相加的特征融合方式能有效地提升模型的訓練效率.

2 實驗與分析

2.1 數據集構建

高速公路廣告牌智能巡檢技術還處于研發階段,已開源的數據集匱乏,針對該問題,本文自主制作了一份高速公路廣告牌影像數據集.數據來源于湖南省長株潭城市群長潭西高速路段,長度約24 km,其地理坐標為28°3′36″N~28°9′30″N,112°52′12″E~112°52′48″E.沿線兩側高炮廣告牌共128個,車載相機型號為DSC-RX1RM2,像素為4 020萬,焦距為35 mm.沿線采集圖像數據,剔除拍攝不清晰、角度不合理、圖內目標丟失等數據;其次為了防止在模型訓練過程中發生過擬合或欠擬合的情況,引入百度和361圖庫中符合要求的高速公路高炮廣告牌圖片,使數據集所體現的樣本特點更具普適性.最終得到總計2 200張高速公路廣告牌影像,按照1~2 200對圖片進行隨機編號排序,方便對數據集進行分割.本文對訓練集、驗證集、測試集的劃分對應比例為8∶2∶1.數據標注基于Labellmg軟件的YOLO格式人工標注完成,總計標注真實目標框9 774個,目標框對應的標簽文件包含其中心點橫縱坐標、長寬以及一個總類別標簽,存儲格式為txt格式,數據集標簽信息統計如圖7所示.

圖7 (a)數據實體;(b)標注框可視化;(c)標注框中心點坐標分布;(d)標簽尺寸分布Fig.7 (a)Data entity;(b)Dimension box visualization;(c)Coordinate distribution of the center point of the dimension box;(d)Label size distribution

2.2 評價指標

本文采用的評價指標有:精確率(Precision)、平均精度(AP)、召回率(Recall)、幀率(FPS).計算方式為:預測值為正樣本記為P;預測值為負樣本記為N;預測可能發生的情況以混淆矩陣的形式表示,如表1所示.

表1 混淆矩陣

則精確率、召回率、平均精度指標按如下公式(4)計算.

(4)

式中,APc為第c個類別的精確率.

2.3 模型訓練

模型訓練基于自建數據集,使用隨機梯度下降法(SGD)[23]進行梯度更新,訓練次數設置為 200 輪,訓練批的大小為16,訓練參數設置如表2所示.

表2 訓練參數設置

在本文實驗數據上的收斂效果如圖8所示.

圖8 改進YOLOv5s的損失函數Fig.8 Improved loss function of YOLOv5s

由于本文僅針對高速公路廣告牌一個類別標簽進行訓練,故類別損失為0,圖中僅展示回歸框損失與置信度損失.本文模型的檢測效果主要評價因子變化如圖9所示.

圖9 改進YOLOv5s的評價因子變化:(a)精確率變化圖;(b)召回率變化圖;(c)平均精度變化圖Fig.9 Improvement of YOLOv5s evaluation factor changes:(a)Accuracy variation chart;(b)Recall rate change chart;(c)Average accuracy variation chart

可見,本文提出的改進YOLOv5s算法在自建集上的性能非常好,收斂速度快,只訓練了30輪左右時兩類損失函數就已經趨于穩定;檢測精度高,僅訓練10輪左右mAP就已經達到98.5%.最終的實驗結果表明,本文算法在自建集測試中AP達到99.2%,Recall達到97.2% ,FPS達到77幀,并且權重大小僅10.8 MB,完全滿足高速公路智能巡檢目標檢測任務的需求.為了模擬該模型的實時檢測效果,本文基于車載相機錄制了長潭西高速路段模擬巡檢視頻,并在僅配置CPU的計算機上模擬實時目標檢測任務,結果表明本文算法在高速出入口廣告牌密集路段、廣告牌背景地物復雜路段以及高速行駛等條件下依舊具有魯棒性,部分檢測效果如圖10所示.

圖10 改進的YOLOv5s算法檢測效果Fig.10 Improved detection effect of YOLOv5s algorithm

2.4 對比實驗與分析

為了更好地體現本文算法在高速公路廣告牌目標檢測任務中的優勢,開展了與Faster-RCNN、SSD、YOLOv4、YOLOv5m以及未改進的YOLOv5s的對比實驗.所有模型訓練均基于本文自建集在相同訓練條件下開展.各模型在權重大小、平均精度、召回率以及推理時間對比結果如表3所示.由表3可知,從權重大小來看,YOLOv5s算法較二階段檢測算法Faster-RCNN、一階段檢測算法SSD和同系列的YOLOv4、YOLOv5m是最輕量的算法,權重大小僅為14.7 MB,但文本改進的YOLOv5s算法在此基礎上體積再次縮小了26.5%,僅有10.8 MB,非常適用于安裝在小型移動檢測設備上.從平均精度、召回率與推理時間來看,本文算法雖然比二階段檢測算法AP降低了0.6%、Recall降低了1%,但檢測速度大大超越了Faster-RCNN;與一階段算法相比,較除本文算法外性能最優的YOLOv5s在AP上提高了2.5%、Recall提高了1.9%,推理時間減少了12 ms.綜合來看,本文提出的改進YOLOv5s算法在自建集上的性能表現最佳.可見,本文算法較好地解決了高速公路廣告牌實時目標檢測任務所面臨的問題,具有較高的應用價值.

表3 對比實驗結果

2.5 消融實驗與分析

開展消融實驗以驗證本文在YOLOv5s算法網絡中改進的兩個模塊對算法整體性能的優化效果.實驗結果如表4所示,PL-YOLOv5s表示僅替換骨干網絡中的CSP1-x結構后的模型,AF-YOLOv5s表示骨干網絡不變,頸部網絡中PA-Net替換為ASFF后的模型.由表4可知,Neck不變,將骨干網絡中的CSP1-x模塊替換為PP-LCNe模塊后,參數量大大降低,推演時間較改進前降低了14 ms,但同時平均精度僅損失0.9%;骨干網絡不變,將頸部網絡的PA-Net特征融合層替換為ASFF自適應特征融合后,模型的平均精度較未改進前提高了2.7%,但同時推演時間僅增加3 ms;最后的實驗結果表明,將兩個模塊同時改進以后耦合效果良好,改進后的模型較原YOLOv5s平均精度提高了2.5%,推演時間減少了12 ms,在檢測平均精度和速度上同時得到了提升.

表4 消融實驗結果

3 結論

高速公路廣告牌智能巡檢平臺的研發迫在眉睫.本文自主制作了一份可靠的高速公路廣告牌影像數據集,同時提出了一種基于YOLOv5s改進的輕量化高精度的高速公路廣告牌實時目標檢測算法.基于自建數據集的實驗結果表明,本文算法平均精度、召回率、權重大小、每幀推演時間分別達到99.2%、97.2%、10.8 MB、13 ms;較未改進的YOLOv5s平均精度、召回率分別提高了2.5%、1.9%;權重大小、每幀推演時間減少了26.5%、12 ms.該方法有效地解決了移動小型設備難以提供足夠算力和高速巡檢條件下目標檢測精度較低的問題,為研發高速公路廣告牌智能巡檢平臺提供了有力的技術支持.下一步將開發嵌入本文模型的移動巡檢前端并開展基于車載遙感的廣告牌影像信息提取工作.

猜你喜歡
廣告牌高速公路精度
吹不倒的廣告牌
網絡廣告商的創新正被應用到戶外廣告牌上
基于DSPIC33F微處理器的采集精度的提高
高速公路與PPP
GPS/GLONASS/BDS組合PPP精度分析
高層樓頂廣告牌鋼結構探討
改進的Goldschmidt雙精度浮點除法器
無線供電式LED旋轉廣告牌設計
高速公路上的狗
GPS在高速公路中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合