?

基于ECA 和BIFPN 的低照度環境下的行人目標檢測算法

2023-09-21 15:49相敏月涂振宇孫逸飛
智能計算機與應用 2023年9期
關鍵詞:集上照度行人

相敏月, 涂振宇, 孫逸飛, 方 強, 馬 飛

(南昌工程學院信息工程學院, 南昌 330000)

0 引 言

行人檢測是目標檢測的重要研究領域之一,在智能交通、視頻監控及無人機等方面的應用十分廣泛。

傳統的行人檢測方法主要依賴于人工提取特征的方式,Dalal 等人[1]于2005 年開發了一種使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征和支持向量機(Support Vector Machine,SVM)分類器的行人檢測模型。 該模型首先使用滑動窗口在圖像中識別候選區域;其次,提取HOG 特征并使用SVM 對其進行分類;最后,使用極大抑制方法將輸出結果組合在一起。 Felzenszwal 等人[2]在2008 年引入了可變形零件模型(Deformable Part Model,DPM)用于行人檢測。 DPM 使用HOG 特征并將圖像分成幾個部分,DPM 可以使用組件的組合來檢測行人,并能夠對行人的可變形部分建模,從而更準確地檢測不同大小和形狀的行人。 這些模型存在明顯的局限性,手工特征提取單一,難以適用于遮擋、姿態變化和低照度等復雜環境下的行人目標檢測,導致不同程度的漏檢和誤檢等問題。

近年來,深度學習在行人檢測中逐漸得到廣泛的應用。 這種方法具有強大的表征能力,能夠解決傳統方法需要人工提取特征的問題。 目標檢測從階段上分為兩種,一階段和二階段。 一階段主要包括快速區域卷積神經網絡(Fast Region - based Convolutional Neural Network,Fast R-CNN)和更快速的區域卷積神經網絡(Faster Region - based Convolutional Neural Network,Faster R-CNN)等,這類網絡預先回歸一次目標候選框,再利用網絡對候選框進行分類和回歸,雖然精度較高但檢測時間過長。 二階段主要包括單激發多框探測器(Single Shot MultiBoxDetector,SSD) 和YOLO (You Only Look Once)等為代表,只進行一次分類和定位,大大提高了檢測速度,但同時也導致了精度較差。 何自芬[3]等針對輔助駕駛中夜間小目標紅外行人檢測精度低的問題,提出在網絡中添加空間金字塔池化模塊與更小的感受野的檢測層,來增強網絡輸出特征圖的表征能力;郝帥[4]等通過構建分層注意力映射模塊來增強行人特征表達能力;李傳東[5]以輕量級LFFD(Light and Fast Face Detector)網絡為基礎,由兩級改進網絡組合,提高了檢測精度。 但是在低照度環境下,這些研究依舊存在不同程度的漏檢問題。

深度學習的行人檢測方法大多應用于可見光下的場景,針對低照度等復雜環境下的檢測,往往效果較差。 可見光圖像的優勢在于依據物體的反射率的不同進行成像,光譜信息較多,分辨率較高,圖像背景比較豐富,但易受到外界環境因素的影響,在低照度等復雜環境下不能正常工作。 而在紅外圖像中,受光照條件的影響較少,更容易識別出行人位置。

本文改進YOLOv5s 的主干網絡,加入通道注意力機制ECA(Efficient Channel Attention),加強網絡對行人特征的初步提??;在頸部網絡中引入加權雙向特征金字塔( Bidirectional Feature Pyramid Network,BIFPN),通過殘差連接增強特征的融合能力;最后,采用公開的韓國科學技術院KAIST 多光譜行人檢測數據集作為實驗數據,進行模型性能測試,并與YOLOv5 其他模型進行對比。

1 YOLOv5s 模型原理

YOLOv5 通過調整兩個參數,即網絡深度和特征圖寬度劃分出多個模型,其中YOLOv5s 深度最小,特征圖的寬度最小,是當前一種實時性和準確性俱佳的行人檢測模型,并且在多尺度目標檢測中具有良好的效果。 所以本文采用YOLOv5s 模型,模型結構如圖1 所示。

圖1 YOLOv5s 模型結構Fig. 1 YOLOv5s model structure

整個模型結構主要包含4 個部位,分別為輸入端(Input)、主干網絡(Backbone)、頸部網絡(Neck)和頭部(Head)檢測模塊。 檢測模塊相對于YOLOv3和YOLOv4 沒有變化;主干網絡(Backbone)主要是用于提取輸入圖像的特征,Foucs 模塊對圖片進行切片操作,使網絡提取到更加充分的特征信息;頸部網絡主要用于生成特征金字塔,增強網絡模型對不同尺度物體的檢測能力,實現對同一物體不同尺寸和尺度的識別。 YOLOv5s 在特征金字塔網絡(Feature Pyramid Networks,FPN)結構的基礎上參考路徑聚合網絡(Path Aggregation Network,PANet),實現了多尺度特征融合,增強了特征的表達能力。

2 改進YOLOv5s 模型

在低照度環境下,行人檢測或多或少會存在漏檢和誤檢的問題,本文在YOLOv5s 的基礎上,在主干網絡中插入ECA 通道注意力機制,提升模型對低照度環境下行人細節的提取能力;在頸部網絡中,用BIFPN 網絡來代替PANet 網絡,使得模型可以更精確的識別行人目標,加快特征融合。 改進后的BEYOLOv5s 模型結構如圖2 所示。

圖2 改進后的BE-YOLOv5s 模型結構Fig. 2 Improved BE-YOLOv5s module structure

2.1 主干網絡改進

在神經網絡中加入不同的通道注意力機制,可以提升模型的檢測精度,更準確的識別和定位在低照度環境下的行人目標。 注意力機制的原理是根據權重系數,重新加權求和。 注意力機制的本質在于對不同的任務可以根據輸入進行特征匹配,ECA 通道注意力機制有效的減少了參數計算量,提升了檢測速度。

ECA 通道注意力機制的工作原理如圖3 所示。首先, 剔除原來的壓縮和激勵(Squeeze - and Excitation,SE)模塊中的全連接層,將輸入特征圖進行全局平均化池操作;其次,進行卷積核大小為k的一維卷積操作,使用Sigmoid 激活函數生成通道權重;最后,將特征圖與通道權重相乘,得到輸出特征圖。 同時ECA 通道注意力機制將原來SE 模塊中的多層感知機模塊轉變為一維卷積形式,降低了參數計算量,實現了跨通道交互,用更少的計算成本提高檢測網絡的性能。

圖3 ECA 通道注意力機制Fig. 3 ECA Channel attention mechanism

在YOLOv5 提取行人的初始特征過程中,由于受到低照度環境的影響,特征顯示不足,本文在主干網絡的最后一個CSP(Cross Stage Partial)模塊后加入ECA 通道注意力機制,控制了參數量且增強了對行人特征的提取能力。

2.2 特征金字塔改進

引入BIFPN 加權雙向特征金字塔,該結構多次使用特征網絡層,進行加權特征融合。 對于不同分辨率特征的融合,BIPFN 為每個輸入添加額外的權重,并讓網絡區分不同特征的重要程度,結構設計如圖4 所示。

圖4 加權雙向特征金字塔Fig. 4 Bidirectional Feature Pyramid

本文在YOLOv5s 的頸部采用BIFPN 網絡,快速進行多尺度特征融合,提升檢測效果。

3 實驗與結果分析

3.1 實驗環境

實驗采用Pytorch 深度學習框架進行網絡模型部署,整體基于Windows10 操作系統,CPU 為AMD Ryzen 5 3600X 處理器,顯卡為NVIDIA GeForce RTX 2070S(8 G)。

3.2 實驗設計

本文網絡模型訓練所用實驗數據來源于韓國科學技術院公開的KAIST 數據集,抽取2 000 張可見光圖像,以及與之對應的2 000 張紅外圖像作為數據集,按照8 ∶1 ∶1 的比例,劃分訓練集、驗證集和測試集。

3.3 實驗評價指標

本文主要采用準確率(P,Precision)、召回率(R,Recall)、 平均精度均值(mAP,mean Average Precision)以及推理時間作為模型評價指標。P和R的計算公式如式(1) 和式(2):

其中,TP表示正例被正確預測;FP表示負例被錯誤預測為正例;FN表示正例被錯誤預測。

mAP是對P和R的一種綜合處理指標,表示PR曲線下的面積。 推理時間代表檢測每個圖像需要消耗的時間。

3.4 實驗數據分析

與YOLOv5s、YOLOv5l、YOLOv5n 模型進行實驗對比,在可見光數據集和紅外數據集上的實驗結果見表1、表2。

表1 可見光數據集性能指標對比Tab. 1 Comparison of performance indicators for visible light datasets

表2 紅外數據集性能指標對比Tab. 2 Comparison of performance indicators for infrared datasets

由表1 和表2 可見,在兩種不同的數據集上,改進后的BE-YOLOv5s 模型相比于改進前,均大幅提升了檢測準確率P,由于P和R之間存在一定的相關性,所以難以避免地會使檢測召回率R稍有降低,改進后的模型在兩種數據集上均顯著提升了mAP。 推理時間方面,改進后模型的檢測時間相比于改進前雖有所提高,但仍滿足實時性要求。YOLOv5l 和YOLOv5n 是通過調整YOLOv5 不同的網絡深度和寬度這兩個參數得到的模型,YOLOv5n的兩個參數小于YOLOv5s,其檢測速度更快,但精度更差。 YOLOv5l 的兩個參數均大于YOLOv5s,其檢測速度更慢,但精度更高。 由此可見,BE -YOLOv5s 模型在提升行人檢測準確性的同時,保持了原模型的檢測速度。 在兩種數據集上訓練時,4種模型在驗證集上的mAP0.5: 0.95 對比如圖5 所示。

圖5 4 個模型mAP0.5:0.95 對比Fig. 5 Comparison of four models mAP0.5:0.95

另一方面,從表2 可見,紅外數據集上的各項精度指標均高于可見光數據集,推理時間滿足實時性要求。 由此可見,紅外圖像增強了行人目標與背景信息之間的特征差異,提升行人檢測的準確性。 在YOLOv5s 模型的部分測試集的可見光圖像與紅外圖像的行人檢測結果如圖6 所示,目標框上的數字表示置信度。

圖6 YOLOv5s 模型的檢測結果Fig. 6 YOLOv5s model detection performance

由圖6 可見,由于夜晚光照條件不足,YOLOv5s模型在可見光圖像上檢測效果較差,可見光圖像中的3 個位于光線較暗處的行人均未檢測出,而在紅外圖像中,依舊有兩位行人未檢測出。 改進后的BE-YOLOv5s 模型下的行人檢測結果如圖7 所示,可見兩種圖像中均可準確檢測出所有行人。 綜合結果分析,BE-YOLOv5s 模型在低照度的環境下檢測效果較好。

圖7 BE-YOLOv5s 模型的檢測結果Fig. 7 BE-YOLOv5s model detection results

4 結束語

本文針對YOLOv5s 模型在低照度環境下對多尺度行人檢測準確率低的問題,引入ECA 通道注意力機制,提高模型對行人特征的提取,將原PANet網絡替換為BIFPN 網絡,加強了不同尺度的特征融合,得到了準確性和實時性俱佳的BE-YOLOv5s 目標檢測模型。 在可見光數據集和紅外數據集上分別進行測試,并與YOLOv5s、YOLOv5l、YOLOv5n模型進行對比,實驗結果表明:改進后的BE-YOLOv5s模型在兩種數據集上的mAP值均高于原模型,并且保持了原模型高實時性,有效提升了行人檢測的精度。 未來將融合可見光圖像和紅外圖像各自的優勢,不斷提升檢測精度。

猜你喜歡
集上照度行人
毒舌出沒,行人避讓
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
恒照度智慧教室光環境
路不為尋找者而設
電子投影機照度測量結果的不確定度評定
復扇形指標集上的分布混沌
我是行人
幾道導數題引發的解題思考
行人流綜述
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合