?

CIEFRNet:面向高速公路的拋灑物檢測算法

2024-03-12 08:59宋煥生張朝陽劉澤東孫士杰
計算機工程與應用 2024年5期
關鍵詞:損失卷積函數

李 旭,宋煥生,史 勤,張朝陽,劉澤東,孫士杰

長安大學信息工程學院,西安 710018

隨著我國高速公路的迅速發展,高速公路的車流量日益增長,導致高速公路拋灑物事件頻發。這些拋灑物大多都是車輛遮蓋物或故障車輛掉落的車輛碎片,拋灑物事件的發生具有隨機性和偶然性,它們對高速公路車輛通行造成安全隱患,極易誘發交通事故,如何及時發現和排除這些拋灑物事件對保障行車安全意義重大[1]。目前對拋灑物的識別還主要依靠人工巡視,工作量巨大、效率低下,且不能及時發現道路中的拋灑物。隨著圖像處理技術在交通監控視頻中的廣泛應用,如何從視頻中識別出拋灑物成為當前研究的熱點問題。

近年來,已經涌現出一些針對道路拋灑物檢測的算法。Fu等[2]使用混合高斯背景建模檢測前景,再使用邊緣統計特征降噪,最后通過跟蹤算法來區分前景目標中運動的車輛和靜止的拋灑物,從而實現對拋灑物的檢測。Zeng 等[3]利用雙目相機重建路面上疑似拋灑物的三維信息,根據疑似物的大小和高度來判斷是否將其劃分為拋灑物。這種方法需要對雙目相機進行標定和參數校正,算法效率低且工程應用難度較高。汪貴平等[4]結合五幀差分法和背景差分法得到運動目標,然后對其進行跟蹤并分析目標的運動軌跡,若目標運動一段時間并保持靜止則可認為該目標為拋灑物。李清瑤等[5]提出幀間差分自適應法檢測拋灑物,該方法結合連續幀間差分法和背景減除法來識別圖像中的拋灑物,但當運動目標處在光照較強的環境中時就會產生虛警。王立志[6]建立長短效雙背景模型,并對兩個背景進行差分和二值化從而檢測出圖像中的拋灑物。上述的方法都是基于傳統的圖像處理方法間接地檢測拋灑物。由于拋灑物的尺寸普遍較小,這些方法的識別率較低。

隨著深度學習的發展,卷積神經網絡的特征提取能力不斷提高,出現了很多使用深度學習的拋灑物檢測方法。金瑤等[7]基于YOLOv3提出一種使用多尺度特征的拋灑物檢測網絡,可以檢測出城市道路中的小像素拋灑物目標。張文風等[8]對Faster R-CNN加以改進,采用殘差網絡Resnet101[9]代替傳統的VGG-16[10]和ZFNet[11]作為網絡的特征提取部分,同時調整原始錨框大小以適應高速公路中不同大小拋灑物的檢測。該方法提高了拋灑物檢測的平均準確率,但是網絡參數量巨大,不便于實際部署應用。章悅等[12]提出一種基于CenterMask 改進的分割算法用于拋灑物的檢測,該算法可以分割出拋灑物的具體形態,但模型在一些復雜場景下適應能力較弱,存在較多的拋灑物誤檢情況。YOLOv5s 目標檢測算法兼具速度和精度,因此YOLOv5s 在拋灑物檢測領域也得了廣泛關注。周勇等[13]采用Ghost網絡輕量化YOLOv5s 并融合背景差分法檢測道路拋灑物。姜子淵[14]提出了一種基于改進YOLOv5s的高速公路異常檢測模型,可以很好地檢測出高速公路拋灑物等道路異常物體。Liu等[15]通過引入深度可分離卷積和注意力機制對YOLOv5s進行優化,并將其用于拋灑物的檢測,提高了拋灑物的檢測效果,但對于小拋灑物仍存在漏檢。以上基于深度學習的方法不斷提高了拋灑物的檢測能力,但由于高速公路拋灑物尺寸較小、可利用的特征較少和圖像復雜背景噪聲的干擾,仍存著較多的漏檢和誤檢的情況,準確地識別出拋灑物仍具挑戰。

針對上述問題,本文以YOLOv5s為主體框架,構建了一種基于上下文信息增強和特征提純的拋灑物檢測網絡(contextual information enhancement and feature refinement network,CⅠEFRNet)。本文的主要貢獻有:

(1)設計了一種融合了上下文Transformer 的特征提取模塊,該模塊可充分提取拋灑物的上下文信息,提高小拋灑物的識別率;

(2)改進了空間金字塔池化,減輕小拋灑物目標在下采樣過程中的特征損失,保留目標的更多細節信息;

(3)設計了一種融入混合注意力機制的特征提純模塊,抑制圖像中的復雜背景噪聲,強化目標特征,降低拋灑物的誤檢率;

(4)引入了基于動態非單調聚焦機制的WⅠoU[16]損失函數,減輕小拋灑物等低質量樣本對梯度帶來的負面影響,加速網絡收斂。

1 算法原理

CⅠEFRNet的網絡框架如圖1所示,網絡主要分為三個部分:主干特征提取網路(Backbone)、頸部(Neck)和頭部(Head)。Backbone 用于圖像特征提取,主要由基本卷積層Conv、CSP-COT 和ⅠSPP 組成,其中CSP-COT和ⅠSPP分別為本文提出的特征提取模塊和金字塔池化改進模塊。Neck由基本卷積層Conv、上采樣Upsample、特征拼接Concat 和CNAB 組成,可融合不同層級的特征,其中CNAB 為本文提出的特征提純的模塊。Head用于大中小三種尺度的拋灑物的預測。

圖1 CⅠEFRNet結構圖Fig.1 Structure of CⅠEFRNet

1.1 CSP-COT特征提取模塊

高速公路場景中的拋灑物尺寸較小,它們通常分布在圖像的特定區域(道路上),如果能計算出拋灑物像素點與其周圍環境像素點(即道路像素點)的關系,即充分利用拋灑物像素點的上下文信息,則有利于提高拋灑物的識別率。Transformer采用自注意力機制(selfattention)可以學習不同像素點之間的關系,捕獲目標與環境之間的關聯關系。為此,本文提出了一種融合了上下文Transformer的CSP-COT特征提取模塊。

傳統的Self-Attention 采用點積模型,如圖2(a)所示,其中的Key、Query和Value都是由輸入特征通過1×1的卷積映射而來,先將Key和Query相乘得到局部關系矩陣,再經過Softmax 操作進行歸一化,最后與Value 相乘得到注意力矩陣。

圖2 傳統Self-Attention和COT模塊Fig.2 Conventional self-attention and COT block

由于傳統的Self-Attention 中注意力矩陣主要由Key-Query對交互而來,而Key由1×1卷積生成,沒有充分利用輸入中豐富的相鄰鍵特征,忽略了局部上下文信息。而COT 模塊(contextual transformer block)[17]充分利用輸入鍵之間的上下文信息,通過k×k(k的取值為3)的卷積對Key 進行編碼,獲取局部靜態上下信息,并與Query拼接再與Value交互生成全局動態上下文信息,最后和局部靜態上下信息融合,如圖2(b)所示。因此,本文的CSP-COT 使用COT 模塊代替CSP[18]網絡Bottleneck中的3×3卷積,如圖3所示。

圖3 CSP-COT結構圖Fig.3 Structure of CSP-COT

在CSP-COT 中,COT 模塊將上層的輸出特征X∈?H×W×C作為輸入,其中H、W和C分別為特征圖的寬、高和通道數,則模塊中的Key、Query和Value分別被定義為K=X、Q=X和V=XWv,Wv為V的嵌入矩陣。COT 模塊首先在3×3 大小的網格內對所有相鄰的Key使用3×3的卷積,從而獲得包含相鄰鍵的局部靜態上下文信息K1∈?H×W×C。將K1和Q進行拼接,并依次通過兩個1×1 卷積,便可得到注意力矩陣A∈?H×W×(k×k×Ch),Ch為注意力的頭數,計算公式如式(1)所示:

其中,Wθ表示帶ReLU激活函數的卷積運算,Wδ表示不帶ReLU 激活函數的卷積運算。注意力矩陣的每個空間位置信息都是由查詢特征Q和包含上下文信息的關鍵特征K1交互得到的。將注意力矩陣A與1×1卷積提取到的V相乘得到有效特征圖K2,K2包含全局動態上下文特征,其計算公式如式(2)所示:

最后將包含局部靜態上下文特征的K1和包含全局動態上下文特征的K2相融合便可得到COT 模塊的輸出Y∈?H×W×C,如式(3)所示:

高速公路小拋灑物目標可利用的特征較少,CSPCOT 提取的上下文信息提供了目標與周圍環境之間的交互關系,通過加強目標與周圍環境的紋理、顏色和形狀等特征信息的聯系,將目標特征和周圍環境的相關特征相結合,可以增強小拋灑目標的特征表達能力,從而提高對小拋灑物的識別率。

1.2 改進的ISPP模塊

SPP(spatial pyramid pooling)[19]通過最大池化層對特征圖進行多尺度下采樣并融合,如圖4(a)所示,但池化層會降低特征圖的分辨率,丟失目標的細節信息,且丟失的特征信息無法恢復,增大了小拋灑物的識別難度。為減少特征的損失,本文提出了改進的空間金字塔池化(improved spatial pyramid pooling,ⅠSPP),ⅠSPP中加入了級聯的空洞卷積,空洞卷積可以有效地獲取多尺度信息,且不會損失特征信息,空洞卷積上的可學習參數還會提高網絡的特征提取能力,提高小拋灑物目標的識別能力。

圖4 SPPF和ⅠSPP結構圖Fig.4 Structure of SPPF and ⅠSPP

ⅠSPP的結構如圖4(b)所示,其上側分支由1個1×1的卷積和3 個擴張率(rate)分別為1、2、3 的空洞卷積構成,為減少計算量,3個空洞卷積采用級聯的方式連接,每個空洞卷積都會產生一個分支的輸出。ⅠSPP 的中間分支由自適應平均池化、1×1 的卷積和上采樣構成,用于補充高級語義特征。ⅠSPP 的下側分支為一條殘差邊。將主干網絡的提取的特征x0作為輸入,將得到四個分支的特征輸出{x1,x2,x3,x4} ,將這些特征在通道方向拼接,通過1×1 的卷積后再與原始特征相加,便可得到網絡的輸出x′,x′可由式(4)計算而得:

式中,Conv1×1為1×1的卷積,為擴張率為ri的3×3卷積(i=1,2,3), f為Batch Normalization和SiLU激活函數操作,P為自適應平均池化,U為上采樣操作。

1.3 CNAB特征提純模塊

ConvNeXt[20]借鑒了Swin Transformer[21]的網絡結構,構建出一個純卷積模型,它不需要特征分塊合并、移位窗口和相對位置偏執等操作,在多個計算機視覺任務上達到比Swin Transformer 更好的性能。為細化主干網絡提取到的特征,本文在ConvNeXt 的基礎上設計了特征提純模塊(ConvNeXt attention block,CNAB)。CNAB由兩個1×1的卷積和多個改進的ConvNeXt殘差塊構成,其結構如圖5所示。

殘差塊中使用7×7的逐深度卷積(depthwise convolution,DC),其卷積核個數與輸入特征圖的通道數一致,每個卷積核只在對應通道上進行卷積操作,有效減少了參數量。在DC后使用層標準化(layer normalization,LN),LN可對單個樣本做標準化,對樣本量的大小沒有限制,能有效減少模型對顯存的消耗。LN 后兩個1×1大小的卷積用于調整輸入特征圖的通道數。為了提高網絡的非線性性和泛化性,在兩個卷積層之間加入了GELU 激活函數,GELU 激活函數通過統計輸入自身的概率分布情況來實現神經元的隨機正則化。在第二個卷積層后是DropPath,它可以將結構中的主分支按概率隨機失活,此時該結構就等效于僅捷徑分支構成的輸出了,可以克服網絡的過擬合和退化問題。

為了抑制圖像中復雜背景噪聲的干擾并強化拋灑物的特征信息,本文設計了一種新的注意力機制ECSA(efficient channel and spatial attention),以替換原ConvNeXt殘差塊中第二個卷積層后的Layer Scale[22],并將ECSA提前至DC之后。受CBAM注意力機制[23]的啟發,ECSA將高效的通道注意力模塊(efficient channel attention,ECA)[24]和空間注意力模塊(spatial attention,SA)[23]融合在一起,其結構如圖6所示。

圖6 ECSA結構圖Fig.6 Structure of ECSA

對于輸入特征F∈?H×W×C,先在通道維度做全局平均池化得到1×1×C的特征圖Fcgap,再經過卷積核為k×k的一維動態自適應卷積,其卷積核的大小可由輸入特征圖的通道數決定,可有效實現特征信息的跨通道交互,最后經過Sigmoid激活函數,便可得通道注意力模塊的輸出Mc∈?1×1×C,如式(5)、(6)所示:

其中,σ為Sigmoid 激活函數,Convk×k為k×k的卷積,C為輸入特征圖的通道數,|t|odd表示最接近t的奇數。同時并行地對F做平均池化和最大池化,得到兩個H×W×1 的特征圖Fasvg和Fmsax,再將兩個特征圖在通道方向相加可得到H×W×2 的特征圖,接著使用7×7的卷積,得到的特征圖大小為H×W×1,最后再經過Sigmoid 激活函數,則可得空間注意力模塊的輸出Ms∈?H×W×1,如式(7)所示:

其中,Conv7×7為7×7 的卷積。則最終ECSA 的輸出為F′∈?H×W×C,如式(8)所示:

1.4 損失函數優化

損失函數影響著網絡的收斂速度和精度,良好的損失函數定義能為模型帶來性能的顯著提升。本文算法的損失函數由目標邊界框損失、置信度損失和分類損失構成,如式(9)所示:

其中,L為總損失,Lbox為邊界框回歸損失,Lobj為置信度損失,Lcls為分類損失。

由于大部分拋灑物尺寸較小,易產生較大的回歸誤差,這會引起訓練樣本不平衡的問題,即回歸誤差大的低質量樣本遠多于誤差小的高質量樣本。原YOLOv5的邊界框回歸損失為CⅠoU損失函數[25],但CⅠoU沒有考慮訓練樣本不平衡的問題,這些低質量樣本主導了梯度,會造成損失函數的劇烈振蕩。為降低低質量樣本對梯度的影響,并提高小拋灑物等困難樣本的學習能力,本文引入了動態非單調聚焦機制的WⅠoU損失函數,其計算公式如式(10)、(11)、(12)和(13)所示:

其中,x、y、w和h分別代表預測框中心點橫坐標、縱坐標、預測框的寬和高,xgt、ygt、wgt和hgt分別代表真實框中心點橫坐標、縱坐標、真實框的寬和高,Wg和WH為預測框與真實框區域構成的最小封閉盒的寬高,Wi和Hi為預測框與真實框重疊區域的寬和高。-- ----LIoU為LIoU的滑動平均值。β為離群度,其值越大意味著樣本的質量越差。聚焦系數r由β計算得到,α和δ的取值為1.8 和3,r的值隨損失值的增加呈非單調變化,通過r來動態調節這些低質量樣本對梯度的貢獻,從而加快網絡的收斂的速度并提高模型的定位能力。本文針對拋灑物的檢測問題,將置信度損失與分類損失相融合,采用二元交叉熵損失函數,則優化后的損失函數如式(14)所示:

其中,LBCE為置信度和分類損失,LWIoU為邊界框損失。

2 實驗結果與分析

2.1 實驗數據集

由于現階段還沒有公開的高速公路拋灑物數據集,且高速公路拋灑物事件多為偶然事件,因此高速公路拋灑物圖片較難收集。為驗證本文算法的有效性,本文構建了高速公路拋灑物數據集(highway abandoned objects dataset,HAOD),如圖7 所示。本文采集了多個高速公路和隧道的路側相機在白天不同時段拍攝的路面拋灑物圖像,其中包含2 471張像素為1 920×1 080的圖像。為提高網絡泛化能力,對拋灑物圖像做數據增強處理,增強方法包括改變圖像寬高比、HSV顏色空間變換、隨機裁剪、鏡像、隨機旋轉、高斯噪聲等,數據集圖片總數擴充至5 000 張。由于單種拋灑物數量較少,所以將所有拋灑物用單類別標簽標注,并將數據集按8∶2的比例劃分為訓練集和測試集。

圖7 HAOD數據集部分圖像Fig.7 Partial image of HAOD dataset

2.2 實驗環境與網絡訓練

2.2.1 實驗環境

本文的具體實驗環境配置如表1所示。

表1 實驗運行環境Table 1 Experimental operating environment

2.2.2 網絡訓練

為得到較好的網絡訓練模型,在HAOD數據集上從頭訓練300 個epochs,batch size 設置為8,采用SGD 優化器,初始學習率為0.01。為了避免因學習率設置過大造成模型的嚴重振蕩,采用epoch為3的Warmup預熱學習優化學習率,預熱學習階段動量為0.8 并采用線性插值的方式更新學習率,預熱學習結束后動量為0.973 并采用余弦退火算法更新學習率,權重衰減為0.000 5。

2.3 評價指標

為綜合評價拋灑物檢測網絡的性能,本文采用精確率(precision,P)、召回率(recall,R)、平均精度(average precision,AP)等指標衡量模型的檢測精度,采用浮點運算次數(floating point operations,FLOPs)和參數量(parameters)來衡量模型的復雜度,采用每秒處理幀數(frames per second,FPS)衡量模型推理速度,其計算公式如式(15)~(19)所示:

其中,TP 表示真正例,FP 表示假正例,FN 表示假負例。以召回率為橫軸、精確率為縱軸就可以繪制出p( )r曲線,對曲線進行積分可得AP。AP0.5表示交并比取值為0.5 時的AP 值,AP0.5:0.95表示交并比的值以步長為0.05從0.5 取到0.95 的AP 的均值。t為每幀圖像的平均推理時間。

2.4 實驗過程與結果分析

2.4.1 CSP-COT模塊實驗結果分析

為驗證CSP-COT 模塊的有效性,分別在網絡中加入CSP 模塊、CSP-CSA 模塊和CSP-COT 模塊。CSP 模塊保留原結構不做修改,CSP-CSA 模塊中加入基于KQV點積模型的傳統自注意力模塊,CSP-COT中加入COT 模塊并對COT 模塊中的注意力頭數取不同的值,分別對比不同結構對模型檢測精度的影響,實驗結果如表2所示。

表2 CSP-COT模塊驗證實驗Table 2 CSP-COT module validation experiment單位:%

從表中可以看出,CSP-CSA 使得召回率、AP0.5和AP0.5:0.95分別提高了0.2、0.1 和0.1 個百分點,由于CSPCSA 中Key 和Query 采用點積方式且沒有充分挖掘上下文信息,所以提升效果不明顯。當加入CSP-COT 且注意力頭數為8 時模型的提升效果最明顯,準確率、召回率、AP0.5和AP0.5:0.95分別提高了0.6、0.4、0.4和0.5個百分點,表明CSP-COT 可以有效捕獲道路中拋灑物的上下文信息,增強小拋灑物的特征表示,改善小拋灑物的檢測精度。

2.4.2 ISPP實驗結果分析

ⅠSPP 中空洞卷積的擴張率是影響多尺度特征提取的主要因素。為保留圖像更多的細粒度特征,并避免連續使用多個空洞卷積引起的網格效應,本文根據HDC原則[26]設計了三組不同擴張率的空洞卷積,對比不同組合的擴張率對模型精度的影響,實驗結果如表3所示。

表3 不同擴張率組合實驗Table 3 Experiments with different combinations of dilation rates單位:%

從表中可以看出,當擴張率逐漸增大,模型的召回率、AP0.5和AP0.5:0.95都有所下降且其值趨于平穩,當擴張率的取值為[1,2,3]時,AP0.5和AP0.5:0.95的值分別為87.1%和45.3%,優于其他組合,所以本文三個空洞卷積的擴張率的取值為[1,2,3]。

2.4.3 CNAB實驗結果分析

為驗證本文所提出的CNAB模塊結構的有效性,本文構建了五種CNAB的變體,并對比不同結構對網絡檢測精度的影響。CNAB 中分別保留Layer Scale 且不使用注意力機制、去掉Layer Scale 并使用ECA 注意力機制、SA注意力機制、CBAM注意力機制和ECSA注意力機制,實驗結果如表4所示。

表4 CNAB結構改進實驗Table 4 CNAB structure improvement experiments單位:%

從表中可以看出,當CNAB中加入各種注意力機制后模型的檢測精度都有所提高。CNAB中使用ECA后,精確率、召回率、AP0.5和AP0.5:0.95的值增加了1.7、0.3、0.3 和0.3 個百分點,說明ECA 可以提高模型的檢測精度。而加入SA后AP0.5僅提高了0.1個百分點,其他指標都有所下降,這表明僅考慮空間信息對模型檢測精度的提升不明顯。CNAB中加入CBAM后,精確率、AP0.5分別提高了0.8 個百分點和0.4 個百分點。當CNAB 中加入ECSA,精確率、AP0.5和AP0.5:0.95分別增加了1.9、0.8 和0.9 個百分點。CBAM 和ECSA 都同時關注了通道信息和空間信息,但ECSA 的精度提升效果最明顯,充分證明了本文設計的模塊的有效性。為了更加直觀地展現CNAB中加入ECSA的特征提純作用,本文使用Grad-CAM[27]對特征可視化,如圖8 所示。從圖中可以看出,CNAB中加入ECSA后可以更好地抑制圖像中的背景噪聲,強化目標的特征,讓目標與背景的邊界更清晰,使模型可以更好地適應各種的復雜環境。

圖8 CNAB融入ECSA前后特征可視化Fig.8 Visualization of features beforeafter incorporation of ECSA in CNAB

2.4.4 WIoU改進實驗結果分析

為驗證WⅠoU 是否能動態地調整小拋灑物等低質量樣本對梯度的影響,加速模型收斂,提高網絡的性能,本文分別將GⅠoU、DⅠoU、CⅠoU、SⅠoU和WⅠoU作為模型邊界框損失函數,并對比了不同損失函數對模型精度的影響,實驗結果如表5所示。

表5 WⅠoU有效性驗證實驗Table 5 WⅠoU validation experiments 單位:%

從表中可以看出,WⅠoU對模型的精度提升最明顯,相較于原模型中使用的CⅠoU 損失函數,WⅠoU 將AP0.5和AP0.5:0.95分別提高了1.2 個百分點和0.5 個百分點。模型訓練過程中各損失函數的損失值曲線如圖9所示。

圖9 損失值曲線對比圖Fig.9 Loss curve comparison char

從圖中可看出GⅠoU 在第270 個epoch 時便停止了收斂,且其損失值最高。DⅠoU、CⅠoU、SⅠoU 和WⅠoU 在訓練過程中,損失值都在逐漸下降,而WⅠoU 的損失值下降的最快,在第11 個epoch 時WⅠoU 的損失值便與其他損失函數的損失值拉開了較大的差距,且其值一直保持最低。實驗結果充分證明WⅠoU 的性能優于其他的損失函數,更好地加速網絡收斂,提高小拋灑物的學習能力。

2.4.5 各改進方法提升效果可視化

為更加直觀地展示本文不同改進方法對拋灑物檢測效果的提升,對基線模型YOLOv5s 和各改進方法的檢測結果做可視化,如圖10所示。從圖中可看出,基線模型將場景1中車輛尾部的備胎誤識別為拋灑物,且未能識別出路面上的拋灑物,場景2中墻壁上的燈牌被誤識別為拋灑物,場景3中的小拋灑物也未能被全部識別出來;利用CSP-COT模塊充分捕獲目標的上下文信息,可以很好地改善基線模型漏檢的情況,場景1 和場景3中小拋灑物的識別率均有所提高,同時還消除了場景1和場景2 中的誤檢;使用ⅠSPP 后,場景2 中雖還存在燈牌的誤檢,但三個場景中的拋灑物全部被識別出來了;CNAB 強化目標特征,減少圖像中冗余信息干擾,很好地消除了基線模型在場景1 和場景2 中的誤檢,并將場景1 中的拋灑物識別出來了;利用WⅠoU 進行損失函數的優化,模型在場景1 和場景3 的漏檢情況均有所改善。因此,本文提出的不同改進方法對模型的檢測效果均有提升。

圖10 各改進方法提升效果可視化Fig.10 Visualization of effect of each improvement method

2.4.6 消融實驗

本小節以YOLOv5s 為基線模型,在HAOD 數據集上進行消融實驗。在基線模型的基礎上,依次加入CSP-COT 模塊、ⅠSPP 模塊、CNAB 模塊和WⅠoU 損失函數,實驗結果如表6所示。在特征提取網絡中使用CSPCOT模塊后,AP0.5和AP0.5:0.95分別提高了0.4個百分點和0.5 個百分點。網絡中加入ⅠSPP 代替原空間金字塔池化,參數量和運算量有所增加,模型的檢測速度有所下降,但AP0.5和AP0.5:0.95分別再次提高0.8個百分點和0.4個百分點,說明ⅠSPP可有效地減少細節信息的損失,提取更加完整的拋灑物的特征。在特征融合部分加入CNAB模塊重構頸部后,由于該模塊中使用了逐深度卷積,可有效減少計算量,并且該模塊采用類似MobileNetv2的逆殘差結構,可以在保證模型精度的同時進一步減少模型的參數量和計算量。因此,使用CNAB后網絡模型的參數量和計算量均有所下降,模型的檢測速度提高至62 FPS。此外,CNAB 使AP0.5和AP0.5:0.95也分別增加了0.3個百分點和0.6個百分點,說明該模塊可以有效克服圖像背景噪聲的干擾,使網絡融合更多有用的信息。使用WⅠoU 損失函數AP0.5和AP0.5:0.95又提高0.4 個百分點和0.5 個百分點,說明該損失函數可以減輕低質量樣本帶來負面影響,并提高邊界框的回歸能力。實驗結果表明,本文加入的各模塊均能提高模型的性能,當加入所有模塊后模型的性能最優。

表6 消融實驗結果Table 6 Results of ablation experiments

2.4.7 對比實驗

為驗證本文方法的優勢,將本文方法與一些主流算法在HAOD數據集上進行對比實驗,實驗結果如表7所示??梢钥闯霰疚牡哪P拖噍^于其他算法模型,不僅模型復雜度低,而且檢測精度更好。相較于基線模型YOLOv5s,本文算法的AP0.5和AP0.5:0.95分別提高了1.9 個百分點和2.0個百分點,模型的檢測速度也提高至62 FPS。同時,本文算法的AP0.5和AP0.5:0.95也比其他YOLO 系列算法YOLOXs、YOLOv7 及YOLO 的改進算法YOLOv5s_anomal、YOLOv5-MN3 高,因為這類算法雖具有較優的網絡結構,但不能較好地解決目標尺度小和路面環境復雜的問題。Faster R-CNN 因其固定的錨框參數,不能很好地適應高速公路拋灑物尺度的變化,檢測精度不高。SSD-Lite 的模型復雜度低,檢測速度快,但算法的檢測精度遠不及本文算法。Deformable DETR可以很好地檢測小目標,但受高速公路圖像復雜背景噪聲干擾,易出現誤檢。FocalNet的檢測精度最接近本文算法,但由于模型較復雜,模型的檢測速度太低,不能滿足實時檢測的應用需求。因此,綜合衡量不同的檢測算法,本文算法的性能最優。

表7 對比實驗結果Table 7 Results of comparison experiments

為了更加直觀地展現本文算法的優勢,選取了表7中性能較好的Faster R-CNN、YOLOv5s、YOLOv5s_anomal、YOLOv7、Deformable DETR、FocalNet和本文算法做檢測結果可視化,如圖11所示。為了突出檢測區域,本文對其做局部放大處理。從圖中可以看出,Faster R-CNN將場景3 中的圓形反光桶錯誤地識別為了拋灑物;YOLOv5s未能將場景4中遠處的拋灑物識別出來;YOLOv5s_anomal沒有將場景2中的拋灑物全部識別出來;YOLOv7 識別的拋灑物置信度很高,但場景1 中的同一拋灑物出現了兩個檢測框;Deformable DETR受隧道中復雜環境干擾,將場景1 和場景2 中的燈牌錯誤地識別為了拋灑物;FocalNet 將場景2 中的一處指示牌錯誤地識別為了拋灑物。以上這些算法都存在著漏檢和誤檢的情況,而本文算法則可以將四個場景的拋灑物都正確地識別出來,因此本文所提算法可有效降低拋灑物的漏檢、誤檢情況。

圖11 各算法檢測結果可視化Fig.11 Visualization of detection results for each algorithm

3 結束語

目前關于高速公路拋灑物的數據集和研究方法都比較缺乏,一些現有方法仍存在漏檢和虛警的問題。為此,本文提出了CⅠEFRNet高速公路拋灑物檢測算法,首先在骨干網絡使用CSP-COT 模塊,充分挖掘目標的上下文信息,提高小拋灑物的識別率;其次使用ⅠSPP實現多尺度特征的提取與融合,有效地減少了特征的損失;在網絡頸部分采用CNAB 模塊,抑制圖像背景的噪聲,增強多尺度特征的表達能力;最后利用基于動態非單調聚焦機制的WⅠoU 加速網絡收斂。針對高速公路拋灑物數據集的空白,利用高速公路路側相機收集了各公路和隧道的拋灑物圖像,構建了高速公路拋灑物數據集,對檢測模型進行訓練和測試。

實驗結果表明,本文提出的模型具有更低的算法復雜度、更高的檢測精度,其性能優于目前的主流檢測方法,滿足實際場景的應用需求。在未來的工作中,將進一步完善拋灑物數據集,構建規模更大的拋灑物數據集以滿足實際應用場景的訓練需求,并繼續優化網絡的結構,提高模型的泛化性和魯棒性。

猜你喜歡
損失卷積函數
二次函數
基于3D-Winograd的快速卷積算法設計及FPGA實現
第3講 “函數”復習精講
胖胖損失了多少元
二次函數
函數備考精講
從濾波器理解卷積
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標跟蹤算法
一般自由碰撞的最大動能損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合