基于注意力機制的車輛再識別方法

2022-07-23 06:35河南中光學集團有限公司

電子世界 2022年1期

河南中光學集團有限公司余科

河南中光學集團有限公司河南科技大學駱沛

河南中光學集團有限公司梁濤白曉波

利用車輛重識別技術能夠對車輛進行跟蹤定位，可實現對感興趣車輛的軌跡分析、跨攝像機接力跟蹤等應用，在邊海防智能視頻監控領域有著重要的研究和應用意義。目前車輛再識別技術常見有三類：（1）利用無線磁感應器、感應線圈、無線射頻等硬件設備實現；（2）通過顏色、紋理等人工設計特征實現；（3）基于深度學習方法。

近些年，深度學習技術在車輛再識別領域取得了很多重要研究成果。Tian等人于2016年提出了一種深度相對距離學習方法，利用雙分支深度匯總網絡進行投影計算距離來測量車輛相似性。2017年，Yan等人采用兩種多粒度排序約束方法，通過多任務學習解決精確車輛搜索問題；Qian等人提出了一種能夠學習不同尺度深度特征表達的新模型；Tang等人將深度特征和手工特征進行融合，為車輛重新識別提供了一種更穩健更具判別力的特征表達。2018年，Liu等人使用一種基于多模態感知數據的漸進式車輛重識別方法提高了車輛發現效率和準確性；Teng等人提出了一種基于DCNN的空間和通道注意網絡可以提取更多車輛判別特征。

在邊海防視頻監控中，視場范圍大，監控車輛目標較小，且存在光照變化、場景變化、背景干擾等情況，車輛再識別比較困難，準確率很低。本文針對這種場景，提出一種注意力機制和多尺度特征融合的方法進行車輛再識別，通過多尺度融合獲得網絡不同深度目標特征信息，再通過注意力機制選擇更具判別力的特征，極大提高網絡學習能力。

1 算法設計

首先構建一個注意力機制的深度學習網絡，提取目標全局特征信息；然后，根據網絡深度提取不同尺度目標特征，防止部分特征多次提取后消失；同時，對融合后的特征空間引入一個局部特征提取模塊，并與全局特征進行融合，獲取更多車輛再識別的特征信息。

1.1 網絡結構

網絡框架主要由一個骨干網絡、注意力模塊和局部特征提取模塊構成。特征提取的骨干網絡選用ResNet50，Conv1、Conv2卷積組采集圖像特征信息，Conv3到Conv5卷積組引入空間通道注意力機制（CBAM）模塊；同時，每個殘差塊經過卷積和池化運算后，使用級聯方式進行不同層級的多尺度特征融合，獲取特征空間；然后再對該特征空間通過分塊方式獲取局部特征與全局特征進行融合，得到用于識別的特征圖，具體網絡結構如圖1所示。

圖1 網絡框架結構圖

ResNet50網絡共6個卷積組模塊，其中2-5卷積組為殘差模塊，每個殘差模塊由兩個1h1卷積和一個3h3卷積組成。殘差模塊就是在兩個卷積層前后做了直連，但取得了非常好的效果，所以本文特征提取的骨干網絡選用ResNet50。

殘差模塊后依次添加空間通道注意力模塊：1）通道注意力（CAM）采用全局最大池化（Global Max Pooling，GMP）和（Global Average Pooling，GAP）組合，可以挖掘更豐富的關鍵特征，去除無關干擾信息；2）空間注意力（SAM）增強網絡學習車輛特征表示的辨別能力。之后將各級特征沿通道維度連接，獲取一個級聯空間特征：1）經過1h1卷積層后獲取多通道空間特征，再通過全局平均池化（Global Average Pooling，GAP）處理后，通過全連接層進行特征降維，得到一個256維的全局特征；2）通過切塊方式獲取4個局部子特征，每個子特征通過GAP處理后，連接全連接層降維到256維，再與全局特征進行融合。

1.2 注意力機制

注意力機制可以在網絡引入少量參數情況下，有選擇地學習關鍵特征，減少無用特征，提高車輛的深度特征表達能力，尤其是對于外觀高度相似的車輛，通過在不同尺度特征圖上添加注意力機制，可獲得更具判別力的特征信息。本文在4、5組卷積層之后添加空間通道注意力（CBAM）模塊，具體結構如圖2所示。

圖2 空間通道注意力結構圖

（1）通道注意力（CAM）

通道注意力機制，能夠捕獲跨通道的潛在語義信息。通過給每個通道分配不同的權值，選擇對車輛任務有用的特征通道，提高特征的判別性。常用的通道注意力機制SENet僅采用了最大池化（maxpool），本文將最大池化（maxpool）與平均池化（avgpool）進行融合，將兩個pool后的結果相加，使提取的高層特征更加豐富。具體實現過程如下：

1）輸入特征F進行GMP和GAP運算，得到兩個1h1hC的通道權重的矩陣；

2）將兩個權重矩陣輸入到一個多層感知機（MLP）中，獲得2個輸出特征；

3）2個特征通過向量相加操作后再使用sigmoid激活函數，生成一個通道注意力圖；

4）通道注意力圖與輸入特征進行乘法操作，即可生成空間注意力模塊需要的輸入特征。

（2）空間注意力（SAM）

空間注意力機制，能夠捕獲空間域的重要特征信息。通過聚焦網絡中最具信息特征部分，實現空間層面的注意力，是對通道注意力的補充，增強了網絡車輛特征表示的辨別能力。具體實現過程如下：

1）通過maxpool與avgpool操作，對通道特征進行降維，然后將它們連接起來生成一個2D特征圖；

2）再使用一個卷積層進行學習，經過sigmoid激活函數計算，生成一個大小為RhHhW的空間注意力圖。

1.3 多尺度特征融合

高層網絡感受野大，語義特征表達能力強，但分辨率低，很多細節特征變得模糊；低層網絡感受野小，細節特征表達能力強，但提取語義特征能力弱。監控場景中車輛目標較小，尤其一些部件只有很小的分辨率，高層網絡很容易丟失小目標的特征信息?？紤]到高層網絡和低層網絡的互補性，本文在車輛再識別時引入多尺度特征融合機制，對不同階段的特征圖進行組合，使識別網絡獲取更多的判別特征。多尺度結構圖如圖3所示。

圖3 多尺度結構圖

分別從ResNet50+CBAM網絡的Conv3、Conv4、Conv5殘差模塊中得到3個特征圖，使用1h1大小的卷積運算對3個特征圖進行通道調整，確保三個特征通道數一致；然后通過AvgPool進行下采樣，調整特征圖大??；最后利用3個分支處理后的信息進行融合，使識別網絡可以獲取更豐富的多尺度特征。

本文除了多尺度特征融合，還采用了全局特征和局部特征融合方法，提升車輛目標的判別精度。1）局部特征：按照空間分塊方式，將由多尺度融合獲取的空間特征分割為四個子塊，使用GAP對每個子塊提取局部特征；2）全局特征：對空間特征使用1h1大小的卷積運算將N維特征通道維度提升到4N維，再使用GAP提取全局特征，然后按照通道分割將4N維分割成四個特征；最后，對四個局部特征和全局特征進行疊加，獲取用于車輛識別的一個256維特征信息。

2 實驗結果與分析

2.1 數據集準備

車輛重識別常用到的是Vehicle-ID和VeRi-776公開數據集。Vehicle-ID數據集包含了221,763張26,267輛車圖像，每種車輛僅包含8.4張圖像，且只考慮了車輛前后兩種視角，無法滿足復雜場景需求。VeRi-776數據集包含了超過776輛車的50,000多張圖像，考慮到邊海防監控的特殊性，這些樣本數量并不多，很難滿足監控場景的需要。所以在Vehicle-ID和VeRi-776數據集的基礎上，我們通過采集實際監控場景的各種車輛數據，構建邊海防監控場景的車輛再識別數據集來驗證注意力框架及多尺度融合的有效性。

2.2 實驗結果分析

骨干網絡采用在ImageNet上預訓練過的ResNet50模型參數進行初始化，網絡輸入為224h224。訓練時采用小批量隨機梯度下降（SGD）來更新網絡參數，初始學習率（learning_rate）為0.001，權重衰減（weight_decay）為0.0005，批量大?。╞atch_size）為32。數據集隨機分為訓練集、驗證集、測試集3部分，其中一個batch包含m個車輛，每個車輛包含n張車輛圖片，一個batch總共包含個訓練樣本。所有車輛圖像亂序排列并進行隨機抽樣組成訓練的正負樣本，并在訓練前進行數據歸一化處理。

為了評估我們算法的有效性，實驗中通過基礎網絡、基礎網絡+SENet注意力機制、基礎網絡+CBAM注意力機制、基礎網絡+CBAM注意力機制+多尺度（scal）特征融合、基礎網絡+CBAM注意力機制+多尺度（scal）特征融合+全局局部（LC）特征融合幾種不同組合進行訓練和測試比對，使用均值平均精度（mAP）、rank1、rank5參數評估度量車輛再識別的準確率，實驗結果如表1所示。

表1 注意力機制及多尺度融合有效性分析

從表1中可以看到，添加注意力機制和多尺度特征融合及局部全部特征融合后，車輛再識別準確率明顯有提升，證明了我們網絡結構的有效性。

在實際測試場地安裝2臺分辨率為1920h1080的攝像機，攝像機中間沒有重疊區域，加載車輛再識別算法，車輛進入第一臺攝像機時檢測抓拍，途徑第二臺攝像機時，能夠及時識別到該車輛，效果如圖4所示，驗證了算法的有效性。

圖4 車輛識別效果圖

結論與展望：本文設計并實現了一種基于注意力機制和多尺度特征融合的車輛再識別方法。通過空間通道注意力機制，提高了車輛的深度特征表達能力；通過多尺度特征融合，充分利用高層和低層網絡優勢，使識別網絡獲取更多的判別特征；還采用了全局特征和局部特征融合方法，提升了車輛目標的判別精度。通過實驗驗證，本設計是一種可行的車輛再識別方法。實驗中還存在著一些不足，比如數據采集的場景不夠多，模型的泛化能力不強。下一步通過采集更多監控場景的車輛視頻，或通過圖像增強等方法豐富數據集，網絡的性能預計會有進一步的提升。