?

基于區域與全局融合特征的以圖搜車算法

2019-10-21 08:08趙清利文莉黃宇恒金曉峰梁添才
現代信息科技 2019年12期
關鍵詞:視頻監控

趙清利 文莉 黃宇恒 金曉峰 梁添才

摘 ?要:在視頻監控場景中,由于車輛自身外觀的多樣性和相似性以及無約束的監控環境,以致很難通過全局外觀特征區分不同的車輛目標。與全局外觀特征相比較,局部區域特征更具區分能力。同時,為了兼顧算法的速度,本文提出一種基于區域與全局融合特征的以圖搜車算法。該算法分為三個階段:首先,以車輛IDs作為標簽信息,訓練一個車輛的全局特征網絡;其次,加入局部區域特征網絡,進而聯合訓練局部區域特征與全局特征網絡;在推理階段,僅采用全局特征網絡的特征計算車輛圖像之間的相似度。本文采用視頻監控場景的圖片作為數據集進行算法測試,結果顯示所提出的方法的Top10性能達到了91.3%,特征提取時間與單次特征比對時間分別為13.8ms 和0.0016ms,滿足了應用需求。

關鍵詞:視頻監控;以圖搜車;區域與全局融合特征

中圖分類號:TP391.41 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)12-0001-04

Abstract:In video surveillance scenario,due to the diversity and similarity of vehicle appearance and unconstrained surveillance environment,it is difficult to distinguish different vehicles by global appearance features. Compared with global appearance features,local region features are more distinctive for vehicle retrieval. At the same time,in order to balance the speed of the algorithm,a vehicle retrieval algorithm based on regional and global fusion feature is proposed in this paper. The algorithm is divided into three stages:firstly,using vehicle IDs as the label to train a vehicles global feature network;secondly,adding a local region feature network,and then the local region feature network and the global feature network are jointly trained;in the inference stage,only using global feature networks features to calculate the similarity between different vehicle images. In this paper,the images of the surveillance video scenario are used as the data set to test the algorithm. The results showed that the performance of Top10 reached 91.3%,and the time of feature extraction and single feature comparison were 13.8ms and 0.0016ms respectively. Therefore,satisfied the application demand.

Keywords:video surveillance;vehicle retrieval;regional and global fusion feature

0 ?引 ?言

以圖搜車技術是一種跨攝像頭的車輛檢索技術,利用計算機視覺技術判斷圖像或視頻中是否存在特定車輛。以圖搜車技術廣泛應用于停車管理、智能交通和智慧城市等領域[1]。

在監控視頻場景中,攝像頭的視角任意性與偏色、光照與天氣的變化、車輛的尺度變化以及遮擋等,造成相同品牌、年款的車輛外觀非常類似,而同一目標車輛的差異較大,極大地加劇了以圖搜車技術的難度。

1 ?國內外研究現狀

以圖搜車技術大部分現有的工作主要集中在特征的設計與學習。由于監控視頻場景為無約束的環境,因此傳統的手工設計的特征,如sift[2]特征等,對于監控視頻場景不夠魯棒。隨著近年來深度學習的復興,深度卷積神經網絡在行人重識別、人臉識別等應用中取得了巨大的突破,體現出了深度特征巨大的優勢。同時,由于近年來一些公共數據集的發布,如VeRi[3]等,給以圖搜車技術的研究提供了極大地方便。Liu X[3]等人提出一種基于深度學習的漸進式方法,其利用車輛的外觀特征、車牌信息以及時空信息逐步改善車輛識別的性能。Liu H[4]等人提出一種兩分支深度卷積網絡分別訓練車輛IDs和車輛子品牌。同時,也提出了一個新的距離度量損失函數coupled clusters loss用以加快網絡收斂和改善傳統的triplet loss對錨點選擇的敏感性。Zhou[5]等人提出了一種視角感知注意多視角推理模型用以解決多視角的車輛重識別問題。Wang[6]等人提出一種基于方向不變特征嵌入和時空正則化的方法,其首先預測車輛的20個關鍵點,然后根據關鍵點定位4個區域,最后融合4個區域的局部特征和車輛的全局特征用于車輛重識別。Liu X[7]等人提出利用4個不同的分支以獲取更具區分能力的車輛特征進行車輛重識別。此工作與本文提出的方法有一定的相似處。然而,本文提出的方法網絡結構更加簡潔,且避免了車輛屬性的標注,更能符合實際應用需求。

雖然,前面的工作使以圖搜車的性能取得了巨大的進步,但是仍然可以從許多方面對其進行改進。由于之前大部分基于深度學習的工作傾向于描述車輛的全局外觀特征,無法獲取到更具區分能力的局部區域特征,且大部分工作所提出的網絡都較大,不利于實際應用。因此,本文提出一種基于區域與全局融合特征的以圖搜車算法,其采用了區域感知策略以及全局特征與局部區域特征聯合學習的策略,以獲取更具區分能力的車輛特征表示,進而提高以圖搜車的性能。

2 ?算法流程

基于區域與全局融合特征的以圖搜車算法由全局分支與局部分支組成,且每個分支共享一部分卷積層?!叭址种А睂W習整個輸入車輛圖像的全局特征信息;“局部分支”從3個重疊的區域學習車輛的局部區域特征。在訓練階段,首先使用“全局分支”學習車輛的整體全局特征,其次,保持“全局分支”不變,加入“局部分支”,進而使兩個分支聯合學習車輛的全局特征和局部區域特征。在推理階段,去除“局部分支”,僅使用“全局分支”提取車輛圖像的特征。整體算法框架如圖1所示。

2.1 ?共享部分

共享部分基于ResNeXt-50[8]網絡結構進行優化。原始ResNeXt[8]網絡融合了VGG[9]網絡的相同結構層的堆疊策略、ResNet[10]網絡的恒等映射策略以及Inception[11,12]網絡的split-transform-merge思想,其網絡的模塊結構圖以及數學原理分別如圖2以及式(1)所示。

為了滿足應用需求中以圖搜車的精度和速度的要求,共享部分算法的優化主要從兩個方面著手。一是減少計算量,將ResNeXt-50的網絡結構從50層裁切到27層。二是提高網絡的表達能力:

(1)將ResNeXt-50的第一層卷積層的卷積核大小從7×7改為5×5以降低細節信息的損失,從而提取更細節的底層特征;

(2)在每一殘差模塊中添加se[13]模塊以顯式地建模特征通道之間的相互依賴關系,以此提升對當前任務有用的特征并抑制用處不大的特征。

2.2 ?全局分支

全局分支首先使用1×1卷積將圖1所示的block4的特征圖的特征通道壓縮至512維,以減少網絡的信息冗余,提高網絡的非線性,然后使用一層全局池化層,最后接一層全連接層用于分類。全連接層以車輛IDs為標簽,采用Softmax Loss與Center-Loss[14]聯合監督訓練,以提高深度特征的區分能力,從而使類內距離變小,類間距離增大。Softmax Loss與Center-Loss聯合損失函數如式(2)所示。

其中,LS表示Softmax Loss,LC表示Center-Loss,xi表示第i個深度特征,其屬于第yi類,Wj表示最后一層全連接層權重W的第j列,b表示偏置項,m表示批量的大小,n表示類別數,表示第yi類的特征中心,λ作為兩個損失函數之間的平衡。

2.3 ?局部分支

在實際應用場景中,相似車輛的差異點主要在局部區域特征上,因此設計局部分支用于提取局部區域特征。為了增強特征對車輛視角變化的魯棒性,本文提出一種學習重疊區域特征的局部分支用于以圖搜車,其具體流程如下:首先,將圖1中的block4的特征圖從高度這個維度按照從上到下的順序分成3個重疊的局部區域,每一個局部區域對應車輛不同的部分,Ft基本對應車輛的頂部以及擋風玻璃的上半部分,Fm基本對應擋風玻璃部分以及引擎蓋上中部分,Fb基本對應引擎蓋中下半部分以及車頭部分。然后,每一個局部區域后接兩層全連接層以產生每一局部區域的特征。最后,使用車輛IDs作為標簽,以Softmax Loss作為分類監督信號以促進每個局部區域的特征學習。

局部分支訓練時,使用車輛的部分區域特征作為輸入以識別車輛,此過程強制網絡提取每一個局部區域有識別力的細節特征,進而達到提高以圖搜車性能的目的。

2.4 ?訓練與測試

2.4.1 ?訓練

基于區域與全局融合特征的以圖搜車算法采用多個分類任務聯合訓練,其總體損失函數如式(3)所示:

其中,θ代表模型參數,LG代表全局分支的損失,LR代表總的局部分支的損失,Lrt、Lrm、Lrb分別代表局部分支中的上部、中部以及下部的局部區域損失,λrt、λrm、λrb分別代表局部分支中的上部、中部以及下部的局部區域損失的權重。

采用全局分支與局部分支多任務聯合訓練的方式,不僅讓全局分支利用了車輛圖像的結構先驗,同時也促進了局部分支與全局分支互相學習,使得兩個分支都能學習到更有識別力的細節特征。

從零開始同時訓練2個分支很難收斂,本文采用循序漸進的方式訓練模型。首先,訓練全局分支;其次,保持全局分支網絡不變,加入局部分支網絡,并使用訓練好的全局分支的權重初始化全局分支網絡,進而聯合訓練全局分支與局部分支網絡。

2.4.2 ?測試

以圖搜車問題是一個實例個體層面上的細粒度分類問題。而分類訓練針對的是一種固定類別,當輸入非固定類別的圖像時,也會被分到分類模型設置的固定類別中,導致識別錯誤,不具擴展性,因此,為增強模型的擴展性,測試推理階段,本論文引入距離度量的方式計算車輛圖像之間的相似度以進行以圖搜車[15]。具體的測試過程分成三個步驟:

(1)特征提?。禾崛【W絡的特征;

(2)特征比對:計算特征之間的距離,即相似度;

(3)排序:按照距離從大到小的方式進行排序。

在本文提出的方法中,采用聯合訓練的方式,使得全局分支的訓練可利用車輛圖像的結構先驗。同時,在局部分支的幫助下,全局分支也可學習到更具識別力的特征,因此,推理階段我們僅采用全局分支提取車輛的特征,進而采用余弦距離計算特征之間的相似度。余弦距離公式,如式(4)所示。

3 ?實驗

3.1 ?數據集說明

為了驗證本文提出的算法的有效性。使用自建的視頻監控場景數據集進行測試。此測試集不僅涵蓋了豐富多樣的車型(如SUV、轎車、貨車、皮卡、MPV、面包車等)、場景(早、中、晚、晴天、陰天、雨天等)以及角度(正面、背面以及側面),還包括遮擋以及缺失等樣本情況。本測試集總共包括26018張圖片,4562個車輛目標。本測試集分為查詢集和檢索集兩個部分,在測試集的4562個IDs中,每個IDs選取一張圖像作為查詢集,共計4562張,剩余的21456張圖像作為檢索集。本測試集的部分實例如圖3所示。

3.2 ?實驗細節

本文提出的方法在caffe[16]深度框架上進行訓練和測試。初始學習率設置為0.005,經過10個epochs之后下降10%。Mini-batch的大小設置為128。在訓練和測試推理階段,每張圖片的尺寸大小縮放到224pixel×224pixel。

3.3 ?實驗結果與分析

表1中列出的本文算法的數據是在自建的視頻監控場景數據集的測試結果,其余列出的數據均為VehicleID[4]數據集的large測試集上的測試結果。Large測試集總共包括19777張圖片,2400個車輛IDs。表1中,“-”表示此項指標無結果數據。表2為本文算法的特征提取與特征比對速度結果。圖4為各算法性能比對圖。

從上述實驗結果可以得出,與最新的方法進行比較,本文算法獲得了最好的效果,雖然所使用的測試集不同,但本文所使用的視頻監控場景測試集的圖片數量約為large測試集的1.32倍,車輛IDs數量約為large測試集的1.9倍,在更大的測試集上能取得更好的效果,其恰恰說明了本文算法性能的優越性。同時,從表1與表2可以得到,本文算法的Top10準確率達到了0.913,特征比對時間為13.8ms,特征比對時間為0.0016ms,滿足了應用需求。

4 ?結 ?論

為滿足實際應用對以圖搜車算法的精度與速度的要求。本文提出一種基于區域與全局融合特征的以圖搜車算法。該算法在訓練階段分為兩個步驟:首先,訓練一個全局特征網絡。其次,保持全局特征網絡不變,加入局部區域特征網絡,并以第一步驟的權重初始化全局特征網絡,進而聯合訓練局部區域特征網絡與全局特征網絡,以促進全局特征網絡也能夠學習到更具區分力的特征。推理階段,為兼顧算法的精度與速度,本文提出僅采用全局特征網絡的特征計算圖像之間的相似度。通過在自建的視頻監控場景數據集上的評估,驗證了本文所提方法的準確性與高效性。

參考文獻:

[1] 劉鑫辰.城市視頻監控網絡中車輛搜索關鍵技術研究 [D].北京:北京郵電大學,2018.

[2] Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints [J].International Journal of Computer Vision,2004,60(2):91-110.

[3] Liu X,Wu L,Tao M,et al.Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance [C]// European Conference on Computer Vision. Springer,Cham,2016.

[4] Liu H,Tian Y,Wang Y,et al. Deep Relative Distance Learning:Tell the Difference between Similar Vehicles [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2016.

[5] Zhou,Y.,Liu L,Shao,L. Vehicle Re-Identification by Deep Hidden Multi-View Inference [J].IEEE Transactions on Image Processing,2018,27(7):3275-3287.

[6] Wang Z,Tang L,Liu X,et al. Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-identification [C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE,2017.

[7] Liu X,Zhang S,Huang Q,et al. RAM:A Region-Aware Deep Model for Vehicle Re-Identification [C]// 2018 IEEE International Conference on Multimedia and Expo (ICME). IEEE,2018.

[8] Xie S,Ross G,Dollar P,et al. Aggregated Residual Transformations for Deep Neural Networks [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2017.

[9] Simonyan K,Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J].Computer Science,2014.

[10] He K,Zhang X,Ren S,et al. Deep Residual Learning for Image Recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2016.

[11] Szegedy C,Liu W,Jia Y,et al. Going Deeper with Convolutions [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2015.

[12] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the Inception Architecture for Computer Vision [J].Computer Science,2015.

[13] Hu J,Shen L,Albanie S,et al. Squeeze-and-Excitation Networks [J].IEEE transactions on pattern analysis and machine intelligence,2019.

[14] Wen Y,Zhang K,Li Z,et al. A Discriminative Feature Learning Approach for Deep Face Recognition [M].Computer Vision–ECCV 2016. Springer International Publishing,2016.

[15] 李熙瑩,周智豪,邱銘凱.基于部件融合特征的車輛重識別算法 [J/OL].計算機工程:1-11.https://doi.org/10.19678/j.issn.1000-3428.0052284,2018-11-30.

[16] Berkeley Artificial Intelligence Research.Caffe is a deep learning framework made with expression [EB/OL].http://caffe.berkeleyvision.org,2019-06-14.

作者簡介:趙清利(1982-),男,漢族,河南周口人,經理,博士研究生,研究方向:智能視頻分析、深度學習;文莉(1988-),女,漢族,湖南益陽人,算法工程師,碩士研究生,研究方向:智能視頻分析、深度學習;黃宇恒(1980-),男,漢族,廣東佛山人,研發經理,博士研究生,研究方向:視頻圖像系統;金曉峰(1985-),男,漢族,山東濰坊人,總監,高級工程師,博士研究生,研究方向:視頻大數據;梁添才(1980-),男,漢族,廣東廣州人,院長,教授級高級工程師,博士研究生,研究方向:智能視頻分析、模式識別。

猜你喜歡
視頻監控
基于特定類型物體檢測的藥店視頻監管系統
基于變電站的微機防誤系統的可視化監控技術研究
地鐵高清視頻存儲技術的應用分析
基于視頻圖像采集移動目標檢測系統的設計
數字化監控系統的企業應用
基于嵌入式Linux的視頻監控系統的設計與實現
基于HTML5的視頻監控微課設計淺析
智能視頻檢索技術在校園安防建設中的發展應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合