?

一種多目標檢測跟蹤算法研究

2022-06-14 01:08楊文煥翟雨殷亞萍王曉君
河北科技大學學報 2022年2期

楊文煥 翟雨 殷亞萍 王曉君

摘要:針對多目標跟蹤領域中現有研究方法存在的實時性差、易漂移等問題,基于YOLOv3算法和KCF算法,提出了一種多目標檢測跟蹤算法。首先,利用訓練好的YOLOv3網絡獲取視頻中目標的位置,并對各個目標進行ID分配;其次,將多個目標并行輸入到基于核相關濾波的跟蹤模塊進行目標跟蹤;然后,判斷是否滿足啟動修正策略的條件,若滿足則用檢測模塊的結果去修正跟蹤模塊的結果;最后,利用跟蹤結果更新核相關濾波器模型。實驗結果表明,將算法應用于OTB2015數據集中的4組含有多種干擾的視頻序列,其跟蹤精確度達82.4%,跟蹤成功率達81.1%,能夠滿足跟蹤實時性要求。因此,所提算法不但有效,且具有更強的魯棒性,為多目標跟蹤領域提供了新的研究思路。

關鍵詞:計算機神經網絡;多目標檢測跟蹤;YOLOv3;核相關濾波算法;修正策略

中圖分類號:TP301.6文獻標識碼:Adoi:10.7535/hbkd.2022yx02002

Abstract:Aiming at the problems of poor real-time performance and easy drift in the existing research methods in the field of multi-target tracking,a multi-target detection and tracking algorithm was proposed based on YOLOv3 algorithm and KCF algorithm.Firstly,the trained YOLOv3 network was used to obtain the location of the target in the video,and the ID of each target was allocated;Secondly,multiple targets were input into the tracking module based on kernel correlation filter in parallel for target tracking;Then,the conditions for starting the correction strategy were judged,if they were met,the results of the detection module were used to correct the results of the tracking module;Finally,the kernel correlation filter model was updated by using the tracking results.The experimental results show that when the algorithm is applied to four groups of video sequences containing multiple interferences in OTB2015 data set,the tracking accuracy reaches 82.4%,the tracking success rate reaches 81.1%,and meets the requirements of real-time tracking.Therefore,the algorithm is not only valid,but also has stronger robustness to provide a new research method for the field of multi-target tracking.

Keywords:computer neural network;multi-target detection and tracking;YOLOv3;kerneized correlation filter algorithm;correction strategy

目標跟蹤是計算機視覺領域的重要分支,該領域的研究具有較強的學術研究價值和工程應用價值[1-2]。在實際應用中,視頻圖像會存在噪聲干擾或者目標形變[3-4]等情況,這使得目標跟蹤的研究具有很大的挑戰。按照跟蹤目標個數的不同,可以將其分為單目標跟蹤和多目標跟蹤[5],其中單目標跟蹤的研究已較為完善,而多目標跟蹤由于存在諸多挑戰因素,仍有很多問題未得以解決。

近年來,隨著深度學習方法不斷發展,出現了很多新模型與新算法,很多國內外學者試著將這些方法應用到多目標跟蹤系統[6]的檢測器中,取得了較大突破[7]。REDMON等[8]提出了YOLOv3算法,與YOLOv1,YOLOv2算法[9-10]相比,YOLOv3引入了多尺度特征并改進了網絡結構,因此目標檢測的準確率得到了提升,特別是針對體積較小的目標。任珈民等[11]提出了一種基于YOLOv3與卡爾曼濾波的多目標跟蹤算法,利用YOLOv3算法檢測當前幀中的待跟蹤目標。該算法保證了檢測精度和速度,但是卡爾曼濾波需要進行不斷迭代才能預測目標位置,故其實時性較差。

河北科技大學學報2022年第2期楊文煥,等:一種多目標檢測跟蹤算法研究BOLME等[12]提出了誤差最小平方和(MOSSE)濾波器,首次將相關濾波器應用到目標跟蹤中,通過相關性計算原理實現目標區域跟蹤,并且引入了傅里葉變換,加快了計算速度。HENRIQUES等[13]在MOSSE和CSK算法的基礎上提出了核相關濾波器(kerneized correlation filter,KCF)算法[14-15],該算法使用循環矩陣降低了計算量,并且引入了多通道特征,最終使得目標跟蹤的準確率提高。不過當目標尺度發生變化時,KCF算法易發生跟蹤漂移。雖然相關濾波算法在目標跟蹤的應用中具有較為突出的優勢,但是這些算法都只能解決單目標跟蹤問題,如何把相關濾波跟蹤算法的優勢應用到多目標跟蹤中,仍有待進一步研究。

考慮以上算法的優缺點,在原有算法基礎上提出了一種多目標檢測跟蹤算法。首先,利用YOLOv3算法檢測得到視頻圖像中的目標,并對多個目標進行固定ID分配;然后,將所有目標的信息并行輸入到基于核相關濾波的跟蹤模塊;最后,通過啟動修正策略用檢測模塊的結果更新跟蹤模塊的結果,以保證跟蹤的準確率。

1算法流程

本文提出了一種基于YOLOv3和核相關濾波的多目標檢測與跟蹤算法,其框架圖如圖1所示。該算法主要包括視頻輸入、檢測模塊、離線訓練、跟蹤模塊、跟蹤結果修正。多目標檢測跟蹤算法流程如圖2所示,首先,獲取視頻圖像,將視頻中的第一幀輸入到YOLOv3檢測模塊檢測目標位置,并對各個目標進行ID分配。其次,將檢測結果輸入到跟蹤模塊,對根據檢測結果采集到的正負樣本進行嶺回歸計算,從而得到候選樣本,找到最大響應值的位置即為目標的跟蹤結果。然后,判斷是否啟動修正策略,若滿足啟動條件,則返回檢測模塊繼續檢測當前幀的目標數量和位置;若不滿足,則直接輸出跟蹤結果。最后,用跟蹤結果更新KCF濾波器模型。

1.1檢測模塊

算法中的檢測模塊基于YOLOv3網絡架構獲取目標的當前位置。YOLOv3算法通過殘差模型Darknet-53提取圖像特征,利用anchor錨點機制預測邊界框位置,從而預測目標位置,并且采用特征金字塔網絡(feature pyramid network,FPN)架構實現多尺度目標檢測,這些改進提高了目標檢測的精度和速度。

1.1.1YOLOv3網絡結構

圖3所示即為YOLOv3網絡的結構示意圖。首先,將416×416大小的圖像輸入到DBL(Darknetconv2D_BN_Leaky)層。DBL是YOLOv3網絡的基本組件,如圖3左下方所示,DBL表示卷積層(conv)、批標準化BN(Batch Normalization)以及激活函數Leaky ReLU的組合。之后,利用多個殘差塊提取圖像特征。然后,將處理得到的圖像特征進行卷積和上采樣,并將得到的結果與原始圖像特征進行拼接,從而得到3種不同尺寸的預測結果。每個預測結果的數據內容為預測框的位置、置信度和類別概率,其中預測框的位置通過中心點坐標和框的寬高來表示[16]。

1.1.2檢測過程

使用數據集對YOLOv3網絡模型進行離線訓練,之后,訓練好的網絡就可以用來進行實際的圖像目標檢測,檢測過程如圖4所示,主要包括圖像尺寸歸一化、圖像特征提取、得到預測框信息和輸出最優預測結果。

首先,將視頻圖像輸入到檢測模塊中,對輸入的圖像重新進行裁剪,將尺寸統一設置為416×416,并進行歸一化處理。然后,將固定尺寸的圖像輸入到Darknet-53網絡[17]中,提取圖像特征,并輸出3種尺寸的特征圖像。其次,會得到一些預測框,并得出這些預測框的坐標值、置信度和類別概率。其中,置信度是一個在區間[0,1]之內的值,表示當前預測框有目標且分類正確的概率。最后,通過將得到的每個預測框的置信度與設定閾值進行比較,去除置信度較低的預測框,再根據非極大值抑制(non-maximum suppression,NMS)方法確定最優的預測結果,此預測結果即為最終的檢測結果。上述提到的置信度閾值可根據實際情況進行調整,實驗采用YOLOv3模型相關開源代碼中的默認閾值0.45。

給每個檢測目標分配一個ID,分配原則是檢測目標的輸出順序。此外,可能存在目標在移出視野之后再出現的情況,因此所有的ID號只使用一次,目標重新出現將會有新的ID號。最后將檢測結果輸入到跟蹤模塊。

1.2基于KCF算法的目標跟蹤模塊

將檢測模塊得到的結果并行輸入到基于KCF算法的跟蹤模塊中,對每個目標進行跟蹤。核相關濾波算法會使圖像產生位移,從而采集目標的正負樣本,產生位移的樣本存在一個矩陣中,組成一個循環矩陣[18],利用嶺回歸方法訓練分類器,并且將線性空間的嶺回歸通過核函數映射到非線性空間[19],最后將測試樣本通過訓練好的分類器檢測,從而得到目標位置,完成跟蹤任務。圖5所示為基于KCF算法的目標跟蹤模塊流程圖。

首先,將視頻圖像輸入到檢測模塊中,對輸入的圖像重新進行裁剪,將尺寸統一設置為416×416,并進行歸一化處理。然后,將固定尺寸的圖像輸入到Darknet-53網絡[17]中,提取圖像特征,并輸出3種尺寸的特征圖像。其次,會得到一些預測框,并得出這些預測框的坐標值、置信度和類別概率。其中,置信度是一個在區間[0,1]之內的值,表示當前預測框有目標且分類正確的概率。最后,通過將得到的每個預測框的置信度與設定閾值進行比較,去除置信度較低的預測框,再根據非極大值抑制(non-maximum suppression,NMS)方法確定最優的預測結果,此預測結果即為最終的檢測結果。上述提到的置信度閾值可根據實際情況進行調整,實驗采用YOLOv3模型相關開源代碼中的默認閾值0.45。

給每個檢測目標分配一個ID,分配原則是檢測目標的輸出順序。此外,可能存在目標在移出視野之后再出現的情況,因此所有的ID號只使用一次,目標重新出現將會有新的ID號。最后將檢測結果輸入到跟蹤模塊。

1.2基于KCF算法的目標跟蹤模塊

將檢測模塊得到的結果并行輸入到基于KCF算法的跟蹤模塊中,對每個目標進行跟蹤。核相關濾波算法會使圖像產生位移,從而采集目標的正負樣本,產生位移的樣本存在一個矩陣中,組成一個循環矩陣[18],利用嶺回歸方法訓練分類器,并且將線性空間的嶺回歸通過核函數映射到非線性空間[19],最后將測試樣本通過訓練好的分類器檢測,從而得到目標位置,完成跟蹤任務。圖5所示為基于KCF算法的目標跟蹤模塊流程圖。

1.2.4修正策略

為解決經過長時間跟蹤后跟蹤模塊精度下降的問題,算法使用了修正策略,即定時會對跟蹤模塊的結果進行更新修正。

將檢測模塊的檢測結果輸入到跟蹤模塊,開始跟蹤時,效果比較好,但經過長時間的跟蹤,效果會逐漸變差。若頻繁的修正跟蹤結果則會使得跟蹤的實時性變差,所以該策略是在跟蹤一段時間后自動啟動檢測模塊,利用檢測模塊的結果對目標跟蹤結果進行修正。在實驗中,設置每隔10幀重新啟動一次檢測模塊。

修正策略解決了原有目標離開視野或者新目標出現時跟蹤效果不好的問題,從而使得目標跟蹤更加準確,更具實時性,保證了跟蹤速度。

2實驗與結果分析

2.1實驗環境及數據集

本文算法測試平臺的硬件環境為NVIDIA GTX3090Ti GPU,16 GB內存,軟件環境為Win10、64位操作系統、Matlab 2016a,Visual Studio 2015,Python 3.6,CUDA 9.0,Tensorflow-gpu1.11.0。

實驗采用OTB 2015(Visual Tracker Benchmark 2015)數據集對本文算法進行驗證和性能評估。該數據集中包含100個視頻序列,因此也叫做OTB 100數據集。OTB 2015數據集共包含9種干擾屬性[21],分別是光照變化(IV)、尺度變化(SV)、遮擋(OCC)、變形(DFE)、運動模糊(MB)、快速移動(FM)、平面內旋轉(IPR)、平面外旋轉(OPR)、移出視野(OV)、背景相似(BC)以及低分辨率(LR),每一個視頻序列中都包含著以上干擾的若干種。數據集包含25%的灰度序列,其余為彩色序列,部分圖像如圖6所示。

2.2評價指標

實驗采用的評價指標為精確度、成功率(SR)和幀率(FPS)。

2.3結果分析

實驗從OTB 2015數據集中選取了4組視頻序列,分別是Walking 2,Jogging,Subway和Bolt序列。每個視頻序列中都含有多個行人目標,并且存在遮擋、目標形變等各種干擾,視頻序列的干擾信息如表1所示。

2.3.1定性分析

對以上4組視頻序列進行跟蹤測試的結果如圖7所示。由圖7可知,本文算法能夠較準確地跟蹤上視頻中的多個目標。圖7 a)和圖7 d)中出現了目標因被遮擋或體積較小而跟蹤失敗的情況,但經過算法的修正策略,在之后的視頻幀中目標重新被檢測到并被跟蹤,針對出現新目標和目標形變的干擾,算法也有較好的表現;圖7 b)說明對于目標和背景相似的干擾,算法能有效處理;由圖7 c)可以看出本文算法能夠跟蹤上移動速度較快的目標。

2.3.2定量分析

圖8所示為本文算法與CSK,KCF,STAPLE,SAMF 4種跟蹤算法針對上述選取視頻序列得到的精確度曲線圖,橫坐標表示設置的CLE閾值,縱坐標表示CLE小于閾值的幀數占總幀數的比值即精確度。隨著選取的CLE閾值地增大,精確度會逐步提高且趨于平穩。從圖8可以看出,本文算法的精確度達到了0.824,相比于STAPLE算法提高了2.2%,相比SAMF算法提高了3.7%,相比KCF算法提高了7.9%,與最低的CSK算法相比提高了13.1%,可見本文算法相較于其他算法,跟蹤性能具有較大提升。

圖9展示了本文算法對4組視頻序列處理得到的多目標跟蹤重疊度,橫坐標表示視頻不同幀的幀數,縱坐標表示每一幀圖像的跟蹤重疊度,重疊度的計算方法如式(20)所示。從圖9可以看出,Jogging視頻的重疊度在80%以上的幀數居多,跟蹤效果較好;Blot和Walking 2兩組視頻的跟蹤效果相對較差,重疊度在70%以下的幀數居多,其原因是視頻中存在跟蹤目標間相互遮擋、目標較小等干擾情況。4組視頻序列的重疊度幾乎都在60%以上,可以滿足跟蹤需求。

將重疊度統計實驗中4組視頻的成功率列于表2,其總體平均成功率為81.1%。

為進一步評價本文算法,下面對本文算法和其他幾種跟蹤算法[23]進行成功率比對。各算法在以上4組視頻序列上測試的成功率如表3所示。

從表3可以看出,本文所提算法的成功率為81.1%,與成功率排名第2的STAPLE算法相比,提高了7.7%,與成功率最低的CSK算法相比,成功率提升了37%。

最后,比較本文算法和其他幾種跟蹤算法的運算效率,各算法幀率如表4所示。

可見,本文算法的幀率達到了42.183 幀/秒,雖然在上述算法中屬于中間水平,但滿足實時性要求。

綜上,通過將本文算法和其他幾種跟蹤算法的精確度、成功率和運算效率進行對比可知,本文算法在精確度和成功率方面表現優秀,由于使用了修正策略,雖然在算法速度上不如CSK和KCF,但幀率已經達到了30幀/s以上,可以較好地滿足實時性要求。因此,本文所提出的多目標檢測跟蹤算法對目標的跟蹤有效、精確,并具有實時性。

3結語

考慮到YOLOv3算法在目標檢測中性能較好并且可以解決多尺度檢測的問題,而核相關濾波算法計算量小、跟蹤準確率高,提出了基于YOLOv3算法和核相關濾波的多目標檢測跟蹤算法。利用YOLOv3算法的Darknet-53殘差模型和FPN架構實現對圖像特征的提取和對目標的多尺度檢測,獲取目標位置,并為目標分配ID編號;核相關濾波算法對檢測到的目標樣本進行循環移位,得到大量訓練樣本,通過核函數實現在高維空間內使用嶺回歸方法訓練分類器,將響應值最大的位置作為跟蹤結果; 算法中加入了修正策略,定時更新檢測模塊的結果,進而修正跟蹤結果。通過對多組實驗結果進行分析可知,本文算法具有較高的跟蹤精確度和成功率,在4組實驗中算法精確度為82.4%,成功率最高可達93.9%,總體平均成功率為81.1%。該算法還能實現準確的實時跟蹤,在目標有遮擋、移出視野和形變等干擾存在時均能跟蹤多個目標,可以滿足實際應用中的跟蹤需求。

本文算法采用的周期性修正策略仍有待改進。周期性修正既會造成系統資源的浪費,也有可能出現檢測不到目標,在規定時間內目標跟蹤失敗的問題。所以未來將深入研究如何采用自適應的方法進行修正,即只在跟蹤失敗時啟動修正模塊,以便在盡可能減少資源浪費的前提下,進一步提高多目標跟蹤的準確性。

參考文獻/References:

[1]孟琭,楊旭.目標跟蹤算法綜述[J].自動化學報,2019,45(7):1244-1260.

MENG Lu,YANG Xu.A survey of object tracking algorithms[J].Acta Automatica Sinica,2019,45(7):1244-1260.

[2]李璽,查宇飛,張天柱,等.深度學習的目標跟蹤算法綜述[J].中國圖象圖形學報,2019,24(12):2057-2080.

LI Xi,ZHA Yufei,ZHANG Tianzhu,et al.Survey of visual object tracking algorithms based on deep learning[J].Journal of Image and Graphics,2019,24(12):2057-2080.

[3]李均利,尹寬,儲誠曦,等.視頻目標跟蹤技術綜述[J].燕山大學學報,2019,43(3):251-262.

LI Junli,YIN Kuan,CHU Chengxi,et al.Review of video target tracking technology[J].Journal of Yanshan University,2019,43(3):251-262.

[4]張靜,王文杰.基于多信息融合的多目標跟蹤方法研究[J].計算機測量與控制,2020,28(9):233-237.

ZHANG Jing,WANG Wenjie.Multi-target tracking method based on multi information fusion[J].Computer Measurement & Control,2020,28(9):233-237.

[5]李月峰,周書仁.在線多目標視頻跟蹤算法綜述[J].計算技術與自動化,2018,37(1):73-82.

LI Yuefeng,ZHOU Shuren.Survey of online multi-object video tracking algorithms[J].Computing Technology and Automation,2018,37(1):73-82.

[6]LUO W H,XING J L,MILAN A,et al.Multiple object tracking:A literature review[J].Artificial Intelligence,2021,293.DOI:10.48550/arXiv.1409.7618.

[7]谷燕飛.基于改進YOLOv3+Deepsort多目標跟蹤系統的研究與實現[D].沈陽:遼寧大學,2020.

GU Yanfei.Research and Implementation of Improved YOLOv3+_Deepsort Muti-target Tacking System[D].Shenyang:Liaoning University,2020.

[8]REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[DB/OL].[2021-01-21].https://arxiv.org/abs/1804.02767.

[9]REDMON J,FARHADI A.YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:6517-6525.

[10]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C] //2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.

[11]任珈民,宮寧生,韓鎮陽.基于YOLOv3與卡爾曼濾波的多目標跟蹤算法[J].計算機應用與軟件,2020,37(5):169-176.

REN Jiamin,GONG Ningsheng,HAN Zhenyang.Multi-target tracking algorithm based on YOLOv3 and Kalman filter[J].Computer Applications and Software,2020,37(5):169-176.

[12]BOLME D S,BEVERIDGE J R,DRAPER B A,et al.Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE.2010:2544-2550.

[13]HENRIQUES J F,CASEIRO R,MARTINS P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[C]//Proceeding of the 12th European Conference on Computer Vision.Berlin,Heidelberg:Springer Berlin Heidelberg,2012:702-715.

[14]王婷婷.基于核相關的目標跟蹤算法研究[D].西安:西安理工大學,2020.

WANG Tingting.Research on Target Tracking Algorithm on Kernel Correlation Filter[D].Xi′an:Xi′an University of Technology,2020.

[15]HENRIQUES J F,CASEIRO R,MARTINS P,et al.High-Speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.

[16]韓峰,萬少松.基于YOLOv3算法改進的行人檢測技術研究[J].科學技術創新,2021(9):21-22.

[17]鄭佳卉.基于YOLOv3的行人視頻目標檢測方法[D].西安:西安電子科技大學,2019.

ZHENG Jiahui.The Object Detection Method for Pedestrian Video Based on YOLOv3[D].Xi′an:Xidian University,2019.

[18]郜義浩,高志權,張明月,等.基于YOLOV3和KCF的高速公路監控視頻交通事件檢測[J].中國交通信息化,2019(sup1):197-201.

[19]王驛釗.基于改進KCF算法的空間網格目標追蹤算法研究[D].廣州:暨南大學,2020.

WANG Yizhao.Grid Positioning Guidance Based on Improved KCF Algorithm for Object Tracking[D].Guangzhou:Jinan University,2020.

[20]尹向雷.基于相關濾波器的視覺目標跟蹤方法研究[D].西安:西安電子科技大學,2020.

YIN Xianglei.Research on Visual Object Tracking Method Based on Correlation Filter[D].Xi′an:Xi′an University of Electronic Science and Technology,2020.

[21]徐嬌.智能目標檢測與跟蹤關鍵技術研究[D].西安:西安電子科技大學,2020.

XU Jiao.Research on Key Technologies of Intelligent Object Detection and Target Tracking[D].Xi′an:Xi′an University of Electronic Science and Technology,2020.

[22]王冠,耿明洋,馬勃檀,等.基于孿生區域候選網絡的目標跟蹤模型[J].小型微型計算機系統,2021,42(4):755-760.

WANG Guan,GENG Mingyang,MA Botan,et al.Target tracking model based on siamese region proposal network[J].Journal of Chinese Computer Systems,2021,42(4):755-760.

[23]尹寬,李均利,胡凱,等.融入時序和速度信息的自適應更新目標跟蹤[J].中國圖象圖形學報,2021,26(4):883-897.

YIN Kuan,LI Junli,HU Kai,et al.Adaptive update object tracking algorithm incorporating timing and speed information[J].Journal of Image and Graphics,2021,26(4):883-897.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合