?

基于深度學習的動態目標跟蹤研究

2024-01-14 09:54戴華珍張袖斌朱愷文
電腦與電信 2023年9期
關鍵詞:跟蹤目標卡爾曼濾波卷積

諶 頏 鐘 貴 戴華珍 張袖斌 朱愷文

(廣州科技貿易職業學院,廣東 廣州 511442)

1 引言

現實空間環境中動態目標對象遮擋、變形情況下的視覺跟蹤,是計算機圖像視覺領域研究的重要課題之一,特別是隨著城市交通網絡日益復雜化、城市居民數量的不斷增加,對于公共空間內不同人員個體的目標對象識別和跟蹤,成為計算機圖像視覺識別與分析的主要方向,對于實現空間人物目標的智能化識別與監控具有現實意義。目前有關空間動態目標的識別與跟蹤研究,諸如文獻[1-4],這些文獻從運動目標圖像序列的像素點識別、像素樣本學習訓練、目標模板匹配等技術出發,對存在遮擋、干擾噪聲的動態目標識別跟蹤作出分析,但即便如此,以上算法在動態目標識別跟蹤的準確性、魯棒性和可擴展性等方面依然存在不足,在復雜光照、遮擋和變形情況下的圖像處理質量仍有待提高?;诖?,本文從深度學習卷積神經網絡的角度出發,提出卡爾曼濾波的SiamRPN 深度學習算法進行動態目標跟蹤。首先運用SiamRPN網絡算法提取運動目標的檢測幀、模板幀的重要特征,運用卡爾曼濾波預測模塊對現有的圖像幀進行目標預測,隨后通過置信度加權融合2個及以上的跟蹤模型,利用區域候選網絡RPN對存在遮擋、背景干擾等的動態目標對象,進行跟蹤框的位置坐標和尺度的計算,確定最優跟蹤框準確地定位跟蹤目標位置,實現對全遮擋目標、噪聲干擾目標的多次跟蹤識別,提高外部環境中動態目標的跟蹤準確率。

2 基于卡爾曼濾波的孿生(Siamese)網絡框架

2.1 Siamese跟蹤網絡框架架構

Siamese跟蹤網絡是在Faster RCNN網絡框架的基礎上,建立起的用于區域候選網絡確定、目標對象特征提取的卷積神經網絡。[1]其中,RPN網絡判斷圖像幀的空間環境中,是否有動態監測目標,以及修正anchor 使跟蹤框更準確,且RPN網絡的區域候選框提取、目標對象跟蹤耗時更少,具體Siamese跟蹤網絡框架如圖1所示。

圖1 Siamese動態目標跟蹤網絡框架

從圖1可以看出,Siamese網絡框架為具有孿生結構的深度學習模型,分為搜索區域確定、動態跟蹤目標特征提取兩個分支,左邊上下兩個支路為動態目標特征提取的孿生網絡,支路的網絡結構、提取特征參數完全相同,根據上方靠近候選區域的目標模板幀,對下方的提取檢測幀作出對比分析,通過全卷積神經網絡形成2個分支的連接。

右邊為搜索區域確定并輸出的孿生網絡,中間為搜索區域學習與提取網絡,包括分類分支、回歸分支,這里分類分支輸出含有2k個通道的特征圖像,紅色和藍色分別表示k個錨點的前景得分、背景得分;回歸分支輸出含有4k個通道的特征圖像,用不同顏色分別表示k個錨點的坐標偏移預測值。

基于Siamese 網絡框架的動態目標跟蹤,是在圖像搜索區域x內,找到與模板幀z最相似的目標跟蹤對象。[2]因而在Siamese全卷積網絡中,采用完全卷積函數h(),引入LT來表示平移算子,則對任意圖像幀平移轉換T、整數步長k之間的關系定義如式1:

計算圖像幀搜索區域x的所有目標跟蹤對象,與模板幀z之間的相似性。使用卷積網絡嵌入函數ψ,計算搜索區域的目標跟蹤對象x、模板幀z的相似性,計算公式如式2所示:

其中f表示相似性函數,*表示相關性操作符,φ(x)表示搜索圖像對象、φ(z)表示模板幀圖像。

2.2 SiamRPN深度學習算法

SiamRPN 算法包括目標對象特征提取、分類回歸、分支回歸計算等執行流程,其中分類回歸是對圖像搜索區域內,存在的模板幀作出卷積運算;分支回歸是對圖像搜索區域內,存在的檢測幀作出卷積運算[3],計算公式如式3:

其中(Adx,Ady)為錨點框的中心點坐標,Adw、Adh為錨點框的長和寬;(Tdx,Tdy)為真實檢測框的中心點坐標,Tdw、Tdh為真實檢測框的長和寬,由于不同提取圖像的長和寬存在差異,因而需先對圖像尺寸作正則化處理。

采取RPN孿生網絡的端到端訓練方式,在圖像搜索區域內隨機提取模板幀、檢測幀,進行錨框、真實檢測框的相似性識別訓練。由于相鄰兩幀的目標跟蹤對象變化較小,因而選取[0.33,0.5,1,2,3]等5種不同比例的錨,結合公式3、4,對0、1、2、3 等不同檢測框作出樣本訓練識別,真實框樣本的正則化處理、損失函數如式5、6所示:

其中Lcls表示檢測圖像的目標對象交叉的熵損失;λ表示分類或分支回歸的損失參數。在RPN 孿生網絡的錨框識別訓練時,使用錨點框、真實目標對象框的交并比(IOU),判斷識別的目標對象框屬于正樣本或負樣本,定義IOU>0.6 為正樣本、IOU<0.3 為負樣本。

3 卡爾曼濾波模型的跟蹤目標位置預測與估算

3.1 卡爾曼濾波模型

卡爾曼濾波是利用觀測方程、狀態方程,對動態目標的狀態進行實時跟蹤、迭代預測的方法。當跟蹤動態目標受到遮擋、噪聲干擾等影響時,將很大可能導致動態目標跟丟的問題。[4]這一情況下,使用卡爾曼濾波器、濾波回歸算法,可對受到遮擋、噪聲干擾的目標對象,進行目標位置預測及標記,以保證前后相鄰幀目標對象跟蹤的連續性。當前卡爾曼濾波模型的狀態轉移方程、觀測方程如式7、8所示:

3.2 基于卡爾曼濾波的跟蹤目標對象位置估算

在使用卡爾曼濾波模型,對動態跟蹤目標的狀態進行預測時,首要任務是確定圖像幀中目標的初始狀態。假定某一動態跟蹤目標的狀態為x=(p,v),其中p表示目標對象的位置、v表示目標對象的速度[5],則跟蹤目標的狀態向量、觀測方程可用如式11、12表示。

其中x(0)表示觀測目標的初始狀態、θ 表示目標對象的轉動角度。在初始化階段定義目標的模板幀為zpos,采用卡爾曼濾波模型,對目標對象將會出現的區域作出預測,計算公式為式13、14,根據公式13 計算得到預測目標對象的下一位置,多次迭代后得出目標跟蹤的最優化估計結果。

4 卡爾曼濾波模型、SiamRPN 深度學習算法融合的目標跟蹤實現

面對跟蹤動態目標存在遮擋、噪聲干擾的情況,提出卡爾曼濾波模型、SiamRPN 深度學習算法相融合跟蹤的方式,完成目標對象跟蹤的總體流程設置,[6]具體如圖2所示。

圖2 卡爾曼濾波模型、SiamRPN融合算法的目標跟蹤實現

首先使用跟蹤器采集圖像幀,使用RPN網絡確定跟蹤目標的候選區域。隨后在初始化模塊中,將目標對象的初始框中心點、坐標位置,賦值給卡爾曼濾波器、SiamRPN 神經網絡,并對卡爾曼濾波器中的跟蹤目標初始狀態、初始預測值作出修改。

然后由SiamRPN神經網絡算法,進行跟蹤目標對象的分類回歸、分支回歸卷積運算,提取圖像搜索區域內的檢測幀特征,包括動態目標對象跟蹤框的位置坐標、尺度信息。最后將使用SiamRPN深度學習算法、卡爾曼濾波器,得到的目標對象跟蹤框置信度值k1、k2,作出自適應的加權融合計算,得到加權融合后的最優跟蹤框值x為如式15、16:

其中w1、w2表示SiamRPN 網絡算法、卡爾曼濾波器的加權因子。假設使用SiamRPN 深度學習算法、卡爾曼濾波器,得到的動態目標對象跟蹤框值分別為x1、x2,則利用公式15可得到加權融合后的目標最優跟蹤框值x。

5 實驗及結果分析

5.1 實驗環境及參數設置

基于Linux 系統平臺、MATLAB R2021a 仿真軟件,建立包含100 個視頻的OTB 跟蹤數據集(100 幀),該數據集中涉及到跟蹤目標對象,存在快速運動、背景相似、噪聲干擾、光照變化等一系列問題,基本上能夠全面反映卡爾曼濾波器、SiamRPN網絡算法的目標跟蹤性能。

利用RPN 區域候選網絡,對OTB 跟蹤數據集的兩個卷積層參數作出調整,通過以上的損失函數進行參數優化。假設跟蹤目標對象的邊界框的大小表示為(w,h),則將裁剪后的模板幀大小設置為A*A,計算公式如式17:

其中p=(w+h)/2,按照圖1 的跟蹤目標對象幀要求,將裁剪后的模板幀大小調整為127×127,將檢測幀設置為模板幀大小的2倍為255×255。

5.2 定性分析

選取OTB跟蹤數據集內的3組典型跟蹤數據序列,設置為Soccer、Human6 和Bolt2 序列,其中Soccer 序列內的跟蹤目標對象,存在著遮擋、快速運動等影響因素;Human6 和Bolt2 序列的跟蹤目標對象,存在著遮擋、平面旋轉、運動模糊等影響因素。采用卡爾曼濾波器、SiamRPN 深度學習算法,對以上3組序列的動態目標對象作出跟蹤,具體的跟蹤結果如圖3所示。

圖3 Soccer、Human6和Bolt2序列的目標對象跟蹤結果

從圖3 可以看出,最上層一組跟蹤圖像為Soccer 序列圖像,其存在著遮擋、快速運動等的干擾因素。在目標對象未經過紅綠燈桿時,采用卡爾曼濾波器(紅框)、SiamRPN 網絡算法(綠框)及SianFC 單目標跟蹤算法(藍框),都能夠順利完成對動態行人目標的有效跟蹤,且跟蹤精度差異不大。而當目標遇到紅綠燈桿的遮擋后(#56,#67 幀),基于SianFC算法的單目標跟蹤很快丟失目標,卡爾曼濾波器、SiamRPN網絡算法的跟蹤仍舊保持著較高精度,其中SiamRPN 深度學習算法的跟蹤精度最高,跟蹤效果基本上不受外部干擾因素的影響。

圖3 的中間層為Human6 序列,跟蹤目標對象存在著平面旋轉、運動模糊等影響因素,如發現38幀以后跟蹤目標快速運動、伴隨運動模糊,此時采用卡爾曼濾波器、SiamRPN深度學習算法相融合的跟蹤方式,均可以保證在連續多幀時間內的跟蹤效果。圖3的最下層為Bolt2序列,跟蹤目標對象存在著遮擋、平面旋轉等影響因素,在20~78 幀是的跟蹤時間范圍內,發現使用卡爾曼濾波器、SiamRPN深度學習算法,均能保證跟蹤框、標記目標對象的跟蹤精準性,而SianFC算法在面對人物遮擋的情況,很容易發生再次識別的跟蹤丟失問題。綜上分析可知,在上中下三組圖像的目標對象跟蹤中,基于卡爾曼濾波的SiamRPN算法,可被用于含有遮擋、平面旋轉、快速運動的跟蹤情況,且具有明顯的算法跟蹤優勢。

5.3 定量分析

根據跟蹤目標的中心位置誤差(CLE)、重疊率(OR)等量化的度量指標,對使用卡爾曼濾波器、SiamRPN 網絡算法、SianFC 算法、融合算法的目標跟蹤精度,進行量化性能分析。通常情況下,跟蹤目標的中心位置誤差、重疊率成反比,也即CLE越小時OR越大,跟蹤精度越高。利用以上多種算法,進行目標對象幀測試序列的跟蹤分析,得到的CLE、OR相關量化指標結果如表1、表2所示。

表1 動態目標跟蹤的中心位置誤差(CLE)結果

表2 動態目標跟蹤的重疊率(OR)結果

從表1、表2可以看出,針對以上三組跟蹤目標序列的測試視頻幀,使用“卡爾曼濾波+SiamRPN算法”的跟蹤方式,平均跟蹤速率為37幀/秒,高于SianFC算法的18幀/秒、低于SiamRPN算法的49幀/秒,滿足目標跟蹤的圖像幀實時性處理需求。同時相比于卡爾曼濾波器、SiamRPN 網絡算法、Sian-FC 算法而言,融合算法得到的動態目標跟蹤的中心位置誤差(CLE)更小,目標跟蹤的重疊率(OR)更高,在運行實時性、跟蹤精度方面體現出良好的性能。

6 結語

外部空間環境中動態目標對象的視覺跟蹤,是近年來計算機視覺及姿態評估等領域關注的重要問題。特別在面對具有噪聲干擾、遮擋、變形的復雜場景中,需要采取濾波器目標跟蹤、相鄰兩幀關聯分析的級聯匹配方法,對包含多個目標的變量問題作出跟蹤分析。因此,在Faster RCNN 網絡框架的基礎上,建立用于區域候選網絡確定、目標對象特征提取的卷積神經網絡,使用卡爾曼濾波模型、SiamRPN 深度學習的融合算法,進行圖像幀關聯分析,解決相似目標的運動檢測、交互或遮擋監測問題,對跟丟或再次出現的目標作出準確識別,相比于傳統的動態目標跟蹤算法的識別跟蹤性能更優。

猜你喜歡
跟蹤目標卡爾曼濾波卷積
基于自適應α-β濾波算法的機動目標跟蹤方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
基于遞推更新卡爾曼濾波的磁偶極子目標跟蹤
基于圖割理論的尺度自適應人臉跟蹤算法
連續同色調背景下運動目標自適應跟蹤
基于模糊卡爾曼濾波算法的動力電池SOC估計
基于擴展卡爾曼濾波的PMSM無位置傳感器控制
基于卡爾曼和圖像信息量的Mean Shift改進跟蹤算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合