?

基于改進CStrack關聯策略的多目標跟蹤算法

2024-03-05 07:35馮康康孟俊彤
無線電工程 2024年3期
關鍵詞:魯棒性檢測器外觀

蘇 佳,馮康康,孟俊彤,梁 奔,張 明

(河北科技大學 信息科學與工程學院,河北 石家莊 050018)

0 引言

多目標跟蹤(Multiple Object Tracking,MOT)是計算機視覺領域中的研究熱點,在人機交互、交通監控和人工智能等領域有著廣泛應用[1]。MOT的任務是在視頻中持續對目標進行準確定位,并且在目標外觀以及場景發生變化時仍能維持身份信息不變,最后輸出完整的運動軌跡。在現實復雜場景中目標的尺度變化、物體相互遮擋和光照等影響因素都給多目標跟蹤帶來極大挑戰[2],因此,提出一種適用于復雜場景且具有魯棒性的多目標跟蹤算法。

近年來,多目標跟蹤方法主要分為兩步式(Two-step)和一步式(One-shot)兩類。Two-step中基于檢測的目標跟蹤(Tracking-By-Detection,TBD)算法由檢測器和數據關聯模塊組成[3],能夠獲得很好的效果。首先,檢測器被用來定位視頻序列中所有感興趣的目標;然后在數據關聯過程中利用重識別(Re-Identification,Re-ID)網絡提取每個目標的特征信息,通過外觀特征和運動特征將相同的物體關聯起來。所以在TBD算法中,檢測算法和數據關聯算法的性能共同決定了跟蹤的準確性和魯棒性,檢測效果差可能導致邊界漂移和跟蹤準確率低,關聯算法效果差可能導致ID切換頻繁。此外,檢測器和數據關聯都極大地影響了MOT的推理速度。Deep Sort[4]算法與YOLOv3結合,并引入殘差網絡來提取Re-ID外觀特征,以提高跟蹤效果。POI[5]使用Faster R-CNN作為檢測器,并通過多尺度特征融合提高跟蹤精度。Two-step方法中檢測網絡與Re-ID網絡是獨立分開的,檢測與Re-ID任務都可以提取到最優的特征,對目標尺度變換有較好的魯棒性,能夠實現高精度的跟蹤,但由于要處理2個模型,增加了計算量,導致實時性下降。

One-shot中基于Joint Detection and Embedding(JDE)范式的算法是當下研究熱點[6],其特點是在單一網絡中完成檢測與Re-ID特征的提取,提高跟蹤效率。FairMOT[7]采用CenterNet作為檢測器,通過基于Anchor-free的檢測來獲得低維度的特征向量,提高Re-ID特征質量,減少身份切換次數。RetinaTrack[8]在FPN階段,提取每個Anchor的特征,能夠更好的利用中間層的優勢,同時增加一個256維的特征向量進行Re-ID,提高應對遮擋情況的能力。由于只利用單一網絡提取特征,檢測與Re-ID任務之間往往存在競爭,因此CStrack[9]算法提出交叉神經網絡(Cross-Correlation Network,CCN)對主干網絡輸出的特征進行解耦,并使用尺度感知注意力網絡(Scale-Aware Attention Network,SAAN)來提高Re-ID特征的表征能力。CStrack跟蹤部分采用傳統JDE范式的在線跟蹤關聯策略,無法適應復雜環境和復雜運動帶來的影響,導致跟蹤精度低、身份切換頻繁,因此針對CStrack算法應用于目標外觀變化劇烈、運動不規律的復雜環境中魯棒性較差的問題,提出基于改進CStrack關聯策略的多目標跟蹤算法。使用YOLOv5檢測算法作為檢測器[10],改進CStrack跟蹤器。實驗表明,改進CStrack關聯策略的多目標跟蹤算法具有較好的跟蹤性能,與其他算法相比在指標上有明顯提高,能夠兼顧準確性和實時性。

1 CStrack多目標跟蹤算法

CStrack采用JDE框架設計思想,通過CCN將檢測器主干網絡得到特征圖解耦成2個不同特征圖,用于構建檢測分支和Re-ID分支。MOT算法處理Re-ID往往將圖像縮放到統一固定的尺寸來進行提取特征,但現實場景中物體尺度變化較大,這種Re-ID策略就無法很好應對,因此使用SAAN來獲得目標不同尺度的外觀信息。CStrack算法框架如圖1所示。

圖1 CStrack算法框架Fig.1 CStrack algorithm framework

CStrack跟蹤部分首先對檢測器檢測到的目標初始化軌跡,使用卡爾曼濾波進行預測;第一次關聯,通過余弦距離和馬氏距離將檢測框與跟蹤軌跡進行匈牙利匹配;第二次匹配將檢測框與第一次未匹配的軌跡通過交并比(Intersection over Union, IoU)代價矩陣再次進行匈牙利匹配;通過閾值處理匹配失效的檢測框和軌跡。

1.1 交叉神經網絡

CCN用來提取更適合檢測任務與Re-ID任務的一般特征和外觀特征,通過學習不同通道之間的相互關系,來增強表征。CCN框架如圖2所示。

圖2 CCN框架Fig.2 CCN framework

圖3 SAAN框架Fig.3 SAAN framework

從YOLOv5主干網中得到特征圖F∈C×H×W,首先,經過平均池化層將特征圖F降維,得到包含更精煉特征的特征圖F′∈C×H′×W′,F′通過2個不同的卷積層生成用于檢測和Re-ID的特征圖T1和T2,T1和T2分別被重塑為{M1,M2}∈C×N′(N′=H′×W′)大小的特征,再將M1、M2和各自的轉置矩陣相乘,獲得自注意力特征圖WT1、WT2。然后M1與M2的轉置相乘獲得互注意力圖WS1、WS2,將自注意力圖和互注意力圖相加以獲得通道級別的特征學習。最后,和原始的輸入特征圖F相乘再和F相加得到輸出特征圖FT1、FT2。FT1用于檢測器的檢測處理,FT2送入Re-ID特征提取模塊。

1.2 尺度感知注意力網絡

SAAN通過空間注意力模塊(Spatial Attention Module, SAM)[11]和通道注意力模塊(Channel Attention Module, CAM)[12]來增加Re-ID模型的尺度感知能力,聚合不同尺度的外觀特征信息,以緩解MOT中目標尺度變化的問題,確保對不同大小目標外觀特征的魯棒性。SAAN框架如3所示。

首先將1/16和1/32尺度(與輸入圖像的大小相比)的特征圖上采樣到1/8,3種不同尺度的特征圖通過SAM增強目標相關特征并抑制背景噪聲。目標在不同尺度下獲得的注意力不同,因此可以緩解目標尺度變化和尺寸重疊問題。

將3種特征圖聚合,通過CAM學習每一個特征語義通道的注意力權重。CAM分別使用平均池化和最大池化,池化層輸出的特征圖先由1d卷積和全連接層組成參數共享MLP(Multi-Layer Perception)網絡處理,輸出的2個特征圖相加后通過Sigmoid激活函數得到注意力結果。通過元素相乘將一維的通道注意圖映射到特征上,再與SAM特征圖相加,學習輸入特征的不同語義信息,實現對通道注意力的調節。最后使用3×3的卷積層將特征映射到128通道上,輸出不同目標的Re-ID特征。

2 改進CStrack關聯算法的多目標跟蹤算法

基于改進CStrack數據關聯的多目標跟蹤算法流程如圖4所示。輸入視頻序列,由YOLOv5檢測器進行檢測,將獲得的特征圖送入CCN,通過互相關、自相關學習機制來提取更適合檢測任務和Re-ID任務的特征。檢測特征圖送入YOLOv5的檢測頭,進行目標檢測,獲取目標的初始位置信息;Re-ID特征圖送入SAAN進行特征融合,并使用外觀特征更新(Appearance Feature Update,AFU)模塊增強目標的特征關聯,對目標的外觀特征進行更新。提出二次關聯算法進行數據關聯,得到目標軌跡,在第一次關聯中,IoU距離結合Re-ID特征作為匈牙利匹配的代價矩陣,完成高置信度檢測的線性分配;第二次關聯中,針對目標不規律運動和外觀可區分度低所導致的度量失效,使用擴展IoU匹配;通過高斯平滑插值(Gaussian Smoothed Interpolation, GSI)補償漏檢實現跟蹤。

圖4 改進CStrack關聯策略的多目標跟蹤算法框架Fig.4 Framework of multi-object tracking algorithm with improved CStrack association strategy

2.1 外觀特征更新模塊

隨著目標的移動,目標的特征會發生變化,不利于外觀特征的學習,影響后續的匹配。為了增強目標特征間的關聯,使用外觀特征更新模塊來學習相鄰幀之間的外觀特征,AFU模塊利用時序相關性對先前幀與當前幀的特征進行關聯,自適應地更新目標外觀特征。AFU框架如圖5所示。

圖5 AFU框架Fig.5 AFU framework

AFU首先提取It-1幀中的Re-ID特征Ht-1,為了簡化計算,假設對應像素點的位移存在于固定的范圍內,在計算相關聯信息時,維持一個固定大小d的搜索窗,并將特征Ht-1從128維壓縮到16維,用于特征更新;然后,通過互相關層[13](Correlation Layer)對It-1幀的特征Ht-1與It幀的特征Ht做關聯計算,得到互相關注意力權重,引導網絡在當前幀中的注意力;最后,將互相關注意力權重與壓縮后的It-1幀特征圖相乘,得到It-1幀的相關注意力特征圖,再與Ht拼接,卷積后完成特征更新。

互相關層的計算如式(1)所示,其中,H1、H2分別代表2個特征圖,[d,-d]是要比較的區域,x1、x2代表特征圖上需要對比的點,即以x+o為中心的patch之間的比較?;ハ嚓P運算的本質是通過前后2幀的特征圖相互卷積,來引導網絡關注2幀之間特征最相似的部分,保證外觀特征的魯棒性。

(1)

2.2 二次關聯跟蹤方法

CStrack算法在進行數據關聯時,通過位置、運動和外觀等信息與檢測框關聯得到跟蹤軌跡。由于檢測算法得到的檢測結果存在誤差,為了處理正負樣本,通常會設置一個閾值,保留置信度高于閾值的檢測結果,進行下一步關聯,低于閾值的直接舍棄[14]。

低分的檢測框往往也表示存在物體,因此上述方法明顯存在弊端,比如,當目標被遮擋嚴重時,置信度也會降低,簡單的通過閾值判斷可能會帶來漏檢和軌跡中斷結果,降低了跟蹤性能。二次關聯算法首先將高分檢測框和低分檢測框分開處理,利用低分檢測框和跟蹤軌跡之間的相似性,從低分框中挖掘出目標,過濾掉背景。二次關聯跟蹤方法流程如圖6所示。

根據檢測框置信度,將檢測框分為高分框和低分框,置信度得分高于τhigh的劃為高分框,低于τhigh高于τlow的劃為低分框。高分檢測代表物體的特征顯著、運動狀態規律,因此,第一次匹配使用IoU距離和外觀特征進行相似度計算,然后使用匈牙利算法完成高分框和跟蹤軌跡的匹配;低分檢測意味目標狀態復雜,可能出現運動特征和外觀特征度量失效的情況,因此,第二次使用擴展IoU將低分框和第一次沒有匹配上高分框的跟蹤軌跡進行匹配;對于未匹配上現有跟蹤軌跡、得分又較高的檢測框,新建立一個跟蹤軌跡,達到過濾負樣本背景,同時恢復被遮擋的目標的目的。對于2次都未匹配上檢測框的軌跡,保留30幀,若期間沒有匹配到檢測框則將其刪除。

2.3 IoU-Re-ID融合機制

在進行第一次數據關聯時,CStrack將運動特征和外觀特征結合作為代價矩陣,即對馬氏距離和余弦距離的加權。為了獲得更高準確率的關聯,改用IoU距離結合外觀距離的方式來作為代價矩陣。

刪除余弦相似度低和IoU距離較遠的候選框。使用2個矩陣中值最小的作為代價矩陣C的最終值。IoU-Re-ID融合機制計算如下:

(2)

(3)

以IoU-Re-ID融合機制作為匈牙利匹配的代價矩陣,實現高置信度檢測的線性分配。

2.4 擴展IoU關聯

在第二次匹配時,對檢測效果較差的低分框進行處理,造成其檢測效果差的原因往往包含如遮擋、光暗變化、尺度變化和外觀模糊等情況,意味著外觀特征受到較大影響,外觀可區分度低,通過外觀匹配的魯棒性將大大降低。此外,在跟蹤過程中,目標運動過快等不規則運動致使在相鄰幀之間位置沒有重疊,也會導致目標運動特征度量失效。如果對目標的運動估計不準確,在后續幀中對未匹配軌跡繼續匹配時,即使有相應的檢測結果,依舊會錯過匹配。針對以上問題,在第二次匹配時使用擴展IoU進行匹配。

復雜環境下目標運動不規律時,相鄰幀中目標沒有位置重疊,IoU值為0,因此通過IoU度量失效,IoU計算如式(4)所示。擴展IoU彌補了這一缺點,擴展IoU關聯通過增加IoU的面積來增加檢測和軌跡的匹配范圍,以直接匹配相鄰幀中同一目標不重疊的檢測和軌跡,補償匹配空間中的運動估計偏差,緩解了不規則運動對跟蹤的影響,對快速運動和運動估計偏差具有魯棒性、減少對目標外觀特征的依賴。IoU與擴展IoU計算示意如圖7所示。

(4)

圖7 IoU與擴展IoU計算示意Fig.7 Illustration of IoU and extended IoU calculation

擴展IoU保留與原始檢測軌跡的位置坐標、比例,但擴展匹配空間來進行匹配,假設目標框坐標為o=(x,y,w,h),其中(x,y)為目標框左上角坐標,(w,h)為目標框寬度和高度,令擴展尺度為b,則擴展后的目標框為(x-bw,y-bh,w+2bw,h+2bh)。

2.5 GSI

為了填補由于缺失檢測造成的軌跡空白,插值算法被廣泛使用,傳統的線性插值(Linear Interpolation, LI)計算簡單,但由于未使用運動信息,LI的精度和魯棒性不高,因此GSI采用高斯過程回歸來模擬非線性運動。假設目標的運動服從高斯過程,且每個已知的目標位置均存在觀測噪聲[15],則第i個軌跡的GSI模型描述如下:

pt=f(i)(t)+ε,

(5)

P*=K(F*,F)(K(F,F))-1P,

(6)

λ=τ*lb(τ3/L)。

(7)

2種插值方法的對比示意如圖8所示,綠色曲線為軌跡的真實值,原始跟蹤結果包含噪聲抖動??梢钥闯?相較于LI方法,GSI方法更平滑,更貼近原始軌跡。

圖8 LI插值與GSI插值對比示意Fig.8 Illustration of LI interpolation compared with GSI interpolation

3 實驗對比與分析

3.1 實驗準備

實驗計算機硬件配置Intel Xeon W-2245 CPU@3.90 GHz,NVIDIA RTX3080,顯存10 GB;使用CUDA 11.2和cuDNN 8.1.0.77進行GPU加速。YOLOv5使用CStrack開源的在CrowdHuman數據集上的預訓練權重,在MOT17、MOT20訓練集上進行訓練。學習率設置為5×10-4,batch size大小為10,共訓練50個epoch。

3.2 評價指標

采用MOT Challenge Benchmark的評價指標對算法性能進行評估,評價指標如下:

多目標跟蹤準確率(Multiple Object Tracking Accuracy, MOTA):反映確定目標數量和相關屬性關聯的準確性,側重于檢測和保持軌跡的性能。

識別F1值(Identification F1 Score, IDF1):正確識別的檢測和計算的檢測數的比值,計算準確率和召回率之間的平衡性,用來衡量ID匹配的一致性。

高階跟蹤精度(Higher Order Tracking Accuracy, HOTA):檢測精度和關聯精度的幾何平均值。將檢測效果和關聯效果平衡到單個統一度量中。此外,在預測框和真實框之間以多個不同的檢測相似值(0.05~0.95,間隔0.05)進行評估,而不是像MOTA和IDF1那樣設置單一值,更好地考慮定位精度。

關聯精度(Association Accuracy, AssA):多目標跟蹤關聯匹配的準確率。

檢測精度(Detection Accuracy, DetA):多目標跟蹤中檢測器的準確率。

ID切換(Identity Switches, IDs):目標ID發生改變的總數。

FPS:測量整個系統的幀速率。

3.3 消融實驗

為驗證改進點的有效性,在MOT16測試集上進行消融實驗。消融實驗結果如表1所示。

由表1可以看出,AFU模塊增強了Re-ID特征的關聯,能有效適應行人目標外觀變化,提高了外觀度量的魯棒性,MOTA、IDF1和HOTA均較明顯提高。二次關聯算法通過改變不合理的關聯策略,盡可能地關聯檢測框,改善了跟蹤性能;針對高低分框的特點,二次關聯設置不同的代價矩陣,提高跟蹤效果;隨著關聯算法性能的提升,錯誤關聯減少的同時也減少了對GSI的誤導,GSI可以獲得較好的收益。與原算法相比,改進的CStrack關聯策略算法的MOTA提升3.84%、IDF1提升3.67%、HOTA提升1.91%,IDs有顯著減少。

為驗證所提二次關聯跟蹤算法的有效性,將當下主流的跟蹤器與CStrack檢測部分結合,在MOT16測試集上進行對比實驗,不同跟蹤器對比實驗結果如表2所示。

表2 不同跟蹤器對比實驗

由表2可以看出,與其他跟蹤器相比,二次關聯跟蹤算法取得了較優的跟蹤結果。MOT16數據集中包含了較多復雜運動和外觀模糊的目標,Sort和IoUTracker算法只利用運動特征度量,計算簡單,但對復雜環境和復雜運動狀態的魯棒性較差,容易度量失效,且過分依賴檢測結果。BYTEtrack算法優化了對低分檢測框信息的利用問題,但沒有針對高低分檢測框的特性,改變度量方式。通過上述比較,證明了基于二次關聯跟蹤算法的有效性。

3.4 MOT17、MOT20實驗對比分析

在MOT17、MOT20數據集提供的共11個序列上進行測試,并與其他算法進行對比?;诟倪MCStrack關聯策略的多目標跟蹤算法在MOT17測試集上的可視化結果如圖9所示。

圖9選取了較有代表性的3個序列,第一行為MOT17-03序列,該序列為俯拍視角,行人數量較多,且左上角行人密集,遮擋的情況較多;第二行為MOT17-08序列,特點為固定攝像頭、低視角拍攝,行人尺度變化較大;第三行為MOT17-12序列,該序列為移動拍攝,且伴有抖動,加劇了行人位置變化程度,在預測過程中容易造成偏移??梢钥闯?基于改進CStrack關聯策略的跟蹤算法具有優異的跟蹤效果。

不同算法在MOT17測試集上指標對比如表3所示,在MOT17測試集上進行測試,相較于原始CStrack算法,基于改進CStrack關聯策略的跟蹤算法在MOTA上提升3.3%,HOTA提升1.3%,IDF1提升1.7%;同時由于GSI彌補了漏檢的空白,IDs的數量有明顯下降。與其他先進算法進行比較,所提算法在各項指標上都有一定程度提高,這是因為改進了跟蹤器,獲得了更準確的關聯。與FairMOT相比,基于改進CStrack關聯策略的跟蹤算法在HOTA、DetA和實時性上略低于FairMOT。FairMOT使用基于Anchor-free的CenterNet進行檢測,相較于CStrack所使用的YOLOv5檢測,基于Anchor-free的檢測方法對Re-ID更友好,處理速度更快,在特征提取上具有優勢,能夠兼顧準確率和實時性,但FairMOT使用的仍是傳統MOT的關聯策略,故在MOTA、IDF1等指標上低于基于改進CStrack關聯策略的跟蹤算法。

基于改進CStrack關聯策略的多目標跟蹤算法在MOT20測試集上的可視化結果圖10所示,圖10(a)、圖10(b)二組第一行為CStrack跟蹤結果,第二行為改進CStrack關聯策略的跟蹤算法結果。圖10(a)圖片為MOT20-07序列中第117、123、125幀??梢钥闯鲈诎l生嚴重遮擋時,2個算法都發生了跟蹤丟失,但在目標重新出現時,改進CStrack仍可以維持之前的ID,而CStrack發生了ID切換。圖10(b)圖片為MOT20-08序列中第568、711、769幀。第568幀中2個算法都可以準確地實現對目標的跟蹤,但隨著目標被遮擋嚴重,在第711幀時,CStrack算法跟蹤丟失,雖然在769幀時重新跟蹤到目標,但發生了ID切換;改進CStrack算法實現了對目標長時間的有效跟蹤。以上對比證明了基于改進CStrack關聯策略的跟蹤算法具有較好的魯棒性,能夠適應目標密集、目標遮擋等復雜情況。

圖10 MOT20測試集可視化對比Fig.10 Visual comparison of MOT20 test set

MOT20測試集結果對比如表4所示,MOT20中包含更擁擠的場景,高遮擋意味著漏檢和關聯缺失的情況更多?;诟倪MCStrack關聯策略的多目標跟蹤算法在MOTA、HOTA、IDF1上分別提高4.1%、2%、2.2%。其中DetA略低于TransCenter,TransCenter使用基于Transformer架構的Deformable DETR作為檢測器,雖然擁有較高的檢測精度,但模型參數量大,實時性差;LMOT_Tracker使用輕量的DLA-34骨干網,并將檢測和跟蹤特征圖融合,在IDs和FPS上有一定優勢,但犧牲了跟蹤精度,在MOTA等指標中低于改進CStrack關聯策略的跟蹤算法。

表4 不同算法在MOT20測試集上指標對比

基于改進CStrack關聯策略的多目標跟蹤算法在MOTA上有較好的表現,是由于二次關聯跟蹤算法改進了關聯策略,減少了缺失檢測,在復雜場景下依舊能保持軌跡,獲得高質量的關聯。但算法在HOTA、IDF1上略低于其他算法,說明在特征提取及Re-ID部分仍有欠缺。對于檢測器而言,如何解決檢測任務和重識別任務之間的競爭、提取表征能力更強的特征,是未來研究的重點;針對跟蹤器,目前多目標跟蹤都依賴卡爾曼濾波器的估計值,而簡單的線性卡爾曼濾波器魯棒性較差,如何減少復雜環境對估計值的影響,以及如何提高推理速度與效率仍是要考慮的問題。

4 結束語

針對目標外觀變化明顯、運動不規律情況下多目標跟蹤算法魯棒性差的問題,提出基于改進CStrack關聯策略的多目標跟蹤算法。使用AFU模塊,增強前后幀之間的特征關聯,自適應的更新Re-ID特征;提出二次關聯跟蹤算法,分開處理高置信度與低置信度的檢測結果,分別利用IoU距離結合Re-ID特征、擴展IoU匹配進行關聯,提高匹配質量,完善匹配策略;使用GSI關聯軌跡、補償漏檢,進一步提升跟蹤效果。在MOT17、MOT20數據上測試,基于改進CStrack關聯策略的多目標跟蹤算法MOTA分別達到73.9%、64.2%,HOTA分別達到58.7%、48.3%。

綜上所述,基于改進CStrack關聯策略的多目標跟蹤算法在復雜場景中取得了較好的效果,能夠有效處理目標被遮擋問題,提高了跟蹤的準確度和魯棒性。未來,對于多目標跟蹤的研究仍需在目標檢測階段減少漏檢、誤檢;在數據關聯上,通過改善關聯機制,獲得更準確的關聯,提高跟蹤精度。

猜你喜歡
魯棒性檢測器外觀
外觀動作自適應目標跟蹤方法
A Shopping Story to Remember
不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
荒漠綠洲區潛在生態網絡增邊優化魯棒性分析
基于確定性指標的弦支結構魯棒性評價
方外觀遺跡舊照
車道微波車輛檢測器的應用
基于非支配解集的多模式裝備項目群調度魯棒性優化
非接觸移動供電系統不同補償拓撲下的魯棒性分析
一種霧霾檢測器的研究與設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合