?

基于孿生網絡和Transformer的紅外弱小目標跟蹤方法

2024-03-21 02:25崔晨輝藺素珍李大威祿曉飛
計算機應用 2024年2期
關鍵詞:弱小紅外邊界

崔晨輝,藺素珍*,李大威,祿曉飛,武 杰

(1.中北大學 計算機科學與技術學院,太原 030051;2.中北大學 電氣與控制工程學院,太原 030051;3.酒泉衛星發射中心,甘肅 酒泉 735000)

0 引言

紅外弱小目標跟蹤作為精確制導和遠距離飛行器目標監控等系統的關鍵技術之一,也是計算機視覺研究中的經典難題。在上述應用中,目標通常距離紅外傳感器較遠,獲取的圖像不僅分辨率較低、目標所占像素較少(通常在2×2~9×9),而且目標輪廓模糊,導致很難有效提取目標特征,更難精確跟蹤目標[1];如果再遭遇目標周圍相似物干擾、傳感器抖動和目標明暗變化等,甚至會導致跟蹤完全失敗。因此,亟需探索復雜場景下的紅外弱小目標穩健跟蹤方法。

現有紅外弱小目標跟蹤方法可分為基于模型驅動的數學建模方法(下稱模型驅動法)和基于數據驅動的深度學習方法(下稱數據驅動法)兩大類[2]。模型驅動法通常在首幀標定的目標位置裁剪圖像區域,并訓練得到相關濾波器之后,再用該濾波器與當前幀圖像區域運算獲得響應圖,響應圖中的最大位置即為目標新位置,然后據此更新相關濾波器進行下一輪次,以此類推。該類方法的關鍵是降低背景雜波對跟蹤器的影響[3-4]、增強目標區域[5]。為提高跟蹤速度,通常需要利用周期性循環移位訓練濾波器,會不可避免地引入邊界效應,降低目標模型的質量。為了改進目標模型,多數研究通常采用尺度估計和多特征提取等手段[6],雖然能提升精度但增加了方法的復雜度,以至于在實時性方面離探測系統的要求越來越遠??傮w地,模型驅動法近期進展較慢。

與模型驅動法不同,數據驅動法近幾年得到了長足的發展。數據驅動法多是通過神經網絡提取目標特征,并產生響應圖定位目標位置,它的跟蹤效果較好且泛化能力強。其中,基于孿生網絡的目標跟蹤方法由于出色的跟蹤精度和速度得到廣泛應用[7]。它將目標跟蹤問題視為一個相似性匹配的任務,通過共享參數的神經網絡提取視頻序列中首幀和后續幀圖像的特征圖,在后續幀的特征圖上尋找與首幀特征圖最為相似的位置,作為最終的跟蹤結果。對于紅外弱小目標在跟蹤過程中易受到背景雜波和遮擋等影響,Att-Siam(convolutional channel Attention Siamese network)[8]方法基于SiamFC(Fully-Convolutional Siamese network)[9]方法進行改進,融合卷積通道注意力機制、堆疊通道注意力機制和空間注意力機制,實現對紅外弱小目標有效且穩定的跟蹤。張文波等[10]提出一種改進的全卷積孿生網絡,使用深度特征響應圖的平均峰值相關能量和最大峰值判斷目標跟蹤狀態,在目標受到背景雜波干擾時,利用深度特征響應值聯合局部對比度判別的方式定位目標,當目標發生遮擋時,使用卡爾曼濾波器預測目標位置,所提方法可適應復雜多變的紅外環境。為解決紅外弱小目標快速運動和丟失重現問題,Chen等[11]提出一種基于時空注意力的孿生網絡方法,它的特點是在局部區域跟蹤過程中添加空間和時間注意力機制消除背景干擾,更好感知紅外弱小目標,當目標快速運動跑出局部區域時,設計三階段全局重檢測機制在全局視角下重新定位目標,最后通過狀態感知切換策略,自適應融合局部跟蹤和全局重檢測,可對弱小目標進行魯棒跟蹤。盡管這些研究通過添加不同的模塊應對了紅外弱小目標跟蹤中的一些挑戰,使跟蹤結果精確性得到很大提升;但總的來看,基于孿生網絡的方法在計算響應圖的過程中常采用卷積互相關操作,將模板特征圖作為卷積核,搜索特征圖作為輸入,由此得到最相似位置,該操作易受周圍相似物的干擾,陷入局部最優,跟蹤結果偏移到相似物上,丟失真實目標[12]。

考慮到Transformer 模型可建模全局的上下文信息[13],面對卷積神經網絡(Convolutional Neural Network,CNN)中感受野映射到圖像中較為局限的問題,利用Transformer 模型特有的多頭注意力機制,可有效獲取全局信息,并且多頭機制可將編碼向量映射至多個空間,增強模型的表達能力。本文受到TransT(Transformer Tracking)[12]目標跟蹤方法的啟發,利用Transformer 中的自注意力機制和交叉注意力機制的優勢,對模板幀和搜索幀特征圖進行全局建模,可避免跟蹤過程中卷積互相關操作陷入局部最優問題。

本文主要工作內容如下:

1)提出一種針對紅外弱小目標的跟蹤方法,利用孿生網絡和Transformer 跟蹤紅外弱小目標。在特征提取中采用深度特征和灰度方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,使模板幀和搜索幀特征信息更加豐富;利用Transformer 替換原有的卷積互相關操作,建立全局依賴,獲得更準確的響應圖。

2)提出一個響應圖上采樣模塊,將Transformer 輸出的互相關響應圖擴大至搜索幀尺寸大小,最后通過邊界框預測網絡模塊輸出跟蹤結果。

3)在修改后的地空背景下紅外圖像弱小飛機目標檢測跟蹤數據集(Dataset for IR Small Targets,DIRST)上進行實驗,對比目標檢測、通用目標跟蹤方法,本文方法達到最高的89.7%的精確率和90.2%的成功率。

1 SiamCAR目標跟蹤方法

基于孿生網絡的目標跟蹤方法將跟蹤問題轉換為目標匹配問題,計算模板特征圖和搜索特征圖之間的相似度圖,但相似度圖只包含有限的空間信息。因此,常在搜索特征圖上設定多個尺度以確定目標發生的尺度變換,過程非常耗時。為解決該問題,SiamCAR(Siamese fully Convolutional classification And Regression)跟蹤方法[14]將目標跟蹤任務分解為兩個問題:一是像素級別的分類問題,二是該像素上目標邊界框的回歸問題,這種端到端無錨網絡的結構可避免提取多特征搜索特征圖的耗時操作,也可大幅降低采用錨框機制設定超參數的數量,使跟蹤方法更加簡潔有效。SiamCAR網絡的結構如圖1 所示。

圖1 SiamCAR網絡的結構Fig.1 Structure of SiamCAR network

SiamCAR 跟蹤方法分為孿生子網絡和分類回歸子網絡兩個部分。孿生子網絡包含特征提取和深度互相關操作。在特征提取過程中模板幀圖像和搜索幀圖像通過共享參數的ResNet-50 網絡獲得深度特征圖,為充分利用深度網絡中淺層細節信息和深層語義信息,特征圖將ResNet-50 網絡中最后3 個殘差塊的特征進行通道維度的串聯,如式(1)所示:

式中:F3、F4、F5表示ResNet-50 網絡最后的3 個殘差塊,S表示搜索幀圖像,φ(S)表示提取的搜索特征圖。對于模板幀圖像Z也采用相同的操作。

互相關操作中,改進卷積互相關,采用逐通道的相關操作生成多通道的響應圖,更好地利用淺層特征和深層特征,易于定位和鑒別干擾。響應圖R的計算公式如式(2)所示:

式中★表示深度互相關操作。

響應圖R中每個像素都可映射回搜索幀圖像區域,分類回歸子網絡直接對R中每個像素進行分類和回歸的預測。包含3 個部分:目標分類得分網絡、中心度偏移得分網絡和回歸框偏差網絡。分類得分網絡輸出是一個二維矩陣代表搜索幀圖像相應位置前背景概率,使用交叉熵損失函數進行訓練;中心度偏移得分網絡輸出一個一維矩陣,代表目標中心位置與搜索圖像每個像素點位置的距離,以提高網絡對相似物目標的辨別能力,使用二分類交叉熵損失函數進行訓練;回歸框偏差網絡輸出是一個四維矩陣表示像素點對應搜索圖像相應位置距離目標邊界框四邊的距離,使用交并比(Intersection Over Union,IOU)損失函數進行訓練。以上3 個矩陣的下標w×h×c中,w和h代表響應圖R的寬和高,c表示矩陣的通道數。最終的損失函數如式(3)所示:

式中:λ1設置為1,λ2設置為2,Lcls表示分類得分網絡損失函數,Lcen表示中心度偏移得分網絡損失函數,Lreg表示回歸框偏差網絡損失函數。

雖然,SiamCAR 目標跟蹤方法使用深度互相關和輸出中心度偏移得分網絡的方式在一定程度上抑制真實目標周圍的相似物目標,但對于紅外弱小目標并不適用,因為紅外弱小目標和周圍相似物灰度值都呈現高斯分布,且無輪廓和紋理特征,采用簡單的卷積操作并不能很好地辨別。因此,本文在SiamCAR 目標跟蹤方法上進行修改,使SiamCAR 跟蹤方法更適合紅外弱小目標跟蹤場景,提升跟蹤方法的魯棒性。

2 本文方法

本章首先闡述本文方法的整體結構,之后詳細介紹方法中多特征提取級聯模塊、特征互相關模塊、響應圖上采樣模塊、模板幀實時更新模塊,以及本文方法的測試過程。

2.1 整體結構

本文提出的紅外弱小目標跟蹤方法的整體網絡結構如圖2 所示,由多特征提取級聯模塊、特征互相關模塊、響應圖上采樣模塊、邊界框預測網絡模塊和模板幀實時更新模塊組成。

圖2 本文方法的整體結構Fig.2 Overall structure of proposed algorithm

輸入是紅外圖像序列,模板幀實時更新模塊會以跟蹤的前一幀圖像按目標中心位置為原點進行裁剪,獲得模板幀Z;當前幀圖像以上一幀目標中心為原點裁剪,獲得搜索幀S;之后,模板、搜索幀圖像通過多特征提取級聯模塊獲得級聯特征圖(由ResNet-18 提取的深度特征與HOG 特征串聯產生);再通過特征互相關模塊,利用Transformer 的自注意力和交叉注意力機制對兩種特征進行相似性計算,產生互相關響應圖;之后通過響應圖上采樣模塊,將互相關響應圖擴充至搜索幀圖像大??;通過邊界框預測網絡模塊(采用SiamCAR中分類回歸子網絡),獲得目標在搜索幀區域的分類(Classification,Cls)、中心度偏移(Centrality offset,Cen)、邊界框偏差(Regression box bias,Reg)置信度圖,最終通過對3種置信度圖的計算獲得待跟蹤目標的邊界框(x1,y1,x2,y2)。

2.2 多特征提取級聯模塊

紅外弱小目標雖然所占像素較少,分辨率低,邊緣輪廓模糊,但目標常呈高斯分布,對紅外弱小目標插值放大,可提取出有效的特征圖。本文利用孿生網絡結構進行特征提取,由兩個分支組成:一是以模板幀Z為輸入的模板分支,二是以搜索幀S為輸入的搜索分支。在傳統的跟蹤方法中,僅使用神經網絡提取的深度特征進行互相關計算,跟蹤準確性并不高,在深度特征的基礎上添加其他的圖像特征可使模板分支和搜索分支輸出的特征圖信息更加豐富,有利于跟蹤準確性的提高。

因此本文將兩個分支一起通過共享參數的ResNet-18 網絡[15]和HOG 特征提取器,再進行維度層面的拼接,獲得最終的模板特征圖和搜索特征圖。特征提取器的結構如圖3 所示(輸入以模板區域為例)。

圖3 多特征提取級聯模塊網絡結構Fig.3 Network structure of multi-feature extraction cascading module

在跟蹤過程中,目標模板幀和搜索幀經放大裁剪變換為127×127×3 的z和255×255×3 的s,通過ResNet-18 網絡f后得到15×15×512 的f(z)和31×31×512 的f(s)特征圖。

對于紅外圖像,目標前景和背景之間灰度值的差異是一個重要信息,提取目標與周圍背景的梯度分布信息可有效區別干擾物的影響。其中HOG 特征能表征圖像邊緣信息和梯度分布情況,在深度特征基礎上添加該特征會使目標信息更加豐富。目標模板幀和搜索幀通過HOG 特征提取后,獲得15×15×8 的h(z)和31×31×8 的h(s)大小的HOG 特征圖。將HOG 特征圖與深度特征圖進行拼接,得到15×15×520 的f′(z)和31×31×520 的f′(s)的級聯特征圖:

通過級聯后的特征信息更加豐富,使后續定位和回歸操作更加精確。

2.3 特征互相關模塊

為解決傳統孿生網絡跟蹤方法易陷入局部最優問題,增強本文方法對目標與干擾物的判別能力,使用Transformer 模塊[16]代替卷積相似性計算。Transformer 模塊采用多頭注意力機制,可關注全局信息,在搜索特征圖上自適應地尋找與模板特征圖最相關的區域,獲得更加精準的響應圖,特征互相關模塊網絡結構如圖4 所示。

圖4 特征互相關模塊網絡結構Fig.4 Network structure of feature cross-correlation module

在編碼器階段,由兩個編碼器層組成。由于Transformer需要將每個維度的特征圖進行拉平操作,無法判斷輸入特征向量的位置信息,因此,為引入位置信息,要將模板特征圖每個像素的相對位置關系加入模板特征圖,最后進行拉平操作,作為第一個編碼器層的輸入,公式可表示為:

其中:f′(z)是多特征提取級聯模塊模板特征輸出級聯特征圖,P(f′(z))是級聯特征圖的空間位置編碼,flatten(·)表示拉平操作,f″(z)是經拉平和添加空間位置編碼的特征向量。

編碼器層由注意力模塊和前饋神經網絡構成,它的注意力模塊通過多頭注意力機制、相加和歸一化操作,目的是增強模板特征圖中最有用的信息,提高解碼器性能,多頭注意力機制(MultiHead)公式可表示為:

然后通過前饋神經網絡(FeedForward Neural network,FFN),輸出第一層編碼器的編碼特征。其中,前饋神經網絡由兩個全連接層、一個ReLU 激活函數層、一個Dropout 層和一個歸一化層組成,具體公式表示如下:

在解碼器階段,由兩個解碼器層組成,在搜索特征圖f′(s)進行空間位置編碼和拉平操作后,輸入到第一個解碼器層中,增強搜索特征圖信息,獲得。然后與編碼器輸出的編碼特征一同輸入到第二個解碼器層,采用交叉注意力的方式,主要區別是使編碼特征與解碼特征在全局層面進行相似性計算,獲得第二個解碼器層的輸出。最終通過一個前饋神經網絡和尺寸變換操作,獲得相較于卷積互相關操作更精確的互相關響應圖X。

2.4 響應圖上采樣模塊

由于紅外弱小目標所占像素少、信噪比低,進行多特征提取級聯和互相關操作后,響應圖每個像素映射回搜索圖像的區域通常會大于目標所在區域,引入更多的背景噪聲,在測試階段,會影響目標位置的確定,導致跟蹤失敗。為使響應圖更加精確定位目標所在位置,降低背景對跟蹤結果影響,便于之后邊界框預測網絡模塊中分類和回歸操作。本文在跟蹤方法上添加響應圖上采樣模塊,依據U-Net 網絡[17]進行修改,將31×31×5 20 大小的響應圖X轉變為255×255×1 大小的響應圖X′,響應圖上采樣模塊的網絡結構如圖5 所示。

圖5 響應圖上采樣模塊的網絡結構Fig.5 Network structure of upsampling module of response map

圖5 中,響應圖上采樣模塊由一個轉置卷積層和一個雙層卷積塊重復5 次串聯獲得。其中,5 個雙層卷積塊的結構相同,都由Conv2D 卷積層、BatchNorm2D 歸一化層、ReLU 激活函數層重復2 次獲得。轉置卷積層的作用是將響應圖X的尺寸放大、維度縮小為原來的一半,降低響應圖的感受野,提高目標定位的精確性;雙層卷積塊的作用是進一步縮小響應圖的維數,最終使多維度的特征信息整合于一個維度,提高網絡表達能力,同時降低網絡參數量,減少過擬合的風險。

2.5 模板幀實時更新模塊

在本文方法跟蹤過程中,模板幀除目標區域外還添加部分周圍背景區域,使搜索幀定位目標更加準確。但在實際跟蹤過程中,紅外序列中背景相對比較復雜、目標背景常發生改變,如圖6 所示,從左到右表示紅外弱小目標運動過程中目標所在局部區域的變化情況,可從圖6 中明顯看出紅外弱小目標周圍背景發生較大的變化。因此,僅利用紅外序列第一幀目標區域作為模板幀并不準確。

圖6 同一場景下不同幀的模板幀圖像Fig.6 Template frame images of different frames in same scene

本文方法在測試過程中添加模板幀實時更新模塊,在跟蹤當前幀時,利用上一幀定位的目標和周圍背景區域作為新的模板幀,具體公式如下所示:

其中:S′表示上一幀紅外圖像,Recut 表示以上一幀預測的目標中心位置為原點向四周進行擴充和尺度變化的操作,擴充長度為1.5 倍預測邊界框對角線的長度,Z′∈R127×127×3表示新的模板幀圖像。

之后,將Z′通過多特征提取級聯模塊后,更新模板特征圖,可使邊界框預測網絡模塊的輸出結果更具魯棒性。

2.6 測試過程

本文方法的最終目的是預測當前幀圖像紅外弱小目標的邊界框,以確定目標位置和大小。采用SiamCAR 方法[14]中的邊界框預測網絡模塊,對于響應圖X′通過邊界框預測網絡模塊輸出分類得分圖Scls、中心度偏移得分圖Scen和邊界框偏差得分圖(St,Sb,Sl,Sr)。在實際紅外弱小目標運動過程中,相鄰幀目標運動距離較小且尺度大小不會發生劇烈變化。因此,本文在預測當前幀目標中心位置上添加余弦窗懲罰,預測邊界框上進行平滑處理。余弦窗懲罰可表示為:

式中:λcos大小設置為0.65,Hcos表示255×255 大小的余弦窗,P表示新產生的響應圖。添加余弦窗懲罰可抑制較大距離的位移,減弱在搜索區域范圍內距離真實目標較遠相似干擾物的影響。

邊界框平滑可用公式表示為:

式中:λbbox大小設置為0.8,S*i,j表示P中分數最高像素點位置(i,j)與預測邊界框上下左右四邊的距離,Sli,j+Sri,j可獲得預測邊界框的寬,Sti,j+Sbi,j獲得預測邊界框的高,Wpre和Hpre代表上一幀目標邊界框的寬和高,W和H表示最終預測邊界框的寬和高。通過邊界框平滑可使相鄰幀間邊界框不會發生劇烈變化,更加穩定框選真實目標。

本文方法在測試過程中添加余弦窗懲罰和邊界框平滑處理,可使目標定位和回歸更加準確,提升方法穩健性。

3 實驗與結果分析

實驗環境 實驗使用版本號為1.9.1 的Pytorch 開源深度學習框架,訓練及測試使用NVIDIA RTX 3090 圖形圖像工作站。

3.1 訓練集和測試集

本文方法訓練集選用可見光場景下小目標數據集(Large-scale Tiny Object Tracking dataset,LaTOT)[18]中的訓練集,包含269 個視頻序列,共104 726 幀標注圖像。在訓練過程中,通過灰度化、平移、縮放、模糊、鏡像翻轉等操作,增加方法魯棒性。

方法測試集主要選用修改后的DIRST 數據集[19],在原有目標位置上覆蓋灰度值呈高斯分布的目標,大小在5×5 至7×7,并采用外接矩形框作為Label,包含16 個視頻序列,共13 655 幀圖像。

由于本文方法在灰度化的可見光數據集LaTOT 上訓練,為充分驗證本文方法的魯棒性,采用交叉對比的方法,在灰度化后的LaTOT 測試集中多個圖像序列進行新的測試,其中包含16 個圖像序列,共8 544 幀圖像。

3.2 訓練過程

訓練時使用隨機梯度下降法(Stochastic Gradient Descent,SGD)對網絡優化,批尺寸batchsize 設置為32,動量momentum 為0.9,訓練周期epoch 為50,學習率在整個周期內從0.01 下降到0.000 5 呈指數形式遞減。

3.3 評價指標

為驗證本文方法的有效性,采用精確率Pre和成功率Suc定量評估跟蹤器的目標跟蹤結果。

精確率根據預測目標位置中心點與真值目標中心位置之間的歐氏距離在規定閾值范圍內的幀數百分比值得出,這里閾值設置為8 像素,中心位置距離計算公式表示為:

式中:(x,y)表示跟蹤器預測邊界框的中心點坐標,(xg,yg)表示真值邊界框的中心點坐標。

成功率根據預測邊界框和真值邊界框之間的重疊率(Overlap Score,OS)大于規定閾值的幀數的百分比值得出,由于紅外弱小目標尺度較小,計算交并比時閾值設置得不同,成功率變化較大,為使結果盡可能精確,閾值設置為0.1,重疊率計算公式為:

式中:A表示預測的邊界框位置,Ag表示真值邊界框位置。

3.4 對比實驗

3.4.1 DIRST數據集定性對比實驗及分析

為評估本文方法對紅外弱小目標跟蹤具有更好的性能,本文選用5 種對比方法包括:1)紅外弱小目標檢測方法AGPC(Attention Guided Pyramid Context network)[20]和DNANet(Dense Nested Attention Network)[21];2)通用跟蹤方法KeepTrack[22]和TransT[12];3)基準跟蹤方法SiamCAR[14]。采用紅外弱小目標檢測方法的原因是可在整幅圖片范圍內分割出最有可能是紅外弱小目標的區域,與之對比可評估本文方法對紅外弱小目標的敏感程度,是否適用于紅外弱小目標跟蹤場景。

圖7 可視化展示了不同跟蹤方法在修改后的DIRST 測試數據集上的跟蹤結果,不同顏色的邊界框代表不同的跟蹤方法。從圖7 可以看出,data8 序列目標周圍存在多個相似干擾物,在跟蹤過程中,如203 幀,所有對比方法會丟失真實目標,偏移到相似物上,但到295 幀后,如374 幀,KeepTrack 方法會再次捕捉到真實目標,這得益于該方法會對所有潛在目標保持跟蹤,建立多條跟蹤軌跡,當真實目標置信度高時可重新跟蹤。data22 序列目標穿越空地時,發生紅外傳感器抖動,且周圍存在白色亮點,所有對比方法丟失真實目標,本文方法依然穩健跟蹤真實目標,在目標進入森林區域,與背景對比度明顯,AGPC 和DNANet 全局檢測的方法會再次跟蹤到真實目標,其他對比方法始終跟蹤在相似干擾物上。data4 序列真實目標與相似物目標會交會再分離,分離過程在262 幀時TransT 和KeepTrack 方法會發生尺度估計的誤差,框選兩個目標,其他方法均穩健跟蹤。data17 序列當目標周圍出現相似物時,如378 幀,KeepTrack 方法會認為干擾物是真實目標,并偏移到干擾物上,但后續會再次跟蹤到真實目標,當目標與背景灰度值差異較低時,如378 和499 幀,DNANet 未檢測到真實目標。data10 序列,目標與背景灰度值差異較大,周圍無相似干擾物,所有方法均穩健跟蹤??傮w而言,本文方法對存在相似物干擾和復雜背景情況具有魯棒的跟蹤結果。

圖7 不同跟蹤方法結果在修改后DIRST測試數據集上的可視化展示Fig.7 Visualization of results of different tracking methods on modified DIRST test dataset

3.4.2 DIRST數據集定量對比實驗及分析

選擇2.3 節中介紹的評價指標對比本文方法和對比方法的性能,結果如表1 所示。

表1 DIRST數據集上不同方法的定量評估結果 單位:%Tab.1 Quantitative evaluation results of different methods on DIRST dataset unit:%

從表1 中可以看出,相較于其他方法,本文方法成功率分別提高了5.9、14.2、26.5、7.7 和11.6 個百分點。這主要得益于本文方法在測試階段,對邊界框的預測添加了平滑處理,體現在回歸框偏差置信圖生成邊界框后,與上一幀邊界框以百分比的形式相加,可使邊界框的尺度變換更加平緩,適用于尺度變化較小的紅外弱小目標跟蹤場景。精確率分別提高了1.8、14.6、22.7、7.4 和11.8 個百分點。這得益于本文提出的多特征提取級聯模塊、特征互相關模塊、上采樣模塊及模板幀實時更新模塊的共同作用,可有效降低目標周圍干擾物的影響,使跟蹤方法始終保持在真實目標上??傮w表明本文方法與兩種紅外弱小目標檢測方法、三種跟蹤方法相比跟蹤結果更加準確。

3.4.3 LaTOT測試集定性對比實驗及分析

為充分驗證本文方法的魯棒性,在LaTOT 測試集中多個圖像序列進行新的測試,其中包含3 種對比方法:兩種通用跟蹤方法KeepTrack[22]和TransT[12]、一種基準跟蹤方法SiamCAR[14]。圖8 可視化展示了不同跟蹤方法在LaTOT 測試數據集上的跟蹤結果。

圖8 不同跟蹤方法結果在LaTOT測試數據集上的可視化展示Fig.8 Visualization of results of different tracking methods on LaTOT test dataset

從圖8(a)中可以看出,真實目標移動較慢、周圍相似物距離較遠的情況下,四種跟蹤方法均可穩健跟蹤到真實目標;圖8(b)中,雖然真實目標出現較大距離的位移,但背景較為干凈,沒有干擾物的影響,四種跟蹤方法始終可以跟蹤到真實目標;圖8(c)中,第110 幀圖像目標從干擾物附近穿過,TransT 和SiamCAR 跟蹤方法跟蹤偏移到周圍物體上,而本文方法和KeepTrack 預測邊界框保持在真實目標上,到第293 幀圖像,真實目標運動到第7 幀圖像目標位置附近,TransT 方法再次跟蹤到目標,而KeepTrack 和SiamCAR 跟蹤錯誤,這主要因為基于Transformer 網絡的相似性計算更加精確,降低了相似物的干擾,當真實目標再次出現時,會重新跟蹤到真實目標;圖8(d)中,第103 幀圖像目標周圍出現相似干擾物,SiamCAR 預測邊界框包圍真實目標和虛假相似目標,出現尺度估計錯誤,這主要因為采用深度互相關操作對于相似物的干擾判別性并不強,而較小尺寸的響應圖會將相似干擾物和真實目標混淆,導致預測邊界框過大,而其他算法都可穩健跟蹤,第147 幀圖像本文方法跟蹤到真實目標尾部區域,原因在于本文方法跟蹤過程中尺度估計過小,模板幀實時更新模塊將小尺寸的模板幀輸入到網絡中提取特征進行相似性操作,導致之后的跟蹤過程始終保持在目標尾部,但其他方法均跟蹤失敗。

3.4.4 LaTOT測試集定量對比實驗及分析

對比本文方法和三種對比方法在LaTOT 測試集上的性能,結果如表2 所示。

表2 LaTOT測試集上不同方法的定量評估結果 單位:%Tab.2 Quantitative evaluation results of different methods on LaTOT test set unit:%

從表2 中可以看出,相較于其他對比方法,本文方法成功率分別提高了0.7、2.8、2.0 個百分點,精確率分別提高了1.7、2.9、6.7 個百分點。這主要得益于本文方法多個模塊的共同作用,此外,在測試階段添加的余弦窗懲罰和邊界框平滑操作也會提高本文方法的跟蹤成功率和精確率。

3.5 消融實驗分析

為驗證本方法中多特征提取級聯模塊、特征互相關模塊、響應圖上采樣模塊和模板幀實時更新模塊的有效性,在DIRST 數據集上進行消融實驗分析,結果如表3 所示。其中,Base 表示修改過的SiamCAR 跟蹤方法,由于本文方法在多特征提取級聯模塊中深度特征僅使用ResNet-18 最后一個殘差塊的特征圖,為保證消融實驗的統一性,修改SiamCAR 中利用多個殘差塊輸出特征圖進行深度互相關操作,改為只采用最后一個殘差塊輸出特征圖進行深度互相關操作。此外,表3 中①代表Base 方法,②代表在Base 方法中依次添加本文中的一個獨立模塊,③、④代表以排列組合的方式在Base 方法中添加本文兩個和三個模塊,⑤代表Base 方法添加本文所有模塊,即本文方法。

表3 消融實驗結果 單位:%Tab.3 Ablation experimental results unit:%

從表3 中①和②對比可以看出,在Base 上添加其他單獨模塊后,成功率和精確率都有所提高,但基于Transformer 的特征互相關模塊影響最大,成功率提高了15.1 個百分點,精確率提高了12.6 個百分點,說明Transformer 網絡中多頭注意力機制可有效提高網絡的判別性,降低背景及周圍干擾物的影響。

從Base+H、Base+U、Base+R 和③對比看出,基于Transformer 的特征互相關模塊對跟蹤結果的提升最大;從Base+T 和③對比看出,在跟蹤較為準確的情況下,利用模板幀實時更新模塊對跟蹤結果影響最大,由于目標在運動過程中背景不斷發生變化,只采用首幀目標區域作為模板幀跟蹤結果并不準確,不斷更新模板幀圖像可提高特征互相關模塊輸出響應圖的準確性,進而提高跟蹤成功率和精確率,而當跟蹤精度較低時,模板幀實時更新模塊對跟蹤結果的提升較小。

從Base+H+T、Base+T+U 和④對比看出,模板幀實時更新模塊對跟蹤結果提升最大,可以推斷出,當跟蹤結果較好時,采用模板幀實時更新模塊會提高跟蹤的準確性;從Base+R+U、Base+H+R 和④對比看出,基于Transformer 的特征互相關模塊對跟蹤結果的提升最大;從Base+H+U 和④對比看出,基于Transformer 的特征互相關模塊和模板幀實時更新模塊都對跟蹤結果有較大的提升;從Base+T+R 和④對比看出,HOG特征和響應圖上采樣網絡都對跟蹤結果有一些提升。

從④和⑤對比可以發現,在多特征提取模塊中加入HOG 特征后,成功率、精確率分別提高了6.2 和5.8 個百分點,原因是將HOG 特征與深度特征的融合,使模板特征圖和搜索特征圖獲得目標與背景區域更豐富的信息,更好定位到目標。

利用Transformer 代替卷積互相關操作后,成功率和精確率均有所提高,分別為10.9 和11.7 個百分點,證明多頭注意力機制可在搜索特征圖上尋找與模板特征圖最相似的區域,擺脫簡單的卷積操作導致陷入局部最優的問題。

響應圖上采樣模塊的加入,使響應圖擴大并與搜索區域大小保持一致,可降低小響應圖每個像素點感受野過大、引入過多背景信息的不利影響,減小目標定位過程中產生的誤差,成功率和精確率分別提升4.0 和4.1 個百分點。

模板幀實時更新模塊的加入,成功率、精確率提高了10.1 和10.8 個百分點,說明對復雜背景下的紅外弱小目標跟蹤很有必要,利用上一幀目標區域提取的特征圖代替第一幀目標區域提取的特征圖,可使邊界框預測網絡頭網絡輸出定位更加準確。

4 結語

本文提出一種基于孿生網絡和Transformer 的跟蹤方法,適用于復雜背景下的紅外弱小目標跟蹤。輸入紅外序列后,對模板幀和搜索幀圖像進行多特征提取,獲得級聯特征,之后通過Transformer 的互相關模塊和響應圖上采樣模塊,獲得上采樣響應圖,最后通過邊界框預測網絡輸出跟蹤結果。在修改后的復雜背景下紅外弱小目標數據集DIRST 上評估本方法與其他方法的差異。實驗結果表明,本文方法可達到90.2%的成功率和89.7%的精確率,可準確跟蹤紅外序列中的紅外弱小目標。在未來的工作中,考慮將多幀圖像輸入網絡中進行訓練和測試,提取具備時間信息的特征圖,進一步提高跟蹤的成功率和精確率。

猜你喜歡
弱小紅外邊界
??!水手,上岸吧
網紅外賣
拓展閱讀的邊界
閃亮的中國紅外『芯』
TS系列紅外傳感器在嵌入式控制系統中的應用
論中立的幫助行為之可罰邊界
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
我有特別的喝水技巧
柴的嘲笑
“偽翻譯”:“翻譯”之邊界行走者
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合