?

面向視頻行為識別深度模型的數據預處理方法

2024-02-29 04:40安峰民張冰冰董微張建新
計算機工程 2024年2期
關鍵詞:集上時序預處理

安峰民,張冰冰,董微,張建新*

(1.大連民族大學計算機科學與工程學院,遼寧 大連 116650;2.大連理工大學信息與通信工程學院,遼寧 大連 116024)

0 引言

視頻行為識別是計算機視覺中的一類基本任務,在智能監控、信息檢索、自動駕駛等領域均具有重要的應用價值。隨著深度卷積神經網絡(CNN)在圖像分類任務上取得的巨大成功,深度模型也逐漸成為視頻行為識別中的研究熱點[1-2]。與圖像分類任務不同,視頻行為識別任務的對象是具有復雜時序性質的圖像序列,需要在模型中引入時序表示模塊并優化圖像序列處理效率,由此產生了一系列具有特色的視頻行為識別深度模型[3-5]。在探索視頻行為識別深度模型網絡結構的同時,研究者也認識到以關鍵幀采樣[6-8]與數據增強[9-11]為代表的數據預處理也是提升模型性能的重要手段。

由于視頻數據在時間維度上的冗余以及計算資源的限制,將整個視頻序列圖像直接作為深度網絡模型的輸入并不現實,因此對視頻序列圖像進行采樣來選取部分關鍵圖像幀作為模型輸入是解決該問題的一種有效方式。常用做法是在原始視頻中以固定間隔均勻或連續隨機采樣圖像幀[6],但這并未區分不同圖像幀對視頻整體識別性能的貢獻程度。為采樣到更具區分能力的視頻圖像幀,一些研究者通過訓練可學習采樣模塊來自動選擇具有重要時空特征的視頻幀[12-14],較均勻或隨機采樣方式更加有效,但該類方法對訓練視頻數據的依賴性較高,在泛化性上仍存在一定欠缺。為此,研究者提出一種動作指導幀采樣的視頻動作識別的整體自適應采樣策略[3],通過視頻中的動作有區別地對幀進行采樣,在捕獲多數運動信息的同時抑制不相關的背景干擾,證明更優的采樣策略可使視頻行為識別深度模型獲得更高的精度。盡管動作指導幀采樣策略具有非常精妙的設計思路,但是其在視頻稀疏采樣的過程中,卻未能有效考慮采樣關鍵視頻幀的短期信息。此外,在多個計算機視覺任務上數據增強操作已被證明是增加深度模型訓練樣本數據量和多樣性的重要手段[15-17],既可有效緩解深度模型過擬合問題,又能提高深度模型的魯棒性和泛化性。同時,不同于圖像識別任務,由于視頻數據集會帶來更大的計算消耗,視頻行為識別的數據增強限制性更高,挑戰性也更大。在視頻行為識別深度模型中,現有工作多數使用的數據增強方法是基于翻轉、旋轉、裁剪、比例縮放、移位等典型空間變換操作,很少使用多種類型空間變換組合來獲得大量擴增數據,使得視頻數據樣本擴增的豐富性有所欠缺,這在一定程度上影響了視頻行為識別深度模型的精度性能。CUBUK 等[9]針對圖像識別任務提出一種隨機數據增強的圖像數據增強方法,采用隨機方式來優化選取不同的獨立數據增強方法,通過設置增廣強度的正則化參數來適應不同深度模型和數據集規模,實現了在大幅縮小增量樣本空間的同時保障擴增樣本的多樣性,從原理上來說其對視頻行為識別任務也具有一定的適用性。

針對視頻行為識別深度模型在數據預處理中存在的采樣視頻幀區分性不足和數據增強方式單一的問題,設計一種面向視頻行為識別深度模型的數據預處理方法。首先,在視頻幀采樣策略上以動作指導幀采樣方法為基礎,綜合考慮視頻幀間差異特征與視頻片段短期時序特征,提出改進的動作指導的片段化視頻采樣策略,以顯著行為動作獲取視頻關鍵幀并對其鄰近視頻幀進行采樣,進一步提高所選取視頻幀的時空特征區分能力。其次,為了減少擴增參數空間的同時保持視頻幀的多樣性,借鑒圖像分類中的隨機數據增強方法,以隨機數據增強方式對采樣后視頻短片段進行數據增強處理,使視頻識別深度模型學習到更復雜的空間變化信息。最后,將所提預處理方法在代表性視頻行為識別模型和數據集上進行評估。

1 面向視頻行為識別深度模型的數據預處理方法

介紹面向視頻行為識別深度模型的數據預處理方法,包括在視頻行為識別上引入動作指導的片段化視頻采樣策略和隨機數據增強方法。首先,對所提方法進行整體概述;其次,詳細介紹動作指導的片段化視頻采樣策略;最后,詳細介紹隨機視頻數據增強方法。

1.1 方法概述

視頻幀采樣和數據增強是構成視頻行為識別過程的重要部分,所提方法涉及視頻幀采樣和數據增強2 個部分,整體上屬于一種通用的數據預處理策略,其融合長期時序信息、短期時序信息以及復雜空間信息來輔助深度模型實現更精確的預測,在整個視頻行為識別中的位置如圖1 所示。首先對輸入視頻使用所提方法進行處理,然后將處理后的幀送入卷積神經網絡用于特征提取,最后使用Softmax 分類器進行分類。

圖1 視頻行為識別中的數據預處理過程Fig.1 Data preprocessing process in video action recognition

視頻數據預處理過程如圖2 所示,主要包括動作指導的片段化視頻采樣策略和隨機數據增強策略。首先,針對視頻幀采樣設計出動作指導的片段化視頻采樣策略,該策略會選擇T幀差異顯著的幀,這T幀攜帶著長期時序信息。然后,通過T幀的索引采樣一段包含K幀的短片段,使T個短片段進一步引入短期時序信息,通過綜合考慮視頻幀間差異特征與視頻片段短期時序特征,以顯著行為動作獲取關鍵視頻幀并對其鄰近視頻幀進行采樣,可有效提高所選取視頻幀的時空區分能力。最后,借鑒圖像分類中的隨機數據增強方法,以隨機數據增強方式對采樣后的視頻短片段進行數據增強處理,使視頻識別深度模型學習到更復雜的空間變化信息。為保持整個模型的計算效率,在預處理方法中僅復制第一個卷積層中的權重以感知短片段,而網絡的其余部分仍然針對T幀進行獨立處理。

圖2 視頻數據預處理過程Fig.2 Process of video data preprocessing

1.2 動作指導的視頻采樣策略

利用視頻中動作來指導采樣可以獲得重要的可區分信息并有效抑制背景干擾,提高后續特征提取和分類模型的性能。早期研究者常采用光流[13]獲得運動表示,但是對其直接計算需要較高的計算資源。為此,研究者提出利用CNN 估計光流并探索了其他光流代替方案[6]。ZHI 等[7]提出基于圖像級別和功能級別的運動表示方法,該方法能夠以較低的計算成本獲得精準的運動表示,參考該方法來獲得運動表示Vt,之后使用它執行動作指導采樣,實現根據運動表示自適應地選擇幀,并使采樣幀覆蓋重要的運動片段來獲得短期信息。具體而言,定義一個關于變量X的累積分布函數:

其中:FX是從概率x1到xn的累積?;谠摵瘮档亩x,沿著時間維度構建運動累積曲線,并引入超參數μ調整原始運動分布Vt來控制運動引導采樣的平滑度:

如圖3 所示,μ值越低,運動幅度的概率分布越均勻。根據運動累積分布曲線,執行動作指導采樣策略。該策略首先需要從輸入視頻中采樣T幀,因此將圖3 中的y軸均勻地分為T個片段,在每個片段中隨機選擇1 個值,并根據曲線在x軸上選擇相應的幀索引?;谏鲜龇椒傻玫絋幀動作顯著的幀,這T幀攜帶了長期時序信息,但是僅對每個片段采樣1 幀會丟棄連續幀中過多有用的短期時序信息[14]。因此,接下來對這T幀進行片段化操作,使其攜帶短期時序信息。片段化具體操作為:每次對一個短片段(包含K幀)進行采樣,而不是僅對單幀進行采樣。經過上述方法采樣可以得到K×T幀,為了保持稀疏采樣的效率,將第一個卷積層中的通道維度相應地擴大K倍,同時將第一個卷積層中的權重也相應地擴大K倍,而網絡的其余部分仍然保持不變。具體而言:常規采樣方法得到T幀,并將T幀轉化為張量并送入卷積神經網絡進行識別,而動作指導的片段化視頻采樣策略得到K×T幀,并將K×T幀轉化為張量,其形狀為(bs,K×T,c,h,w),將其 重組為(bs,T,K×c,h,w)。由于c維度的 數據增加了K倍,將卷積神經網絡的第一個卷積層的通道維度也相應擴大K倍以感知視頻短片段中的短期時序信息。為了正確地加載權重,將第一個卷積層的權重同時擴大K倍并沿通道維度進行拼接后再載入模型。

圖3 引入μ 的運動累積曲線圖Fig.3 Motion accumulation curve with μ

1.3 隨機視頻數據增強

數據增強操作是增加深度模型訓練樣本數據量和多樣性的重要手段,既可有效緩解深度模型過擬合問題,又能提高深度模型的魯棒性和泛化性。較先進的隨機數據增強方法[9]將多種增強操作相結合在圖像識別中取得了巨大的成功。具體而言,圖像中的隨機數據增強方法需要收集C種增強變換作為參數空間,如表1 所示。

不同于圖像識別任務,由于視頻數據集會帶來更大的計算消耗,因此視頻行為識別的數據增強限制性更高,挑戰性也更大。為此,嘗試將隨機數據增強方法引入視頻,進一步提高采樣數據的短期時序信息與復雜空間信息,提出隨機視頻數據增強方法。

隨機視頻數據增強方法中的增強變換同樣使用表1 中列舉策略,每種變換被使用的概率均相等,為1/C。為減少參數空間并有效保持幀多樣性,設定一個超參數N,即每次從C個可用增強變換中選擇N個增強變換,可使隨機擴增方法具有CN種潛在策略。此外,設定一個參數M,即每種增強變換的強度,并且使用相同的標準來定義M。在給定數據集上對這2 個參數進行網格搜索,可有效提高模型性能??紤]到直接對每個視頻幀使用隨機數據增強方法會對時間建模造成極大干擾,因此將一組視頻幀作為一個單位,該組視頻幀使用相同的數據增強方法,而不同組視頻幀之間仍然使用隨機數據增強策略。具體而言,隨機視頻數據增強需要T、N、M3 個超參數,其中,T是稀疏采樣得到的一組視頻幀,N是增強變換的數量,M是增強變換的強度。對于同一組視頻的所有幀使用相同的增強變換策略,對于不同視頻仍保持增強變換策略的隨機性。該方法可在不對時間建模造成干擾的情況下,引入復雜的空間變換,使模型能夠有效地學習空間不變特性,以此提高識別性能和魯棒性。

2 實驗結果與分析

本節將詳細介紹視頻數據預處理方法的實驗驗證情況。首先,介紹使用的數據集;其次,描述實驗設置情況;再次,給出并分析消融實驗結果;最后,與代表性視頻行為識別模型進行比較。

2.1 數據集選取

在2 個常用視頻基準數據集上評估所提方法,分別是Something Something V1[18](簡稱為S-S V1)和Something Something V2[18](簡稱為S-S V2)。S-S V1 有108 000 個 視頻,S-S V2 有221 000 個視頻,2 個數據集中均包含174 個類別。圖4 為2 個數據集的部分圖像幀示例,側重于人類與對象的互動,例如拉動某物、推動某物等。S-S V1 和S-S V2 通過對不同的對象(Something)執行相同的操作,使模型被迫理解視頻中的行為而不是識別對象,同時對這些行為進行分類需要重點考慮時間信息。因此,準確地捕獲時間信息對于該數據集的有效理解是十分必要的。

圖4 2 個數據集的部分圖像幀示例Fig.4 Partial image frame examples from two datasets

2.2 測試模型和訓練設置

使用TSM[19]和TEA[20]2 個典型視頻行為識別模型作為基線來評估所提方法的有效性。TSM 模型是視頻行為識別領域的經典模型之一,在保留2D 卷積神經網絡計算效率的同時,通過時序建模模塊捕獲時間信息以提高模型性能,TSM 的出現使得以低成本實現高性能的視頻理解模型成為可能。具體而言,TSM 模型使用一種通用且有效的時間移位模塊,該模塊通過沿著時間維度移動部分通道來促進相鄰幀間的信息交換,同時可以插入2D 卷積神經網絡實現零計算和零參數的時間建模,以此兼具2D 卷積的高效率與3D 卷積的高性能。TEA 作為一種代表性的基于深度學習的視頻行為識別模型,在時序建模的基礎上能夠同時捕獲短期和長期時間變化,進一步提高了時序建模模型的識別準確率。具體而言,TEA 模型使用一種新穎的時間激勵和聚合模塊,主要包括運動激勵模塊和多時間聚合模塊,用于捕獲短期和長期時間變化,其中,運動激勵模塊通過計算來自時空特征的特征級時間差異從而捕獲短期時間變化,多時間聚合模塊通過堆疊大量局部時間卷積從而捕獲長期時間變化。

對于模型訓練,裁剪區域的高度(單位為像素)從{256,224,192,168}中隨機選擇,然后將其輸入圖像大小調整為224×224 像素,訓練時使用的批尺寸為64,學習率為0.01,訓練迭代周期為50。對于模型測試,采用1 次剪輯和中心裁剪的策略。所有實驗均抽取8 幀(T=8),并設置初始通道數為3(C=3),在使用動作指導的視頻采樣策略后,通道數量增加到9(C=9),其他參數設置同隨機數據增強方法[4],其中增強變換數量和強度均為2(N=2、M=2)。同時,為保證比較的公平性,視頻數據預處理方法的權重衰減等其他參數與TSM、TEA 保持一致。此外,在S-S V1 和S-S V2 驗證集上進行消融實驗時,將輸入圖像大小調整為112×112 像素以提高消融實驗的計算效率。所有實驗均在Ubuntu 20.04 系統中進行,使用PyTorch 深度學習框架實現算法,所使用的計算機配置為NVIDIA Geforce RTX 3090。

2.3 消融實驗

首先,使用TSM[19]和TEA[20]在S-S V1 數據集上的結果作為基線,并使用112×112 像素的輸入圖像,基本消融實驗結果如表2 所示,其中,√表示使用該方法/策略,最優指標值用加粗字體標示,下同。TSM 在此數據集上的準確率(Top-1)達到41.2%,使用動作指導的視頻采樣策略(MGS)后,準確率提高到42.4%,比原TSM 模型提高了1.2 個百分點,表明動作指導的視頻采樣策略的有效性。在進一步引入片段化方法(SS)后,使視頻幀攜帶短期時序信息,其準確率提高到44.6%,比僅使用動作指導的視頻采樣策略進一步提高了2.2 個百分點,比原TSM 模型提高了3.4 個百分點,表明短期時序信息的重要性及所提動作指導的片段化視頻采樣策略的有效性。最后,在采樣方法的基礎上,引入隨機視頻數據增強方法(RA),進一步引入復雜的空間變換使數據攜帶豐富的時空特征信息,準確率提高到46.8%,比使用動作指導的片段化視頻采樣策略提高了2.2 個百分點,比原TSM 模型提高了5.6 個百分點,表明時空特征信息比單一的時序信息更有效,也證明了所提方法的有效性。此外,在S-S V1 數據集上也使用TEA 模型進行了更多的實驗,以展示所提方法能夠遷移至其他視頻行為識別模型。實驗結果表明,所提方法使TEA 的分類精度明顯提高,準確率提高到49.2%,比原TEA 模型提高了3.6 個百分點,進一步證明了其有效性和可遷移性。

表2 在S-S V1 數據集上的消融實驗結果Table 2 Results of ablation experiment on the S-S V1 dataset %

其次,在S-S V2 數據集上使用TSM 和TEA 模型進行消融實驗,結果如表3 所示。TSM 模型在此數據集上的準確率為52.3%,使用動作指導的視頻采樣策略后準確率提高到56.8%,比原TSM 模型提高了4.5 個百分點。在進一步引入片段化方法后準確率提高到58.9%,比僅使用動作指導的視頻采樣策略提高了2.1 個百分點,比原TSM 模型提高了6.6 個百分點。在采樣方法的基礎上引入隨機視頻數據增強方法后準確率可提高到59.1%,比使用動作指導的片段化視頻采樣策略提高了0.2 個百分點,比原TSM 模型提高了6.8 個百分點。在TEA 模型上同樣將基線從59.0%提高到61.5%。上述結果證明了所提方法可以有效提高模型的準確率。

表3 在S-S V2 數據集上的消融實驗結果Table 3 Results of ablation experiment on the S-S V2 dataset %

結合表2 和表3 的實驗結果可以看出,隨機擴增方法在S-S V2 數據集上的準確率提升幅度比S-S V1數據集小。從數據集的介紹中可以看出,Something Something 數據集對不同的對象執行相同的操作,因此模型被迫理解視頻中的行為,而不是識別對象。相比于S-S V1 數據集,S-S V2 數據集進一步地弱化了對象,使模型被迫理解時序信息從而理解視頻中的行為。因此,S-S V2 數據集更加強調時序信息的重要性,弱化空間信息的重要性,這也是基于動作指導的片段化視頻采樣策略準確率提升顯著而隨機視頻數據增強方法準確率提升較少的原因。雖然在S-S V2 數據集上準確率提升較少,但仍然使模型得到了更高的識別準確率,表明所提方法的有效性,在2 個數據集和2 個模型上的實驗也表明所提方法的可遷移性。

由于上述消融實驗在112×112 像素的輸入圖像上進行,因此在224×224 像素的輸入圖像上也進行消融實驗來驗證所提方法的有效性,結果如表4 所示。實驗結果表明,所提方法在224×224 像素的輸入圖像上也仍然保持與112×112 像素的輸入圖像相似的實驗結果。具體而言:在S-S V1 數據集上,使用預處理方法的TSM 模型(簡稱為VPP-TSM)的準確率比原TSM 模型提升4.2 個百分點,使用預處理方法的TEA 模型(簡稱為VPP-TEA)的準確率比原TEA 模型提升2.9 個百分點;在S-S V2 數據集上,使用預處理方法的TSM 模型的準確率比原TSM 模型提升3.9 個百分點,使用預處理方法的TEA 模型的準確率比原TEA 模型提升2.3 個百分點。實驗結果表明,所提方法在224×224 像素的輸入圖像的多個數據集和多個模型上仍然有較明顯的準確率提升。

表4 在S-S V1 和V2 數據集上的消融實驗結果Table 4 Results of ablation experiment on the S-S V1 and V2 dataset %

2.4 與代表性模型的比較

在S-S V1 和S-S V2 數據集上比較了使用所提方法訓練的2 個模型 和TSN[6]、GST[21]、TEINet[22]、GSM[23]、TDRL[24]、MSNet-R50[25]、MVFNet[26]、TSI[27]、TDN[28]、AK-Net[29]10 種代表性模型,比較結果如表5所示。由表5 可以看出,在沒有使用視頻預處理策略的模型中,TDN[12]在S-S V1 和S-S V2 數據集上取得了最高的識別準確率,分別為52.3%和64.0%。同時,TSM 和TEA 模型在2 個數據集上分別獲得45.6%、57.9%和48.9%、60.9%的識別準確率,在所有模型中,在S-S V1 上分別排名第11 和第6,在S-S V2上分別排名第10 和第7。然而,使用所提方法訓練出的VPP-TSM 和VPP-TEA 模型性能得到了明顯的改善,在2 個數據集上分別取得了49.8%、61.8%和51.8%、63.2%的準確率,尤其是VPP-TEA 模型,在2 個數據集上的排名都上升到第2,僅次于TDN。這些實驗結果再次證明了所提方法可以有效提高模型性能,使視頻行為識別模型更具競爭力,能夠與代表性模型相競爭。此外,表5 還給出了各模型的每秒10 億次的浮點運算數(GFLOPs)結果。從整體上看具有更優識別性能的模型一般需要更大的計算量,但相對于TSM 和TEA 模型的3.3×1010和3.5×1010計算量,VPP-TSM 和VPP-TEA 在未增加計算量的情況下分別可獲得最多3.9 和2.9 個百分點的識別準確率提升。然而,由于隨機視頻增強操作的引入,因此在時間成本上VPP-TSM 和VPP-TEA 較TSM 和TEA模型在訓練階段平均增加了約33%的時長,同時在測試階段平均多用時約9%。

表5 在S-S V1 和V2 數據集上使用預處理方法訓練的2 個模型與代表性模型的比較 Table 5 Comparison of two models trained with preprocessing methods and representative models on the S-S V1 and V2 datasets

3 結束語

本文提出一種面向視頻行為識別的數據預處理方法,在采樣策略中綜合考慮幀間的差異特征與視頻片段的短期時序特征,引入隨機數據增強用于對采樣后視頻短片段的數據增強操作,使視頻數據能夠具有更好的可區分特性并覆蓋更復雜的樣本空間范圍。在2 個公開數據集上對2 個典型視頻識別模型的消融實驗和對比實驗結果證明了所提預處理方法的有效性。盡管模型識別準確率有所提升,但所提預處理方法在一定程度上是以增加時間復雜度為代價,因此在今后工作中,一方面將考慮在片段化過程中融合相鄰幀以減少時間復雜度,另一方面將嘗試在3D CNN 等架構中進一步評估所提預處理方法的性能。

猜你喜歡
集上時序預處理
基于Sentinel-2時序NDVI的麥冬識別研究
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于FPGA 的時序信號光纖傳輸系統
復扇形指標集上的分布混沌
基于預處理MUSIC算法的分布式陣列DOA估計
一種毫米波放大器時序直流電源的設計
淺談PLC在預處理生產線自動化改造中的應用
絡合萃取法預處理H酸廢水
基于自適應預處理的改進CPF-GMRES算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合