?

整體與局部相互感知的圖網絡時序動作檢測

2024-01-13 11:23黃金鉀詹永照趙逸飛
關鍵詞:時序時空卷積

黃金鉀, 詹永照, 趙逸飛

(江蘇大學 計算機科學與通信工程學院, 江蘇 鎮江 212013)

隨著近年來智能手機攝像設備的普及和通信傳輸速率的飛躍,視頻已成為人與外界信息交互的重要媒介,在抖音、小紅書、bilibili等各類視頻平臺上人們隨時隨地用視頻記錄和分享生活日常,各類視頻數據呈井噴式增長,因此對視頻數據的分析成為熱點研究問題.其中針對視頻中人類行為理解的動作識別[1]和時序動作檢測[2]算法需求巨大,在安防、技能評估、視頻摘要、自動駕駛、人類行為分析[3]等多個領域有著廣泛應用前景.動作識別依賴于對剪輯的視頻進行模型訓練,人工對未剪輯的長視頻進行修剪費時費力,已很難滿足實際應用的需要,近年來針對未剪輯長視頻時序動作檢測的研究越來越受到重視[2,4-6].

時序動作檢測不僅要對動作進行分類,還要定位出每個動作實例的開始和結束時間.目前時序動作檢測方法多套用目標檢測領域方法的兩階段框架[4]模式:先通過提案生成網絡產生一系列時序動作提案,再對每個動作提案單獨地執行分類和時序邊界回歸.然而,這種單獨地處理每個動作提案、僅依靠單一提案的信息進行動作實例識別的方式忽視了視頻中提案之間十分豐富的時空關系信息,因此在獲取上下文和定位多種不同時間尺度的動作方面存在困難,不利于精細化地在視頻中定位和識別動作.文獻[7]表明,借助視頻段之間相關的關系信息能顯著提高機器對日常生活中人類行為的認知.在視頻中,提案間存在聯系,蘊含著關于某一類特定動作的相關信息[8],如果充分利用好這些視頻域中提案之間十分豐富的時空關系信息,就能夠為動作實例的識別提供更多線索,帶來檢測性能的增益.

如今也有一些方法參照語言翻譯[9]和目標檢測[10]的工作對提案之間的關系加以利用,采用自注意力機制[9]捕獲提案之間成對的相似性,建模提案之間的交互關系.此種方式通過自注意力將提案信息與自動學習得到的融合權重聚合,匯集到每個提案.由于需要對視頻中可能包含的數千個提案對進行查詢,計算代價十分昂貴.相反,圖卷積網絡(graph convolutional network, GCN)[11]僅從相鄰節點聚合信息影響每個節點,顯著減少了計算復雜度.圖卷積網絡很適合用于挖掘視頻段之間的關系,在許多任務的關系推理中表現出良好的效果.同時,提案的整體和局部關系信息存在內在的語義聯系,當前整體與局部相互感知的時空關系信息的綜合應用在動作檢測與定位中還未見涉及.

基于以上考量,提出整體與局部相互感知的圖網絡時序動作檢測方法,更好地發揮圖卷積網絡的優勢,以綜合利用提案整體與局部的時空關系信息.針對目前存在的上下文信息采樣范圍僅限于局部區域造成的難以獲取完整上下文信息問題,單獨地識別每個提案帶來的檢測性能不足問題,該方法通過關系注意力[8]增強提案特征,綜合利用各動作提案的特征相似性和時序重疊度構建提案整體關系圖推理子網絡,學習獲得提案更豐富的整體時空特征表示;針對如何在多尺度上定位動作,同時獲取長距離上下文信息以增強相應局部特征問題,該方法利用提案發生的時間偏序關系,構建多個級別多個三體相似圖和三體互補圖的提案局部關系圖推理子網絡,學習獲得不同時間尺度下提案的局部關系信息;最后,構成提案整體與局部關系相互感知的豐富特征表達,用于動作檢測與定位.

1 相關工作

1.1 時序動作檢測

時序動作檢測方法包括動作候選提案生成和動作分類決策2個步驟.目前時序動作檢測方法大多是對目標檢測方法思路遷移,即先檢測幀中對象,后進行動作分類和時序綜合[12].拓展目標檢測形式改進的方法優點是具有一定的動作解釋性,但動作的時序性特征未能準確獲取,不利于整個視頻中多個動作的關系表達.這類方法主要利用視頻的單個提案進行時序動作檢測,因此對長視頻中時序跨度較大動作序列檢測定位的準確性不足.

1.2 圖卷積網絡

自從T. N. KIPF等[11]提出了圖卷積網絡以來,越來越多的工作結合圖卷積網絡有效解決了視頻理解領域的問題.圖卷積網絡能夠捕捉樣本之間豐富的關聯信息,它通過從相鄰的節點聚集信息從而影響圖中每一個節點,能夠有效挖掘提案之間的語義關系.基于圖卷積網絡結構,YAN S. J.等[13]提出了一種時空圖卷積ST-GCN從骨架數據中學習空間和時間模板.YANG J. W.等[14]使用注意力圖卷積網絡,有效捕獲對象和關系之間的上下文信息.ZENG R. H.等[15]提出采用圖卷積網絡挖掘動作提案之間的時序關系.周航等[16]提出時空融合圖卷積網絡,構建空間相似圖和時間連續圖進行自適應加權融合,形成時空融合圖卷積網絡,有效地學習了生成視頻特征.文中改進文獻[15]中的GCN網絡結構,通過挖掘提案整體與局部關系的豐富特征表達,有效提高動作檢測與定位的準確性.

2 方 法

2.1 總體框架

目前動作提案檢測與定位缺乏整體與局部相互感知時空關系的綜合利用,限制了動作檢測與定位的性能提高.因此提出整體與局部相互感知的圖網絡時序動作檢測方法,該方法包含整體與局部時空關系推理的動作檢測與定位兩路分支,一路用于動作檢測分類,另一路用于動作檢測定位.該方法預先通過BSN[17]提案生成方法獲得動作提案,在動作檢測分類分支中,通過關系注意力[8]得到關系增強的提案特征,綜合利用各提案的特征相似性和時序重疊度構建提案關系圖,形成提案整體關系圖推理動作檢測子網絡,學習獲得提案更豐富的整體時空特征表示;同時利用提案發生的時間偏序關系,依據提案順序和間隔尺度,構建多個級別多個三體相似圖和三體互補圖,形成提案局部關系圖推理動作檢測子網絡,學習獲得不同時間尺度下提案的局部關系信息;最后,融合兩個子網絡輸出的提案整體和局部時空關系信息,構成提案整體與局部關系相互感知的豐富特征表達,以期提高動作分類檢測的準確性.在動作檢測定位分支中,從各動作提案的首尾擴展動作時序邊界,形成動作提案的擴展特征,同樣通過構建提案整體與局部關系圖推理兩個定位子網絡,學習用于動作定位的整體與局部關系相互感知的更豐富特征表示,以促進更準確的動作定位.總體框架如圖1所示.

圖1 整體與局部相互感知的圖網絡框架

2.2 特征提取與動作初始提案生成

采用I3D[18]提取視頻各片段特征,利用BSN[17]從未剪輯長視頻生成動作初始提案P={pn|pn=(zn,(tn,s,tn,e)),n=1,2,…,N},式中:tn,s和tn,e分別為動作提案的開始和結束時間;zn∈Rd為經I3D[18]網絡從tn,s到tn,e之間的視頻幀中提取得到的特征;N為提案的個數.利用動作初始提案進行整體與局部時空關系推理的動作檢測與定位.

2.3 整體與局部時空關系推理的動作檢測

為了獲得更豐富的動作時空關系特征表達,在動作檢測分支中,將初始特征zn作為輸入,建立動作整體時空關系圖推理子網絡和局部時空關系圖推理子網絡,以實現更準確的動作檢測.

2.3.1整體關系圖推理子網絡

考慮到目前上下文信息采樣范圍僅限于局部區域造成難以獲取完整上下文信息的問題,將關系注意力加權引入圖卷積網絡中,學習時序相鄰提案特征的相似性獲取完整的上下文信息,以增強特征的表達能力,構建整體時空關系圖推理子網絡,學習提案間的整體時空關系,其具體結構如圖2所示.

圖2 整體關系圖推理子網絡結構

2.3.1.1關系注意力加權

深挖提案之間的整體時空關系,自適應地從時序相鄰的提案中尋找與之關聯的信息,對提高動作分類檢測性能十分重要.采用類似文獻[8]的關系注意力加權方法,將多個提案的關系注意力加權來獲得各提案特征信息,以增強提案特征之間的時空關系.第n個提案的輸出特征可以由嵌入子空間中所有輸入提案特征的關系注意力加權得到.關系注意力加權后的提案特征表達為

(1)

式中:ψ(·)為成對特征的關系注意力權重;φ(·)為輸入特征轉化到嵌入子空間的特征;函數φ(·)設計為φ(zm)=WVzm,其中WV作為線性嵌入矩陣,由1×1卷積實現.

成對的關系注意力權重由兩個特征之間的相似度確定,可使用softmax形成量綱一化的權重值:

(2)

式中:S(zn,zm)為特征之間的相似度,計算式為

(3)

式中:WQ和WJ為2個提案的網絡參數矩陣.

2.3.1.2整體關系圖構建

(4)

(5)

圖GG所有邊權重組合成的鄰接矩陣表示為

(6)

完成整體關系圖GG的構建之后,特征被送入K1層的圖卷積網絡以抽取整體時空關系信息,經過第k層(1≤k≤K1)整體關系圖推理的特征表示為

(ZR)(k)=AG(ZR)(k-1)W(k),

(7)

式中:AG為鄰接矩陣;W(k)∈Rdk×dk為訓練得到的參數矩陣;(ZR)(k)∈RN×dk為第k層所有節點的特征.采用類似文獻[15]的SAGE采樣方法,逐層對每個節點的鄰域進行采樣,設Ns為采樣節點數目,匯集鄰域聚合而來的帶有關系信息的特征:

(8)

2.3.2局部關系圖推理子網絡

考慮到時序動作檢測中存在的多尺度問題,視頻時序的變化范圍大,一個動作的持續時間可能在幾秒到幾分鐘之間,導致時間段的范圍與anchor的跨度不能很好對齊,提出一個局部關系圖推理子網絡,構建多級迭代的圖網絡結構,并使用空洞卷積擴大感受野,以獲得多時間尺度的局部時空關系信息.文中利用提案發生的時間偏序關系,依據提案順序和間隔尺度,構建多個級別多個三體相似圖和三體互補圖.

提案之間的關系表示為圖上的邊,對每一級的提案節點,關聯其間隔尺度鄰域節點.隨著網絡級數的深入,使之對應的空洞系數隨指數增長,時間尺度也發生相應變化,從而學習不同時間尺度下提案的局部時空關系,其具體結構如圖3所示.

圖3 局部關系圖推理子網絡結構

(9)

(10)

(11)

(12)

式中:W(k)∈R1×d×d表示卷積核大小為1的一維卷積層的權重矩陣.

2.3.3動作檢測

將整體時空關系特征與局部時空關系特征相融合,有效捕獲視頻中的短距離和長距離時空關系,得到整體與局部相互感知的關系感知特征為

(13)

(14)

2.4 整體與局部時空關系推理的動作定位

(15)

(16)

(17)

2.5 訓練與損失函數

文中以端到端的方式結合多種損失函數訓練整體與局部關系圖推理子網絡,兩個子網絡共享訓練參數,通過聯合優化動作分類檢測、動作完整性回歸、時序邊界回歸,聯合訓練多任務損失為

(18)

3 試驗結果分析

3.1 數據集和性能指標

Thumos14[19]數據集的訓練集、驗證集、測試集分別包含13 320個已剪輯視頻、1 010和1 574個未剪輯視頻,涵蓋20個動作類別,該數據集的難點在于單個視頻包含時間跨度不一的動作實例.文中采用驗證集中200個帶有時序標注的視頻進行訓練,采用測試集中213個帶有時序標注的視頻進行評估.

ActivityNet1.3[20]是一個大型數據集,包含19 994個未剪輯視頻,涵蓋200個動作類別,按2 ∶1 ∶1的比例分為訓練集、驗證集和測試集,視頻的總持續時間為648 h.文中采用訓練集中9 338個帶有時序標注的視頻進行訓練,在驗證集中4 578個帶有時序標注的視頻上進行評估.

在性能指標方面,文中使用平均精度均值mAP作為評估指標,認為提案與真實標注的時序交并比大于tIOU閾值且檢測類別與真實類別相同時的檢測值正確.在Thumos14上,tIOU閾值從{0.1,0.2,0.3,0.4,0.5}中選擇;在ActivityNet1.3上,tIoU閾值從{0.50,0.75,0.95}中選擇;以0.05為步長,計算了0.50到0.95之間對應tIoU閾值的mAP.

3.2 試驗細節

由于視頻動作的時間尺度差異性較大,對視頻進行分段處理,劃分成無重復區域的連續64幀視頻段.利用在Kinetics上預訓練好的I3D[18]網絡提取段級特征,對片段內得到的所有特征塊進行最大池化處理,得到多個1 024維的特征.特征經過BSN[17]網絡生成1 024維的初始提案特征,并進一步擴展得到3 072維的擴展提案特征.整個模型根據作用和輸入特征的不同分為動作檢測分支和動作定位分支,每個分支包含結構相同的整體關系圖推理子網絡和局部關系圖推理子網絡.在整體關系圖推理子網絡中,動作檢測分支關系注意力模塊中3個1×1卷積的維度分別采用64、64、1 024維,動作定位分支采用64、64、3 072維.圖卷積網絡采用2層GCN,K1=2層,動作檢測分支每層維度分別采用512、1 024維,動作定位分支采用512、3 072維.在局部關系圖推理子網絡中,采用K2級網絡結構,層級參數K2值由下節對比試驗選定,每級包括1個一維空洞卷積、2個圖卷積和1個1×1卷積.訓練階段,進行Ns為4的鄰域采樣,采用SGD優化算法,RGB流初始學習率設置為0.001,光流設置為0.01,學習率每15個epoch衰減為原來的10%,dropout值設置為0.8.在輸入訓練樣本時每次迭代的批量數為32批,共70個epoch,損失函數參數設置λ1=λ2=0.5,λ3=0.2.測試階段,采用動作分類得分和完整性得分計算mAP,采用非極大值抑制(NMS)去除冗余檢測結果,RGB和光流的檢測結果通過2 ∶3的比例融合.試驗參數設置與PGCN[15]保持一致,保證了試驗的公平性.

3.3 層級參數K2的選擇試驗

局部關系圖推理子網絡采用了多級迭代的圖網絡結構進行關系推理,為了實現對層級參數K2取值的最優選擇,按照表1在Thumos14數據集上對不同K2值進行了選擇試驗.

表1 K2的參數選擇試驗結果 %

由表1可見,當網絡層數取7層時達到了最好的檢測精度效果,網絡層數從1層開始逐漸增加到7層時,檢測精度呈提升趨勢,當網絡層數超過7層,檢測精度呈下降趨勢.當網絡層數過少時,網絡的感受野不足,不利于模型特征學習,當網絡層數過多時,模型過于復雜,而對學習的效果提升不明顯.結合參數選擇試驗,文中層級參數K2取值7層,構建7級的局部關系圖推理子網絡結構.

3.4 試驗結果對比分析

表2為在Thumos14數據集上文中方法與先進方法在tIoU閾值取值為0.1到0.5的mAP結果.

表2 Thumos14數據集上mAP的試驗結果

由表2可見,文中方法在各閾值上mAP都達到最高,表明文中方法達到了SOTA的性能水平.特別是在tIoU=0.5條件下,文中方法的動作檢測mAP達到了50.3%,比S-CNN[2]、CDC[6]、SSAD[5]、TURN[21]、R-C3D[22]、SS-TAD[23]、CBR[24]、BSN[17]、G-TAD[25]、TAL-Net[4]、PGCN[15]分別增加31.3%、27.0%、25.7%、24.7%、21.4%、21.1%、19.3%、13.4%、10.1%、7.5%、1.2%,以上結果表明文中方法可以更準確地檢測未剪輯視頻中的時序邊界.

表3顯示了在ActivityNet1.3數據集上文中方法與先進方法在不同tIoU閾值的mAP結果.

由表3可見,對于在0.50到0.95之間tIoU閾值求得的mAP而言,文中方法在這種高閾值條件下的平均檢測性能達到了SOTA的性能水平,其動作檢測mAP達到了28.11%,比R-C3D[22]、B.SINGH等[26]、TAL-Net[4]、CDC[6]、SSN[28]、PGCN[15]分別增加15.41%、13.49%、7.89%、4.31%、4.13%、1.12%.結合Thumos14數據集上的試驗結果,可以看出雖然在有大量數據可以學習時的檢測結果與G-TAD[25]存在差距,文中方法對于較少樣本數據集上的檢測結果要顯著高于G-TAD[25],表明文中方法更適合較少樣本訓練的動作檢測與定位.

3.5 消融研究

為了探究文中方法中各模塊對性能提升的實際影響,在Thumos14數據集上進行了消融試驗,表4給出了消融試驗結果,分別進行了對基準網絡(PGCN)、在基準網絡基礎上構建整體關系圖推理子網絡、在基準網絡基礎上構建局部關系圖推理子網絡以及同時構建整體+局部關系圖推理子網絡形成文中的整體與局部相互感知的圖網絡等方法的試驗對比.

表4 Thumos14數據集下消融試驗結果 %

試驗結果表明,構建整體關系圖推理子網絡,學習獲得了提案更豐富的整體時空特征表示,使基準網絡動作檢測性能得到了0.4%的提升.構建局部關系圖推理子網絡,學習獲得了不同時間尺度下提案的局部關系信息,較為顯著地使基準網絡動作檢測性能得到了1.0%的提升.結合整體與局部關系圖推理子網絡和局部關系圖推理子網絡的優勢構建文中模型的網絡框架,綜合學習整體與局部相互感知的時空關系信息,有效地使基準網絡動作檢測性能得到了1.2%的提升.因此,應同時結合整體與局部時空關系圖推理的綜合利用.

4 結 論

1) 文中提出了一種整體與局部相互感知的圖網絡時序動作檢測方法,與先進的方法相比,文中方法在Thumos14數據集tIoU=0.5標準閾值下的動作檢測平均精度均值達到了50.3%,在ActivityNet1.3數據集tIoU=0.50-0.95動作檢測平均精度均值達到了28.11%,表明文中方法能有效提高動作檢測的性能.

2) 文中方法雖然在Thumos14數據集上的動作檢測結果優于G-TAD,但在ActivityNet1.3數據集上的檢測結果與其存在一定差距.原因如下:一方面是相較G-TAD,文中方法更適合少樣本數據集訓練;另一方面文中預先通過BSN網絡基于概率序列的方式生成提案,生成的提案只包含少量的局部信息,對長距離全局上下文信息未深入考慮,因而在處理復雜的活動和雜亂的背景時,對模糊邊界的精確定位存在困難.

3) 后續工作是對全局上下文信息在提案生成方法中的綜合利用進行研究,改進提案生成網絡以有效利用視頻中豐富的全局上下文信息,以期生成高質量的時序動作提案,進一步提高時序動作檢測在大樣本數據集上的綜合性能.

猜你喜歡
時序時空卷積
跨越時空的相遇
基于Sentinel-2時序NDVI的麥冬識別研究
基于3D-Winograd的快速卷積算法設計及FPGA實現
鏡中的時空穿梭
從濾波器理解卷積
玩一次時空大“穿越”
基于傅里葉域卷積表示的目標跟蹤算法
基于FPGA 的時序信號光纖傳輸系統
一種毫米波放大器時序直流電源的設計
時空之門
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合