?

骨架引導的多模態視頻異常行為檢測方法

2024-02-17 11:28付榮華劉成明劉合星高宇飛
鄭州大學學報(理學版) 2024年1期
關鍵詞:骨架姿態時空

付榮華, 劉成明, 劉合星, 高宇飛, 石 磊

(1.鄭州大學 網絡空間安全學院 河南 鄭州 450002; 2.鄭州市公安局 科技通信管理處 河南 鄭州 450000)

0 引言

視頻異常行為檢測是智能視頻監控系統的一項重要、具有挑戰性的任務。在智慧城市時代,視頻監控用于監控基礎設施財產和公共安全已變得非常重要。大量的攝像頭安裝在地鐵口、購物中心、校園環境等公共場所,并不斷產生大量的視頻數據。對于觀察者來說,人工監控長時間的實時視頻流并檢測是否存在異常事件是一件非常困難和耗時的任務。從監控視頻流中自動檢測出異常事件可以顯著減少人工的監查工作。

近年來,隨著深度學習和計算機視覺等領域的蓬勃發展,視頻特征提取借鑒了圖像特征提取的先進研究成果,提出多種視頻特征提取網絡并取得了良好的成果??梢岳枚喾N特征如外觀、深度、光流和人體骨架等對視頻中的人類行為進行識別。在這些特征中,動態的人體骨架通常能傳達與其他特征互補的重要信息。監控視頻中的人類異常行為通常具有較低的類間方差,部分日常行為活動表現出相似的運動模式,如步行和慢速騎車的人,慢速騎車的人因為與步行有相似的速度和姿勢而被誤判為步行模式,這種情況下須要進行細粒度的理解。

早期對視頻異常行為檢測的研究主要基于RGB視頻模態,其包含了豐富的細節信息,但其面對背景復雜和可變性的干擾,以及身體尺度、光照、視角等因素的變化時容易受到影響。在人類異常行為檢測領域,有利用骨架特征且基于圖卷積的方法關注人體關節的空間配置。時空圖卷積網絡(spatial temporal graph convolutional networks, ST-GCN)[1]在學習非歐幾里得數據的空間和時間依賴性方面表現了其有效性,ST-GCN的局限性在于只捕捉空間和時間維度的局部特征,缺乏全局特征。與RGB視頻模態相比,骨架模態能夠提供更豐富的人體骨架行為關鍵點信息,并且對光線和尺度的變化具有較強的魯棒性,是對人體的高層級語義表示,但缺乏外觀信息,特別是人與對象交互的行為信息[2-3],這是檢測細粒度異常行為的關鍵。骨架模態總體信息量也不如RGB模態的高,比如對于某些和物體交互的動作,光用骨架信息就很難完全描述。

為了利用骨架姿態和RGB視頻模態的優點,可將多模態信息融合成一組綜合的鑒別特征。由于這些模態是異構的,必須通過不同類型的網絡進行處理以顯示其有效性,這限制了它們在簡單的多模態融合策略[4-5]中的性能,因此,許多姿態驅動的注意力機制被提出來指導基于RGB的動作識別。文獻[6-7]通過LSTM實現姿態驅動注意力網絡,專注于顯著的圖像特征和關鍵幀。隨著三維卷積的成功發展,一些工作嘗試利用三維姿態來加權RGB特征圖的鑒別部分[6-9]。Das等[8]提出了一種在三維卷積網絡上的空間注意力機制來加權與動作相關的人體部位。為了提升檢測性能并提取更具鑒別性的特征,陳朋等[10]提出的弱監督視頻行為檢測結合了RGB數據和骨架數據。

以上方法提高了動作的識別性能,但它們存在以下缺點:在計算注意力權值的過程中,三維姿態與RGB線索之間沒有準確的對應關系;在計算注意力權值時忽略了人體的拓撲結構。

由于目前基于骨架單一模態的自注意力增強圖卷積網絡[11]克服了ST-GCN空間局部特征的局限性,空間自注意力增強圖卷積網絡可以捕獲空間維度的局部和全局特征,但無法捕捉動作中微妙的視覺模式,與骨架動作姿態相似的行為動作容易出現誤判。為了充分利用RGB模態與骨架模態之間的優勢并克服時間卷積的局限性,本文提出了一種骨架引導的多模態異常行為檢測方法,使用新的空間嵌入來加強RGB和骨架姿態之間的對應關系,并使用時間自注意力提取相同節點的幀間關系。

如圖1所示,本文提出的方法將原始監控視頻的RGB視頻幀及其提取的對應骨架姿態作為輸入。通過視覺網絡處理視頻幀,并生成時空特征圖f。所提出的引導模塊(RGB pose networks, RPN) 以特征圖f和骨架時空圖P作為輸入,通過骨架姿態和視頻外觀內容的空間嵌入(RGB-Pose spatial embedding, RGB-Pose)加強視頻RGB幀和骨架姿態之間的對應關系,并在時間維度上使用時間自注意力模塊(temporal self-attention module, TSA)研究同一關節沿時間的幀間相關性,從而獲取更好的判別性特征。RPN由改進的時空自注意力增強圖卷積和空間嵌入(RGB-Pose)兩部分組成。改進的時空自注意力增強圖卷積進一步由空間自注意力增強圖卷積[11]和時間自注意力(TSA)組成,融合RGB視頻和骨架兩種模態進行異常行為檢測。RPN計算特征映射f′。然后使用特征圖f′進行深度嵌入聚類,并進行異常行為檢測,異常分數用于確定動作是否正常。

本文提出了一種新的時空自注意力增強圖卷積算子,由空間自注意力增強圖卷積模塊以及時間自注意力模塊(TSA)構成。使用時間自注意力(TSA)提取相同骨骼節點的幀間關系,捕獲時間全局信息。

圖1 骨架引導的多模態視頻異常行為檢測方法框架圖Figure 1 The framework of skeleton-guided multimodal video anomalous behavior detection method

使用新的空間嵌入(RGB-Pose)來加強RGB和骨架姿態之間的對應關系,充分利用各個模態的優勢。所提出的方法在ShanghaiTech Campus異常檢測數據集和CUHK Avenue數據集上進行實驗評估,實現了優秀的性能指標,證明了所提方法的有效性。

1 骨架引導的多模態異常行為檢測方法

1.1 特征提取

監控視頻中人體骨架數據從預訓練的視頻姿勢估計算法或運動捕捉設備中獲得。通過改進的時空自注意力增強圖卷積塊[11]構建時空自注意力增強圖卷積自編碼器(spatioteporal self-attention augmented graph convolutional autoencoder,SAA-STGCAE)來提取骨架特征,使用編碼器將提取的骨架姿態嵌入到時空圖中。人的行為被表示為時空圖。時空圖的骨架時空連接配置如圖2所示,配置描述遵循ST-GCN。將N定義為人體骨架的關節數,F定義為視頻的總幀數。對于監控視頻流中的每一個人,構建時空圖G=(V,E),其中:V={vtn|t=1,2,…,T,n=1,2,…,N}是所有關節節點作為圖的頂點的集合;E表示時空圖的邊,描述人體結構中自然聯系的所有邊和時間的集合。此外,E由兩個子集Es和Et組成,其中:Es={(vtn,vtm)|t=1,2,…,T,n,m=1,2,…,V}表示每一幀t中任意關節對(n,m)的連接;Et={(vtn,v(t+1)n)|t=1,2,…,T,n=1,2,…,N}表示沿連續時間的每一幀之間的連接。圖2中的節點表示人體骨架關節,實線為人體骨架關節的自然連接,表示空間維度邊,虛線為相同骨架關節相鄰幀之間對應的時間維度連接,表示時間邊。

圖2 骨架時空圖Figure 2 Spatiotemporal graph

對于RGB視頻,從視頻剪輯中提取人類裁剪圖像作為輸入,通過三維卷積網絡提取視頻的時空特征表示。然后,在兩種模態特征的基礎上,利用引導模塊的空間嵌入融合骨架和RGB特征,增強兩種模態特征的對應關系。

1.2 時間自注意力模塊

時間自注意力模塊(TSA)的每個獨立關節沿所有幀分別研究每個關節的動力學。通過沿著時間維度的相同身體關節的變化來計算各幀之間的相關性,如圖3所示。當計算源節點加權結果時,所有幀的該節點參與計算,此為捕捉時間全局特征的體現。

圖3 時間自注意力模塊示例圖Figure 3 Example of temporal self-attention module

(1)

(2)

TSA使用下標表示時間,上標表示關節。TSA采用多頭注意力機制,所用公式為

(3)

SAT=concat(head1,head2,…,headNh)·Wo。

(4)

為了便于處理,輸入矩陣變維為XT∈RV×Cin×T,可沿時間維度在每個關節上單獨操作。Wo是一個可學習的線性變換,結合了所有頭的輸出。

TSA模塊通過提取相同骨骼節點的幀間關系,學習同一關節不同幀間的關系,例如首幀中的關節與末幀中的關節。TSA是沿著同一關節(如所有左腳或所有右手)的時間維度上進行,從而在時間維度得到判別特征,并捕獲時間全局特征,這是通過標準ST-GCN中TCN無法達到的。

1.3 時空自注意力增強圖卷積

本文提出了一種新的時空自注意力增強圖卷積算子,如圖4所示。由空間自注意力增強圖卷積模塊[11](如圖5所示)、時間自注意力模塊(TSA)構成(如圖6所示)。其中空間自注意力增強圖卷積是核心部分。

圖4 時空自注意力增強圖卷積算子Figure 4 Modified spatiotemporal self-attention augmented graph convolution

圖5 空間自注意力增強圖卷積模塊Figure 5 Spatial self-attention augmented graph convolution module

圖6 時間自注意力模塊Figure 6 Temporal self-attention module

空間自注意力增強模塊基于空間圖卷積提出,空間維度使用三種類型的鄰接矩陣:靜態鄰接矩陣(A1);全局學習鄰接矩陣(A2)和自適應鄰接矩陣(A3)??臻g自注意力模塊應用修改后的自注意力算子,捕捉同一幀中不同關節的空間特征,并動態構建關節內和關節之間的空間關系,以加強非直接連接的人類骨架關節的相關性。

空間自注意力增強圖卷積主要關注關節之間的空間關系,其輸出被傳遞到時間自注意力模塊,以提取幀間的時間關系,可描述為

ST-SAAGCN(x)=TSA(GCN(x)),

(5)

時空自注意力增強圖卷積算子既可以捕獲空間局部和全局特征信息,又可以捕獲時間全局信息。

1.4 骨架引導的RGB視頻和姿態的空間嵌入

骨架自注意力增強圖卷積網絡[11]被認為是主干網絡,可以檢測出行為動作中顯著的異常行為信息。對于引導網絡,在骨架姿態和RGB數據之間有一個準確的對應關系是很重要的??臻g嵌入的目的是使用骨架姿態和RGB模態之間緊密的對應關系,向RGB視頻幀提供骨架姿態反饋。如圖7所示。

圖7 空間嵌入對應關系Figure 7 Spatial embedding correspondence

文獻[8-9]使用姿態信息在RGB特征圖上提供注意力權重,而不是將它們投影到相同的參考中。因為沒有像素到像素的對應,通過骨架數據計算出的空間注意力并不與圖像部分對應,但這對于檢測相似的動作行為至關重要。為了將這兩種模態關聯起來,本文使用了一種來自圖像字幕任務[12-13]的嵌入技術來構建一個精確的RGB-Pose嵌入,使姿態能夠表示動作的視覺內容,空間嵌入說明如圖8所示。

圖8 空間嵌入說明圖Figure 8 Spatial embedding illustration

從視頻剪輯中提取的人類裁剪圖像作為輸入,通過三維卷積網絡計算時空表示f,其中f是維度為tc×m×n×c的特征圖。然后,利用本文提出的網絡對特征圖f和相應的骨骼姿態P進行處理。

空間嵌入輸入的是一個RGB圖像及其相應的骨架姿態。強制嵌入人體關節中代表圖像的相關區域。假設視頻特征圖f(一個Dv維向量)及其對應的基于姿態的潛在空間注意力向量Z1(一個Dp維向量)的全局空間表示存在低維嵌入。映射函數推導公式為

(6)

其中:Tv∈RDe×Dv和Tp∈RDe×Dp是將視頻內容和骨架姿態投影到相同的De維嵌入空間的變換矩陣;fe、Se分別為RGB嵌入和骨骼嵌入。將該映射函數應用于視覺空間特征和基于姿態的特征上,以實現上述空間嵌入的目標。

為了衡量視頻內容和骨架姿態之間的相關性,計算它們在嵌入空間中映射之間的距離。將嵌入損失定義為

(7)

這種嵌入損失和全局分類損失在RGB特征映射上提供了一個線性變換,保留了動作表示的低秩結構,并為不同的動作引入了最大分離特征。因此,通過最小化相關性嵌入損失來加強視頻和姿態之間的對應關系。這種嵌入確保了用于計算空間注意力權值的姿態信息與視頻的內容保持一致,能更好地體現視頻的語義。

1.5 深度嵌入式聚類

聚類層的開始是SAA-STGCAE的嵌入。該方法調整了深度嵌入式聚類[14],并使用提出的SAA-STGCAE架構對時空圖進行軟聚類。該聚類模型由編碼器、解碼器和軟聚類層三部分組成?;诔跏贾貥媽η度脒M行微調以獲得最終的聚類優化嵌入,然后每個樣本由分配給每個集群的概率Pnk表示,所用公式為

(8)

其中:Zn是SAA-STGCAE的編碼器部分生成的潛在嵌入;yn是軟聚類分配;Θ是聚類層數為k的聚類層參數。

按照聚類目標[14]執行算法優化,最小化當前模型概率聚類預測P和目標分布Q之間的Kullback-Leibler(KL)散度,所用公式為

(9)

(10)

在期望的過程中,固定模型并更新目標分布Q,在最大化步驟中,模型被優化用以最小化聚類損失Lcluster。

1.6 異常檢測模塊

異常分數計算由狄利克雷過程混合模型進行評估。狄利克雷過程混合模型是評估比例數據分布的有用度量,理論上是處理大型未標記數據集的理想選擇。它在估計階段評估一組分布參數,并使用擬合模型為推理階段的每個嵌入樣本提供分數。在測試階段,使用擬合模型以對數概率對每個樣本進行評分。模型提供的正態性分數用于確定動作是否正常。

2 實驗與結果分析

2.1 數據集

在ShanghaiTech Campus和CUHK Avenue兩個公共數據集上評估了所提視頻異常檢測方法的性能,這兩個數據集可以輕松識別行人并提取人體骨架數據,HR-ShanghaiTech為第一個數據集中異常的且僅與人類有關的子集。圖9顯示了實驗所使用數據集中的一些正常和異常事件。本節將提出的網絡與基于外觀[15-17]和基于骨架的[11,18-20]方法進行比較。所有實驗都在幀級AUC度量上進行評估。

圖9 數據集正常和異常事件示例Figure 9 Examples of normal and abnormal events in the dataset

CUHK Avenue與ShanghaiTech數據集的幀數(訓練幀、測試幀)、異常事件和場景數等相關信息如表1所示。

表1 數據集比較表Table 1 Comparison of datasets

2.2 實驗設置

本文方法由Pytorch框架實現,在Nvidia GeForce RTX 2080Ti (×4)Ubuntu 18.04操作系統,CUDA 10.0支持下進行實驗。

本文實驗中,所選擇的視覺網絡是在數據集ImageNet和Kinetics-400上預訓練的I3D(Two-Stream Inflated 3D ConvNet)網絡。視覺主干以64幀視頻作為輸入。從I3D的Mixed_5c層中提取的特征圖和相應的骨架姿態組成RPN的輸入。

使用Alpha-Pose算法來提取視頻中每一幀人的骨架姿態估計。對于自注意力時空圖卷積的配置,遵循ST-GCN中的設置,其中包含9個時空自注意力圖卷積層。前3層、中3層和后3層分別有64、128和256個通道用于輸出。Resnet機制應用于每個自注意力時空圖卷積。

2.3 消融實驗

模型包括兩個新的組件,空間嵌入和時空自注意力。這兩者對相似行為下的異常行為檢測識別性能都是至關重要的。

2.3.1自注意力網絡消融實驗 本文進行了空間自注意力、時間自注意力以及時空自注意力的消融實驗,結果如表2所示。

表2 自注意力網絡消融實驗結果表Table 2 Self-attention network ablation experimental results

結果表明,僅采用空間自注意力,可以捕獲空間局部和全局特征但缺乏時間全局特征。僅采用時間自注意力,考慮了時間全局特征,但缺乏空間全局特征。時空自注意力增強圖卷積計算注意力權重時,不僅在空間維度上考慮了骨架特征的局部和全局信息,而且在時間維度上考慮同一關節的時間全局關系,這進一步提高了異常行為檢測的性能,使模型能減少誤判。

2.3.2時空自注意力與空間嵌入消融實驗 進行了時空自注意力網絡和RPN的空間嵌入模塊的消融實驗。時空自注意力網絡在數據集ShanghaiTech上結果為0.790,在數據集HR-ShanghaiTech上結果為0.793;空間嵌入在數據集ShanghaiTech上結果為0.795,在數據集HR-ShanghaiTech上結果為0.798。結果表明,空間嵌入提供了RGB模態和骨架姿態模態的精確對齊,與沒有嵌入的動作相比,細粒度動作的檢測性能有所提高。時空自注意力增強圖卷積操作和空間嵌入使識別模型能夠更好地消除外觀相似的動作歧義。

2.3.3時空自注意力增強圖卷積數量的選擇 本文還對時空自注意力增強圖卷積數量進行消融研究,以探索其有效性。實驗逐漸增加時空自注意力增強圖卷積的數量。如圖10所示。

圖10 改變時空自注意力增強圖卷積數量在 ShanghaiTech Campus數據集上的性能Figure 10 Performance of changing the number of spatiotemporal self-attention augmented graph convolutions on the ShanghaiTech Campus dataset

由圖10可知隨著增加時空自注意力增強圖卷積數量,在ShanghaiTech Campus數據集上的AUC性能逐漸增加。當時空自注意力增強圖卷積數量選擇為9時,模型在ShanghaiTech Campus數據集上的性能最好。消融實驗表明更深層次可能會導致模型優化困難。

2.4 實驗結果的可視化

為了直觀地評價模型,將CUHK Avenue數據集和ShanghaiTech數據集的部分實驗結果可視化。異常分數可視化圖以視頻幀為x軸,以異常分數為y軸,圖中陰影區域表示異常行為發生的時段。

圖11為CUHK Avenue數據集的攝像頭采集的第11視頻片段的異常得分。異常分數歸一化為[0, 1],圖中陰影區域代表異常,此視頻片段異常事件為扔擲東西和逆向行走。

圖11 數據集CUHK Avenue#11異常分數可視化圖Figure 11 The visualization of anomaly scores for CUHK

圖12為數據集CUHK Avenue#11的典型異常幀,圖12(a)93幀表示人準備開始向上扔擲動作,圖12(b)150幀表示人撿起扔擲物品,圖12(c)300幀表示逆向行走的人,行人的運動方向與他人不一致,即運動軌跡異常。

圖12 數據集CUHK Avenue#11的典型異常幀Figure 12 Typical anomalous frame for dataset Avenue#11

圖13為ShanghaiTech數據集的07號攝像頭視角的第009視頻片段的異常得分,圖中陰影區域代表異常,此視頻片段異常事件為突然跳躍。從圖13中可以看出,異常行為從115幀到198幀,視頻片段中的人進行了多次跳躍動作。

圖13 數據集ShanghaiTech#07_009異常分數可視化圖Figure 13 The visualization of anomaly scores for ShanghaiTech#07_009

如圖14所示,圖(a)118幀表示人準備跳躍的下蹲起勢動作,圖(b)132幀表示人向前跳躍的動作,圖(c)145幀表示跳躍的落地動作,圖(d)155幀表示人再次起跳動作,圖(e)167幀表示再次落地,圖(f)180幀表示3次起跳動作。

圖14 數據集ShanghaiTech#07_009的典型異常幀Figure 14 Typical anomalous frame for dataset ShanghaiTech#07_009

圖15為ShanghaiTech數據集的06號攝像頭視角的第150視頻片段的異常得分,圖中陰影區域代表異常,此視頻片段異常事件為騎自行車的人。慢速騎自行車的人與行走的人具有相似的運動模式,在只使用骨架模態進行異常檢測時極易產生誤判,本文方法可以對其進行異常檢測,降低誤判率。

圖15 數據集ShanghaiTech#06_150的異常分數可視化圖Figure 15 The visualization of anomaly scores for ShanghaiTech#06_150

2.5 實驗結果與分析

對比本文所提方法與其他單模態的方法在ShanghaiTech Campus數據集、與人類活動相關的HR-ShanghaiTech Campus數據集和CUHK Avenue數據集上的性能,顯示幀級的AUC分數,如表3所示。

表3 異常檢測結果表Table 3 Table of anomaly detection results

將本文所提出的方法與基于外觀的方法[15-17]和基于骨架的方法[18-20]進行比較。一般來說,基于骨架的方法比基于外觀的方法表現更好,尤其是在ShanghaiTech Campus數據集中,異常僅存在與人類有關的子集HR-ShanghaiTech Campus上。原因是這些算法只關注人體姿勢而不是不相關的特征,例如復雜的背景、光照變化、動態攝像機視圖等。對于基于骨架的方法,基于GCN的方法[18-19]表現更好,與基于RNN的方法[20]相比,因為骨架可以自然地定義為圖結構,并且圖卷積網絡在處理非歐幾里得結構數據方面優于RNN網絡。對于只使用單模態的異常行為檢測,由于外觀信息的缺乏,MPED-RNN[20]、Normal Graph[18]、GEPC[19]、SAA-Graph[11]無法消除具有相似視覺外觀動作的歧義。骨架模態和RGB模態結合可以提升檢測的性能,使用新的空間嵌入來加強RGB視頻和骨架姿態之間的對應關系,以及使用時間自注意力提取相同節點之間的幀間關系,可以提高部分相似行為下的異常行為檢測性能。

3 總結

本文主要研究相似運動模式下的異常行為檢測。提出了一種新的視頻姿態網絡RPN,提供了一種精確的視頻姿態嵌入方法,通過顯式嵌入來結合RGB模態和骨架模態并采用時間自注意力捕獲時間全局信息。結果表明,RGB-Pose嵌入與骨架時空自注意力產生了一個更具區別的特征圖,提升了相似異常行為的檢測性能。本文異常行為檢測模型在兩個公共數據集上的性能都取得了優異的結果。本文針對不同監控場景下的人類異常行為檢測進行了相關研究,但仍然存在一些可以進一步改進的問題。未來與人類行為相關的監控視頻異常行為檢測工作:1) 在有噪聲的骨架姿態情況下,可利用本文提出的嵌入方法提高網絡的異常行為檢測。2) 引入更多視覺特征或拓展模態并研究輕量級模型,在考慮保證特征的全面性和有效性的同時提高計算速度。

猜你喜歡
骨架姿態時空
跨越時空的相遇
淺談管狀骨架噴涂方法
鏡中的時空穿梭
攀爬的姿態
骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
玩一次時空大“穿越”
全新一代宋的新姿態
跑與走的姿態
時空之門
內支撐骨架封抽技術在突出煤層瓦斯抽采中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合