?

面向監控視頻的人群異常事件檢測綜述

2023-03-24 01:44黃少年文沛然全琪
電腦知識與技術 2023年4期
關鍵詞:深度學習

黃少年 文沛然 全琪

關鍵詞:人群異常事件;深度學習;無監督學習

0 引言

由于人群聚集的情況經常在各種城市公共場所中出現,一旦在人群聚集的公共場所出現突發異常事件,很容易造成因人群擁擠引發的災難性事件。另一方面,隨著視頻監控系統的日益普及,基于監控視頻內容分析技術對公共場所的人群行為進行分析、挖掘和管理成為可能。因此,分析并建模城市公共場所下密集人群的行為動態,預警并檢測人群場景的突發異常事件,避免人群災難性事件的發生,成為亟待解決的一個研究課題。

本文從監控視頻場景下的人群異常事件檢測的定義出發,對現有的視頻異常檢測方法進行綜述,詳細闡述了其研究現狀及各類方法的優劣,介紹視頻異常檢測常用的數據集及評價指標,最后面向監控視頻的人群異常檢測的未來的發展方向進行總結和展望。

1 人群異常事件檢測概述

1.1 人群異常事件定義

面向監控視頻的人群異常事件檢測技術是指:從海量監控視頻數據中檢測出與大多數人不一致的少量異常事件。如:在養老院等機構的監控系統中,實現對老人跌倒事件的遠程監控;在機場、車站以及地鐵站等公共安防監控系統,檢測打架斗毆、異常奔跑、包裹滯留以及逃票等異常事件;在智能交通監控系統中,實現對超速、闖紅燈、逆行等交通違章事件的檢測等;在不同的人群場景下,其人群異常事件的含義可能不同。

1.2 人群異常事件分類

根據應用場景的不同,現有研究將通常把人群異常事件分成4種類型[1]:

(1) 外觀異常。如:人行道上的騎自行車者,或馬路上的障礙物。

(2) 短期運動異常。這類異??杀徽J為是場景中不尋常的物體運動。如:一個人在圖書館跑步。

(3) 長期軌跡異常。這類異常通常在場景中具有不尋常的物體軌跡。如:在人行道上拐來拐去的人,或在車流中不斷加塞的汽車。

(4) 群體異常。這類異常在場景中具有不尋常的相互作用。如:一群人突然向四周跑動。

2 基于深度學習的視頻異常檢測方法

相較于計算機視覺領域其他檢測任務,視頻異常事件檢測任務的挑戰性在于:異常事件定義具有場景依賴性、異常事件的稀少性、異常樣本的不確定性及視頻信息的多樣性[2-3]。不同于圖像以及文本數據,視頻數據不僅僅具備空間信息同時也具備極強的時序信息。伴隨著深度學習的發展,針對視頻異常檢測任務所面臨的挑戰,利用深度學習方法可以在一定程度上弱化異常檢測任務對場景地依賴性,增加模型的泛化能力。同時,無監督的方法也能一定程度上解決樣本不均衡引發的問題。目前,利用無監督的深度學習方法對視頻進行異常事件檢測已成為主流的研究趨勢?,F有的無監督視頻異常檢測方法可大致分為基于重構的方法、基于預測的方法及混合方法。

2.1 基于重構的方法

基于重構的方法通常假設異常事件具有較高的重構誤差,并根據重構誤差的閾值判斷異常。該類方法基于大量的正常樣本訓練網絡,學習正常事件的特征模式;測試時,由于異常事件模式難以被網絡很好的重構,生成較大的重構誤差,從而被判定為異常。

自動編碼器(Auto Encoder,AE) 是基于重構方法的常見結構,通過采用編碼器提取正常事件模式進行編碼,采用解碼器將編碼后的特征表示解碼回它的原始形式,形成對正常事件進行重構。Hasan等[4]通過訓練全連接自動編碼器進行視頻序列重構,并基于重構誤差計算異常分數。Luo等[5]則采用卷積長短期記憶網絡(Convolutional Long Short Term Memory , ConvLSTM)) 作為卷積AE的主干結果進行視頻序列重構。Hu等[6]提出了一種時空融合的視頻異常檢測方法。首先通過對象檢測網絡進行對象提取,然后提取光流信息和可視信息,并基于時空雙流網絡進行視頻幀的重構。Ber?gaoui等[7]提出了一種以對象為中心的正常事件模式學習模型,采用基于對象動作特征的cosine距離函數進行異常估計,并在重構框架引入了幾何限制。通過記憶模塊平衡對象的外觀信息和運動信息,從而捕獲事件的原型模式。Wang等[8]針對現有基于重構方法的時序依賴性差和訓練樣本過擬合問題,提出時空Trans?formmer編碼器進行連續幀重構。采用可學習的卷積自注意力模塊學習時序相關性。在測試過程中提出了一種新的基于重建的輸入擾動策略,以進一步區分異常幀。Ouyang等[9]提出了一種無需離線訓練模型的視頻異常檢測方法。采用隨機初始化多層感知機的方法進行視頻幀重構?;谙噜弾g的信息偏移,采用增量學習進行參數更新,在線訓練模型。

除AE模型之外,生成對抗模型GAN和變分編碼器模型VAE也被引入到視頻異常檢測問題中。Rav?anbakhsh等[10]提出了基于GAN的視頻異常檢測方法, 基于對抗損失生成器與判別器, 使得異常幀具有較大的重構誤差。Dong等[11]提出了一種雙判別器生成對抗網絡,基于半監督學習方式進行視頻異常檢測。Feng等[12]針對視頻異常檢測中正常模式的時空有效性問題,提出了基于雙對抗生成網絡的卷積Trans?former模型。Fang等[13]提出了一種基于全卷積VAE的端-端視頻異常檢測框架,基于高斯混合模型對正常事件模式進行編碼,并采用雙流網絡提取視頻的可視特征及運動特征進行異常檢測。

2.2 基于預測的方法

由于異??梢员灰暈椴环夏承╊A期的事件,研究者認為基于預測的方法可能是看待異常檢測問題的更自然的方式?;陬A測的方法采用過去一段時間內視頻幀的特征預測當前幀;為增強預測效果,通?;谝曨l幀間的時序依賴性增強特征表示。

Huang等[14]基于幀可視信息與光流運動信息的一致性進行視頻異常檢測。采用雙流編碼器編碼可視信息與運動信息,并引入一致性損失增強語義特征的一致性,從而使得具有較低可視、運動信息一致性的異常事件能被檢測。最后,結合一致性損失與預測損失進行異常檢測。Leery等[15]提出了一種自監督的同步預測模型。與現有的單幀預測方法不同的是,該模型可以一次性預測連續幀中的遮擋幀,因此該模型可以充分考慮視頻的上下文信息。這種同時進行自我監督的未來幀預測有助于模型產生預測輸出更加接近訓練數據分布,而不是簡單地學習特征函數,從而緩解了泛化的問題。針對基于重構的方法均假設異常事件具有較大的重構誤差的問題,Zhao等[16]設計了卷積LSTM自動編碼器預測網絡增強時空記憶交換。雙向網絡結構通過前向預測和反向預測學習時序規律,獨特的高階機制進一步加強了編碼器和解碼器之間的空間信息互動。并采用注意力模塊進行預測。針對現有工作現有考慮幀級局部一致性以及時序動態的全局相關性問題,Feng等[17]提出了基礎雙生成對抗網絡的卷積Transformer模型。首先采用卷積Trans?former進行將來幀預測;再采用雙生成對抗網絡進行訓練,該網絡判別器在保持圖像幀局部一致性的同時,增強視頻的時序全局一致性。

基于預測的視頻異常檢測方法可以對運動信息進行建模,并且可以學習到不同類型的時空依賴。但這類方法局限于序列數據異常檢測,并且序列預測的計算成本高,由于其潛在目標是序列預測而不是異常檢測,因此學習的結果可能是次優的。

2.3 混合方法

部分研究者采用混合方法實現視頻異常檢測,取得了較好的檢測效果。Cao等[18]提出了一種根據測試事件和正常事件知識一致性的異常事件檢測方法,采用基于上下文恢復和知識檢索的雙流框架進行異常檢測。在上下文恢復分支中,采用時空U-Net網絡預測將來幀,并提出了最大恢復誤差機制緩解由前景對象引起的較大恢復誤差問題。在知識檢索分支中,采用Siamese 網絡和交互差異損失,基于可學習的locality-sensitive hashing 策略,從而編碼正常事件知識并存儲在hash表中。測試事件和知識表示的差異被用來進行異常檢測。Wang等[19]提出了一種基于時空拼圖的視頻異常檢測方法,將視頻異常檢測問題作為一個多標簽的細粒度分類問題來解決。時空拼圖分別負責捕捉高辨識度的外觀和運動特征。完整的排列組合被用來提供豐富的涵蓋不同難度的拼圖,使網絡能夠區分正常和異常事件之間微妙的時空差異。Barbalau等[20]提出了一種基于多任務自監督學習的視頻異常檢測框架。首先采用Yolov3進行目標檢測,并采用卷積transformer網絡作為主干網絡。同時,引入自監督學習任務提升模型性能,如:通過知識蒸餾解決拼圖問題,預測人體姿態等。

基于預測重構的混合方法也引起了研究者的興趣。Liu等[21]提出了一種基于記憶增強重構和光流幀重構的視頻異常檢測方法,首先進行可視特征及預測特征的重構,然后采用條件變分自動編碼器進行幀預測。Morais 等[22]則基于行人的骨架軌跡特征同時進行預測和重構,并學習正常時間模式。Zhao等[23]提出了一種時空自動編碼器(STAE) ,并同時采用重構損失和預測損失訓練3D卷積網絡。Ye等[24]提出了基于預測編碼網絡的視頻異常檢測方法,引入誤差修正單元對預測誤差進行重構,從而提升預測精度。以上基于預測重構混合的方法均取得了較好的檢測性能,但模型較復雜。

3 常用數據集與評價標準

3.1 常用數據集

基準數據集在計算機視覺任務中起到重要作用,包括:定義問題范圍、為算法性能比較提供途徑等?;鶞蕯祿慕⑿枰紤]數據集大小、數據大小、標簽數據的可獲得性及數據多樣性等多種因素。由于實際監控場景中,人群的異?;顒虞^少見,因此,人群異常行為基準數據集的數量較少。常見的人群異?;鶞蕯祿ǎ篣CSD行人數據集①、Avenue數據集② 、UMN 數據集③ 、Street Scene 數據集④ 、ShanghaiTech數據集⑤、UCF Crime數據集⑥、RLVS數據集⑦。本文從數據集場景、視頻數目、分辨率、異常樣例、是否包含像素級標注等方面對以上數據集進行描述,表1 展示了常見人群異常數據集的具體特性。

3.2 評價標準

通常來說,人群異常檢測和定位的性能評估標準有3種:(1)幀級標準:以幀為單位判斷幀中是否存在異常;(2) 像素級標準:至少40%真實異常區域的像素被檢測為異常;(3) 雙像素級標準:至少10%真實異常區域的像素被檢測為異常。人群異常檢測的定量評價指標則一般采用接收器操作特性曲線(receiver oper?ating characteristic curve,ROC) 及其對應的曲線下面積(Area Under Curve,AUC) 兩種形式[25]。此外,等錯誤率(Equal Error Rate,EER) 也被用來作為異常檢測評價的性能指標,EER 是指當假陽性率(False PositiveRate,FPR) 等于假陰性率(False Negative Rate失誤率)時,被錯誤分類的幀的百分比。

最近,一些研究者還提出了基于區域的異常檢測標準和基于軌跡的異常檢測標準[26]?;趨^域的檢測標準即計算所有異常區域被正確檢測的比率;而基于軌跡的檢測標準則計算行人異常軌跡被正確檢測的比率。以上兩種評價標準均需要進行異常區域和異常軌跡的標注,且同樣采用ROC和AUC進行定量評價。

4 總結

人群異常事件檢測是現階段視頻監控領域的重要應用,本文對基于深度學習的人群視頻異常檢測問題的常用方法、主流數據集及評價標準進行了概述?;谏疃葘W習的異常行為檢測在常用數據集上展現出優異的性能,展現出深度學習模型在人群異常事件檢測中的巨大優勢。但多數模型僅針對特定場景下的異常檢測,更具泛化性能的模型有待進一步研究。

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
利用網絡技術促進學生深度學習的幾大策略
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
構建“單元整合、主題牽引”詩歌鑒賞“深度學習”課堂的策略
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合