易國憲,熊淑華,何小海,吳曉紅,鄭新波
(1.四川大學 電子信息學院,成都 610065; 2.東莞前沿技術研究院,廣東 東莞 523000)(*通信作者電子郵箱xiongsh@scu.edu.cn)
當前我國經濟高速發展,城市人口密度日益增大。公共場所人群數量監管不足極易導致嚴重的踩踏事件,如2014年12月31日上海外灘踩踏事件[1]。人數是公共場所監管的重要指標,良好的人數檢測預警系統可有效避免此類事件。監控視頻作為公共場所最直接的監控數據載體,具有信息量大、易獲取的特點,因此基于視頻的人數統計方法有較大現實研究意義。然而實際公共監控視頻存在諸多影響人數統計精確度的因素,如復雜背景干擾、光照變化、目標的透視失真以及行人間的遮擋。實際監控場景下的人數統計極具挑戰性,有必要探索精度更高的人數統計方法。
張君軍等[2]對人數統計技術研究現狀作出了詳盡的分析?,F有的人數統計方法主要有以下幾種:基于檢測的方法、基于聚類的方法、基于回歸的方法和基于深度學習的方法。
基于檢測的方法主要是使用運動特征和表面特征來訓練檢測器,以檢測頭部或身軀的方式統計行人個體數量。Ge等[3]通過檢測與目標匹配的形狀實現目標人數統計。Brostow 等[4]將Tomasi-Kanade等圖像特征用于運動聚類框架。Rabaud 等[5]使用KLT(Kanade-Lucas-Tomasi)跟蹤器將視頻幀中的目標處理成一組軌跡,同時為了防止軌跡碎片,在時間和空間上兩個域上調節信號。與基于檢測和基于聚類的方法相比,基于回歸的方法更為準確,它能夠更好地應對擁擠場景。韓迎輝等[6]使用多元線性回歸的方法實現了良好的人數估計效果。Albiol等[7]最早提出角點數與人數成正比關系,以統計目標角點數目的方式估計人數。曹志通等[8]在文獻[7]的基礎上提出借鑒卡爾曼濾波思想的一階動態線性模型,結合當前幀角點的數量實時更新比例系數,這兩種方法后者在前者的基礎上大幅提升了人數統計精度,但兩種方法均只能檢測出運動目標。Lempitsky等[9]最早提出了基于學習的目標計數方法,且提出了針對圖像目標計數的子陣列最大差分(Maximum Excess over SubArrays, MESA)距離,實現了較高的細胞計數精度。Arteta等[10]進一步提出了一種快速迭代交互式的多目標計數系統,可快速地統計出場景中的細胞或某種車輛的數量。該方法只適用于目標外形較統一、背景較簡單的場景,在現實公共場景的人數統計中表現不佳。隨著深度學習的蓬勃發展,Zhang等[11]和Sam等[12]提出基于多列卷積神經網絡的人群計數方法,該方法在人群密度極高場景下表現優異,較前述其他方法精度更高,但這些深度網絡訓練成本較高,需要大量的標注數據,硬件要求高。
本文在有限的硬件條件下選擇精度較高的基于回歸的思路,針對實際公共場景監控視頻,在文獻[9-10]方法的基礎上借鑒文獻[8]的改進思想提出了一種結合特征圖譜學習的人數統計方法。
本文方法原理框圖如圖1所示,訓練部分首先由輸入圖像序列提取尺度不變特征變換(Scale-Invariant Feature Transform, SITF)[13]特征,同時通過預先訓練好的碼本對特征作預處理以減小計算量。其次,以文獻[9]中的目標計數框架為基礎,將真實密度圖作為對應標簽,圖像的SIFT特征為輸入特征,兩者由嶺回歸得到特征圖譜映射模型。圖像SIFT特征經過特征圖譜模型得出一個與行人密度相關的特征圖譜X。
圖1 本文方法原理框圖Fig. 1 Functional block diagram of the proposed method
測試部分與訓練部分類似,圖像序列提取出的SIFT特征先后經過預處理實現特征稀疏化表示,其次SITF特征經過訓練部分得到的圖譜映射模型得出與目標密度相關的特征圖譜,最后圖譜的積分經過訓練好的人數回歸模型即可得到相應圖像的人數。
2.1.1 特征提取與預處理
本文使用圖像在每個像素點處的SIFT特征作為圖像底層特征。SIFT是一個使用廣泛的紋理描述符,它將興趣點位置定義為尺度空間中高斯差分的最大值或最小值。SIFT特征具有旋轉、亮度變化、尺度縮放不變性,它對透視失真不敏感,且信息量豐富,這些性能使得它適用于本文場景下的人數統計。
本文從圖像中提取稠密SIFT特征,用一個512維的實值向量表示圖像I中的每一個像素點。為了減小計算時間復雜度和空間復雜度,本文通過構建碼本的形式將特征空間細分為K個單元。劃分的原則為在對特征空間作足夠劃分的前提下使每個分區至少存在幾個像素屬于標注區域。具體的,從訓練圖像中提取出SIFT特征后,應用K均值聚類將每個像素點處的特征以特征間的距離為度量聚類為K種特征,即K個特征空間單元,這K個特征空間的中心向量對應碼本中的K條項目。對于后續的訓練圖像和測試圖像,先將圖像特征映射到K個特征空間,以該特征空間的中心特征向量表示對應特征空間中像素點處的特征,實現稠密SIFT特征的稀疏化表示,從而減小后續計算量。
2.1.2 真實密度圖
圖像標注一直以來都是機器學習研究中一項極繁瑣的工作。相比于像素標注和邊界框標注等標注方法,點標注較簡單耗時更少,且出于人數統計方式的考慮,本文選擇點標注式。訓練圖像中的每一個行人的標注以單點的形式位于行人頭部中心,記錄目標行人在圖像中的位置gti(x,y)。
圖2 標記監控圖與真實密度圖Fig. 2 Labeled monitoring map and true density map
(1)
其中:p表示一個像素點;N(p;pm,σ2E2×2)表示像素點p上的一個標準二維高斯核估計,均值點位于點pm,σ2E2×2為一個值極小的各向同性協方差矩陣。由于真實密度圖上靠近邊界的標注點,其高斯估計不會全部位于圖像內部,由該公式計算得到的總人數不一定等于標注點數C(i)。在行人密度估計中,相比于去邊界點,邊界行人數量上分數化處理更為合理。
2.1.3 特征圖譜學習
直接由現實場景下的監控圖像學習它與真實人群密度圖之間的密度模型,需要做大量的訓練且對硬件資源要求高。本文在傳統人數回歸方法的思路下提出結合特征圖譜學習的人數回歸模型。首先以Lempitsky 等[9]提出的目標計數學習框架為基礎,以真實密度圖為標簽Y學習底層特征X與Y之間的關系Y=XTW。
給定一個訓練圖像集和它的真實密度圖集,本文的目標是由行人特征圖擬合行人密度圖,學習它們之間的線性轉換關系:
(2)
其中:w∈RK,是訓練過程中需要學習的線性轉換參數向量;Fi(·|w)是密度函數在某一參數向量w下的密度估計。由結構風險最小化策略知,應該選擇能使真實密度值和估計密度值之間誤差和最小的w:
(3)
其中:λ為尺度標準化超參數,它控制著回歸力度;Dist是測量損失的距離,即估計的和地面真實密度之間的不匹配程度。如何選擇測量損失距離的函數成為此處的一個關鍵點。文獻[9]的目標是回歸一個總數,所以選擇MESA正規化距離作為損失函數。而這種選擇與本文獲取特征局部的目標不符,因此,更適當的Dist函數可以是一個Lp度量。同時,我們注意到MESA距離考察了所有可能的子圖像區域上的積分。 雖然這種距離極大地改善了算法的泛化性能,但MESA距離的學習成本是昂貴的,因為它使用約束生成并且必須解決大量的計算成本為二次方的函數。同時考慮計算成本與計算精度問題,本文借鑒文獻[10]中的高斯平滑方法,在原始嶺回歸L2度量基礎上加入高斯核卷積:
(4)
其中:x表示底層特征向量,每一行為前述分割好的特征空間中的一個中心特征向量;y為x對應真實密度圖上相應點的圖像強度組成的向量;g代表高斯核,本文將xTw與y之間的誤差向量的重新排列二維圖像的形式,再與高斯核g進行卷積實現誤差圖譜平滑。式(4)將式(3)轉化為簡化版的嶺回歸問題,其中每個樣本對應像素底層特征組成的二維向量而不再是原來整個圖像的三維特征矩陣。實驗表明當高斯核的標準差參數滿足σ>dia/2時(其中dia為行人頭部區域圖像的平均直徑),σ的變化對估計模型在測試集上的表現影響較小。
將式(4)展開可以得到:
(5)
分別用xs和ys表示g*x和g*y,就可以得到標準的嶺回歸。進一步的,此處可以直接應用標準的嶺回歸參數估計方式來求解w:
w=(xsTxs+λE)-1xsTys
(6)
其中:E為單位矩陣;λ是回歸超參數。
對于測試圖像Xtest中任意一像素點的底層特征向量xp,僅需作簡單的線性投影即可得到測試圖像對應特征圖譜相應像素點的強度:
xstep2(p)=wTxp
(7)
Lempitsky等[9]提出了目標計數學習框架,將目標計數問題視為目標密度估計問題,估計密度特征圖譜的積分量即為圖像中目標的數量,也就是說圖像中目標數量與密度特征圖譜成正比例關系:
(8)
在本文場景下,圖像背景較為復雜且較為穩定,本文算法跳過了常規的前景提取步驟,估計出的特征圖譜Xstep2中不僅包含目標密度特征還包含背景密度特征,所以本文此處將基本無變化的背景特征量視為偏置b,采用更為合理的一階動態線性模型估計特征圖譜的積分量與人數之間的關系:
(9)
通過觀察可知通常監控視頻中的連續兩幀圖像中的人數變化較小,可用式(10)計算相鄰兩幀的平均比例系數K:
(10)
(11)
此處結合當前幀的狀態和前一幀的狀態確定K值,這使得人數回歸模型更加接近于真實狀態。同時為了使此處的比例系數不會偏離模型總體趨勢太遠,將K和K0分別乘以相應的權重,用它們的和作為當前第i幀的比例系數Ki:
(12)
由實驗經驗知在MALL數據集[14-17]上wa=0.932,wb=0.068,在PETS2009數據集[18]的實驗上wa=0.85,wb=0.15,則第i幀的人數可由式(9)模型求得。
在MALL數據集上進行本文方法和文獻[14]方法的對比實驗,驗證本文方法的性能。MALL數據集是一個真實場景下的公共場所監控視頻數據集,其中包含2 000幀某商場高峰時段的行人監控圖像。該數據集中除了一般數據集中存在的透視畸變問題和光照變化問題,還存在靜態和動態兩種不同的人群活動模式、人群密度從稀疏到擁擠變化不等的問題,是一個具有較高現實研究意義且極具挑戰性的數據集。與文獻[14]相同,本文也采用前800幀作為訓練數據,后1 200幀作為測試數據。
其次,本文使用公共數據集PETS2009中的Dataset S1:Person Count and Density Estimation,并選用數據集S1中的一段視頻S1.L1.Time_13-57.View_001進行本文方法和文獻[8]方法的對比實驗。該視頻段總共包含220幀圖像,與MALL數據集相比目標更大、背景更簡單、透視和光照能影響更小。此處采用前105幀作為訓練數據,后115幀為測試數據。
本文沿用大多數人群計數研究中使用的誤差統計方法:相對于每幀中的真實人數計算平均絕對誤差(Mean Absolute Error, MAE)、均方差(Mean Squared Error, MSE)和平均相對誤差(Mean Relative Error, MRE),其定義分別如式(13)、(14)、(15):
(13)
(14)
(15)
其中:N表示圖像幀數;G(i)表示算法估計的第i幀的人數;T(i)表示第i幀的真實人數。
圖3(a)、(b)分別給出了MALL數據集上和PETS2009數據集上本文方法與真實人數間的比較結果,表1給出了MALL數據集上和PETS2009數據集上本文方法分別和文獻[14] 方法、文獻[8]方法的性能結果比較。
圖3 不同數據集上實驗估計人數與真實人數對比Fig. 3 Comparison of experimental estimate number of people and actual number of people on different datasets
從表1可以看出,相比于對比文獻[14]的累積屬性空間方法和文獻[8]的基于角點檢測的一階動態線性回歸方法,本文方法均取得了較好的統計結果,主要有以下幾點原因:首先,SIFT特征有較強的區分力;其次,本文通過學習的方法將圖像中的所有紋理投影到與目標密度相關的特征空間,以特征圖譜的形式實現了紋理的歸一化。圖譜模型以行人頭部對應區域的密度圖作為訓練標簽,一定程度上降低了目標間的遮擋影響。最后,根據場景中背景穩定性以及實際人數的漸變趨勢,本文利用先驗信息結合多幀圖像的狀態建立一階動態線性模型,獲得了更符合實際情況的人數統計結果。相比于文獻[14]方法,本文方法在簡化算法的同時其MAE降低了2.2%;相比于文獻[8]方法,本文使用的基于特征圖譜學習的方法在特征檢測上更為穩定,其MAE及MRE指標上表現更好,MAE降低了6.5%, MRE降低了2.3%。
表1 不同數據集上的性能結果對比Tab. 1 Comparison of performance results on different data sets
針對實際監控場景視頻,本文提出了一種結合特征圖譜學習的人數統計方法,并通過實驗驗證了該方法的有效性,本文方法比文獻[8]方法、文獻[14]方法精度更高。實驗發現,在較長時間的人數統計檢測中,隨著一階動態模型誤差的累計,人數統計誤差會逐漸增大;其次,對于幀間行人數量變化較大的視頻段,估計人數誤差較大。這主要是由于本文方法關于人數平穩變化的假設造成的。后續將繼續研究無此假設的情況,以及如何矯正時間累計誤差。