?

基于深度卷積網絡與空洞卷積融合的人群計數

2019-12-13 08:26盛馨心蘇穎汪洋
關鍵詞:池化空洞像素點

盛馨心 蘇穎 汪洋

摘 要: 利用空洞卷積設置不同空洞率,得到不同感受野的特點,提出一種基于深度卷積Visual Geometry Group19(VGG19)和空洞卷積相融合的結構.所采用的結構不受輸入圖像尺寸以及分辨率影響,通過設置鋸齒狀空洞率,擴大網絡的感受野,在保持分辨率良好的情況下,可以較為精確地定位目標,提高檢測準確性.經驗證,該算法在Shanghai-tech標準數據集上具有較高的實驗準確率.

關鍵詞: 人群計數; Visual Geometry Group19(VGG19); 空洞卷積; Shanghai-tech數據集

中圖分類號: TN 919.8 ?文獻標志碼: A ?文章編號: 1000-5137(2019)05-0479-06

Abstract: A combined structure based on Visual Geometry Group19(VGG19) and dilated convolution with different receptive field was proposed for high density crowd counting in the paper.The structure adopted would not be affected by the size and resolution of the input image.By setting the serration dilation rate,the network receptive field was expanded,and the target could be accurately localized without any loss of resolution,which improved the accuracy of detection.Finally,the experimental results showed that the algorithm had higher accuracy on the standard data set of Shanghai-tech.

Key words: crowd counting; Visual Geometry Group19(VGG19); dilated convolution; Shanghai-tech data set

0 引 言

人群計數是一種視覺認知任務,目的在于準確估計擁擠場景中的人數,通過對目標區域的人群數量進行分析,能夠對許多社會安全問題起到一定的預警作用,從而實現資源的合理分配和調度.因此,人群計數問題已經成為計算機視覺領域的重要課題[1].然而人群在場景中的分布是多種多樣的,人群之間的遮擋、光照不均等各種干擾因素使人群計數問題仍然具有挑戰性.

由于卷積神經網絡(CNN)在各種視覺任務上取得的成功,許多針對人群計數的多尺度CNN架構[2-3]性能取得了顯著的提升,這些方法通常采用多列卷積網絡估計靜止圖像中的人群數目.多列網絡通常采用兩列或三列對圖像特征進行提取,并通過不同卷積核獲得不同大小的感受野,解決尺度變化等問題.受圖像分割的啟發,空洞卷積[4]能夠在不影響分辨率的情況下擴大感受野,讓每個卷積的輸出包含較大范圍的信息,彌補池化操作過程中信息的損失;而全卷積神經網絡[5]沒有全連接層,全部采用卷積層對圖像進行特征提取,因此輸入圖像的大小可以是任意的,同時可以大大減少參數量.鑒于空洞卷積和全卷積網絡的特點,本文作者采用全卷積的網絡架構,以空洞卷積代替深度卷積網絡的全連接層,不僅可以擴大圖像的感受野,還能減少網絡的參數量,提高了實驗的準確率和數據集的訓練速度.

2 基于深度卷積和空洞卷積融合的網絡架構

2.1 空洞率分析

2.1.1 不同空洞率分析

傳統的CNN對圖像進行卷積操作之后再進行池化操作,在降低圖像尺寸的同時增大感受野,但是池化層在降維的過程中會丟失一些重要信息,對提取圖像特征有一定的影響.通過圖像分割[4]實驗可知,空洞卷積既能增大感受野又不丟失圖像信息,如圖1所示.

圖1(a)對應空洞率為1的卷積.圖1(b)對應空洞率為2的卷積,雖然實際的卷積核尺寸仍是3×3 pixels,但是相比于普通卷積,其感受野較大.如果前一層是空洞率為1的卷積,那么空洞率為2的卷積中每個像素點是前一層卷積的輸出,單個像素點的感受野為3×3 pixels,因此2層卷積的感受野為7×7 pixels.圖1(c)對應空洞率為3的卷積,與圖1(b)同理,其感受野為13×13 pixels.

實施步長為1的普通3×3 pixels卷積操作,三層之后,感受野才能達到7×7 pixels,而進行空洞卷積,兩層操作之后,感受野就能達到7×7 pixels.在不進行池化操作的情況下,空洞卷積操作能較快增大感受野,讓每個卷積輸出都包含較大范圍的信息.

疊加卷積的空洞率不同且最大公約數為1的結構稱之為鋸齒狀結構,符合條件的空洞率稱之為鋸齒狀空洞率.

2.1.2 相同空洞率分析

空洞率相同的空洞卷積的計算方式類似于棋盤格式,某一層得到的卷積結果,來自上一層獨立的集合,沒有相互依賴關系,因此該層的卷積結果之間沒有相關性,導致局部信息丟失.相同空洞率的情況下,空洞卷積操作的棋盤問題如圖2所示.

圖2(a)對應原始卷積,感受野為5×5 pixels;圖2(b)對應卷積核一次疊加后的卷積,每個像素點為原始卷積的輸出,所以單個像素點的感受野為5×5 pixels,疊加后的感受野為9×9 pixels;圖2(c)與圖2(b)同理,最終得到的感受野為13×13 pixels.

[5] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,39(4):640-651.

[6] ZHANG Y,ZHOU D,CHEN S,et al.Single-image crowd counting via multi-column convolutional neural network [C]//Computer Vision & Pattern Recognition.Las Vegas:IEEE,2016:589-597.

[7] KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classification with deep convolutional neural networks [C]//Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe:ACM,2012:1097-1105.

[8] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition [C]//International Conference on Learning Representations.San Diego:IEEE,2015:1150-1210.

[9] ZHANG C,LI H,WANG X,et al.Cross-scene crowd counting via deep convolutional neural networks [C]//Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:833-841.

[10] SINDAGI V A,PATEL V M.Generating high-quality crowd density maps using contextual pyramid CNNs [C]//International Conference on Computer Vision.Venice:IEEE,2017:1879-1888.

[11] LI Y,ZHANG X,CHEN D.CSRNet:dilated convolutional neural networks for understanding the highly congested scenes [C]//Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:1091-1100.

(責任編輯:包震宇)

猜你喜歡
池化空洞像素點
面向神經網絡池化層的靈活高效硬件設計
基于Sobel算子的池化算法設計
卷積神經網絡中的自適應加權池化
基于卷積神經網絡和池化算法的表情識別研究
基于5×5鄰域像素點相關性的劃痕修復算法
基于canvas的前端數據加密
基于逐像素點深度卷積網絡分割模型的上皮和間質組織分割
空洞的眼神
用事實說話勝過空洞的說教——以教育類報道為例
臭氧層空洞也是幫兇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合