?

基于深度卷積網絡與空洞卷積融合的人群計數

2019-12-13 08:26盛馨心蘇穎汪洋

上海師范大學學報·自然科學版 2019年5期

關鍵詞：池化空洞像素點

盛馨心蘇穎汪洋

摘要：利用空洞卷積設置不同空洞率，得到不同感受野的特點，提出一種基于深度卷積Visual Geometry Group19（VGG19）和空洞卷積相融合的結構.所采用的結構不受輸入圖像尺寸以及分辨率影響，通過設置鋸齒狀空洞率，擴大網絡的感受野，在保持分辨率良好的情況下，可以較為精確地定位目標，提高檢測準確性.經驗證，該算法在Shanghai-tech標準數據集上具有較高的實驗準確率.

關鍵詞：人群計數; Visual Geometry Group19（VGG19）; 空洞卷積; Shanghai-tech數據集

中圖分類號： TN 919.8 ?文獻標志碼： A ?文章編號： 1000-5137（2019）05-0479-06

Abstract： A combined structure based on Visual Geometry Group19（VGG19） and dilated convolution with different receptive field was proposed for high density crowd counting in the paper.The structure adopted would not be affected by the size and resolution of the input image.By setting the serration dilation rate，the network receptive field was expanded，and the target could be accurately localized without any loss of resolution，which improved the accuracy of detection.Finally，the experimental results showed that the algorithm had higher accuracy on the standard data set of Shanghai-tech.

Key words： crowd counting; Visual Geometry Group19（VGG19）; dilated convolution; Shanghai-tech data set

0 引言

人群計數是一種視覺認知任務，目的在于準確估計擁擠場景中的人數，通過對目標區域的人群數量進行分析，能夠對許多社會安全問題起到一定的預警作用，從而實現資源的合理分配和調度.因此，人群計數問題已經成為計算機視覺領域的重要課題[1].然而人群在場景中的分布是多種多樣的，人群之間的遮擋、光照不均等各種干擾因素使人群計數問題仍然具有挑戰性.

由于卷積神經網絡（CNN）在各種視覺任務上取得的成功，許多針對人群計數的多尺度CNN架構[2-3]性能取得了顯著的提升，這些方法通常采用多列卷積網絡估計靜止圖像中的人群數目.多列網絡通常采用兩列或三列對圖像特征進行提取，并通過不同卷積核獲得不同大小的感受野，解決尺度變化等問題.受圖像分割的啟發，空洞卷積[4]能夠在不影響分辨率的情況下擴大感受野，讓每個卷積的輸出包含較大范圍的信息，彌補池化操作過程中信息的損失;而全卷積神經網絡[5]沒有全連接層，全部采用卷積層對圖像進行特征提取，因此輸入圖像的大小可以是任意的，同時可以大大減少參數量.鑒于空洞卷積和全卷積網絡的特點，本文作者采用全卷積的網絡架構，以空洞卷積代替深度卷積網絡的全連接層，不僅可以擴大圖像的感受野，還能減少網絡的參數量，提高了實驗的準確率和數據集的訓練速度.

2 基于深度卷積和空洞卷積融合的網絡架構

2.1 空洞率分析

2.1.1 不同空洞率分析

傳統的CNN對圖像進行卷積操作之后再進行池化操作，在降低圖像尺寸的同時增大感受野，但是池化層在降維的過程中會丟失一些重要信息，對提取圖像特征有一定的影響.通過圖像分割[4]實驗可知，空洞卷積既能增大感受野又不丟失圖像信息，如圖1所示.

圖1（a）對應空洞率為1的卷積.圖1（b）對應空洞率為2的卷積，雖然實際的卷積核尺寸仍是3×3 pixels，但是相比于普通卷積，其感受野較大.如果前一層是空洞率為1的卷積，那么空洞率為2的卷積中每個像素點是前一層卷積的輸出，單個像素點的感受野為3×3 pixels，因此2層卷積的感受野為7×7 pixels.圖1（c）對應空洞率為3的卷積，與圖1（b）同理，其感受野為13×13 pixels.

實施步長為1的普通3×3 pixels卷積操作，三層之后，感受野才能達到7×7 pixels，而進行空洞卷積，兩層操作之后，感受野就能達到7×7 pixels.在不進行池化操作的情況下，空洞卷積操作能較快增大感受野，讓每個卷積輸出都包含較大范圍的信息.

疊加卷積的空洞率不同且最大公約數為1的結構稱之為鋸齒狀結構，符合條件的空洞率稱之為鋸齒狀空洞率.

2.1.2 相同空洞率分析

空洞率相同的空洞卷積的計算方式類似于棋盤格式，某一層得到的卷積結果，來自上一層獨立的集合，沒有相互依賴關系，因此該層的卷積結果之間沒有相關性，導致局部信息丟失.相同空洞率的情況下，空洞卷積操作的棋盤問題如圖2所示.

圖2（a）對應原始卷積，感受野為5×5 pixels;圖2（b）對應卷積核一次疊加后的卷積，每個像素點為原始卷積的輸出，所以單個像素點的感受野為5×5 pixels，疊加后的感受野為9×9 pixels;圖2（c）與圖2（b）同理，最終得到的感受野為13×13 pixels.

[5] LONG J，SHELHAMER E，DARRELL T.Fully convolutional networks for semantic segmentation [J].IEEE Transactions on Pattern Analysis & Machine Intelligence，2014，39（4）：640-651.

[6] ZHANG Y，ZHOU D，CHEN S，et al.Single-image crowd counting via multi-column convolutional neural network [C]//Computer Vision & Pattern Recognition.Las Vegas：IEEE，2016：589-597.

[7] KRIZHEVSKY A，SUTSKEVER I，HINTON G.ImageNet classification with deep convolutional neural networks [C]//Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe：ACM，2012：1097-1105.

[8] SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition [C]//International Conference on Learning Representations.San Diego：IEEE，2015：1150-1210.

[9] ZHANG C，LI H，WANG X，et al.Cross-scene crowd counting via deep convolutional neural networks [C]//Conference on Computer Vision and Pattern Recognition.Boston：IEEE，2015：833-841.

[10] SINDAGI V A，PATEL V M.Generating high-quality crowd density maps using contextual pyramid CNNs [C]//International Conference on Computer Vision.Venice：IEEE，2017：1879-1888.

[11] LI Y，ZHANG X，CHEN D.CSRNet：dilated convolutional neural networks for understanding the highly congested scenes [C]//Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：1091-1100.

（責任編輯：包震宇）

猜你喜歡

池化空洞像素點

面向神經網絡池化層的靈活高效硬件設計

計算機工程與應用(2023年22期)2023-11-27

基于Sobel算子的池化算法設計

科學技術與工程(2023年3期)2023-03-15

卷積神經網絡中的自適應加權池化

軟件導刊(2022年3期)2022-03-25

基于卷積神經網絡和池化算法的表情識別研究

計算機技術與發展(2019年1期)2019-01-21

基于5×5鄰域像素點相關性的劃痕修復算法

上海大學學報（自然科學版）(2018年5期)2018-11-02

基于canvas的前端數據加密

電腦知識與技術(2018年35期)2018-02-27

基于逐像素點深度卷積網絡分割模型的上皮和間質組織分割

自動化學報(2017年11期)2017-04-04

空洞的眼神

故事作文·高年級(2017年2期)2017-03-01

用事實說話勝過空洞的說教——以教育類報道為例

新聞傳播(2015年20期)2015-07-18

臭氧層空洞也是幫兇

世界科學(2013年11期)2013-03-11

上海師范大學學報·自然科學版2019年5期

上海師范大學學報·自然科學版的其它文章: 4種觀賞苔蘚植物適應不同水體環境的生理分析; 利用分子標記輔助選育香軟型保持系“SH101B”、不育系“SH101A”及配組分析; 菠菜乙醇酸氧化酶基因家族的鑒定及表達分析; 不同栽培方式對生菜生長和營養品質的影響; 利用CRISPR/Cas9技術快速創制香型“秀水134”水稻; 菠菜水培技術研究進展與展望

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合