?

輪廓檢測深度學習模型中解碼網絡融合方法

2021-11-20 22:05文澤奇,林川,喬亞坤
廣西科技大學學報 2021年4期
關鍵詞:卷積神經網絡

文澤奇,林川,喬亞坤

摘? 要: 輪廓檢測旨在提取目標邊界,是高級計算機視覺任務中獲取圖像基礎信息的重要步驟.基于輪廓檢測的卷積神經網絡(convolutional neural networks,CNNs)模型分為編碼網絡和解碼網絡兩個部分,關注點集中在采用不同的卷積方式進行解碼或是采用逐級融合進行解碼,忽略了對編碼網絡每一層信息的充分利用.針對這一問題,本文提出一種自底向上強化融合的輪廓檢測模型:充分利用編碼網絡中的每一層信息,由低分辨率特征圖至高分辨率特征圖自底向上逐層融合;以不同空洞率的卷積搭建強化模塊,進一步增強對特征信息的提取.從結果上看,本文所提模型既節省了計算機內部存儲空間,同時在目前主流的數據集BSDS500上也取得優異成績? (F-score = 0.819).

關鍵詞:輪廓檢測;卷積神經網絡;自底向上融合;空洞卷積

中圖分類號:TP391.41? ? ? ? DOI:10.16375/j.cnki.cn45-1395/t.2021.04.007

0? ? 引言

輪廓檢測的目的是為給定圖像的每一個像素分配一個標記,即輪廓或非輪廓像素,它被認為是計算機視覺中的基本任務,并且在諸如語義分割[1-2]、目標識別[3-4]等其他更高級別的任務中起重要作用.輪廓檢測一直是一項極其困難的計算機視覺任務,對于復雜場景下的目標圖像,尤其是紋理繁雜、對比度低以及含有大量噪聲干擾的圖像,很難獲取理想效果,因此,如何合理設計輪廓檢測模型以提取準確的輪廓信息仍然是計算機視覺及圖像處理領域熱門的研究方向.

早期輪廓檢測方法通過求像素值的局部梯度變化來確定邊緣位置,如Sobel[5]、LOG算子[6]等,這些檢測方法計算速度快,但輪廓信息中包含大量無關內容.Canny[7]在此基礎上添加高斯濾波作為預處理,消除噪聲影響,并通過雙閾值判定候選輪廓像素點,以形成閉合完成輪廓,在性能方面有顯著的提升.目前,研究者們主要從兩方面進行目標輪廓提取的研究,一種是非學習的方法,主要是利用生物視覺系統對繁雜場景快速鎖定目標輪廓的特點,模擬生物視覺組織的特性進行輪廓檢測.如Grigorescu等[8]提出的以12個方向的Gabor能量函數模擬初級視皮層的經典感受野模型;桑農等[9]提出的蝶形非經典感受野模型;趙浩鈞等[10]根據初級視皮層V1區細胞對顏色、亮度等信息具有拮抗機制及方位敏感性的特性提出的基于顏色拮抗機制的輪廓檢測模型等.另外一種是機器學習方法,是把輪廓檢測任務看作一個像素級的二分類任務,利用圖像的局部或全局特征對每一個像素點進行分類,如Martin等[11]提出的Pb算法,利用圖像局部區域的亮度、顏色及紋理特征進行像素分類;Arbeláez等[12]提出gPb算法,即在Pb算法的基礎上,通過圖像全局的特征信息對像素點進行二分類;Dollár等[13]提出的Boosted邊緣檢測算法,通過構建一個概率式的樹分類器來進行像素點分類.

研究發現,卷積神經網絡(convolutional neural networks,CNNs)在輪廓檢測任務上表現出更加優異的性能.CNNs模型分為編碼、解碼兩個部分,編碼通常采用公開學習框架進行遷移學習,解碼則采用不同的融合方式,以提取更多的特征信息[14].Xie等[15]使用論壇開源學習框架VGG-Net[16]進行遷移學習,解碼網絡采用多通道拼接的方式將主網絡不同尺度的輪廓信息進行結合,得到最終的輪廓.Liu等[17]在HED的基礎上,將編碼網絡中所有卷積層的信息按不同階段進行對應通道相加,舍棄第4個下采樣層,采用空洞卷積替代采樣層作用;他們首次在深度學習輪廓檢測模型中提出多尺度概念,提出的RCF模型在性能上有了很大的提升.Wang等[18]提出的CED模型則是利用亞像素卷積代替雙線性鄰近插值,并且改變解碼網絡融合方式,采用逐級融合的方式替代傳統的拼接方法,CED對脆弱輪廓邊緣的檢測有著較好的效果.Lin等[19]認為拓寬CNNs解碼網絡可以提取更豐富的特征,以獲取更多紋理繁雜處的輪廓信息,因此,他們提取LRC模型,通過鄰近卷積層相連接的方式逐級提取特征信息,以獲得更好的性能.

本文受CED模型啟發,提出自底向上融合的解碼網絡BTU-Net.與CED不同,BTU網絡采用雙線性鄰近插值進行上采樣,并結合編碼網絡全部卷積層特征,構建雙級網絡進行融合,有效地利用了編碼網絡中的每一層信息.此外,本文提出基于空洞卷積設計的強化融合模塊,在融合過程中有效地保護了細膩的特征信息,從而不被上采樣操作破壞.

1? ? 模型設計

本文基于VGG-Net設計了一種自底向上強化融合輪廓檢測模型,其中VGG16網絡在對象識別任務中有著出色的表現,結合網絡參數進行遷移學習時,在不同的計算機視覺任務中都取得了優異的成績.VGG16共有13個卷積層和3個全連接層,其中16層網絡中間包含5個下采樣層,根據下采樣層的位置,將VGG16網絡分為5個階段.輪廓檢測是一個二分類任務,不需要全連接層進行多分類,因此,本文刪除了3個全連接層和最后1個下采樣層.如圖1所示,VGG16共分為5個階段,從每個階段中抽取2個卷積層的結果,然后分為2組,依次對這2組結果進行自底向上的特征融合.此外,考慮到高分辨率圖像轉換為低分辨率圖像造成的特征信息冗余問題,使用空洞卷積構建強化融合模塊,通過將卷積核的空洞率設置為1、2、4,依次對高分辨率特征圖與低分辨率特征圖融合之后的結果進行卷積,并通過自適應學習的方式將3種不同空洞率卷積之后的結果按照不同的權重進行累加,以通過梯度下降算法獲取更多的輪廓特征,抑制更多的紋理細節.

1.1? ?自底向上融合

圖像中,目標輪廓所處位置不同,檢測的難易程度也不一樣,對于背景與輪廓特征信息相近的區域,輪廓不易被表現出來,此時需要結合全局信息來判斷該位置是否具有輪廓,然后利用周圍特征信息對不易檢測的像素點進行信息補充.卷積神經網絡通過采樣層,將特征圖分辨率降低.低分辨率特征圖具有較強的全局特征信息,采用自底向上的融合方式,利用全局特征信息對高分辨率特征圖中的局部信息進行調制,可以有效地抑制輪廓處的背景紋理,并補充被紋理覆蓋的輪廓斷點.

VNF-Net編碼網絡將圖像原始分辨率依次縮小5個等級,在解碼網絡中,不同分辨率特征圖逐步向上進行融合,通過上采樣的方式將低分辨率特征圖放大,以匹配高分辨率特征圖.與CED模型[18]不同,本文采用雙線性鄰近插值方法進行上采樣.對于分類任務而言,亞像素卷積和雙線性鄰近插值上采樣方法對最終結果的影響并不明顯,并且雙線性鄰近插值上采樣更加節省內存和運算時間.基于性能和效率的權衡,最終采用雙線性鄰近插值作為上采樣方法.

VGG16網絡的13個卷積層分為5個階段,根據Res-Net模型[20]中提到的,不同分辨率下的特征圖所含信息不同,同一分辨率中相鄰卷積層功能也不一樣,進而提取的內容也不同.因此,從編碼網絡每個階段選擇2個卷積層的結果,這樣共有10個輸出,然后將10個輸出按分辨率不同進行分組,如圖1所示,conv1_1、conv2_1、conv3_1、conv4_1和conv5_1作為一組,conv1_2、conv2_2、conv3_3、conv4_3和conv5_3作為一組,共2組.對2組卷積層結果同時進行自底向上融合,得到2個和原始圖像分辨率一樣的側輸出;對這2個側輸出分別求損失函數并進行反向傳播算法;最后將2個側邊輸出進行融合作為BTU-Net輪廓預測圖.

1.2? ?強化融合模塊

強化融合模塊如圖2(a)所示,下層卷積結果首先通過上采樣與上層卷積結果進行尺度匹配,然后分別使用空洞率為2和3的卷積核進行卷積.上層卷積結果則使用空洞率為1的通用卷積核進行維度匹配,使之與下層卷積結果的特征通道數相同,然后共同傳入加法層進行處理.如圖2(b)所示,空洞卷積在標準卷積的基礎上,根據不同的空洞率對卷積核注入空洞,以此來增加感受野.在圖像上中心像素點的值與周圍近距離像素點的值相差無異,影響它的是周圍較遠處的像素值.另外,空洞卷積在不增加模型數據的前提下,有效地拓寬了卷積核的感受野,使中心像素點與周圍像素點更好地進行相互作用.利用這一規律,本文采用雙空洞卷積層構建強化融合模塊,通過分析中心像素點與周圍像素點之間的關系,判斷待處理像素點屬于哪一類別(輪廓或背景).不同空洞率下的卷積核感受野大小不一樣,對周圍信息的利用率也不一樣,較小的空洞率可以有效保護信息的完整性,而較大的空洞率則更有利于周圍像素點對中心像素點產生更好的相互影響(促進或抑制).

1.3? ?多尺度策略

在VNF-Net中,樣本訓練采用單尺度圖像進行,樣本測試則采用單尺度和多尺度結合的方式進行,以進一步提高邊緣檢測的準確率.具體來說,調整圖像大小以構建圖像金字塔,并將同一圖像的不同尺度輸入單尺度檢測器中,然后利用雙線性鄰近插值將所有尺度得到的輪廓預測圖調整為原始圖像尺寸.最后,將這些圖進行平均得到最終的預測結果.對不同尺度的圖像進行加權求平均,但是效果均不佳.考慮性能和效率之間的權衡,本文使用0.5、1.0、2.0 這3個尺度.通過BSDS和PASCAL數據集的測試,BTU-Net在多尺度策略下F值(ODS)從0.810提升到了0.819.

2? ? 實驗結果與分析

2.1? ?實施細節

采用論壇公開VGG16網絡的預訓練模型進行遷移學習,其他層使用均值0和方差0.02的高斯隨機分布進行初始化.內在超參數初始學習率、衰減權重和動量分別設置為[1×10?3]、[2×10?4]和0.90.對于自底向上的卷積層內核參數設置為512,之后逐層依次減半,直至頂層64.

BTU-Net模型在3個國際通用數據集上分別進行了2組實驗:首先聯合使用BSDS500數據集和PASCAL數據集作為訓練集,以BSDS500中的200幅圖像作為測試集進行實驗;其次,單獨對室內復雜場景數據集NYUD-v2進行訓練,并以其數據集中的654幅圖像進行測試.基于通用F-measure性能評測體系對BTU-Net模型的性能進行定性與定量分析(設置容差參數Distmax=0.007 5),F-measure具體計算如下:

[F=2PRP+R]? ? ? ? ? ? ? ? ? ? ? ? ? (1)

[P=NTPNTP+NFP]? ? ? ? ? ? ? ? ? ? ? ?(2)

[R=NTPNTP+NFN]? ? ? ? ? ? ? ? ? ? ? ? (3)

其中:[P]表示精確率(Precision),[R]代表召回率(Recall),[F]則是[P]與[R]二者的調和平均,[NTP]表示圖像中屬于輪廓像素點被正確檢測出的個數,[NFP]表示誤將背景像素點檢測為輪廓像素點的個數,[NFN]表示屬于輪廓像素點但漏檢的個數.通常,以? ?3個標準來判斷輪廓檢測模型的性能指標:ODS(整個數據集取最優閾值)、OIS(每幅圖像取最優閾值)和AP(平均精確率),三者統稱為F-measure.

2.2? ?實驗結果

BSDS500是輪廓檢測中廣泛使用的數據集,由200個訓練圖像、200個測試圖像和100個驗證圖像組成,其利用訓練和驗證集進行微調,并利用測試集進行評估.本文將BSDS500增強后的數據集與PASCAL(VOC)數據集混合訓練.評估時,利用標準非極大值抑制(NMS)進行輪廓細化,并且將BTU-Net與Canny算法及先進的深度學習算法進行比較.表1是最近比較熱門的深度學習輪廓檢測模型及本文模型(BTU)的各項得分,其中本文模型檢測結果相較最新方法(LRC-Net(2020年)結構)在多尺度和單尺度圖像測試下,ODS值分別提高0.99%和0.37%.另外,CED模型與本文模型相比,盡管同樣使用了自底向上方法融合,但本文模型性能更佳.由此說明,本文設計的強化融合模塊在上采樣過程有效地保護了圖像的細節.

為了進行定性實驗,本文從BSDS500測試集中隨機選取了4幅檢測效果圖進行對比,如圖3所示,其中第1行為自然圖像,第2行為真實輪廓圖(Ground Truth),第3行至第6行分別為HED、CED、LRC及本文模型(BTU),在每幅圖像的右下角標注了得分情況(F-score).從圖3中可以看出,與其他算法相比,本文模型(BTU)有效地保護了紋理繁雜處的細節信息,突出了重要的特征信息,對輪廓部分保護完整,極少出現輪廓斷裂現象.

NYUD-v2數據集由1 449個密集標記的成對RGB圖像和對應的深度圖組成,共分為381個訓練圖像和414個驗證圖像以及654個測試圖像.數據集的深度信息用HHA表示,HHA被編碼為3個通道:水平視差、據地高度及重力角,類似地將HHA功能視為彩色圖像.與BSDS500數據集不同,NYUD-v2中RGB圖像和HHA特征圖像分別進行訓練,每組訓練40次,8次循環作為一個周期,學習率以[10%]速度下降,測試時,將RGB模型和HHA模型的輸出進行平均并定義為最終邊緣預測.在評估過程中,將定位公差[Distmax]從0.007 5增加到0.011 0,其余參數同BSDS數據集一致,結果如? 表2所示.BTU網絡秉承了在BSDS500數據集上的特性,對室內場景的輪廓提取也有較好的效果,相比于最新方法LRC(2020年)有所提升.

BTU在NYUD-v2數據集評測圖像如圖4所示,第1行是原圖像,第2行是原圖像的深度信息,? ?第3行是真實輪廓圖,第4、5行分別是BTU網絡在NYUD-v2數據集中的單尺度和多尺度檢測結果.NYUD-v2數據集圖像內容復雜,且數據集容量較少,因此,很難達到其他數據集一樣的性能.與最近幾年的輪廓檢測深度學習模型對比,BTU模型在NYUD-v2數據集中多尺度F值(ODS=0.764)要優于其他模型,其檢測性能有著不錯的提升.

3? ? 結論

針對輪廓檢測深度學習模型,本文設計的自底向上強化融合網絡具有良好的性能,可以應對復雜的輪廓檢測任務,更高效地為高級視覺任務服務.文中提出的BTU模型主要有以下2個優點:1)通過不同空洞率的強化融合模塊,對紋理繁雜處的輪廓信息具有優異的檢測效果;2)利用雙級自底向上的解碼方式,有效利用編碼網絡中更多的特征信? ?息,對輪廓的保護更加有效,減少了輪廓斷點現象.與近幾年的優秀算法比較,BTU模型在? ? ? ? BSDS500&PASCAL數據集上取得了ODS=0.819的好成績,通過與CED模型對比,更能體現出BTU-Net模型中強化融合模塊的效果.一直以來,研究者們主要關注不同的融合方式所得到的結果,卻忽略了對編碼網絡中特征信息的保護以及不斷的上采樣或倍數過大的上采樣導致的紋理信息丟失等問題.BTU模型以此為出發點,針對這2個問題進行了分析和解決,并取得一定的效果.本文也僅是利用了編碼網絡中更多卷積層的特征,而VGG16學習框架具有13個卷積層和2萬多個卷積核,對應2萬多個特征圖,如何盡可能挖掘每一幅特征圖的信息并采用有效的方法進行融合,抑制背景紋理,保護輪廓信息是未來的研究方向.

參考文獻

[1] 劉丹,劉學軍,王美珍.一種多尺度CNN的圖像語義分割算法[J].遙感信息,2017,32(1):57-64.

[2] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2015:3431-3440.

[3] FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al. Object detection with discriminatively trained part-based models[J].IEEE Transactions on? ? ? Pattern Analysis and Machine Intelligence,2010,32(9): 1627-1645.

[4] 劉亞,艾海舟,徐光佑. 一種基于背景模型的運動目標檢測與跟蹤算法[J].信息與控制,2002(4):315-319.

[5] DUDA R O,HART P E.Pattern classification and scene analysis[M].New York:John Wiley & Sons,1973.

[6] MARR D C,HILDRETH E C.Theory of edge detection[J].Proceedings of the Royal Society of London.Series B,Biological Sciences,1980,207(1167):187-217.

[7] CANNY J. A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986(6):679-698.

[8] GRIGORESCU C,PETKOV N,WESTENBERG M A.Contour detection based on nonclassical receptive field inhibition[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2003,12(7):729-739.

[9] 桑農,唐奇伶,張天序.基于初級視皮層抑制的輪廓檢測方法[J].紅外與毫米波學報,2007,26(1):47-51.

[10] 趙浩鈞,林川,陳海杰,等.基于顏色拮抗和紋理抑制的輪廓檢測模型[J].廣西科技大學學報,2018,29(4):6-12.

[11] MARTIN D R,FOWLKES C C,MALIK J.Learning to detect natural image boundaries using local brightness,color,and texture cues[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(5):530-549.

[12] ARBEL?EZ P,MAIRE M,FOWLKES C,et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine? ? ?Intelligence,2011,33(5):898-916.

[13] DOLL?R P,ZITNICK C L. Fast edge detection using structured forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1558-1570.

[14] 林川,曹以雋.基于深度學習的輪廓檢測算法:綜述[J].廣西科技大學學報,2019,30(2):1-12.

[15] XIE S N,TU Z W. Holistically-nested edge detection[J].International Journal of Computer Vision,2017,125(1-3):3-18.

[16] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//? ?International Conference on Representation Learning,2014.

[17]? ?LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,IEEE,2017:5872-5881.

[18] WANG Y P,ZHAO X,HUANG K Q. Deep crisp boundaries[C]//IEEE Conference on Computer Vision and Pattern Recognition.Honolulu,USA:IEEE,2017:1724-1732.DOI:10.1109/CVPR.2017.187.

[19] LIN C,CUI L H,LI F Z,et al.Lateral refinement network for contour detection[J].Neurocomputing,2020, 409:361-371.

[20] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:770-778.

[21] SHEN W,WANG X G,WANG Y,et al. Deepcontour:a deep convolutional feature learned by positive-sharing loss for contour detection[C]//Conference on Computer Vision and Pattern Recognition,Boston,USA.IEEE,2015:3982-3991.

[22]? ?MANINIS K-K,PONT-TUSET J,ARBEL?EZ P,et al.Convolutional oriented boundaries[C]//European Conference on Computer Vision. Switzerland:Springer,2016:580-596.

The decoding network fusion method in deep learning of

contour detection

WEN Zeqi, LIN Chuan*, QIAO Yakun

(School of Electric, Electronic and Computer Science, Guangxi University of Science and Technology,

Liuzhou 545006, China)

Abstract: Contour detection aims to extract the boundary of the target, which is an important step in? obtaining basic image information in high-level computer vision task. In recent years, with the? ? ? ? ? ? development of deep learning technology, the application of Convolutional Neural Networks (CNNs) to contour detection tasks has become a research hotspot. The CNNs model based on contour detection is divided into two parts: the coding network and the decoding network. The former usually uses a mature deep learning framework, while the latter is a research hotspot for scholars in related fields.? However, their focus is usually on adopting different convolution methods for decoding or using gradual fusion for decoding, thus ignoring the full use of the information of each layer of the coding network. Aiming

猜你喜歡
卷積神經網絡
基于深度神經網絡的微表情識別
卷積神經網絡中減少訓練樣本時間方法研究
卷積神經網絡語言模型研究
基于卷積神經網絡的車輛檢索方法研究
基于卷積神經網絡溫室智能大棚監控系統的研究
基于深度卷積神經網絡的物體識別算法
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
深度學習技術下的中文微博情感的分析與研究
基于卷積神經網絡的樹葉識別的算法的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合