?

一種“客觀度量”和“深度學習”共同驅動的立體匹配方法

2018-01-20 18:33董惠心任鵬余興瑞王廷偉
現代電子技術 2018年1期
關鍵詞:特征融合立體匹配深度學習

董惠心+任鵬+余興瑞+王廷偉

摘 要: 提出一種基于“客觀度量”和“深度學習”共同驅動的立體匹配方法,互補“度量”和“學習”特征,提升立體匹配視差圖的精度。將基于灰度差絕對和(SAD)與灰度梯度差絕對和(GRAD)兩類算子的客觀計算特征和基于數據驅動的深度學習特征進行加權融合,構建匹配代價模型;采用引導濾波器對匹配代價進行聚合;通過勝者全贏算法得到初始視差圖;最后,運用左右一致性校驗和加權中值濾波器優化視差圖,去除誤匹配點,得到最優視差圖。在Middlebury立體匹配評估平臺上的測試實驗表明,所提算法能有效降低視差圖平均絕對誤差和均方根誤差。

關鍵詞: 立體匹配; 深度學習; 特征融合; 引導濾波器; 勝者全贏算法; 視差圖

中圖分類號: TN911.73?34 文獻標識碼: A 文章編號: 1004?373X(2018)01?0062?05

Abstract: A novel stereo matching approach based on objective measurement and deep learning is proposed to complement the features of measurement and learning, and improve the accuracy of stereo matching parallax map. The weight fusion is performed for the objective computing feature based on the sum of absolute intensity differences (SAD) and sum of grayscale gradient absolute differences (GRAD), and the deep learning feature based on data driver to construct the matching cost model. The guiding filter is used to aggregate the matching costs. The initial parallax map is obtained by means of the winner?take?all (WTA) algorithm. The left?right consistency check and weighted median filter are adopted to optimize the parallax map, remove the mismatching points, and get the optimal parallax map. The stereo matching approach was tested on Middlebury stereo matching evaluation platform. The experimental results demonstrate that the proposed approach can reduce the average absolute error and root?mean?square error of the parallax map greatly.

Keywords: stereo matching; deep learning; feature fusion; guiding filter; WTA algorithm; parallax map

0 引 言

立體匹配旨在通過二維圖像信息重構出三維場景,是計算機視覺研究領域的關鍵課題之一。立體匹配已被廣泛應用在機器人視覺、無人車自主導航、航空航天探測、三維表面建模、三維目標識別等領域[1?2]。立體匹配算法[2]通常按4個步驟進行:匹配代價計算、匹配代價聚合、初始視差計算、視差圖后續優化處理。文獻[3]將立體匹配算法劃分為局部匹配算法和全局匹配算法。常用的全局匹配算法有圖割法[4]、置信傳播法[5]、動態規劃法[6]等。全局匹配算法匹配精度高,但計算復雜,實時性差。局部匹配算法也稱基于窗口的立體匹配算法,其側重點在于匹配代價計算和匹配代價聚合。局部匹配算法計算復雜度低,運行速度快,但匹配精度不及全局匹配算法。因此,提升局部匹配算法的精度是目前立體匹配研究中的重要課題。

局部匹配算法中的差異度量函數(或相似性度量函數)決定著匹配代價計算的準確性,因此匹配精度在很大程度上依賴于差異度量函數(或相似性度量函數)的特性。常用的差異度量函數有灰度差平方和(the Sum of Squared Intensity Differences,SSD)[7]、灰度差絕對和(Sum of Absolute Intensity Differences,SAD)[8?9]等。SAD計算簡單高效,易于硬件實現,但該算法是基于像素灰度值的差異度量,因而對攝像機自身偏差或光強度變化引起的圖像對失真較為敏感。文獻[10]提出的基于梯度的差異度量受圖像對失真影響較小,魯棒性好,但此度量函數僅考慮了梯度的幅值信息,幅值信息容易受輸入圖像對增益失真的影響,進而造成匹配誤差。文獻[11]將卷積神經網絡應用于立體匹配算法中,用于匹配代價計算。卷積神經網絡(Convolutional Neural Network,CNN)是一種端到端的網絡結構,能夠充分利用輸入圖像的二維結構及其統計特性來提取圖像特征,但是僅由卷積神經網絡輸出作為相似性度量函數來計算匹配代價,不能準確得出稠密視差圖,該方法在處理低紋理和遮擋區域存在一定誤差。

為克服上述差異度量函數(或相似性度量函數)中出現的問題,并且進一步提高匹配代價計算準確性,本文提出一種基于“客觀度量”和“深度學習”共同驅動的立體匹配方法。首先,將SAD和灰度梯度差絕對和(Gradient Absolute Difference,GRAD)兩類客觀計算特征和基于數據驅動深度學習的相似度特征進行加權融合,構建匹配代價模型;然后,采用引導濾波器[12]對匹配代價進行聚合;最后,用勝者全贏(Winner?Take?All, WTA)算法求出初始視差,通過左右一致性校驗和加權中值濾波方法處理得到最優視差圖。endprint

1 基于“客觀度量”和“深度學習”共同驅動的立

體匹配方法

1.1 基于客觀度量的匹配代價

SAD是局部匹配方法中常用的一種差異度量函數,因其運算簡單高效而被廣泛運用于匹配代價的計算中。SAD匹配代價的公式如下:

[CSADp,d=i,j∈NpI1i,j-I2i+d,j] (1)

式中:[I1]和[I2]分別表示左右圖像灰度信息;[Np]表示以像素點[p]為中心的窗口。

在圖像對匹配過程中,存在一些深度不同,但灰度相近的區域。SAD無法區分上述區域,會造成視差誤匹配?;谔荻鹊牟町惗攘磕茉谝欢ǔ潭壬峡朔@類問題,GRAD匹配代價公式如下:

[CGRADp,d=i,j∈Nxp?xI1i,j-?xI2i+d,j+i,j∈Nyp?yI1i,j-?yI2i+d,j] (2)

式中[?x]和[?y]分別為水平和垂直方向梯度算子。

基于客觀度量的匹配代價計算往往運用特定的算子(例如差算子、梯度算子等)進行左右視圖的特征提取,用于求取規則客觀的局部特征。然而,特定算子遵循確定的計算模式獲得的局部特征,忽略了視圖景象的全局布局。同時,特定算子對所有數據進行無差別操作,對數據多樣性特點適應性不足,在場景與環境條件變化時魯棒性差。

1.2 基于深度學習的匹配代價

CNN在多層神經網絡的基礎上發展而來,包含卷積層、全連接層、池化層,此結構使得卷積神經網絡能夠充分利用輸入數據的二維結構。本文匹配代價的計算參考Siamese網絡結構,通過訓練出的卷積神經網絡判斷已知真實視差值的圖像對之間的匹配程度[11],并以此得到相似性度量函數來計算匹配代價,過程如圖1所示。

卷積神經網絡通過局部感受野來提取圖像初級特征信息,對局部特征信息綜合進而得到全局特征信息。圖1中的Siamese網絡結構輸入分別為參考圖像和匹配圖像上選取的[n×n]大小的圖像塊,經過若干以修正線性單元(Rectified Linear Units,ReLU)為激活函數的卷積層提取出復雜性特征,并對得到的結果進行綜合,再經過若干以修正線性單元(ReLU)為激活函數的全連接層,最后經過由全連接層和Sigmoid激活函數構成的輸出層得到輸出結果。

基于圖1中網絡的輸出來計算圖像對之間的匹配代價,公式如下:

[CCNNp,d=-s()] (3)

式中[s()]表示輸入圖像塊[PL(p)]和[PR(pd)]之間的相似性度量函數。

基于深度卷積神經網絡的匹配代價計算方法能夠充分利用輸入圖像的全部信息,不需要考慮傳統局部匹配算法中支持窗口選取等問題,對于數據的適應性強。但是,深度模型完全依賴數據驅動,忽視了獨立于數據的客觀度量,容易由數據異常值造成計算偏差。

1.3 基于“度量”和“學習”特征融合的匹配代價

針對“客觀度量”和“深度學習”在匹配代價計算中的各自特點和不足,將兩類方法互補,得到特征加權融合的匹配代價,計算公式如下:

[Cp,d=α1?minCSADp,d,τ1+ α2?minCGRADp,d,τ2+ α3? CCNNp,d ] (4)

式中:[α1,][α2,][α3]是能夠平衡式中三項關系的平衡參數,[α1+α2+α3=1;][τ1]和[τ2]為對應顏色和梯度的截斷值;[CSAD]和[CGRAD]是客觀度量特征,用以彌補[CCNN]中數據異常值造成的代價偏差;[CCNN]是深度學習特征,用于增強[CSAD]和[CGRAD]客觀度量對于多樣數據和環境條件的適應性。兩類特征互為補充,得到魯棒性強的特征融合匹配代價。

1.4 基于引導濾波的匹配代價聚合

為了能夠使得到的初始視差圖包含更多的邊緣信息,從而得到稠密視差圖,本文使用引導濾波方法對匹配代價進行聚合[13],定義如下:

[Cp,d=q∈NpWp,q?Cq,d] (5)

式中[Wp,q]為濾波器權重,定義引導濾波器權重為:

[Wp,qI=1ω2k: p,q∈ωk1+Ip-μkIq-μkσ2k+ε] (6)

式中:[μk]和[σ2k]是[I]以[k]為中心,[2r+1×2r+1]維窗口[ωk]中的平均值和協方差矩陣;[ω]是窗口[ωk]中像素的數量;[ε]為平滑參數。

引導濾波器具有保持圖像邊緣,平滑噪聲的特點,能夠有效克服圖像邊緣梯度反轉現象,在引導濾波器作用下,可以使得輸出圖像包含豐富的邊緣信息,提高初始視差計算的準確性。

1.5 初始視差計算及后續處理

匹配代價聚合后,利用勝者全贏(WTA)算法在視差范圍內選取匹配代價聚合后最優的點,得出初始視差圖,公式如下:

[d*=argmind∈DCp,d] (7)

式中:[D]表示視差搜索范圍[dmin,…,dmax]。

通過左右一致性校驗和加權中值濾波方法對初始視差圖進行優化。左右一致性校驗是以左右兩幅輸入圖像為基準,分別得到左右兩幅視差圖,對于左圖中的任意一點[p,]求得的視差值為[d1,][p]點在右圖中的對應點為[p+d1],求得視差為[d2]。由于[d1]和[d2]為一組對應視差值,因而應該有[d1=d2,]然而在圖像像素點匹配過程中,某些弱紋理區域圖像信噪比低,得到的視差圖出現誤匹配點,因此使用下式得到去除誤匹配點的視差圖[14]:

[Dp=d1+d22,0, d1-d2≤1其他] (8)

誤匹配點去除后,得到存在孤立點的不完整視差圖,通過加權中值濾波方法可以填充視差圖上不完整的像素點,有效改善弱紋理區域和遮擋區域的誤匹配。加權中值濾波器權重為:

[Wbfp,q=1Kpexp-p-q2σ2sexp-Ip-Iq2σ2c] (9)

式中:[Kp]為歸一化系數;[σs]和[σc]是能夠控制空間域和值域的權重因子,防止衰減程度過大或過小。

綜上所述,本文所提算法流程圖如圖2所示。

2 實驗結果和分析

本文使用Middlebury版本3[15]提供的圖像,對本文算法性能進行測試。以訓練數據集圖像的非遮擋區域平均絕對誤差(avgErr)和均方根誤差(rms)作為度量標準進行比較。分別以Costfilter[13]、MC?CNN?art[11]、 CNNcost、本文算法作為對比。其中,CNNcost算法利用文獻[11]中卷積神經網絡輸出的相似性度量函數為匹配代價計算模型,其他步驟與本文算法一致。實驗結果如下:

圖3表示Costfilter、MC?CNN?art、CNNcost以及本文算法分別在不同度量標準(非遮擋區域的平均絕對誤差(avgErr)和均方根誤差(rms))下的平均權重(Avg)對比圖。在同一度量標準下平均權重(Avg)越小,說明算法性能越好。從圖3中可以看出本文算法的平均權重(Avg)在兩種不同度量標準下均比Costfilter算法小,說明本文算法處理非遮擋區域的平均絕對誤差(avgErr)和均方根誤差(rms)優于Costfilter算法。

圖4,圖5分別表示Costfilter、MC?CNN?art、CNNcost以及本文算法在非遮擋區域平均絕對誤差(avgErr)和均方根誤差(rms)對比圖,圖中以訓練集15幅圖結果為例。對于同一幅圖像,不同算法處理得到的平均絕對誤差(avgErr)和均方根誤差(rms)越小,說明算法匹配精度越高。

圖6,圖7分別表示Costfilter算法與本文算法在非遮擋區域平均絕對誤差(avgErr)和均方根誤差(rms)對比圖。從圖中標識出的紅框區域可以看出,本文算法在處理邊緣和噪聲方面優于Costfilter算法。

3 結 語

本文提出的基于“客觀度量”和“深度學習”共同驅動的立體匹配方法,通過融合“度量特征”和“學習特征”,構建魯棒性高的新的匹配代價模型。利用Middlebury立體匹配評估平臺對本文算法進行測試,實驗結果表明本文算法在平均絕對誤差和均方根誤差方面均小于Costfilter等前沿的立體匹配算法,進而驗證了通過特征融合計算匹配代價的有效性。

參考文獻

[1] ZITNICK C L, KANG S B. Stereo for image?based rendering using image over?segmentation [J]. International journal of computer vision, 2007, 75(1): 49?65.

[2] 孫文健,肖渤濤,駱春波,等.一種基于PandaBoard的運動物體檢測系統設計[J].現代電子技術,2015,38(2):104?107.

SUN Wenjian, XIAO Botao, LUO Chunbo. Design of a moving object detection system based on PandaBoard [J]. Modern electronics technique, 2015, 38(2): 104?107.

[3] SCHARSTEIN D, SZELISKI R. A taxonomy and evaluation of dense two?frame stereo correspondence algorithms [J]. International journal of computer vision, 2002, 47(1/3): 7?42.

[4] BOYKOV Y, VEKSLER O, ZABIH R. Fast approximate energy minimization via graph cuts [J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(11): 1222?1239.

[5] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient belief propagation for early vision [J]. International journal of computer vision, 2006, 70(1): 41?54.

[6] FORSTMANN S, KANOU Y, OHYA J, et al. Real?time stereo by using dynamic programming [C]// Proceedings of 2004 Conference on Computer Vision and Pattern Recognition Workshop. Washington DC: IEEE, 2004: 29.

[7] KLAUS A, SORMANN M, KARNER K. Segment?based stereo matching using belief propagation and a self?adapting dissimilarity measure [C]// Proceedings of the 18th International Conference on Pattern Recognition. Hongkong, China: IEEE, 2006: 15?18.endprint

[8] KANADE T, KANO H, KIMURA S, et al. Development of a video?rate stereo machine [C]// Proceedings of 1995 IEEE/RSJ International Conference on Intelligent Robots and Systems. Pittsburgh: IEEE, 1995: 3095?4100.

[9] 何人杰.雙目立體視覺區域局部匹配算法的改進及其實現[J].現代電子技術,2009,32(12):68?70.

HE Renjie. Improvement of regional related match algorithm for binocular stereo vision and its implementation [J]. Modern electronics technique, 2009, 32(12): 68?70.

[10] SCHARSTEIN D. Matching images by comparing their gradient fields [C]// Proceedings of 1994 the 12th IAPR International Conference on Pattern Recognition. Jerusalem: IEEE, 1994: 572?575.

[11] ZBONTAR J, LECUN Y. Stereo matching by training a convolutional neural network to compare image patches [J]. Journal of machine learning research, 2016, 17: 1?32.

[12] HE K, SUN J, TANG X. Guided image filtering [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(6): 1397?1409.

[13] HOSNI A, RHEMANN C, BLEYER M, et al. Fast cost?volume filtering for visual correspondence and beyond [J]. IEEE tran?sactions on pattern analysis and machine intelligence, 2013, 35(2): 504?511.

[14] 張浩峰,趙春霞.一種利用動態規劃和左右一致性的立體匹配算法[J].中國圖象圖形學報,2008(4):756?760.

ZHANG Haofeng, ZHAO Chunxia. A stereo matching algorithm using dynamic programming and left?right consistency [J]. Journal of image and graphics, 2008(4): 756?760.

[15] SCHARSTEIN D, SZELISKI R. The Middlebury stereo vision page [EB/OL]. [2014?10?23]. http://vision.middlebury.edu/stereo/eval3/,2014.endprint

猜你喜歡
特征融合立體匹配深度學習
影像立體匹配中的凸優化理論研究
基于移動端的樹木葉片識別方法的研究
基于互補不變特征的傾斜影像高精度立體匹配
基于SIFT特征的港口內艦船檢測方法
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現
改進導向濾波器立體匹配算法
一種基于圖像分割的立體匹配算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合