?

基于無監督深度學習的圖像拼接實驗設計與實現

2024-04-18 03:49孫彥景王興興張曉光
實驗室研究與探索 2024年1期
關鍵詞:景深攝像頭卷積

孫彥景, 王興興, 云 霄, 張曉光, 周 玉

(中國礦業大學信息與控制工程學院,江蘇徐州 221116)

0 引 言

隨著智慧城市建設的深入和數字化改造的推進,視頻監控涉及的領域越來越廣泛[1]。在對大型空間進行監控或攝像頭與目標物體距離過近時,僅采用單一攝像頭難以獲取寬視野的圖像,一般解決方法是采用多個攝像頭分別監控獨立顯示,這種方法獲取的視頻不直觀,視角之間聯系不大,難以滿足醫學圖像處理和虛擬現實等應用場景對高分辨率寬視野圖像的要求。利用圖像拼接技術將多攝像頭拍攝的多張具有重疊區域的圖像轉化為一張具有寬視野的圖像。另外,圖像拼接技術在汽車導航、軍事領域等方面都有著廣泛的應用,其相關的研究層出不窮。目前圖像處理實驗類型單一且主要介紹傳統方法,致使學生掌握的方法與現實脫節,理論與實踐能力不符。有必要在實驗環節加入圖像拼接相關內容,將教學內容與實際場景相結合,增強學生對課程的整體理解,提高學生的工程實踐能力。

不同攝像頭獲取的圖像視角具有隨機性,造成圖像之間存在不同程度的視差,圖像拼接方法應具有處理視差圖像的能力。傳統圖像拼接方法基于手工特征實現。此類方法的拼接效果嚴重依賴特征點的質量與數量,在圖像視差較大以及人工設計的特征提取算法質量不佳時難以獲得質量良好的拼接圖像。近幾年基于深度學習方法在圖像處理領域取得了較好的效果[2-4]。相比于傳統方法,深度學習模型自動學習數據的特征,其多層次結構可從原始數據學習抽象和復雜的特征,在處理圖像、音頻和文本方面表現出色。無監督學習是深度學習的分支,近幾年在單應性估計[5]、目標檢測[6]、語義分割[7]等任務中嶄露頭角。無監督學習不需要對數據進行標記,可節省大量的人力、物力,并且相對于監督學習有限的標簽,能學習到更豐富和更通用的特征。圖像拼接方法逐漸從傳統方法向無監督深度學習方法過渡?,F有的教學也應與時俱進,在教學實踐中加入新興技術,引導學生從傳統方法向主流技術過渡。

目前圖像拼接相關研究主要是針對雙攝像頭拍攝的圖像[8-9],雙攝像頭拍攝范圍有限,難以完全包含感興趣的區域。相較于雙攝像頭,多攝像頭不受攝像頭數量限制,包含的區域更廣,且實際場景中一般為多攝像頭。因此,有必要進行多攝像頭圖像拼接相關的研究。本文基于景深-彩色圖像融合及無監督深度學習,設計了一種多圖深度拼接網絡(Deep Multi Image Stitching Network,DMISNet)。將景深圖像與彩色圖像融合后增加了圖像的結構形狀信息,有效解決了大視差圖像拼接中偽影、模糊等問題。在校園場景和工業場景下對多視角圖像進行拼接,驗證了算法的魯棒性。該案例可用于圖像拼接相關的研究和教學,并具有一定的擴展性,學生可在本方法的基礎上做出改進。

1 單應性變換原理

單應性變換是將一個平面內的點映射到另一個平面內的二維投射變換[10]。如圖1(a)所示,紅點為兩幅圖像中的對應點,圖中顯示了4 種不同顏色的對應點。利用單應性矩陣能將一幅圖像中的點映射到另一幅圖像的對應點。

圖1 單應性變換前后圖像

單應性矩陣

該矩陣有9 個未知數,只有8 個自由度。一般在求解時令h22=1,則只需4 組不共線的點對便可求得單應性矩陣。

以圖1(a)中的紅色對應點為例,對應點之間的單應性變換

式(2)適用于圖像中所有對應的點集,換言之,可將單應性矩陣應用于整張圖像。將單應性矩陣作用于圖1(a)左圖使之與右圖對齊,結果如圖1(b)。實際應用中可將圖像分為多個網格,分別對每個網格求取單應性矩陣,獲得精細對齊的圖像[11]。

2 無監督圖像拼接

無監督圖像拼接網絡總體結構如圖2 示,包括無監督單應性變換和無監督圖像重建兩個級聯模塊。通過單一單應性變換粗略對齊輸入圖像,與現有的拼接方法不同,本文將景深圖與彩色圖像融合作為輸入,提取圖像的多模態特征,以獲得更好的拼接效果。圖像重建分為低分辨率分支和高分辨率分支。對圖像進行下采樣,通過通道注意力模塊獲得各通道權重后再進行結構拼接。在高分辨率變形分支中,因隨著分辨率的提高感受野相對變小,本文采用擴張卷積代替普通卷積,增大圖像的感受野。

圖2 無監督圖像拼接網絡結構

2.1 無監督單應性變換

同一物體在不同視角拍攝的影像中可能會出現較大范圍的變形,導致后續影像拼接效果不理想或無法拼接。為解決這些問題,設計了一種基于景深-彩色圖像融合的單應變換網絡。將景深圖與彩色圖像融合后作為輸入,獲得具有圖像結構形狀的特征。圖3 所示為單應性變換總體結構,將參考圖像、目標圖像以及對應的景深圖作為輸入,針對參考圖像的重疊區域,對目標圖像變形處理,使參考圖像和目標圖像的重疊區域處于同一視角。

圖3 無監督單應性變換網絡結構

多模態融合策略有直接融合,張量融合網絡(Tensor Fusion Network,TFN)[12]等。如圖4(a)所示,直接融合是直接在特征維度將不同模態的特征進行拼接后送入后續的推理模塊。TFN融合策略不僅考慮了各模態之間的特征融合,且有效地利用了各特定模態的特征。首先對每個模態進行維度擴充,然后對不同模態求笛卡爾積。如圖4(b)所示。維度擴充后,既計算了兩個模態間的特征相關性,又保留了特定模態的信息。為得到最好的效果,對兩種融合策略分別進行測試,采用文獻[13]中提出的重疊區域的峰值信噪比(Peak Signal-to-noise Ratio,PSNR)和結構相似性指數(Structure Similarity,SSIM)評估模型在UDIS 數據集的配準性能,對比結果見表1、2,根據實驗結果選擇TFN融合作為融合方式。

表1 不同融合方式PSNR對比

表2 不同融合方式SSIM對比

圖4 不同融合方式對比

用一個共享權值的特征提取網絡對融合后的圖像提取特征,特征提取網絡包含4 個模塊,每個模塊包含2 個卷積層和1 個池化層,獲得圖像的多層次特征。特征提取之后,通過全局相關層計算圖像之間的相似度

用一個由3 個卷積層和2 個全連接層組成的回歸網絡來處理相關性,并預測與單應性一一對應的偏移量f。直接線性變換(Direct Linear Transform,DLT)可通過一組匹配特征點獲得單應性變換。本文采用DLT將不同視角的圖像轉換為同一視角。經過前置網絡后得到兩幅圖像的特征匹配,將兩個點集分別標記為X和X′,利用單應變換擬合它們之間的關系:

式中:[xy1]T為特征點在X′中的坐標;[uv1]T為特征點在X中的坐標;H為目標圖像到參考圖像的單應性變換。

空間轉換層(Spatial Transformer Layer,STL)[14]利用單應性模型保證梯度反向傳播的條件下進行空間轉換。在框架中STL代替了圖像融合模塊,將單應性變換轉換為結構拼接結果。

2.2 無監督圖像重建

由于圖像中存在不同的平面,僅采用單一單應性對齊可能會出現重影、模糊等現象。為突破單應性的限制,采用圖像重建網絡來對圖像進行細對齊,網絡結構如圖5 所示。

圖5 無監督圖像重建網絡結構

感受野隨著分辨率的增加相對變小,只在高分辨率重建圖像會導致拼接效果不佳。為保證網絡能完全感知差異區域,特別是在高分辨率和大視差的情況下,本文設計了一個低分辨率分支先學習圖像拼接的變形規律。如圖5 上半部分所示,將扭曲的圖像下采樣到低分辨率(256 ×256)。通過通道注意力的經典模型壓縮和激勵網絡(Squeeze-and-Excitation Networks,SENet)[15]得到各通道權重。SENet 分為壓縮和激勵兩個部分,輸入特征經壓縮操作,將跨空間維度H×W的特征映射進行聚合,生成通道描述符。將全局空間信息壓縮到上述通道描述符中,輸入層便可利用這些通道描述符。每個通道通過一個基于通道依賴的自選門機制來學習特定樣本的激活,使用全局信息有選擇地增強有效特征,抑制無效特征。將獲得通道權重的特征輸入卷積層和反卷積層分支學習圖像的變形規律,生成結構化拼接結果。

經低分辨率分支后得到初步拼接結果,此時圖像仍然存在亮度不一致和模糊問題。為解決這一問題,本文設計了優化網絡來提高圖像的分辨率。將上一步的拼接結果上采樣后與高分辨率圖像相結合作為該分支的輸入,如圖5 下半部分所示。該分支全部由卷積層組成,可以處理任意分辨率的圖像。具體來說,它由兩個卷積層和8 個殘差塊組成。為防止低級信息隨網絡層數的加深逐漸丟失,在第1 層的特征中加入倒數第2 層的特征。隨著網絡層數的增加,感受野相對減小。擴張卷積也被稱為空洞卷積,如圖6 所示,擴張卷積在標準卷積核中加入間隔,在不犧牲特征圖尺寸的情況下使卷積核的尺寸變大。卷積核尺寸變大,感受野也就自然變大。所以殘差塊的第1 個卷積使用擴張卷積,之后是激活層、卷積層、相加層和激活層。將低分辨率的輸出與第1 階段的輸出合并作為高分辨率的輸入,輸出高分辨率的拼接圖像。

圖6 普通卷積與擴張卷積感受野對比

3 實驗流程與結果分析

3.1 實驗流程

實驗分為訓練和測試兩個部分,整體流程如圖7 所示,首先對訓練集訓練得到模型參數,其次進行測試得到輸出圖像。

圖7 實驗流程

本文使用2 種數據集進行實驗,第1 種是針對雙攝像頭圖像的UDIS[13]真實數據集,含有多種場景的圖像對。第2 種是包含多攝像頭圖像的真實數據集(自己拍攝的),主要包含校園場景和礦下場景。采用文獻[16]中預訓練模型獲得對應的深度圖像。為提高學生對實驗的興趣,訓練和測試的數據集可由學生自己拍攝。構建數據集首先要確保數據集中的圖像之間包含重疊區域,其次要獲得與彩色圖像對應的景深圖。拼接框架基于Tensorflow 實現,訓練和測試均在單個NVIDIA RTX2080 ti上運行。

3.2 性能分析

由于數據集缺乏真值,本文采用重疊區域的PSNR和SSIM 評估算法的性能。將DMISNet 與傳統拼接方法SIFT +RANSAC、有監督拼接方法DHN和無監督拼接方法UDISNet[13]在UDIS 數據集進行比較。DHN采用公開預訓練模型測試,UDISNet 和DMISNet訓練批次大小均設為4,采用Adam 優化器,初始學習率設為10-4,訓練100 個epoch(見表3、4)。為驗證DMISNet在拼接效果上的優越性,將它與SIFT +RANSAC和UDISNet在不同場景下的拼接結果圖進行對比,如圖8 所示。為使結果更容易對比觀察,將拼接效果不同的區域用紅框框出。

表3 UDIS數據集上重疊部分PSNR對比

表4 UDIS數據集上重疊部分SSIM對比

圖8 不同方法的拼接效果對比

通過分析表3、4 與圖8 可知,DMISNet 相對于傳統方法SIFT +RANSAC 和現有的無監督深度學習方法UDISNet具有一定的優越性。與參考網絡UDISNet相比,DMISNet在視差大的場景下拼接效果更好,這也驗證了景深圖與RGB圖像融合優化了單應性估計,改善了拼接效果。

3.3 多攝像頭圖像拼接

為驗證模型的泛化性和多攝像頭圖像拼接的效果,直接用預訓練模型拼接自制數據集中的圖像,該數據集中的場景與訓練集中的場景均不一致。圖9 顯示了拼接的效果??梢?,在具有視差的場景下DMISNet具有多攝像頭圖像拼接的能力,直接使用預訓練模型進行拼接能取得不錯的拼接效果,拼接效果表明,本方法具有一定的泛化性。

圖9 多攝像頭圖像拼接結果

4 結 語

本文設計了一種基于景深-彩色圖像融合的無監督深度學習圖像拼接方法,將景深圖與彩色圖像融合后作為輸入,通過無監督單應性變換和無監督圖像重建獲得寬視野圖像。在低紋理、低光照、大視差場景下獲得了較好的拼接效果,有效避免了重影及割裂現象,在多攝像頭圖像拼接中也取得了不錯的效果。本案例具有一定的延伸性,學生可基于本方法做出改進,有利于培養學生的實踐能力,切實增強學生對新技術的理解。

猜你喜歡
景深攝像頭卷積
浙江首試公路非現場執法新型攝像頭
攝像頭連接器可提供360°視角圖像
一種結合物理模型和景深估算的圖像去霧算法
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于太赫茲技術的新一代攝像頭及其在安防領域的應用探討
基于傅里葉域卷積表示的目標跟蹤算法
奔馳360°攝像頭系統介紹
一種基于卷積神經網絡的性別識別方法
簡明FOTO詞典:景深
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合