?

基于編解碼機制的水下圖像語義分割*

2023-12-11 12:10王金康何曉暉邵發明盧冠林
艦船電子工程 2023年9期
關鍵詞:空洞語義卷積

王金康 何曉暉 邵發明 盧冠林

(中國人民解放軍陸軍工程大學 南京 210007)

1 引言

隨著水資源的開發利用和深度學習的快速發展,基于深度學習的水下計算機視覺領域被越來越多研究者所關注。圖像分割[1]作為計算機視覺的一個重要研究方向,已經有研究者將其用在水下圖像對目標分類中。但由于水下環境復雜,水介質對光線的散射以及吸收效應,水下圖像質量差,一般會存在色偏,對比度低、噪音以及光照不均的問題。這對水下圖像分割的完整性和準確性提出了很大的挑戰。傳統的語義分割方法面臨以下問題:

1)過深的卷積網絡會降低特征圖分辨率,導致一些關鍵信息丟失;

2)不同尺度目標的存在需要結合全局和局部信息,導致特征提取困難;

3)CNN的空間不變性造成定位精度的下降,目標與背景之間邊界模糊。

近年來,隨著深度學習技術的進步,基于深度學習的圖像語義分割方法大放異彩。Deeplab V3+[2]針對FCN 的不足進行改進,通過圖像金字塔[3]、空洞卷積[4]、空間金字塔池化[5]等技術有效擴大感受野,捕捉圖像上下文信息,從而改善分割結果。但是稠密的網絡結構導致分割速度慢,且Deeplab V3+算法對于小尺寸的目標分割效果不明顯。Segnet[6]采用編解碼機制,通過Uppooling 還原像素的空間位置信息,提高分割分辨率。但其網絡訓練參數過多,計算成本較高。DenseASPP[7]在ASPP的基礎上采用密集連接,覆蓋大范圍的語義信息,對高分辨率圖像有較好的分割效果,但是同時密集連接也導致計算量急速上升。DFANet[8]采用Xception網絡作為主干結構,將高級上下文合并到編碼的功能中,在分割速度和準確度之間取得有效平衡。DANet[9]提出自我關注機制的雙注意力網絡,增強場景分割特征表示的判別能力,顯著改善了分割結果。Auto-APCNet[10]提出自適應上下文模塊,自適應的構建多尺度上下文表示。CANet[11]開發了一種新穎的雙分支密集比較模塊,有效地利用來自CNN的多級特征表示來進行密集的特征比較,同時加入注意力機制融合來自不同支持示例的信息。MagNet[12]提出一個多尺度框架,通過多個放大級別逐步細化分割輸出,進行從粗到細的信息傳播。解決了局部圖像模糊的問題,分割性能大大提高。SETR[13]將語義分割視為序列到序列的預測任務,通過編碼transformer 建模全局上下文信息,提升分割精度。RobustNet[14]提出了一種新的實例選擇性白化損失,將特征表示的高階統計量中編碼的特定于領域的樣式和領域不變的內容分開,并選擇性地只刪除導致領域漂移的樣式信息,以提高不可見區域分割網絡的健壯性?;谏疃葘W習的圖像語義分割技術在魯棒性特征的自主學習和分類過程中,表現出巨大優勢,分割精度和速度較傳統的語義分割技術有極大提升。

本文在上述文獻的基礎上決定先對水下圖像進行圖像增強,再做下一步的語義分割。首先,我們采用密集連接的混合空洞卷積,相比Deeplab 系列算法等單純的用多層空洞卷積而言,能夠覆蓋更大感受野,有效地保持了特征信息的整體性,減少信息丟失。其次,級聯空洞卷積空間金字塔池化模塊對特征圖做細化處理,通過融合不同感受野下的圖像特征來共享多尺度目標信息,這種方法在上述論文中是沒有出現過的。最后,創造性的提出上下文信息聚合網絡,通過將深層網絡與淺層網絡中的特征信息融合,細節信息更加豐富,對邊緣細節的把握更加充分。

2 方法簡介

為了解決水下圖像語義分割過程中遇到的困難,本文提出一種基于編解碼機制的上下文信息融合的水下圖像分割算法,算法流程如圖1所示。首先提出一種基于加權融合的多空間轉換水下圖像增強方法[27]對原始水下圖像進行增強處理,其次通過具有50 個網絡層、濾波器大小為1×1 和3×3、步幅為2 的基礎網絡Resnet50[15]進行特征提取,使用密集連接的方式將提取到的特征圖輸入到HAC塊,通過一系列的連續擴張卷積組合級聯,擴大神經元感受野。HAC塊包含三個3×3空洞卷積,空洞卷積的擴張率分別為1、2、5。然后通過級聯空洞卷積空間金字塔池化模塊兼顧不同尺度的目標區域,豐富目標細節信息和更高層次的圖像語義信息,CASPP 模塊包含2 個1×1 卷積和三個3×3 空洞卷積,空洞率分別為5、9 和13,過濾器數量為256個。以上兩個部分組成編碼器,實現對水下圖像的語義邊緣信息提取和融合。解碼器創造性的采用上下文信息聚合機制,通過雙線性插值將深層網絡與淺層網絡的特征信息融合,并使用3×3 卷積對特征進行微調,更加充分地把握圖像邊緣細節,大幅度減少了圖像特征信息的丟失。最后采用雙線性插值法進行2倍的上采樣,得到最終的圖像分割結果。

圖1 基于編解碼機制的水下圖像分割算法框架

2.1 加權融合的多空間轉換水下圖像增強

針對質量不佳的水下圖像,由于其對比度低、存在色偏、細節模糊,直接進行語義分割效果不好,我們先對水下原始圖像進行增強處理。多空間轉換水下圖像增強算法流程圖如圖2所示。

圖2 加權融合的多空間轉換水下圖像增強算法流程圖

加權融合的多空間轉換水下圖像增強算法流程如下:首先對輸入圖像進行白平衡處理,以消除或減輕輸入圖像的色偏問題。之后,經過白平衡處理的圖像分別進行三個支路的后續處理。第一條支路將圖像從RGB 通道轉化為LAB 通道,并對L通道進行伽馬校正,以調節圖像整體亮度,最后再轉化為RGB 通道。第二條支路對圖像先后進行CLAHE 處理和雙邊濾波處理,去除噪聲的同時提高圖像的清晰度。第三條支路將圖像從RGB 通道轉化為HSV通道,并對V通道進行單尺度retinex處理,保證圖像的色彩飽和度,提高細節處理,最后再轉化為RGB 通道。對三條支路的處理結果進行加權融合,得到圖像的最終增強效果。

2.2 密集連接的混合空洞卷積模塊

Deeplab系列網絡使用多層連續空洞卷積進行特征提取,但在感受野擴大的同時,會造成“gridding issue”,這是因為在使用多層空洞卷積后,會對輸入的采樣變得很稀疏,從而導致一些局部信息丟失,特征圖整體連續性信息被忽視。為了解決這個問題,我們采用不同空洞率的混合空洞卷積,小空洞率用來提取本地信息,大空洞率用來提取長距離信息,這樣既可以獲取更寬闊的區域信息,又能在保持感受野不變的情況下提高信息利用率。如圖3,我們以空洞率為1,2,3 的混合空洞卷積為例,在一開始就保留完整連續的3×3 區域,之后幾層的空洞率設置又剛好保證拼起來感受域的連貫性,雖然有所重疊,但是密不透風,可以有效地保持了特征信息的整體性。它的結構需滿足公式:

圖3 不同空洞率混合空洞卷積的覆蓋效應

其中,ri為第i層的空洞率,Mi為在第i層插入的最大空洞數量,若卷積核大小為k*k,則需要滿足Mr≤k,這樣就可以覆蓋所有空洞。

通過密集連接的方式將空洞卷積塊連接到一起,獲得越來越大的感受野的同時,對多尺度的語義信息做編碼,不同特征圖對來自不同尺度的信息做編碼,最終輸出特征不僅覆蓋大范圍的語義信息,而且以非常密集的方式覆蓋信息編碼。

2.3 級聯空洞卷積空間金字塔池化模塊

對于質量低下的水下圖像,層層卷積下使特征圖分辨率逐漸減小,這對于水下圖像分割來說更加困難,會導致目標細節的缺失和各像素關聯性的弱化。針對這個問題,我們使用空洞率分別為5,9,13 的三個空洞卷積并聯對特征圖做細化處理,同時兼顧不同大小尺度的目標區域,豐富目標細節和更高層次的圖像語義信息。此外,利用級聯融合的方式,將三個并行空洞卷積后的特征圖級聯相加,通過融合不同感受野下的圖像特征來共享多尺度目標信息,不同空洞率卷積相互依賴,將不同感受野下的特征信息進行級聯整合,進一步提高全局像素信息的關聯性和連續性。最后通過維度拼接的方式將得到的5 個特征圖在通道維度上進行融合,獲得包含更多邊緣細節和高級語義的特征圖。級聯空洞卷積空間金字塔池化模塊結構圖如圖4所示。

2.4 上下文信息聚合網絡

圖像在不同網絡深度具有不同特點的特征信息,淺層特征圖尺度大,具有較多的特征信息,利用淺層網絡可以將目標進行簡單的區分,但由于卷積核以及計算資源的限制,網絡只能在小感受野的范圍內提取到具有顏色、紋理等細節信息的圖像局部特征;在深層網絡中,特征圖經過層層卷積和下采樣,分辨率減小,特征圖尺寸降低,感受野也增大,網絡能夠在全局范圍內提取到較為明確的位置、類別等高級語義信息,但由于缺失幾何空間細節信息,在標定目標位置類別時對于邊緣細節信息的準確度不夠。通過將深層網絡與淺層網絡中的特征信息融合,能夠大幅度減少圖像特征信息的丟失,使得圖像在保證位置類別準確的情況下,細節信息更3加豐富,對邊緣細節的把握更加充分。

上下文信息聚合網絡如圖5所示。首先,將級聯空洞空間金字塔池化模塊輸出的特征圖F4 與空洞卷積塊3 提取的特征圖F3 進行逐像素相加操作;然后經過2 倍上采樣增大特征圖分辨率,并空洞率為2 的空洞卷積結合相鄰像素的特征信息,對特征圖的上采樣特征進行細化處理;接著將處理過的該特征圖與空洞卷積塊2 的特征圖F2 進行加和操作,再經空洞卷積細化處理后與特征圖F1進行相加融合,獲取有效的圖像目標空間信息與物體邊緣信息:最后經過2 倍上采樣后得到分割結果。利用自底而上的方式將各路徑特征信息進行聚合,使得深層圖像語義信息逐漸與圖像淺層邊緣線條、形狀位置等細節信息融合,在傳達強定位信息特征的同時傳達強語義信息特征,捕捉清晰的目標邊界信息,細化分割結果,有效提高物體分割的精度。

圖5 上下文信息聚合模塊結構圖

3 實驗分析

3.1 數據庫

為了完成水下圖像語義分割的研究,我們對RUIE[16]和UIEBD[17]兩個開源水下圖像數據集合并以構建一個水下圖像分割數據集。我們對其中的3000 張圖像采用Resize 操作將大分辨率圖像進行像素聚類,對小分辨率圖像進行像素插補,在一定程度上對圖像信息進行提取并按512×512 分辨率重排像素點,以致達到統一像素。按照COCO 數據集的標注格式,通過LabelMe 軟件以手工標注的方式進行標注。我們的標注包括海魚、潛水員、珊瑚、礁石、雕塑、章魚、海龜、水草、Mobula、海膽、扇貝、海星12個類別。

3.2 實驗設置

我們的水下圖像分割方法在PyTorch軟件中進行了實驗。運行平臺為:Windows 10 64 位操作系統、NVIDA GeForce RTX 4000、8 GB DDR3 內存、英特爾酷睿i7-6700U、CPU@4.00 GHz。我們的算法運行在GPU 上。

在訓練參數設置中,我們設置初始學習率為0.01,采用帶動量的隨機梯度下降法(SGD)進行網絡優化。動量參數為0.9,權重衰減正則項為0.00005,批量大小為16。

3.3 評價指標

本章使用OA,IOU 和MIOU 作為綜合評價指標評價網絡的分割效果。

OA代表總體精度,表示分類正確的樣本個數占所有樣本個數的比例,表達式如式(2)所示。

IOU表示每類目標數據分割的預測值與真實值之間的交集和并集之比,表達式如式(3)所示,MIOU即每類目標IOU的平均值,表達式如式(4)所示。

其中,k表示分割類別數量,包括背景的話,則有k+1個類別。

3.4 實驗結果

為了直觀地表現我們提出的算法的有效性,將本文算法與現有最先進的4 種經典分割算法在合成數據集上的對比結果如圖6所示,從左到右分別為原始圖像、強化圖像、Deeplab V3+、DFANet、APCNet、CANet和本文方法的分割效果圖以及真實值。

圖6 水下圖像語義分割的定性比較

水下圖像由于產生色偏現象,導致圖像的對比度降低,從圖6 實驗結果可以看出,我們的方法在色偏現象嚴重的水下圖像分割中效果最好??v向來看,Deeplab V3+在對原始圖像進行語義分割的時候由于對比度下降會漏掉一下圖像信息,不能對每個目標都進行充分的分割,(c)中的礁石和(d)中上側的礁石和魚,(e)中零星的海星和貝殼都沒能分割出來,而且邊緣定位不準確。DFANet較Deeplab V3+稍有改善,但是對于(c)中的章魚分類不正確,而且(d)中的上側礁石和(e)中較小的海星和貝殼未能捕捉到。APCNet對于水下圖像的分割效果稍好,但是已經捕捉到的輪廓分割信息過多,如(a)中潛水員分割邊界出現寧濫勿缺的現象。相比前幾種方法,CANet 分割效果較好但是對于圖片(c)這種對比度很低的圖像不能取得良好的分割效果。與其他算法相比,我們的方法分割對象完整,定位準確,雖然有不同程度的漏檢和邊界不清晰的問題出現,但是我們的方法取得的分割結果與真實值最為接近。橫向來看,對于a、b、d 這類邊界模糊的圖像,我們的方法的分割結果邊界清晰,最接近真實值;對于c、e 這類對比度低的圖像,經過圖像增強后的效果還是顯而易見的,我們的方法對一些容易漏檢的小目標定位準確,而其他方法都存在不同程度的漏檢和誤檢??偟膩碚f,相比其他方法,本文提出的方法在分割完整度、定位精準度、邊界清晰度、細節方面都是最好的,可以對水下圖像不同類別對象進行有效分類,語義分割效果最好。

本節的客觀評價使用3.3小節中提到的圖像質量評價指標對分割精準度進行評價測試,表1 展示了數據集中所有類別目標的平均交并比和整體精準度。黑色加粗表示最優結果。

表1 不同方法的MIOU和OA測試結果對比

我們可以看出,本文方法在大多數類別目標分割中的IOU值是最大的,在所有類別平均交并比和整體精準度是最高的,從客觀數據上分析分割效果是最好的,這與主觀評價基本一致。

表2 展示了我們的方法與其他算法在CUOID數據集上的參數、浮點數和FPS 的比較結果,可以看出我們的方法相對來說參數較少、浮點數小,對計算資源占用小。同時檢測速度相對來說比較快,FPS 達到125。綜合來說,我們的方法在檢測精度和速度方面有良好的平衡。

表2 不同方法計算資源對比

3.5 消融實驗

我們在合成數據集上驗證了我們的方法中每個模塊對算法性能的影響。表3 顯示了在特征提取網絡框架上添加不同模塊的消融實驗結果。從實驗結果來看,每一個模塊的添加都具有一定的效果,圖像語義分割的精準度都有提高,其中圖像增強模塊的添加對水下圖像語義分割效果增強影響最大。添加了4 個模塊的網絡客觀評價指標均達到最高,這表明4 個模塊缺一不可,綜合起來對水下圖像的分割效果最好。

表3 消融實驗結果對比

4 結語

本研究設計了一種編解碼機制的水下圖像語義分割算法。相比于當前流行的語義分割算法,我們聚焦水下圖像,針對水下圖像的特點,基于加權融合的多空間轉換對水下圖像進行增強處理,通過骨干網絡得到邊界特征圖,將混合空洞卷積進行密集連接以在擴大感受野的同時消除“gridding issue”問題,通過級聯空洞卷積空間金字塔池化模塊豐富目標細節信息。采用上下文信息聚合機制將淺層網絡和深層網絡的特征進行融合,大大減少信息丟失。實驗表明,我們的方法對比當前主流語義分割算法,無論是主觀感受還是客觀數據上都是最好的,在分割完整度、定位精準度、邊界清晰度、細節方面遠超其他先進算法,我們提出的方法可以對水下圖像進行有效分割。

本文提出的方法使得分割效果得到改善,但是對區分度不大的目標還是會出現誤判漏判的情況,我們下一步的工作將著重改進這方面問題,并將結合目標檢測,圖像增強,深入剖析算法機理,對水下圖像處理進行系統性的分析和改進。

猜你喜歡
空洞語義卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
語言與語義
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
空洞的眼神
“上”與“下”語義的不對稱性及其認知闡釋
用事實說話勝過空洞的說教——以教育類報道為例
認知范疇模糊與語義模糊
一種基于卷積神經網絡的性別識別方法
臭氧層空洞也是幫兇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合