?

一種基于雙通道的水下圖像增強卷積神經網絡

2023-12-21 09:57王樹林楊建民盧昌宇劉路平
海洋工程 2023年6期
關鍵詞:圖像增強注意力損失

王樹林,楊建民,盧昌宇,劉路平

(1.上海交通大學 海洋工程國家重點實驗室,上海 200240;2.上海交通大學 三亞崖州灣深??萍佳芯吭?,海南 三亞 572024)

深海中的生物種類十分豐富,是人類可持續發展的寶貴資源。隨著陸地上的資源日漸枯竭,合理保護和利用海洋生物資源顯得尤為重要[1],對這些生物的生存環境進行監測是保護他們的重要方式之一。因此,研究能夠進行海洋生物環境監測的水下機器人[2]格外重要。而復雜多變的海洋環境給水下機器人的視覺感知帶來了困難[3]。盡管這類機器人使用了高端相機,但是所拍攝到的海底圖片帶有非線性噪聲,導致圖片呈現藍綠色,結果模糊不清。因此,研究可靠的水下圖像增強技術顯得尤為重要。水下圖像增強方法包含有無水下成像模型的水下圖像增強方法、基于水下成像模型的水下圖像恢復方法、水下成像模型與深度學習相結合的方法以及完全采用深度學習的方法。

無水下成像模型的方法主要分為圖像的空間域處理和變換域處理。水下圖像的空間域處理可以通過改變像素的值和分布等方式改善水下圖像的視覺效果。直方圖均衡及其改進算法[4]就是將圖像進行像素強度上的重新分布,使水下圖像具有更大的動態范圍。雖然某種程度上提高了圖像的對比度和顏色豐富度,但是容易產生顏色失真和偽暈。Ancuti 等[5]通過不同的方法增強圖像的特征,最后通過圖像融合的方法來提高水下圖像的質量,然而沒有考慮水下的成像原理,有一定的局限性。變換域增強算法主要是利用傅里葉變換、小波變換等方法,將水下圖像進行變換,在變換域中抑制噪聲。例如Khan等[6]提出了一種基于小波的融合方法來改善水下模糊圖像的低對比度和顏色變化問題,但是放大了噪聲,出現顏色失真現象。

基于水下成像模型的方法多是借鑒大氣散射模型。常見的方法是:結合已有的先驗知識和成像模型估計通道的衰減系數,然后代入成像模型反求出恢復后的圖像。例如基于單幅圖像的水下深度估計與圖像恢復[7]、水下單幅圖像的透射估計[8]、紅通道先驗[9]和水下光衰減先驗[10]等方法。然而先驗知識有限,所依賴的模型也不是精確的水下成像模型,應用場景有限。后面Akkaynak 和Treibitz[11]試驗研究發現,之前的水下成像模型忽略了一些重要部分,因而提出了修正的水下模型。但是新模型本身較復雜,很少受到關注[12]。

水下成像模型與深度學習相結合的方法是通過深度學習的方法來近似估計水下成像模型中的主要參數。Chen 等[13]通過建立深度學習網絡分別對R、G、B 三通道中的水下成像模型參數進行估計,并在成像模型的基礎上搭建前向傳播網絡,獲得了一定的效果,但是網絡對模型做了簡化,有一定的局限。

近年來,深度卷積神經網絡在圖像領域大放異彩,在很多圖像任務中取得了令人滿意的效果,在水下圖像增強任務中也取得了不錯的效果。Li等[14]收集了一個包含950 張真實世界水下圖像數據集,并提出了一個多輸入單輸出的門控水下增強網絡WaterNet,Liu等[15]提出基于殘差結構的水下增強網絡UResnet,Fabbri等[16]提出了一種生成對抗網絡來改善水下圖像的視覺效果和質量。這些基于深度學習的方法都在網絡結構上有各自的特點,取得了一些水下圖像增強效果。

在深度學習的方法中,數據集的多場景化和大小、網絡結構、損失函數、訓練策略的選擇是優化的主要內容。文中主要在網絡結構以及損失函數方面進行考量,建立了一種基于雙通道的水下圖像增強卷積神經網絡。區別于其他基于深度學習網絡的是,編碼器模塊采用雙通道結構:細節特征提取通道和語義特征提取通道。細節特征提取通道中的密集連接后又引入高效注意力機制,使網絡自適應關注特征的權重。語義特征提取通道采用多尺度結構。網絡引入了殘差注意力模塊和自適應融合模塊,既彌補了網絡在前期傳播過程中原始信息的丟失,又對特征進行了優化。此外,文中將像素損失、感知損失與復頻域損失相結合進行網絡的訓練,取得了良好的效果。試驗表明:此網絡顯著改善了水下圖像質量。

1 模型介紹

這里主要討論基于雙通道的水下圖像增強卷積神經網絡模型的主要結構、損失函數、激活函數等的選取。模型主要結構如圖1 所示:輸入是原始水下圖像,輸出是增強后的圖像。編碼器模塊是雙通道結構:水下圖像細節提取模塊和水下圖像高層語義提取模塊。細節提取模塊分為兩個模塊:密集連接模塊和高效注意力模塊。高層語義提取模塊就是多尺度高層語義提取模塊。然后,引入了殘差注意力模塊和自適應融合模塊優化特征,將優化后的特征送入解碼器進行清晰圖像的重建。解碼器采用卷積激活串聯結構。

圖1 模型主要結構Fig.1 Main structure of the model

1.1 密集連接塊

密集連接是2017 年Huang 等[17]提出的一種全新網絡連接方式。為了最大化網絡中所有卷積模塊和相關層之間的信息流,將所有卷積模塊兩兩之間都進行了連接,使得網絡中的每個模塊都接受其前面所有層的特征作為輸入。由于網絡中存在大量密集的連接,故將這種網絡結構稱為DenseNet。這里提出的結構吸取了其主要思路,各個卷積模塊之間采用密集連接的方式,這樣既實現了前面卷積模塊提取出來特征的復用,而且一定程度上減輕在訓練過程中梯度消失的問題。每一個卷積塊都會提取到圖像的細節特征,這些細節特征在網絡的后向傳播中,由于采用密集連接的方式,并不會被丟棄,而會被不斷地重復利用,使得每一個卷積塊都可以發揮最高效的作用,可以全方面有效提取水下圖像的細節特征。采取的密集連接塊如圖2所示。一共包含4個提取細節特征的卷積塊,每個卷積塊的結構如圖3所示。具體參數如表1所示。

表1 密集連接模塊主要網絡參數Tab.1 Main network parameters of dense connection module

圖2 密集連接塊Fig.2 Dense connection block

圖3 卷積塊結構Fig.3 Convolution block structure

1.2 高效通道注意力機制模塊

注意力機制是深度學習中改善模型提取特征的一種優化方法,其實現形式多種多樣,采用高效通道注意力機制,讓網絡在優化的過程中,自適應地關注密集連接網絡提取的不同特征的權重,從而更好地提取水下圖像的細節特征。采用2020年Wang等[18]提出的高效通道注意力模塊,該模塊避免了降維,有效實現了跨通道交互。具體細節如圖4所示,其中H、W分別為特征的高度和寬度。通過卷積激活操作將密集連接的輸出19通道轉換為64通道,故高效通道注意力模塊的輸入通道也為64。該輸入特征經過全局平均池化,得到每個特征的池化值,然后采用式(1)計算出一維卷積核大小為3。

圖4 高效通道注意力Fig.4 High efficient channel attention

其中,C為輸入的通道數,K為一維卷積核大小,取最近鄰的奇數。

通過該卷積核在1×1×64的特征上滑動,得到具有跨通道特點的新的相同維度特征,然后經過Sigmoid函數σ將特征的大小映射到0到1之間,最后與原始特征進行相乘,得到帶有權重的高效通道注意力特征。所以高效通道注意力機制網絡的輸出為:

其中,Fc為通道注意力前一階段輸出第c通道的特征,Fc(1)表示通道注意力模塊的輸出;AvgPool 為平均池化操作,參數為1;Conv1d為一維卷積,參數為:輸入通道數1,輸出通道數1,核大小為3,沒有偏置參數;σ表示Sigmoid激活函數。

1.3 多尺度高層語義提取塊

解碼器中的第2個通道分支多尺度高層語義提取模塊如圖5所示。

圖5 多尺度高層語義提取塊Fig.5 Multi-scale high-level semantic extraction blocks

原始水下圖像首先經過卷積激活操作得到64個通道的特征圖,然后經過3次下采樣(池化)操作得到不同尺度大小的特征圖,經過下采樣后的特征丟失了大量的細節信息,每個尺度的特征接著經過卷積激活操作進行特征通道數的轉換,既豐富了深度語義信息的提取,又方便了上采樣操作后特征的融合,最后將不同尺度的特征在通道維度拼接,得到帶有高層語義特征的一組特征圖。具體操作細節如表2 所示。圖5 中上采樣1、上采樣2和上采樣3的尺度因子分別為2、4、8。

表2 多尺度語義提取塊網絡參數Tab.2 Multi?scale semantic extraction of block network parameters

1.4 殘差注意力模塊和自適應融合模塊

殘差注意力模塊[19]和自適應融合模塊分別如圖6和圖7所示。網絡前期特征提取的水下圖像特征Fin進入殘差注意力模塊,經過卷積2后,特征數量從64轉換為3,接著與原始水下圖像進行像素上的疊加,彌補了前期網絡在傳播過程中丟失的水下圖像原始信息,輸出y1一方面會流入圖7 所示的自適應融合模塊進行特征的融合,另一方面會流向卷積3 和激活(Sigmoid)得到帶有權重的特征圖,該特征圖和前期提取特征Fin進行疊加,得到優化后的輸出特征圖y2(Fout)。

圖6 殘差注意力模塊Fig.6 Residual attention module

圖7 自適應融合模塊Fig.7 Adaptive fusion module

如圖7所示,細節分支輸出為Od,多尺度語義分支輸出為Os,a(θ)為特征的自適應權重參數,自適應融合輸出為Ods。則輸出Ods表示為:

1.5 激活函數的選取

常見的激活函數主要有修正線性單元(ReLU)、帶參數的修正線性單元(LeakyReLU)和Sigmoid 函數(圖5中的σ),如式(4)~(6)所示。

其中,x代表特征圖上任意點的位置,a是可以學習的參數。采用帶參數的修正線性單元(LeakyReLU),可以避免當x為負數時,梯度為0,相應參數無法被更新的現象發生。注意力機制中權重特征圖的計算采用Sigmoid函數。

1.6 損失函數介紹

一般情況下,輸入一幅圖像經過增強網絡轉換成另一幅圖像,往往以監督訓練的方式,利用的就是圖像像素之間的誤差。高質量的圖像可以通過定義和優化感知損失函數[20]來生成,該損失函數是基于預訓練好的網絡提供的高層次特征。然而上述損失函數特征圖均為實數,難以捕捉圖像復頻域之間的差距。利用圖像的快速傅里葉變換,得到圖像在復頻域中的特征圖,然后定義了兩幅圖像之間的復頻域損失,并結合均方差損失、感知損失來訓練搭建的雙通道水下自編碼器圖像增強網絡。

1)均方差損失:用來計算被增強后的圖像I和清晰的真實圖像I*之間像素層面的均方差。

3)圖像的復頻域損失:用來計算被增強后的圖像I和清晰的真實圖像I*分別經過快速傅里葉變換后所提取的復頻域特征之間的損失。

假設通過網絡后輸出圖像I的快速傅里葉變換后復頻域矩陣為A,真實值圖像I*的快速傅里葉變換后復頻域矩陣為B。令A-B=C,cij表示復頻域矩陣C中的元素。則圖像的復頻域損失定義為:

其中,Lfft表示復頻域損失,0 ≤i,j≤N- 1,且取遍0到N-1之間所有整數,cij*表示cij的共軛復數。

采用的總損失函數為:

其中,λ1、λ2、λ3為平衡參數,主要是為了平衡各個損失之間的數量級大小,加速網絡的收斂。

2 試驗結果與分析

為驗證文中所提出的水下增強網絡算法的有效性,設計并進行了對比試驗。試驗使用PyTorch 深度學習框架搭建網絡模型、數據處理模塊、訓練模塊和測試模塊,所使用的計算機基本配置為Intel i7-CPU、64GB RAM 和NVIDIA GeForce RTX 2060 GPU。深度學習網絡訓練過程中使用的批尺寸為2。開始訓練前,將圖像大小統一到256×256,并對數據進行增強以提高網絡的泛化能力。試驗中的數據集為UIEB 數據集[14],該數據集收集了大量真實水下場景中拍攝到的圖像,一共890 對,選取該數據集挑戰集中60 張留做訓練好的模型的測試集。訓練網絡模型參數過程中訓練集和驗證集的比為7∶3,訓練過程中的網絡損失函數優化如圖8 所示,損失函數值在訓練過程中雖然有小幅度波動,但總體在減少,說明增強圖像正在逐步逼近真實水下圖像,沒有出現梯度爆炸導致損失值突增的現象,網絡結構具有一定的可靠性。

圖8 損失函數值隨訓練次數的變化Fig.8 Change of loss function value with training times

這里從主觀視覺效果、客觀圖像評價指標對文中的水下圖像增強網絡進行效果評價,選取用來對比的算法分別為水下光衰弱先驗ULAP[10],相對全局直方圖延展算法RGHS[21],融合深度學習與成像模型的水下圖像增強網絡算法(ModelCNN)[13],以及完全采用深度學習方法的ShallowUWNet[22]。此外,在訓練數據集UIEB[14]上得到的模型也在EUVP[23]數據集上進行了測試,以驗證文中提出的水下增強網絡的可遷移能力。接著,對網絡的速度做了相應的分析。最后,為了驗證文中提出的基于圖像快速傅里葉變換的復頻域損失和網絡中各個主要模塊的作用,做了相應的消融試驗。

2.1 視覺效果分析

在進行主觀視覺效果分析時,文中方法與上述算法進行對比,對比結果如圖9 所示。選取UIEB 挑戰集中的6 張圖片做對比,第1 列為原始水下圖像,后5 列分別是經過上述算法處理后的結果。從圖9 最后一列可以看出文中的雙通道水下圖像增強網絡對于暗淡的水下圖像具有較好的增強效果,提升了原始圖像的對比度、清晰度的同時,對色偏也進行了一定的校正,改善了視覺效果。第4 行和第5 行雖然與其他圖片有不同的背景噪聲,但是文中算法都有效地去除了。而水下光衰弱先驗ULAP 算法[10]對背景噪聲沒有很好地去除。全局直方圖延展算法RGHS[21]處理過的結果雖然對偏綠色的噪聲有較好的改善,但是出現了顏色失真現象,而且從第4 行和第5 行圖片可以看出該算法沒有很好地去除偏藍色的背景噪聲。融合深度學習和成像模型的算法(ModelCNN)[13]及完全采用深度學習方法的ShallowUWnet算法[22]一定程度上也去除了水下圖像偏藍色的背景,但是在色彩飽和度上還有待提高。

圖9 不同算法在訓練數據測試集上的視覺效果圖Fig.9 Visual renderings of different algorithms on test sets of training data

2.2 客觀指標分析

試驗中采用的評價指標分為有水下圖像真實值參考指標和無水下圖像真實值參考指標。常用的無水下圖像真實值參考指標有:

圖像信息熵(ENTROPY):水下圖像中包含的圖像信息的豐富度,越大越好。

水下圖像顏色質量評價(UCIQE)[24]:水下圖像飽和度、色彩度和對比度的加權求和。值越大,圖像質量越高。

水下圖像質量衡量(UIQM)[25]:水下圖像色彩測量、清晰度測量、對比度測量的加權求和。值越大圖像品質越高。

常用的有水下圖像真實值參考指標有:

圖像峰值信噪比(PSNR):信號的最大功率與噪聲功率的比值,數值越大代表圖像失真越少,有價值的圖像信息越多。

圖像結構相似度(SSIM)[26]:用來衡量兩張圖像相似程度的指標,范圍在0 到1 之間,越接近1 代表兩張圖像結構越相似。

由于圖6 中的圖片是無真實清晰圖像可以對照的,故采取無真實圖像參考指標進行對比。選取測試集中的圖片計算各個算法增強后的平均值,如表3所示??梢钥闯觯簜鹘y的相對全局直方圖延展算法RGHS[21]在UCIQE 指標上排名第一,但是視覺增強效果并不理想,這是因為UCIQE 是色彩、對比度和飽和度3個方面的統計加權求和,即使圖片在某個方面被過度增強,導致色彩偏差,仍然可能取得較高的UCIQE 得分,這點在文獻[14]中有被提及。文中算法的UCIQE 得分在使用深度學習的算法中得分第一。另外,文中算法在ENTROPY 和UIQM 上成績分別為7.654 7 和3.005 6,分別高出第二名0.123 2 和0.097 5。說明了文中算法是有效的。

2.3 算法遷移能力分析

為了驗證文中所提出的算法具有一定的遷移能力和通用性,在非訓練數據集EUVP[23]上選取圖片進行測試和對比分析,選取6張進行效果對比,如圖10所示。

圖10 不同算法在EUVP數據集上測試效果圖Fig.10 Test results of different algorithms in EUVP data sets

視覺效果上,水下光衰弱先驗算法ULAP[10]和相對全局直方圖延展算法RGHS[21]在第3行的海星圖像上都出現了欠增強現象,沒有很好地去除藍色背景噪聲。文中算法很好地去除了該數據集中水下圖像的背景噪聲??陀^指標上,如表4所示,水下光衰弱先驗算法ULAP[10]在UCIQE 指標上排名第一,色彩豐富度最好,但是出現過增強現象。文中算法在基于深度學習的方法中UCIQE 得分第一,數值為0.611 0。另外,文中算法在UIQM、PSNR 和SSIM 指標上得分分別為3.138 6、24.349 9、0.832 3,分別高于排名第二的算法0.096 1、0.487 8 和0.029 2。綜上所述,文中的水下圖像增強網絡在非訓練數據集EUVP[23]上取得了良好的增強效果,具有一定的遷移能力和通用性。

表4 EUVP數據集上不同水下圖像增強算法對比Tab.4 Comparison of different underwater image enhancement algorithms in EUVP data set

2.4 水下目標特征點匹配測試

水下圖像增強是水下圖像預處理的關鍵一步,可以提供高質量的圖像,提高水下機器人的視覺感知能力。圖像特征點匹配是一種基本的視覺感知任務,同時也是水下三維重建、圖像拼接等高級任務的基礎。局部特征更完整的高質量水下圖像會得到更多的匹配點數量。因此,基于GMS 匹配算法[27],選取兩幅具有重合特征的水下魚類場景進行特征點匹配測試,在相同的試驗條件下,比較不同算法的特征點匹配數量,驗證文中算法的實際應用效果。各種算法匹配結果如圖11所示。

圖11 水下魚類場景GMS特征點匹配Fig.11 Underwater fish scene GMS feature point matching

匹配點數量對比如表5 所示。試驗結果表明:文中提出的方法既能夠有效地進行局部特征的提取和匹配,而且匹配的特征點數為305個,在對比的算法中最多,驗證了算法具有較好的實際應用前景,為下一步的水下圖像任務奠定了基礎。

表5 水下魚類場景GMS特征點匹配數對比Tab.5 Comparison of underwater fish scene GMS feature point matching number

2.5 消融試驗

為了驗證文中提出的基于圖像的快速傅里葉變換復頻域損失、網絡中的多尺度語義提取模塊和殘差注意力結合自適應融合模塊的作用,做了消融試驗,評價指標采用UIQM 和UCIQE 評價指標。結果如表6 所示。由表6 可見:同時存在多尺度模塊(模塊1)、復頻域損失(模塊2)、殘差注意力和自適應融合(模塊3)的情況下取得了最高的得分,UIQM 和UCIQE 得分分別為3.138 6 和0.606 0,驗證了各個網絡模塊在提高水下圖像質量上的有效性。

表6 網絡結構消融試驗結果Tab.6 Experimental results of network structure ablation

另外,為了驗證網絡中密集連接和高效注意力模塊的細節提取功能,做了對比試驗,結果如圖12 所示,第1行至第3行分別為原始水下圖像、沒有細節分支時的結果和文中網絡的結果。容易得出,雖然沒有細節分支時,網絡也去除了水下圖像的一些噪聲,但是得到的結果圖邊緣特征模糊,色彩失真嚴重,缺乏水下圖像較好的細節信息,從而驗證了文中網絡中細節分支對水下圖像的細節提取起到了一定的促進作用。

圖12 細節分支測試結果Fig.12 Test results of detailed branches

3 結 語

海底生物資源豐富,合理保護和利用海底生物至關重要,海洋環境監測水下機器人等水下監測設備在進行海洋生物監測保護時,需要安裝水下相機提供近程視野信息,然而水下相機拍攝到的光學圖像偏藍綠色調,暗淡模糊。文中針對該問題提出了一種基于雙通道的水下圖像增強卷積神經網絡,設計了編碼器中的細節特征提取模塊和多尺度語義特征提取模塊,提出了復頻域損失函數。為了彌補網絡前期傳輸過程中原始信息的丟失,同時優化特征,融入了殘差注意力模塊和自適應融合模塊。消融試驗表明了各個模塊對于提高水下圖像質量均有一定的改善。另外,文中算法不僅在訓練數據集UIEB 中取得了較好的增強效果,而且在非訓練數據集EUVP中表現良好,具有一定的可遷移能力與算法通用性,對于海洋環境監測水下機器人的視覺感知有重要意義。

猜你喜歡
圖像增強注意力損失
讓注意力“飛”回來
圖像增強技術在超跨聲葉柵紋影試驗中的應用
胖胖損失了多少元
水下視覺SLAM圖像增強研究
虛擬內窺鏡圖像增強膝關節鏡手術導航系統
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于圖像增強的無人機偵察圖像去霧方法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
一般自由碰撞的最大動能損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合