?

通道注意力引導的空洞卷積神經網絡圖像去噪

2023-03-11 11:01孫光靈彭欣儀
關鍵詞:空洞殘差卷積

孫光靈,彭欣儀

(1.安徽建筑大學 電子與信息工程學院,安徽 合肥 230601;2.合肥工業大學 智能互聯系統安徽省實驗室,安徽 合肥 230009)

圖像去噪是視覺應用和圖像處理領域中的典型問題,也是研究熱點之一。許多圖像都存在部分細節丟失,圖像質量下降的問題。高效的圖像去噪算法在去除噪聲的同時,保證被處理圖像的結構信息不被改變,從而有助于圖像分類、圖像分割等其他圖像處理任務,進一步運用于遙感、醫療成像、監控等領域。典型的圖像去噪算法所應用的模型y,是由不加噪聲的圖像x和噪聲水平n相加組合而成,去噪的最終目的是從y中推算出潛在的干凈圖像x。從貝葉斯的角度,給定似然的圖像先驗是克服不良去噪問題的關鍵。受這一事實的啟發,ZHA等[1]充分利用稀疏表示的固有去噪特征這一特性,提高去噪性能并降低計算成本。用圖像的稀疏性質對其結構信息進行表示[2],經典的相關算法有K-SVD算法[3]、BM3D算法[4]、OMP算法[5]。由于圖像去噪的實際應用場景不斷增加,去噪任務面臨的現實需求更加復雜多變,但是上述算法功能有限,不能滿足當前圖像去噪的需求。

隨著各類計算機性能和算力的增強,研究人員把深度學習的方法逐漸引入圖像去噪領域。ZHANG等[6]首先提出了一種用于去噪的卷積神經網絡(DnCNN),包括殘差學習(RL)[7]和批處理(BN)[8]以恢復破裂的圖像。深層遞歸殘留網絡(DRRN)[9]利用全局和局部RL技術來增強受過訓練的模型在圖像恢復中的表示能力。ZHANG等[10]提出了一個用于圖像去噪的FFDNET方法,其將噪聲水平與噪聲圖像作為聯合輸入,并訓練一種模型以在不同噪聲水平下處理噪聲圖像。在經典的深度學習算法中,利用卷積神經網絡的圖像去噪模型在性能上獲得了一定提升,但是目前去噪網絡的整體去噪性能仍有很大的提升空間。卷積神經網絡(CNN)的表現力一般情況下會隨著網絡深度的增加而增加,然而簡單疊加的多層卷積層會使訓練變得更加困難,導致過擬合或性能飽和[7,11]。為了解決這個問題并獲得更高的去噪質量,HU等[12]首次提出通道注意來提高圖像分類精度,在CNN情況下不同的特征信道對應不同的頻率分量,利用通道注意可以選擇性地使用信息信道來更有效識別噪聲。盡管上述方法對圖像去噪都有一定的效果,但其中有些方法存在計算成本高、內存消耗大、未能充分利用深層網絡對淺層網絡的影響,以及容易忽視一些復雜背景后的關鍵信息特征等缺點。

針對上述問題,本文在DnCNN基礎上探究了一種通道注意引導的空洞卷積神經網絡(CDNet)以用于圖像去噪。該方法主要優勢如:(1)引用了稀疏塊的理念,減少網絡深度。(2)引入通道注意力機制來調節網絡同一層中特征通道間的重要程度,使網絡更加關注與噪音密切相關的信息通道。所采用的網絡主動適應圖像內容,獲取更多信息特征,從而清晰高質量地恢復圖像。(3)二者結合構成本文的去噪網絡,噪聲最終被處理為殘差圖,在輸出時殘差被丟棄,從而實現去噪功能。

1 DnCNN網絡

DnCNN[6]在VGG基礎上進行改進,是用于圖像去噪的前饋去噪卷積神經網絡,其網絡結構是卷積、批量歸一化(BN)以及ReLU函數的級聯結構。該網絡共有17層,分為三個部分,第一部分為Conv+Re-LU(一層),第二部分為Conv+BN+ReLU(若干層),第三部分為Conv(一層),對于每個卷積層,卷積核的大小為3×3,步長設置為1。網絡結構如圖1所示。

圖1 DnCNN結構

DnCNN 通過殘差學習策略進行訓練,損失函數數學表達式,其中,θ表示網絡參數,N表示訓練樣本數,R(yi;θ)表示殘差輸出,yi為噪聲圖,xi為無噪聲圖像。

2 去噪網絡CDNet

雖然DnCNN去噪效果較好,但其網絡結構單一,且同一層中特征通道間的重要程度平等,不利于特征的提取,且隨著網絡深度的增加,淺層網絡對深層的影響也隨之減弱。本文在DnCNN網絡基礎上結合通道注意力機制及稀疏性質構成了通道注意力引導的空洞卷積神經網絡CDNet 以用于圖像去噪。CDNet利用稀疏性質可以減少網絡深度,對輸入圖像進行充分特征提取,再經過通道注意力機制,根據不同權重以得到更重要的特征信息,從而有助于恢復清晰的圖像并提高去噪性能,其網絡結構如圖2所示。

圖2 CDNet結構

2.1 空洞卷積與稀疏性質

上下文信息對于重建圖像去噪過程中損壞的像素點很重要[12],擴大卷積神經網絡的感受野,是獲取更多上下文信息的經典方法。堆疊后的普通卷積感受野大小rn=rn-1+,其中,rn為本層的感受野大小,kn為本層的核尺寸(實際覆蓋尺寸,空洞卷積需要考慮dilation rate,池化層同理),si為第i層的步長。

空洞卷積不僅可以增加感受野,還能降低數據維度來減少計算量。YU[13]等用多個空洞卷積層來構建了一個網絡,其中每層空洞率都按指數級增長,有效的感受野大小隨層數的增加是指數級增長,而參數量以線性增長。為了提高模型的訓練速度和性能,WANG[14]等結合了空洞卷積和批處理技術,降低了圖像去噪的計算成本。ZHANG 等[15]利用多尺度損失和擴張的卷積來消除偽像對JPEG 壓縮任務的影響。這些方法都驗證了空洞卷積在圖像應用中的有效性。其次,TIAN等[16]提出稀疏性對于圖像應用也是有效的,可以減少去噪網絡的深度,有利于降低計算成本和內存消耗。TIAN等[17]驗證了網絡前12層中Dilated Conv+BN+ReLU和Conv+BN+ReLU錯綜交替可以被視為是稀疏的,其中,BN為批量歸一化處理,ReLU是激活函數,空洞卷積的空洞率為2。這不僅可以提高訓練的降解性能和效率,還能降低模型復雜度,基于此,本文將其作為此網絡的特征提取模塊。在稀疏塊中,Conv+BN+ReLU分別在第1、3、4、6、7、8、10以及11層,Dilated Conv+BN+ReLU分布在第2、5、9和12層??斩淳矸e既能盡可能避免信息損失,保持圖像輸出特征的尺寸大小,又能獲得更多的上下文信息。具體而言,1~12層的卷積濾波器大小為3×3。第1層輸入為噪聲圖像的通道數即1或3,第2~12層的輸入和輸出都為64。特征提取模塊的輸出O1可表示為O1=Function1(IN),。其中IN表示輸入的噪聲圖像,Function1表示特征提取模塊的功能函數。

2.2 通道注意

WOO等[18]提出了一種卷積注意模塊,其將通道注意和空間注意結合起來,用于高級視覺任務。在真實圖像去噪方面,肖娟等[19]通過對加性高斯白噪聲與真實噪聲的灰度直方圖進行分析,用于去除圖像的真實噪聲。注意力機制能使網絡模型自適應地獲取隱藏在復雜圖像背景后的隱藏信息,從而提升模型的表達性能與去噪能力。典型的注意力網絡為Squeeze-Excitation 網絡(SE-Net),其原理如圖3所示。

圖3 Squeeze-Excitation模塊

Squeeze壓縮操作是將輸入的空間特征維度進行壓縮,類似于進行池化操作且被壓縮后特征的通道數不改變,C表示特征的通道數目。該過程的數學表達式為,c=1,2,3,…,C,其中uc代表第c個特征通道。Excitation操作獲取通道之間的依賴關系,通過參數W給每一個特征通道生成權重,再將該權重用于原來的所有通道并學習不同通道的重要程度,因此使用兩個全連接層FC來學習通道之間的依賴關系,最后再通過sigmoid函數對權重進行歸一化(將各通道的權重值限制在0-1,權重和限定為1),其公式為s=Fex(z,W)=σ(W2δ(W1z)),其中,δ和σ分別為ReLU 和Sigmoid 函數,W1表示對特征維度進行降維,W2表示對特征維度進行升維。最終將學習到的各通道激活值乘以原始特征,公式為=Fscale(uc,sc)=sc·uc。

中間殘差塊負責在特征空間中執行去噪任務,一個殘差塊由三個Conv+BN+ReLU、一個Conv、一個通道注意力模塊,以及后面的執行跳躍連接,殘差塊中每個Conv有64個大小為3×3×64的濾波器。該功能計算公式為O2=Function2(O1),其中,O2為殘差塊的輸出,O1為上一層輸出并作為本層輸入,Function2表示該塊的功能函數。最后一個塊為3×3×1大小的單個Conv層,以構建最終的干凈圖像,此功能計算公式為O3=IN-Function3(IN),其中,O3為重構塊的輸出即最終的潛在圖像,IN為輸入的噪聲圖像,Function3表示整個模型所預測出的殘差圖像。

為了訓練CDNet,文中使用L2損失函數。給定一個訓練數據集D={…,(I(i),J(i),…)},其中I(i)和J(i)代表第i張噪聲圖像以及其對應的ground truth 無噪聲圖像。所采用的損失函數表達式為

3 實驗結果與分析

3.1 實驗設置

實驗硬件平臺為NVIDIA RTX 3060,深度學習框架為Pytorch1.8、Cuda11.1 和CuDNN 8.0。訓練數據集來自于BSD數據集的訓練集。通過設置0.9、0.8和0.7的比例因子以對每幅圖像進行下采樣。然后將每個圖像隨機裁剪成180×180大小,并從每幅被裁剪后的圖像中提取40×40的patch,且stride設置為10。在整個實驗過程中,通過零均值隨機初始化以及0.000 5的標準差來初始化所有普通卷積層的權重,并使用Adam優化器來優化模型。

實驗將訓練三個噪聲水平:σ=15、σ=25以及σ=30的模型。最終每個epoch生成了45 563個patch,同時采用峰值信噪比(PSNR/dB)和結構相似性(SSIM)[20]作為最終的數據評價指標來衡量并比較各個模型的去噪性能。PSNR和SSIM越大則去噪性能越好。為了驗證該網絡的去噪性能,與DnCNN[6]、FFDNet[10]、IRCNN[21]幾種常見的網絡模型進行對比,測試數據集則使用公開數據集Set12中常用的7張圖片以及Set68中的10個測試集。

3.2 去噪性能對比

表1~2 給出了各算法在Set12 和Set68 上的PSNR 值和SSIM 值,其中,表1 為各算法在不同水平高斯白噪聲強度下(σ=15、σ=25、σ=30)的PSNR 值。表2 則為各算法在不同水平高斯白噪聲強度下(σ=15、σ=25、σ=30)的SSIM值。由于不同圖像之間的結構存在差異性,因此不同的去噪算法在不同驗證集上的去噪性能也會產生不同程度的差異性。

表1 Set12上不同算法的PSNR值

表2 Set12上不同算法的SSIM值

從表1和2可以看出,該網絡在高斯噪聲水平為σ=25和σ=30情況下,除了σ=30的平均SSIM值稍遜于FFDNet[10],其PSNR值均取得了最好的平均指標,表明此網絡在該水平高斯噪聲情況下的去噪效率整體處于優勢。圖4給出了“Barbara”(σ=25)去噪圖像的視覺效果??梢钥闯鯟DNet可以較好地保持一些邊緣特征,在紋理和邊緣結構上具有一定的長處。

從表3和圖5也可以看出,在數據集Set68上,各種不同噪聲強度情況下CDNet 的SSIM 值均高于其他模型,且都有較強的優勢。同時在中高噪聲的水平下,該網絡的PSNR值也都不遜色于其他對比網絡。

表3 Set68上不同算法的平均PSNR值

圖5 Set68上不同算法的平均SSIM值

4 結束語

該文在DnCNN 的基礎上組合了通道注意力機制和稀疏機制,構建了一種通道注意力引導的去噪卷積神經網絡。注意力模塊使網絡模型自適應地獲取隱藏在復雜圖像背景后的信息,由空洞卷積和普通卷積構成的具有稀疏性的網絡部分可以增加感受野,并減少網絡深度,從而降低數據維度以減少計算量,提高了網絡模型的性能與效率。對比結果表明,該去噪網絡在各類公開數據集上都可以取得很好的效果。接下來,作者將繼續研究注意力機制對卷積神經網絡的自適應性,進一步提高模型對不同類型圖像特征的表征能力,從而更廣泛有效地處理各種去噪問題。

猜你喜歡
空洞殘差卷積
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
空洞的眼神
用事實說話勝過空洞的說教——以教育類報道為例
平穩自相關過程的殘差累積和控制圖
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合