?

改進可逆縮放網絡的圖像超分辨率重建

2023-10-14 02:54莫太平黃巧人陳德鴻伍錫如張向文
電子科技大學學報 2023年5期
關鍵詞:插值分辨率卷積

莫太平,黃巧人,陳德鴻,伍錫如,張向文

(桂林電子科技大學電子工程與自動化學院 廣西 桂林 541000)

尺寸小的低分辨率(low resolution, LR)圖像恢復成大尺寸或原尺寸的高分辨率(high resolution,HR)圖像的過程叫圖像超分辨率(super-resolution,SR)重建,可以在有限的硬件設備條件下提高圖像品質恢復和復原的效果,該技術目前已成功應用在醫療診斷、紅外遙感、虹膜識別和安防監控等領域。

近些年,卷積神經網絡(convolution neural network, CNN)受到廣泛的研究與應用,并在姿態估計、目標檢測和圖像增強等計算機視覺任務中獲得了優異的效果,被不斷嘗試應用于新的視覺任務中。SRCNN[1]首次被用于圖像超分辨率重建就獲得了比傳統算法更好的重建效果。在此基礎上,文獻[2]提出快速超分辨率卷積神經網絡,去除輸入圖像預處理步驟,采用反卷積進行上采樣操作,加快了模型的訓練速度。

隨著研究人員的深入探索,卷積神經網絡的層數不斷增加以提升圖像重建質量。受ResNet[3]殘差思想的啟發,文獻[4]提出更深層的超分辨率網絡(very deep convolutional networks, VDSR),利用殘差結構加深網絡層數,通過自適應梯度裁剪策略來加快模型訓練的收斂速度,同時解決梯度爆炸問題,獲得了優于SRCNN 算法的圖像質量評價。文獻[5]整合殘差塊和密集塊,提出殘差密集網絡(residual dense network, RDN),充分提取了特征信息。文獻[6]提出超分辨率生成對抗網絡(superresolution generative adversarial network, SRGAN),使用16 個殘差塊串聯組成生成網絡,利用VGG19[7]提出的感知損失優化函數提升了恢復圖像的真實感。文獻[8]提出增強深度殘差網絡(enhanced deep residual networks, EDSR),和SRGAN 相比去除了ResNet 上不必要的模塊,如批量歸一化層(batch normalization, BN)。EDSR 采 用L1Loss 函數,提高了圖像超分辨率效果。文獻[9]在SRGAN上也做了去除生成器中BN 的處理,同時加入高效通道注意力,從而獲取更多的圖像細節。

最近,一些研究使用編碼器-解碼器框架對降尺度和還原尺度過程進行聯合建模從而實現圖像超分辨率重建。在IRN[10]中,高頻信息獨立于LR 圖像進行建模,性能上受到局限。HCFlow[11]考慮了高頻信息與LR 圖像關系,相比IRN 恢復了較豐富的高頻細節,但沒有充分利用高頻信息與LR 圖像之間的交互作用。文獻[12]使用圖像隱寫的思想將高頻信息嵌入到LR 圖像中,提出一種用于單幅圖像的可逆隱寫縮放網絡(invertible steganography rescaling network, ISRN),該網絡有效提取和分離了視覺上難以察覺的隱寫信息,從而更好地嵌入到LR 圖像中,一定程度上提高了重建圖像的質量。針對IRN 的圖像降尺度不適定問題,文獻[13]引入新的下縮放潛變量,結合原始潛變量形成一個具有雙潛變量的DLV-IRN,在不同的測試集和測試尺度上都提高了生成的HR 圖像的質量。文獻[14]提出可逆任意圖像縮放網絡(invertible arbitrary rescaling network, IARN),利用位置感知尺度編碼和搶占式信道分割等創新組件改進網絡。結果表明,在雙向任意縮放的情況下,該方法具有較好的性能。這些算法雖然提升了重建后的圖像質量,但整個模型的復雜度較大,對承載的硬件要求較高。

針對上述問題,為了平衡模型復雜度和重建性能,本文提出一種改進的IRN 算法。通過對IRN 關鍵組件進行深入研究,發現IRN 的特征提取模塊能提取足夠的特征信息,但參數量較大,影響模型的計算速度;模型的潛變量嵌入信息不足,影響逆向訓練捕捉邊緣信息的能力。所以利用注意力機制和密集連接網絡結構設計特征提取模塊,并使用小波域高頻子帶插值設計網絡的潛變量,網絡參數量較少,計算量低,同時保證了網絡的超分辨重建性能,使網絡能夠部署在硬件要求不高的場景,具有較高的實用價值。

1 IRN 介紹

IRN 是一種構造雙射、有效可逆并且具有易處理雅可比行列式特點的神經網絡。網絡主要有兩個任務:前向和逆向訓練過程,如圖1 所示。

圖1 可逆神經網絡示意圖

假設X∈ ?D,Y∈ ?L,數據在前向過程中損失部分信息,所以Y的固有維度L一定小于X的固有維度D,為訓練捕獲損失的信息,引入潛變量Z調整逆向過程,表示為:

式中,θ 是網絡參數;p(z)表示潛變量z的概率分布。相應的前向過程f(x;θ)可以表示為:

結合上述定義,X的模型分布可以表示為:

式中,JX是雅可比行列式

該神經網絡由一系列的構建塊組成,本文使用文獻[15]的仿射耦合層構建神經網絡,如圖2 所示。輸入被分成[J1,J2],經上/下三角的雅可比仿射變換:

圖2 可逆神經網絡構建塊

式中,輸出[K1,K2]連接下一個構建塊,內部函數φ φ、 、η 代表任意的神經網絡,當耦合層反轉時,有:

2 改進后的網絡模型

本文算法的網絡結構如圖3 所示。整個網絡結構由兩個相同的降尺度模塊串聯組成。降尺度模塊由一個小波變換和若干個可逆構建塊串聯而成。小波變換作為第一層把圖像x分解成高低頻兩部分并輸入到下一層構建塊,同理構建塊的輸出作為下一層構建塊的輸入。構建塊中φ 、 φ、η 是圖像特征提取模塊,為了方便計算,三者使用相同的設計。

圖3 網絡模型結構圖

2.1 特征提取模塊

本文利用網絡的密集連接結構和通道注意力設計特征提取模塊,輸入數據首先經過3 層密集連接的空洞卷積[16],其卷積核為3×3,擴展率分別為1,2,4,如圖4 所示。然后每個卷積層再通過ReLU 激活函數激活后輸出。前面所有層的輸出作為后一層的輸入實現特征復用,空洞卷積增大了感受野,保證3 層密集連接層能提取足夠多的特征信息,同時減少模塊的參數量。

圖4 擴展率為1,2,4 的3×3 卷積核的空洞卷積

經過密集連接層后,引入卷積注意力模塊[17](convolutional block attention module, CBAM)的通道域部分,聚合特征映射的空間信息,分配更多資源在關鍵特征信息上,整個特征提取網絡如圖5 所示。三層密集連接的空洞卷積層提取輸入數據的多層密集特征信息,將其輸入到注意力通道域,由通道域計算各特征通道的比例系數,最后加到輸入的特征信息上,實現網絡自適應關注特征信息的重點區域。

圖5 特征提取模塊

2.2 模型的潛變量

潛變量的引入是為了捕獲圖像的高頻信息,提高模型圖像超分辨率重建的質量。受文獻[18]啟發,本文采用一種基于離散小波變換的高頻子帶插值的潛變量,如圖5 所示。

LR 圖像經雙線性插值上采樣2 倍,再利用小波變換分解插值后的圖像,通過LR 圖像與低頻分量LL 比值可獲取修正系數:

式中,XLR和XLL分別代表LR 圖像和低頻分量LL。

如圖6 所示,根據計算的修正系數α 調整HH、HL、LH 高頻分量,將修正后的高頻分量HH′、HL′、LH′通過concatenate 函數得到潛變量。該潛變量能嵌入圖像高頻信息,使模型在逆向訓練過程捕捉更多的圖像邊緣信息,提升重建圖像質量。修正系數針對重建效果可進行微調,最終選取2 時,效果最佳。

圖6 模型潛變量

2.3 損失函數

本文算法使用L2和L1損失函數計算網絡的前向損失和逆向損失,分別為:

式中,θ 代表網絡的優化參數;N代表每次輸入圖像的數量;LR 和HR 代表低分辨率和高分辨率標簽圖像;Mf和MI代表模型的前向和逆向輸出結果;yL和z代表前向訓練產生的低分辨率圖像和潛變量。整個網絡的損失函數是前向損失和逆向損失之和,為:

通過最小化損失函數優化網絡參數。

3 實驗與結果分析

3.1 數據集介紹

本文使用DIV2K[19]數據集作訓練集,對訓練集圖像進行隨機平移、翻轉90°和裁剪等操作實現數據增強,并且統一圖像尺寸為480×480,滿足訓練需求。本文用超分辨率公開的基準數據集Set5,Set14,BSD100,Urban100 作測試集。

3.2 實驗參數設置

實驗平臺配置為處理器Intel I5 10600KF,運行內存8 GB,顯卡NVIDIA GeForce RTX2060。實驗運行環境為Ubuntu18.04,深度學習框架為PyTorch,CUDA 加速版本CUDA Toolkit 7.6.5。模型總迭代次數5×105,初始學習率2×10-4,每迭代1×104次,學習率衰減一次,衰減率γ=0.5,使用Adam 不斷優化網絡參數直至模型收斂。

3.3 注意力機制選擇

分別使用SE(squeeze-and-excitation)模塊、CBAM 和殘差注意力模塊(residual attention module,RAM)3 種不同的注意機制來結合密集連接結構。SE 注意力機制將特征圖放到全局池化中,然后提高和降低通道維數,最后與原特征圖相乘,生成一個新的特征圖[20]。CBAM 的通道域比SE 模塊多一個全局最大池化層,將不同池化后的兩個特征圖相加后與原特征圖相乘,得到輸出結果。RAM[21]的通道域采用方差池化,后續步驟與SE 注意機制類似。對比分析以上3 種不同特征提取模塊引入到采用基于小波域高頻自帶插值的潛變量的可逆縮放網絡中的效果。實驗結果如表1所示。從表中的結果可以得出,SE 和RAM 的加入降低了算法的性能,而CBAM 的加入在一定程度上提高了算法的性能。因此,CBAM 是本算法注意機制的最佳選擇。

表1 不同注意力機制的對比

3.4 消融實驗

為了測試和分析改進的IRN 網絡的重建性能,本文設計消融實驗來驗證效果。以尺度因子×4 為例,在Set14 數據集上比較是否引入CBAM 和基于小波域高頻子帶插值的潛變量對圖像超分辨率重建的影響。如表2 所示,其中:√代表采用,×代表不采用??梢园l現同時采用CBAM和基于小波域高頻子帶插值的潛變量的模型效果最好。

為了進一步比較由高斯分布和小波域高頻子帶插值組成的潛變量的性能。使用Set14 數據集進行測試,提取網絡在執行可逆構建塊時產生的特征圖。之后對所有特征圖進行相同處理,如增加曝光度、銳度使圖像對比更加明顯。圖7 均來自Img001,圖7a 為從IRN 可逆構件塊中提取的4 張特征圖,圖7b 為從本文模型可逆構件塊中提取的對應特征圖。明顯看出由高斯分布構成的潛變量只能提取少量的高頻信息,圖像輪廓不夠清晰。本文采用的小波域高頻子帶插值可以提取豐富的高頻信息,較清晰地看到圖像的輪廓。在其他網絡組件和參數設置相同的情況下,對比采用高斯分布和小波域高頻子帶插值的網絡在訓練期間相同迭代的測試集的峰值信噪比。如圖8 所示,使用小波域高頻子帶插值的潛變量比高斯分布的潛變量的網絡收斂更快、更穩定。因此,基于小波域高頻子帶插值的潛變量比采用高斯分布的潛變量性能好。

圖7 特征圖對比

圖8 不同潛變量在訓練時PSNR 的對比

3.5 實驗結果對比

本文從主觀人眼感受和客觀數據評價兩方面來評價重建圖像質量。主觀人眼感受通過人的視覺評判圖像的優劣,客觀數據評價通過對峰值信噪比(PSNR)和結構相似度(SSIM)數值大小來評價圖像的優劣,本文主要評價RGB 通道上的PSNR 和SSIM。

PSNR 基于圖像間對應像素點的像素差值來評價圖像質量,單位為dB,計算公式為:

式中,2n-1 表示圖像像素范圍;MSE 是高分辨圖像IHR和超分辨率重建圖像ISR的均方差。PSNR 的值越大則圖像失真度越小。

SSIM 根據輸入圖像與重建后的圖像的亮度、對比度和結構來計算圖像的相似性,數值范圍為[0, 1],值越大表示圖像相似性越高、失真度越小。計算公式為:

式中,x為高分辨圖像;y為超分辨率重建圖像;μx和 μy分 別為x和y的均值;為x和y的方差; σxy為x和y的協方差;C1和C2為常數,通常取C1=0.01×2552,C2=0.03×2552。

本文算法與SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 等方法作對比實驗,各算法分別在尺度因子×2 和×4 下計算圖像質量指標,在數據集Set5、Set14、BSD100 和Urban100 下的測試結果如表3、表4 所示。數據加粗表示測試的最優值。 本 文 算 法 在Set5、 Set14、 BSD100 以 及Urban100 上均取得最高評價指標,客觀說明本文算法重建的圖像質量優異。

表3 測試集在尺度因子×2 的PSNR/SSIM

表4 測試集在尺度因子×4 的PSNR/SSIM

為了從主觀上評價各方法的重建效果,在尺度因子×4 結果中隨機選擇2 張場景不同的圖像,放大每張圖像感興趣的區域,其效果如圖9 所示,其中HR 表示高分辨率參考圖像。SRCNN、SRGAN、SRResNET 算法重建的圖像存在嚴重的偽影,缺失大量的圖像邊緣信息,RDNS 和ESDN 算法重建的圖像視覺效果較好,但在紋理細節上較模糊。本文方法和IRN 方法的視覺效果最好,兩者難以分辨差異,說明本文方法重建圖像的視覺效果較逼真。

圖9 尺度因子×4 的方法重建圖像視覺效果對比

4 模型性能比較

模型的大小影響硬件的計算速度和內存占用率。為檢驗算法的參數量和運行時間,在4 個測試集中隨機選取50 張圖像,尺度因子×4 進行測試,與SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 算法對比,結果如表5 所示。數據加粗表示最優值。從表中數據可知,本文方法的參數量排倒數第3,重建時間和計算量均為最低。說明本文方法的模型性能比其他算法更好。

表5 模型復雜度對比結果

5 結 束 語

本文利用注意力機制和密集連接網絡結構設計特征提取模塊,采用基于小波域高頻子帶插值的潛變量這種改進可逆縮放網絡的圖像超分辨率重建算法,減小了計算量和重建時間,提升了模型訓練時對圖像細節的注意力,同時解決了潛變量保存高頻信息較少的問題。實驗結果表明,本文算法的重建圖像效果和模型的性能整體優于現有的幾種方法。

致謝:本文工作還得到桂林電子科技大學研究生教育創新計劃(2021YCXS125)的支持,在此表示感謝!

猜你喜歡
插值分辨率卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
EM算法的參數分辨率
從濾波器理解卷積
基于Sinc插值與相關譜的縱橫波速度比掃描方法
原生VS最大那些混淆視聽的“分辨率”概念
基于傅里葉域卷積表示的目標跟蹤算法
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
一種改進FFT多譜線插值諧波分析方法
基于四項最低旁瓣Nuttall窗的插值FFT諧波分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合