?

基于像素對比學習的圖像超分辨率算法

2024-02-03 10:41周登文劉子涵劉玉鎧
自動化學報 2024年1期
關鍵詞:殘差損失像素

周登文 劉子涵 劉玉鎧

單圖像超分辨率(Single image super-resolution,SISR)[1]是計算機視覺中一個基本任務,旨在從低分辨率(Low-resolution,LR)圖像,恢復出對應的高分辨率(High-resolution,HR)圖像,在諸如遙感成像[2]、視頻監控[3]和醫學成像[4]中,應用廣泛.SISR 是一個病態的逆問題,因為許多HR 圖像可退化為相同的LR 圖像,需要提供圖像的先驗知識,約束超分辨率(Super-resolution,SR)圖像的解空間.SISR 仍然是計算機視覺中開放性的研究問題,重建的SR 圖像往往會出現模糊、紋理細節丟失和失真等問題.

早期的SISR 是基于插值的方法,如雙線性插值和雙三次(Bicubic)插值.基于插值的方法仍被廣泛使用,具有很低的計算復雜度,但不能恢復LR圖像中丟失的圖像細節.基于實例學習的方法[5-7]旨在通過訓練圖像,學習LR 圖像和HR 圖像之間的映射關系,改進了基于插值的方法.但是,基于實例學習的方法往往優化困難,并具有較高的推理復雜度.目前,深度卷積神經網絡(Convolutional neural networks,CNN)技術[8-13]直接端到端地學習LR和HR 圖像之間的映射關系,顯著提高了SISR 性能,并主導了目前SISR 技術的研究.基于CNN 的SISR 方法研究主要是探索新的SR 網絡架構,損失函數廣泛使用均方誤差(Mean squared error,MSE)[12]和平均絕對誤差(Mean absolute error,MAE)[8],但這些傳統的逐像素損失生成的SR 圖像是潛在SR輸出圖像的平均[14],導致輸出的圖像被過度平滑.為了解決這個問題,Johnson 等[15]提出感知損失.感知損失不是在圖像空間度量逐像素的損失,而是在預訓練的VGG (Oxford visual geometry group)網絡[16]特征空間度量逐像素損失.感知損失能改進SR 圖像的感知質量,但降低了SR 圖像保真度.重要的是,感知損失也不能阻止SR 圖像的模糊.Wang等[17]提出一個對比自蒸餾(Contrastive self-distillation,CSD)網絡,引入一個基于對比學習的損失函數.CSD 損失與感知損失類似,也在預訓練VGG網絡的特征空間逐像素比較損失.以教師子網絡輸出的SR 圖像作為正樣本,學生子網絡輸出的SR圖像作為錨,從同一個批次中采樣K個圖像(除錨外),通過雙三次上采樣到與輸出SR 圖像相同的分辨率作為負樣本.CSD 損失使錨更靠近正樣本,并遠離負樣本,進一步改進了學生子網絡輸出的SR圖像的視覺質量.與感知損失相比,CSD 損失除限制了學生子網絡輸出的上界(正樣本)外,也限制了下界(負樣本),以減小解空間.但CSD 損失也有與感知損失類似的保真度低問題.另外,CSD 損失使用雙三次上采樣圖像作為負樣本,是一個較弱的下界.受CSD 啟發,提出一個新的基于對比學習的逐像素損失函數Lcntr.Lcntr作用在圖像空間,原HR圖像與輸出的SR 圖像對應的像素分別作為正樣本和錨,HR 圖像上正樣本鄰近的像素作為負樣本.類似地,Lcntr也讓錨更靠近正樣本,遠離負樣本.常用損失及其組合的峰值信噪比(Peak signal to noise ratio,PSNR)[18]、結構相似性(Structural similarity,SSIM)[18]和視覺效果見圖1,其中L1為MAE 損失,Lperc為感知損失[15],Ltex為紋理損失[19],LCSD為CSD 損失[17],Ladv為對抗損失[20].原LCSD正樣本是教師網絡輸出的SR 圖像,本文替換為HR 圖像.計算Ltex的圖像塊大小為 48×48 像素.可以看出,本文的逐像素損失函數Lcntr可與其他損失組合使用,顯著改進SR 圖像保真度和視覺質量.另外,本文提出一個新的網絡架構,稱為漸進殘差特征融合網絡(Progressive residual feature fusion network,PRFFN).PRFFN 應用擴張卷積[21],擴展極深殘差通道注意力網絡(Very deep residual channel attention network,RCAN)[11]的基本構件 ——殘差通道注意力塊(Residual channel attention block,RCAB)[11],不增加參數并融合多尺度特征,稱為多尺度殘差通道注意力塊(Multi-scale residual channel attention block,MRCAB).PRFFN 以MRCAB 為基本構件,并運用空間注意力機制[22],漸進地融合MRCAB 的輸出特征.本文的Lcntr損失與PRFFN 網絡架構組合,能夠獲得先進的SR性能,一些代表性方法的PSNR 和參數量見圖2.Lcntr是通用的,可與其他SR 網絡架構協作使用.

圖1 不同損失及其組合的PSNR/SSIM 和視覺效果Fig.1 PSNR/SSIM and visual effects for different losses and their combinations

圖2 在Set14 數據集上,不同SISR 方法2 倍SR 結果的平均PSNR 值和參數量Fig.2 Average PSNRs and parameter counts for 2 times SR models for each state-of-the-art SISR method on the Set14 dataset

本文的主要貢獻有: 1)提出一個通用的基于對比學習的逐像素損失函數Lcntr,能夠顯著改進SR圖像的視覺質量;2) 提出一個新的SR 網絡架構PRFFN,主要組件是MRCAB 和空間注意力融合塊(Spatial attention fuse block,SAFB),MRCAB可以更好地提取和利用多尺度特征信息,而SAFB可以更好地利用鄰近特征的相關性;3) 實驗結果表明,PRFFN 組合Lcntr取得了有競爭力的SR 性能.

1 相關工作

1.1 圖像超分辨率的網絡架構

2015 年,Dong 等[8]提出第1 個基于CNN 的SISR 方法 ——超分辨率卷積神經網絡(Super-resolution convolutional neural network,SRCNN)后,深度卷積神經網絡技術已主導了當前SR 技術研究.SRCNN 只有3 個卷積層,Kim 等[9]提出極深超分辨率網絡(Very deep super-resolution network,VDSR),通過引入殘差學習,加深了網絡(有20 個卷積層),改進了性能.Lim 等[10]提出增強的深度超分辨率網絡(Enhanced deep super-resolution network,EDSR),通過堆積殘差塊,進一步加深了網絡(有65 個卷積層),改進了性能.Zhang 等[11]提出RCAN 方法,在殘差塊中引入通道注意力(Channel attention,CA)機制,有超過400 個卷積層,顯著改進了SISR 方法性能.Tong 等[12]提出超分辨率稠密連接網絡,使用了稠密連接.Zhang 等[23]提出殘差稠密網絡,同時使用殘差稠密連接.稠密連接和殘差稠密連接比殘差連接可以更好地利用深度卷積層的分層特征.同樣,注意力機制在SR 網絡中也得到了廣泛關注,通道注意力機制[11]考慮不同通道特征之間的依賴,顯著提高了模型的表示能力和SR 性能.Zhang 等[13]提出一種非局部注意力塊,以建模長距離像素之間的依賴,可以很好地捕捉空間注意力,進一步增強特征的表示能力.Niu 等[24]提出整體注意力網絡,進一步組合了層注意力、通道和空間注意力,以建模層、通道和空間位置之間的整體依賴.Li等[25]提出多尺度殘差網絡(Multiscale residual network,MSRN),采用局部多路徑學習,同時提取多個尺度特征,改進了特征的表示能力.視覺Transformer 能夠建模全局像素之間的依賴,在圖像分類、物體檢測和分割等高級視覺任務中,取得了巨大的成功.Liang 等[26]將Swin Transformer[27]引入圖像恢復,取得了最先進的性能.這些代表性的SISR 方法雖然有好的SR 性能,但模型參數量較大,需要較大的內存和較強的計算能力,限制了它們在資源受限設備上的應用.目前,網絡架構設計的趨勢是設計更輕量的網絡模型,找到網絡模型復雜度和性能之間最優的平衡[28].本文模型的基本構件設計受Zhang 等[11]和Li 等[25]啟發,相較于RCAN 的基本構件RCAB,通過引入擴張卷積,可以提取多尺度特征[25]且不增加參數量;同時,設計一個空間注意力融合塊,可以有效地融合這些多尺度的特征.

1.2 圖像超分辨率的損失函數

目前,基于CNN 的SR 技術研究大多聚焦于網絡架構設計,但合適的損失函數對SR 模型的性能也至關重要.最廣泛使用的損失函數是逐像素的L1損失(即平均絕對誤差) 和L2損失(即均方誤差).這些逐像素的誤差度量返回許多可能解的平均值[14],會導致SR 圖像出現模糊、過度平滑和不自然的外觀等問題,尤其是在信息豐富的區域.為了改進SR 圖像的感知質量,Johnson 等[15]提出感知損失,使用預訓練的圖像分類網絡,在特征空間度量高級感知和語義差異.與L1等像素損失不同,感知損失鼓勵輸出的SR 圖像與目標圖像具有相似特征表示,而不是迫使其像素匹配.考慮到SR 圖像應與目標圖像具有相同的紋理,Sajjadi 等[19]提出一種基于塊的紋理損失,圖像紋理視為不同特征通道之間的相關性,其定義基于預訓練分類網絡特征的Gram矩陣.紋理損失迫使SR 圖像應與目標圖像之間局部紋理相似.Ledig 等[20]提出對抗性損失,鼓勵SR圖像逼近自然圖像流形.這些損失函數改進SR 圖像的視覺質量,但是保真度低,仍不能阻止圖像模糊.

1.3 對比學習

對比學習[29-30]旨在學習一個嵌入的空間,使得相似的樣本彼此靠近,不同的樣本彼此遠離.對比學習可用于監督的學習環境,也可用于無監督的學習環境,在圖像分類和圖像聚類等高級視覺任務中,應用非常成功,但很少用于低級視覺任務.高級視覺任務的對比學習技術可能不適用于低級視覺任務,因為前者更需要全局視覺表示,而后者更需要豐富的紋理細節[31].對比學習需要考慮度量相似性的隱空間和正/負樣本的選取兩個重要因素.在低級視覺任務中,使用的隱空間大都是預訓練網絡(例如VGG)的特征空間.采用簡單方法選取正/負樣本,例如以輸入的低質量圖像作為負樣本,以輸入的高質量圖像作為正樣本.Wu 等[32]提出圖像去霧方法,使用VGG 特征空間真實圖像作為正樣本,退化的霧圖像作為負樣本,估計的圖像作為錨.在VGG 特征空間中,讓錨靠近正樣本,遠離負樣本.Wang 等[17]提出一個對比自蒸餾SR 網絡,同時使用VGG 特征空間,其中教師子網絡輸出的SR 圖像作為正樣本,學生子網絡輸出的SR 圖像作為錨,從同一個批次中采樣K個圖像(除錨外),通過雙三次插值上采樣到與輸出SR 圖像相同的分辨率,作為負樣本.在盲SR 中,Wang 等[33]使用一個編碼器子網絡,學習不同退化的抽象表示.假定相同圖像中的塊退化相同,不同圖像中的塊退化不同,以分別選擇為正/負樣本.Wu 等[31]提出一個基于對比學習的SR 框架,以判別器子網絡的特征空間作為隱空間.通過對真實圖像施加一些輕微的模糊,生成多個難的負樣本并簡單銳化真實圖像,生成多個信息豐富的正樣本.Wu 等[31]的隱空間對退化更敏感,其負樣本試圖促使SR 圖像遠離平滑的結果,而其正樣本試圖迫使SR 圖像吸收更多的細節信息.本文受到CSD 的啟發,CSD 雖能改進視覺結果,但保真度低,正/負樣本限定的上/下界距離大,即上/下界較弱.本文直接使用圖像空間訓練HR 圖像和輸出的SR 圖像對應的像素,分別作為正樣本和錨;HR圖像上正樣本鄰近的像素,作為負樣本.

2 本文方法

本文的漸進殘差特征融合網絡架構如圖3 中模塊1)所示,主要包括淺層特征提取塊(Shallow feature extraction block,SFEB)、特征映射塊(Feature mapping block,FMB)和上采樣塊三部分.其中,SFEB 僅包含一個 3×3 的卷積層,提取淺層特征信息;FMB 包含N(實驗中,N=10)個漸進特征融合組(Progressive feature fuse group,PFFG);上采樣塊使用亞像素卷積[34],使用L1損失和本文的像素級對比損失Lcntr.假定輸入的LR 圖像為ILR,首先,經過SFEB 提取淺層特征:

圖3 網絡架構細節Fig.3 Network architecture details

式中,f SF EB(·) 是淺層特征提取函數,F0是其輸出.然后,F0再通過FMB 進行深層特征提取:

式中,f UP(·) 是上采樣塊函數.最后,輸出SR 圖像ISR.

2.1 漸進特征融合組

FMB 包含多個PFFG,PFFG 中特征融合設計主要受到Liu 等[35]啟發.他們的研究表明,網絡中不同深度的殘差特征逐漸集中于輸入圖像的不同方面,對于重建空間細節非常有用.基于CNN 的SISR 模型大都只是將殘差學習作為緩解訓練難度的策略.SISR 模型堆疊殘差塊,殘差特征傳播到下一個塊之前,與恒等特征融合,致使后面的殘差塊只饋入了復雜的融合特征,忽略了充分利用更清潔的殘差特征.Liu 等[35]設計的殘差模塊包含多個殘差塊,并把各個殘差塊輸出的特征拼接在一起,饋入 1×1 卷積層進行融合.

PFFG 由MRCAB 和SAFB 組成,每個MRCAB 的輸出特征是下一個MRCAB 的輸入,且與后續所有MRCAB 輸出特征,通過SAFB 進行分層融合,以強化中間殘差特征,見圖3 中模塊2).每個PFFG 使用了3 個MRCAB,殘差分支的特征融合可以分為3 個步驟: 1)從左到右,每兩個相鄰的MRCAB 輸出特征通過SAFB 進行融合;2)步驟1)輸出的融合特征從左到右使用SAFB,對每兩個相鄰的特征進行融合,其余類推;3)步驟2)輸出的融合特征作為PFFG 的殘差分支輸出,與PFFG的輸入特征求和.每個PFFG 有3 個MRCAB,第n個PFFG 中第m(m=1,2,3)個MRCAB 的輸出為則第n個PFFG 中第1 個MRCAB 的輸入是前一個PFFG 的輸出Fn-1(第1 個PFFG中,第1 個MRCAB 的輸入為SFEB 的輸出F0);第n個PFFG 中第m(m=2,3)個MRCAB 的輸入為前一個MRCAB 的輸出Fn可表示為:

式中,f MRCAB(·) 是MRCAB 函數;是第n(n=1,2,···,N)個PFFG 中,第m(m=1,2,3)個MRCAB 的輸出:

式中,f SAF B(·) 是SAFB 塊函數.

2.2 多尺度殘差通道注意力塊

本文的MRCAB 主要受Zhang 等[11]和Li 等[25]啟發.Li 等[25]開發了一個多尺度的殘差塊(Multiscale residual block,MSRB).MSRB 包含兩個分支,一個分支使用 3×3 卷積,另一個分支使用5×5卷積.兩個分支輸出的不同尺度特征拼接在一起,再分別通過 3×3 和 5×5 卷積.通過實驗可以發現,更多尺度可以更好地利用特征信息,因此本文的MRCAB 使用三個分支,如圖4 所示.為了減少參數量,一個分支使用 3×3 卷積,其余兩個分支使用3×3擴張卷積,擴張率分別為2 和4.另外,為了簡化MSRB,本文把三個分支輸出的不同尺度特征簡單地求和,進行融合.在MRCAB 的后部,引入了Zhang 等[11]的通道注意力機制,通過自適應地伸縮各個通道,以建模各個通道之間的依賴性.第n個PFFG 中,第m(m=1,2,···,M) 個MRCAB 的第k個分支(k=1,2,3)可表示為:

圖4 多尺度殘差通道注意力塊Fig.4 Multi-scale residual channel attention block

第n個PFFG 中,第m(m=1,2,···,M) 個MRCAB 的輸出可表示為:

式中,C A(·) 是RCAN 中通道注意力函數.

2.3 空間注意力融合塊

考慮到MRCAB 中使用了Zhang 等[11]的通道注意力建模特征通道之間的依賴關系,在融合兩個MRCAB 的輸出特征時,使用空間注意力,進一步建模特征像素之間的依賴關系.兩個MRCAB 的輸出特征拼接在一起,使用 1×1 卷積進行融合,生成兩個特征通道,再使用Sigmoid 函數,將通道像素值轉換到(0,1)之間,作為輸入特征的權重.學習輸入特征像素之間的依賴關系,如圖5 所示.假定輸入的特征分別為FA和FB,SAFB 中特征融合過程可表示為:

圖5 空間注意力融合塊Fig.5 Spatial attention fusion block

式中,Ffuse為SAFB 輸出的融合特征,Conv1×1(·)為 1×1 卷積函數,f split(·) 把兩個通道分裂為矩陣WA和WB,S igmoid(·) 為Sigmoid 函數,“·”為逐像素相乘.

SAFB 利用空間注意力機制,漸進地融合分層的特征信息,可以更好地利用和融合多樣化的特征信息.

3 損失函數

本文的核心工作是引入像素級對比損失,使被恢復的像素更靠近原HR 圖像中對應像素,遠離其他鄰近像素,以提高SR 圖像的保真度和清晰度.對比學習框架[29,32,36-37]主要是為高層語義理解任務設計的,在低級視覺中應用的潛力還沒有得到充分探索.對于給定的錨點,對比學習的目標是將錨點拉向正樣本,遠離負樣本.基于CNN 的SISR 方法雖然顯著改進了之前的SISR 方法,但如何恢復SR圖像中丟失、模糊或失真的細節,仍然是有待解決的問題.目前,已有一些損失函數(如感知損失Lperc[15]、紋理損失Ltex[19]和對抗損失Ladv[20]等)改進了被廣泛使用的L1或L2損失,但仍不能令人滿意.Lperc和Ltex仍然不能阻止模糊,Ladv雖然能生成清晰的細節,但生成的細節嚴重失真和不自然.為了解決這個問題,本文提出像素級對比損失Lcntr.Lcntr可以與L1、L2、Lperc、Ltex和Ladv等一個或多個結合使用,進一步改進SR 圖像的保真度和清晰度.

優化L1或L2損失函數是將待恢復的SR 圖像中,每個像素逐漸逼近原HR 圖像中對應的像素.遺憾的是,SR 圖像恢復是一個病態逆問題,同一個低分辨率圖像可以對應多個高分辨率圖像,恢復的SR 圖像是許多高分辨率圖像的平均,導致過度平滑.本文的像素級對比損失Lcntr將SR 圖像中的像素作為錨點,HR 圖像中對應的像素作為正樣本,與該正樣本像素值相同的像素也作為正樣本,其他像素作為負樣本.Lcntr與L1或L2損失函數聯合使用,增加一個附加的約束,讓錨點接近正樣本,遠離負樣本,具體過程見圖6.不同的負樣本可以自適應地推遠錨點.Lcntr的形式類似于InfoNCE[38]損失,它是基于Softmax 的分類損失,在小批量樣本中,分類正樣本和負樣本.原HR 圖像分為許多大小相等的區域(假定共有Q個區域),在每個局部區域計算對比損失.在給定HR 圖像中,第q個局部區域假定包含S個像素,第i個像素(記為xqHR,i)視為正樣本,其他具有相同值的像素,也視為正樣本,該區域對比損失計算為:

圖6 像素級對比損失Fig.6 Pixel-wise contrastive loss

網絡模型總損失計算為:

式中,λ C是系數,以平衡Lcntr和L1損失.

4 實驗分析

4.1 實驗設置

本文使用DIV2K 數據集[39]訓練模型,其中800 個圖像作為訓練圖像,5 個圖像用于驗證集,標記為DIV2K_val5.為了增強訓練圖像,訓練圖像進行了 9 0°旋轉和隨機的水平翻轉.測試中,使用Set5[40]、Set14[6]、B100[41]、Urban100[42]和Manga-109[43]5 個標準測試數據集;對原HR 圖像進行雙三次下采樣,以獲得對應的LR 圖像.與其他方法類似,使用PSNR 和SSIM 評估模型的客觀性能,PSNR和SSIM 均在YCbCr 空間[23]的Y 通道上進行計算.訓練中,批大小設置為16,LR 圖像片尺寸設置為 4 8×48 像素.使用ADAM 優化器,設置β1=0.9,β2=0.999,ε=10-8.初始學習率設置為 1 0-4,每200 個迭代周期減半.使用PyTorch 框架實現模型,并在NVIDIA GeForce RTX 2080Ti GPU 上訓練.

4.2 實驗分析

4.2.1 消融實驗

為了驗證本文網絡架構和像素級對比損失的有效性,進行了5 組對比實驗: 1) 把網絡架構中的MRCAB 替換為RCAB,僅使用L1損失,不包含SAFB 塊和像素級對比損失Lcntr,以該模型作為基準,稱為PRFFN0;2)在PRFFN0 基礎上,增加類似于殘差特征聚合(Residual feature aggregation,RFA)[35]的特征融合方法,與RFA 塊的區別是將其殘差子塊替換為RCAB,這個模型稱為PRFFN1;3) 將PRFFN1 中的RFA 特征融合方法替換為SAFB,進行特征融合,這個模型稱為PRFFN2;4)將PRFFN2 中的RCAB 替換為MRCAB,這個模型稱為PRFFN3;5)在PRFFN3 中,增加像素級對比損失Lcntr,這個模型稱為PRFFN 即本文模型.訓練1 000 個迭代周期,5 個模型在DIV2K_val5 驗證集上3 倍超分辨率的平均PSNR 和參數量如表1 所示.表1 中,“?”表示在訓練時使用該損失,“—”表示訓練時不使用該損失.由表1 可以看出,基準模型PRFFN0 的平均PSNR 為32.259 dB;RFA 特征融合改進了PRFFN0 的PRFFN1,平均PSNR 增加了0.048 dB.相較于RFA,本文SAFB 使用了空間注意力機制,增強了特征空間依賴關系之間的建模,優于RFA 中特征圖的簡單拼接,使PRFFN2 較PRFFN1 模型,參數量減少了55 K,平均PSNR卻增加了0.035 dB;相較于RCAB,本文MRCAB使用了擴張卷積,在不增加模型參數量的情況下,擴大了特征感受野,且融合了多個尺度擴張卷積特征,使PRFFN3 較PRFFN2,平均PSNR 增加了0.022 dB;在L1損失的基礎上,增加像素級對比損失Lcntr,提高了SR 圖像的保真度,使PRFFN 較PRFFN3,平均PSNR 增加了0.087 dB.

表1 DIV2K_val5 驗證集上,不同模型,3 倍SR 的平均PSNR 和參數量Table 1 The average PSNRs and parameter counts of 3 times SR for different models on the DIV2K_val5 validation data set

4.2.2 對比損失的設計與分析

1)對比損失的有效性.為了驗證對比損失的有效性,實驗比較了L1、Lperc、LCSD和Lcntr損失及其組合對應的PSNR 和學習的感知圖像塊相似性(Learned perceptual image patch similarty,LPIPS)[44]度量.LPIPS 被認為更符合人類的視覺感知,視覺感知質量隨LPIPS 的降低而增加,而PSNR 值越高,則圖像的保真度越高.訓練1 000 個迭代周期,實驗結果如表2 所示,表2 中“?”表示在訓練時,使用該損失;“—”表示訓練時,不使用該損失.Lcntr與其他損失組合時,可改進PSNR 和LPIPS 值.當Lcntr與L1組合時,獲得了最好的PSNR值(32.451 dB);當Lcntr與L1、LCSD組合時,獲得了最好的LPIPS 值(0.0613).由表2 可知,LCSD作用于圖像特征空間,獲得了更好的LPIPS;Lcntr作用于像素空間,獲得了更好的PSNR,即保真度更高.Lcntr組合LCSD雖獲得了最好的LPIPS,但PSNR 有所降低.

表2 DIV2K_val5 驗證集上,不同損失函數及其組合,3 倍SR 的平均PSNR 和LPIPS 結果Table 2 The average PSNRs and LPIPSs of 3 times SR for different losses and their combinations on the DIV2K_val5 validation data set

2)不同比例對比損失影響.如式(11)所示,比例系數λ C可以調節對比損失的比例.訓練1 000 個迭代周期,在DIV2K_val5 驗證集上,不同λ C,3倍SR 的平均PSNR 結果見表3.由表3 可以看出,過大或過小的λ C使PSNR 結果惡化.當λC=10-1時,獲得了最好的PSNR 性能.

表3 DIV2K_val5 驗證集上,不同 λ C,3 倍SR 的平均PSNR 結果Table 3 The average PSNRs of 3 times SR for different λC on the DIV2K_val5 validation data set

3) 對比損失的通用性.本文的對比損失Lcntr可以與L1、Lperc和LCSD等損失組合使用,從而改進SR 圖像的保真度.Lcntr也可用于其他模型,可以改進SR 的性能.以著名的EDSR、RCAN 和SwinIR-light[26]為例,訓練1 000 個迭代周期,原模型和增加Lcntr損失后的平均PSNR 和SSIM 結果如表4 所示,表4 中“?”表示在訓練時使用該損失,“—”表示訓練時不使用該損失,“↑”代表指標提升.由表4 可以看出,Lcntr損失可以顯著改進SR 圖像視覺效果.SwinIR-light 增加Lcntr后,在Urban-100 數據集中,img004 圖像的3 倍SR 結果如圖7所示.由圖7 可以看出,使用Lcntr損失后,SR 圖像的視覺質量得到顯著改進.

表4 DIV2K_val5 驗證集上,不同模型包含與不包含Lcntr 損失,3 倍SR 的平均PSNR 和SSIM 結果Table 4 The average PSNRs and SSIMs of 3 times SR for different models with and without Lcntr loss on the DIV2K_val5 validation data set

圖7 Urban100 數據集中,SwinIR-light 使用不同損失函數,img004 圖像的3 倍SR 結果Fig.7 The 3 times SR results of SwinIR-light using different losses on the img004 image in the Urban100 data set

4)不同大小局部區域對對比損失的影響.計算對比損失的方形局部區域,可用區域中像素個數S度量.本文考慮 4×4 像素、8×8 像素和 1 6×16 像素的局部區域,S分別為16、64 和256.在DIV2K_val5 驗證集上,訓練1 000 個迭代周期,不同S值的3 倍SR 的平均PSNR 結果見表5.可以看出,更大的局部區域(即更大的S值)負樣本更多,有利于改進PSNR 性能.但在訓練時,更大的S值需要更多的時間和更大的內存量(見表6).考慮到相較于S=64,在S=256 時,PSNR 改進很小,因此本文選擇S=64.

表5 DIV2K_val5 驗證集上,不同大小局部區域,3 倍SR 的平均PSNR 結果Table 5 The average PSNRs of 3 times SR for different size local regions on the DIV2K_val5 validation data set

表6 3 倍SR 訓練10 個迭代周期,訓練占用的內存和使用的訓練時間Table 6 For 3 times SR,10 epochs,comparing the memory and time used by training

5)對比學習訓練的計算代價.4 組對比實驗分別為不使用Lcntr損失以及S=16、64 和256 三種情形.對于3 倍SR 訓練10 個迭代周期,訓練占用的內存和使用的訓練時間如表6 所示.表6 中,“?”表示在訓練時使用該損失,“—”表示訓練時不使用該損失.由表6 可以看出,計算代價沒有顯著增加.當S=64 時,內存增加了約21%,計算時間僅增加了約11%.

4.2.3 PFFG 實驗

在網絡架構中,共由10 個PFFG 組成,每個PFFG 包含3 個MRCAB 和3 個SAFB,見圖3 中模塊2).

1) 擴張卷積的不同擴張率對性能的影響.與RCAN 中的RCAB 相比,MRCAB 沒有增加參數,并且通過多分支提取了多尺度特征信息,并通過擴張卷積(或空洞卷積)擴大了感受野.MRCAB 中,3 個分支擴張卷積的擴張率組合分別設為1,2,3、1,2,4 和1,2,5.考慮只有1 個分支使用常規卷積即擴張率為1,此時MRCAB 退化為RCAB;考慮2 個分支,擴張率組合為1,2 的情形,訓練1 000 個迭代周期,不同分支和不同擴張率組合,3 倍SR 的平均PSNR 結果見表7.由表7 可見,不同尺度的特征融合可以改進性能.擴張率更大,特征感受野大,對性能有益.但過大的擴張率,也是有害的.MRCAB 三個分支的擴張率設置為1,2,4 較為合理.

表7 DIV2K_val5 驗證集上,MRCAB 不同分支和不同擴張率組合,3 倍SR 的平均PSNR 結果Table 7 The average PSNRs of 3 times SR for the different branches of MRCAB with different dilation rate combinations on the DIV2K_val5 validation data set

4.3 與先進方法比較

1)客觀比較.本文與代表性的雙三次上采樣、快速超分辨率卷積神經網絡(Fast super-resolution convolutional neural network,FSRCNN)[45]、稀疏掩碼超分辨率網絡(Sparse mask super-reolution,SMSR)[46]、自適應級聯注意力網絡(Adaptive cascading attention network,ACAN)[47]、權重自適應超分辨率網絡(Adaptive weighted super-resolution network,AWSRN)[48]、深度遞歸卷積網絡(Deeply-recursive convolutional network,DRCN)[49]、級聯殘差網絡(Cascading residual network,CARN)[50]、OISR-RK2 (Apply ODE-inspired schemes to super-resolution network designs-Runge-Kutta)[51]、OISR-LF (Apply ODE-inspired schemes to superresolution network designs-leapfrog)[51]、MSRN、軟邊緣輔助網絡(Soft-edge assisted network,SeaNet)[52]和兩階段注意力網絡(Two-stage attentive network,TSAN)[53]方法進行比較.在5 個標準測試數據集上,2 倍、3 倍和4 倍SR 的平均PSNR 和SSIM 結果見表8.與最先進的TSAN 相比,本文模型參數和計算量大約減少了1/3,推理時間大約減少了一半,但性能更好.例如,對于2 倍SR,本文方法與TSAN 相當;對于3 倍和4 倍SR,在所有測試數據集上,本文方法均優于TSAN.特別是在Urban100數據集上,平均PSNR 最大改進分別為0.1 dB 和0.16 dB.

表8 5 個標準測試數據集上,不同SISR 方法的2 倍、3 倍和4 倍SR 的平均PSNR 和SSIM 結果Table 8 The average PSNRs and SSIMs of 2 times,3 times,and 4 times SR for different SISR methods on five standard test data sets

2)主觀效果比較.各種方法SR 的視覺效果比較見圖8~10.可以看出,本文方法恢復的SR 圖像視覺質量優于其他方法.例如,對于Urban100 數據集中的圖像img076,其他方法恢復的SR 圖像存在過度模糊或條紋方向錯誤,本文方法恢復出的SR 圖像接近于原HR 圖像;其他圖像的恢復結果也類似.

圖8 2 倍SR 的視覺效果比較Fig.8 Visual comparison for 2 times SR

圖9 3 倍SR 的視覺效果比較Fig.9 Visual comparison for 3 times SR

5 結束語

本文提出一個通用的基于對比學習的逐像素損失函數Lcntr,以恢復出的SR 圖像像素作為錨樣本,原HR 圖像對應的像素作為正樣本,其他像素作為負樣本.Lcntr使錨樣本盡可能接近正樣本,并遠離負樣本,可以顯著改進SR 圖像的保真度和視覺質量.為了驗證Lcntr的性能,本文提出一個SR 的網絡架構PRFFN.實驗結果表明,本文的PRFFN 組合Lcntr取得了很有競爭力的SR 性能.

猜你喜歡
殘差損失像素
趙運哲作品
像素前線之“幻影”2000
基于雙向GRU與殘差擬合的車輛跟馳建模
胖胖損失了多少元
基于殘差學習的自適應無人機目標跟蹤算法
“像素”仙人掌
基于遞歸殘差網絡的圖像超分辨率重建
玉米抽穗前倒伏怎么辦?怎么減少損失?
高像素不是全部
一般自由碰撞的最大動能損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合