?

雙鑒別器盲超分重建方法研究

2024-01-27 06:56于國梁
電子與信息學報 2024年1期
關鍵詞:鑒別器紋理分辨率

盧 迪 于國梁

(哈爾濱理工大學 哈爾濱 150080)

1 引言

圖像超分辨率重建技術一般可分為兩種,一種是利用多張低分辨率圖像合成一張高分辨率圖像,另一種是利用單張低分辨率圖像重建高分辨率圖像[1,2]。該技術是指使用軟件或硬件方法,從具有較少細節的低分辨率圖像中重建出具有大量細節對應的高分辨率圖像,在老照片修復、視頻監視、衛星圖像遙感、醫學圖像等領域應用非常廣泛。

圖像超分辨率重建方法可分為傳統方法和基于深度學習方法。傳統方法包括基于重建[3]和基于插值[4]的方法?;诓逯档姆椒ㄓ嬎憧旖?,但是插值得到的高分辨圖像細節非常差,適用于對質量要求不高的場景;基于重建的方法主要包括迭代反投影法[5]和凸集投影法[6]等,該類算法操作運算簡單、重建速度相對較快,但是受到可利用先驗知識限制,圖像重建之后大量細節丟失,效果并不理想。

2015年Dong等人[7]提出超分辨率卷積神經網絡(Super Resolution Convolutional Neural Network,SRCNN),利用卷積神經網絡對圖像進行超分辨率重建,采用雙3次線性插值的方法將圖像縮放至預設尺寸,然后進行特征提取、非線性映射和重建3個步驟獲得超分辨率圖像,重建效果比傳統方法更好,為基于深度學習的圖像超分辨率重建任務奠定了基石。2016年Dong等人[8]又提出了加速超分辨率卷積神經網絡(accelerating the Super-Resolution Convolutional Neural Network, FSRCNN),相比于SRCNN, FSRCNN將圖像的上采樣部分轉移到網絡末端,使得前面的特征提取均在低維空間上完成,并且在非線性映射之前進行降維操作,極大減少了網絡參數量,達到實時性的目的。隨著生成對抗網絡(Generative Adversarial Networks, GAN)的出現,圖像超分辨率重建方法進入了一個新的領域。Park等人[9]提出的特征識別單圖像超分網絡(single image Super-Resolution with Feature discrimination, SRFeat)是一種基于GAN的超分辨率方法,采用雙鑒別網絡對圖像特征進行判別,其目的在于生成網絡能夠生成一些與圖像結構相關的某些高頻信息,而不是高頻噪聲。另外,生成網絡使用遠距離的跳躍結構,更加利于信息流通。Zhang等人[10]提出的殘差通道注意力網絡(Residual Channel Attention Networks, RCAN)具有更深的殘差網絡結構,通過短連接、長連接和全局連接使得網絡更有效率,所提通道注意力機制能夠對各通道特征進行自適應調節。Ledig等人[11]提出超分辨率生成對抗網絡(Super-Resolution Generative Adversarial Network, SRGAN),采用更深層的殘差結構作為生成網絡的主體結構,采用感知損失代替均方誤差(Mean Squared Error, MSE)損失,增強重建圖像真實感,從視覺上看,獲得更好的效果。Lim等人[12]基于SRGAN進行改進,提出增強深度殘差單圖像超分網絡(Enhanced Deep residual networks for single Image Super-Resolution,EDSR),刪除歸一化層,并提出了一種增強版的殘差結構,降低了內存使用量,增強了模型的性能。Wang等人[13]提出增強超分生成對抗網絡(Enhanced Super-Resolution Generative Adversarial Networks, ESRGAN)是增強版的SRGAN,對SRGAN進行如下改進:(1)去掉歸一化層;(2)提出更復雜的殘差嵌套稠密塊(Residual-in-Residual Dense Block, RRDB)結構作為基本模塊;(3)利用相對鑒別器對真假圖像進行識別;(4)刪除末尾的激活函數來改進感知損失;(5)網絡插值替代圖像插值。2019年Soh等人[14]提出的自然流行單圖像超分網絡(Natural and realistic single image Super-Resolution with explicit natural manifold discrimination, NatSR)則在 ESRGAN 的基礎上引入了自然流形鑒別器使得其重建圖像與原圖像的 PSNR得到了巨大的提升。但是NatSR的效果非常不穩定,造成圖像超分辨率重建過程中出現圖像崩潰現象,且部分重建的圖像會具有重復的偽影。2021年騰訊發表了純合成數據訓練的真實世界盲超分算法(training Real-world blind ESRGAN, Real-ESRGAN)[15],該算法基于ESRGAN,給出了一種新型數據集構造方法。傳統方法大多采用雙3次降采樣[16]和傳統的退化模型[17],但是,現實世界的退化要復雜得多。為了產生更逼真的結果,Real-ESRGAN網絡采用高階退化模型,對降階圖像復雜度進行加強。同時,將sinc filter引入到數據集構建中,成功地解決了圖像中存在的振鈴和過沖等問題,并將ESRGAN中VGG鑒別器替換成U-Net鑒別器,逐像素反饋到生成器中,幫助生成器生成更加詳細的圖像特征。

目前生成對抗網絡在超分辨率重建方面的工作主要集中在模擬一個更復雜和更真實的降階過程或構建一個更好的生成器,例如Real-ESRGAN網絡,但很少有工作試圖改善鑒別器的性能。鑒別器的重要性不可忽視,它更像一個損失函數,為生成器生成更加真實的高分辨圖像指明方向?;诖藛栴},本文對Real-ESRGAN網絡鑒別器進行改進,采用UNet3+[18]結構構建了一種雙鑒別器網絡(Double Uet3+ Real-ESRGAN, DU3-Real-ESRGAN)。UNet3+結構擁有更少的參數,在提高計算效率的同時,可以從全尺度捕獲更多的圖像細節。一個鑒別器很難對全局和局部特征都給出精確的反饋,導致合成圖像中出現不連貫、邊界層次模糊等問題,因此引入雙鑒別器結構,一個鑒別器以完整的合成圖像作為輸入來學習圖像紋理細節;另一個鑒別器接受下采樣合成圖像作為輸入,關注圖像的邊緣特征。

2 Real-ESRGAN算法

Real-ESRGAN采用與ESRGAN相同的生成器網絡,如圖1所示。

圖1 Real-ESRGAN生成器網絡結構

該網絡主要分為3個部分,第1部分淺層特征提取網絡,低分辨率圖像(Low-Resolution, LR)經過一個卷積+LRELU模塊,將輸入通道數調整為64。第2部分RRDB網絡結構采用兩層殘差結構,主干部分別由3個殘差密集塊(Residual Dense Block, RDB)構成。每個RDB都包含5個卷積+LRELU模塊。RDB結構相當于殘差塊與密集塊的結合,利用密集連接卷積層,提取出豐富局部特征。第3部分上采樣網絡,將高度和寬度分別擴大為原圖的4倍,輸出超分辨率圖像(Super-Resolution, SR),實現分辨率的提升。通過學習訓練集數據的特征,最后在鑒別器的指導下,將隨機噪聲分布盡可能擬合為高分辨率圖像(High-Resolution, HR)的真實分布,從而生成具有訓練集特征的相似數據。

鑒別器由ESRGAN中的VGG風格鑒別器改進為U-Net網絡,如圖2所示。ESRGAN的鑒別器更多地集中在圖像的整體角度判別真偽,而使用U-Net鑒別器可以從像素角度,對單個生成的像素進行真假判斷,在保證生成圖像整體真實的情況下,更加注重生成圖像細節。

圖2 Real-ESRGAN鑒別器網絡結構

3 DU3-Real-ESRGAN

3.1 網絡結構

Real-ESRGAN網絡的U-Net 鑒別器結構可以從像素角度對單個生成的像素進行真假判斷,在保證生成圖像整體真實的情況下,更注重生成圖像細節。但U-Net結構主要是encoder-decoder結構。該結構的低層主要是獲取細粒度的細節特征(捕獲豐富的空間信息),高層主要是獲取粗粒度的語義特征(提取位置信息),所以U-Net結構僅有同層之間的連接,使得該網絡上下層連接時存在信息代溝現象。將U-Net結構用UNet3+網絡替換,能夠全尺度角度下捕捉細粒度與粗粒度語義,得到圖像更加豐富的細節信息。

UNet3+主要參考了U-Net和UNet++[19]兩個網絡結構。UNet++是由U-Net結構更改而來的,如圖3(a)所示,盡管UNet++采用了嵌套和密集跳躍連接的網絡結構(紅色三角區域),整合了不同層次的特征,提升了圖像的精度,但是它沒有直接從多尺度信息中提取足夠多的信息。UNet3+主要解決從全尺度上獲取信息問題,依舊采用encoder-decoder結構,如圖3(b)所示。Encoder結構與 U-Net,UNet++相同,Decoder改進為層數小于等于當前層的特征圖經過池化和卷積操作得到64通道特征圖(層數相同的一層不做池化操作),層數大于當前層的特征圖經過上采樣(雙線性插值)和卷積同樣得到64通道特征圖,將這些特征圖concat起來,經過卷積、正則化和激活函數之后構成decoder的一層,decoder細節圖如圖4所示,更好地整合了低級細粒度信息和高級語義特征,且參數量比U-Net和UNet++有所減少。

圖3 UNet++和UNet3+網絡結構

圖4 UNet3+網絡decoder結構圖

本文采用UNet3+網絡,構建了一種雙鑒別器結構,提出了DU3-Real-ESRGAN網絡,如圖5所示。鑒別器1以完整的合成圖像作為輸入,具有更大的感受野,負責掌握全局視圖;鑒別器2接受2倍下采樣合成圖像作為輸入來學習圖像邊緣細節。雙鑒別器不僅可以關注圖像紋理,還可以關注邊緣等更詳細的信息,邊界層次更加分明。

圖5 DU3-Real-ESRGAN網絡結構

3.2 損失函數

DU3-Real-ESRGAN訓練過程分為兩個階段。首先利用L1損失對模型進行預訓練。接著,將得到的預訓練模型作為生成器的初始化,結合L1損失、感知損失和對抗損失訓練模型。

L1損失(均方誤差):目標值與預測值之差絕對值的和,表示預測值的平均誤差,如式(1)所示

其中,fi代表生成器生成圖像的像素值,yi代表真實圖像的像素值,n為測試樣本的數量。

感知損失:生成器生成的SR圖像與真實的HR圖像輸入VGG19網絡分別提取特征,然后在提取的特征圖上使用均方誤差損失,如式(2)所示

其中,θ是網絡參數,IHR是真實的HR圖像,是重建出來的SR圖像,W和H分別是圖片寬和高,可以看成常數。φi,j指的是第i個maxpooling層前的第j個卷積的特征圖。

對抗損失

其中,E(*)代表分布函數的期望值,Pdata(x)代表真實樣本的分布,Pnoise(z)是定義在低維的噪聲分布。

4 實驗與結果分析

4.1 實驗配置

使用DIV2K數據集進行訓練,選用該數據集的1 000張HR圖像,作為訓練集的圖片。退化模型參考Real-ESRGAN的退化模型,更好地模擬真實世界中的低分辨模糊情況,增強降階圖像的復雜度,同時引入sinc filter,解決了圖像中的振鈴和過沖現象。將1 000張HR圖像輸入到退化模型中得到1 000張LR圖像,作為訓練集的LR圖像,結果如圖6所示。

圖6 DIV2K數據集HR圖像與LR圖像對比圖

在以往的圖像超分重建任務中,通常使用人工模擬的退化圖像作為測試圖像。但是,人工模擬的退化圖像很難反映真實世界中的LR圖像,現實中的LR圖像通常是不同退化過程的復雜組合。因此,本文選擇使用真實世界的圖像,作為實驗的測試集,分別為Set5, Set14, BSD100和Urban100。Set5有5張圖像,Set14有15張圖像,BSD300有30張圖像,Urban有50張圖像。Set5圖像紋理比較單一,Set14大多是人臉及動植物圖像,BSD100的圖像類別比較豐富,紋理也比較復雜,Urban100主要是建筑類別圖像,紋理同樣復雜且圖像較大。

實驗環境為Intel(R) Core(TM) i7-10875H CPU和NVIDIA GeForce RTX 2 070,深度學習框架為PyTorch,調用并行計算架構和英偉達神經網絡庫對顯卡進行加速,版本分別為10.1和7.6。網絡輸入圖像為256×256大小的RGB圖像,批量大小設置為64,訓練最大迭代數設置為20 000,使用Adam優化器。

4.2 實驗結果分析

選取SRGAN, EDSR, ESRGAN, Real-ESRGAN與本文提出的DU3-Real-ESRGAN進行比較,同時又構建了U3-Real-ESRGAN模型,只采用圖5中的鑒別器1。圖像質量客觀評價方法PSNR和SSIM的結果如表1所示,其中加粗部分為對比算法中的最優結果。DU3-Real-ESRGAN模型的PSNR和SSIM值在Set5數據集上低于Real-ESRGAN,高于U3-Real-ESRGAN,而在其他測試數據集中都具有更好的表現,且單鑒別器的U3-Real-ESRGAN比Real-ESRGAN除Set5數據集外都有更好的PSNR和SSIM值。

表1 PSNR/SSIM值對比

具有高PSNR和SSIM的超分變率重建圖像,它在紋理細節上并不一定與人眼視覺習慣相符,不能很好反映人的視覺感受,同時采用PSNR和SSIM圖像質量評價指標需要Ground Truth作為參考圖像,對于現實中實際場景的復原,很多時候并不存在Ground Truth,因此,本文除了采用PSNR和SSIM評價指標外,還采用了更為有效的圖像重建質量指標NIQE[20]進行定量評估。NIQE表示圖像的感知質量,其值越小表示感知質量越好。

NIQE評價指標結果如表2所示,其中加粗部分為對比算法中的最優結果。DU3-Real-ESRGAN模型的NIQE值在Set5數據集上相比Real-ESRGAN,U3-Real-ESRGAN增加了0.333 6, 0.237 9,而在其他測試數據集上相比Real-ESRGAN分明減少了0.024 5, 0.444 2, 0.529 7,單鑒別器的U3-Real-ESRGAN相比Real-ESRGAN除Set5數據集外NIQE結果都有顯著的降低。Set5數據集與其他數據集不同之處是紋理結構簡單,實驗結果表明在處理紋理復雜圖像時,本文提出的方法的效果優于其他算法。

表2 NIQE值對比

本文還對不同算法的主觀視覺效果進行了對比測試,圖像來自Set5, Set14, BSD100和Urban100測試集。對于Set5數據集,各算法對比結果如圖7所示 ,SRGAN, EDSR與ESRGAN算法圖像質量較為模糊,特別是圖7(a)草叢、圖7(b)文字的邊緣處等具有較多細節的部分,而Real-ESRGAN, U3-Real-ESRGAN與DU3-Real-ESRGAN算法整體圖像的清晰度有了較大的提升,圖7(a)草叢、天空、馬路色彩對比度更加鮮明,圖7(b)文字顯得更加立體,圖像更符合人眼視覺感受。

圖7 Set5數據集對比圖

BSD100數據集圖像類別較多,紋理也比較復雜,各算法對比如圖8所示。SRGAN, EDSR與ESRGAN算法較為模糊,還產生了較多的偽影與噪聲,圖8(a)樹枝細節基本辨認不出,圖8(b)動漫圖像含有大塊斑點,圖像質量非常低。Real-ESRGAN, U3-Real-ESRGAN與DU3-Real-ESRGAN在去除噪聲與偽影等方面都有很高的表現。然而,圖8中Real-ESRGAN重建圖像紋理細節較少,圖像顯得不夠逼真,U3-Real-ESRGAN和DU3-Real-ESRGAN生成圖像具有更多的細節,信息更加豐富。U3-Real-ESRGAN算法雖然生成了更多細節,但邊緣細節處模糊,邊緣層次不分明,而DU3-Real-ESRGAN采用雙鑒別器結構,在關注整體特征的同時,還關注局部邊緣細節,強化了圖像邊緣,線條更加銳利,清晰度更高。

圖8 BSD100數據集對比圖

Set14數據集多為人臉和動植物圖像,各算法對比如圖9所示。

圖9 Set14數據集不同算法對比

SRGAN處理這種圖像依然表現不佳,圖像質量依舊模糊。EDSR, ESRGAN圖像清晰度雖然有了較大提升,但圖像中依舊含有少量噪聲,圖9(a)中馬臉仍有少量的斑點,圖9(b)中人臉睫毛不夠清晰。而U3-Real-ESRGAN與DU3-Real-ESRGAN處理的圖像質量更高、邊緣更加分明,圖9(a)中毛發更加細膩,圖9(b)中睫毛細節更加分明。

Urban100數據集主要是建筑類別圖像,紋理復雜且圖像較大,各算法對比如圖10所示。DU3-Real-ESRGAN整體清晰程度明顯高于其他算法,SRGAN, EDSR只能看出圖10(a)中門框窗戶與圖10(b)中墻面條紋大致線條輪廓,模糊程度較高。

圖10 Urban100數據集不同算法對比

ESRGAN與Real-ESRGAN雖然稍微清楚一些,但圖10(a)中各窗戶之間會有一些不真實的黑色偽影,圖10(b)中生成的墻面條紋太假,與現實相差甚遠。U3-Real-ESRGAN清晰度相比其他算法有了提高,圖10(a)中邊框邊緣處線條不夠銳化,邊界層次不分明,圖像整體呈現模糊現象,而DU3-Real-ESRGAN生成的邊界更加分明,各部分輪廓對比度更高,生成圖像感知更加真實。

5 結論

以Real-ESRGAN為基礎,本文提出了DU3-Real-ESRGAN網絡結構,在鑒別器網絡中引入Unet3+網絡,搭建雙鑒別器架構,在全尺度上捕捉細粒度的細節和粗粒度的語義,去除了噪聲與偽影,同時充實了圖像的細節。對Set5, Set14,BSD300, Urban100等數據集上的圖像進行測試,與Real-ESRGAN, SRGAN, EDSR和ESRGAN等超分網絡對比,除Set5數據集外,DU3-Real-ESRGAN網絡超分圖像PSNR, SSIM和NIQE值均取得了較好的指標,生成圖像的質量更好。Set5中圖像主要為人臉和動植物圖片,與其他數據集中圖像主要不同之處是紋理較為簡單,因此DU3-Real-ESRGAN網絡處理紋理復雜圖像的效果優于其他算法,在去除噪聲與偽影的同時恢復更豐富的細節信息和分明的圖像邊緣,得到視覺效果更好的超分辨率重建圖像。同時,還構建了單鑒別器U3-Real-ESRGAN網絡,與單鑒別器Real-ESRGAN相比,UNet3+結構鑒別器生成圖像具有更多紋理細節,信息更加豐富。與雙鑒別器DU3-Real-ESRGAN對比可知,普通單鑒別器只關注圖像整體細節的識別,相比之下雙鑒別器結構對輸入下采樣圖像進行識別,迫使鑒別器關注更多的圖像邊緣信息,區域輪廓更加分明,邊緣線條更加銳化,清晰度更高。

猜你喜歡
鑒別器紋理分辨率
基于多鑒別器生成對抗網絡的時間序列生成模型
基于BM3D的復雜紋理區域圖像去噪
衛星導航信號無模糊抗多徑碼相關參考波形設計技術*
EM算法的參數分辨率
使用紋理疊加添加藝術畫特效
原生VS最大那些混淆視聽的“分辨率”概念
TEXTURE ON TEXTURE質地上的紋理
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
陣列天線DOA跟蹤環路鑒別器性能分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合