?

基于并行反向投影的圖像超分辨率

2024-01-16 01:12熊承義李雪靜高志榮孫清清劉川鄂
關鍵詞:投影注意力重構

熊承義,李雪靜,高志榮,孫清清,劉川鄂

(中南民族大學 a.電子信息工程學院;b.智能無線通信湖北省重點實驗室;c.計算機科學學院,武漢 430074)

近年來,單幅圖像超分辨(SISR)在計算機視覺任務中應用廣泛,包括醫療圖像[1],圖像生成[2]等領域.SISR 旨在從退化的低分辨率圖像(LR)中產生一個視覺良好的高分辨率圖像(HR).因為SISR 是一個不適定問題,所以近期比較流行的做法是通過學習LR 到HR 的非線性映射來構建一個HR 圖像.主流方法可以分為兩類:一類是搭建深度神經網絡(DNN)[1,3-8],另一類則是搭建非深度神經網絡[9-12].

對于DNN 方法,網絡從LR 圖像中獲取特征圖,并通過增加一個或多個上采樣層來不斷增加圖像的分辨率,以此構建HR 圖像.然而單純的向前傳播很難展現LR 和HR 的關系,所以人們開始嘗試用反饋連接來指導最后的重構圖像.

最初將反饋連接有效應用在超分辨率(SR)算法中的是迭代反向投影[13].它迭代地計算重構誤差,并據此調整HR 圖像.盡管提升了重構圖像質量,但重構圖像仍然有響鈴和棋盤效應.此外,這個方法對迭代次數以及模糊因子很敏感,不同的參數可能會導致不同的結果.

HARIS等[14]提出了深度反向投影網絡(DBPN),運用迭代的上下采樣層來構建一個端到端的網絡結構,不僅解決了重構圖像的響鈴和棋盤效應,還在高放大因子下實現了圖像超分辨率的提升.然而,DBPN只考慮了一個尺度上的特征學習和重構,忽略了下采樣操作可能導致的信息丟失,進而影響最終的重構效果.因此,本文提出了基于并行反向投影的圖像超分辨率網絡,即在多級的反向投影模塊中新增一條通路,進行與之相反的上下采樣操作.隨后,分別對兩條通路進行殘差操作,得到不同頻段上的高頻信息,并將其疊加到與原始的通路中去.通過這樣的方式,不斷增強圖像的高頻特征,擴大感受野,避免了因下采樣操作造成的信息丟失.不僅如此,還在多級殘差融合后對其進行通道注意力的增強,以便學到更多的關鍵信息,提升圖像的重構效果.實驗結果表明,本方法重構的圖像較同類方法在超分辨率性能上有明顯提高,且在模型復雜度和性能方面取得了良好的平衡,實用性更強.

1 相關工作

最近,SISR 因其廣泛的應用和優秀的性能而被越來越多的研究人員關注.其中,迭代反向投影和通道注意力增強都取得了令人矚目的成果.

1.1 迭代反向投影

反向投影是減少重構錯誤的一種有效手段.最初,反向投影被用來實現多個LR 圖像的輸入.然而,TIMOFTEN 等[15]發現反向投影可以提高SR 圖像的質量.隨后,ZHAO 等[16]通過一個迭代的投影操作來調整高頻圖像的紋理細節.所有這些研究都證明了迭代反向投影可以有效處理高頻特征,提升重構圖像的質量.

在反向投影網絡中,如果僅輸入一個LR 圖像,則反向投影的公式可表示為:

其中,p是一個連續的反向投影核,g是一個單獨的模糊濾波,↑s和↓s分別代表上下采樣操作是第t次迭代輸入的LR 圖像分別是第t次迭代中生成的HR 和LR 圖像代表輸入LR 圖像與生成LR 圖像之間的殘差是此殘差上采樣的結果,則是第t層迭代最終產生的SR圖像.

1.2 通道注意力增強

人類視覺在處理整幅圖像時,會傾向關注重點區域,忽略其他無用信息,提高視覺信息處理的效率和準確性.受此啟發,許多研究圍繞著如何聚焦最有用的信息展開.HU 等[17]提出了一個“壓縮與激勵”(SE)塊,通過建立通道之間的相互依賴性來自適應地校準通道間的特征響應.據此,通道注意力機制證明了其在指導特征學習上的有效性,并在SISR領域中受到了越來越多的重視.

為了選出一幅圖片中最有用的信息,利用全局信息作為指導來分配權重是必要的.這是因為卷積神經網絡的局部操作使得每一個輸出值難以代表整個圖片的依賴關系.令輸入X=[x1,…,xc,…,xC],維度H×W包含C個特征映射.通道注意力的步驟如下所示.第一步,通過一個全局平均池化獲得全局統計數字,即Z=[z1,…,zc,…,zC].Z的第c個元素定義為:

其中,xc(i,j)是c特征映射xc在(i,j)上的值.FGAP(·)代表全局平局池化.第二步,對不同通道上非線性交互和非相互排斥的關系進行注意力學習(AL),用公式表示為:

其中,FAL(·)代表用注意力學習每個通道合適的權重,s和δ分別是sigmoid 函數和ReLU 函數[18].W1和W2是兩個全聯接層(FC)的參數.假設Z 有C個通道,則第一個FC 層的輸出有個通道(r代表壓縮比),第二個FC 層的輸出有C個通道.第三步,應用學習到的權重因數W 對輸入進行重新分配,這樣輸出Y的第c個特征映射yc就可以表示為:

其中xc和wc分別代表輸入X 的第c個映射和其對應的權重因數.據此,輸入可以自適應地聚焦到最重要的特征.

2 提出的方法

本文提出的基于并行反向投影的超分辨率重構網絡,通過迭代的上下采樣層,增強HR 圖像在不同尺度上的特征提取.不同于DBPN[14]中單路的上下采樣投影單元,本文網絡包含兩個并行的通路,不同通路得到圖像在不同尺度上的投影結果.一個通路按照DBPN 提出的上下采樣模塊進行特征學習,而另一個通路進行與之相反的上下采樣操作.在得到不同頻段上的高頻殘差信息后進行疊加融合,實現對原有尺度特征信息的增強.最后,將疊加的特征信息進行上采樣,融合初始高頻特征并對通道進行注意力增強,實現重構圖像質量的提升.

2.1 網絡結構

如圖1所示,網絡的整體結構由三部分組成:淺層特征提取模塊(SFES)、反向投影模塊(BPS)和深度重構模塊(DRS).圖中綠色塊代表卷積操作(conv),深藍色塊代表上投影單元(Up projection),深棕色塊代表下投影單元(Down projection),淺藍塊代表上采樣操作(Up Block),淺棕塊代表下采樣操作(Down Block),深紫塊代表通道注意力操作(CA),淺橙塊代表級聯操作(concat).

圖1 網絡的整體結構框圖Fig.1 Block diagram of the whole network structure

在淺層提取模塊中,通過一個3 × 3卷積提取原始的LR 圖像特征.接著用一個1 × 1卷積來降維,使其在進入反向投影模塊前保持維度的一致性.假設提取到的淺層特征為H0,則有:

其中ILR代表網絡的輸入(LR 圖像),FSFES(·)表示卷積操作.隨后,H0作為輸入被喂到下一個反向投影模塊(BPS)中來調整LR 到HR 的特征投影.因為通過密集連接,輸出可以聯系到前面的每一層,則第t層的輸出可以表示為:

其中,FBPS(·)代表一系列的反向投影層,t=1,2,…,T.不同階段的層級信息都作用于最后的重構階段,所以將所有的信息全局化地融合到一起.關于BPS 網絡的更多細節將在2.2 節中給出.最后,將融合后的信息[H1,H2,…,Ht]作為重構單元的輸入以產生最終的SR圖像,模型最終的輸出ISR可以表示為:

其中FDRS(·)表示一個3 × 3 的卷積操作,[H1,H2,…,Ht]代表每一個上采樣單元特征投影的級聯.

選擇L1損失函數來最優化網絡.給定N 對圖像作為訓練集,可以表示為其中,一對圖像中包含一個LR 圖像的輸入和其對應的HR 圖像.所以,最優化的目標可如下所示:其中代表預計從中恢復出的SR 圖像,θ代表網絡的學習參數,FPDBPN(·)表示網絡總體結構的函數表達式.

2.2 并行反向投影模塊

通過在不同尺度上進行連續的上下采樣操作,能夠保留HR 的特征,并學習到更深的高頻特征.因此,用一個端對端的可訓練結構指導SR圖像運用相互聯系的上下采樣層來學習LR 和HR 圖像之間的非線性關系.具體地說,上投影單元產生HR 圖像的特征投影,然后下投影單元又將其返回到LR 空間投影中.

上投影單元的定義如下所示:

其中*代表空間卷積操作,↑s和↓s分別代表縮放因數為s的上下采樣操作,pt,gt和qt代表在t階的卷積或反卷積層數.

上投影單元的示意圖如圖2(a)所示.將之前提取的LR 特征投影Lt-1和Ht-1分別作為兩路通道的輸入,第一路上采樣得到一個中間投影變量,第二路下采樣得到一個中間投影變量;之后,分別將其投影回LR 和HR 得到算出兩路的殘差后使之級聯,得到并再一次投影到HR上,產生一個中間殘差投影

圖2 上下投影單元的內部結構Fig.2 Internal structure of up and down projection unit

考慮到注意力機制能夠增強網絡對特征通道的判別能力,進而提升網絡性能,在投影單元的最后引入通道注意力(CA)塊,如公式(20)所示:

其中FCA(·)代表通道注意力操作.在將兩個HR 上的中間投影變量相加后,對其進行通道注意力增強,來選擇性提升有用的高頻特征信息并抑制對性能影響較小的無用特征.雖然增加了一定的系統復雜度和重構時間,但其有效提升了網絡的模型性能,更多細節見3.3 節中的消融實驗與分析.最終得到了該單元的輸出Ht.

下投影單元的操作與之類似,如圖2(b)所示.公式定義如下:

此外,投影單元應用在不同階段可以作為自我糾錯的手段,即當喂入一個投影錯誤后,反饋能夠迭代地修正最后的重構效果.改變投影單元中濾波器的大小,分別得到×2、×3 和×4 尺度下的超分辨率圖像.因為并行迭代的上下采樣單元能夠在不損失高頻特征信息的情況下保留LR 和HR 之間的關系,所以能夠重構出質量更好的圖像.

3 實驗

3.1 實驗設置和訓練數據

DBPN 網絡根據放大倍數的不同而選擇不同的投影單元.對于2 倍投影,卷積核為6,步長為2,填充為2.4倍投影的卷積核為8,步長為4,填充為2.而8 倍投影的卷積核為12,步長為8,填充為2.與之對應,2 倍和4 倍的投影單元在參數上與DBPN 網絡保持一致,但是在3倍投影中,使用的卷積核為7,步長為3,填充為2.

不僅如此,DBPN 在不同倍數的放大網絡中使用的投影單元數量也不同,例如在8倍放大中,共采用了19 個投影單元(10 個向上的和9 個向下的).而放大倍數越小,投影單元越少,參數也越小.與之相比,本文網絡采用了統一的投影單元數量,即6個上采樣投影單元和5 個下采樣投影單元.實驗結果證明,該網絡可以兼顧參數和重構效果,實用性更高.

具體地,本文的訓練集是經過擴增的DIV2K[19]數據集(包括縮放、旋轉和任意裁剪),共計51200幅圖片.在訓練階段,將每幅HR 圖像隨機分割成256 × 256 的圖像塊和不同放大因子(×2,×3,×4)下對應的LR 圖像塊.在測試階段,用五個標準數據集:Set5[20],Set14[21],BSDS100[22],Urban100[22]和Manga109[23]進行驗證.超分辨率的結果用Y 通道上的PSNR 和SSIM[24]進行評價.運用的學習框架為Tensorflow,在Ubantu18.04系統上使用兩張12 GB的Nvidia TITANX 顯卡完成所有的訓練和測試.BatchSize設置為16,共訓練500個周期.學習率初始化為1e-4,并且每10 個周期衰減為原來的0.8 倍.網絡通過Adam Optimizer 進行優化,損失函數設置為L1.

3.2 實驗結果

在五個標準數據集上對比了本文網絡與其他類似的超分辨網絡在同等條件下的實驗結果,包括SRCNN[25]、VDSR[6]、LapSRN[4]、RDN[26]和DBPN[14].表1列出了在不同放大因子下基準數據集上的對比效果,最好的結果用加粗黑體標出.

表1 不同重構算法在×2,×3,×4放大因子下的PSNR(dB)和SSIM的比較Tab.1 Comparison of PSNR(dB)and SSIM of different reconstruction algorithms at ×2,×3,×4 amplification factors

從表1 可以看出,在公開數據集上的所有放大倍數下的圖像超分辨重構實驗中,本文網絡的效果是最好的.以×4 放大因子上的Set5 數據集為例,提出的方法比RDN[26]和DBPN[14]在PSNR 指標上均獲得了0.08 dB 的性能提升,而參數分別減少了16.9 M和4.8 M.這表明該網絡能夠在保證圖像質量的情況下,有效降低模型參數和計算的復雜度.這是因為投影單元在并行通道后用1 × 1 卷積對數據進行了降維,減少了參數量.不僅如此,因為并行通道提高了網絡對不同尺度特征的適應能力,能夠在較淺的網絡下達到更好的學習效果,所以減少了級聯的模塊個數,增加了網絡的普適性.而相較于SRCNN[25]、VDSR[6]、和LapSRN[4]來說,雖然本文參數有所增加,但是在PSRN 上也分別獲得了2.07 dB、1.2 dB 和1.01 dB 的性能提升,因此犧牲一定的系統復雜度是有必要的.

在其余四個數據集上,本文方法也比其他同類方法在圖像效果上至少提高了0.02 dB,這主要是因為并行反向投影模塊可以學習到不同尺度上的高頻信息,對信息重構提供了更多的指導作用.并且,該結構還保留了因上下采樣而損失掉的特征信息,增強了錯誤反饋機制的作用.最后,并行結構擴大了感受野,使網絡獲得了更強的重構能力.

此外,在Set14 數據集(×4)上將本文算法(PDBPN)與其他算法在模型大小、重構時間和性能表現上作了比較,如表2 所示.由表可知,本文算法在平均重構時間上位列中等,但在PSNR 性能表現上排名第一.與RDN[26]和DBPN[14]相比,PDBPN有更小的參數量和更快的重構時間.雖然與其他方法相比,參數量和重構時間有所增加,但是PDBPN 在性能表現上更好.綜上所述,本文算法在性能和重構時間上取得了很好的平衡,具有更強的實用性.

表2 放大因子為×4的Set5數據集上,不同算法在速度、參數、重構性能之間的比較Tab.2 Comparison of speed,parameter,reconstruction performance of different algorithms on Set5 at amplification factor=×4

為了比較不同算法下的視覺效果,下面給出了4 倍放大因數下SRCNN[25]、VDSR[6]、RDN[26]、DBPN[14]和本文方法得出的重構圖像.在圖3中,重構出的斑馬紋理相對于DBPN[14]和RDN[26]來說減少了模糊,邊界更清楚,而SRCNN[25]和VDSR[6]分別有不同程度的扭曲變形;在圖4中,本研究重構出的文字輪廓更加清晰,其他方法均有不同程度的模糊和重影;在圖5中,本方法重構出的圖像在鳥喙處更加尖銳,且輪廓相較其他方法更加可辨.從放大細節可以看出,本文網絡重構出的圖像是最清晰可辨的.

圖3 ×4放大因子下不同算法對‘zebra’的重構結果Fig.3 Reconstructed results of image ′zebra′ by different algorithms at ×4 magnification factor

圖4 ×4放大因子下不同算法對‘ppt’的重構結果Fig.4 Reconstructed results of image ‘ppt’ by different algorithms at ×4 amplification factor

圖5 ×4放大因子下不同算法對‘bird’的重構結果Fig.5 Reconstructed results of image ′bird′ by different algorithms at ×4 amplification factor

3.3 消融實驗及分析

為了驗證不同模塊的作用,測試了×2 放大因子下Set5 數據集上并行結構(PL)、通道注意力機制(CA)和密集連接(DC)對重構性能的影響,如表3所示.

表3 ×2放大因子下的Set5數據集上的消融研究結果Tab.3 Ablation experimental results on Set5 at ×2 amplification factor

從表3中可以看出,并行結構、通道注意力機制和密集連接模塊對重構效果都有不同程度的提高,其中并行結構尤為突出.基于此,本文的網絡將三個模塊一并保留,以此得到更好的重構效果.

4 結語

基于并行通道可以有效獲取并增強圖像的高頻特征,設計了一個基于并行反向投影的超分辨率網絡.網絡中包含了多級的并行反向投影特征增強模塊和通道注意力機制,通過對多級殘差信息的融合,使得圖像的高頻特征得到不斷增強.實驗結果表明,本文提出的網絡可以有效提升超分辨率性能,并且很好地平衡了模型復雜度和性能的關系,具有更強的實用性.

猜你喜歡
投影注意力重構
讓注意力“飛”回來
長城敘事的重構
解變分不等式的一種二次投影算法
基于最大相關熵的簇稀疏仿射投影算法
找投影
找投影
北方大陸 重構未來
北京的重構與再造
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合