?

基于通道注意力機制的視頻超分辨率方法

2024-01-01 10:46陳雅玲朱永貴
關鍵詞:殘差分辨率注意力

陳雅玲,朱永貴

(中國傳媒大學數據科學與智能媒體學院,北京 100024)

1 引言

隨著高清專業影視攝像機、高清顯示設備、高清視頻監控等高清視頻系統在生活中的逐步普及,人們對高分辨率視頻的需求也隨之增加,但高清、超高清視頻資源相對較為稀缺,這就需要使用視頻超分辨率技術重建出更多高質量的視頻資源。視頻超分辨率技術不僅可以提高視頻的分辨率,恢復視頻豐富的細節信息,還有助于降低高清或超高清視頻的傳播成本,被廣泛應用在視頻監控、視頻成像、多媒體和醫學等領域中。

相比傳統的超分辨率插值技術,基于深度學習的超分辨率技術能更好地恢復圖片的紋理細節及視覺效果。2014年,Dong等[1]首次提出超分辨率卷積神經網絡(Super?Resolution Convolutional Neural Network,SRCNN),證明使用卷積神經網絡可以學習低分辨率圖像到高分辨率圖像的非線性映射。隨著卷積神經網絡在超分辨率技術發展中表現出顯著的優勢,基于深度學習的超分辨率技術不斷涌現,并成為主流的研究方法之一。在此基礎上,視頻超分辨率技術更注重視頻幀間信息的利用,可以看成是圖像超分辨率技術的延伸,現階段基于深度學習的視頻超分辨率技術根據網絡框架主要可以分為兩大類:一是迭代網絡,二是循環網絡。

現有的基于迭代網絡結構的算法以滑動窗口的方式,取連續的低分辨率視頻幀作為網絡的輸入,通過不斷迭代重建高分辨率的視頻序列。然而這類網絡結構對長距離依賴關系的捕獲受限于窗口的大小,其性能難以達到實際應用的需求。相比之下,循環網絡按時間順序處理視頻幀的方式可以彌補滑動窗口的缺陷,從而更有效地利用視頻幀間信息。本文以循環網絡為基礎,在隱藏態中引入殘差連接以保留紋理細節,避免梯度消失的問題,同時使用注意力機制增強通道間的有用特征信息,提出了一種基于通道注意力的循環殘差注意力網絡視頻超分辨率方法。

2 相關工作

2.1 基于深度學習的視頻超分辨率方法

在基于迭代網絡框架的視頻超分辨率方法中,對幀間信息的利用通常采用運動估計和運動補償方法。然而,此類方法不僅計算量較大,并且依賴于精確的運動估計。Tian 等[2]提出了時域可變形對齊網絡(Temporally?Deformable Alignment Network, TDAN),可以在不計算光流的情況下自適應地對齊相鄰幀和目標幀,提升網絡的空間變換能力,進而有效地提升模型性能。Ying 等[3]使用可變形三維卷積網絡(De‐formable 3D Convolution Network, D3D),靈活提取時空信息同時進行幀間運動補償,生成的高分辨率視頻具有較好的流暢度。Jo 等[4]使用動態上采樣濾波器(Dynamic Upsampling Filters, DUF)提取時空特征,避免了運動估計和運動補償帶來的潛在誤差。漸進融合網絡[5]引入非局部殘差塊捕獲長距離時空相關性,以隱式運動補償的方法利用時空信息?;诘W絡的方法雖然在多個基準上表現卓越,但該網絡結構往往只考慮窗口內有限的視頻幀,從而限制了此類算法在實際中的應用。

循環神經網絡具有記憶特性,網絡會將序列中先前時刻的信息應用到當前的計算中,適用于處理自然語言、視頻、音頻等序列數據。因此,基于循環網絡的視頻超分辨率算法可以利用歷史信息和當前信息增強低分辨率幀的紋理細節。Frame?Recurrent Video Super?Resolution(FRVSR)[6]首次將循環網絡結構引入到視頻超分辨率領域,提出了一個端到端訓練的幀循環網絡框架,在相鄰幀間采用顯式運動估計和扭曲操作,既能有效利用幀間信息,又能保證時間上的連續性。Fouli 等[7]采用與FRVSR 相似的策略,提出Re‐current Latent Space Propagation(RLSP),但二者對時間信息的利用方式并不相同,RLSP 通過隱藏態傳遞時間信息,將三個連續幀輸入隱藏態,避免了顯式運動估計存在對齊誤差且計算量大的問題。Residual Invertible Spatio?Temporal Network(RISTN)[8]中采用殘差可逆模塊和殘差密集卷積模塊提取時空信息,在模塊中引入殘差連接以降低信息丟失的可能性。Ha‐ris 等[9]提出循環反向投影網絡(Recurrent Back?Projection Network, RBPN),根據相鄰幀和相鄰幀間的光流學習殘差,使用反向投影迭代提取目標幀丟失的細節,彌補了循環神經網絡的不足。

以上這些視頻超分辨率方法的隱藏態中包含多個卷積層,傳播過程中卷積層會對輸入信息進行不可避免地衰減,從而導致紋理細節丟失,有些方法的輸入幀較多,當遇到大運動場景時,輸入幀越多,信息傳播的準確性越差。本文以連續的兩個視頻幀作為輸入,并在隱藏態中引入殘差連接,增加網絡的穩定性,保留更多的紋理細節。

2.2 注意力機制

注意力機制與人類的視覺注意力機制相似,將關注點聚焦于重要的信息上,降低對次要信息地關注,高效地從大量信息中篩選出有價值的信息。在超分辨率任務中,引入注意力機制可以使網絡關注到更為重要的特征信息,提高模型的表現力。Hu等[10]提出了擠壓與激勵網絡(Squeeze?and?Excitation Network, SENet),研究特征圖通道間的依賴關系。Wang等[11]提出高效通道注意力機制,在SENet的基礎上改進了注意力模塊,避免了維度縮減帶來的副作用,提高捕獲通道間依存關系的能力,同時使模型更加輕量化。Residual Channel At‐tention Network(RCAN)[12]在殘差塊中加入通道注意力機制,自適應地調整各通道權重,增強有用特征。本文在殘差塊中引入通道注意力機制,在深層殘差網絡中充分挖掘和利用通道間的特征信息。

3 循環殘差注意力網絡框架

本文提出了一種基于通道注意力的循環殘差注意力網絡,在循環神經網絡中加入殘差結構,以便于更好地保留圖片紋理細節,通過引入通道注意力機制,增強網絡提取特征的能力。該網絡模型由淺層特征提取模塊、殘差注意力模塊和像素重組模塊三部分組成,模型結構如圖1所示,網絡以連續兩個低分辨率幀和先前輸出的高分辨率幀以及隱藏態特征作為輸入,先通過淺層特征提取模塊獲得初始特征圖,將其輸入殘差注意力模塊組進行深度的特征提取,再經過像素重組模塊將特征圖從低分辨率空間映射到高分辨率空間,最后與經過上采樣的參考幀相加獲得重建的高分辨率圖像,網絡中所有卷積層的卷積核大小均為3×3,中間層通道數設為128。

圖1 循環殘差注意力網絡結構

3.1 淺層特征提取

將t 時刻輸入網絡的低分辨率幀序列表示為:{It-1,It},其中It為參考幀,It-1為相鄰幀,先將低分辨率幀It-1、It與上一時刻的隱藏態特征Ht-1和輸出Ot-1輸入淺層特征提取模塊,用一層卷積運算和ReLU激活函數對輸入的特征信息進行初步提取,得到淺層特征圖,用公式表示為:

其中,σ( )· 表示ReLU激活函數,Conv( )· 表示卷積操作,[ ]· 表示按通道拼接,O?t-1是經過像素逆重組的上一時刻輸出幀,這一步操作是為了保證網絡的輸入尺寸一致。在初始時刻,上一步的輸出和隱藏態特征均初始化為零。

3.2 殘差注意力模塊

傳統的循環神經網絡隨著網絡加深會出現梯度消失,從而無法學習長距離依賴關系,He 等[13]提出使用殘差學習,引入殘差連接可以保證網絡在輸入特征不變的基礎上學習到新的特征,使網絡具有穩定提取深層特征信息的能力。實驗結果顯示,殘差連接可以有效解決梯度消失的問題。此外,由于殘差塊中的批量歸一化層(Batch Normalization Layer, BN 層)會對圖像特征進行歸一化,破壞原本的色彩分布和對比度信息,影響圖像的輸出質量,受Lim 等[14]啟發,本文將殘差塊中BN層移除,不僅可以提高網絡輸出質量,還能節約存儲資源和算力資源。

為了提高模型的表達能力,本文還在經過修改的殘差塊中引入通道注意力機制,形成殘差注意力模塊,對不同通道的特征圖賦予不同的注意力,使網絡集中學習圖片的高頻信息,提高辨別學習的能力,該模塊的結構如圖2所示。

圖2 殘差注意力模塊

在t 時刻,將經過淺層特征提取的初始淺層特征圖輸入第一個殘差注意力模塊,通過K個殘差注意力模塊對進行深層特征提取,具體過程如下:

在第k個殘差注意力模塊中,先輸入上一個模塊的輸出結果進行殘差特征學習,獲得殘差特征信息X kt:

再將輸入通道注意力結構,對進行全局平均池化,池化結果為一維張量Z,其中第c 個通道的池化過程為:

其中,Zc和分別表示通道向量Z和殘差特征信息的第c 個通道,H和W分別表示第c個通道特征圖的高和寬。

為了學習各通道間的依賴關系,使用卷積對Z 進行通道下采樣,使輸出通道數變為原來的1/r,再使用卷積進行通道上采樣,恢復原始通道數,生成各個通道的權重S:

其中δ( )· 表示sigmoid 函數,Ur和Dr分別表示比例因子為r的通道上采樣和下采樣,這里設置r= 16,通過卷積的方式使通道數按比例縮放,最后獲得各通道的注意力權重。

將輸出的注意力權重按通道加權到殘差特征信息的通道上:

最后,引入殘差連接,將經過通道注意力加權的殘差特征信息與輸入的特征信息相加獲得該殘差注意力模塊的輸出:

依次經過殘差注意力模塊組,學習到特征信息,再對其分別進行一次卷積得到深層特征信息Ft,進行一次卷積和ReLU激活函數得到隱藏態特征Ht:

3.3 像素重組模塊

如圖3 所示,亞像素卷積層的本質是將多通道的特征圖重新排列,從而完成從低分辨率張量TLR到高分辨率張量THR的重構,這個過程也可以稱為像素重組,即從H×W×c轉化為rH×rW×c r2,H和W分別為圖像的高和寬,r為比例因子。同理,為了在網絡輸入階段將上一時刻的高分辨率輸出Ot-1與低分辨率幀拼接起來,也需要對Ot-1進行像素逆重組,保證網絡的輸入尺寸一致,像素逆重組與像素重組過程相反,它將圖像的空間特征重新排列為多通道的下采樣子圖像,且不會造成信息丟失。

圖3 像素重組模塊

網絡的最后將經過殘差注意力模塊組生成的深層特征信息Ft進行亞像素卷積,并與經過上采樣的低分辨率參考幀It相加,獲得高分辨率輸出Ot:

其中,PS( )· 表示亞像素卷積,US(·)表示雙線性插值上采樣。

4 實驗設置與結果分析

4.1 數據集與實驗參數

本文采用Vimeo?90k 數據集作為訓練集,該訓練集涉及大量的場景和運動,包含64612個7 幀的視頻段,每幀圖像尺寸為448×256。訓練時將高分辨率圖像先裁剪成256×256 的大小,再使用σ= 1.6 的高斯模糊和比例因子為4 的下采樣,最后獲得64×64 的低分辨率圖像。另外,選取Vid4、UDM10、SPMCS 數據集作為測試集評估模型的效果。

在訓練階段,使用PyTorch構建網絡,設置初始學習率為1 × 10-4,每60個epoch乘0.1直至結束,共訓練70個epoch,mini batch 設置為8,總迭代次數約560000次。使用Adam 優化器優化網絡參數,設置β1= 0.9 ,β2= 0.999,權重衰減為5 × 10-4。在損失函數的選取上,Zhao 等[15]經過實驗證明,在圖像復原領域L1 損失比L2 損失更容易得到更小的損失值,這是由于L2 損失容易陷入局部最優點,且L2 損失會導致圖像過于平滑[16],相比之下,使用L1 損失更能提升模型性能,獲得更好的視覺效果,因此本文選擇使用L1損失作為損失函數,計算公式如下:

其中,N為輸入網絡的總幀數。

模型測試階段,采用峰值信噪比(Peak Signal?to?Noise Ratio,PSNR)和結構相似性系數(Structural Similarity Index Measure,SSIM)作為客觀評價指標,在測試集上逐幀計算超分辨率輸出幀與原高分辨率幀在亮度(Y)通道上的PSNR 和SSIM,PSNR值越大,說明超分辨率重建的效果越好,SSIM 越接近1,則生成的圖像與原圖的結構相似度越高,視覺效果越好。

4.2 網絡深度驗證

在保持其他參數不變的前提下,分別設置了由10個和20個殘差注意力模塊構成的網絡進行網絡深度驗證實驗,在測試集上的測試結果如表1 所示。實驗證明,PSNR和SSIM隨著殘差注意力模塊的增加而增加,這是因為超分辨率的本質是學習低分辨率圖像和高分辨率圖像間的非線性映射,更深層的網絡模型就意味著更好的表達能力,模型通過加深網絡學習到更復雜的變換,從而可以擬合更復雜的特征輸入。但一味地加深網絡可能使PSNR 和SSIM 趨于飽和或者導致梯度不穩定,從而造成模型性能難以提升甚至下降。此外,加深網絡帶來的龐大的數據量和計算量使其對硬件設備的要求也隨之增加,因此需要選擇合適的網絡深度進行訓練。經過對比,綜合考慮模型性能和訓練成本等問題,本文最終選用20個殘差注意力模塊進行實驗。

表1 網絡深度驗證結果對比(PSNR(dB)/SSIM)

4.3 算法先進性驗證

將本文提出的算法與傳統的雙三次插值(Bicu‐bic)算法以及FRVSR[6]、D3D[3]、RBPN[9]和DUF[4]等多個基于深度學習的視頻超分辨率算法在Vid4數據集上進行比較,使用PSNR 和SSIM 作為4 倍超分辨率重建效果的評價指標,比較結果如表2 所示。根據表2 可知,本算法在Vid4 數據集上的PSNR和SSIM 分別為27.39dB 和0.835,超分辨率效果總體上優于以上其他模型的效果,PSNR 有0.08-3.94dB 的提升,SSIM 提升0.003-0.219。此外,各模型的參數量與PSNR 的對比關系如圖4 所示??傮w來說,本文提出的模型參數量適中,與模型的性能取得了較好的平衡。

表2 各模型在Vid4上的測試結果對比(PSNR(dB)/SSIM)

圖4 各模型參數量與PSNR對比關系

圖5對比了不同方法在Vid4 測試集中的calendar和city 兩個場景進行4 倍超分辨率重建后的視覺效果。放大圖中藍色框區域,通過細節對比可以看出,本算法在calendar 中恢復的文字及紋理清晰,細節豐富,顏色過渡相比其他方法也更接近于真實圖像。在city 中,經其他方法生成的圖像均有一定程度的模糊和結構失真,從細節圖可以看出本文算法生成的圖像中,墻面的網格結構更加清晰,能較好地恢復出建筑物的外觀細節。再選取SPMCS 和UDM10 中的視頻片段進行比較,從圖6 中auditorium 的放大區域可以看出,相比于其他方法,本算法生成的圖像中鋼架的形變較少,邊界清晰,墻上數字的輪廓也相對更好辨認。在Jvc_009_001 的視頻幀中,仔細觀察屋檐和木門部分,D3D 和DUF 生成的圖片相對更模糊,尤其是屋檐的瓦片,與原圖有較明顯的區別,本算法對屋檐和木門的恢復則具有更好的視覺效果,在細節上更接近原圖。

圖5 各模型在Vid4上的重建結果對比

圖6 各模型在SPMCS和UDM10上的重建結果對比

5 結論

本文提出的循環殘差注意力網絡以低分辨率視頻幀以及前一時刻的輸出幀和隱藏態特征作為輸入,使用加入通道注意力機制的殘差塊進行特征提取,經過亞像素卷積提升分辨率再與上采樣的參考幀相加,重建出高分辨率視頻幀。通過與傳統的雙三次插值和其他基于深度學習的視頻超分辨率算法進行對比實驗,驗證了本文算法可以更有效地利用幀間信息恢復更多的高頻細節,減輕圖像噪聲,主觀視覺效果更好,客觀評價指標更優,但在大運動場景中的重建效果還有待加強,后續將繼續研究改進。

猜你喜歡
殘差分辨率注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
EM算法的參數分辨率
原生VS最大那些混淆視聽的“分辨率”概念
“揚眼”APP:讓注意力“變現”
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合