?

基于深度學習的視頻壓縮綜述

2024-05-02 23:44
電視技術 2024年1期
關鍵詞:后處理編碼器殘差

嚴 昊

(福州大學 物理與信息工程學院,福建 福州 350108)

0 引言

自20 世紀80 年代以來,高效視頻壓縮一直是多媒體領域的一項重要課題。影像設備的更新迭代帶來了更佳的觀看體驗,傳輸和存儲的數據量激增,因此越來越需要擁有更高效的壓縮方案。傳統視頻編碼標準,如動畫專家群組(Moving Picture Experts Group,MPEG)、高級視頻編碼(Advanced Video Coding,AVC)、高效視頻壓壓縮編碼(High Efficiency Video Coding,HEVC)和通用視頻編碼(Versatile Video Coding,VVC)等在視頻壓縮任務取得了令人矚目的性能效果[1]。近年來,神經網絡已經在各領域獲得了廣泛應用。在壓縮編碼領域,神經網絡能夠將像素域的信息轉換成更緊湊的潛在表征,從而提高視頻的壓縮性能。此外,神經網絡中的模型參數可以通過大量的視頻樣本學習得到,減輕模型對手工設計的依賴。目前,基于深度學習的視頻壓縮已經成為一種擁有巨大潛力的視頻壓縮方案。

1 視頻壓縮框架概述

圖像視頻壓縮的本質是運用算法剔除圖像與視頻信號中的多種多余信息,如空間上的重復、時間上的冗余、視覺上的非必要元素以及編碼層面的額外信息等。相比于圖像壓縮只在空間域減少冗余,視頻壓縮需要利用連續幀之間的時間相關性減少時域冗余。傳統的視頻編碼標準,如HEVC 是基于塊結構的混合編碼框架?;旌暇幋a框架主要包括幀內預測、幀間預測、變換量化、熵編碼和去塊濾波等模塊[2]。在視頻壓縮框架中應用深度學習技術時,可以將基于深度學習的視頻壓縮分為兩類,分別為基于深度學習的混合式視頻壓縮和基于深度學習的端到端視頻壓縮。其中:基于深度學習的混合式視頻壓縮是在傳統混合編碼框架的基礎上,利用神經網絡模型替換原有的手工模塊;基于深度學習的端到端視頻壓縮則是全部利用神經網絡來進行視頻的壓縮與解壓。

2 基于深度學習的混合式視頻壓縮

基于深度學習的混合式視頻編碼是將深度學習與傳統視頻編碼器相結合的方法。根據將深度學習應用于視頻編碼框架的不同位置,將基于深度學習的混合視頻編碼分為基于深度學習的編碼器優化和基于深度學習的后處理兩類。

2.1 基于深度學習的編碼器優化

基于深度學習的編碼器優化是針對傳統視頻編碼框架中的特定模塊,利用神經網絡模型進行優化。YAN 等人[3]揭示了分數插值問題中的可逆性特性,即分數插值濾波器不僅應該從整數樣本生成分數樣本,還應該以可逆的方式從分數樣本中恢復整數樣本,提出了基于卷積神經網絡(Convolutional Neural Network,CNN)的可逆性驅動插值濾波器來提升編碼性能。ZHANG 等人[4]則通過引入可變形卷積層和生成對抗網絡,進一步提升了插值濾波器的性能。DING 等人[5]通過使用CNN 生成更高質量的虛擬參考幀,實現了更高效的幀間預測,由此提升壓縮性能。HUANG 等人[6]提出了一種基于神經網絡的逐幀濾波方法,用于提升幀內編碼的性能,并消除幀內壓縮偽影。HU 等人[7]提出了一種分辨率自適應的光流編碼框架,利用全局和局部多分辨率光流圖的表示,智能選擇最佳分辨率,以實現視頻的高效壓縮。LIU 等人[8]提出了多模式視頻壓縮框架,能夠適應不同的運動模式和熵模型,通過基于塊的模式集成和雙模熵編碼方案,實現了更好的視頻壓縮性能。此外,還有一些方法將深度學習應用于環內濾波器模塊[9-10]。通過使用CNN 建立重建視頻和未壓縮視頻之間的映射關系,由此明顯改善壓縮視頻的質量。

2.2 基于深度學習的后處理

基于深度學習的后處理將深度學習用于視頻編碼的后處理階段,通過去噪、增強、修復等操作,減少壓縮帶來的失真,提高解碼后的視頻質量。YANG 等人[11]將基于深度學習的方法應用于解碼端,以提高單幀視頻的質量。近年出現了許多基于多幀的質量增強方法。DENG 等人[12]提出使用一個時空可變形融合方案,對目標幀及其相鄰的多個參考幀進行融合的方法,實現了對壓縮視頻的增強。ZHAO 等人[13]提出了一種遞歸可變形時空注意力模塊,遞歸地將前一幀估計的隱藏特征與當前特征相結合。LUO 等人[14]提出了一種新的端到端網絡,稱為粗到精細的時空信息融合,通過預測更大接受域的更好的偏移量來提高壓縮視頻的質量。然而,這些方法沒有考慮鄰域幀的質量高低,因此許多高質量多幀增強方法被提出。這些方法在根據定位峰值質量幀,利用相鄰的高質量幀增強低質量幀,大大降低了壓縮視頻幀間的質量波動[15-16]。

3 基于深度學習的端到端視頻壓縮

基于深度學習的圖像編碼成功推動了基于深度學習的視頻壓縮框架的發展。與圖像編碼相似,基于深度學習的端到端視頻編碼旨在借助深度學習實現完整的編解碼框架。2019 年,LU 等人[17]提出了一項開創性的工作,利用卷積神經網絡替換了傳統編碼框架的各個模塊,實現了第一個端到端視頻壓縮框架。近年來,人們獲得了越來越多的端到端視頻壓縮研究成果,可以將這些研究分為兩類,分別為基于殘差編碼的端到端視頻壓縮和基于條件編碼的端到端視頻壓縮。

3.1 基于殘差編碼的端到端視頻壓縮

殘差編碼源自傳統的視頻編碼標準編碼器,先生成運動補償預測,后對其與當前幀的殘差進行編碼。YLMAZ 等人[18]提出了一種學習型分層雙向視頻編解碼器,結合了分層運動補償預測和端到端優化的優點。LIU 等人[19]先將每個視頻幀用低維的潛空間變量表示,設置了一個卷積長短期記憶網絡,用于利用視頻幀序列的時間相關性來預測未來的潛變量表示,并通過生成式對抗網絡恢復視頻的重建幀。HU 等人[20]提出了一種特征空間視頻編碼網絡,通過在特征空間內執行所有關鍵操作,包括運動估計、運動壓縮、運動補償和殘差壓縮實現視頻編碼。ZHAO 等人[21]提出了一種端到端的深度視頻編解碼器,將視頻壓縮模塊和視頻后處理模塊聯合進行優化。

3.2 基于條件編碼的端到端視頻壓縮

基于條件編碼的端到端視頻壓縮將時序上的相鄰幀或者特征用作當前幀的編碼條件信息來提高壓縮效率。THEO 等人[22]首次使用條件編碼來編碼前景內容。LI 等人[23]正式提出了一個深度上下文視頻壓縮框架,利用特征域的上下文信息作為條件,有助于視頻高頻內容的重建,并實現了從預測編碼到條件編碼的轉變。此外,該作者后續的工作通過引入特征傳播和多尺度時間上下文進一步提高了壓縮比[24]??紤]到大多數現有的視頻編解碼器直接使用來自圖像編解碼器的現有熵模型來編碼殘差或運動矢量,并未充分利用視頻中的時空特征,LI 等人[25]提出了一個強大的神經視頻編解碼器熵模型,有效捕捉了視頻的時空特征,推動了基于深度學習視頻編解碼器的發展。

4 總結與展望

基于深度學習的視頻壓縮技術的研究在過去幾年取得了顯著進展。通過利用大規模視頻數據集訓練得到的神經網絡模型替換手工設計的編碼器模塊,不僅提高了編碼器的壓縮性能,而且提升了自適應的泛化能力,降低了其對手動設置參數的依賴。此外,將深度學習應用于壓縮視頻后處理階段,更有利于提取整個視頻序列時空域信息來減少視頻壓縮造成的失真。但是,針對編碼模塊優化和壓縮視頻后處理的深度學習視頻壓縮方案是基于傳統視頻編碼框架進行改進的,神經網絡模型與傳統編碼器模塊間并不能完全適配,因此壓縮性能的提升存在一定的限制。

基于此,目前出現了許多基于深度學習的端到端視頻編碼方案。這類方法通過深度學習構建整個編解碼框架,通過權衡碼率與重建視頻質量的損失函數,訓練得到一個最優的視頻壓縮模型,大大提升了壓縮性能。得益于深度學習在提取更緊湊的潛向量表示的強大能力,這類方法具有巨大的發展潛力。然而,這類方法為了提升視頻壓縮性能增加了網絡模型的參數量,犧牲了一定的時間效率,未能達到實時解壓。此外,端到端的視頻壓縮方案通常訓練多個模型來適配不同的碼率要求,成倍增加了模型的訓練時間。

未來基于深度學習的視頻壓縮趨勢不僅要進一步提升壓縮性能,而且要考慮時間復雜度。隨著第五代移動通信技術(5th Generation Mobile Communication Technology,5G)和邊緣計算的不斷發展,基于深度學習的視頻壓縮需要更好地滿足低延遲和實時性的要求,以支持實時視頻傳輸和互動應用。

5 結語

近年來,爆炸性增長的視頻數據量給傳輸和存儲帶來了更大壓力,使得視頻壓縮研究的重要性越來越凸顯,而深度學習的蓬勃發展給視頻壓縮提供了技術支持。本文介紹視頻壓縮的框架,討論視頻壓縮的分類,詳細闡述基于深度學習的混合式視頻壓縮和于深度學習的端到端視頻壓縮的現有工作。其中,基于深度學習的混合式視頻壓縮可分為基于深度學習的編碼器優化和基于深度學習的后處理,基于深度學習的端到端視頻壓縮可分為基于殘差編碼的端到端視頻壓縮和基于條件編碼的端到端視頻壓縮。文章對現有方法進行了總結,分析了目前研究存在的不足,以期為基于深度學習的視頻壓縮的未來發展提供借鑒。

猜你喜歡
后處理編碼器殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
果樹防凍措施及凍后處理
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
乏燃料后處理的大廠夢
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設計
乏燃料后處理困局
JESD204B接口協議中的8B10B編碼器設計
平穩自相關過程的殘差累積和控制圖
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合