?

基于雙重注意力和分層感知表征的IQA 方法

2024-01-20 15:16史再峰佟博文孔凡寧
關鍵詞:特征提取注意力權重

史再峰 ,佟博文,孔凡寧,康 泰,羅 韜

(1.天津大學微電子學院,天津 300072;2.天津市成像與感知微電子技術重點實驗室,天津 300072;3.天津大學智能與計算學部,天津 300072)

隨著多媒體技術和網絡技術的發展,圖像信息逐漸成為人們日常獲取外界信息的最主要媒介.客觀圖像質量評價方法(image quality assessment,IQA)旨在利用機器代替人類自動評價圖像質量,是計算機視覺領域的一項基礎性研究.高精度的全參考圖像質量評價方法對圖像壓縮[1]、圖像增強[2]、圖像拼接[3]以及圖像生成等[4]任務具有指導作用,具備很高的實用價值.傳統方法通過設計特征描述符獲取信號保真度、結構相似度[5-7]、梯度[8-9]、色度[10]等自然場景統計量(natural scene statistics)而后通過池化、支持向量機(support vector machines)等方式對空頻域特征進行融合,對于一些特定失真類型效果較好.然而,在應對復雜的圖像失真類型和信息豐富的圖像內容時,特征提取的角度相對片面,難以充分表征圖像失真信息,同時特征融合的效果有待提升,與人類主觀評價的一致性較差[11].

基于深度學習的方法通過數據驅動的方式自動獲取圖像特征,Zhang 等[12]已經用實驗證明在大型數據集上訓練的人工神經網絡提取的多通道特征比傳統的圖像質量評價特征描述符更加有效,并且可以作為圖像質量感知量化的基礎.Gao 等[13]提出了DeepSim,首先利用深度卷積神經網絡提取兩幅圖像的分層特征,然后評估多層特征的局部相似性,并將局部相似性匯總到最終質量分數.Ding 等[14]利用改進的卷積神經網絡提取分層特征,將圖像轉換為多尺度的超完備表示,從紋理相似性和結構相似性等角度評估所提取得到的多通道特征圖,將其映射為圖像質量分數,實現了比DeepSim 更好的性能.

圖像質量評價任務具有需要符合人類主觀感知的特殊性,將深度學習與人類的視覺感知機制相結合是進一步提升全參考圖像質量評價效果的關鍵[15].注意力機制表明人類在觀察圖像時,對不同空間的關注度不同.Zhang 等[16]利用該特性在計算局部質量圖和匯集質量得分時用加權函數反映局部區域重要性.Shi 等[17]提出了一種基于邊緣特征分割的全參考圖像質量評估方法,用不同特征描述不同區域的像素,有效地提升了算法性能,這些研究表明合理利用視覺注意力是提升特征提取效果的關鍵.

視覺感知是一個分層的過程,人類在理解圖像信息時存在自下而上的分層感知過程,即先理解圖像底層紋理,然后獲得局部區域信息,最后形成復雜的圖像高級語義信息[18],不同特征的重要性差異應該在特征融合過程中得以體現.

基于上述分析,本文提出了基于雙重注意力機制和分層感知表征的全參考圖像質量評價方法.該方法基于人類視覺系統(human visual system,HVS)分層感知以及非線性的特點,利用卷積神經網絡提取的分層多通道特征對圖像信息進行分層感知表征,符合HVS 在感知圖像信息時由淺入深的過程.將空間注意力機制[19]引入分層特征提取網絡中,其內部含有可學習參數,能夠通過訓練迭代對特征圖在同一通道中不同位置像素進行加權處理,提升多通道特征的表征能力.基于通道注意力機制[20]設計了分組通道注意力模塊(group channel attention block,GCAB)優化特征融合過程,加強了卷積神經網絡在通道維度的建模能力,可以自適應地校準不同通道的感知差異特征在評價圖像質量時的重要性差異,提升特征融合的效果.

1 本文方法

1.1 方法整體結構

HVS 是一個高度復雜的非線性系統,感知距離在像素空間中并非是均勻的,人類在感知圖像信息時對于二維空間的關注度也存在差異[21].圖像失真會導致不同空間的像素和不同級別的特征產生差異性退化,在圖像質量評價問題中表現為不同區域的像素數據和不同級別的特征對于圖像質量的影響程度是不同的.在深度學習領域,注意力機制可以嵌入到卷積神經網絡中,反映HVS 對于區域或特征的敏感性.本文引入注意力機制,所提出的方法命名為DAHF-IQA,其整體結構如圖1 所示.主要包括特征提取和特征融合兩個階段.

圖1 DAHF-IQA的整體結構Fig.1 Overview of the proposed image quality assessment method based on dual attention and hierarchical features

在特征提取階段,首先利用空間注意力分層特征提取網絡分別對參考和失真圖像進行特征提取,通過非線性映射將圖像轉換為多通道的分層特征,作為圖像信息的分層感知表征.特征提取網絡采用了Siamese 結構,即共享權重的一對結構相同的網絡,將參考圖像和失真圖像映射到同一感知空間,建模感知映射的非線性關系.為了在特征提取階段盡量多地保留圖像信息,特征提取網絡會從參考圖像和失真圖像中提取內容豐富的3 個級別的多通道特征圖作為圖像信息的分層感知表征.之后將分層的多級別特征進行池化變為相同尺寸,并進行拼接.在映射到同一感知空間后,感知特征經過相減得到分層感知差異特征,作為圖像失真信息的表征.

在特征融合階段,由于失真對于不同級別的特征的影響程度有所差異,不同級別的特征圖以及同一級別內部不同通道的特征圖對圖像質量評估具有不同的重要性.筆者設計了通道注意力特征融合網絡將分層的差異特征進行融合,突出對于圖像質量影響較大的通道特征,忽略冗余特征.首先通過設計分組通道注意力模塊整合通道維度信息,對分層感知差異特征進行加權處理,之后利用卷積和池化層對加權后的特征進行逐步降維,將失真圖像最終映射為客觀質量評價分數.

1.2 空間注意力分層特征提取網絡

人類的視覺注意力在二維空間上的側重區域存在差異,在進行圖像質量評價的過程中表現為對于失真所在的空間區域的關注度更高,因此空間注意力被集成到特征提取網絡中以改進特征提取效果.所提出的空間注意力分層特征提取網絡主要由殘差模塊(residual block,ResB)和空間注意力模塊(spatial attention block,SAB)構成.

1.2.1 殘差模塊和空間注意力模塊

為了有效解決深層神經網絡訓練時的梯度消失問題,殘差模塊[22]被集成到特征提取網絡中,其殘差性體現在主分支網絡建模的是輸出特征與輸入特征的差值關系.如圖2 所示,殘差模塊的跳躍分支由1×1 卷積構成,主分支由兩層3×3 卷積層和批量歸一化層以及激活函數ReLU 函數所實現,批量歸一化層的作用是防止梯度爆炸,與此同時加速網絡收斂速度.特征經過殘差模塊的計算過程可以表示為

圖2 殘差模塊和空間注意力模塊的結構Fig.2 Structure of residual block and spatial attention block

式中:Xin為輸入特征;F 表示主分支的兩層卷積網絡;Xout為輸出殘差模塊特征;θ為主分支卷積層權重.

空間注意力模塊旨在對視覺注意力在二維空間的非均勻特性進行建模表征.在該模塊內,輸入特征圖首先通過全局池化和平均池化降維,聚合通道維度的信息,并將結果基于通道進行拼接為一個兩通道的特征圖,然后經過一層卷積降維成單個通道,作為空間特征權重,經過sigmoid 激活后生成空間注意力特征圖,然后將輸入特征圖與空間注意力特征圖相乘,得到最終生成的空間加權后的特征.該過程可以表示為

式中:Fin為輸入到SAB 模塊的特征;AP 表示平均池化;Sig 表示sigmoid;MP 表示最大池化;Cov 表示卷積操作;Ms為空間注意力權重;Fout為從空間注意力模塊輸出的特征.

1.2.2 分層感知表征

卷積神經網絡對于圖像的處理過程與人類視覺系統對視覺信號的層次化感知過程具有相似之處,同樣存在一個從理解圖像低級簡單特征到形成高級復雜特征的一個逐漸加深的過程.網絡的不同層級特征具有不同的感受野和視覺復雜度,隨著網絡層數的增加,感受野逐漸擴大,特征圖的抽象程度逐漸增高,但在逐步形成高級的特征過程中會丟失圖像的底層紋理細節.對于圖像分類等高級計算機視覺任務,往往僅需要利用深層的語義特征.但在表征圖像失真信息時,由于失真類型復雜,僅利用單一級別的特征難以充分表征復雜的圖像的失真信息.深度神經網絡的不同層級特征對圖像質量評價的作用分別在于:較低層級特征可以更好地表征圖像底層特征(如局部紋理、邊緣、形狀等)在圖像失真過程所產生的退化,較高層級的特征可以更好地表征圖像高級信息(如空間位置信息、語義信息等)由于圖像失真導致的退化.因此筆者將不同級別的特征在通道維度進行拼合,將多尺度和視覺復雜度的特征圖共同作為圖像信息的表征,該過程可以表示為

式中:E 表示特征提取網絡;θe為特征提取網絡的參數;I 為輸入到特征提取網絡的圖像;Fli為第i 級的特征.圖像經過空間注意力分層特征提取網絡的處理后變為多級感知特征,實現了非線性映射.在同一感知空間內,將失真圖像和參考圖像的感知特征進行對應元素相減,獲得分層的感知差異特征,該過程可表示為

式中:Fdiff為感知差異特征;Iref為參考圖像;Idist為失真圖像.

1.3 通道注意力特征融合網絡

在圖像質量評價過程中,圖像失真會導致不同層級的特征產生差異性的退化,不同層級特征對最終圖像質量好壞的影響標準十分復雜,受失真類型和失真程度的影響較大,但無論在哪一層級上,參考圖像和失真圖像特征間的更大差異都意味著圖像的失真更加嚴重.在進行特征融合時,為了使得有效的特征圖得到更大的通道權重,無效或效果小的特征圖獲得較小的通道權重,筆者設計了分組通道注意力模塊GCAB,其結構如圖3 所示.由于感知差異特征內部不同級別的特征具有不同的尺度和視覺復雜度,直接計算全部通道特征圖的通道注意力權重的方式具有局限性,受金字塔分割注意力機制[23]的啟發,本文所設計的模塊將輸入多通道特征按特征等級進行分組,然后利用通道注意力權重模塊提取不同等級特征圖的注意力.輸入特征被分為F1、F2、F33 組.每組內部的通道注意力特征權重符Cawgi計算過程可以表示為

圖3 分組通道注意力模塊的結構Fig.3 Structure of group channel attention block

在通道注意力權重模塊CAWeight 中,特征圖先由平均池化和最大池化在空間維度上壓縮,從而將特征映射的空間信息聚合,得到兩個低維向量,再將向量送入到多層感知機(multi-layer perceptron,MLP)中,對低維向量權重通過迭代進行調整,并將低維向量對應元素相加,得到注意力向量.利用sigmoid 重新校準通道方向的注意力向量,合并生成通道注意力權重,其計算過程可表示為

為了實現不同組別間通道注意信息的交互,在不破壞原有通道注意向量的情況下融合交叉維度向量,即

式中Z 為拼合后的特征向量.在緊湊的分組通道注意力特征權重符Zi的指導下,跨通道使用軟注意,從而自適應地選擇不同的特征級別.軟賦值權重計算式為

式中:n 為通道數;Softmax 用于獲取全部通道的重新校準權重Catti,通過重新校準權重實現了組別內部通道和其他組別通道之間的交互.重新校準后的分組通道注意力權重體現了網絡對于多通道的分層感知差異特征的關注程度.然后,將重新校準權重與相應級別的特征圖相乘,輸出通道加權后的特征,計算過程可以表示為

經過GCAB 之后通過堆疊卷積層和池化層,對加權后的特征進行不斷的降維,最終經過全連接層輸出圖像所對應的客觀質量評估分數Q.筆者選用MAE 損失函數對網絡參數進行迭代,該過程可以表示為

式中MOS 代表圖像的主觀評分標簽值.

2 實驗設置與結果分析

2.1 實驗環境、數據集與訓練設置

2.1.1 數據集的準備

實驗中模型訓練和測試環境為:Windows10 系統,CPU 型號為Intel Core i5-9400F,GPU 型號為NVIDIA GeForce RTX 2080 8 GB,使用的PyTorch版本為1.6.0,CUDA 版本為11.0.

在圖像質量評價領域的諸多數據集中,本文采用3 個標準數據集LIVE[24]、CSIQ[25]、TID2013[26]對所提出的網絡進行訓練和驗證.這些數據集的標簽是平均主觀得分(MOS)或平均主觀得分差(DMOS).較高的MOS 或較低的DMOS 表示相應的圖像具有較高的感知質量.其中LIVE 數據集有5 種失真類型,每種失真類型有4~5 個失真級別,共包含由29幅原始圖像生成的779 幅失真圖像.CSIQ 數據集有6 種失真類型,每種失真類型有4~5 個失真級別,共包含由 30 幅原始圖像生成的 866 幅失真圖像.TID2013 數據集具有24 種不同的失真,每種失真有5 種不同的級別,共含有由25 張參考圖像生成的3 000 張扭曲的圖像,比LIVE 數據集和CSIQ 數據集大得多,也是所選用的全參考圖像質量評價的數據集中難度最大的一個.

2.1.2 網絡訓練及參數設置

所提出的網絡在PyTorch 中進行加速訓練,為了優化訓練過程,使用ADAM[27]算法對網絡參數向量進行更新,ADAM 算法中的超參數設置如下:β1=0.9,β2=0.999,ε=1×10-4.學習率初始化為1×10-5.在每個數據集中隨機選擇80%的失真圖像用于訓練,20%用于測試.在訓練和測試過程中,數據集基于參考圖像進行了數據集分割,避免產生內容重疊.

2.2 對比實驗結果分析

2.2.1 評價指標

本文采用了2 個通用性能評估指標:斯皮爾曼相關系數(Spearman rank-order correlation coefficient,SROCC)和皮爾森線性相關系數(Pearson linear correlation coefficient,PLCC)對DAHF-IQA 的性能進行客觀的量化分析.其中SROCC 僅與圖像質量分數的排序有關,可以有效衡量IQA 模型的預測單調性,其計算公式為

式中:L 為數據集中失真圖像的數量;mi為第i 幅失真圖像在數據集上的客觀質量評分序列中的分數排名;ni為失真圖像在該數據集上的主觀質量評分序列中的分數排名.

與SROCC 所不同,PLCC 并非關注客觀IQA 方法的預測單調性,而是用于描述主觀預測分數與客觀預測分數序列的線性相關性.PLCC 的計算過程可以表述為

式中:pi和i分別為數據集中第i 幅失真圖像的主觀和客觀圖像質量評分值;pm和m分別為數據集中失真圖像的主觀質量評分的平均值以及客觀質量評分的平均值.

對于以上兩種圖像質量評價指標,其取值范圍均在0~1 之間.指標的值更大可以說明IQA 方法性能更優秀,與人類主觀評價在單調性和線性度等方面的一致性更好.

2.2.2 整體性能對比與分析

在前文所述的數據集上將DAHF-IQA 與一些經典的全參考IQA 方法進行了對比實驗,實驗結果如表1 所示.從表中可以看出所提出的方法在3 個數據集上的SROCC 和PLCC 均高于0.930.相較于考慮信號保真度的PSNR,DAHF-IQA 在各個數據集上都取得了較大的領先,在TID2013 數據集上的SROCC值提升了0.302,從信號保真度的角度評價圖像質量的方法未考慮HVS 感知圖像信息的機制,與人的主觀判斷差距較大,而DAHF-IQA 采用分層感知差異特征表征失真信息,從多個視覺復雜度評估了參考圖像和失真圖像的差異,符合HVS 分層感知的特點,產生了與人類主觀更一致的結果.相較于考慮圖像結構相似性的SSIM[5]、DOG-SSIM[6]、DSSIM[7]等方法,所提出的方法在3 個數據集上同樣取得了較大的性能提升,這是由于DAHF-IQA 通過連續卷積和池化提取圖像局部特征,極大地豐富了感受野,比通過手工劃分圖像區域并運用統計方差計算圖像結構相似性的方式更加有效.相較于在圖像質量評價過程中考慮了梯度信息的FSIM[8]、GMSD[9],以及利用了色度信息的MDSI[10],DAHF-IQA 在3 個數據集上同樣具有性能優勢,原因在于所設計的卷積神經網絡通過數據驅動的方式從多個通道對圖像進行特征提取,在輸入階段將圖像視為3 個顏色通道的輸入,已經考慮了圖像色度等信息,同時在特征下采樣的過程中,特征通道數不斷增加,評判圖像質量的角度更加全面.與同樣使用卷積神經網絡提取圖像分層多級特征的方法DeepSim[13]和DISTS[14]等方法相比,本文方法通過引入雙重注意力建模人在評價圖像質量時的注意力模型,對圖像特征提取和融合過程進行了改進,同樣取得了一定的性能提升,在TID2013 數據集上的SROCC 值分別提升了0.092 和0.108.DAHFIQA 在6 項指標排名中的5 項位于所有對比方法的前3 位,充分體現了DAHF-IQA 的性能優勢.

表1 不同模型在3個數據集上評估結果對比Tab.1 Comparison of evaluation results of different models on three datasets

為了直觀描述主觀圖像質量評分與客觀圖像質量評分的關系,筆者繪制了DAHF-IQA 在3 個數據集上的預測散點圖,實驗結果如圖4 所示,圖中藍色圓點代表數據集中的圖像,斜線為數據點的線性擬合結果,橫軸代表客觀圖像質量評價方法對失真圖像的客觀預測得分,縱軸代表數據集中的主觀標簽值.從圖中可以看出,相較于SSIM,DAHF-IQA 的散點更好地集中于擬合曲線周圍,離散點數量大大減少,實驗結果直觀證明DAHF-IQA 的客觀預測質量分數與人類主觀評分的一致性良好.

圖4 SSIM與DAHF-IQA的散點圖Fig.4 Scatter plots of SSIM and DAHF-IQA

2.2.3 不同失真類型的性能對比

一個優秀的圖像質量評價方法應該對不同的失真類型均具有良好的魯棒性,TID2013 數據集有24種失真類型.為了展示所提出的方法應對不同失真類型圖像的效果,筆者在TID2013 數據集上進行了針對不同失真類型的實驗,結果如表2 所示.可以看出DAHF-IQA 在其中的16 種失真類型上位于所有對比方法的前2 位.在一些對比方法表現較差的#7(量化噪聲)、#15(局部塊狀失真)、#16(平均漂移)等失真類型上提升十分明顯.經典方法針對一些特定的失真類型達到了極高的水平,但往往對某種特定失真類型表現出較弱的性能,如VSI 在#11(高斯噪聲)和#12(JP2K 失真)等類型上達到最優水平,但它對#17(對比度變化)等失真表現很差.SPSIM 由于利用超像素評價圖像質量,在#24(稀疏采樣與重建)表現較好,但它對#15(局部塊狀失真)表現較差.DAHF-IQA 采用分層感知的策略表征圖像信息,對眾多的失真類型無一表現出過于明顯的性能劣勢,證明了本文提出的方法特征表征能力強,特征融合過程合理,對于復雜失真的魯棒性更好.

表2 針對單一失真類型的SROCC比較Tab.2 Comparison of SROCC for a single distortion type

2.3 空間注意力權重可視化分析

本文使用的空間注意力模塊可以通過聚合通道維度的信息生成空間注意力權重,對特征圖進行空間上的自適應加權處理.空間注意力權重Ms可以反映經過在數據集上訓練后,分層特征提取網絡對于圖像不同區域的關注程度.為了更加直觀地展示空間注意力模塊經過訓練迭代所學到的信息,筆者選取了TID2013 數據集中的5 類失真圖像,并對空間注意力權重進行了可視化,結果如圖5 和圖6 所示.

圖5 空間注意力權重可視化1Fig.5 Visualization 1 of spatial attention weight

圖6 空間注意力權重可視化2Fig.6 Visualization 2 of spatial attention weight

圖5(a)~(e)以及圖6(a)~(e)分別為參考圖像、局部塊狀扭曲失真圖像、高斯模糊失真圖像、JPEG2000 壓縮失真圖像、空間相關噪聲失真圖像.圖5(f)~(j)以及圖6(f)~(j)分別為特征提取網絡生成的空間注意力權重圖.通過圖5(f)與圖5(g)的對比結果以及圖6(f)與圖6(g)的對比結果,可以發現空間權重圖準確地定位了紅色方框所標注的局部塊狀扭曲失真的位置.同樣,通過圖 5(f)與圖5(h)的對比結果以及圖6(f)與圖6(h)的對比結果,可以看出空間注意力權重圖很好地反映了由于模糊失真而被破壞的圖像紋理所在的區域.另外,通過圖5(f)與圖5(i)的對比結果以及圖6(f)與圖6(i)的對比結果,可以發現空間注意力權重圖有效地定位了JPEG2000 壓縮導致的方塊效應所在的位置.最后,通過圖5(f)與圖5(j)的對比結果以及圖6(f)與圖6(j)的對比結果,可以發現空間注意力權重圖中增加的像素點定位了失真圖像中所添加的空間相關噪聲的位置.這些可視化結果直觀展現了空間注意力機制在處理不同失真類型的圖像時均有顯著效果,可以在特征提取階段建模人類對于圖像不同空間區域的關注度差異,使特征提取網絡所提取的分層感知特征可以更充分表征圖像的失真信息.

2.4 消融實驗及結果分析

為了證明所提出的各項改進策略的有效性,并評估各項改進措施對圖像質量評價方法的提升效果,筆者在CSIQ 數據集上進行了消融實驗.將去除了雙重注意力機制模塊且僅保留分層特征的網絡結構作為基線網絡,在此基礎上逐步增加改進策略.

實驗結果如圖7 所示,可見在基線網絡情況下,SROCC 值為0.926,已經優于SSIM、PSNR 等傳統方法,證明了所采用的分層感知表征的有效性.在基線網絡的基礎上引入空間注意力機制后,SROCC 達到0.943,相比基線網絡提升了0.017,在特征提取階段引入空間注意力機制有效加強特征提取效果,增強了分層特征對于失真信息的表征能力.在基線網絡的基礎上加入分組通道注意力模塊后,SROCC 達到0.954,相較基線網絡提升了0.028,印證了所設計的分組通道注意力模塊可以有效對多通道特征融合過程進行優化.在使用全部改進策略后,SROCC 達到了最高的0.963.總之,所有改進策略均使得IQA 方法表現出高于基線網絡的性能,證明了每一項改進策略的有效性.此外,引入雙重注意力機制的改進策略的組合可以產生優于引入單個注意力的性能,證明了兩種改進機制可以相互促進,使圖像質量評價效果有更大的提升.

圖7 消融實驗結果Fig.7 Results of ablation study

3 結 語

本文提出了一種基于雙重注意力機制和分層感知表征的全參考圖像質量評價方法.該方法采用分層表征的策略從不同的尺度和視覺復雜度對參考圖像和失真圖像的信息進行表征,以模擬人類視覺系統在感知圖像信息時由淺入深的過程.利用空間注意力機制對特征圖的重點區域進行校正,強化了多通道特征對圖像失真信息的表達能力;同時采用分組通道注意力模塊對分層感知特征的權重進行自適應校準,優化了特征融合過程.可視化實驗及消融實驗的結果證明,引入雙重注意力機制可有效提升圖像質量評價方法的性能.在3 個標準評測數據集中的實驗結果證明,本文所提出的DAHF-IQA 與人類主觀評價具有更好的一致性.不同類型失真實驗結果證明,本文提出的方法可以有效應對多種復雜的圖像失真類型.

猜你喜歡
特征提取注意力權重
讓注意力“飛”回來
權重常思“浮名輕”
基于Daubechies(dbN)的飛行器音頻特征提取
為黨督政勤履職 代民行權重擔當
基于公約式權重的截短線性分組碼盲識別方法
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
基于MED和循環域解調的多故障特征提取
層次分析法權重的計算:基于Lingo的數學模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合