?

多層特征融合與語義增強的盲圖像質量評價

2024-04-09 01:41趙文清許麗嬌陳昊陽李夢偉
智能系統學報 2024年1期
關鍵詞:語義卷積分數

趙文清,許麗嬌,陳昊陽,李夢偉

(1.華北電力大學 控制與計算機工程學院, 河北 保定 071003; 2.復雜能源系統智能計算教育部工程研究中心,河北 保定 071003)

圖像在采集、存儲、傳輸中可能存在著模糊、噪聲等失真問題[1]。圖像質量評價(image quality assessment, IQA)旨在為各種失真圖像進行質量的評級打分,對多種圖像處理算法的評估、改善圖像的視覺體驗具有重要意義。最直接的圖像質量評價方法是根據人類的視覺感知進行評分,但是這種方法會被人的主觀因素所影響,且耗時費力。隨著計算機技術的不斷發展,在沒有人工干預的情況下,可自動進行圖像的質量評價[2]。全參考圖像質量評價算法要求利用高清晰度、無失真圖像作為參照,傳統的全參考圖像質量評價算法有峰值信噪比算法(peak signal to noise ratio,PSNR)[3]和文獻[4]提出的結構相似度算法(structural similarity index measure, SSIM) 等。半參考圖像質量評價算法僅利用無失真圖像的部分特征即可評估圖像的質量,如文獻[5]實現的綜合多尺度幾何分析算法。但是,現實中的失真圖像很難找出對應的無失真圖像。無參考圖像質量評價(no reference image quality assessment, NRIQA)算法不需要使用參考圖像,通過提取圖像的失真特征對圖像進行評價,在實際中有著廣泛的應用[6]。

盲/無參考圖像空間質量評估器(blind/referenceless image spatial quality evaluator, BRISQUE)[7]算法將圖像的高斯分布特征作為質量分數的回歸特征?;诟唠A統計聚合的盲圖像質量評估(blind image quality assessment based on high order statistics aggregation, HOSA)算法[8]提取碼本中圖像的歸一化均值、方差和協偏度等特征,通過計算碼本中圖像和測試圖像之間的特征差異來進行質量分數的回歸。以上方法需要從失真圖像中提取人為設計的圖像特征,要求人們具有足夠的先驗知識,具有一定的局限性且性能提升較慢。

鑒于深度模型具有很強的特征抽取能力,越來越多的學者將其應用到圖像質量評價領域[9]。用于無參考的加權平均深度圖像質量評估(weighted average deep image quality assessment metric-no refenence, WaDIQaM-NR)[10]通過堆疊多個卷積層和池化層自動提取與畸變有關的特征,并將圖像分割成許多圖像塊,對圖像塊的分數進行加權操作來得到整幅失真圖像的質量分數。分級退化級聯卷積神經網絡(cascaded convolutional neural network with hierarchical degradation concatenation,CaHDC)[11]考慮了人類視覺系統中分層感知機制,利用卷積神經網絡(convolutional neural network, CNN)學習退化特征,實現質量的預測。深度雙線性卷積神經網絡(deep bilinear convolutional neural network, DB-CNN)[12]分別設計針對合成失真和真實失真的CNN模型來提取失真特征,采用雙線性池進行結合,最后利用全連接層進行質量分數的回歸。文獻[13]利用數據驅動的方式,將大量帶有標記的畸變圖像映射為質量分數,使無參考圖像質量評價(no reference image quality assessment, NR-IQA)算法在合成失真圖像數據集上的性能得到了顯著提高。然而,以上方法考慮的是圖像退化的全局信息,而真實情況下,大多數畸變都是局部畸變,而且人的視覺系統對局部畸變十分敏感,從而導致以上算法在面對真實失真圖像時表現不佳。自適應超網絡引導下的野外圖像質量盲評估算法(blindly assess image quality in the wild guided by a self-adaptive hyper network,HyperIQA)[14]首次將不同層次的局部失真特征進行提取聚合。多尺度特征逐層融合的深度神經網絡(deep neural network based on multi-scale features fusion layer-by-layer, MsFF-Net)[15]通過逐層融合相鄰的尺度特征,獲得了更能精確表征圖像質量的多尺度失真特征。從補丁到圖片的盲圖像質量測量算法(from patches to pictures blind image quality measurement, P2P-BM)[16]構建了基于圖像區域的深度架構,用于學習生成局部的圖像質量分數以及全部的圖像質量分數。以上3種方法充分考慮到了圖像細粒度的局部畸變在評價過程中的作用,在野生圖像質量挑戰數據集(live in the wild image quality challenge database, LIVEC)[17]和康斯坦茨真實圖像質量數據庫(konstanz authentic image quality 10k database,KonIQ-10k)[18]上性能得到了明顯的提升。

為了兼顧圖像的局部和全局信息,往往對相鄰層的特征構建金字塔結構,但是會造成語義跨度較大的問題,而且簡單的特征融合不能有效地提取失真圖像的細節信息[19]。在面對不同內容時,人們觀察圖像的感知方式并不相同,IQA任務應與圖像的語義信息高度相關。真實失真圖像中內容多種多樣,存在著各種局部和非局部的失真,質量評價算法需要同時考慮失真圖像中的語義信息和局部信息[19]。盡管以上方法中的回歸損失對于質量預測任務十分有效,但是沒有考慮圖像塊之間的排序關系[20]。

因此,本文針對以上存在的問題,提出了多層特征融合和語義增強相結合的盲圖像質量評價算法(multi-level feature fusion and semantic enhancement for NR, MFFSE-NR),將失真圖像塊輸入到深層特征提取網絡,提取出局部和全局特征,利用特征融合模塊對各個特征進行分層融合,然后對各個層次的特征進行自適應池化,最后通過全連接層得到每個輸入圖像塊的分數;為了更好地利用圖像語義信息,設計語義特征增強模塊,捕獲長距離的上下文關系,使用語義信息為全連接層生成參數??紤]預測分數和主觀分數之間排名的一致性,設計帶有相對排名信息的混合損失函數Lmix。

1 相關技術和理論

1.1 Res2Net50網絡

本文選取Res2Net50[21]網絡作為主干網絡,結構如圖1所示。Res2Net50將ResNet50[22]的bottleneck中的3×3卷積進行多尺度解耦,以進行多尺度的特征提取。首先是1×1的卷積運算,之后對通道進行分組,圖1中組數scale為4,第1組的特征向下傳遞,第2組的特征經過一個3×3卷積進行特征提取,由此特征提取的感受野隨之改變,以此類推,越到后面的組感受野越大,最后將各個組的特征進行拼接還原,再次使用1×1卷積融合通道信息來提取同一層次的多尺度特征。本文中scale取4,每次拆分中通道數width取26。

1.2 特征金字塔網絡

為了有效識別目標檢測任務中的多尺度目標,特征金字塔網絡(feature pyramid networks,FPN)采用自頂向下的結構將上層具有高級語義信息的特征圖進行上采樣,與低層具有細節信息的特征圖逐元素相加,把來自不同卷積層的不同表征信息融合在一起,實現多層特征的融合和增強。

以ResNet作為特征主干網絡為例,FPN選取conv2、conv3、conv4、conv5層的最后一個殘差塊的輸出特征組成特征金字塔。每層特征圖首先在橫向上進行1×1卷積,然后將上一層特征圖進行自頂向下的上采樣,放大到上一層特征圖一樣的大小,將二者生成的特征圖通過相加的方式進行融合,橫向連接之后的特征圖再次經過3×3的卷積得出最終的特征金字塔。

1.3 通道注意力模型

注意力機制可以為網絡生成更具有辨別能力的特征,關注更需要關注的信息而忽略無關的信息。

SENet是通道注意力機制的代表模型,可以嵌入在各種網絡結構中改善性能。SENet首先利用全局平均池化(global average pooling, GAP)對W×H×C的特征圖進行壓縮,將每個通道上的空間特征進行編碼,得到1×1×C的全局特征圖;然后利用2個全連接層先降維再進行升維,實現通道之間的交互,得到1×1×C大小的向量;最后經過非線性激活函數Sigmoid生成每個通道的權重,將其與原始特征圖相乘,得到加權后的通道特征。

1.4 擴張卷積

擴張卷積最早出現在DeeplLab系列中,通過在卷積核的各像素點中間加入0值的像素點,增大卷積核的尺寸,可以在不犧牲特征圖尺寸的前提下增加感受野,提取更多的語義信息,有效避免池化操作過程中造成的信息丟失。當多次疊加的擴張卷積具有相同的擴張率時,由于卷積核存在間隔,不是所有的輸入都參與計算,會出現計算中心向外擴散的情況,為此,將擴張率設置為不同值的組合,可以很好地避免這個問題。

1.5 三元組損失函數

深度度量學習以使同類對象之間的距離比較近而不同類的對象之間的距離比較遠作為目標。三元組損失最初由谷歌的研究團隊提出,在人臉識別領域被廣泛使用,用于實現對非同類極相似樣本的區分[23]。三元組損失函數為

式中:A為常量,通過學習,模型會讓錨點a和正例p的距離值更小,同時讓錨點a和負例n的距離值更大,從而實現模型對細節的區分。

2 基于多層特征融合和語義增強的盲圖像質量評價網絡

本文提出的多層特征融合和語義增強相結合的盲圖像質量評價算法(multi-level feature fusion and semantic enhancement for NR, MFFSE-NR),能夠有效地處理真實失真場景中的各種復雜失真,如圖2所示,模型包含4個模塊,分別為多尺度特征提取模塊、多層特征融合模塊、語義信息增強模塊和語義信息指導的質量分數回歸模塊。

圖2 MFFSE-NR整體架構Fig.2 Overall structure of MFFSE-NR

2.1 多尺度特征提取模塊

殘差圖像含有與圖像質量有關的重要信息[24],本文選取Res2Net50作為失真特征提取的主干網絡。隨著卷積層的不斷疊加,輸出特征圖的感受野越大、語義信息越豐富,最后一層卷積生成的特征包含全局感受野,具有最高級的語義信息[25]。本文利用Res2Net50的conv2_10、conv3_12、conv4_18、conv5_9卷積層提取的特征構建特征金字塔,捕獲多尺度的畸變信息。特征提取主干網絡提取出不同層次的失真特征,方便后續進行更細粒度的融合。

2.2 多層特征融合模塊

由于輸入的失真圖像存在各種局部的失真,同時為了獲取不同退化層次的表征信息,本文在特征金字塔結構的基礎上,設計了多層特征融合結構,提出了更細粒度的特征融合模塊,其結構如圖3所示。

圖3 多層特征融合結構Fig.3 Structure of multi level feature fusion

與目標檢測任務不同,上采樣操作會給失真圖像引入不必要的噪聲,故本文通過橫向連接和自下而上路徑構建特征金字塔。首先使用步長為2的3×3卷積對低級語義特征進行下采樣。為了減少計算量,利用1×1卷積進行橫向的等比例降維,將第1層通道數降低至64,第2層降低至128,第3層降低至256。隨后,對第1層和第2層的特征進行拼接,得到一個融合的特征。為了減少特征融合過程中的冗余信息,通過通道注意力塊得出每層特征的通道權重分數,將它們分別與低級語義特征和高級語義特征逐元素相乘,得到精細的特征圖,再經過1×1大小的卷積核進行等比例升維,拼接生成最終的多尺度融合特征圖,用于生成質量感知特征向量,進行質量分數的回歸。這一過程為

式中:Fi和Fj為相鄰層的特征圖,Mc為相鄰特征拼接后的特征,Wi和Wj分別為Fi′和Fj′的權重分數,CA為獨立的通道注意力模塊,Fo為自適應融合后的特征,?為拼接操作。

為了更加精確地識別真實失真中不同類型的復雜失真,減少特征融合過程中的冗余信息,本文在特征融合部分加入通道注意力模型,其結構如圖4所示。

圖4 通道注意力模塊Fig.4 Channel attention module

為了將每個通道的有利信息進行聚合,首先在特征圖上進行全局平均池化處理,生成通道向量。然后利用一個全連接層把通道數縮小為原來的1/16,再通過一個全連接層,實現跨通道之間的交互,最后經過非線性激活函數Sigmoid生成每個通道的權重。

2.3 語義信息增強模塊

為了解決高層語義信息不足、感受野較小的問題,首次將多層擴張卷積應用于圖像質量評價任務中,使模型擁有更強的語義表達能力。語義信息增強的過程如圖5所示。

圖5 語義增強過程Fig.5 Process diagram of semantic enhancement

將擴張率設置為不同值的組合,可以很好地避免計算中心向外擴散的問題。本文探究了不同擴張率對野生圖像質量挑戰數據集(live in the wild image quality challenge database, LIVEC)測試集指標的影響,如表1所示。

表1 擴張率對LIVEC測試集指標的影響Table 1 Influence of expansion rate on LIVEC test set

表1顯示了不同擴張率組合對應的感受野大小及對各項指標的影響。由表1可以看出,當擴張率設置為{1,2}時,測試集上各指標均達到最高。在加入了多層擴張卷積的情況下,2項指標均有提升,說明堆疊擴張卷積能在不縮小特征圖的情況下,對模型性能的提升具有明顯幫助。

2.4 語義信息指導的質量分數回歸模塊

人類視覺系統往往在理解圖像內容的基礎上對圖像進行評分,因此本文引入超網絡架構,利用全局語義特征作為質量分數回歸模塊的參數生成器,參數生成過程如圖6所示。

圖6 參數生成過程Fig.6 Parameter generation process

卷積和變形操作用于生成全連接層的權重系數W;平均池化和全連接操作用于生成全連接層的偏置系數b。卷積層和全連接層的輸出通道數由回歸網絡中層的尺寸進行自適應的匹配。其中,為了提高網絡的擬合能力,回歸網絡中的全連接層的節點數分別設為112、56、28、14和1,用于生成最終單幅圖像的質量分數。

2.5 損失函數

為了提高主觀質量分數和預測質量分數之間的等級相關性,本文充分利用了每批圖像塊之間的相對距離信息,融合了L1損失函數和三元組損失函數Ltriple,構建了混合損失函數Lmix。

L1損失函數有穩定的梯度,不會出現梯度爆炸的問題,常常被用于回歸任務。

三元組損失函數Ltriple可以對差異性較小的輸入向量學習到更細微的特征。已知使用三元組損失函數的模型會讓錨點a和正例p的距離值更小,同時讓錨點a和負例n的距離值更大,即|a,p|≤|a,n|,為了不讓兩邊同時為0,增加了超參數A,得|a,p|≤|a,n|-A。

設smax、、、分別表示4張圖像塊的主觀質量得分,按最高、次高、次低、最低分數的順序排列,即smax<<<smin。pmax、、、pmin為它們對應的預測得分,如果預測得分pmax<<<pmin,則稱模型預測分數和主觀分數之間的相對排名信息保持一致。

為使模型預測分數和主觀分數之間的相對排名信息保持一致,可視為讓pmax和pmin的距離更大,pmax和的距離更小,故可將pmax當做錨點,將pmin當做負例,將當做正例,即為Ltriple(pmax,,pmin)。并且,讓pmin和pmax的距離更大,pmin和的距離更小,故可將pmin當做錨點,將pmax看當負例,將當做正例,即為Ltriple(pmin,,pmax)。

故本文的混合損失函數為

式中λ為常量,經實驗驗證,λ取0.2。

由于|pmax,|≤|pmax,pmin|-A1,即A1≤-pmin,同時希望模型預測的質量分數和主觀分數是一致的,所以,將-smin作為訓練過程中A1的上界,設A1=s′max-smin;同理,設A2=smax-s′max。

3 實驗結果

3.1 數據集和評估指標

為了驗證本文所提模型MFFSE-NR的有效性,本文在2個真實失真圖像數據集上進行了實驗,這2個數據集分別是 LIVEC和康斯坦茨真實圖像質量數據集(konstanz authentic image quality 10k database,KonIQ-10k)。

LIVEC數據集包含1 162張圖像,每張圖像由各種類型的移動相機在高度多樣化的條件下拍攝。KonIQ-10k數據集包含10 073張圖像,每張圖像從大型通用多媒體數據集YFCC100M中采樣而來,采樣過程確保了圖像內容的多樣性和圖像失真的真實性。

在測試階段使用2個評估指標:斯皮爾曼等級相關系數(spearman rank-order correlation coefficient, SROCC)、皮爾遜線性相關系數(pearson linear correlation coefficient, PLCC),2個指標越接近1說明模型性能越好,公式為

式中:di2為第i個測試圖像主觀分數和預測分數的等級差異,si和pi分別為第i個圖像的主觀分數和預測分數,和為它們的平均值,N為測試圖像數量。

3.2 參數設置

為了增強訓練性能,同時盡可能保留更多的上下文信息,將數據集中的每幅圖像都分割成若干個224×224的圖像塊。為了簡單起見,直接將圖像塊所在圖像的主觀分數賦給圖像塊。訓練集、驗證集、測試集根據失真圖像按8∶1∶1劃分。采用混合損失函數Lmix進行訓練,初始學習率為10-6,使用Adam優化器,權重衰減率為0.000 5,模型訓練40個epoch,16個圖像塊為一個batch。

3.3 消融實驗

為了驗證多層特征融合、語義信息增強、混合損失函數Lmix的正確性,本文選取LIVEC數據集進行了消融實驗,并使用FPS來評價各模型的計算效率,實驗結果如表2所示。其中,基礎模型由Res2Net50作為特征提取網絡,每層的失真特征直接經過平均池化、全連接層后進行聚合,并利用最后一層的語義特征直接指導質量分數回歸模塊。

表2 消融實驗Table 2 Ablation experiment

由表2可知,本文提出的改進方法中,在基礎模型中分別加入特征融合方法、語義增強方法、混合損失函數后,LIVEC數據集上的SROCC和PLCC均有一定的提升;同時加入3個模塊后,SROCC提高了2.7%,PLCC提高了3.3%,充分說明本文所提出方法能同時提高模型預測分數與人類評分之間的準確性及等級相關性。同時,由表2可知,本文提出的改進方法在實現較高圖像質量評價指標的同時,檢測速度達到了27 f/s。

3.4 單一數據集上的對比實驗

為了評估本文所提算法MFFSE-NR的有效性,將MFFSE-NR與8種性能較高的盲圖像質量評價算法進行比較。其中,選取6種與MFFSENR相近的基于深度學習的經典算法:用于無參考的加權平均深度圖像質量評估(weighted average deep image quality assessment metric-no refenence, WaDIQaM-NR)、分級退化級聯卷積神經網絡(cascaded convolutional neural network with hierarchical degradation concatenation, CaHDC)、深度雙線性卷積神經網絡(deep bilinear convolutional neural network, DB-CNN)、從補丁到圖片的盲圖像質量測量算法(from patches to pictures blind image quality measurement, P2P-BM)、多尺度特征逐層融合的深度神經網絡(deep neural network based on multi-scale features fusion layer-by-layer, MsFF-Net)和自適應超網絡引導下的野外圖像質量盲評估算法(blindly assess image quality in the wild guided by a self-adaptive hyper network, HyperIQA);同時,為了保證對比范圍的完整性,選取2種基于手工特征的算法:盲/無參考圖像空間質量評估器(blind/referenceless image spatial quality evaluator, BRISQUE)和基于高階統計聚合的盲圖像質量評估算法(blind image quality assessment based on high order statistics aggregation, HOSA)。實驗結果如表3所示。

表3 不同方法的比較Table 3 Comparison of different methods

由表3可知,MFFSE-NR在KonIQ-10k和LIVEC 2個真實失真圖像數據集上2項指標均優于基于手工特征的方法,與其他6種基于深度學習的方法相比,同樣實現了更好的性能,充分說明了在面對真實失真圖像時MFFSE-NR能有效提高模型預測的準確性和等級相關性,有效識別各種場景的失真。

3.5 跨數據集上的對比實驗

為了驗證本文所提算法MFFSE-NR的泛化能力,選取6種先進的基于深度學習的算法進行模型泛化能力的對比實驗,實驗結果如表4所示。

表4 跨數據集測試的SROCCTable 4 SROCC for cross dataset testing

由表4可知,在2組跨數據集實驗中,針對真實失真圖像測試的SROCC和PLCC指標均達到了最高,說明MFFSE-NR在面對現實生活中的失真時,泛化性能具有一定的先進性。針對不同失真程度的特征進行了融合,對語義信息進行了增強,并利用了帶有排名信息的損失函數,在一定程度上能提升模型預測分數和主觀質量分數之間的等級相關性和準確性,提高模型的泛化能力。

3.6 預測結果散點圖

本文對KonIQ-10k數據集和LIVEC數據集上的測試結果進行了可視化展示,如圖7所示。

圖7 KonIQ-10k和 LIVEC 數據集上測試結果的可視化展示Fig.7 Visualization of test results on the KonIQ-10k and LIVEC datasets

從可視化結果可看出,MFFSE-NR的預測分數與人類評分標簽之間呈現出高度的一致性,說明本算法能對各類真實失真進行有效的識別,在一定程度上能模擬人類視覺系統對真實失真圖像進行評分的過程,進而提升了真實失真圖像質量評價的準確度。

4 結束語

為解決現有的無參考圖像質量評價算法在面臨真實失真圖像時存在的各種問題,本文提出了多層特征融合和語義增強的盲圖像質量評價算法,通過Res2Net50網絡構建特征金字塔,提出了細粒度的基于注意力的多層特征融合模塊,以應對真實失真圖像中的局部和非均勻失真;探究了不同擴張率疊加的擴張卷積對語義信息的增強效果,提出了語義信息增強模塊,并利用增強的高級語義特征生成質量分數回歸模塊的參數;最后考慮圖像塊質量分數之間的相對排名關系,引入了三元組損失,構建了混合損失函數Lmix,提高了模型對真實失真特征的學習能力。

但是,本方法將圖像分割成圖像塊,并將圖像的質量分數賦給圖像塊,在一定程度上引入了標簽噪聲,如何利用整幅圖像進行質量分數的預測是本文未來的研究內容之一。此外,隨著各種大規模數據集的出現,如何在復雜場景下對各種真實失真進行評價也是本文后續工作的研究重點。

猜你喜歡
語義卷積分數
基于3D-Winograd的快速卷積算法設計及FPGA實現
分數的由來
無限循環小數化為分數的反思
語言與語義
從濾波器理解卷積
可怕的分數
基于傅里葉域卷積表示的目標跟蹤算法
算分數
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合