?

基于級聯注意力與密集特征融合的圖像修復算法

2023-06-23 10:09臧升睿陳敏艾振華于騰遲潔茹楊國為
關鍵詞:注意力機制

臧升睿 陳敏 艾振華 于騰 遲潔茹 楊國為

摘要:針對圖像修復算法存在的語義不連貫、紋理不清晰等問題,提出一種基于生成對抗網絡的新型級聯密集生成網絡CDGAN(Cascade Densely Generative Adversarial Network),采用encoder-decoder作為生成器主干,利用下采樣提取圖像特征;為使網絡關注修復圖像的高頻紋理和顏色保真度等有效信息,引入級聯的注意力模塊,并加入密集特征融合模塊擴大網絡的整體感受野,充分學習圖像特征,提高編碼器提取特征的利用率,最后將處理后的圖像特征進行上采樣重建。在Celeb A和Places2數據集的測試結果表明,CDGAN在語義連貫性、紋理清晰度等方面都有所提升。

關鍵詞:生成對抗網絡;圖像修復;注意力機制

中圖分類號:TP391.41

文獻標志碼:A

文章編號:1006-1037(2023)02-0030-06

doi:10.3969/j.issn.1006-1037.2023.02.06

基金項目:

國家自然科學基金(批準號:62172229)資助。

通信作者:

于騰,男,博士,副教授,主要研究方向為人工智能與計算機視覺,圖像增強,去霧去噪,目標檢測等。

圖像修復技術最早是Bertalmio等[1]受文物修復的啟發在SIGGRAPH國際學術會議上提出的概念,現已成為計算機視覺領域的重要研究課題之一,主要利用缺失區域周邊或者外部的輔助數據對受損圖像區域推理和修復?,F有的修復方法主要分為傳統修復方法和基于深度學習的修復方法。傳統圖像修復方法主要有基于像素插值、擴散和補丁匹配等方法,但如果給定的圖像是唯一的或非重復的,如人臉和景觀等,這些方法大多會產生偽影、結構缺失等問題。近來,基于深度學習的圖像修復方法取得了重大發展,以出色的圖像生成能力而聞名的生成對抗網絡(Generative Adversarial Networks,GAN)[2]被廣泛應用于圖像處理領域。上下文編碼器采用深度生成模型,使用重建和對抗性損失根據缺失區域周圍信息預測場景的缺失區域,第一次將生成對抗網絡思想應用到圖像修復上[2]?;贕AN的圖像修復算法使用多鑒別器修復圖像[3];基于全卷積網絡改進的U-Net結構使用跳躍連接融合不同尺度的圖像特征[4];Shift-Net將U-Net結構[5]中的全連接層替換為Shift Connection層,將圖像缺失區域周圍的信息特征進行轉移[6];語義注意力模塊(Contextual Attention Module, CAM)可以實現對圖像語義特征信息的生成重建[7];TransFill通過引用與目標圖像共享場景內容的另一個源圖像來填充缺失區域[8];MISF將圖像修復視為過濾任務,以此實現高保真修復[9]。然而,這些方法修復的圖像依舊存在模糊偽影,因為專注于生成視覺上結構一致,而忽略了修復結果的紋理和穩定性。針對目前圖像修復中存在語義不連貫、紋理不清晰的現象,CBAM(Convolutional Block Attention Module)[10]可以序列化地在特征圖通道和空間兩個維度產生注意力信息,極大地提升了網絡整體的魯棒性。膨脹卷積[11]可以增大網絡的整體感受野,增加修復圖像局部細節。本文構建了一個以encoder-decoder為基礎的級聯密集生成對抗模型CDGAN(Cascade Densely Generative Adversarial Network),加入跳躍連接層,并添加了改進的通道注意力與像素注意力相級聯的級聯注意力模塊和由不同膨脹率的膨脹卷積層組成的密集特征融合模塊,獲得了具有高級語義和清晰紋理的修復圖像。

1 方法

1.1 整體網絡框架

整體網絡采用encoder-decoder作為框架,編碼器通過下采樣的卷積層和池化層提取圖像特征,解碼器將提取的圖像特征進行解碼重建,生成新的特征圖。為保留圖像的細節特征,模型下采樣前的卷積層和相應的反卷積層之間添加跳躍連接,避免計算成本的快速增加[12]。模型下采樣與上采樣之間加入級聯注意力以及密集融合模塊,下采樣后的特征圖需更精細的處理。整體的網絡結構圖如圖1所示。

1.2 級聯注意力模塊

基于卷積神經網絡的圖像修復算法大多對圖像的通道和像素特征處理方式相同,但由于受損圖像的不同通道以及不同像素上的關鍵信息分布不均勻,圖像中與缺失區域相關的信息和無關信息的權重有顯著差異。一些像素在至少一種顏色(RGB)通道中具有非常低的強度,說明不同的通道特征具有完全不同的加權信息[13]。如果平等地處理這些信息,網絡將缺乏覆蓋所有像素和通道的能力,而且將極大地限制網絡的表征能力。

通道注意力機制可以自適應的預測通道中潛在的關鍵特征,計算出輸入圖像各個通道的權重,使網絡模型將關注力更多放在信息量最大的通道特征上,阻抑信息量小的通道特征。級聯注意力模塊將通道注意力和像素注意力在通道級和像素級特征上結合,獲得自適應學習權重并與輸入特征相乘得到關鍵特征,使網絡更多地關注高頻紋理和顏色保真度等有效信息。

如圖1所示,提取的特征圖通過全局平均池化壓縮通道方面的全局空間信息,得到一維矢量Pc

其中,Xc(i,j)表示在c通道Xc在位置(i,j)時的值,Hp表示全局平均池化,特征圖尺寸由C×H×W變成C×1×1。為了得到不同通道的權重CAc,特征經過卷積層、ReLu激活函數、sigmoid激活層

其中,σ表示sigmoid激活函數,δ表示ReLu函數。

輸入特征圖Fc和通道CAc權重逐元素相乘得到通道注意力的輸出F*c

F*c作為像素注意力的輸入,經過卷積層、ReLu激活函數、sigmoid激活層,得到像素注意力權重PA

輸入F*c和PA逐元素相乘得到像素注意力的輸出,Fall是整個級聯注意力模塊的輸出

1.3 密集特征融合模塊

特征融合在神經網絡設計中應用廣泛,利用不同層的特征來提高性能。圖像修復時,盡可能大的感受野有利于修復破損區域。膨脹卷積通常被用來實現擴大感受野,既增加了可作為輸入的區域,又不增加可學習權重的數量。然而,膨脹卷積的卷積核是稀疏的,應用在計算過程中跳過了許多像素。雖然應用大卷積核可以解決這一問題,但是引入了大量的模型參數,加大計算成本。為了擴大感受野的同時確保密集的卷積核,本文采用密集特征融合模塊,如圖3所示。

密集特征融合模塊首先使用卷積核為3的卷積層將輸入特征的通道數從256個減少到64個,以減少網絡中冗余的參數;這些加工過的特征被送到4個帶有不同膨脹率的膨脹卷積分支以提取多尺度特征,分別表示為fi(i=1,2,3,4)。除f1外,其余fi都有一個對應的卷積核為3的卷積層,用Qi()表示。通過累積相加法,可以從各種稀疏多尺度特征的組合中得到密集的多尺度特征。Fi表示Qi()的輸出

文中使用1×1卷積融合各尺度特征。實驗證明,密集特征融合模塊擴大了一般擴張卷積的感受野,并沒有增加網絡的參數量。

1.4 損失函數

為了更好地恢復缺失圖像中的語義和真實細節,將像素重建損失、對抗損失、感知損失、風格損失相結合共同訓練CDGAN模型。像素重建損失表示為

其中,E(*)為分布函數的期望值,D和G分別為判別器和生成器,G(z)為輸入為z時生成器G生成的虛假樣本,pdata(x)是真實圖像的分布,z~pz(z)是破損圖像的分布。

為提高修復結果的整體一致性,本文添加風格損失

其中,Gi(X)是根據σ的激活而構造的大小為Ci×Ci的Gram矩陣,Ci為通道數,X′表示預測圖像。

總的損失函數為

其中,ω1,ω2,ω3分別表示平衡不同損失項貢獻的超參數,分別設置為1,0.1,250。

2 實驗結果與分析

2.1 數據集及環境配置

驗證實驗在Celeb A[14]人臉數據集和Places2[15]場景數據集上開展。實驗設備的顯卡NVIDIA GeForce RTX 2080Ti GPU,操作系統Ubuntu 18.04,運行環境為Pytorch框架,搭配Python的多個庫。模型訓練選擇Adam優化器進行參數優化,初始學習率設置為2×10-4。輸入任意尺寸的圖像,通過預處理將圖像尺寸裁剪為256×256大小。

2.2 評價指標

為驗證CDGAN模型的性能,采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結構相似性指數(Structural Similarity, SSIM)[16]這兩個標準指標對其定量評估。PSNR和SSIM可以反映模型重構原始圖像內容的能力

其中,h、w和p分別代表生成圖像的高度、寬度和顏色通道,μX、μX′、σXX′分別是X、X′的局部均值、標準差和互協方差。C1、C2是正則化常數,為了避免在局部均值或標準差接近零時出現不穩定的情況,C1、C2 通常取值為0.012,0.032。

2.3 對比實驗與消融實驗

為了直觀的展示本文模型CDGAN的有效性,將其與 MEDFE[17]、RFR[18]、PIC[19]、GMCNN[20]、DSI[21]算法的修復結果做了比較。圖4為CDGAN與以上方法在CelebA-HQ數據集上對中心規則掩碼修復的結果對比圖,輸入的圖像如圖4(a)所示,圖4(g)表示真實圖像。MEDFE的結果中包含扭曲的結構和不和諧的面孔,RFR和PIC對圖像紋理的修復效果不理想而且存在明顯的偽影,GMCNN的修復結果對人臉進行美顏磨皮,使圖像紋理失去真實性。CDGAN得到了更合理、自然和逼真的圖像。

表1為在CelebA-HQ人臉數據集和Places2場景數據集上,利用評價指標對中心掩碼的圖像修復結果進行定量分析,可以看出,CDGAN要優于其他算法模型。

2.4 消融實驗

為了驗證密集特征融合模塊的表征能力,將不同膨脹率的4個膨脹卷積(4個膨脹卷積和組合操作)統一替換為膨脹率為2的3×3膨脹卷積(見表2和圖5)??芍?,帶有普通的膨脹卷積的網絡模型對破損區域結構的色彩修復存在較多偽影,帶有密集特征融合模塊的模型預測得更合理,偽影更少,表明大而致密的感受野有利于完成大孔洞的圖像修復。

為證明級聯注意力模塊在CDGAN中的影響,比較了有/沒有級聯注意力模塊的結果,如圖6和表3所示。未加級聯注意力模塊的網絡模型得到的結果,對于眉毛的修復雜亂無章,眼睛也修復得無神,加有級聯注意力模塊的確實可以使網絡修復到更多關于缺失區域的紋理細節。

3 結論

本文提出的對破損圖像進行紋理精細修復的CDGAN模型,以生成對抗網絡作為基礎框架,生成器采用encoder-decoder,加入改進的級聯注意力模塊,調整通道特征,重定特征權重;添加密集特征融合模塊,借助于密集擴張卷積增大網絡感受野,同時未增加網絡參數,提升了網絡的整體性能;并在網絡的整體損失函數優化上增加了風格損失函數,加強破損圖像的已知區域與破損區域之間的約束關系。CDGAN模型在不同場景圖像的修復中,能夠生成紋理清晰, 語義連貫的圖像,且在定性指標PSNR、SSIM上表現良好。

參考文獻

[1]BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting[C]// 27th Annual Conference on Computer Graphics and Interactive Techniques. New York, 2000: 417-424.

[2]GOODFELLOW I, P0UGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

[3]PATHAK D, KRHENBHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Seattle, 2016: 2536-2544.

[4]IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4):107.

[5]RONNEBERGER O, PHILIPP F, THOMAS B. U-net: Convolutional networks for biomedical image segmentation[C]// 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, 2015: 234-241.

[6]YAN Z Y, LI X M, LI M, et al. Shift-net: Image inpainting via deep feature rearrangement[C]// 15th European Conference on Computer vision(ECCV). Munich, 2018: 1-17.

[7]YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 5505-5514.

[8]ZHOU Y Q, BARNES C, SHECHTMAN E, et al. TransFill: Reference-guided image inpainting by merging multiple color and spatial transformations[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition.Electr Network, 2021: 2266-2276.

[9]LI X G, GUO Q, LIN D, et al. MISF: Multi-level interactive siamese filtering for high-fidelity image inpainting[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans, 2022: 1859-1868.

[10] WOO S H, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]// 15th European Conference on Computer Vision.Munich, 2018: 3-19.

[11] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[C]// International Conference on Learning Representations (ICLR).PuertoRico, 2016: 28-36.

[12] 王豫峰. 基于殘差網絡的圖像缺失修復研究[J]. 現代計算機, 2022, 28(12):69-74.

[13] HE K M, SUN J, TANG X O. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341-2353.

[14] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Seattle, 2016: 770-778.

[15] ZHOU B, KHOSLA A, LAPEDRIZA G, et al. Places: An image database for deep scene understanding[J]. Journal of Vision, 2017, 17(10): 296-296.

[16] HORE A, ZIOU D. Image quality metrics: PSNR vs. SSIM[C]//2010 20th International conference on pattern recognition. Istanbul, 2010:23-26.

[17] LIU H Y, JIANG B, SONG Y B, et al. Rethinking image inpainting via a mutual encoder-decoder with feature equalizations[C]// 16th European Conference on Computer Vision. Glasgow, 2020: 23-28.

[18] LI J, WANG N, ZHANG L, et al. Recurrent feature reasoning for image inpainting[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Seattle, 2020: 7757-7765.

[19] ZHENG C X, CHAM T J, CAI J F. Pluralistic image completion[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 1438-1447.

[20] WANG Y, TAO X, QI X J, et al. Image inpainting via generative multi-column convolutional neural networks[C]// 32nd International Conference on Neural Information Processing Systems. Vancouver, 2018: 329-338.

[21] PENG J L, LIU D, XU S C, et al. Generating diverse structure for image inpainting with hierarchical VQ-VAE[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 10770-10779.

猜你喜歡
注意力機制
基于注意力機制的行人軌跡預測生成模型
基于注意力機制和BGRU網絡的文本情感分析方法研究
多特征融合的中文實體關系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學習的手分割算法研究
從餐館評論中提取方面術語
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合