多尺度語義學習的人臉圖像修復

2023-10-26 06:15左心悅,郝子嫻,楊有

南京信息工程大學學報 2023年5期

0 引言

圖像修復(Image Inpainting)的目的是根據圖像的已知內容重構缺失或損壞的區域,使修復的區域與整體內容保持一致．人臉圖像修復作為其中一個重要的分支,在諸多領域有著重要的應用價值,比如面部修飾[1]和修復老照片[2]等領域．為了解決這一具有挑戰性的任務,基于紋理合成的傳統方法[3-4]主要是在圖片的已知區域中尋找相似的紋理匹配塊．但人臉圖像不同于其他圖像,面部五官具有固定的幾何特性,傳統方法輸出的結果通常在語義方面存在局限．例如,人臉圖像缺失的區域是鼻子,而已知區域沒有與之對應的相似的紋理匹配塊,因此無法產生語義上合理的結果．

隨著深度學習的發展,卷積神經網絡(Convolutional Neural Network,CNN)和生成對抗網絡(Generative Adversarial Network,GAN)[5]在圖像修復領域取得了一系列卓越的成果．CNN具有強大的特征識別和提取能力,GAN是生成模型的一種,核心思想源于博弈論的納什均衡．GAN由生成器和判別器組成,生成器學習真實數據樣本的潛在分布并盡可能生成新的數據樣本,判別器努力判斷輸入的數據是真實數據還是生成的數據樣本,兩者在對抗中學習．Pathak等[6]將GAN的思想引入到圖像修復中,并采用自編碼器作為生成器生成修復結果,實驗表明修復的結果既符合語義又具有真實性,該方法掀起了基于深度學習的圖像修復的研究熱潮．基于深度學習的修復方法最初都是針對規則的矩形破損區域進行修復,但在人臉修復的具體應用場景中,破損區域通常都是不規則的．針對此問題,Liu等[7]首次提出用部分卷積替換U-Net中的普通卷積,實現了對任意形狀任意大小缺失區域的圖像修復;Yu等[8]提出了門控卷積,在特征層的不同空間位置為每個通道建立了可學習的動態特征選擇機制,以改善訓練期間的掩碼更新問題;Yang等[9]提出了可學習結構知識融合網絡,該網絡分為兩個階段,第一階段生成人臉邊緣先驗信息,第二階段利用生成的邊緣先驗信息輔助進行圖像修復．

雖然上述方法在人臉圖像修復領域取得了重大進展,但在特征表達方面仍存在一定限制導致輸出的結果局部細節和全局不一致．CNN中感受野和圖像特征的大小影響模型的學習能力,有效地增加感受野、提取合適的特征圖來擴大局部特征范圍有利于提升修復效果,兩者的大小取決于卷積核的尺寸．同時,CNN由于其固有的特性很難對離缺失區域距離較遠的區域建模,使得修復的結果出現偽影、模糊的紋理導致整體內容不一致．針對以上問題,本文提出一種多尺度語義學習的模型來實現對不規則破損的人臉圖像修復,通過加強局部特征表達、對遠距離空間的多尺度特征建模來提升修復結果局部細節和全局一致性．主要貢獻點如下:

1)提出一種基于CNN結構的多尺度提取特征的策略,用尺寸不同的卷積核提取不同尺度的人臉圖像特征并獲取大小不同的感受野,以增強局部特征表達,從而提升修復結果的細節．

2)設計了一種語義學習模塊從通道和空間兩個角度學習多尺度特征之間的語義關系來提升生成圖像內容的整體一致性．

1 相關工作

1.1 基于GAN的圖像修復

生成對抗網絡在圖像修復領域取得了重大的突破,尤其面對復雜的圖像修復任務,克服了傳統方法語義理解困難的限制．Pathak等[6]將Encoder-Decoder引入到修復任務中,結合了GAN的對抗性思想提出了一個名為Context-Encoder的網絡,并使用重構損失和對抗性損失作為約束條件來提升修復的效果．Iizuka等[10]將Context-Encoder[6]中的判別器保留為局部判別器,同時增加一個全局判別器．Yu等[11]引入了上下文注意力機制通過對遠距離空間特征建模修復圖像．以上算法針對的是破損區域為規則的矩形圖片,但在實際應用中,圖像破損的區域通常是不規則的．Liu等[7]用部分卷積代替普通卷積實現了對不規則破損圖像的修復．Yu等[8]提出了門控卷積,在特征層的不同空間位置為每個通道建立了可學習的動態特征選擇機制,以改善訓練期間的掩碼更新問題．Wang等[12]提出了多列卷積生成網絡,該網絡在編碼階段使用不同大小的卷積核來獲得不同大小的感受野．Yu等[13]提出了一種新穎的區域歸一化,它可以根據輸入掩碼將空間像素分為損壞和未損壞的區域,并分別計算每個區域的平均值和方差．Liu等[14]設計了一個連貫的語義注意層,對缺失區域的特征進行語義關聯建模．雖然上述方法在不規則破損人臉圖像修復中取得了一定成果,但生成的結果局部細節和全局一致性差,存在整體結構扭曲、局部細節紋理模糊的問題．

1.2 人臉圖像修復

人臉修復是圖像修復的一個重要分支,人臉圖像具有特殊性,五官具有明顯的幾何結構特性,且人臉圖像不止有正臉,還包含側臉等角度,因此人臉圖像修復是一項具有挑戰性的任務．人臉修復可分為單元修復方法[15-16]和多元修復方法[17-20],只要輸出的結果自然合理,人臉圖像修復也可以產生多種結果．近年來深度學習技術[21]取得了重大進展,在分類[22]、行為識別[23]、人臉圖像修復等領域都取得了許多杰出的成果,Sun等[15]提出了一種在社交媒體照片中進行臉部修復的方法,根據損壞的圖像的上下文信息,在適當的位置生成面部位置,并根據面部位置補全缺失的部分．Banerjee等[16]提出了一個多尺度的GAN,直接根據提供的人臉特征生成視覺上真實的背景像素和背景,如頭發、脖子和衣服．Zheng等[17]將VAE與GAN結合起來,并行地生成和重建網絡,以實現多樣性的修復．Zhao等[18]提出了一個無監督的跨空間生成模型用于人臉修復．Liu等[19]設計了一個概率多樣化的GAN,用于生成多種修復結果．Peng等[20]提出使用一個分層的量化變分自編碼器,首先學習自回歸分布,然后分割結構和紋理特征．但多樣修復生成模型在訓練中容易崩潰且參數量較大．

2 方法

2.1 模型整體設計

本文提出的多尺度語義學習的人臉圖像修復整體采用生成對抗網絡模型,由生成器和判別器組成,如圖1所示．生成器包括三個步驟:第一步,輸入破損的人臉圖像,通過三個并行的編碼端提取具有不同大小的感受野和特征分量的多尺度特征;第二步,提取的多尺度特征輸入至多尺度語義學習模塊中來學習語義關系;第三步,將編碼端的特征通過跳躍連接補充到解碼端進行解碼,減少采樣造成的信息損失,輸出修復好的預測圖．

將生成器輸出的預測圖與真實圖同時輸入至判別器判斷真假,通過對抗學習提高模型的修復能力,同時在判別器加入了譜歸一化[24]解決生成對抗網絡訓練不穩定問題．

2.1.1 多尺度特征提取

為了擴大感受野的范圍增強局部特征來提升修復質量,采用在編碼端提取多尺度特征的方法解決．將破損的人臉圖像輸入至三個并行的編碼器,每個編碼器分別使用3×3、5×5、7×7的卷積核提取特征以獲得不同大小的感受野,從而得到豐富的信息來提升修復結果的細節．普通卷積將破損像素和已知像素同等對待同時輸入至卷積層,導致修復的結果模糊,部分卷積[7]中人為設定的掩碼更新機制不合理,比如在網絡深層無效像素會消失,因此,模型采用門控卷積[8]提取特征．門控卷積有助于改善修復細節,提升整體顏色一致性,特別是修復有不規則破損區域的圖像．門控卷積具有靈活的掩碼更新機制,與硬門控機制不同,門控卷積能自動從數據中學習軟掩碼,即使在網絡深層仍然能夠根據掩碼學習到不同通道中的特征來進行圖像修復．同時,本文在每個門控卷積層加入批量歸一化,以防止訓練期間梯度消失．該操作可以表示為

Gating=∑∑Wg·I,

(1)

Feature=∑∑Wf·I,

(2)

I′=BN(?(Feature)⊙σ(Gating)),

(3)

其中,I表示輸入的特征圖,Gating表示門控,Feature表示卷積后的特征圖,Wg和Wf分別表示不同的卷積核,I′表示門控卷積層輸出的特征圖,?是 LeakyReLU 激活函數,⊙表示對應位置元素相乘,σ表示Sigmoid激活函數,因此門控值在0和1之間取得,BN(·)代表批量歸一化．

2.1.2 多尺度語義學習模塊

為了提升修復結果全局一致性,將經過并行編碼器獲得的多尺度特征分別輸入至多尺度語義學習模塊來學習全局特征之間語義的關系,該模塊由通道語義學習模塊和空間語義學習模塊[11]組成,從不同角度學習多尺度特征之間的語義關系來提升修復效果．

第一步,將多尺度特征輸入至通道語義學習模塊中,如圖2所示．通道語義學習模塊想法來源于SENet[25],但不同的是增加了門控設計,通過對注意力擴展增加更多的非線性,來更好地擬合通道間復雜的相關性,使模型自動地學習不同通道的重要信息從而學習語義關系．首先,通過全局池化得到多尺度特征在通道層面的全局特征,將其送入兩個全連接層中,使用Sigmoid激活函數學習每個通道之間的關系以獲得不同通道的權重,預測每個通道的重要性;然后,將權重圖作用到原始特征圖上,將全局特征尺寸變換還原到原始特征的大小,和輸入做通道級拼接;最后,將拼接后的結果并行送入全連接層,第二個分支再次使用Sigmoid函數激活,和第一個分支的結果逐元素相乘得到最終的輸出．

圖2 通道語義學習模塊Fig.2 Channel semantic learning module

第二步,將第一步的結果輸入到空間語義學習模塊,如圖3所示．空間語義學習模塊可從離缺失區域較遠的位置學習來生成缺失部分像素,從已知區域學習語義關系來提升整體一致性．首先從輸入的特征圖中已知區域和缺失區域提取3×3像素的補丁塊,計算補丁塊之間的余弦相似性,計算式如下:

圖3 空間語義學習模塊Fig.3 Spatial semantic learning module

(4)

其中,fi和fj分別表示缺失區域的第i個補丁塊和已知區域的第j個補丁塊．采用Softmax函數計算已知區域每個補丁塊的注意分數,計算式如下:

(5)

最后基于注意力分數圖重構輸入的特征圖生成缺失部分,計算式如下:

(4)

第三步,將經過多尺度語義學習模塊的特征從通道維度拼接,送入解碼器中解碼．卷積編碼過程中會丟失部分信息,因此通過跳躍連接將編碼器的特征補充到解碼器,恢復丟失的細節信息．

2.2 損失函數

在訓練過程中引入了感知損失、風格損失、重構損失和對抗損失約束生成語義合理的結果．感知損失Lperc[26]用來捕獲高級語義特征,模擬人類對圖像質量的視覺感知．使用ImageNet[27]上的預訓練模型VGG-16[28]提取高級語義特征,感知損失計算式如下:

(7)

其中,φpooli是VGG-16的第i個池化層的激活圖,i∈[1,3],E表示期望,Iout是模型生成的預測圖,Igt是真實圖片,‖x‖表示x的L1范數．風格損失Lstyle與感知損失Lperc計算方法類似,用來保持圖像整體風格一致性．風格損失的計算式如下:

(8)

(9)

(10)

此外,計算Iout和Igt之間的1距離作為重構損失,計算式如下:

Lrec=E‖Iout-Igt‖1.

(11)

綜上所述,總體損失函數計算式如下:

Ltotal=λpercLperc+λsytleLsytle+λadvLadv+λrecLrec.

(12)

3 實驗與結果分析

實驗硬件環境采用NVIDIA RTX3060Ti GPU,顯存大小為8 GB,CPU為i5-10400F,內存大小為16 GB．網絡構建由PyTorch深度學習框架實現,優化算法使用Adam,訓練模型時Batchsize為8,具體參數為λperc=0.05、λsytle=120、λrec=1、λadv=0.1．數據集采用CelebA-HQ人臉數據集和NVIDIA不規則掩碼數據集,圖像尺寸統一裁剪為256×256像素．為了模型的優越性,將模型與CA[11]、GConv[8]、EC[29]、PIC[17]、RFR[30]五個經典的圖像修復模型在CelebA-HQ人臉數據集上進行實驗對比,同時進行消融實驗驗證模塊的有效性．

3.1 定量評價

根據破損區域占整體圖片的比例,在(10% 20%]、(20% 30%]、(30% 40%]、(40% 50%]四個掩碼比例上做了對比實驗．評價指標為峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性[31](Structure SIMilarity,SSIM)、1距離,分別從預測圖與真實圖的失真程度、整體結構相似程度、平均絕對誤差三個角度展開評價．定量評價如表1所示,本文提出的網絡在不同掩碼比例下性能均優于其他方法,表明提出的方法能有效地生成高質量的修復結果．

表1 不同算法在CelebA-HQ數據集的定量比較

為了驗證多尺度語義學習模塊的重要性,表2為去掉多尺度語義學習模塊(Multi-scale Semantic Learning,MSL)的定量結果．

表2 多尺度語義學習模塊消融實驗對比

3.2 定性評價

圖4為所提算法和其他算法修復的效果對比．對于不規則破損的人臉圖像,CA算法無法合理地還原紋理細節如圖4c所示,生成的結果結構扭曲紋理模糊;GN算法生成的結果五官紋理模糊如圖4d第四張鼻子位置;EC算法生成的結果細節紋理模糊如圖4e第三張眼睛位置;循環漸進式填充孔洞的RFR算法在掩碼區域比較大時可以生成合理的結構,但掩碼較小的區域無法填充所有的缺失像素如圖4f第四張下巴位置;PIC算法生成的結果整體結構扭曲如圖4g第三張人臉的眼睛和鼻子．與其他算法相比,本文算法在整體和細節上均優于其他算法,局部細節逼真、全局一致性更加連貫,具有更加合理的視覺效果．

圖4 CelebA-HQ數據集定性評價Fig.4 Qualitative comparison on CelebA-HQ

4 結論

本文設計了一種基于多尺度語義學習的人臉圖像修復方法,通過不同大小的卷積核提取多尺度特征獲得不同大小的感受野來增強局部特征表達,從通道和空間兩個維度學習多尺度特征的語義關系,從而提升修復結果的全局一致性,彌補卷積神經網絡固有特性在人臉圖像修復方面的不足．同時,引入跳躍連接將編碼端的特征補充到解碼來恢復采樣過程中丟失的細節信息,提高模型修復圖像的能力．在CelebA-HQ人臉數據集上進行實驗,結果表明提出的方法可以有效提升修復結果的細節,在質量和性能方面優于其他先進的方法．后續將在多尺度特征提取、語義學習模塊的設計上做進一步研究,以不斷提升人臉圖像修復的結果．