?

基于組殘差塊生成對抗網絡的面部表情生成

2024-03-12 08:58林本旺趙光哲王雪平
計算機工程與應用 2024年5期
關鍵詞:人臉殘差注意力

林本旺,趙光哲,王雪平,李 昊

北京建筑大學電氣與信息工程學院,北京 102616

面部表情是人與人之間進行非語言交流的重要方式之一,在理解人的心理活動時有著不可替代的作用。面部表情生成是指給定目標表情標簽和輸入圖像,生成帶有指定表情語義信息的面部表情圖像。面部表情生成在醫療行業、電影行業、游戲行業和視頻會議等多個領域都有著廣泛的應用[1-2]。隨著科技的進步和行業的發展,各個行業對于面部表情生成圖像質量的要求越來越高。因此,如何生成高質量的面部表情圖像成為了一項非常有挑戰性的研究課題。

近年來,面部表情生成方法已經從早期的手工設計特征的方法發展到基于深度學習的方法。早期的研究主要是依賴于計算機圖形技術,通過手動扭曲直接進行面部表情的制作[3-5]。雖然取得了一定的成果,但是需要人工干預和大量資源,無法大規模應用。隨著深度學習的發展,基于深度生成模型逐漸成為主流算法[6-8]。Zhao等人[6]提出了一種新的基于分析的合成方法,通過將生成對抗網絡和動作單元結合在一起用于面部表情生成,這種方法能夠使面部表情生成圖像富有真實性,但是對于細節的約束力不足,容易出現模糊問題。吳宇寧等人[7]提出一種能夠對生成表情類型和強度控制的機制,結合面部動作單元結果能夠生成不同強度和不同類型的面部表情圖像,但是該方法過度依賴面部動作單元,無法單獨生成高質量面部表情圖像。Tang 等人[8]提出了一種結合了特征點檢測的生成對抗網絡模型,能夠實現任意單幅面部表情圖像向不同類別的面部表情圖像的轉換,但是該方法依賴特征點的標注,特征點的標注質量會直接影響面部表情生成圖效果。

一般的基于深度學習的方法大多針對一般的人臉合成任務,沒有考慮局部面部表情特征的變化,不適用于面部表情生成。事實上,當人類識別和區分不同表情時,注意力會集中在面部變化較大的區域,例如,做開心表情時,嘴部的變化是最為明顯的。通過添加注意力機制能夠妥善處理這個問題。Nie等人[9]為了更好的保留生成圖像細節,提出了URCA-GAN 模型用于面部表情生成,用上行殘差注意力模塊來加強面部表情生成圖像的細節控制,但是該模型沒有對空間特征加以約束,生成圖像缺乏真實性。以往基于生成對抗網絡的方法常將面部表情生成歸屬于人臉屬性編輯,將整個人臉當作整體處理,忽略了關鍵區域的變化,這就會導致部分區域出現重疊和模糊,生成圖片質量低,導致生成的面部表情不夠真實。

為了解決上述問題,本文提出了一種新的面部表情生成方法,即嵌入注意機制的組殘差生成對抗網絡(group residuals with attention mechanism-generative adversarial network,GRA-GAN),該方法通過在組殘差塊中嵌入混合注意力機制來生成面部表情。GRA-GAN能夠通過混合注意力機制和帶有注意力機制的組殘差模塊來逐級自適應加強面部表情變化明顯區域的關注度,能夠明顯地提升生成圖片的質量。綜上所述,本文的貢獻總結如下:

(1)為了解決面部表情生成部分區域出現重疊和模糊問題,提出了一種新的面部表情生成方法GRA-GAN,在生成對抗網絡中加入混合注意力機制和嵌入混合注意力機制的組殘差塊(group residuals with attention mechanism,GRA),來增加對面部變化較大區域的關注度和加強殘差塊與殘差塊之間的聯系,提升殘差塊之間的相關性,提升學習效果,從而避免生成的面部表情區域重疊和模糊問題。

(2)本文在RaFD 數據集上進行了面部表情生成實驗。實驗結果表明,本文提出的方法能夠明顯改善區域重疊和模糊現象,生成面部表情更加真實,實驗結果優于相關方法。

1 相關工作

1.1 面部表情生成

目前,關于面部表情生成的研究方法總體可以分為基于傳統的手工設計特征的生成方法以及基于深度學習的面部表情生成方法。

基于傳統的手工設計特征的生成方法。自Blanz等人[10]提出三維可變形人臉模型以來,出現了很多基于三維可變形人臉模型的人臉表情合成生成技術[11],人臉動畫[12-13]或者構建一個能夠操縱的合成人臉[14]。盡管這種方法能夠建模整個人臉,但是使用合成分析方法將三維模型擬合到目標人臉圖像上,需要很高的計算成本。另一種方法就是使用基于加權扭曲的方法[15]來合成面部表情,為了控制源圖像的面部表情生成,需要一個驅動面進行扭曲,創建細節如牙齒或者源圖像不存在的臉,這些都需要從訓練數據中學習。

近年來,隨著深度學習的發展,以生成對抗網絡等為代表的深度學習方法在圖像生成方面有很大的進展,逐漸成為面部表情生成的主要研究方法。He等人[16]提出了一種基于多任務學習的ATTGAN模型來實現人臉屬性編輯的模型,它能夠通過屬性分類約束來確保生成正確的人臉屬性,這種做法能夠控制面部表情生成圖像屬性,但是無法保證生成圖像的質量。Chen等人[17]提出一種用插值做人臉編輯的HGAN 模型。它將圖像先轉移到隱空間中,在對其進行插值操作,逐漸把圖像轉移到目標域中,但是當源域和目標域差距過大時,模型效果會降低。Wu等人[18]提出一種漸進式人臉表情編輯模型Cascade EF-GAN。該模型不針對整張面部圖片進行表情編輯,它采用漸進式訓練模型將表情細分為眼睛、鼻子和嘴巴區域進行獨立的表情編輯,能夠有助于抑制重疊偽影問題。但是由于對三個區域獨立操作,會出現生成表情不自然的問題。Tang 等人[19]提出了一種引導表達生成對抗網絡EGGAN 用于人臉表情編輯。該模型采用對抗性自動編碼器將源圖像映射到隱空間,然后結合源圖像給定目標標簽,使用GAN 生成具有目標標簽的人臉表情圖像。但是該模型并未對生成表情細節進行針對性的約束,導致生成人臉圖像出現了模糊問題。Pumarola 等人[20]提出一種基于動作單元的GANimation模型來用于面部表情生成,它打破了傳統采用離散的表情種類控制人臉語義的方法,描述了連續流形中的標簽,可以調節人臉表情的變化程度,但它的生成圖像效果嚴重依賴于動作單元的注解。Tang 等人[21]提出一種注意力引導的生成模型,能夠引導生成器生成注意力掩碼,通過融合注意力掩碼生成面部圖像,該方法能同時生成八種面部表情圖像,但是對于生成圖像的細節處理表現不佳。Xia等人[22]提出一種局部網絡與全局網絡相結合的模型,能夠利用局部網絡處理細節特征,再結合全局網絡進行面部表情生成,但是該方法對生成表情圖像的細節控制不足。

現有的基于深度學習的方法主要將人臉作為一個整體,并沒有區分不同區域變化程度的大小,這就會導致生成面部表情圖片的區域重疊和模糊。而注意力機制[23]會首先關注變化大的局部信息,然后再把不同區域的信息組合起來,可以有效地提取圖像的局部和全局特征之間的依賴關系,增強網絡的學習能力。Yang等人[24]提出了一種結合了通道注意力機制和空間注意力機制的CASGCN生成對抗網絡,來增強特征傳遞,提高生成圖像質量,但CASGCN 只是將兩種注意力機制簡單的插入到生成器的前后,并未對殘差塊進行改進,生成圖像出現了不同程度的虛影和模糊問題。

面部表情生成任務和一般的圖像生成任務有很大的區別,圖像變化的區域更加的固定,例如從“中性”表情變成“驚訝”表情,變化較大區域集中在嘴巴、眼部和額頭區域,其他區域變化并不明顯,如果在模型學習特征時平均分配權重顯然是不合適的。因此本文結合了混合注意力機制來改善這個問題,通過混合注意力機制自適應的分配特征權重,不僅能夠讓模型在學習過程中關注變化較大的區域,提高生成圖像質量,還能夠在空間上關注特征分布,讓生成圖片更加真實。

1.2 生成對抗網絡模型

生成對抗網絡框架(generative adversarial network,GAN)是由Goodfellow 等人[25]引入的深度學習架構,由兩個相互作用的神經網絡組成,即生成器網絡G和判別器網絡D,該模型已經廣泛且成功的應用于許多領域[26-27]?;谏蓪咕W絡的面部表情生成一直是研究熱點,以前的研究只是把這個任務視為一般的圖像到圖像的轉換,面部表情被認為是特殊的面部屬性,這會導致模型在學習時會認為這種表情差異是均勻分布在整個人臉,不會對變化較大的關鍵區域給予特殊的關注。Mirza等人[28]提出了一種能夠控制生成目標屬性圖像的CGAN 模型,它能夠通過添加額外條件控制GAN 生成目標圖像,而不是隨機的生成圖像,為之后的面部表情生成模型提供了新的思路,但它的生成圖像有很多缺陷,例如圖像邊緣模糊、分辨率低等。Zhu等人[29]提出的CycleGAN 模型是一種典型的圖像到圖像的轉換架構,它的目標是學習并保持內容圖像特征的翻譯映射。在CycleGAN中,不僅要生成目標風格的圖片,還要保證生成圖片內容不變,故提出了循環一致性損失來解決這一問題。但是由于該模型著重于整體屬性變化,生成的面部表情圖片還是會出現部分區域重疊和模糊問題。受到CycleGAN 的啟發,本文引用了該模型的思想,在基礎上進行了網絡架構的重建,通過嵌入混合注意力機制和組殘差塊結構增強圖像細節,提升生成圖像的真實性。

1.3 注意力機制模塊

注意力機制(attention mechanism)是一種能夠將計算資源合理分布的和解決信息超載的一種資源分配方式。隨著神經網絡的不斷發展,模型的參數越來越多。雖然模型的學習能力和表達能力越來越好,但是模型所需要儲存的信息量也越來越大,這就會導致信息超載的問題。為了解決這一問題,使得模型能夠合理分配計算資源處理更為關鍵的信息,提高模型效率和準確性,研究者們提出了一些即插即用的注意力機制模塊。例如,Hu 等人[30]提出了一種通道注意力機制模塊(squeezeand-excitation,SE)。該模塊能夠通過參數為每個特征通道生成權重,其中參數來表示特征通道之間相關性,然后通過權重來表示每個特征通道的重要性,從而完成在通道維度上對原始特征的重新標定,在計算量低的情況下有著優異的表現。Hou等人[31]提出一種將位置信息嵌入通道信息的注意力機制(coordinate attention,CA)。該模塊將通道注意力機制分解兩個平行的1D 特征編碼,來有效整合空間坐標信息,從而生成注意力特征圖。相對于SE 模塊,CA 模塊能跨通道處理特征,而且更具有目的性。Woo等人[32]提出一種輕量級卷積注意力模塊(convolutional block attention module,CBAM)。該模塊包含通道注意力模塊和空間注意力模塊兩個子模塊,能夠分別從通道和空間兩個維度上進行特征的重新標定。CBAM不僅能夠大幅度節約計算力,還能夠保證對于目標特征進行有效的標定。

2 方法

2.1 概述

給定任何輸入的正面面部圖像xs和一個輸入標簽c,其中,xs來自于源圖像域Xs,c來自于目標表達域C′。本文的目標是學習一個映射函數G,它能夠通過改變輸入面部圖像xs的面部表情,生成目標標簽c所描述的面部表情圖像G( )x,c。生成圖像不僅要生成含有目標表情的圖像,而且還不能丟失輸入圖像的特性。為了實現上述目標,本文借助了CycleGAN的思想,GRA-GAN整體框架如圖1所示。

圖1 GRA-GAN整體框架圖Fig.1 Overall framework diagram of proposed GRA-GAN

GRA-GAN人臉表情生成框架主要包括兩個部分:嵌入混合注意力機制的組殘差塊生成器G 和判別器D。嵌入混合注意力機制的組殘差塊生成器G 能夠自適應加強學習表情變化豐富的區域特征,生成含有對應表情標簽的面部表情圖像;判別器D能夠分別判別生成圖像的真假和是否帶有目標標簽。

2.2 嵌入混合注意力機制的組殘差塊的生成器

為了改善面部表情生成圖像區域重疊、模糊和缺乏真實性等問題,本文提出了一種嵌入混合注意力機制的組殘差塊的生成器,該生成器結構由一組用于下采樣的卷積層、殘差塊和用于上采樣的反卷積層組成,具體結構如圖2所示。生成器的輸入通道數為3+n,由輸入圖像的通道數和面部表情類別數等標簽的維度定義。為了關注面部表情合成過程中變化較大的面部區域,本文在進行下采樣之前和上采樣之后分辨嵌入了混合注意力機制。它沿通道和空間兩個維度順序導出注意映射圖,并將它們與輸入特征圖相乘以自適應細化特征?;旌献⒁饬C制(mixed attention mechanism,MAT)結構如圖3所示,它由通道注意力機制模塊和空間注意力機制模塊組成,通道注意力模塊關注通道的特征之間的相互依賴關系,空間注意力模塊突出特征的重要空間位置。因此添加兩個注意力模塊能夠進一步細化圖像的特征表示并降低模型復雜度,最終實現局部特征在通道和空間維度上具有全局依賴性的自適應集成。

圖2 生成器結構圖Fig.2 Generator structure diagram

圖3 混合注意力機制模型Fig.3 Mixed attention mechanism model

為了使得生成器G 在迭代過程中持續不斷的關注變化較大的關鍵區域,本文提出了一種融入混合注意力機制的組殘差塊,具體結構如圖4 所示,每一個殘差塊都有兩個通道數相同的3×3卷積層,每一個卷積層后面都做一次ⅠnstanceNorm 歸一化,在第一次激活后,采用ReLU激活函數進行激活。

圖4 嵌入混合注意力機制的組殘差塊結構圖Fig.4 Group residuals with attention mechanism module structure diagram

本文通過將混合注意力機制嵌入殘差塊中,這樣在每次傳遞特征時都能夠通過注意力機制給予不同權重,增強面部變化較大區域的細節處理。原始的生成器結構有一個非常大的弊端,它只是把殘差塊簡單的串聯在一起,這樣會使得在特征傳遞的過程中只關注上一層傳遞過來的信息,忽略了更前面的信息,為了使得殘差塊在傳遞特征時能夠更全面的考慮較淺層信息,本文采用了分組的思想,將每兩個帶有混合注意力機制的殘差塊分為一組。通過實驗發現,將殘差塊進行一次分組會比將殘差塊進行兩兩分組后再進行一次分組的效果要好。本文認為面部表情特征在傳遞的過程中,面部變化較大的區域特征會有明顯變化,如果讓殘差塊的輸入信息來源于距離更遠的殘差塊會影響最后的生成效果,所以本文最終采用了兩兩分組的結構,讓殘差塊在處理特征時關注適當距離的殘差塊信息。

2.3 判別器

本文方法的判別器思想來源于的PatchGAN[33],普通的GAN 判別器是將輸入映射成一個實數,即輸入樣本為真樣本的概率,而PatchGAN 將輸入映射為N×N的矩陣X,Xij的值代表每個patch 為真樣本的概率,將Xij求均值,即為判別器的最終輸出。判別器有兩個功能,一是判斷生成圖像的真假,另一個功能是判斷輸入圖像所屬的表情類別。

如圖5所示,主體網絡包括6個4×4的卷積層,每一個卷積層后面連接一個LeakyReLU 激活層,以加速損失函數的梯度傳播。在判別生成圖像真假時采用一個3×3卷積層,通過判別每個patch是否為真,將結果求均值,作為最后判別生成圖真假的結果。與此同時判別器還需要通過輔助分類器來預測生成圖片面部表情的類別。

圖5 判別器結構圖Fig.5 Discriminator structure diagram

2.4 損失函數

訓練中采用了三種損失函數,分別為對抗損失、重建損失和類別損失。采用對抗損失函數來約束生成圖像更加真實。采用重建損失函數能夠進一步保證生成圖像在像素級和特征級上都能更加接近真實圖像,保證輸出圖像G( )x,c不改變輸入圖像x的內容。采用類別損失函數能夠保證輸出圖像G( )x,c能夠正確的分類到目標域C。

對抗損失:對抗損失主要是基于鑒別器D和生成器G。損失函數的計算方法如下:

本文使用GAN 的常規函數,生成器G 通過輸入圖像x和目標域標簽c生成圖像G(x,c),生成器G 的目的是最小化該目標。判別器D 來判別真實圖像與生成圖像是否一致,判別器D的目的是最大化該目標。其中Dsrc(x)判別器D給出的源域上的概率分布。

重建損失:對抗損失函數能夠保證生成圖像的真實性,但是沒法保證生成圖像G( )x,c保留輸入圖像x的內容。為了解決這個問題,本文對重建損失函數的定義如下示:

再使用一次生成器,將原始標簽和生成圖像G(x,c)結合后再次放入生成器G 中再生成偽原始圖像x0。通過比較原始圖像x和偽原始圖像x0的正則化距離,來保證生成圖像G(x,c)保留輸入圖像x的內容。

類別損失:類別損失的目的是為了生成帶有目標標簽的面部表情圖片,所以要使輸入圖像x轉化為輸出圖像G(x,c)能夠正確的分類到目標域c,為了達到此目的,本文對類別損失定義如下:

其中,Dcls(c′|x)代表判別器D將真實樣本歸于原始標簽c′的概率分布,判別器的目的是最小化類別損失。生成器G 的目的是使生成圖像G(x,c)盡可能地被判別器D分類成目標域c,因此類別損失越小越成功。

完整的損失函數如下公式所示:

其中,生成器G 的損失函數由對抗損失、重建損失和類別損失組成,超參數λcyc和λcls分別設置為10 和1。判別器損失函數由對抗損失和類別損失組成。

3 實驗

3.1 數據集

本文使用Radboud Faces Dataset(RaFD)[34]作為訓練數據集,RaFD 由4 824 張大小為681×1 024 的人臉圖像組成,共有67名參與者參與,每位參與者的面部圖像都是由攝像機從3 個不同角度進行拍攝。這個數據集中的面部圖像標簽中含有8種離散的面部表情類別,包括憤怒、蔑視、厭惡、驚訝、快樂、中性、悲傷和恐懼。為了保證面部表情的完整性,本文只使用了正面面部圖像,總共1 608張正面面部圖像。在本文實驗中,按照67個身份進行分類,隨機選擇其中的90%作為訓練集,剩下的10%作為測試集。

3.2 實驗配置

本文使用PyTorch 構建并訓練模型,PyTorch 版本為1.12 版本;操作系統為Window 10;編程語言使用Python 3.7。CPU和GPU分別為i7-12700K和RTX3070Ti(顯存8 GB),服務器運行內存為16 GB。GRA-GAN 在該實驗硬件平臺上的訓練時間為16 h,測試時間為(7.58±0.5)s。

訓練階段的batch size 設置為16;迭代次數設置為300 000 次;訓練時將原始數據集裁剪成只含有面部圖像的128×128圖像作為輸入數據;優化函數采用隨機梯度下降算法Adam[35],學習率設定為0.000 2,beta1=0.5,beta2=0.999;損失函數超參數設定λcyc=10,λcls=1。

3.3 評價指標

本文采用3種常用評價指標作為評價生成圖像質量的評價指標,分別是弗雷歇初始距離(Frechet inception distance,FⅠD)[36]、峰值信噪比(peak signal to noise ratio,PSNR)[37]和結構相似性(structural similarity,SSⅠM)[38],采用表情識別率驗證生成圖像對目標表情細節的保留。接下來,分別對每種評價指標進行簡單介紹。

3.3.1 弗雷歇初始距離

弗雷歇初始距離是用來評估生成圖像質量的一種度量標準,專門用來評估生成對抗網絡的性能,得分越低說明兩圖像越相似,最佳情況下得分為0。FⅠD 計算的是真實圖片和生成圖片在特征層面的距離,因此對于作為評估生成對抗網絡的性能的指標顯得更為合理一些。計算公式如下:

其中,μr是真實圖片的特征的均值,μg是生成圖片的特征的均值,Σr是真實圖片的特征的協方差矩陣,Σg是生成圖片的特征的協方差矩陣,本質上是使用真實圖像和生成圖片提取特征向量之后的均值,協方差的距離評價。當生成圖像和真實圖像特征越相近時,均值差的平方越小,協方差也越小,則FⅠD也越小。

3.3.2 峰值信噪比

峰值信噪比常用于衡量兩張圖像之間的差異,是評價圖像的客觀標準之一,也是最普遍使用的評估圖像質量的指標,峰值信噪比越高說明生成圖像質量越好。計算方式如下:

其中,MaxValue為圖像像素可取到的最大值,例如8位圖像為28-1=255,MSE為兩張圖像的均方誤差,具體計算過程如下所示:

MSE越大,PSNR數值越大,兩張圖像越相似。

3.3.3 結構相似性

結構相似性常用于評價兩張圖像的相似程度的指標取值范圍為[0,1],SSⅠM得分越高,說明表情圖像失真程度越小,圖像質量越好。它主要由三個部分組成,分別是圖像照明度比較部分l(x,y),圖像對比度比較部分c(x,y),圖像結構比較部分s(x,y)。詳細公式如下所示:

其中,μx和μy、σx和σy分別為x和y的平均值和標準差,σxy為x和y的協方差,C1、C2、C3都是常數,用來保證分母為非負數。SSⅠM 的值越大,代表著兩張圖片的相似度越高。

3.3.4 表情識別率

在面部表情生成任務中,生成的表情類別的準確性是本文所關心的關鍵問題。因此在定量分析時,本文從表情識別率進行定量評估。為了驗證生成的圖像是否指定表情類別,采用Face++[39]計算生成圖像的表情準確率。Face++是云端視覺服務平臺,提供了完整的人臉分析的視覺技術服務,可以從圖像中分析出人臉表情屬于7種類別(憤怒、厭惡、驚訝、快樂、中性、悲傷和恐懼)的概率。但是GRA-GAN從RaFD數據集上可以生成8種面部表情,而Face++缺少輕蔑這一面部表情標簽。為了公平起見,本文只對不包含輕蔑表情的面部表情生成圖像進行識別,在此基礎上計算面部表情識別準確率。

3.4 實驗結果與分析

3.4.1 實驗結果展示

圖6 展示了GRA-GAN 生成的8 種基本表情圖像。如圖6 所示,本文提出的GRA-GAN 可以生成真實的不同類別的面部表情圖像,能夠有效解決局部區域重疊和模糊的問題,非常明顯地反映出不同情緒。本文利用曠視Face++來對面部表情生成圖像進行表情識別,通過GRA-GAN生成的面部表情圖片平均識別率為91.41%。實驗結果表明,GRA-GAN能生成高質量和具有真實性的面部表情圖像。

圖6 GRA-GAN表情生成圖像示例Fig.6 Ⅰmage examples of GRA-GAN expression generation

3.4.2 對比實驗

本文將從定性評估和定量分析兩個角度來對本文方法與相關方法進行分析比較。相關對比方法包括CycleGAN、StarGAN[40]、HGAN、EGGAN、GANimation和AttentionGAN。CycleGAN 通過兩個生成器和兩個判別器能夠實現不同域圖像之間進行轉換,而本身的形狀特征保持不變,提出了循環一致性的想法保證生成圖像保留源圖像的內容。StarGAN 能夠只使用一個生成器和一個判別器實現對多個域進行圖像到圖像的轉換,通過輸入圖像和不同的目標標簽就能夠生成基于目標域標簽的輸出圖像。HGAN 和EGGAN 都是對隱空間進行操作的人臉表情編輯方法,能夠生成人臉表情序列。GANimation 基于動作單元(action units,AU)可以生成連續的人臉表情。AttentionGAN 將生成器輸出與注意力掩碼融合生成新的目標圖像。

定性評估:圖7 為在RaFD 數據集上使用不同方法生成8 種面部表情圖像的定性比較。輸入圖像來自RaFD 數據集帶有“中性”標簽的面部人臉表情,不同行代表不同方法生成的面部表情圖像。

圖7 GRA-GAN與其他模型的對比實驗示例Fig.7 Experimental examples of GRA-GAN compared with other modeles

如圖7 所示,CycleGAN 和StarGAN 模型生成的面部表情圖像出現了明顯的區域重疊和模糊問題。由于面部區域存在較大的轉換和變形,面部表情生成任務應該是更復雜的任務,而不能簡單地當成人臉屬性來簡單處理。HGAN和EGGAN都是對隱空間進行編輯,能夠生成高質量特定表情,例如帶有“快樂”標簽的人臉表情,但是針對部分表情表現不佳,例如帶有“蔑視”標簽的人臉表情,HGAN生成含此類標簽的表情圖片無法被明顯識別為“蔑視”表情,而EGGAN生成含此類標簽的表情圖片出現了模糊問題。GANimation 結合了基于AU 注意力機制的模型表現良好,但是部分區域還是出現了明顯的區域模糊,缺乏真實性。AttentionGAN生成的面部表情圖像在唇部區域出現了模糊問題。主要原因是,AttentionGAN 過多依賴于注意力掩碼的生成質量,對于細節處理不穩定。而本文提出的GRA-GAN,通過嵌入混合注意力機制,從通道和空間分布兩方面加強細節處理,能夠使得模型更好的學習細節,也能夠生成更加自然真實的面部表情圖像。通過與先進方法的比較,本文可以看出本文提出的方法GRA-GAN在面部表情生成任務中能夠取得更好的效果。

定量分析:本文使用FⅠD、PSNR、SSⅠM 指標和表情識別率來綜合評估生成面部表情圖片的質量和真實性。通過將GRA-GAN在RaFD數據集上與其他方法進行比較來驗證本文方法的有效性,表1呈現了GRA-GAN模型在4個定量指標上的客觀結果。

表1 GRA-GAN與其他模型的評價指標得分對比Table 1 Comparisons of evaluation index scores of GRA-GAN and other models

從表1 可以看出,GRA-GAN 從這3 個圖像質量評價指標上優于其他6個模型,表情識別準確率也高于其他6個模型。GRA-GAN通過注意力機制自適應去分配不同特征的權值,能夠使得面部表情生成圖像更好的呈現清晰的面部表情,比如嘴巴和眼睛這些容易重疊的區域。而對PSNR和SSⅠM這種從像素級層面比較和圖像結構比較的評價標準,GRA-GAN在模型中嵌入混合注意力機制,能夠在空間上更好約束生成圖像,使得生成圖像和原始圖像在空間分布上有更好的相似性。

結果表明,本文所提出的GRA-GAN通過嵌入混合注意力機制的組殘差塊能夠更好地適應面部表情生成任務,能夠解決部分區域重疊和模糊的現象,增加面部細節生成,從而使得生成表情更加的真實。

3.4.3 消融實驗

在本小節中,做了消融實驗來評估MAT 模塊和GRA 模塊的貢獻。本文比較了該模型的3 個版本,即原始模型(Ours w/o MAT&GRA)、只帶有MAT 模塊(Ours w/o GRA)的模型和嵌入GRA 模塊(Ours)的模型。消融實驗結果如圖8所示,從生成面部表情圖像來看,添加了MAT 模塊能夠明顯地改善生成圖像區域重疊和模糊現象,但是像厭惡這種嘴部變化較大的生成圖像約束力還是不足,嘴部還是有輕微模糊,在加入GRA模塊后,這種重疊明顯緩解,而且使生成的圖像更加真實自然。

圖8 GRA-GAN消融實驗結果示例Fig.8 Examples of GRA-GAN ablation experimental results

本文也對其使用FⅠD、PSNR、SSⅠM 和表情識別率進行了定量分析,如表2 所示,FⅠD、PSNR 和SSⅠM 分數說明了生成圖像質量在逐步提升,面部表情識別率說明了生成圖像的真實性也在逐步提升。添加MAT模塊后各項指標有明顯提升,表明添加注意力機制,有助于學習表情細節。GRA-GAN 通過加入GRA 模塊來區分面部關鍵區域的重要程度,說明了關鍵面部區域在面部表情生成中有著十分重要的作用。

表2 消融實驗的評價指標得分對比Table 2 Comparisons of evaluation index scores of ablation experiments

4 結束語

針對面部表情圖像生成質量較低的問題,本文提出一種嵌入注意機制的組殘差塊生成對抗網絡(GRAGAN)。所提出的GRA-GAN通過在生成對抗網絡中嵌入混合注意力機制,從通道和空間兩個方面關注特征傳遞,從而增強生成面部表情圖像的細節,改善面部部分區域重疊和模糊現象,增加生成面部圖像的真實性。為了進一步加強模型對關鍵區域的學習能力,提出了一種嵌入混合注意力機制的組殘差塊,來增加特征傳遞時的學習能力,加強殘差塊之間的聯系,能夠使得特征在殘差塊傳遞的過程中更好地保留關鍵信息。

目前該模型只適用于實驗室環境下的正面面部表情生成。自然環境下的面部圖片往往會有很多干擾,類似光照、姿態和遮擋等。針對自然環境數據集的高質量面部表情生成任務是今后主要的研究方向。

致謝本文由“機器人仿生與功能研究北京重點實驗室”資助。

猜你喜歡
人臉殘差注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
有特點的人臉
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
三國漫——人臉解鎖
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
平穩自相關過程的殘差累積和控制圖
馬面部與人臉相似度驚人
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合