?

基于 StarGAN的人臉表情數據增強研究

2024-01-24 14:36王俊杰賈東立
電腦知識與技術 2023年34期
關鍵詞:注意力機制計算機視覺

王俊杰 賈東立

摘要:StarGAN網絡在生成人臉表情圖片時存在局部細節模糊、重疊、整體質量不佳等問題,針對上述問題,對基礎StarGAN網絡提出了以下3項改進:對生成器加入CBAM注意力模塊;改變生成器的網絡結構為Attention U-Net網絡;對原來的損失函數加入上下文損失函數。對于實驗結果使用定性和定量的評價標準,通過與其他模型的FID圖像評價指標數值比較,文章提出的方法生成的圖片在圖像整體質量和局部細節都有顯著的效果。

關鍵詞: 計算機視覺; 表情生成; 數據增強; StarGAN; 注意力機制

中圖分類號:TP18? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)34-0009-04

開放科學(資源服務)標識碼(OSID) :

0 引言

人臉表情往往比語言可以傳達更準確真實的信息,對于人臉表情的研究最早可以追溯到20世紀60年代,Ekman等[1]科學家將觀察人臉表情運用到心理學領域,他們建立了基本的7種表情分類,為后繼的研究奠定了基礎。當下利用深度學習方法進行人臉表情識別研究的工作開展已經很充分了,眾所周知,深度學習的訓練需要大規模的數據集支持。而目前人臉識別領域經典的數據集如:JAFFE、FER2013、RAF-DB等數據量規模小,各表情類間數據量不均衡都在制約著深度神經網絡的表情識別能力。為了最大限度地發掘深度神經網絡的能力,本文提出了一種基于StarGAN的人臉表情圖像生成網絡,對經典的人臉表情數據集進行數據增強,提高網絡對表情識別的準確率。

StarGAN網絡是針對多域圖像轉換問題而提出的,它解決了CycleGAN單一域轉換的局限性,提高了效率,節省了計算資源。使用StarGAN網絡生成的人臉表情存在局部細節模糊、重疊等問題,對于人臉識別的準確率造成很大的影響。因此,針對這一問題,本文對生成器加入CBAM注意力模塊,對于表情識別影響較大的局部,例如:嘴角、眼睛和鼻子等給予高權重。由于原始圖像和生成圖像在空間位置上不一定對齊,這就會對損失函數的值造成影響,從而影響生成的效果。為了解決這個問題,本文使用上下文損失函數來規避空間位置不對齊的影響,通過提取圖像的高維特征,計算不同圖像間的高維特征的余弦距離來判別2種圖片的損失距離。Attention U-Net網絡引入了門控單元,可以使得網絡集中在對表情變化影響巨大的區域。

1 模型方法

1.1 實驗內容

本實驗主要包括2部分:人臉表情生成、表情識別。人臉表情生成用改進的StarGAN算法對原始的數據集進行擴增,得到新的規模較大的數據集來為訓練表情分類網絡做準備。表情識別使用VGG-16網絡進行表情分類,通過對比原數據集訓練的分類網絡和擴增后的數據集訓練的分類網絡的表情識別準確率,可以進一步說明表情生成工作的價值和必要性。

1.2 CBAM注意力模塊

CBAM(Convolutional Block Attention Module) 是一種用于增強卷積神經網絡性能的注意力模塊。CBAM模塊[2]會將得到的特征圖按照空間和通道兩個維度計算注意力圖,從而提高圖像分類、目標檢測和其他計算機視覺任務的性能。

CBAM模塊下有兩個子模塊:空間注意力模塊、通道注意力模塊。通道注意力模塊在空間維度上壓縮輸入特征圖,得到一個1×1×C的特征圖,自適應地學習各通道的重要程度,計算每個通道的重要性權重,反饋給特征圖的通道信息??臻g注意力模塊將前一模塊輸出的特征圖作為輸入,在通道維度上進行壓縮,得到一個H×W×1的特征圖,得到空間層面的注意力權重信息。CBAM模塊是輕量級的注意力模塊,可以很方便地集成到各神經網絡中,取得很好的效果,提高模型的泛化能力。如圖1所示,展示了CBAM模塊的計算流程。

1.3 損失函數

原始StarGAN網絡的損失函數[3]包括對抗損失、域分類損失、重建損失見(1) ~(3) :

[Lrcls=Ex,c[-logDcls(c∣x)]]? ? ? ? ? (1)

[Lfcls=Ex,c[-logDcls(c∣G(x,c))]]? ? ? (2)

[Lrec=Ex,c,c[||x-G(G(x,c),c)||1]]? ? ? ?(3)

生成器和鑒別器的總損失函數如下所示:

[LD=-Ladv+λclsLrcls]? ? ? ? ?(4)

[LG=Ladv+λclsLfcls+λrecLrec]? ? ? (5)

為了解決原始圖像和生成圖像在空間上不完全對齊的問題,提出了上下文損失函數,通過比較圖像的高維特征,更好地度量了圖像之間的相關性。上下文損失函數公式為:

[LCX(x,y,l)=-log(CX(Φl(x),Φl(y)))]? ? ? (6)

其中,[Φl(x),Φl(y)]是原圖像和生成圖像使用VGG19網絡提取的特征圖。

改進后的生成器和鑒別器的總損失函數為:

[LD=-Ladv+λclsLrcls]? ? ?(7)

[LG=Ladv+λclsLfcls+λrecL′rec+λcxLcX(x,y,l)]? ? (8)

其中, [λcls]、[λrec]、[λcx]均為超參數,它們的值都設為1。

1.4 Attention U-Net網絡

Attention U-Net網絡[4]是U-Net網絡的一個改進方案,在計算機視覺和醫學圖像分割領域有很大的作用,它引入了Attention gate單元來關注圖像的重要區域。Attention U-Net網絡中的編解碼架構和Skip Connection可以對圖像的不同層次特征圖進行整合和重現,最大限度地提取圖像的深層特征。Attention U-Net網絡先由編碼器結構進行下采樣,獲得圖像壓縮后的特征;然后進入中間特征層,進一步提取圖像的高級特征;解碼器負責將從中間特征層提取出的特征圖進行重構,重建與原圖像大小相同的新圖像。Attention U-Net網絡中的注意力機制可以關注圖像中最重要的局部區域,例如嘴角、眼睛、鼻子這些對于表情識別具有關鍵影響的局部區域,可以提取到最重要的特征。Skip Connection的輸出和網絡上一級的特征圖都輸入Attention Gate單元計算,篩選出圖像最重要的特征區域。Attention Gate單元結構如圖2所示。

Attention U-Net網絡的整體結構如圖3所示。

2 數據集的選取與數據增強

本實驗使用的數據集為RAF-DB數據集和KDEF數據集。RAF-DB[5]為自然環境下采集的人臉表情數據集。該數據集的總規模超過30 000張,包括基本表情分類子集和復合表情分類子集。本次使用包含7種表情分類的基本表情分類子集:驚訝、恐懼、厭惡、快樂、悲傷、憤怒以及中立表情?;颈砬榧挠柧毤偭砍^10 000張,測試集3 000張。雖然數據集規模較為合理,但是不同表情類別間數量相差懸殊,例如:快樂類表情圖片數量是恐懼類表情數量的十幾倍。因此,使用生成網絡對數據量小的表情類進行數據增強,增強后RAF-DB數據集訓練集共有41 796張圖片(對圖片數量小于5 957的表情類進行人臉表情生成,每類表情選取5 957張)。

KDEF數據集的發布時間早在1988年,最初的應用范圍為心理精神方面,后來隨著表情識別課題的提出,逐漸成為該領域內比較重要的一個數據集。KDEF數據集總量不到5 000張,是一個比較小的數據集,但是采集的環境內光線柔和、細節清晰度高、被試者服裝統一,避免了耳飾、妝容的影響,具有很高的研究價值。通過生成網絡對KDEF數據集進行數據增強,數據集規模變為原來的7倍。

3 實驗結果與分析

3.1 實驗環境

本實驗在操作系統 Win11 下完成,CPU 為Intel(R) Core(TM) i7-12700H/GPU: RTX 3070 Ti, 內 存 為 16G。開 發 環 境 為 Python3.8、PyTorch1.9.0等。

3.2 實驗結果

本實驗選用了Pix2Pix、StarGAN以及本文提出的網絡進行人臉表情生成,3種方法生成的RAF-DB數據集人臉表情效果對比如圖4所示:

3種方法生成的KDEF數據集人臉表情效果對比如圖5所示:

FID值[6]是經典的衡量生成圖像質量的指標,可以衡量圖像生成的多樣性和質量。FID值越低,說明圖片生成的質量越高且富有多樣性。為了從定量的角度評斷本文提出方法的優越性,采用FID指標對3種方法進行比較。FID通過比較生成圖像和原始圖像的分布相似性來評估模型的生成效果,使用在ImageNet數據集預訓練好的Inception V3網絡作為特征提取器,將圖片提取到高緯度的特征表示,計算特征向量的均值向量和協方差矩陣。FID的表示如公式(9) :

[FID(X,Y)=||μX-μY||22+Tr(ΣX+ΣY-2ΣXΣY)] (9)

3種模型在RAF-DB數據集上生成表情圖片計算的FID值如表1所示:

3種模型在KDEF數據集上生成表情圖片計算的FID值如表2所示。

通過數據增強,得到了規模擴大數倍的RAF-DB數據集和KDEF數據集,使用VGG-16網絡作為表情識別的分類網絡,用數據集的訓練集訓練分類網絡VGG-16,使用測試集評估表情識別的性能。3種模型的RAF-DB數據集表情識別準確率如表3所示。

3種模型的KDEF數據集表情識別準確率如表4所示:

3.3 實驗結果分析

通過各種方法在RAF-DB數據集和KDEF數據集上生成的人臉表情圖片對比,可以觀察到本文方法生成的人臉圖片的整體質量較高,局部的重疊、模糊情況發生較少。通過觀察表1和表2可知,本文方法在RAF-DB和KDEF數據集上生成的表情圖片均取得了最小的FID值,說明本文方法生成的人臉表情具有高質量和高多樣性。通過觀察表3和表4,可以得出本文方法在兩個數據集上均取得了最高的表情識別率。綜上,本文方法生成的人臉表情圖像優于StarGAN和Pix2Pix方法,對于解決人臉表情數據增強工作具有一定的意義。

4 結論

針對人臉表情數據增強問題,傳統的數據增強方法,如旋轉、裁剪、縮放等在處理復雜的人臉表情變化時有很多的局限性:有限的變換空間,信息丟失、模型泛化能力受限。因此,提出了生成對抗網絡來生成表情圖像,從而擴增數據集的規模。但是使用生成對抗網絡生成的圖像,往往會出現整體質量低、局部細節模糊、重疊等問題。因此,提出了本文的方法,通過實驗的結果證明,本文方法對于解決這一問題有一定的可行性。本文方法生成的人臉表情圖片雖然有了一定的進步,但是和真實的人臉圖像還有不小的差距,部分細節還是不真實,希望通過后續的學習,提出更好的模型,更好地學習人臉圖像的特征。

參考文獻:

[1] EKMAN P,FREISEN W V,ANCOLI S.Facial signs of emotional experience[J].Journal of Personality and Social Psychology,1980,39(6):1125-1134.

[2] SHENG W S,YU X F,LIN J Y,et al.Faster RCNN target detection algorithm integrating CBAM and FPN[J].Comput Syst Sci Eng,2023,47:1549-1569.

[3] CHOI Y,CHOI M,KIM M,et al.StarGAN:unified generative adversarial networks for multi-domain image-to-image translation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,2018:8789-8797.

[4] TREBING K,STA?CZYK T,MEHRKANOON S.SmaAt-UNet:precipitation nowcasting using a small attention-UNet architecture[J].Pattern Recognition Letters,2021,145:178-186.

[5] WANG K,PENG X J,YANG J F,et al.Region attention networks for pose and occlusion robust facial expression recognition[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2020(29):4057-4069.

[6] OBUKHOV A,KRASNYANSKIY M.Quality assessment method for GAN based on modified metrics inception score and Fréchet inception distance[C]//SILHAVY R,SILHAVY P,PROKOPOVA Z.Proceedings of the Computational Methods in Systems and Software.Cham:Springer,2020:102-114.

【通聯編輯:唐一東】

猜你喜歡
注意力機制計算機視覺
基于LSTM?Attention神經網絡的文本特征提取方法
InsunKBQA:一個基于知識庫的問答系統
基于深度卷積神經網絡的物體識別算法
雙目攝像頭在識別物體大小方面的應用
危險氣體罐車液位計算機視覺監控識別報警系統設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合