?

三通道超分辨率微小面部表情識別算法研究

2024-01-24 07:39程其玉鐘志水劉華敏
銅陵學院學報 2023年6期
關鍵詞:分辨率像素準確率

程其玉 鐘志水 劉華敏 汪 立 李 璐

( 安徽信息工程學院計算機與軟件工程學院,安徽 蕪湖 241100 )

一、引言

隨著智能化時代的到來, 面部表情識別技術作為人工智能中對于研究人的行為狀態的基礎, 逐漸在各個領域發展應用起來。 由于在機器開發時模擬的圖像僅為實驗室中的理想情況, 即使已經考慮到光線、眼鏡、遮擋等因素,但在實際生活中攝像頭采集到的面部圖像往往達不到所需的識別尺寸, 因而識別精準度就會隨之降低。 圖像識別中,當輸入圖像的尺寸減小時, 神經網絡的特征提取程度也受到限制,反之,圖像進行放大時,會導致部分細節的丟失,從而導致圖像分辨率降低, 進而導致圖像識別的準確率降低。

近些年,隨著人臉識別和面部表情識別的發展,部分學者不再拘泥于理想數據庫進行訓練。 2017 年胡(HU)等人首次提出了對微小人臉面部區域進行檢測, 并且訓練出了可以在不同面部尺寸中進行檢測的多尺度的模型[1]。 2018 年白(BAI)等人將超分辨率網絡應用到人臉檢測和識別中[2],該網絡使用超分辨率網絡對圖像進行細化以生成清晰且真實的高分辨率圖像, 最終實現了能夠最低檢測10*10 像素的面部圖像。2019 年邵(SHAO)等人重點研究了尺寸為16*16 像素的微小面孔, 通過探索生成對抗性網絡W-GAN (Wasserstein Generative Adversarial Net)的潛力,將它們重建到8 倍上采樣版本[3]。 2020 年,余(YU)等人提出了一種新的超分辨率變革性對抗性神經網絡,以同時產生幻覺(由8 倍的上采樣)和正面化微小(16*16 像素)不對齊的人臉圖像[4]。 南(NAN)等人提出一種基于特征超分辨率的人臉表情識別方法FSR-FER, 可針對低分辨率面部表情圖像進行訓練識別, 通過在RAF-DB 數據庫上放大2 倍、3 倍、4倍、8 倍驗證了所提出網絡的效果, 即最小能夠識別25*25 像素大小的面部圖片[5]。 言(YAN)等人從濾波器學習的角度來執行低分辨率的面部表情識別,在CK+、MMI、JAFFE 數據庫上進行了輸入大小為8*8、16*16、32*32 分別放大4 倍、2 倍、1 倍的驗證,在RAF-DB 數據庫上也進行了放大三倍實驗的驗證[6]。綜上,近些年研究者們提出的超分辨率方法,大多都是通過網絡深度的提升來提高超分辨率的性能,而要加深網絡的整體深度, 對訓練時的時間要求以及對計算機性能的要求也都會提高。 因此,本文提出一種微小面部表情識別網絡CTE-FER,網絡結構如圖1 所示,旨在解決在圖像采集中由于像素等原因導致采集到的面部圖像較小以及分辨率較低, 從而導致面部表情識別準確率降低的問題。 首先,本文引入來自Cutblur 的圖像預處理機制[7], 結合EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)超分辨率網絡進行訓練[8]。 由于要縱向加深網絡的整體深度, 其訓練的時間延長以及對計算機性能要求也會提高。 綜合考慮網絡層次深度以及超分辨率效果, 本文在不改變EDSR 網絡縱向深度的同時提出了在橫向程度上添加通道, 以構成三通道的EDSR 網絡。其次,將其與FER 面部表情識別網絡結合, 構成端對端的基于Cutblur 的三通道EDSR 表情識別網絡,稱之為CTE-FER 網絡。 最后,本文采用多項實驗對比驗證所提出算法的有效性。

圖1 CTE-FER 網絡結構

二、三通道超分辨率微小面部表情識別網絡結構

本文提出的三通道超分辨率微小面部表情識別網絡分為三個部分。如上文圖1 所示,分別為Cutblur圖像預處理部分、 三通道EDSR 超分辨率部分以及FER 面部表情識別部分。 CTE-FER 圖像預處理部分是將面部圖像在超分辨率網絡訓練之前進行色塊方面的預處理, 以減少圖像特征處理時對超分辨率結果和表情識別結果的影響。 三通道的EDSR 網絡對處理后的圖像特征進行學習, 三通道將網絡的橫向深度加深, 保證了網絡縱向深度不變的同時提升其訓練效果和穩定性。 表情識別部分為對超分辨率處理后的圖像特征進行面部特征的提取和分類, 最終得到識別的結果。

(一)CTE-FER 框架原理

CTE-FER 算法首先采用Cutblur 對圖像進行預處理, 通過在空間上將不同分辨率的圖像色塊相互填充, 從而實現有針對性地對某一特征區域進行超分辨率處理。 如圖2 所示, 將低分辨率圖像 (lowresolution ,LR) 中的圖像塊進行裁剪并粘貼在高分辨率圖像(high-resolution ,HR) 中對應位置; 使用HR 對放大后的LR 反向進行局部區域的填充操作。通過預處理,既可以讓模型知道如何處理,也可以知道哪里需要處理, 即算法可以自適應地對圖像進行不同程度的處理, 而不是盲目地對所有像素進行超分辨率處理。

圖2 Cutblur 預處理原理

假設給定LR 圖像xLR∈RW*H*C和HR 圖像xLR∈RW*H*C,CTE-FER 首先對LR 圖像進行s 倍的雙三次插值,再通過剪切、粘貼進行色塊相互填充,生成成對的訓練樣本xLR∈RW*H*C:

其中s 是放大倍數,M∈0.{ }1sW*sH為二值Mask,其主要功能為確定所需要進行裁剪粘貼的部分。

本文提出的三通道EDSR 網絡如圖3 所示, 將經過Cutblur 處理后的特征向量作為輸入信息T1in、T2in、T3in,輸入到三通道EDSR 的網絡中。再經過低分辨率特征提取塊conv(s,n)得到提取后的特征T′1in、T′2in和T′3in。

圖3 三通道EDSR

conv(s,n)代表卷積層,公式中的s 和n 分別是濾波器的大小和數目。 之后便將這些特征進行殘差塊ResBlock 多次迭代。

fRes表示T′in,ResBlock 層, 經多次迭代加和后將輸出的殘差結構進行上采樣以及圖像重建,如此便得到了經過殘差網絡訓練的超分辨率放大后的圖像特征T1out、T2out和T3out。 之后再將三通道得到的圖像特征進行加權, 得到綜合的超分辨率特征值Tout。

其中μ 為權重, 具體參數獲取方法將在消融實驗給出。

(二)表情識別部分及損失函數

在得到三通道加權后的超分辨率圖像特征之后,CTE-FER 將圖像特征放入面部表情識別網絡中進行面部特征提取與分類。

其中,I0表示面部表情識別輸出結果,fSMFER表示面部表情網絡。

此CTE-FER 網絡的損失函數可以表示為:

其中,LDF表示三通道EDSR 網絡的損失函數,Lfer表示面部表情識別網絡的損失函數。 在此選擇交叉熵作為損失函數。λDE和λfer表示正則化參數。其中,三通道EDSR 網絡采用損失函數L1 來優化, 面部表情網絡采用交叉熵損失函數優化。 因此可以表示為:

其中,μ值與公式9 一致,LSR1、LSR2、LSR3分別對應三個通道的損失,THR為輸入的高分辨率圖像特征,即目標特征。 Ix為表情識別實際標簽。

三、實驗結果分析

(一)實驗參數及實驗環境

本實驗在Pytorch3.6 的環境中運行, 使用NVIDIA2080GPU 進行訓練。 訓練時一共有700 000個steps,每訓練1 000 個steps 顯示一次。 在網絡中使用Adam 優化器優化網絡參數,初始學習率為1e-4。 對于三通道的EDSR 網絡來說,訓練時間和改進之前的訓練時間相差無幾, 在輸入低分辨率圖像大小為12*12 像素放大四倍的情況下,每訓練1 000 個steps 大約需要10 分鐘。

(二)消融實驗

表1 展示了本文所提出的CTE-FER 算法與采用CARN 網絡和不同通道分別在CK+、FER2013、BU-3DFE 數據庫中的表情識別結果的比較。 放大倍數為3和4 時,將數據庫采用雙三次插值法縮小到原來1/3 和1/4 分別得到大小為16*16 像素和12*12 像素的輸入。

表1 消融實驗

在表1 中,CSC-FER 為在單通道時采用CARN算法時的結果, 其在CK+數據集上的結果為91.92%, 在FER2013 和BU-3DFE 的結果分別為66.26%和78.8%。 但對于其未采用Cutblur, 只采用EDSR 結果相對比結果并不理想。 CSE-FER 為單通道采用EDSR 網絡時的結果,可以看到,在三個數據集上該算法得到的結果較采用同等網絡深度網絡(CARN)時的結果要好,并且在放大三倍的情況下整體面部表情識別的準確率也較為理想。 因此,在網絡中選取EDSR 作為基礎網絡, 同時為進一步驗證多通道的有效性,本文將輸入大小縮小為12*12 像素,即縮小4 倍的情況。 可以看出, 在圖像進一步縮小時,各個數據庫的識別準確率都有一定程度的降低。綜合比較單通道(CSE-FER)、雙通道(CDE-FER)、三通道(CTE-FER)時的情況可以看出,在按通道時所有數據庫的準確率均有明顯提升。 進一步進行四通道訓練時, 在FER2013 數據庫中可以看到準確率開始下降,也正是因為訓練所需時間為三通道的兩倍,針對四通道之后的訓練不再繼續。

上文公式(9)中有三個參數μ1、μ2、μ3,分別用于確定三通道EDSR 網絡中的各個通道的影響。 本實驗采用FER2013 數據庫進行實驗,首先采用不定系數法保持μ1=1 不變, 然后調整μ2和μ3的值來觀察識別準確率,從下頁圖4 可以看出,當μ2=μ3=0.08 時面部表情識別準確率最高;之后保持μ2=μ3=0.08 不變,調整μ1的值,得出的結果如下頁圖5 所示。 可以看出當μ1=0.8 時,面部表情識別準確率達到最高。 綜上,本實驗在μ1=0.8,μ2=μ3=0.08 時達到最優值。

圖4 μ1=1,改變μ2,μ3 時面部表情識別準確率的變化

圖5 μ2=μ3=0.08 時,改變μ1 時面部表情識別準確率的變化

(三)算法自我評估

圖6 展示出本算法在CK+、FER2013、BU-3DFE數據庫中的混淆矩陣分析,從圖中可以看到,各種表情開心與驚訝的表情準確率相對較高, 而其他的表情準確率相對略低, 并且不同的數據庫中的相同表情準確率的順序也不相同, 這是因為每個數據庫中的各個表情所占比重不同, 以及每個數據庫的圖像來源、清晰度、表情程度等均對其造成影響。

圖6 CTE-FER 在三個數據庫上的混淆矩陣

(四)與先進算法比較

表2 展示了在數據庫CK+、FER2013、BU-3DFE本章算法與先進算法結果進行比較, 可以看出在本文輸入大小僅為12*12 像素時,CK+數據庫和BU-3DFE 數據庫中得到的結果可以與先進算法相媲美,達到96.97%和80.40%,而對于FER2013 數據庫, 由于其原始數據庫是由網絡中的圖片得到,存在較大的噪聲,且分辨率較低,在進行超分辨率訓練時, 高分辨率的圖像決定訓練結果的最優值,因此FER2013 數據庫得到的效果與先進算法存在一定差距。

表2 不同方法在CK+、FER2013、BU-3DFE 數據庫上的準確度(不同輸入大?。?/p>

(五)相同輸入大小時面部表情識別的比較

為了驗證在相同輸入大小時的CTE-FER 網絡性能, 將其在放大倍數為4 時的結果與其他網絡在相同輸入大小時進行比較。 對比結果如表3 所示,在相同輸入大小時,本文提出的CTE-FER 網絡的表情識別結果高于其他網絡。

表3 面部表情識別在CK+、FER2013、BU-3DFE 數據庫上的準確度(相同輸入大?。?/p>

(六)低分辨率面部表情識別比較

為了進一步對本文提出了網絡性能進行驗證,針對RAF-DB 數據庫進行實驗, 并與現有的部分超分辨率面部表情識別算法進行比較,實驗結果于表4所示。 可以看出與其他網絡的結果對比,在放大倍數為2 的情況下,準確率略低于E-FCNN 算法結果,而在放大3 倍和放大4 倍時得到的結果均高于其他算法。 因此,在高放大倍數的情況下,本章所提算法具有優越性。

表4 RAF-DB 數據庫的低分辨率面部表情識別比較

四、結語

研究提出一種基于超分辨率的面部表情識別算法CTE-FER, 對于微小尺寸的面部表情進行識別,通過針對超分辨率算法進行多通道的改進, 提升針對小尺寸下面部表情圖像的超分辨率效果, 進而提升整體面部表情識別的準確率。 同時,研究采用大量的對比實驗評估該算法的性能,實驗結果表明,本文提出的算法有效地提升了微小面部表情的識別準確率。 未來研究將進一步提升算法的性能,降低算法訓練時間的同時提升準確率。

猜你喜歡
分辨率像素準確率
趙運哲作品
像素前線之“幻影”2000
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
“像素”仙人掌
EM算法的參數分辨率
原生VS最大那些混淆視聽的“分辨率”概念
高速公路車牌識別標識站準確率驗證法
基于深度特征學習的圖像超分辨率重建
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合