?

多尺度殘差注意力網絡及其表情識別算法

2024-02-28 08:30袁德榮唐穎軍李波燕謝寶來
小型微型計算機系統 2024年1期
關鍵詞:集上識別率殘差

袁德榮,張 勇,唐穎軍,李波燕,謝寶來

1(江西財經大學 軟件與物聯網工程學院,南昌 330013)

2(江西財經大學 統計學院,南昌 330013)

0 引 言

表情是人類情緒的表達,不分國界、種族和性別,人們都有著一套通用的表情.20世紀70年代,美國心理學家Ekman和Friesen[1]通過跨文化研究,定義了6種基礎表情,即生氣、害怕、厭惡、開心、悲傷和驚訝,后來又加入了輕蔑和自然等表情.人臉表情識別在人機交互、醫療、遠程教育和疲勞駕駛檢測系統中都有廣泛的應用,人臉表情識別是當前重要研究課題之一.

人臉表情識別的一般流程依次為人臉檢測、圖像預處理、表情特征提取和特征分類.表情特征提取作為人臉表情識別中的關鍵步驟,能直接影響模型識別的準確率,早期傳統的特征提取方法有主成分分析(Principal Component Analysis,PCA)[2]、局部二值模式(Local Binary Pattern,LBP)[3]和尺度不變的特征變換(Scale Invariant Feature Transform,SIFT)[4]等.傳統的特征提取方法主要依靠人工設計,易受人為因素影響,而且每種方法針對具體應用,導致泛化能力及魯棒性較差.

隨著深度學習技術的不斷發展,表情數據不斷的收集以及各種芯片的計算能力大幅增強,深度學習技術開始慢慢應用到人臉表情識別系統當中.卷積神經網絡能夠自動提取圖像特征進行學習,獲得高維度的特征,使表情特征表達更為精確,被廣泛應用于表情識別.李勇等人[5]以經典的卷積神經網絡LeNet-5為基礎,通過跨鏈接操作將低層次特征和高層次特征融合,對表情識別率有一定的提升,但由于表情訓練樣本較少網絡容易出現過擬合問題.楊旭等人[6]提出了一種基于AlexNet模型改進的表情識別方法,該方法引入了多尺度卷積和跨鏈接思想,并用全局平均池化層代替全連接層來解決過擬合問題,在CK+和JAFFE數據集上識別準確率分別達到了94.25%和93.02%,但網絡對一些特征提取不足,導致蔑視和悲傷表情的識別率較低.Chen等人[7]提出了一種用于近紅外人臉表情識別的三維卷積神經網絡,該網絡將人臉的3個局部區域作為網絡的輸入,并添加SE(Squeeze-and-Excitation Networks)模塊建立特征通道之間的依賴關系,在Oulu-CASIA近紅外人臉表情數據庫上達到了81.67%的識別率,但該網絡深度不夠深,無法提取深層次特征.

盡管卷積神經網絡能夠較好地提取面部表情特征,但表情特征的提取仍會受到遮擋、個體身份和不同尺度等因素的影響.姚乃明等人[8]針對表情遮擋問題提出了一種基于生成式對抗網絡的人臉圖像補全算法,能夠在人臉遮擋部分生成上下文一致的補全圖像,從而提高在遮擋情況下的表情識別效果.Li等人[9]提出了一種增強局部特征的DLP-CNN,該方法通過增強臉部局部特征,來提高遮擋表情的識別率,但會丟失部分臉部整體信息.Zhou等人[10]提出了一種多尺度卷積網絡.該網絡由3個具有不同尺度卷積核的子卷積神經網絡組成,并為每個子網絡輸入不同大小圖像,通過計算相同維度上的算術平均值將其組合,最后使用Softmax將平均特征進行分類,在FER2013數據集上識別率達到了71.8%,但相比于更深的網絡,特征提取能力要稍差一些.Mollahosseini等人[11]提出了一種自動面部表情識別的深層神經網絡結構,該方法的明顯優勢是在主題無關和跨數據庫評估中有更高的準確率,同時減少了網絡訓練參數,但網絡對姿態和光照等影響下會出現性能差異.針對這些問題,高濤等人[12]提出了一種DMFA-ResNet網絡,該網絡設計了一種注意力殘差模塊,引入注意力機制,能有效的對遮擋表情進行特征提取,但模塊內部層數堆疊較多,使參數增加,模型訓練速度和收斂速度較慢.

針對以上問題,本文提出了一種多尺度殘差注意力網絡(Multiscale Residual Attention Network,MRANet),本文主要改進如下:

1)提出了一種新的多尺度殘差注意力模塊,該模塊由4個多尺度殘差注意力單元組成,每個單元包含3條特征提取支路和1條恒等映射支路,并引入CBAM注意力機制,使獲得豐富的多尺度特征信息,增強重點特征信息,弱化無效特征信息.

2)提出了多尺度殘差注意力網絡,在ResNet-18網絡中的基礎殘差塊之間加入多尺度殘差注意力模塊,提取多尺度特征及局部重點特征,并在兩個3×3大小卷積后加入最大池化層,減小特征圖大小,以減少網絡參數.

3)提出特征殘差融合塊,將經過不同位置多尺度殘差注意力模塊獲得的淺層特征和深層特征相融合,以獲取人臉表情圖像的整體信息.在最后使用全局平均池化代替全連接層,以減小網絡參數,防止過擬合.

1 多尺度殘差注意力網絡

1.1 殘差網絡

ResNet網絡[13]將特定數量堆疊的幾個層稱為一個殘差塊,對于每個殘差塊,在輸入和輸出之間進行跳躍連接,形成恒等映射支路.如果殘差塊可擬合函數為F(x),期望的潛在映射為H(x),那么原來的傳播路徑就變為了F(x)+x,即用F(x)+x來擬合H(x).這使深層梯度注入底層,防止梯度消失,解決網絡退化的問題,并加深了網絡深度.假設ResNet-18網絡的基本殘差塊的第l層的輸出為:

H(xl)=F(xl,Wl)+xl

(1)

其中,xl為第l層的輸入,F(xl)為殘差塊,Wl為第l層權重.

根據公式(1)可得到深層L的特征為:

(2)

求導得反向梯度為:

(3)

1.2 CBAM注意力模塊

CBAM是由Woo等人[14]提出的一種混合了通道注意力和空間注意力的混合注意力機制.CBAM是一種輕量級模塊,能很好的嵌入主干網絡中提高性能.其中,通道注意力機制關注的是特征圖中有效的信息的內容,空間注意力機制關注的是特征圖中有效信息的位置.

通道注意力機制,將輸入的特征圖F進行最大池化(MaxPool)和平均池化(AvgPool),實現空間維度的壓縮.然后將特征送入多層感知機(MLP)產生通道注意力特征圖.通道注意力公式為:

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

(4)

空間注意力機制,將輸入的特征圖在通道維度上進行平均池化和最大池化,然后在通道維度進行拼接,再使用7×7的卷積來產生最終的空間注意力特征圖.空間注意力公式如下:

Ms(F)=σ(k7×7([AvgPool(F);MaxPool(F)]))

(5)

1.3 多尺度殘差注意力模塊

受殘差結構和Inception模塊[15]的啟發,本文設計了一種多尺度殘差注意力單元對輸入進行特征提取,并將4個單元堆疊成一個多尺度殘差注意力模塊.多尺度殘差注意力單元結構如圖1所示.

圖1 多尺度殘差注意力單元結構Fig.1 Multi-scale residual attention unit structure

多尺度殘差注意力單元由3條特征提取支路和一條恒等映射支路構成.3條征提取支路分別經過1×1、3×3和5×5大小的卷積核,通過對輸入特征進行并行的不同大小卷積核的卷積操作,使網絡在同一層中感受到不同大小的圖像局部區域,并將這3條特征提取支路所提取到的特征采用Concat方法進行融合,再將3條殘差學習支路輸出的特征圖融合后的特征通過1×1卷積進行升維,確保輸入、輸出的維數相等.隨后特征圖經過CBAM注意力機制,輸出帶有通道和空間維度注意力權重的新特征圖,再與恒等映射支路的輸出進行特征相加.經過多尺度殘差注意力單元得到的特征圖F′可表示為:

F1=ReLU(conv(F,k1×1)+b1)

(6)

F2=ReLU(conv(F,k3×3)+b2)

(7)

F3=ReLU(conv(F,k5×5)+b3)

(8)

F′=add(CBAM(conv(Concat(F1,F2,F3),k1×1)),F)

(9)

其中,F1、F2、F3分別是經過大小為1×1、3×3、5×5卷積核卷積操作后通過ReLU激活函數得到的特征圖.該單元在多個尺度上提取特征,將稀疏分布的特征集分解成多個密集分布的子特征集,使相關性強的特征聚集,提高最后分類的準確性.同時引入注意力機制獲取表情圖像中重點特征信息,弱化無效特征信息,有利于遮擋表情圖像的有效特征提取,從而提高遮擋表情圖像的分類準確率.

1.4 多尺度殘差注意力網絡

以ResNet-18網絡為基礎,本文提出了一種多尺度殘差注意力網絡(Multiscale Residual Attention Network,MRANet),結構如圖2所示.該網絡主要由多尺度殘差注意力模塊、最大池化層、特征殘差融合塊、全局平均池化層、Dropout層和Softmax層組成.由于輸入的表情圖片尺寸較大,首先將224×224大小的表情圖像進行下采樣,為了獲得較大的感受野,本文將ResNet-18網絡中的7×7卷積核替換為3個3×3大小卷積核.在獲得相同的感受野的同時,網絡層數增加,提升了網絡的非線性表達能力,并且減少了參數.經過池化層后的輸出將輸入到后續的多尺度殘差注意力網絡中.并在ResNet-18網絡的基礎殘差塊之間添加多尺度殘差注意力模塊,提升網絡的特征提取能力,并在兩個3×3大小卷積后加入最大池化層,對特征圖進行下采樣,減小特征圖尺寸,減小網絡參數.

圖2 MRANet結構圖Fig.2 MRANet structure

當特征圖經過各個多尺度殘差注意力模塊后,會具有不同特征信息.經過淺層模塊提取的特征,由于距輸入較近,包含一些如表情紋理、邊緣等細粒度信息,可以保證網絡捕獲更多表情細節信息.而深層模塊提取的特征距輸出較近,包含更多粗粒度的抽象信息,使網絡更好的獲取人臉表情圖像的整體信息.本文提出的特征殘差融合塊,將淺層的多尺度殘差注意力模塊與深層的模塊輸出的特征進行融合,首先將第1個多尺度殘差注意力模塊輸出的特征圖進行下采樣后與第2個模塊輸出的特征圖進行通道維度的融合,融合后的特征輸入第3個模塊,然后將第2個模塊輸出的特征圖下采樣后與第3個模塊的輸出融合,最后輸入全局平均池化層和Dropout層降維后用Softmax分類器進行分類.

2 實驗結果與分析

本文實驗基于TensorFlow深度學習框架,操作系統為Windows 11_64位專業版.硬件環境:CPU為Intel Core I5-10400F,內存為16GB,GPU為NVIDIA GeForce RTX 3060_12GB顯存.模型在訓練過程中的初始學習率設置為0.001,訓練共迭代100次,批量大小設置為32,損失函數采用交叉熵損失函數(cross-entropy),并用Adam優化算法優化訓練過程.

2.1 數據集與預處理

本文采用CK+[16]、JAFFE[17]和Oulu-CASIA[18]數據集進行實驗.CK+數據集包含123名參與者的593個圖片序列,其中327個圖片序列帶有表情標簽.本實驗選取其中7種基本表情,提取表情序列最后3幀,共981張圖像.JAFFE數據集包含213幅256×256大小的日本女性的正面表情圖像.表情庫中一共有10名受試者,每個人有7種表情,每種表情有3~4張圖像.Oulu-CASIA數據集是80位參與者在實驗室3種光照下由近紅外光和可見光兩種拍攝方式下獲得,共2880個視頻序列,包含6種基本表情.本實驗選取可見光拍攝方式下的強光圖像,并選取視頻序列中的最后5幀,共2400幅圖像.

由于圖像中與表情無關的背景信息會對表情識別準確率造成影響,首先,對3種數據集所有圖像進行人臉檢測,并將人臉剪裁到224×224大小的灰度圖像.由于JAFFE數據集樣本數量有限,所以將JAFFE數據集進行旋轉等數據增強方式擴充數據集至1704幅圖像.

為了驗證模型對遮擋表情的有效性,對CK+和JAFFE數據集進行眼睛和嘴巴的人工遮擋來模擬現實中由眼鏡和口罩等引起的遮擋情況.遮擋實驗表情數據集示例如圖3所示.

2.2 消融實驗

圖3 部分遮擋表情示例圖Fig.3 Part of occlusion expression sample graph

為驗證多尺度殘差注意力單元數量對模型性能的影響,在參數一致的情況下,對單元數目做了對比實驗.多尺度殘差注意力單元數目分別設置為2、3、4、5、6、7、8,在JAFFE數據集上進行實驗,結果如圖4所示.

由圖4可知,當多尺度殘差注意力單元數量小于4時,識別準確率隨著單元個數增加而增加,最高達到了98.53%.而單元個數超過4個后,由于網絡深度增加,導致網絡退化,識別準確率有明顯下降.所以本文最終使用4個多尺度殘差注意力單元組成一個多尺度殘差注意力模塊.

為了驗證網絡各模塊的有效性,在參數一致的情況下,對網絡模塊進行刪減消融實驗.將只包含多尺度殘差注意力模塊的基礎網絡記為model-A,將添加了殘差融合塊的網絡記為model-B,將添加了CBAM注意力機制的網絡記為model-C,將所有網絡在JAFFE數據集上進行消融實驗,實驗結果如表1所示.

表1 消融實驗結果Table 1 Results of ablation experiment

由表1可知,只添加多尺度殘差注意力單元的基礎模型model-A在JAFFE數據集上的識別率為96.48%,添加了殘差融合塊的模型model-B識別率提升到了97.36%,添加注意力機制的模型model-C識別率提升到了97.07%,表明殘差融合塊和注意力機制對網絡的特征提取能力有一定的提升.

2.3 實驗結果分析與對比

本文方法在CK+、JAFFE和Oulu-CASIA數據集上的準確率分別達到了99.49%、98.53%和97.08%,在測試集上的混淆矩陣如圖5所示.

圖5 本文方法在3種數據集上的混淆矩陣Fig.5 Confusion matrix on three datasets

由圖5可見,本文方法在CK+數據集上對生氣、輕蔑、厭惡、害怕、開心和驚訝6種表情識別率達到了100%,悲傷和驚訝容易混淆,識別率較低.在JAFFE數據集上生氣、害怕、開心和驚訝表情識別率達到了100%,而厭惡和悲傷兩種消極表情有一定相似性,中性表情容易被誤判為驚訝表情,導致識別率較低.在Oulu-CASIA數據集中,驚訝的識別率最高,而悲傷的識別率最低.

為了驗證本文方法在表情識別上的有效性,在CK+、JAFFE和Oulu-CASIA數據集上與近幾年一些最新的表情識別方法的準確率進行對比.

從表2可以看出,在CK+和JAFFE數據集上,本文方法比改進的AlexNet網絡[6]分別高出5.24%和5.51%,比Sun等人[19]提出的基于圖像融合和卷積神經網絡(FERFC)的人臉表情識別方法分別高出3.84%和6.57%,比WMDNN[20]方法分別高出2.47%和6.32%.在Oulu-CASIA數據集上本文方法較其它方法的準確率也有較大的提升.證明了多尺度殘差注意力模塊和殘差融合塊有利于提升表情特征的提取能力,且在3個數據集上均沒有出現各類表情識別率特別低的情況,整體識別率也優于以上方法,由此表明本文方法的有效性.

表2 不同方法在3種數據集的識別率對比Table 2 Comparison of recognition rates of different methods in three datasets

2.4 表情遮擋實驗

在現實生活中,人臉難免會受到眼鏡、口罩等遮擋物引起的局部遮擋.為了驗證本文方法在重點區域特征提取的性能,將在CK+和JAFFE模擬遮擋的數據集上進行實驗.表3和表4分別為不同方法在CK+和JAFFE遮擋數據集上的準確率.

表3 CK+數據集遮擋表情識別Table 3 CK+dataset occlusion expression recognition

表4 JAFFE數據集遮擋表情識別Table 4 JAFFE dataset occlusion expression recognition

由表3和表4可以看出,在CK+和JAFFE遮擋數據集上,本文算法比傳統的卷積神經網絡對于遮擋表情圖像識別有明顯的提升,在JAFFE數據集上比DMFA-ResNet算法識別率分別高出4.38%和2.63%,表明本文算法對遮擋表情的特征提取有一定的提升.

圖6和圖7分別為本文算法在CK+和JAFFE遮擋數據集上的混淆矩陣.

圖6 CK+數據集上遮擋混淆矩陣Fig.6 Occlusion confusion matrix on CK+dataset

圖7 JAFFE數據集上遮擋混淆矩陣Fig.7 Occlusion confusion matrix on JAFFE dataset

由圖6可見,在CK+數據集上,遮擋眼部后,本文算法對輕蔑、悲傷和驚訝表情達到了100%識別率,而生氣和開心只有93%識別率,說明這兩種表情特征集中在眼部.遮擋嘴部后,算法在生氣和輕蔑表情達到100%識別率,而害怕只有78%的準確率,說明害怕的表情特征集中在嘴部.由圖7可知,在JAFFE數據集上,遮擋眼部后害怕表情只有91%識別率,說明該表情特征集中在眼部.遮擋嘴部后,算法在各表情都取得了不錯的識別效果.證明本文算法在對遮擋表情圖像上也有不錯的識別效果.

3 結 論

本文提出了一種多尺度殘差注意力的表情識別方法,構建了一種新的多尺度殘差注意力模塊,通過提取不同尺度特征,增加了特征多樣性.引入注意力機制獲取表情圖像重點特征信息,提升了遮擋表情的識別率.構建特征殘差融合塊,將經過多尺度殘差注意力模塊的特征進行了殘差融合,有利于獲取豐富的人臉表情圖像整體特征.采用全局平均池化層代替全連接層,在減少參數數量的同時避免了參數爆炸現象,增強了網絡抗過擬合能力.實驗結果表明,在CK+、JAFFE和Oulu-CASIA數據集上,與近幾年方法相比,表情識別效果進一步提升,并在遮擋的表情圖像中也有不錯的識別效果.目前人臉表情識別的精度還有待提高,尤其在復雜的環境中和視頻序列中更難識別,在后續的工作中,將針對不同的復雜問題進行更細致的研究.

猜你喜歡
集上識別率殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學習的自適應無人機目標跟蹤算法
Cookie-Cutter集上的Gibbs測度
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于遞歸殘差網絡的圖像超分辨率重建
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
提升高速公路MTC二次抓拍車牌識別率方案研究
復扇形指標集上的分布混沌
高速公路機電日常維護中車牌識別率分析系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合