基于視頻圖像的人臉面部表情快速識別研究

2024-01-17 09:54楊婷婷

貴陽學院學報(自然科學版) 2023年4期

楊婷婷

(安徽文達信息工程學院計算機工程學院,安徽合肥 231201)

隨著人們生活科技水平的提高,人們利用各類身份識別方式來保證個人信息的安全,如設定密碼、安裝各類殺毒軟件等。這些傳統的信息安全管理方式雖然可以在一定程度上維護個人的信息安全,但是存在數據泄密、密碼盜用等弊端。[1]為避免這些弊端,人們采用生物信息識別技術進行信息安全的維護,如指紋、人臉識別等。這些方法具有速度快、穩定性好、單一性等特點,有效避免了密碼盜用等風險。[2]其中人臉面部表情識別是最有發展前景的一項生物信息識別技術。

人臉面部表情的識別是基于計算機視覺、人機交互、心理學、人類學等學科的綜合性學科。[3-5]通過采集視頻圖像,獲取面部的特征點、五官距離特征等大量信息,從而實現人臉面部表情的識別。這種識別方式具有安全性高、魯棒性強及識別速度快等優點。但是,在實際的表情識別時,由于人臉面部表情的復雜性,很多表情仍然無法有效識別,準確率仍然無法滿足要求。

BP神經網絡算法是一種前饋型的神經網絡,通過模擬人腦的組織結構和認知過程進行信息的處理,具有可解決非線性映射問題、容錯性好以及泛化能力強的優點,在圖像的識別、語音識別等領域有較為廣泛的應用。該算法尤其適用于對復雜問題的處理以及高精度的預測,可以將其應用于視頻圖像中的人臉面部表情識別。因此本文將基于視頻圖像對人臉面部表情的快速識別進行研究。

1 人臉面部表情識別系統設計

1.1 總體設計

從實用性和易實現的角度對人臉面部表情識別系統進行設計。該系統主要由四個模塊組成,分別是圖像檢測模塊、人臉自動檢測模塊、特征提取模塊和表情識別模塊。人臉面部表情識別系統的結構如圖1所示。

圖1 人臉面部表情識別系統的結構簡圖

為保證系統的順暢運行,系統同時需要配備Windows平臺、Pentium 1.0G的處理器,同時還需要安裝Matlab和ACDSee軟件。

1.2 圖像檢測模塊

圖像檢測模塊主要是利用成像設備獲取包括人臉和環境在內的三維動態圖像,為后續的人臉面部表情識別做準備。該模塊的硬件成像設備主要包括攝像機、圖像采集卡、存儲器等。

攝像機用于獲取三維視頻圖像,其拍攝效果決定了后續人臉面部表情的識別效果。為保證圖像的清晰度,采用Cannon Power Shot A75攝像機進行拍攝。在進行圖像采集時,還可根據環境的明暗配置照明裝置,一方面保證圖像的拍攝環境光照度要求,另一方面獲取人臉圖像深度,以保證圖像的三維效果。人臉表情視頻圖像的獲取有多種方法,如雷達和變焦測距等,但是成本較高。本文采用結構光照射彩色光帶的方法,其原理示意圖如圖2所示。

圖2 結構光照射彩色光帶的原理示意圖

在拍攝過程中,攝像機與結構光排布具有一定的距離,結構光照射在平面上,攝像機拍攝物體表面和光平面,通過攝像機和光平面的交點即可確定每個點的三維坐標。為保證分辨人臉表面深度以及適應動態圖像的拍攝,結構光使用彩色光帶的方式照射。圖像采集卡是將采集到的三維圖像通過A/D轉換,以數字信號的形式傳入計算機,進行分析和后續的存儲。存儲器用于對采集的圖像、分析過程數據和分析結果進行存儲?？紤]到三維圖像占用存儲空間較大,因此可以選擇較大容量的存儲器進行數據的存儲。

1.3 人臉自動檢測模塊

人臉自動檢測模塊是對已獲取的圖像進行檢測,識別視頻圖像中人臉的位置和大小。同時跟蹤圖像中的人臉,為后續的人臉面部表情識別做準備。該模塊主要包括人臉的識別定位和人臉目標的跟蹤識別兩部分。

在進行人臉的識別定位時,主要進行視頻圖像的預處理、人臉初識別和驗證人臉定位的準確性,人臉的識別定位過程如圖3所示。

圖3 人臉的識別定位過程圖

首先,對獲取的圖像進行預處理,主要包括YCbCr顏色空間的轉換和膚色二維高斯分布。在進行人臉圖像的采集時,根據采集背景,可分為有復雜背景和無復雜背景兩種情況。對具有純色簡單背景的圖像,如證件照等直接進行識別即可。對具有復雜背景的圖像,通過分析可知,人臉所具有的膚色特點是人臉與背景最大的差別,因此采用顏色空間分布模型進行人臉的識別。攝像機獲取的圖像為RGB顏色空間,為便于顏色的處理,將其轉換為YCbCr顏色空間,[6-7]轉換方式如下：

(1)

式(1)中的Y為亮度,最低的黑色值為16,最高的白色值為235,偏移值為16;Cb為藍色,Cr為紅色,藍色和紅色的值范圍均為16～240,偏移值為128。其后,為便于人臉識別,在二維空間采用高斯分布的方式描述圖像中的顏色分布。在二維空間中,采集圖像的膚色高斯分布G(x)可以用下式表示：

(2)

式(2)中的μ和σ分別為膚色的均值分布和協方差。圖像的膚色分布中心可視作為膚色的均值分布值,則圖像各部分與膚色分布中心的相似度Si可以按照下式計算：

(3)

設定相似度范圍,即可確定圖像中膚色的區域。其次,進行人臉初識別,主要是采用邊界的方法進行區域分割、分割目標的合并,確定初始人臉區域。在進行區域的分割時,快速掃描預處理后的圖像,將超過相似度范圍區域點中的相鄰膚色點作為邊界,從而得到人臉的邊界。對每一個邊界點,從其附近按照從上到下、從左到右的方向尋找未掃描點并連接成為一個矩形,由此可以確定多個不同的膚色矩形區域。但是這些區域可能不連接,且無法形成一個完整的人臉,因此還需要對矩形區域進行處理合并。在進行合并時,通過將相鄰區域的矩形以最小矩形區域連接并替代的方式進行合并。在合并時,需要相鄰區域的矩形滿足顏色差值小于設定閥值,同時尺寸和位置滿足一定要求才可進行合并。以圖4(a)和圖4(b)兩個不同相對位置的M和N區域為例。

圖4 兩個不同相對位置的區域示意圖注：(a)左右位置;(b)上下位置。

圖4中M和N區域的高度和長度分別為h1、h2、l1和l2,兩個矩形區域需要滿足以下要求：

式(4)中S合并為合并后矩形面積,d1和d2分別為M和N區域的中心在長度和高度方向的距離。由此完成初始人臉區域的識別。

最后,是驗證人臉定位的正確性,采用眼睛和嘴巴與五官特征的匹配性進行驗證。在人臉中,眼睛和嘴的部分顏色不是膚色,按照顏色對圖像處理后可以得到眼睛Meye和嘴Mmouth的圖像位置分別為：

(5)

Mmouth=(Cr2)·(Cr·Cb)

(6)

計算兩只眼睛和嘴巴的夾角,小于25°則可認為人臉識別定位正確,否則重新對采集的圖像進行處理識別。

由于獲取的圖像為動態的,在完成人臉的識別后,還需要隨著圖像的動態變化進行人臉跟蹤。為保證追蹤頻率和準確性,系統采用Gabor Jets相似性方法進行人臉追蹤。對于人臉部的任意點,如眉毛、眼睛等部分,提取該點當前幀的Jets值為Ji,對于下一幀的Jets值Ji+1,兩幀之間的Jets距離D(Ji,Ji+1)[8]為：

式(7)中的θ為圖像中該點在當前幀的Gabor方向,λ為Gabor頻率。在該點附近搜尋點,使其Jets距離達到最大,即為下一幀該點的位置。通過對多點進行計算,從而實現對人臉的追蹤。

1.4 特征提取模塊

特征提取模塊主要用于提取人臉的特征。人臉特征的選取直接決定了人臉表情面部表情識別的準確性和識別速率。根據需要,可以設定人臉模型,從中提取有效特征進行分析。有效特征可以選擇人臉的紋理特征、局部運動模型以及整體特征。

1.5 表情識別模塊

表情識別模塊是最終實現對人臉面部表情識別的模塊,該模塊的優劣決定了人臉面部表情識別系統的優劣程度。本模塊通過采用相關表情識別算法,如BP神經網絡算法等設計進行表情的識別,以確定最終的識別結果。

2 人臉面部表情識別算法設計

在進行人臉面部表情識別時,需要通過人臉特征提取算法提取相關特征。其后對特征進行分類、識別,將特征參數作為輸入特征向量,采用BP神經網絡進行表情的自動識別。

2.1 人臉特征提取算法設計

在進行人臉的特征提取時,需要能夠充分反映人臉的表情特點、符合表情動作的運動性以及易于提取。而人臉在做出表情時,相應的五官需要做出一定的動作。結合以上的要求和表情特點,本系統選擇人臉的紋理特征、局部運動模型以及整體特征作為人臉表情識別的輸入特征向量。[9]

在人臉做出表情時,紋理主要體現在額頭和下巴位置,因此在進行紋理的提取時也主要針對人臉的這兩個部位進行特征提取。臉部紋理按照豎向、橫向和斜向的方向,通過設定不同方向的檢測器進行紋理方向的提取。圖像的梯度▽T(x,y,i)以及其在三個不同方向的梯度▽Tx(x,y,t)、▽Ty(x,y,i)和▽Txy(x,y,i)分別如下所示：

(8)

式(8)中的T(x,y,i)為當前i幀的圖像,Wx、Wy和Wxy分別為三個不同方向的紋理檢測器的結果。通過以上公式可以計算并確定臉部紋理的梯度、強度變化。人臉做出表情時,對于紋理的檢測就是對紋理在一定時間的微分,此時紋理的變化量Γi(x,y)為：

(9)

為后續表情的識別,可以設定紋理變化量的閥值,以避免紋理變化量過高或者過低造成關鍵信息的丟失,或者噪聲過多影響后續表情的識別。

人臉的局部運動模型是針對人臉做出表情時,提取各采樣點變換時的運動模型,并根據這些模型參數值確定人臉表情。[10-11]對人臉圖像中的某區域,其中心位置坐標為(x,y)。識別人臉表情最主要的部位為眼睛、嘴巴和眉毛等位置,而這些部位的運動模型不盡相同。若該區域為眼睛部位,則其運動模型在水平和豎直方向的分量S(x,y)和T(x,y)分別采用下式計算：

(10)

式(10)中的m0、n0為水平和豎直分量的平移分量參數;m1、n1為水平和豎直方向壓縮或伸展分量;m2和n2為旋轉分量;m3和n3為形變偏角分量;m4和n4為斜度分量。若該區域為嘴巴和眉毛等位置,則其運動模型在水平和垂直方向的分量P(x,y)和Q(x,y)分別采用下式計算：

(11)

式(11)中的n5為水平和數值分量的曲率分量,公式中的其他各參數與眼睛部位運動模型各參數意義相同,可根據模型進行參數具體數值的調整。通過以上方法即可確定各局部區域的運動模型。

整體特征是指整個人臉圖像處理后提取的主要特征,可以采用人臉識別后的結果作為人臉圖像的整體特征。

2.2 人臉面部表情識別算法設計

在進行人臉的面部表情識別時,采用三層的BP神經網絡進行識別,即BP神經網絡作為表情分類器。該BP神經網絡主要包括輸入層、隱含層和輸出層。其中輸入層的輸入特征向量主要包括紋理特征,眼睛、嘴巴和眉毛的局部特征以及圖像識別的顏色整體特征;輸出層的輸出向量主要包括人臉識別的7種表情,分別為開心、傷心、恐懼、中性、厭惡、驚奇和生氣;隱含層的節點個數目前還沒有明確的數量要求,可以根據經驗公式進行選擇。隱含層節點nyin個數計算的經驗公式如下：

nyin=int[sqrt(0.43xy+0.12y2+0.54x+

0.77y+0.86)]

(12)

式(12)中int()為數值取整,x和y分別為神經網絡輸入層和輸出層的向量個數。對于本系統來說,x和y分別取13和7,計算得出隱含層的節點個數為7。同時,還需要確定BP算法的學習速率,為保證系統可以穩定運行,還要保證運行速率,一般學習速率設定為0.01～0.8,本系統選擇為0.1。

3 結果與分析

為驗證該人臉面部表情識別系統的性能,需要對其進行相關試驗。本文主要針對圖像中人臉識別、追蹤和人臉表情的快速識別進行了設計,因此在進行試驗設計時,主要進行人臉定位試驗和人臉表情快速識別試驗。

3.1 人臉定位試驗

在進行人臉定位試驗時,采用隨機拍攝的圖像測試集。測試集中共包括500張包含人臉的三維圖像,將圖像隨機分為5組,每組包含100張圖像,分別采用該系統對每組圖像進行處理和人臉的定位。識別后移動圖像,驗證系統是否可以實現對人臉的追蹤。系統對圖像處理完成后,人臉的定位和追蹤結果如表1所示。

表1 人臉定位結果

由表1可知,該系統對人臉定位的準確率均在90%以上。且對于識別出的人臉均可以成功追蹤,可以達到系統對圖像中人臉定位的要求。

3.2 人臉表情識別試驗

系統采用BP神經網絡作為分類器進行人臉表情的識別,在進行試驗時,采用人臉識別中的500張人臉識別后的圖像進行后續的人臉表情試驗。將第1組和第2組圖像作為訓練集,將第3組至第5組共300張圖像作為測試集。

首先,采用訓練集的圖像對系統進行訓練。設定BP神經網絡的誤差門限為e-3,采用BP神經網絡訓練的誤差曲線如圖5所示。

圖5 BP神經網絡訓練的誤差曲線圖

由圖5可知,隨著訓練次數的增加,誤差逐漸降低,并逐漸趨于穩定。其后,采用該BP神經網絡對3組測試集圖像進行表情識別,識別結果如表2所示。

表2 人臉表情識別結果

由表2可知,采用該人臉面部表情識別系統進行人臉表情識別的準確率均在84%以上,且識別時間均在1s以內,基本可以實現對人臉表情的快速、準確識別,符合人們對人臉面部表情識別系統的要求。

4 結論

傳統的信息安全管理方式雖然可以在一定程度上維護個人的信息安全,但是存在數據泄密、密碼盜用等弊端。為提高信息安全性,可以采用人臉面部表情識別進行信息安全的維護。為實現對人臉面部表情的快速、準確識別,本文主要進行了以下工作：

(1)建立人臉面部表情識別系統,該系統主要由四個模塊組成,分別是圖像檢測模塊、人臉自動檢測模塊、特征提取模塊和表情識別模塊。

(2)對系統的各模塊進行了設計。通過對獲取的圖像進行預處理、人臉初識別和人臉驗證,確定人臉位置并可以追蹤。

(3)充分考慮人臉面部表情特征,確定人臉提取特征以及提取算法,并對特征進行分類、識別。采用BP神經網絡作為分類器進行表情的自動識別,并對相關算法進行了設計。

(4)為驗證該人臉面部表情識別系統的性能,對其進行人臉識別試驗和人臉表情快速識別試驗。試驗結果表明該系統可以實現對人臉表情的快速、準確識別,符合人們對人臉面部表情識別系統的要求。