?

基于殘差網絡注意力機制的人臉表情識別

2023-10-20 14:15郭昕剛沈紫琪
長春工業大學學報 2023年3期
關鍵詞:掩碼注意力卷積

郭昕剛, 沈紫琪

(長春工業大學 計算機科學與工程學院, 吉林 長春 130102)

0 引 言

面部表情相較于語言、動作等方式在大多數場景下更能真實有效地判斷人們的心理活動,是人類表達感情中最具判斷力的方式[1]。1971年,美國心理學家Ekman系統性地將面部表情分為:生氣、害怕、厭惡、開心、悲傷、驚訝六類[2]。隨著人工智能、計算機視覺的飛速發展,人臉表情識別技術作為圖像識別的分支逐步成為該領域的熱門研究對象,目前將深度學習引入表情識別領域中,此時的研究大多利用卷積神經網絡[3]。謝銀成等[4]在ResNet網絡中嵌入自注意力機制,并在損失函數中加入權重系數,以此針對類別不均衡數據集;冉瑞生等[5]以ResNet18為基礎,先將特征圖遮掩一部分,再利用注意力機制進行表情判定;張波等[6]提出在普通卷積層中加入可分離卷積的網絡為基礎,并引入殘差機制和通道注意力機制,對面部進行識別;付小龍等[7]以ResNet18網絡為主體,利用聯合損失函數進行表情識別;潘海鵬等[8]將淺層特征分別與多尺度特征和注意力機制融合,從而對人臉表情進行判定;Jiang D H等[9]針對瓶頸問題提出RexNet網絡,進行表情識別。

文中提出一種網絡:首先對圖片裁剪掩碼,進行數據增強處理;然后利用Ghost模塊[10]減少網絡參數量,并在Ghost模塊后引入壓縮-激勵模塊減少噪聲影響,通過通道注意力機制和多尺度空間注意力機制獲得更精細的特征;最后利用聯合損失函數[11]減少類內距離,以此提高表情識別率。

改造直接收益方面,以SNCR系統年運行8 000小時計算:稀釋水泵電能消耗8 800kWh,約3 960元;除鹽水消耗量減少1 816噸,約7 264元;氨水消耗量減少110噸,約81 767元。而單臺爐整體改造費用為42 000元,可見從SNCR噴嘴系統改造中產生良好的經濟效益的同時也為節能減排工作發揮了明顯的作用,在同類型鍋爐中值得推廣應用。

治療后,平衡針灸治療組患者的生活質量評分為(78.12±8.12)分,常規針灸治療組患者的生活質量評分為(65.12±7.56)分,組間數據比較,差異具有統計學意義(P<0.05)。詳見表2。

1 網絡設計

文中網絡模型以殘差網絡為基礎,融合裁剪掩碼模塊、Ghost模塊、通道注意力機制、多尺度空間注意力機制和聯合損失函數,網絡模型結構流程如圖1所示。

圖1 網絡模型結構

裁剪掩碼是將圖像隨機遮掩一部分,遮掩區域和大小都隨機選擇,增加隨機性更好地利用整張圖像的全局信息。利用歸一化層(Batch Normalization, BN)平衡特征數據,與常規Ghost模塊[10]不同的是:采用深度可分離卷積進一步減少冗余參數量,引入壓縮-激勵模塊減少提取特征的噪聲干擾;然后使用通道注意力機制給通道分配不同權重,增加部分通道的重要性,設計多尺度空間注意力機制,將多尺度特征與空間注意力融合,用更大的感受野提取紋理特征;最后使用聯合損失函數增大類外距離,減少類內距離,精準分類表情。

蒸汽發生器是核電站的關鍵設備,其性能好壞直接關系到電廠的安全運行,而蒸汽發生器中泥渣沉積會濃縮二次側水中的離子濃度,有的甚至達到104倍以上,如氯離子,能增加傳熱管和其他管段上發生晶間應力腐蝕、點蝕的概率,從而影響蒸汽發生器的使用壽命[4-5]。因此,國內電廠普遍采取水力沖洗的辦法,在大修期間,對蒸汽發生器二次側泥渣進行沖洗,以避免泥渣大量堆積,危及蒸汽發生器安全運行的情況。

1.1 裁剪掩碼

為提升網絡泛化力,需要對數據做增強處理,文中受文獻[12]的啟發,設計裁剪掩碼模塊(Cutout),但與文獻[12]不同的是,對圖像的隨機區域遮掩的時候,遮掩形狀也隨機選擇,遮掩區域使用黑色,但不宜過大,部分經過遮掩處理的圖片如圖2所示。

圖2 剪裁掩碼圖像

Cutout模塊的具體思路如下:

1)根據輸入圖像得到圖像的寬和高,確定掩碼像素起始值位置;

2)隨機選擇掩碼像素邊長,規定掩碼像素邊長的上下限;

采取FER2013和CK+兩種經典的人臉表情數據集。FER2013一共有35 886張圖片,其中訓練集占28 708張,驗證集和測試集各占3 589張,共有7種表情。而CK+數據集樣本中的7類表情圖像來自不同的國家、民族和性別,且是比較完善的公開數據集。

為研究每個模塊對網絡性能的影響,以殘差網絡為基線,依次引入Cutout、Ghost模塊、CAM、MSAM和聯合損失函數(Joint Loss Function, JLF)進行表情識別。

上述工藝已成功地應用于三門1、2號機組和海陽1、2號機組空氣導流板導流裝置的制作,共計240件。該工藝施工簡單,能滿足連續批量化的工業生產要求,具有良好的質量穩定性和經濟效益。

xi=Rand(0,H),

yi=Rand(0,W),

mask[xi:xi+h,yi:yi+w]=0,

(1)

式中:H,W----圖片的高和寬;

在登錄界面中醫院的工作人員需要輸入自己的姓名加密碼進入系統,醫院使用到本模塊的角色有前臺掛號人員,醫生和收費的工作人員。此界面需要操作員表(TB_DIC_CZYXX),該表數據設計如下(見表2)

h,w----經過隨機函數選擇掩碼像素的寬和高;

圖4的Conv卷積層中,3×3,1×1,5×5,7×7表示卷積核大小;BN表示歸一化操作(Batch normalization, BN);ReLU、Sigmoid表示激活函數。

超市、農貿市場等主要采樣地點和不同生產季節,餐桌醬油和烹調醬油中菌落總數的污染水平無統計學差異,分析原因,應該是研究對象為預包裝且樣品一般為高鹽高滲透壓,流通過程受環境影響較小,常見細菌在醬油的高鹽環境下不易增殖且呈下降趨勢[3]。主要產區和不同采樣地區菌落總數的污染存在差異,應該與不同企業加工過程中衛生質量的控制效果存在差距,預包裝產品的銷售范圍區域差別較大有關。采自農村的烹調醬油中菌落總數≥10 cfu/mL的樣品比例(57.03%)高于城市(49.68%),可能與城市和農村地區該類產品的品牌分布有關[4]。

1.2 通道注意力機制

特征圖中每個通道存在不同重要性,給較重要通道增加關注度,提高網絡抓取重要信息的能力,故設計一種通道注意力機制(Channel Attention Mechanism, CAM)。CAM具體流程如圖3所示。

圖3 通道注意力機制

圖3中,將輸入特征K分別通過平均池化和最大池化壓縮特征寬和高維度后逐元素相加,聚合大量空間信息,并將合并的特征圖送入卷積核為1的卷積中,降低r倍的通道維度(C表示原通道維度),在減少冗余參數量的同時,更好地擬合通道間的相關性,使用卷積核為3的卷積恢復原來的通道維度C,利用Sigmoid函數對特征圖激活,并將每個通道描述符壓縮至0~1范圍內,最后將得到的通道注意力圖與輸入特征圖相乘,得加權特征圖Mc(K)。具體公式為

Mc(K)=K×

σ(f3×3(f1×1(add(AP(K),MP(K))))),

(2)

式中:σ----Sigmoid激活函數;

脂褐素形成原因主要是脂質過氧化產物作用結果。脂質過氧化終產物丙二醛(MDA)具有強烈的交聯性質,能夠與體內含游離氨基的磷脂、酰乙醇胺、蛋白質或核酸等生物大分子交聯形成Schiff堿,使膜脂蛋白之間或其本身之間相互交聯,變成比原來大幾倍甚至幾十倍的不溶于水的大分子聚合物,經溶酶體吞噬后,逐步沉積形成脂褐素[5]。

式中:cyi----第yi類的特征中心,當yi類訓練更新時,為避免新中心抖動太大,選擇在更新值中加入系數。

AP----平均池化;

MP----最大池化。

1.3 多尺度空間注意力機制

做表情識別時,一般以眼睛、眉毛等特征作為依據判斷,因為這些特征包含紋理信息較多,表達不同情緒時會出現相應變化,不同圖片人臉所占圖片的比例不同,故將多尺度特征與空間注意力機制相結合[13],利用不同感受野提取圖片信息,并增強關鍵點權重,提高網絡特征提取能力。多尺度空間注意力機制(Multi-scale Spatial Attention Mechanism, MSAM)的具體流程如圖4所示。

圖4 多尺度空間注意力機制

xi,yi----掩碼像素在圖片中的起始位置。

將輸入特征圖F∈RC×H×W分別送入三條分配不同卷積核的支路,實現不同感受野提取圖像特征,得到更多特征信息,三條支路的最后都利用BN層使小批量中的數據歸一化和ReLU激活函數增強網絡魯棒性,分別得到三個分支特征圖F1,F2,F3∈R1×H×W,將這三條支路輸出特征圖逐元素相加,融合多尺度特征信息。將融合后的結果引入3×3的卷積中,卷積步長為1,填充為same,最后利用Sigmoid對融合的特征圖激活,將空間特征描述符壓縮到0~1,與F相乘可突出定位目標,得最終的加權特征圖Ms(F)。具體公式為

F1=δ(BN(f3×3(F))),

F2=δ(BN(f5×5(f1×1(F)))),

F3=δ(BN(f7×7(F))),

Ms(F)=F×σ(f3×3(add(F1,F2,F3))),

(3)

式中:F1,F2,F3----分別表示經過三條不同支路后的輸出特征;

BN----歸一化層。

1.4 聯合損失函數

特征圖經過網絡處理后,一般使用交叉熵函數進行計算,

(4)

式中:xi----第i個樣本在進入全連接層以前的輸出,屬于第yi類別;

wj----第j個全連接層權重參數;

2017年8月—2018年7月期間,110例急性胰腺炎合并脂肪肝疑似患者于我院接受CT診斷(55例)和超聲檢查的(55例),行分組對照研究(觀察組和對照組)。觀察組患者男23例,女32例,年齡35~72歲,平均年齡(58.12±4.54)歲。對照組患者男21例,女34例,年齡33~75歲,平均年齡(59.29±5.42)歲。兩組患者的基本資料對照相仿(P>0.05),本研究具有可行性。

m----一次訓練中批量大小;

n----類別數目。

為將同一類的表情更加緊湊,增大不同表情之間的差異,文中在交叉熵的基礎上添入中心損失,中心損失計算過程為

(5)

f----卷積,1×1,3×3表示卷積核大小;

則cyi的更新值公式為

(6)

式中:β----類別中心更新系數。

總損失函數公式為

L=λLc+Lloss,

(7)

式中:λ----中心損失系數,用于控制損失函數所占比重。

CUI Rui, DENG Xiaolong. Experimental study on flotation performance of a novelfatty acid collector[J]. Conservation and utilization of mineral resources, 2018(6):46-50.

2 實驗結果與分析

2.1 選取數據集

3)在輸入圖像寬和高的區域內,隨機選擇位置作為掩碼像素邊長起始位置,加入掩碼像素邊長,即可得到一個隨機形狀,將此區域設置為黑色,掩碼像素矩陣計算公式為

2.2 實驗環境

編程語言為python3.7,操作系統是64位的Ubuntu 18.04.5,深度學習框架則是TensorFlow 2.1.0。

進行盾構穿越掘進時,盾構姿態要避免反復蛇形糾偏;利用盾構主推油缸各分區壓力差及行程差來控制其糾偏量,保持姿態趨勢穩定,每環推進油缸分區的行程差控制在30mm以內,盾構水平/垂直姿態在±30mm以內,糾偏量控制在5mm以內。

2.3 消融實驗

本研究還發現2015年MV野毒株組內遺傳變異較小,而與疫苗株(A型)比較遺傳變異較大。同時也發現有3例麻疹患者之前接種過麻疹疫苗,由于基因測序未發現滬191麻疹疫苗株,且前2例患者接種疫苗到發病時間較短,可能在接種前已經感染MV野毒株,最后1例考慮為免疫失敗。馮燕等[15]研究顯示,A基因型疫苗免疫后,對國外B、D型MV毒株侵襲的保護效果,要遠遠好于對我國的H1a流行株的保護。因此,MV野毒株核苷酸及氨基酸變異情況,是否會引起抗原性變化影響疫苗株保護效果,還有待進一步研究。

每個模塊在兩個數據集上的識別準確率見表1。

顯然,該問題至少存在一個最優解。模型(9)—(10)可用于求解它,且數值模擬均顯示其具有良好的收斂性和穩定性。取n=20, m=110, p=50,對20個隨機初始點,圖1顯示了模型的前5個輸出變量隨時間t的變化軌跡。它們可能收斂到不同的值,但均經過短暫運行后收斂。圖2顯示了對20個隨機初始點,誤差隨時間t趨于零的狀態軌跡。

表1 網絡中不同模塊識別率對比

由表1可知,基線網絡上每加入一個模塊,識別準確率都會存在一定的增長,說明每個模塊在表情識別領域的可行性。

2.4 實驗驗證與分析

為驗證文中網絡在表情識別領域的可行性。分別選用多種性能良好的網絡相比較。采用FER2013數據集進行驗證的結果見表2。

表2 在FER2013數據集上不同方法準確率比較 %

表2結果表明,文中網絡模型在FER2013數據集上得到的識別率皆高于表2中其他的網絡模型,表示文中網絡在人臉表情識別方面的可行性。

文中模型在FER2013數據集識別結果的混淆矩陣見表3。

表3 FER2013識別結果混淆矩陣

由表3可知,7種表情識別率基本處于80%以上,其中,悲傷可以被正確分類,生氣相對于其他表情來說識別率較低。

使用不同的網絡在CK+數據集上得到的結果見表4。

表4 CK+數據集在不同識別方法準確率比較 %

由表4同樣得出,文中網絡的識別準確率要高于這些網絡。由此說明,文中網絡模型存在可行性。

治山治水治窮 建設生態家園——四川省坡耕地水土流失綜合治理試點工程建設紀實…………………………………………………………………… (20)

文中模型在CK+數據集識別結果的混淆矩陣見表5。

表5 CK+識別結果混淆矩陣

其中表情識別率都在85%以上,生氣和驚訝可以正確分類,而高興相對于其他表情來說比較低。

3 結 語

針對人臉表情識別提出對傳統卷積網絡進行改進的方法,在殘差網絡中使用Cutout模塊進行數據增強,并引入利用深度可分離卷積代替深度卷積的Ghost模塊,進一步減少不必要參數,同時加入通道注意力模塊加強對表情區域的關注,利用多尺度空間注意力機制將多尺度特征與空間注意力結合,有助于提高模型對表情的識別能力,使用聯合損失函數增加類與類之間的距離,減少類內距離,從而減小相近表情分類錯誤率。但文中并沒有對數據集中的圖片就一個關鍵點遮掩,所以,可進一步優化網絡實驗。

猜你喜歡
掩碼注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
低面積復雜度AES低熵掩碼方案的研究
基于傅里葉域卷積表示的目標跟蹤算法
基于布爾異或掩碼轉算術加法掩碼的安全設計*
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
基于掩碼的區域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合