?

基于多尺度卷積和自注意力特征融合的多模態情感識別方法

2024-03-21 02:25蔡從虎袁曉輝羅蓓蓓
計算機應用 2024年2期
關鍵詞:生理注意力準確率

陳 田,蔡從虎,袁曉輝,羅蓓蓓

(1.合肥工業大學 計算機與信息學院,合肥 230009;2.智能互聯系統安徽省實驗室,合肥 230009;3.情感計算與先進智能機器安徽省重點實驗室,合肥 230009;4.北德克薩斯大學 計算機科學與工程系,丹頓 76207)

0 引言

情感對人類生活生產有巨大意義,隨著情感計算技術的不斷發展,使用情感計算輔助計算機理解和表達人類情感成為潛在需求[1]。人的生理信號是人在面對不同外部環境時產生的電信號,主要包括腦電(ElectroEncephaloGram,EEG)信號、心電(ElectroCardioGram,ECG)信號、眼動信號等。一方面,這些信號源自生理反應,無法被個體主觀掩飾,具有客觀性[2];另一方面,生理信號與情感的產生和表達具有相關性,數據包含大量情感相關信息,也易于采集,因此,基于生理信號的情感識別方法具有很大的研究價值和廣泛的應用場景[3-4]。

腦電、心電和眼動等生理信號本身呈現非平穩隨機信號的特點,普通的時頻域分析能得到的信息量較少,識別結果也存在準確率低、跨個體泛化能力弱的問題。近年來,許多研究使用深度學習方法學習生理信號特征,以增強提升情感識別能力[5-6]。然而,以卷積為代表的深度學習方法存在參數量大、訓練成本高的問題,導致方法的實用性低。不同生理信號在個體之間的特征和變化規律存在差異,因此Chen等[7]提出結合多種生理信號進行多模態生理信號的情感識別,以提高跨個體的情感識別能力?;跊Q策層融合的多模態方法需要構建多個分類器,對不同的信號分別進行處理,這進一步加大了參數規模。使用統一模型進行數據訓練和情感分類的特征層融合的方法有利于減小參數規模;然而多模態特征在融合時可能相互干擾,影響識別效果[8],因此需要進一步地研究有效的特征融合方法。

本文提出一種基于EEG、ECG 和眼動信號的特征層融合的多模態情感識別方法。首先通過適用于生理信號的1D-Inception(One-Dimensional-Inception)多尺度深度學習結構對EEG、ECG 和眼動信號進行特征學習。1D-Inception 通過設置多尺度卷積核降低卷積參數規模,在有限的卷積層內提取更高維度的情感相關特征。不僅如此,本文還通過自注意力(Self-Attention)機制將不同生理信號所提取的特征在特征層融合。本文所做的主要工作如下:

1)使用1D-Inception 結構對生理信號進行特征學習。相較于傳統卷積神經網絡(Convolutional Neural Network,CNN),該結構更適合生理信號的特征學習。1D 卷積保證了不同生理信號單獨進行特征提取,排除其他模態的干擾。

2)使用自注意力和雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網絡對各生理信號的特征進行融合和分類。前者用于多模態特征融合,后者則通過時序特征學習對情感進行預測。

1 相關工作

EEG、ECG 和眼動信號都具有非穩態特點,并不具有特定的波形模式。有研究使用時頻域和統計學特征提取特征。Chen 等[9]使用了EEG 的Lempel-Ziv 復雜性和小波細節因子特征組成綜合特征進行情感識別;Katsigiannis 等[8]使用ECG中的波形統計特征,結合心率變異度(Heart Rate Variability,HRV)和功率譜密度(Power Spectral Density,PSD)等特征檢測情感。對于眼動信號,陳田等[10]使用眼球上下運動模式的波形相關性系數和作為特征,取得了一定的識別效果。

生理信號在個體間存在差異,傳統的時頻域和統計學特征的固定計算方法難以體現差異,通常存在識別率低、跨個體分類的泛化能力弱的問題[11]。隨著深度學習的發展,基于CNN 的特征學習方法成為研究熱點。CNN 通過堆疊網絡和調整參數自動學習特征表示,在面對不同個體差異時分類更具有可泛化性。Singson 等[12]使用ResNet 架構的CNN 對實驗采集的ECG 數據進行特征學習和情感識別,取得了68.42%的識別準確率。Chen 等[13]將EEG 原始數據和PSD特征組合,并使用CNN 進行分類,在DEAP 數據集[14]上取得了85.57%的準確率。然而,傳統CNN 為了學習高維度特征需要累加多層網絡,導致方法參數量大、訓練成本高、可實用性低。

Inception[15]是一種更高效的卷積結構。傳統卷積只考慮固定范圍內的數據,單層視野域有限,因此需要多層卷積疊加提升視野域范圍。而Inception 設置多個尺度的卷積核,使卷積過程中具備更多的視野域,既能考慮大范圍整體數據,又能考慮小范圍的局部數據。相較于傳統卷積,Inception 單層卷積就能獲得信息量更豐富的特征,具有更強的特征學習能力和更低的參數代價。文獻[16-17]中分別使用2 維和3 維的卷積核搭建Inception 結構,用于EEG 的運動想象識別,取得了良好的識別效果,證明了Inception 結構能有效學習生理信號特征。在多模態信號中采用多維卷積核會導致不同生理信號在卷積中相互干擾,因此,本文擬采取1D-Inception 的結構進行特征學習,既保留Inception 的優勢,同時1 維卷積核又可以保證不同通道的信號之間彼此隔絕,避免信號互相干擾而導致特征的可識別性下降。

基于生理信號的情感識別通常受噪聲、個體差異的影響,而生理信號的多模態融合方法則可以讓各種生理信號達成信息互補,提高方法的識別效果。Kwon 等[18]融合EEG 和皮膚電反應(Galvanic Skin Response,GSR)信號,在DEAP 數據集上取得了73.4%的情感識別率。Chen 等[7]將實驗采集的EEG 和ECG 數據分別使用支持向量機(Support Vector Machines,SVM)和長短期記憶(Long Short-Term Memory,LSTM)網絡進行分類,最終在決策層融合,取得了85.38%的準確率。然而決策層融合需要訓練多個分類器,會極大增加參數規模而降低實用性。在特征層融合的方法中,由于不同模態的異質性,進行簡單的特征連接會造成模態相互干擾。Katsigiannis 等[8]分別使用EEG 的PSD 特征和ECG 的HRV 等特征在DREAMER 數據集[8]上訓練分類器,結果表明特征層融合的多模態方法相較于單模態性能提升有限,一些情況下甚至遜于單模態。對于不同模態的特征融合,使用自注意力機制可能是一種有效的方法。自注意力通過學習特征之間的相關性,將相關性高的特征賦予高權重,低的則相反。因而每個模態的特征在融合后充分考慮了它與其他模態的相關性,能得到模態間干擾程度低、信息量豐富的融合特征。Chen 等[19]使用自注意力對EEG 多個通道特征進行學習融合,在DEAP 數據集的情感識別任務上取得了93.72%的準確率,證明了自注意力特征融合方法的有效性。

2 本文方法

本文基于EEG、ECG 和眼動信號,使用1D-Inception 特征學習模塊、自注意力模塊和Bi-LSTM 網絡組成骨干網絡,對三種生理信號進行特征提取和融合,最終使用全連接層輸出預測概率。多模態情感識別方法的模型結構如圖1 所示,主要由4 個模塊構成。其中,頻帶注意力學習模塊對EEG 多個頻帶的數據進行處理,1D-Inception 特征學習模塊用于各種生理信號的特征學習,自注意力模塊學習不同生理信號的各個特征之間的相互關系并為這些特征添加權重,最后使用Bi-LSTM 網絡提取時序信息,并通過全連接層(Fully Connection layer,FC)完成分類。

圖1 多模態情感識別方法的模型結構Fig.1 Model architecture of multimodal emotion recognition method

2.1 頻帶注意力學習模塊

EEG 不同于其他生理信號,它的頻率范圍被認為和情感高度相關[20],EEG 不同頻帶對應的大腦活動如表1 所示(δ 頻段由于頻率過低,能采集的數據較少,因此不考慮采用)。不同頻帶的EEG 信號對應不同的大腦活動,因此有必要對EEG 信號分頻;然而,高頻率的EEG 頻帶并不包含所有的情感信息,一些情感對應的大腦活動并不是很激烈,因此只考慮單頻帶的EEG 也不妥。為了解決這個問題,本文提出對EEG 的頻帶數據使用注意力機制的方法。

表1 EEG不同頻帶對應的大腦活動Tab.1 Brain activities corresponding to different frequency bands of EEG

注意力機制是一種為數據加權的自適應方法,通過學習數據之間的關系來分配權重。注意力機制使得與情感高度相關的頻帶特征被強化,無關數據則被抑制。傳統人工賦予權值的方法無法考慮個體信號差異,導致方法跨個體分類性能不佳[9]。本文采用的自適應的注意力機制可以綜合考慮數據,根據不同個體的特征重要程度給出不同的權重配置。

在頻帶注意力學習模塊中,首先計算EEG 樣本中各個頻帶的平均值,結果表示為x=(x1,x2,…,xr),其中xi是頻帶的EEG 平均值,r是頻帶數。隨后采用兩個全連接層進行權值學習,它們的作用不同:第一層是參數為W1和b1的升維層,第二層則是參數為W2和b2的降維層。升維使用tanh 作為固定激活函數增加注意力學習網絡的非線性,避免計算結果中出現過多線性組合。降維的激活函數選擇使用sigmoid,作用是將網絡計算的分數轉換為取值在0~1 的權值。如式(1)所示:

通過權值學習,EEG 頻帶的重要性轉化為了頻帶的注意力a=(a1,a2,…,ar),其中ai是某一頻帶的注意力。依據式(2)對于不同的EEG 頻帶數據添加注意力:

其中:Di∈Rn×t(i=1,2,…,r)表示某頻帶EEG 數據;n和t是EEG 信號通道數和時間維度;Ofreq為加權結果,顯然Ofreq∈Rn×t。經過添加注意力的操作后,情感關鍵的頻帶數據被賦予了高權重,在分類模型中的作用會被強化。

2.2 1D-Inception特征學習模塊

在生理信號情感計算中,基于CNN 的特征學習方法是有效的[13]。然而CNN 存在的問題為:CNN 在一層卷積內,卷積核大小是固定不變的,因此單層卷積的視野域也是固定的。如果想要擴展卷積的視野域,就需要疊加多層的卷積,造成參數規模和訓練代價上升,也容易造成過擬合。而Inception 結構則是對CNN 的一種改進方案。Inception 結構在一層卷積內使用多個尺度的卷積核提供各種視野域,單層卷積就能得到信息量豐富的特征,且具有較小的參數規模。因此,本文對原始Inception 結構進行改進,提出一種適合于生理信號特征學習的1D-Inception 結構用于生理信號的多尺度卷積,如圖2 中的框內部分所示。對于生理信號數據,1D-Inception 的卷積操作包含3 個分支:第1 個分支首先使用寬度為1 的卷積核對原始數據進行升維,之后使用寬度為d的卷積核進行卷積;第2 個分支使用寬度為2d的卷積核,與第1 個分支相比,視野域擴大一倍;第3 個分支對原始數據進行池化采樣和升維,采樣寬度為1.5d,這個分支保留了原始的數據信息,并進行了通道映射。最后將3 個分支的卷積池化結果在通道維度上連接,計算結果既包含兩種尺度的卷積結果,又包含原始的數據特征,因此可以得到相較于一般卷積信息量更豐富的特征。

圖2 1D-Inception特征學習模塊的結構Fig.2 Structure of 1D-Inception feature learning module

為進一步減少參數規模和降低訓練代價,本文使用池化層和批標準化對1D-Inception 的卷積結果進行處理。采用平均池化將計算結果采樣后,使用批標準化將批次內的特征調整到標準正態分布下,使損失函數更平坦,加速學習過程[21]。由于單層參數規模和訓練代價并不高,因此本文將兩個1D-Inception 塊堆疊以增加模塊學習能力,中間使用池化采樣和批標準化進行連接,組成本文所使用的1D-Inception 特征學習模塊,如圖2 所示。模塊最終輸出的特征是維度為時間和通道的二維特征,通過特征展平最終輸出一維特征。在使用1D-Inception 特征學習模塊時,將EEG 的各個通道、ECG 信號和眼動信號分別單獨送入模塊提取特征避免不同模態之間的數據互相干擾。

2.3 自注意力模塊

對各生理信號完成特征學習后,需要對特征進行有效融合。如果只對不同模態的特征簡單拼接,由于不同生理信號的信號模式存在差異,特征可能會相互干擾,降低識別準確率,因此,本文提出使用自注意力[22]進行不同生理信號的特征融合。自注意力機制可以學習特征向量之間的相關性,進而提高關鍵特征的權重,降低非關鍵特征對于結果的影響。

使用自注意力機制對多模態生理信號特征進行融合,自注意力模塊的結構如圖3 所示。實驗采用的EEG 數據的通道數為32,因此首先分別訓練32 個EEG 信號、1 個ECG 信號和1 個眼動信號總計34 個特征向量的query、key和value向量;然后通過計算不同特征之間的query與key向量的相關性來代表特征之間的相關性,通過softmax 標準化后,得到向量之間的注意力;最后將注意力值和各特征向量的value向量進行加權和,得到的新特征向量會根據學習的注意力值的不同,區別關注各輸入特征向量的信息。

圖3 自注意力模塊的結構Fig.3 Structure of self-attention module

特征向量的query、key和value向量的計算方法如式(3)所示:

其中:ci∈Rt(i=1,2,…,34)為特征向量,34為多模態生理信號的特征向量數,t為特征維度都是維度變換的參數矩陣,t' 是變換后維度,顯然之后,使用各特征的keyj和queryi的向量點積來計算特征之間彼此的注意力,如式(4)所示:

其中:atti,j代表特征i對特征j的注意力值,softmax 函數起到歸一化作用,使點積值映射到(0,1)區間內形成權值。注意力值計算完成后,使用注意力值對各個輸入向量的valuej加權疊加,如式(5)所示:

其中mi即為特征i的加權后結果??煽闯龃诉^程中的每個特征綜合考慮了其他所有特征的相關性,對計算后的特征進行拼接可以減少不同模態信號之間的相互干擾。

2.4 Bi-LSTM網絡

生理信號是連續的生物電信號,因此信號的特征片段之間并非孤立,存在時序關系。而卷積網絡受制于其結構,不適合處理序列關系。LSTM 是一種常用于序列分析的網絡模型。生理信號的順序并不固定,從左到右或從右到左可能都存在時序信息[7],傳統的LSTM 網絡只能按一個順序學習分類,存在局限性。為了解決上述問題,本文采用Bi-LSTM 網絡對融合后的多模態生理信號特征進行時序特征學習。Bi-LSTM 網絡既可以學習正向的時序特征,考慮每個特征與后續特征之間的關系,又可以學習反向時序特征,考慮和前序特征的關系,與多模態生理信號的特點相匹配。

本文搭建的Bi-LSTM 網絡如圖4 所示,網絡由兩層的LSTM 單元構成。LSTM 單元之間并非獨立存在,單元會考慮上一單元的輸出結果和輸出給下一單元的結果。LSTM 單元使用3 個門控函數實現這種功能,即:輸入門、遺忘門和輸出門。Bi-LSTM 網絡的各單元所作的計算如式(6)所示:

圖4 Bi-LSTM網絡的結構和數據流向Fig.4 Structure and data flow of Bi-LSTM network

對于第T個時序片段xT∈R34t',將它和上一層的輸出向量hT-1進行拼接,分別使用4 組參數矩陣Wi、Wf、Wo、W和偏置向量bi、bf、bo、b計算輸入權重zi、遺忘權重zf、輸出權重zo和候選記憶狀態z。其中:輸入權重決定在多大程度上接受輸入數據,遺忘權重決定在多大程度上考慮上一單元的輸出結果,輸出權重則決定將多少計算結果輸出給下一個單元,候選記憶狀態起到了標準化數據的作用。每一份LSTM 單元會根據所學習到的上下文序列信息計算自己的記憶狀態,并提供給下一單元參考來體現網絡之中各個單元的接續性。

LSTM 單元進行的運算如式(7)所示。首先需要將遺忘權重zf和上一層的記憶狀態CT-1進行哈達瑪積運算(⊙),以決定保留多少上一層的記憶;然后將候選記憶狀態z和輸入權重zi作哈達瑪積,決定保留多少本單元的記憶;最后計算本單元的記憶狀態。這個記憶狀態綜合考慮了前序單元的記憶狀態和輸入向量,并考慮了它們之間的權重配置。第二層的反向LSTM 的計算方法相同,不同在于每個單元通過考慮后一個單元的輸出結果來決定自己的記憶狀態。最終Bi-LSTM 將兩個方向對應的運算結果拼接并輸出為最終運算結果。這個結果包含了兩個方向上的時序特征學習的結果,相較于單向LSTM 時序,信息量更豐富,更適合生理信號的時序特征學習。

3 實驗與結果分析

3.1 生理信號采集實驗

為了采集實驗所需要的生理信號數據,本文進行了志愿者招募、情感激勵實驗和數據預處理等工作,多模態情感識別的總體實驗流程如圖5 所示。在情感激發的過程中,視頻激勵相較于音樂、圖像等激勵源具有更好的情感激發效果[23]。首先篩選了50 段備選視頻,招募了110 名觀眾在線上觀看視頻,并對各個視頻對情感的激勵程度打分。最終35段情感激發效果最好的視頻被選為實驗采用的情感激勵源,這些視頻經過實驗證明可以有效激發積極和消極情感。

圖5 多模態情感識別的總體實驗流程Fig.5 Overall experimental flow of multimodal emotion recognition

數據采集實驗首先招募了15 名志愿者,其中男性8 人,女性7 人。他們均是年齡在19 歲到26 歲的在校學生,精神健康狀況良好且無精神疾病史。數據采集的流程如圖6 所示,每名實驗人員需要進行35 次實驗。在每次實驗中,實驗者有5 s 的時間閉眼進行情緒平復,在此期間記錄個體不受情感激勵時的生理信號作為基線數據。之后實驗者需要觀看長度在60~242 s 的激勵視頻。觀看結束后實驗者有60 s時間對自己的情緒進行評分,包括效價維度(Valence)和喚醒度維度(Arousal)的1~9 分,鼓勵實驗者根據自己的真實情感打分。實驗工作通過了倫理委員會的許可,在參與者的知情和允許下進行。

圖6 數據采集的實驗流程Fig.6 Experimental flow of data acquisition

實驗采用3 種設備采集信號。Emotiv 的32 導電極帽用于采集EEG 數據,電極按照國際10-20 系統均勻分布在頭皮上,如圖7 所示。實驗中還使用導電膏增強頭皮到電極的導電性?;贏D8232 芯片的雙電極傳感器用于采集ECG 信號,其中兩個電極佩戴在實驗者雙腕的脈搏處。Tobii 眼動追蹤儀用于采集眼動信號,追蹤儀可以實時采集實驗者眼球注視位置。EEG、ECG 和眼動信號設備的采樣頻率分別為128 Hz、500 Hz 和133 Hz。

圖7 實驗使用的32導設備的電極分布Fig.7 Electrode distribution of 32-channel devices used in experiment

標簽處理方面,本文以5 為中間值,將標簽在效價和喚醒度兩個維度上分為了高和低兩個類別,轉換為二分類任務和效價/喚醒度四分類任務。

3.2 數據預處理

原始的生理信號數據受噪聲和基線漂移影響較大,其中噪聲主要來源于人體皮膚電信號和采集設備本身的工頻信號,基線漂移則是因為實驗者在實驗過程中的運動幅度過大,導致信號整體參考水平發生變化。對于ECG 信號,采用小波變換將原始信號分解為不同頻率的子信號分量,再利用閾值去噪的方法設定一個噪聲閾值,只保留大于閾值的信號分量,再通過小波反變換還原去噪后的ECG 信號。噪聲閾值的計算方法如式(8)所示,這是一種基于魯棒估計的閾值去噪方法,可以有效去除信號中的高頻噪聲部分[24]:

其中:median(abs(signalECG))表示原始ECG 數據的絕對值的中位數,L表示數據長度。

對于EEG 信號,首先使用乳突處電極的平均波形對原始信號進行重參考,之后使用獨立成分分析(Independent Component Analysis,ICA)刪除EEG 信號中的眼電信號(ElectroOculoGram,EOG)成分[25]。EOG 是眼球運動時產生的電信號,對于EEG 信號來說是干擾因素。在信號采集時會采集實驗者未受情感激發時的EEG 基線數據,它記錄了大腦在平靜情況下產生的自然電位變化,可以利用基線信號解決EEG 的基線漂移問題。具體地,本文按照1 s 的寬度將原始信號分成若干段,求得基線信號各段的平均波形,再使用原始信號實驗部分的各數據段減去基線部分的平均波形,如式(9)所示:

其中:Xbase(i)代表第i段EEG 的基線數據,l代表基線數據段數,Xtrial(j)和分別代表處理前和處理后的受情感激勵的實驗部分EEG 分段。

本文實驗采用眼動信號記錄實驗者在屏幕上的注視點Y軸坐標。這是因為X坐標可能受實驗者閱讀字幕等的影響,而Y軸受影響較小。眼動數據受抖動的影響很大:一方面,傳感器記錄的位置會有微弱抖動;另一方面,人的眼睛長期看向某一點時,會下意識瞥向周圍,然后迅速回到原始點以緩解視覺疲勞。因此,需要對原始的眼動數據平滑處理,去除由于傳感器和人眼本身造成的抖動異常,本文方法使用高斯濾波器。具體地,利用窗口內的數據加權平均值取代窗口內中心點的值,可以有效過濾短時的高頻噪聲,達到平滑窗口內曲線的目的。在計算加權平均值時,權值的計算如式(10)所示:

其中:w表示窗口內的某個點到中心點的距離,σ是控制高斯濾波的參數,G(w)為計算的權值。

預處理完成后,需要對處理后的數據進行分段,作為模型的訓練測試數據。本文使用1 s 的寬度對數據進行切分,每1 s 切分出對應的EEG 的32 導的數據、1 導的ECG 數據和1 導的眼動數據片段,共34 導的信號波形。為了統一3 種生理信號的維度,將3 種信號統一采樣至128 Hz,形成維度為(34,128)的數據單元。根據2.1 節的方法介紹,EEG 的數據還需要進行分頻處理,分為θ、α、β 和γ 這4 個頻段,δ 頻段EEG 在人清醒環境下很少會出現所以不使用。顯然分頻后的EEG 數據維度為(32,4,128)。

3.3 情感分類實驗

3.3.1 1D-Inception模塊的有效性驗證

為了證明1D-Inception 特征學習模塊相較于傳統特征提取方法和傳統CNN 的有效性,本文進行了有效性驗證實驗。首先使用信號的PSD 作為特征,使用SVM 作為分類器,高斯核作為核函數。之后搭建了一個3 層的簡單CNN 用于原始信號的直接分類。1D-Inception 特征學習模塊被單獨設置,在特征學習后直接進行分類,驗證三者的分類能力。實驗結果如表2 所示,ACC(Accuracy)和STD(STandard Deviation)是平均分類準確率和準確率標準差。1D-Inception 模塊取得了最高的分類準確率,相較于前兩者在平均準確率上提升了28.98 個百分點(效價)和30.05 個百分點(喚醒度)。個體之間的準確率標準差也降低至8.77%(效價)和7.91%(喚醒度),且1D-Inception 模塊的參數規模要小于3 層CNN,說明本文模塊具有更小的參數代價和更高的特征學習性能,學習的特征可分類性更好,在不同個體之間的泛化能力更強。由此證明了本文提出的1D-Inception 特征學習模塊更適合于生理信號特征學習。

表2 1D-Inception與其他特征提取方法的準確率對比 單位:%Tab.2 Accuracy comparison of 1D-Inception with other feature extraction methods unit:%

3.3.2 特征融合的有效性驗證

為了驗證本文采用的基于自注意力的特征融合方法的有效性,實驗使用特征直接融合方法、決策層融合方法和本文融合方法進行對比。在進行對比實驗之前,本文使用的Bi-LSTM 模塊使用的序列長度需要被確定,即模型在多大序列范圍內提取時序特征。本文中針對這一問題嘗試了5 種序列長度:1、3、6、10 和15。實驗結果如表3 所示。當6 作為序列長度時,模型取得了最好的分類效果;15 作為序列長度時盡管標準差略低,但是準確率出現了大幅下降。

表3 不同的Bi-LSTM序列長度的實驗結果對比 單位:%Tab.3 Comparison of experimental results with different sequence lengths of Bi-LSTM unit:%

序列長度確定后,對三種融合策略進行了對比實驗,結果如表4 所示。直接融合方法是將特征提取模塊輸出的各個模態的特征直接進行向量拼接,再送入Bi-LSTM 網絡進行分類;決策層融合方法則是將不同模態的特征單獨送入獨立的Bi-LSTM 網絡進行單獨分類,再將分類結果通過最大值融合方法進行決策層融合。結果表明,自注意力融合方法在效價、喚醒度和效價喚醒度四分類任務上分別取得了90.29%、91.38%和83.53%的識別準確率,個體的識別標準差降低至6.28%、6.02%和9.77%。相較于其他融合方法取得了最好的識別效果,證明了本文提出的自注意力融合方法對于多模態生理信號特征融合的有效性。

表4 自注意力融合方法和其他融合方法的準確率對比 單位:%Tab.4 Accuracy comparison between self-attention-based fusion method and other fusion methods unit:%

3.3.3 多模態方法的有效性驗證

本文使用三種生理信號的單模態、EEG+ECG 雙模態、EEG+眼動雙模態和本文使用的三模態融合方法進行了對比。在實驗環境上,本文在Pytorch1.8.1 深度學習環境下搭建模型,使用的硬件加速設備和驅動版本分別為Nvidia 1660S 和CUDA11.1。在實驗設置上,使用交叉熵作為損失函數,Adam 為優化器,采用10 折交叉訓練驗證的方法提升模型的情感識別能力。批大?。˙atch Size)設置為80,最大迭代次數為100。在算法的運行時間上,每位受試者的數據訓練平均花費389.49 s,測試平均花費1.25 s。

實驗結果如表5 所示??梢钥闯鲈趩文B實驗中,EEG單模態相較于其他兩種生理信號取得了最優的識別效果,效價喚醒度四分類準確率高達76.42%,明顯高于ECG 的45.39%和眼動的39.28%。這說明相較于ECG 和眼動信號,EEG 更適合用于情感識別任務。

表5 多模態方法與單、雙模態方法的準確率對比 單位:%Tab.5 Accuracy comparison between multimodal method with unimodal and bimodal methods unit:%

進行模態融合后,多模態方法相比EEG 單模態方法取得了更好的識別效果。EEG+ECG 雙模態的準確率提升至89.37%(效價)、88.23%(喚醒度)和82.26%(效價喚醒度四分類),而且標準差更低,跨個體的識別準確率更加穩定。而三模態融合取得了最好的識別效果,在三個分類任務上分別取得了90.29%、91.38%和83.53%的識別準確率。相較于EEG 單模態提升了3.46~7.11 個百分點,相比EEG+ECG 雙模態提升了0.92~3.15 個百分點,而且個體間準確率的標準差降至最低。這說明三模態比EEG 單模態和雙模態的識別方法更加優越,ECG 和眼動這兩個模塊的加入有效提升了基于EEG 情感識別的準確率和跨個體識別的穩定性。

3.4 與其他方法的比較

表6 給出了本文方法和其他的生理信號情感識別方法的準確率對比。其中文獻[18]方法融合了EEG 和皮膚電信號并使用CNN 進行情感識別。文獻[26]方法將腦磁圖、EOG 和ECG 等多種生理信號模態融合,構建層次模塊化神經網絡對情感進行分類。文獻[27]方法融合EEG 和眼動特征并使用深度典型相關分析進行多模態情感識別。文獻[7,28]方法均是EEG 和ECG 和雙模態融合,它們分別使用了時頻域特征計算和圖神經網絡對生理信號進行特征提取。本文方法在喚醒度上取得了最好的識別準確率,效價的準確率也提升了3.68~13.73 個百分點。效價的準確率雖然略低于文獻[28]方法,但是在喚醒度上提高了3.14 個百分點。

表6 與現存的基于生理信號情感識別方法的準確率對比 單位:%Tab.6 Accuracy comparison with existing physiological signal-based emotion recognition methods unit:%

本文的多模態方法能取得優秀的識別效果與多模態模型結構有關。首先,1D-Inception 模塊的多尺度卷積方法能學習更穩定、更高維度的生理信號特征;其次,頻帶注意力機制能有效放大EEG 中的關鍵頻帶中的數據,而基于自注意力機制的特征融合也能增加多模態信號中的關鍵特征的權重,降低非關鍵特征對于分類結果的影響;最后,多模態的方法利用信號之間的互補性,各種生理信號之間相互補充情感信息,有效提升了分類準確率,并且使得跨個體的識別效果更穩定。

然而,本文方法仍有改進空間。需要注意到,實驗結果中識別準確率的標準差盡管有所改進,但是跨個體的識別效果仍然存在一些波動。本文經過分析認為標簽的比例失衡可能是潛在原因,因為實驗采用的標簽處理方法是以5 為界進行劃分,少數實驗者將大部分打分都打在5 以上,造成了反例數據的不足,導致識別效果下降。因此情感標簽的處理方法可能需要進一步研究,以優化樣本比例[29]。

4 結語

本文提出了一種基于EEG、ECG 和眼動信號三種模態的特征層融合的情感識別方案,通過有效的特征學習和特征層融合方法提升了情感識別準確率和跨個體的識別穩定性。對于生理信號的特征提取,首先使用頻帶注意力處理EEG信號的多頻帶問題,通過自適應添加權重的方法放大EEG中情感關鍵頻帶的數據。之后本文提出一種1D-Inception 模塊對數據進行多尺度卷積,提高模型識別準確率和減小卷積參數規模。對于多個模態生理信號的特征融合,本文使用了自注意力機制在多模態特征之間進行注意力學習,提高關鍵特征的權重并降低非關鍵特征對于結果的影響。最后,通過Bi-LSTM 網絡對融合后的特征進行時序特征學習和情感分類。實驗結果表明,本文方法在效價、喚醒度和效價/喚醒度四分類的識別任務上分別取得了90.29%、91.38% 和83.53%的識別準確率,體現了多模態融合方法的有效性。未來的工作中,將結合更好的情感標簽處理方法進行進一步的研究。

猜你喜歡
生理注意力準確率
讓注意力“飛”回來
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
打破生理“平衡”
基于BP神經網絡的旋轉血泵生理控制
高速公路車牌識別標識站準確率驗證法
“揚眼”APP:讓注意力“變現”
媽媽們產后的生理煩惱
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合