?

融合動作特征的多模態情緒識別

2023-01-13 07:24孫亞男溫玉輝舒葉芷劉永進
圖學學報 2022年6期
關鍵詞:肢體模態情緒

孫亞男,溫玉輝,舒葉芷,劉永進

融合動作特征的多模態情緒識別

孫亞男,溫玉輝,舒葉芷,劉永進

(清華大學計算機科學與技術系,北京 100084)

近年來,利用計算機技術實現基于多模態數據的情緒識別成為自然人機交互和人工智能領域重要的研究方向之一。利用視覺模態信息的情緒識別工作通常都將重點放在臉部特征上,很少考慮動作特征以及融合動作特征的多模態特征。雖然動作與情緒之間有著緊密的聯系,但是從視覺模態中提取有效的動作信息用于情緒識別的難度較大。以動作與情緒的關系作為出發點,在經典的MELD多模態情緒識別數據集中引入視覺模態的動作數據,采用ST-GCN網絡模型提取肢體動作特征,并利用該特征實現基于LSTM網絡模型的單模態情緒識別。進一步在MELD數據集文本特征和音頻特征的基礎上引入肢體動作特征,提升了基于LSTM網絡融合模型的多模態情緒識別準確率,并且結合文本特征和肢體動作特征提升了上下文記憶模型的文本單模態情緒識別準確率,實驗顯示雖然肢體動作特征用于單模態情緒識別的準確度無法超越傳統的文本特征和音頻特征,但是該特征對于多模態情緒識別具有重要作用?;趩文B和多模態特征的情緒識別實驗驗證了人體動作中含有情緒信息,利用肢體動作特征實現多模態情緒識別具有重要的發展潛力。

動作特征;情緒識別;多模態;動作與情緒;視覺模態

人類情緒往往能夠影響其日常生活中的行為和表達方式。因此,利用計算機技術自動識別、理解和分析人類情緒并做出響應,建立和諧的人機交互環境,在提高交互效率和改善用戶體驗方面具有重要的應用價值[1-3]。然而,捕獲和理解人類的情緒甚至是情緒模式十分困難[4]。

通過計算機進行情緒分析依賴于心理學相關研究提出的情緒模型理論,情緒表示主要有2種方法:連續維度表示和離散型表示[5]。其中,連續維度表示將情緒狀態映射到一個連續的低維度(二維或三維)空間上。已有研究的經典代表是RUSSEL[6]提出的愉悅度-喚醒度(valence-arousal,VA)二維空間。任何情緒數據都可以表示為VA坐標系下的一個坐標點,代表其情緒的愉悅度和喚醒度。雖然此種表示方法能夠細致地描述情緒分析結果,但是情緒標注過程較為復雜。在情緒分析上,應用連續維度表示的研究較少[7-9]。離散型表示更為常用,即將情緒狀態定義為若干個類別。如,EKMAN[10]定義了人類的6種基本情緒,包括快樂、恐懼、憤怒、悲傷、厭惡和驚訝。

至今為止,國內外研究者在人類情緒分析方面做出了很多嘗試,大致可以分為2類:①使用物理傳感器設備采集心率和腦電圖等生理信號[11-14]相關的數據,分析采集的數據并從中提取特定的情緒模式來檢測情緒狀態[15]。然而,此種方法往往需要用戶佩戴額外的硬件設備;②隨著人工智能技術的發展和廣泛應用,對多媒體數據進行情緒分析引起了廣泛的研究興趣。除使用常見文本特征和音頻特征外,越來越多的研究開始引入多媒體數據中視覺模態的信息,包括圖像特征[16-17]和臉部特征[18-19]。

人類在日常生活中進行情緒識別往往基于不同模態的信息,包括臉部表情,語音語調和肢體動作等[20]。有研究表明肢體動作對情緒識別具有重要意義[21]。然而,基于多模態數據進行情緒分析的研究工作通常從文本或語音[22-24]以及從視頻圖像序列中提取的人臉表情[25-26]等特征中識別情緒。對于肢體動作和情緒識別的相關研究較少的主要原因是缺少帶有肢體動作標注的情緒識別數據集。多模態情緒識別數據集(multimodal emotion lines dataset,MELD)[27]包含來自1 433段多方對話場景下的13 000多個文本單句。文本單句具有7種情緒標注(中性、快樂、恐懼、憤怒、悲傷、厭惡和驚訝),并且包括與文本相匹配的語音和視覺模態數據。

本文為MELD數據集添加了肢體動作數據作為新的模態特征研究基礎,進而研究了視覺模態中的肢體動作特征在情緒識別任務中的作用。通過肢體動作特征在雙向上下文長短期記憶網絡(bi-directional contextual long short-term memory,bcLSTM)上的單模態實驗結果,肢體動作特征、文本特征和音頻特征融合的多模態特征在雙向上下文長短期記憶網絡上的多模態結果,以及肢體動作特征和文本特征融合的多模態特征在上下文記憶模型(context model with pre-trained memory,CoMPM)上的多模態實驗結果,驗證了視覺模態的肢體動作特征在情緒識別任務中的有效性。

1 相關工作

1.1 基于文本的情緒識別

作為最傳統的多媒體形式,文本信息內含有大量與情緒相關的信息,文本特征單模態的識別效果遠超音頻特征單模態[27]和臉部特征單模態[28]。因為可以利用文本中豐富的情緒信息,基于文本的情緒識別相關工作出現最早且經久不衰,不斷刷新情緒識別任務的準確率[29]。

LI等[30]提出將詞匯表與基于機器學習的方法,如樸素貝葉斯和支持向量機(support vector machine,SVM)結合,可以用來檢測難以被簡單二分類的復雜情緒。還有一些利用深度卷積網絡實現文檔層面的情緒識別的工作[31],LI等[32]則在此基礎上將卷積神經網絡(convolutional neural network,CNN)與雙向長短期記憶網絡(bi-directional long short-term memory,BiLSTM)網絡結合,分別提取局部特征和長距離特征,以此提升模型基于文本的情緒識別能力。文獻[29]則利用預訓練語言模型結合上下文嵌入與前述記憶模塊,實現對對話文本的情緒識別。以上研究工作只關注文本數據在單模態情緒識別的作用,本文進一步研究動作數據結合文本數據進行多模態情緒識別的有效性。

1.2 基于動作的情緒識別

許多研究表明,人們可以從非語言表達中分析情緒信息,并利用這些信息準確地推斷他人的情緒狀態[33-35]。目前,基于非語言表達的視覺模態信息的情緒識別工作大多只關注面部表情特征,然而面部表情特征的提取受限于圖像數據質量,在面部圖像分辨率較低的條件下無法成功捕獲相應特征。

作為非語言表達的重要組成部分,動作與情緒之間的聯系也十分緊密,一般來說,身體動作提供的線索比臉部細微的變化更容易被感知。文獻[33-34]的研究證實了身體姿態有利于提高人們對情緒的感知力,而文獻[35]的研究證明了人們可以根據他人的動態身體動作姿態對情緒進行適當的分類。這都說明基于身體動作的情緒識別研究具有較大的發展空間和潛力?;趧幼鞯那榫w識別工作通過研究全身或上半身的圖像特征,以及從圖像中提取的肢體動作特征與情緒狀態之間的關系,提高情緒識別的準確率。根據特征提取的方式,基于動作的情緒識別可以分為2類:基于傳統模式識別的方法和基于深度學習的方法。

基于傳統模式識別的方法利用手工設計的特征進行情緒識別,如GLOWINSKI等[36]構建了使用與人體上半身運動有關的視覺信息進行情感行為分析的架構,提出基于動作特征得到一種與情緒有關的最簡表達并用于情緒識別;而WANG等[37]實現了從身體運動中識別情緒的實時系統,主要包括在隨機森林(random forest,RF)分類器的頂層加入了半監督的自適應算法,用于處理低維的3D姿態特征和高維的運動特征和幾何特征組成的融合特征;SANTHOSHKUMAR等[38-39]提出使用SVM或隨機森林分類器對方向梯度直方圖(histogram of orientation gradient,HOG)和Kanade-Lucas-Tomasi方向梯度直方圖(HOG-KLT)特征進行分類的情緒識別方法,隨后又提出利用包含距離、角度和速度在內的身體運動特征進行識別的方法。此外,利用傳感器采集的骨架關節點信息,RAZZAQ等[40]提取出身體關節的運動模式,得到了網格距離特征和網格角度特征并用于情緒識別。

基于深度學習的方法利用深度學習網絡自動提取特征進行情緒識別。此類方法通常使用常見的姿態檢測模型或底層特征提取方法預處理輸入的數據,進而使用深度學習的方法進行預測。LY等[41]利用哈希方法從視頻中提取關鍵幀,再使用卷積神經網絡-長短期記憶網絡(convolutional neural network-long short-term memory,CNN-LSTM)得到視頻中序列信息隱含的情緒類別。SHEN等[42]則綜合了通過光流法提取的RGB特征和通過時空圖卷積網絡(spatial temporal graph convolutional networks,ST-GCN)提取的骨架特征,使用殘差全連接網絡實現了基于動作的情緒識別。AVOLA等[43]提出了基于3D骨架和深度神經網絡(deep neural network,DNN)的解決方法,結合動作的局部和全局的時間特征,可以識別非表演動作中的情緒。以上研究只關注動作數據在單模態情緒識別的作用,而本文進一步研究了動作數據對多模態情緒識別的提升。

1.3 多模態情緒識別

1.3.1 多模態情緒視頻數據集

在日常生活中,人們通過多模態信息來傳遞以及理解情緒。表1展示了多模態情緒識別研究常用的視頻數據集。交互式情緒運動捕捉數據庫(interactive emotional dyadic motion capture database,IEMOCAP)[44]招募了10位專業演員錄制使用劇本的腳本會話和基于假設場景的自發會話,并對手部和頭部運動進行捕捉。而CreativeIT[45-46]則要求招募的16位專業演員佩戴專業設備對全身動作進行捕捉,錄制內容包括既定文本和動詞的兩句話練習以及給定腳本的即興演繹。隨著社交媒體的發展,更多數據集嘗試從社交網站大量的用戶自錄制視頻中提取數據。多模態觀點層面情緒強度數據集(multimodal opinion-level sentiment intensity dataset,MOSI)[47]收集了大量影評等用戶自錄制視頻并賦予帶有強度的情感類別標簽。多模態觀點情緒與情緒強度(multimodal opinion sentiment and emotion intensity,MOSEI)[43]包含情感類別標簽和情緒類別標簽,數據量大,人物多且表現自然。MELD[27]則從電視劇集中構建了一個帶有情緒類別標簽的多人對話數據集。

表1 多模態數據集綜合對比

上述多模態數據集中,MOSI僅包含情感類別標簽;MOSEI為單一人物獨白類數據,畫面中僅包含目標人物的頭、脖子及肩膀;而IEMOCAP和CreativeIT均為實驗室錄制的數據集,人物數量較少,應用場景受限,且IEMOCAP僅在頭部和手部有少量動作捕捉標記點,提取到的動作信息不完整,CreativeIT雖然使用了動作捕捉設備,但佩戴設備影響了演員動作的自然性。而從表現日常生活的情景喜劇中提取的MELD數據集不僅出場人物數量多,而且人物表現自然,動作更加生活化。此外,MELD數據集提供了原始視頻,可用于提取視覺模態的特征?;谏鲜隹紤],本文為MELD數據集添加肢體動作數據作為新的模態特征,并研究肢體動作特征、文本特征和音頻特征的多模態特征在情緒識別任務中的作用。

基本離散情緒類別包含快樂、恐懼、憤怒、悲傷、厭惡和驚訝;連續情緒類別包含效價、激勵和控制;情感類別包含積極、中性和消極3個分類。

1.3.2 多模態情緒識別方法

多模態情緒識別的關鍵在于模態信息的融合,根據融合的策略,大致可以分為3類:特征層面的融合、決策層面的融合和模型層面的融合。特征層面的融合直接對來自不同模態的特征進行融合,將其串成一個聯合特征向量,再利用一個分類器進行識別,但是如果不同模態的特征在時間域存在較大差異,特征層面的融合表現較差;決策層面的融合先使用各個模態的信息分別進行預測,再將結果綜合,無法更有效地利用不同模態融合對于情緒預測的優勢;而模型層面的融合先分別使用模型處理各模態特征,再將不同模型得到的隱含層特征表示串聯,之后進一步使用模型處理串聯后的特征生成最終結果。

文獻[16]結合了低維RNN的CNN網絡、開源軟件openSMILE和深度CNN網絡分別提取視頻特征、音頻特征和文本特征,并使用特征子集選擇(correlation-based eature selection,CFS)和主成分分析(principal components analysis,PCA)2種方法對特征進行提取并拼接融合,最終通過訓練多核學習網絡(multiple kernel learning,MKL)實現多模態情緒識別。而文獻[18]將詞嵌入得到的文本特征、MTCNN臉部檢測得到的視頻特征和COVAREP軟件得到的音頻特征輸入動態融合圖(dynamic fusion graph,DFG)模型,得到融合后的特征,利用圖記憶融合網絡(graph memory fusion network,graph-MFN)進行訓練,在MOSI和MOSEI數據集上得到了較好的情感分析和情緒識別結果。隨后,文獻[19]提出了倍增的多模態情緒識別方法(multiplicative multimodal emotion recognition,M3ER),通過預訓練的詞嵌入得到文本特征,COVAREP軟件得到音頻特征,臉部識別模型得到視頻特征,通過特征選擇得到融合特征,再利用改進后的記憶融合網絡(memory fusion network,MFN)進行情緒識別結果的預測。文獻[17]使用text-CNN,openSMILE和3D-CNN分別提取文本、音頻和視頻特征,引入了上下文LSTM的變體分別提取與內容相關的各模態高層特征,將各模態特征拼接融合,并據此完成情感分析和情緒識別的任務。

相比于決策層面的融合,模型層面的融合對于各模態特征的融合更為充分,而相比于特征層面的融合,模型層面的融合不易受初始特征差異的影響?;谏鲜隹紤],本文選擇模型層面的融合方式實現多模態情緒識別。

2 方 法

本文在經典的MELD多模態數據集中添加動作特征,用于研究動作對情緒識別的作用。具體來說,首先通過OpenPose實現了基于視覺模態數據的肢體動作提取,利用時空圖卷積網絡得到骨架動作中的肢體運動特征作為視覺模態初始特征。之后通過基于LSTM的單模態情緒識別網絡驗證單模態初始特征下的結果。融合動作特征的多模態情緒識別任務采用模型層面的融合方法。首先,從單模態情緒識別網絡中獲得用于多模態情緒識別任務的不同模態的隱含層特征;再使用特征選擇得到隱含層特征的最優子集;最后將特征選擇得到的各模態隱含層特征拼接融合并在多模態情緒識別網絡上進行訓練和測試。

2.1 基于視覺模態數據的肢體動作提取

OpenPose是一種實時的多人2D姿態檢測方法,由CAO等[48]于2019年提出。該方法使用自底向上的檢測策略,首先識別出圖中所有的關節點,再對關節點進行劃分,以此實現多人人體骨架關節點的估計。該工作的核心是利用區域親和力場(part affinity fields,PAF)實現關節點的匹配,PAF利用編碼肢體位置和方向信息的2D向量場,將多人檢測問題轉化為二分圖匹配問題,并用匈牙利算法求得相連關節點的最優匹配。

該方法在擁擠、尺度變換、物體遮擋和多人關聯等真實世界的復雜場景下,都能較為準確的估計人體關節點的2D坐標。因此,許多下游任務均選擇OpenPose實現圖像數據中的骨架提取,本文也使用該方法提取視頻中的肢體動作信息。

2.2 ST-GCN提取肢體動作特征

時空圖卷積網絡由YAN等[49]在2018年提出,該網絡打破了傳統的卷積方法需要依賴人工或遍歷規則的局限性,可以自動從數據中學習空間和時間特性。模型對于每個關節,不僅考慮其在空間上的相鄰關節,還考慮時間上的相鄰關節,通過擴展時間鄰域的概念,在動作分類任務中達到了較好的實驗效果。

考慮到ST-GCN對于骨架動作的時間和空間特征都能較好地捕獲,本文使用ST-GCN在Kinetics數據集上預訓練好的模型處理視覺模態信息,提取肢體動作特征。Kinetics數據集包含大量不同種類的人體運動序列,大約有30萬個序列,平均每個序列10 s左右。在該數據集上預訓練的模型能夠滿足日常生活中大多數應用場景下的動作特征提取需求。

ST-GCN網絡使用一個鄰接矩陣表示單幀中的骨架內部關節點連接關系,使用一個單位矩陣表示單幀中關節點的自連接關系,則網絡輸出為

動作特征的提取流程如圖1所示,對于一段原始視頻,本文使用OpenPose從中提取人體骨架關節點信息,再利用串聯在一起的9個時空圖卷積單元進行計算,最后保留輸入SoftMax層之前的向量作為后續實驗的肢體動作特征。

2.3 特征選擇

特征選擇是多模態情緒識別任務中常用的方法,通過保留對識別結果更有幫助的特征,刪去無關或冗余的特征,將初始特征集合簡化為更易于處理的特征子集,實現對模態特征的降維。特征選擇方法可根據優化策略分為3類:①過濾法(filter)按照特征發散性或相關性對特征進行整體評分,通過預設的閾值或待選擇的特征個數對特征進行篩選;②嵌入法(embedded)需要結合機器學習的算法和模型識別結果,計算各個特征的權重,按權重大小選擇特征;③包裝法(wrapper)則是在初始特征集合上遞歸地修剪冗余或不重要的特征,直到獲得最佳特征子集。

為了對多模態情緒識別任務中的肢體動作特征進行降維,本文選擇包裝法中較為典型的遞歸特征消除法(recursive feature elimination,RFE),一種尋找最優特征子集的貪心算法。RFE通過對肢體動作特征進行降維,實現了數據維度的縮減,高效利用了計算資源,使模型達到了更好的識別效果。

具體地,將原始肢體動作特征集合記為motion={|=1,2,···,}為特征數目,即每一樣本具有600維初始特征,每一樣本對應的情緒標簽為。為盡可能保留原始特征,本文采用回歸模型(linear regression model)作為特征消除法的基模型,記為M。具體步驟如下:

步驟1.隨機初始化訓練集的特征子集motion_subìmotion。

圖1 動作特征的提取流程

步驟4.重復步驟2和3,直至所有特征都經過基模型M驗證,motion_sub即為最佳特征子集。

2.4 情緒識別網絡

考慮到受數據集中數據質量的影響,臉部特征不易提取,故本文選擇文本特征、音頻特征和肢體動作特征進行情緒識別研究。

在提取初始特征時,使用1D-CNN網絡提取文本特征;開源工具openSMILE提取音頻特征;ST-GCN網絡提取肢體動作特征。

在模型選擇方面,本文首先使用了文獻[17]提出的bcLSTM模型,該模型可以很好地保持非因果的時間動態特性[50],在處理多模態情緒識別任務中表現較好,且可擴展性強,可以較為便捷地擴展到其他模態。bcLSTM模型示意圖如圖2所示。

在單模態情緒識別任務中,bcLSTM模型對于文本模態使用CNN-LSTM網絡對每句話對應的特征提取上下文相關的表示后加以訓練,對于語音模態和視覺模態分別使用每句話對應的音頻特征向量和肢體動作特征向量輸入LSTM模型進行情緒識別。

在多模態情緒識別任務中,bcLSTM模型使用雙向RNN網絡對內容進行處理,采用兩步遞階過程進行訓練。首先取得前述單模態任務中各模態用于分類的隱含層特征向量,再依照2.3節描述的特征選擇方法將從視覺模態中提取的隱含層特征樣本集從高維特征空間映射到低維特征空間,最后將各模態特征拼接融合,應用于多模態情緒識別任務。

圖2 bcLSTM模型結構圖

此外,為了進一步驗證視覺模態的肢體動作特征可以提升情緒識別任務的準確率的結論,本文選擇了基于MELD數據集的情緒分類任務中效果最好的開源模型CoMPM,對其添加肢體動作特征進行多模態情緒識別。

CoMPM是由文獻[29]在2021年提出的基于自然語言處理方法進行情緒識別的模型,主要包含2個模塊:上下文嵌入模塊(context modeling,CoM)和預訓練記憶模塊(pre-trained memory,PM)。上下文嵌入模塊用于捕捉所有先前話語對當前說話者情緒的潛在影響,而預訓練記憶模塊僅利用當前說話者的前述話語作為先驗知識進行預測。在此基礎上,本文為模型添加了動作特征提取模塊,使用LSTM網絡對輸入的肢體動作特征向量進行特征提取。最終將3個模塊的輸出特征綜合后進行多模態情緒識別。改進后的CoMPM模型示意圖如圖3所示。

對于CoM模塊,使用特殊符號標記文本的開始,上下文嵌入模塊的輸出為

在PM模塊中,使用符號的輸出嵌入作為整句的表示向量,則預訓練記憶模塊的輸出為

圖3 改進的CoMPM模型結構圖

Fig. 3 Structure of improved CoMPM model

在動作特征提取模塊中,輸入為當前話語對應的視頻段落v,首先通過LSTM模型得到高維特征,再通過特征選擇和全連接層,得到對應輸出m。融合后的輸出向量為各模塊的輸出之和,即

其中,kt為PM模塊各句輸出通過追蹤模塊后的輸出。

最終的情緒識別結果通過在輸出向量與線性矩陣的點積上使用SoftMax函數得到,即

3 實 驗

3.1 數據預處理

本文使用了多人情緒數據集MELD,該數據集包含1 433段對話和超過13 000個句子,提供包括話語、說話人物、時長、對應視頻、情感標簽和情緒標簽在內的信息。數據集內的情感標簽分為積極、中性和消極3類,而情緒標簽則分為快樂、恐懼、憤怒、悲傷、厭惡、驚訝和中性共7類。

MELD數據集是從美劇《老友記》中截取的部分情節片段。構建數據集時首先將劇中對話以句子為單位進行切割,根據場景變化對屬于不同場景的句子劃分到不同對話段中,隨后召集3位標注人員對每句話進行情緒標注,丟棄3位標注者的情緒標簽不一樣的數據,以此構建了多模態情緒數據集MELD。由于數據集中存在完全不包含人物的片段以及長度不超過5幀的片段,考慮到本文的工作重點集中在與肢體動作特征有關的情緒識別上,所以對數據集進行篩選,去除上述不符合要求的片段。

篩選后的數據集共包含1 381段對話,其中訓練集1 004段,驗證集109段,測試集272段。篩選后的數據集內各情緒類別樣本分布如圖4所示,可以發現恐懼和厭惡情緒對應的樣本比較少,這是因為《老友記》是一部經典的系列情景喜劇,主要展現幾位主演在友誼、愛情、事業乃至家庭等問題上的喜怒哀樂,能體現恐懼和厭惡情緒的場景較少,故對應的樣本也相對不足。

3.2 實驗設置

3.2.1 計算環境

本節使用基于tensorflow2.9和CUDA 10.2搭建的實驗環境訓練并評估模型在MELD數據集上的表現。模型在一張24 G內存的Nvidia TITAN RTX顯卡上進行訓練。

圖4 各情緒類別樣本分布

3.2.2 特征提取

在提取初始特征時,對于文本模態,使用一個預訓練的300維GloVe向量初始化每個詞并使用1D-CNN網絡提取100維的文本特征。對于語音模態,本節使用開源工具openSMILE提取到由底層描述符和多種聲音和韻律特征組成的6 373維特征,并采用基于L2的特征選擇方法對音頻特征進行降維處理。

對于視覺模態,首先使用OpenPose提取畫面內人體18個骨架關節點的信息,OpenPose得到的信息可以視作一個包含二維坐標及其置信概率的三元組。對于多人場景下目標人物的處理,ST-GCN采用選取關節平均置信概率最高的兩個人的策略,但由于本文使用的數據中目標人物通常處于前景,與背景人物相比存在下半身關節點的缺失,若僅根據關節平均置信概率存在誤判的情況,且絕大多數多人場景中的對話發生在2個主要人物之間。因此,本文選擇一定平均置信概率以上的人物中2個肩關節點距離最大的人物。而為了排除單目標人物場景下背景人物的干擾,根據經驗,對于選取的2個人物中肩寬差距在3倍以上的,只保留肩寬較大的人物,以排除無關人物對結果的干擾。

一段多人物的視頻片段在根據上述策略處理后可表示為一個(幀數,人物數,關節點數,關節點坐標及置信概率)的張量,其中人物數為1或2。使用ST-GCN網絡對該張量進行計算,并提取輸入SoftMax層前的向量,得到每個人物關節點在每4幀內對應的肢體動作特征,則每個視頻片段可以表示為一個(幀數/4,人物數,關節點數,256)的肢體動作特征,再對肢體動作特征在幀和關節點維度上取平均值,則每個視頻片段提取到一個維度為(人物數,256)的肢體動作特征。對于人物數為1的視頻片段,采用將單一人物特征重復2遍的方式使維度對齊。最后將動作特征張量扁平化,得到每個視頻片段對應的512維的肢體動作特征。

3.2.3 評估指標

本節使用準確度(accuracy)和各情緒分類的1得分的加權平均(weighted-avg)評估整體識別結果,使用各分類的1分數評估各類別的識別結果。準確度定義為

1分數定義為

其中,

其中,為測試中的真正例數;為假正例數;為真反例數;為假反例數。

3.3 基于肢體動作特征的情緒識別

在更新后的MELD數據集上按照3.2節描述的實驗設置進行訓練和測試,得到單模態情緒識別結果。表2展示了分別使用肢體動作特征、音頻特征和文本特征,對快樂、恐懼、憤怒、悲傷、厭惡、驚訝和中性7類情緒類別進行單模態情緒識別的實驗結果。

表2 單模態情緒識別實驗結果(%)

從表2可知,文本模態特征用于情緒分類任務的效果最好,加權平均得分超過了55%,這是因為其包含的內容最為豐富,且較為統一,易被模型學習。實驗結果表明語言文字在情緒識別中有重要作用。語音模態特征具有獨特性,即不同的人在以相同情緒講相同內容的話時,語音語調也存在差異。該特性加大了模型學習的難度,導致語音模態特征的分類結果準確度低于文本模態特征。雖然人講話時的肢體動作中包含了對應的情緒信息,但相較于前2種模態特征,從視頻中提取對應的信息具有其固有的難點:首先需要排除畫面中無關人物的干擾,對說話人進行精準的定位;其次,根據WALTERS和WALK[51]對動作和情緒之間關系的研究,部分情緒,如快樂、悲傷和憤怒,在肢體動作上的表現更為明顯,而厭惡等情緒在動作上的表現幅度較小。這些因素都加大了從動作中捕捉關鍵情緒信息的難度。盡管如此,單模態情緒識別實驗結果顯示,僅使用肢體動作特征也可以在一定程度上完成情緒識別任務,表明肢體動作特征內隱含人物情緒信息,使用肢體動作特征識別情緒的方法具有一定潛力。

加權平均是由各分類的1分數結合類別權重計算得到。

3.4 多模態情緒識別

按照3.2節描述的實驗設置,在更新后的MELD數據集上分別使用2個模型進行訓練和測試,得到多模態情緒識別結果。表3展示了在bcLSTM模型中使用文本、語音雙模態信息和文本、語音、視覺三模態信息,以及在CoMPM模型中使用文本信息和文本、視覺雙模態信息對快樂、恐懼、憤怒、悲傷、厭惡、驚訝和中性7類情緒類別進行識別的結果。

分析表3數據可發現,恐懼與厭惡2種情緒的識別結果較差,其原因是數據集內各類別數據分布的不平衡。從圖4中可以看出:超過45%的例子均為中性標簽。盡管在bcLSTM模型中通過引入類別權重作為超參數適當解決了這一問題,但圖5的2種模型中多模態情緒識別的混淆矩陣可以看出,模型在學習過程中傾向于賦予中性情緒類別更高的權重,其他類別中分類錯誤的例子大多被誤判為中性類別。

表3 多模態情緒識別實驗結果對比(%)

注:加粗數據為最優值

圖5 多模態情緒識別結果的混淆矩陣((a) bcLSTM模型;(b) CoMPM模型)

此外,從表3可以看出,引入肢體動作特征后多模態情緒識別結果中各情緒準確率的變化方向不同,是因為不同的情緒在肢體動作上體現的程度不同。驚訝和開心情緒的識別準確率在2種模型上均有所下降,是因為這2類情緒更多體現在文本或聲音的變化中,在肢體動作中的表現幅度較小,融合肢體動作特征后引入了無關冗余特征,造成了準確率的下降。但在生氣和厭惡這2類情緒中,肢體動作表現幅度較大,引入肢體動作特征可以為模型提供更多信息,故而在2種模型上的對應情緒識別準確率均有所上升。

綜合表3中各分類和總體結果來看,在bcLSTM模型中,三模態信息融合后的情緒識別結果與雙模態信息融合后的結果,在準確度上高出2.2%,在加權平均上高出1%。而在CoMPM模型中,雙模態信息融合后的情緒識別結果與文本模態的結果相比,在準確度上高出1.9%,在加權平均上高出1.3%。在2個模型上的對比實驗結果表明引入肢體動作特征的多模態情緒識別模型比原有模型表現更好,說明從視覺模態提取的肢體動作特征包含原有各模態特征未捕捉到的信息。融合后的多模態模型涵蓋了更豐富的相關特征,因此加強了模型識別對話中情緒的能力。

4 結束語

本文利用多人對話數據集MELD的視覺模態數據提取肢體動作特征,并提出了融合動作特征的多模態情緒識別方法。進一步通過實驗驗證肢體動作特征及包含該特征在內的多模態特征在情緒識別任務中的識別效果。從實驗結果可知,利用肢體動作特征能實現一定程度上的情緒識別,而引入肢體動作特征輔助的多模態情緒識別的效果也得到了提升,表明肢體動作特征在情緒識別任務上具有良好的發展潛力。通過具體分析各情緒分類識別結果,進一步發現不同情緒在動作特征中的體現程度不同,生氣和厭惡2類情緒在動作中體現的更為明顯,表明對特定情緒(如憤怒)的識別準確度要求更高的場合,引入動作特征能更有效準確地識別對應情緒。下一步工作將嘗試優化肢體動作特征提取方法,使其能夠更精準地捕捉到說話人的肢體動作信息,并挖掘更有效的利用肢體動作特征實現情緒識別的方法。

[1] DAVIDSON R J, BEGLEY S. The emotional life of your brain: how its unique patterns affect the way you think, feel, and live-and how you can change them[M]. New York: Plume, 2013: 1-279.

[2] LOEWENSTEIN G, LERNER J. The role of affect in decision making[M]//The Handbook of Affective Science. Oxford: Oxford University Press, 2003: 619-642.

[3] NOROOZI F, CORNEANU C A, KAMI?SKA D, et al. Survey on emotional body gesture recognition[J]. IEEE Transactions on Affective Computing, 2021, 12(2): 505-523.

[4] ZHAO J, GOU L, WANG F, et al. PEARL: an interactive visual analytic tool for understanding personal emotion style derived from social media[C]//2014 IEEE Conference on Visual Analytics Science and Technology. New York: IEEE Press, 2014: 203-212.

[5] CALVO R A, MAC KIM S. Emotions in text: dimensional and categorical models[J]. Computational Intelligence, 2013, 29(3): 527-543.

[6] RUSSELL J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161-1178.

[7] BRADLEY M M, LANG P J. Measuring emotion: the self-assessment manikin and the semantic differential[J]. Journal of Behavior Therapy and Experimental Psychiatry, 1994, 25(1): 49-59.

[8] PALTOGLOU G, THELWALL M. Seeing stars of valence and arousal in blog posts[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 116-123.

[9] PALTOGLOU G, THEUNIS M, KAPPAS A, et al. Predicting emotional responses to long informal text[J]. IEEE Transactions on Affective Computing, 2013, 4(1): 106-115.

[10] EKMAN P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200.

[11] SARKAR P, ETEMAD A. Self-supervised ECG representation learning for emotion recognition[J]. IEEE Transactions on Affective Computing, 2022, 13(3): 1541-1554.

[12] ALARC?O S M, FONSECA M J. Emotions recognition using EEG signals: a survey[J]. IEEE Transactions on Affective Computing, 2019, 10(3): 374-393.

[13] COUTINHO E. Predicting musical emotions from low-level acoustics and physiological measurements: music and speech[EB/OL]. [2022-05-07]. https://livrepository.liverpool.ac. uk/3000588/1/Paper_MER.pdf.

[14] PETRANTONAKIS P C, HADJILEONTIADIS L J. Emotion recognition from brain signals using hybrid adaptive filtering and higher order crossings analysis[J]. IEEE Transactions on Affective Computing, 2010, 1(2): 81-97.

[15] CHANEL G, ANSARI-ASL K, PUN T. Valence-arousal evaluation using physiological signals in an emotion recall paradigm[C]//2007 IEEE International Conference on Systems, Man and Cybernetics. New York: IEEE Press, 2007: 2662-2667.

[16] PORIA S, CHATURVEDI I, CAMBRIA E, et al. Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]//2016 IEEE 16th International Conference on Data Mining. New York: IEEE Press, 2016: 439-448.

[17] PORIA S, CAMBRIA E, HAZARIKA D, et al. Context- dependent sentiment analysis in user-generated videos[C]//The 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: Association for Computational Linguistics, 2017: 873-883.

[18] BAGHER ZADEH A, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//The 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: Association for Computational Linguistics, 2018: 2236-2246.

[19] MITTAL T, BHATTACHARYA U, CHANDRA R, et al. M3ER: multiplicative multimodal emotion recognition using facial, textual, and speech cues[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(2): 1359-1367.

[20] NOROOZI F, CORNEANU C A, KAMI?SKA D, et al. Survey on emotional body gesture recognition[J]. IEEE Transactions on Affective Computing, 2021, 12(2): 505-523.

[21] JAIMES A, SEBE N. Multimodal human-computer interaction: a survey[J]. Computer Vision and Image Understanding, 2007, 108(1-2): 116-134.

[22] EL AYADI M, KAMEL M S, KARRAY F. Survey on speech emotion recognition: features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572-587.

[23] YANG Y H, CHEN H H. Ranking-based emotion recognition for music organization and retrieval[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 762-774.

[24] KARADO?AN S G, LARSEN J. Combining semantic and acoustic features for valence and arousal recognition in speech[C]//2012 3rd International Workshop on Cognitive Information Processing . New York: IEEE Press, 2012: 1-6.

[25] LIN J C, WU C H, WEI W L. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition[J]. IEEE Transactions on Multimedia, 2012, 14(1): 142-156.

[26] HEISELE B, HO P, POGGIO T. Face recognition with support vector machines: global versus component-based approach[C]// The 8th IEEE International Conference on Computer Vision. New York: IEEE Press, 2001: 688-694.

[27] PORIA S, HAZARIKA D, MAJUMDER N, et al. MELD: a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].[2022-05-20]. https://arxiv.org/abs/1810. 02508.

[28] XIE B J, SIDULOVA M, PARK C H. Robust multimodal emotion recognition from conversation with transformer-based crossmodality fusion[J]. Sensors, 2021, 21(14): 4913.

[29] LEE J, LEE W. CoMPM: context modeling with speaker's pre-trained memory tracking for emotion recognition in conversation[EB/OL]. [2022-06-15]. https://arxiv.org/abs/2108. 11626.

[30] LI D, RZEPKA R, PTASZYNSKI M, et al. A novel machine learning-based sentiment analysis method for Chinese social media considering Chinese slang lexicon and emoticons[C]//The 2nd Workshop on Affective Content Analysis (AffCon 2019) Co-located with 33rd AAAI Conference on Artificial Intelligence (AAAI 2019). Palo Alto: AAAI Press, 2019: 88-103.

[31] LIU F G, ZHENG L L, ZHENG J Z. HieNN-DWE: a hierarchical neural network with dynamic word embeddings for document level sentiment classification[J]. Neurocomputing, 2020, 403: 21-32.

[32] LI W, ZHU L Y, SHI Y, et al. User reviews: sentiment analysis using lexicon integrated two-channel CNN-LSTM family models[J]. Applied Soft Computing, 2020, 94: 106435.

[33] COULSON M. Attributing emotion to static body postures: recognition accuracy, confusions, and viewpoint dependence[J]. Journal of Nonverbal Behavior, 2004, 28(2): 117-139.

[34] TRACY J L, ROBINS R W. Show your pride: evidence for a discrete emotion expression[J]. Psychological Science, 2004, 15(3): 194-197.

[35] DAEL N, GOUDBEEK M, SCHERER K R. Perceived gesture dynamics in nonverbal expression of emotion[J]. Perception, 2013, 42(6): 642-657.

[36] GLOWINSKI D, DAEL N, CAMURRI A, et al. Toward a minimal representation of affective gestures[J]. IEEE Transactions on Affective Computing, 2011, 2(2): 106-118.

[37] WANG W Y, ENESCU V, SAHLI H. Adaptive real-time emotion recognition from body movements[J]. ACM Transactions on Interactive Intelligent Systems, 2016, 5(4): 18.

[38] SANTHOSHKUMAR R, KALAISELVI GEETHA M. Vision-based human emotion recognition using HOG-KLT feature[M]//Lecture Notes in Networks and Systems. Singapore: Springer Singapore, 2020: 261-272.

[39] SANTHOSHKUMAR R, KALAISELVI GEETHA M. Human emotion recognition using body expressive feature[M]// Microservices in Big Data Analytics. Singapore: Springer Singapore, 2019: 141-149.

[40] RAZZAQ M A, BANG J, KANG S S, et al. UnSkEm: unobtrusive skeletal-based emotion recognition for user experience[C]//2020 International Conference on Information Networking. New York: IEEE Press, 2020: 92-96.

[41] LY S T, LEE G S, KIM S H, et al. Emotion recognition via body gesture: deep learning model coupled with keyframe selection[C]//The 2018 International Conference on Machine Learning and Machine Intelligence. New York: ACM Press, 2018: 27-31.

[42] SHEN Z J, CHENG J, HU X P, et al. Emotion recognition based on multi-view body gestures[C]//2019 IEEE International Conference on Image Processing. New York: IEEE Press, 2019: 3317-3321.

[43] AVOLA D, CINQUE L, FAGIOLI A, et al. Deep temporal analysis for non-acted body affect recognition[J]. IEEE Transactions on Affective Computing, 2022, 13(3): 1366-1377.

[44] BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J]. Language Resources and Evaluation, 2008, 42(4): 335-359.

[45] METALLINOU A, LEE C C, BUSSO C, et al. The USC CreativeIT database: a multimodal database of theatrical improvisation[J]. Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality, 2010: 497-521.

[46] METALLINOU A, YANG Z J, LEE C C, et al. The USC CreativeIT database of multimodal dyadic interactions: from speech and full body motion capture to continuous emotional annotations[J]. Language Resources and Evaluation, 2016, 50(3): 497-521.

[47] ZADEH A, ZELLERS R, PINCUS E, et al. MOSI: multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos[EB/OL]. [2022-06-10]. https://arxiv.org/ abs/1606.06259.

[48] CAO Z, SIMON T, WEI S H, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 1302-1310.

[49] YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 1.

[50] LEE J, TASHEV I. High-level feature representation using recurrent neural network for speech emotion recognition[C]// Interspeech 2015. Baixas: International Speech Communication Association, 2015: 1.

[51] WALTERS K, WALK R D. Perception of emotion from body posture[J]. Bulletin of the Psychonomic Society, 1986, 24(5):1.

Multimodal emotion recognition with action features

SUN Ya-nan, WEN Yu-hui, SHU Ye-zhi, LIU Yong-jin

(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)

In recent years, using knowledge of computer science to realize emotion recognition based on multimodal data has become an important research direction in the fields of natural human-computer interaction and artificial intelligence. The emotion recognition research using visual modality information usually focuses on facial features, rarely considering action features or multimodal features fused with action features. Although action has a close relationship with emotion, it is difficult to extract valid action information from the visual modality. In this paper, we started with the relationship between action and emotion, and introduced action data extracted from visual modality to classic multimodal emotion recognition dataset, MELD. The body action features were extracted based on ST-GCN model, and the action features were applied to the LSTM model-based single-modal emotion recognition task. In addition, body action features were introduced to bi-modal emotion recognition in MELD dataset, improving the performance of the fusion model based on the LSTM network. The combination of body action features and text features enhanced the recognition accuracy of the context model with pre-trained memory compared with that only using the text features. The results of the experiment show that although the accuracy of body action features for emotion recognition is not higher than those of traditional text features and audio features, body action features play an important role in the process of multimodal emotion recognition. The experiments on emotion recognition based on single-modal and multimodal features validate that people use actions to convey their emotions, and that using body action features for emotion recognition has great potential.

action features; emotion recognition; multimodality; action and emotion; visual modality

TP 391

10.11996/JG.j.2095-302X.2022061159

A

2095-302X(2022)06-1159-11

2022-07-28;

:2022-10-15

清華大學自主科研計劃(20211080093);博士后面上資助(2021M701891);國家自然科學基金(62202257,61725204)

孫亞男(1997-),女,碩士研究生。主要研究方向為計算機視覺。E-mail:sunyn20@mails.tsinghua.edu.cn

劉永進(1977-),男,教授,博士。主要研究方向為計算機圖形學、計算機輔助設計和情感計算。E-mail:liuyongjin@tsinghua.edu.cn

28 July,2022;

15 October,2022

Tsinghua University Initiative Scientific Research Program (20211080093); China Postdoctoral Science Foundation (2021M701891); National Natural Science Foundation of China (62202257, 61725204)

SUN Ya-nan (1997-), master student. Her main research interest covers computer vision. E-mail:sunyn20@mails.tsinghua.edu.cn

LIU Yong-jin (1977-), professor, Ph.D. His main research interests cover computer graphics, computer aided design and affective computing. E-mail:liuyongjin@tsinghua.edu.cn

猜你喜歡
肢體模態情緒
基于BERT-VGG16的多模態情感分析模型
多模態超聲監測DBD移植腎的臨床應用
跨模態通信理論及關鍵技術初探
肢體語言
小情緒
小情緒
小情緒
肢體寫作漫談
肢體語言在兒科護理中的應用
情緒認同
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合