?

基于聲學和文本特征的多模態情感識別

2022-12-13 05:43姜芳艽俞佳佳
數據采集與處理 2022年6期
關鍵詞:注意力語音模態

顧 煜,金 赟,2,馬 勇,姜芳艽,俞佳佳

(1.江蘇師范大學物理與電子工程學院,徐州 221116;2.江蘇師范大學科文學院,徐州 221116;3.江蘇師范大學語言科學與藝術學院,徐州 221116)

引 言

盡管語音情感識別(Speech emotion recognition,SER)和自然語言處理(Natural language process?ing,NLP)已經取得了很大的進展,但人類仍然無法與機器進行自然地交流。因此,建立一套能夠在人機交互中檢測情感的系統至關重要。但由于人類情感的多變性和復雜性,這仍然是一項具有挑戰性的任務。傳統的情感識別主要針對于單個模態,如文本、語音和圖像等,在識別性能上存在一定的局限性[1]。如在早期的語音情感識別任務中,研究人員主要利用的是語音中的聲學特征和一些相關的韻律學特征,往往忽視了語音中所包含的具體語義信息(文本信息)。但在日常會話和社交媒體中,聲音往往是對一段文本內容的復述,二者密切相關??紤]到語音和文本模態之間的同一性、互補性和強相關聯性,不少研究人員從單模態轉向了多模態的情感識別研究。其中,融合語音和文本這兩種不同模態信息來進行情感識別也成為了熱點研究方向。實驗表明,與單個模態相比,同時考慮多種模態信息可以更加準確地捕捉情感[2]。在多模態融合方面,主要采用3種融合策略:特征層融合、決策層融合以及混合融合。Kim等[1]利用深度神經網絡(Deep neural network,DNN)提取話語級聲學瓶頸特征和以分布表征和情感詞匯為基礎的文本特征,將這些聲學和文本特征進行早期融合后輸入至另一個DNN網絡進行分類,并取得了良好的效果。文獻[3]使用OpenSMILE工具箱提取的特征和原始的倒譜特征作為語音的話語級聲學特征,而在文本特征方面利用N?gram語言模型進行捕獲,并將兩個模態先分別訓練識別,再進行決策融合。也有研究人員另辟蹊徑,將側重點放在兩個模態信息融合上,文獻[4]提出一種新穎的多模態交叉的自注意力網絡(Multimodal cross and self?attention network,MCSAN),該網絡主要利用交叉注意力機制來引導一個模態關注另一個模態,從而實現特征的更新。

隨著技術的發展,許多研究機構也在不斷探索新的語言模型。2019谷歌研究所[5]首次提出一種新型語言表征模型BERT,該模型可以生成深層次的語言雙向表征,對自然語言處理各項任務的結果都有很大的提升。文獻[6]利用BERT獲得上下文詞嵌入來表征轉錄文本中所包含的信息,但沒有考慮到因BERT復雜網絡結構與情感語料庫數據量不足而不匹配的問題。BERT雖然可以用來生成文本信息的表征,但無法彌補轉錄文本自身忽視一些潛在情感信息的不足。在轉錄文本時并不會體現出說話過程中的停頓信息。文獻[7]調研了說話停頓信息與情感之間的聯系,發現與快樂、積極相比,在悲傷、害怕的情感狀態下,沉默停頓的平均時長占整段語音的比例增加了,且注意到處于不同情感狀態時,說話停頓的頻率、持續時間以及停頓發生的位置也會有所區別。另一方面,基于注意力機制的深度網絡在解碼階段顯示了優越的性能,在自然語言處理和語音識別領域中得到了廣泛的應用。而在語音情感識別中,由于情感特征在語句中分布并不均勻,因此不少研究人員在情感識別任務中增加了注意力機制,如文獻[8?10],使得網絡對包含情感信息較多的部分具有指導性機制,重點突出局部最具情感的信息。

針對提高情感識別性能,本文提出了一種基于聲學和文本特征的多模態識別方法。在文本模態上,原始的轉錄文本缺失了情感相關的說話人停頓信息,因而利用語音和轉錄文本的強制對齊,將停頓信息編碼后添加至文本。為解決傳統BERT復雜的網絡結構與情感數據量少的不匹配問題,將文本輸入分層密集連接BERT模型(Densely connected bi?directional encoder representation from transformers,DC?BERT)提取話語級文本特征。在語音模態上,利用OpenSMILE提取語音情感的淺層特征,并與Transformer Encoder學習淺層特征后得到的深層特征進行融合生成多層次的聲學特征。本文專注于特征提取的質量與有效性,利用早期特征層融合技術來補充聲學和文本特征之間相互缺失的信息,并采用了基于注意力機制的雙向長短時記憶神經網絡(BiLSTM?ATT)作為分類器。其中BiLSTM網絡的優勢是能夠充分利用先驗知識,獲取有效的上下文信息,而注意力機制有助于抽取特征中突顯情感信息的部分,避免信息冗余。最后,本文對比了目前使用較為廣泛的3種注意力機制,即局部注意力機制[11]、自注意力機制[12]、多頭自注意力機制[12]對情感信息的捕獲能力。最終,本文方法在IEMOCAP數據集[13]上4類情感分類中加權準確率達到78.7%。與基線系統相比,展示了良好的性能。

1 多模態情感識別模型

本節主要描述了系統的整體框架及其所涉及的技術。該系統由聲學特征提取模塊、文本特征提取模塊和BiLSTM?ATT網絡模型組成,系統整體框架如圖1所示。

圖1 多模態情感識別模型的系統框架Fig.1 System framework of the proposed model for multimodal emotion recognition

1.1 聲學特征提取

本文使用OpenSMILE工具箱[14]中的Emobase特征集提取了988維淺層聲學特征。它們由低級描述符(Low?level descriptors,LLDs)組成,如強度、響度、梅爾頻率倒譜系數(Mel?frequency cepstral coef?ficients,MFCC)、音調以及它們在話語級上每個短幀的統計值,如最大值、最小值、平均值和標準偏差等。但是,低級描述符只包含全局淺層信息,僅僅使用其表達情感是不夠的,需要從中挖掘出更細節的情感描述特征。

受自然語言處理領域Transformer模型[12]的啟發,采用Transformer Encoder網絡結構對低級描述符進行2次學習提取深層特征。Transformer模型最早用于機器翻譯任務,可以很好地解決序列到序列(Sequence to sequence,Seq2seq)的問題,從而廣泛應用于自然語言處理領域。該模型主要包括編碼器、解碼器。其中,在Seq2seq模型中,編碼器主要將輸入單詞序列映射為高維的連續表征序列,而解碼器則是在給定高維連續表征序列的情況下,生成一個單詞序列作為輸出。

但在語音情感分類任務中,一句話對應一個情感標簽,且數據量不如機器翻譯任務,因而本文僅采用Transformer的編碼器結構,其強大的特征學習能力受益于內部的自注意機制,可以有效地從淺層聲學特征中挖掘到與情感狀態高度相關的深層表征。

1.2 文本特征提取

考慮到說話停頓對情感表達的影響,本文通過賓夕法尼亞大學語音標簽強制對齊工具(Penn pho?netics lab forced aligner,P2FA)對預處理后的轉錄文本和音頻進行強制對齊,從而確定停頓的位置和持續時間。文本預處理包含刪除轉錄文本的標點符號,以及單詞統一轉換為小寫。根據文獻[15]的經驗,將停頓時長分為6個區間:0.05~0.1 s,0.1~0.3 s,0.3~0.6 s,0.6~1.0 s,1.0~2.0 s和大于2.0 s。對這6個區間分別進行編碼:“..”“…”“….”“…..”“……”“…….”;最后添加“.”在每個說話人的句尾作為結束的標志。該流程如圖2所示。

圖2 停頓編碼流程圖Fig.2 Procedure for pause encoding

針對上文所述,BERT復雜網絡結構與數據量不匹配,本文采用了一種改進的BERT模型作為文本特征提取器,即分層密集連接BERT模型,它保留了Transformer中每個多頭自注意層[16]內部的殘差連接,在層與層之間新增了密集連接,即每一個多頭自注意力層的輸入額外增加了前兩層的特征信息,目的是加快模型的收斂速度,使網絡的損失函數更加平滑,而每一層提取的特征也可以在不同的注意層之間被重復使用,提高了特征的利用率。DC?BERT網絡結構如圖3所示,其中Trm為Transformer。假設給定一個輸入特征序列X,X中元素如式(1)所示。

圖3 DC-BERT模型結構Fig.3 DC-BERT model structure

式中:x i為輸入特征序列X的第i個元素;H為非線性函數;α和β為保留前兩層信息的權重系數,使得每一層都能得到前兩層處理的結果,卻又不占主導地位。

DC?BERT模型由12層Transformer組成,每一層的輸出理論上都可以作為話語級的文本特征。根據之前的實驗經驗,本文選擇DC?BERT倒數第2層的768維輸出序列作為話語級文本特征。

1.3 模型結構

LSTM網絡可以解決長距離信息依賴問題,以及在訓練過程中避免梯度消失或爆炸。BiLSTM網絡是由前向LSTM和反向LSTM組成,相較于單向的LSTM網絡,BiLSTM網絡能夠充分利用先驗知識,更好地捕捉和考慮上下文信息。

本文在BiLSTM網絡中引入注意力機制來關注話語中包含強烈情感特征的特定部分,即BiLSTM?ATT模型,同時對比了3種注意力機制,即局部注意力機制[11]、自注意力機制[12]、多頭自注意力機制[12]。

1.3.1 局部注意力機制

為了解決計算開銷問題,本文采用了一種局部注意力機制,該機制只關注一部分編碼隱藏層。局部注意力首先在時間t上,為當前節點生成一個對齊位置pt,然后選擇性地設置1個固定大小為2D+1的上下文窗口。

式中:D根據經驗選擇;Pt為窗口中心,由當前隱藏狀態的ht決定,是一個實數;編碼器的全部隱藏狀態為;對齊權重的計算過程和傳統attention相似,即

式中標準偏差σ根據經驗設定。

1.3.2 自注意力機制

自注意力機制利用了輸入特征序列元素之間的加權相關性。具體來說,輸入序列的每個元素都可以通過一個線性函數投影成3種不同的表示形式:查詢(query)、鍵(key)、值(value)[17],即

式中:w q、w v、w k分別為查詢、鍵、值的權重矩陣;u i為輸入的第i個詞向量。

最終注意矩陣為

式中:Q為查詢矩陣;K為鍵矩陣;V為句子的值矩陣;d k為比例因子。

1.3.3 多頭自注意力機制

為了擴展模型對不同位置的關注能力,本文在自注意力機制的基礎上對比了多頭自注意力機制對語音情感識別任務的影響。多頭是指輸入特征序列的每個變量(query、key和value)的投影數不止一組。也就是說,在參數不共享的前提下,將Q、K、V通過參數矩陣映射后,做單層的自注意力,然后將自注意力層層疊加。多頭自注意力計算公式為

2 實驗驗證

2.1 數據準備

為了驗證所提方法的有效性,本文在IEMOCAP情感數據集[13]上進行了多組實驗。該數據集包含5組二元互動的會話,共包括12 h的視聽數據(音頻、轉錄文本、視頻和面部動作捕捉)。本文僅使用了音頻和轉錄文本,一些多模態情感識別利用自動語音識別(Automatic speech recognition,ASR)系統將語音翻譯成文本,本文并沒有針對該語音訓練一個專門的ASR系統,而是直接使用IEMOCAP數據庫所包含的轉錄文本,減少了因ASR系統識別錯誤帶來的消極影響,Li等做了相應的實驗驗證了直接使用轉錄文本能夠提升情感識別的準確率[18]。

IEMOCAP數據庫共有10類情感(憤怒、高興、悲傷、中立、沮喪、興奮、恐懼、驚訝、厭惡、其他),每句話都由3位注釋員進行情感判定。為了與先前的研究結果具有對比性,選取了4種情感進行分類,其中將高興與興奮劃分為一類,以平衡數據在不同類別之間的分布。最終實驗數據共計5 531句話語,類別占比分別為:憤怒19.9%,快樂29.5%,中立30.8%,悲傷19.5%。

2.2 參數設置

本文采用特定人的十折交叉驗證作為最終實驗結果。模型的參數主要根據交叉驗證的結果進行調整。為了增加模型的泛化能力,在交叉驗證中,把訓練數據分成10份,其中訓練集9份和驗證集1份,通過十折的交叉驗證求取平均值來獲得模型的參數。此外,設置了Dropout防止模型過擬合,在全連接層加入Dropout可以隨機地將某些輸出置0,相當于增加了噪聲,從而防止模型過擬合。實驗結果也表明,本文提出的方法具有較好的泛化能力。最終模型的參數為:BiLSTM網絡的神經元數設置為200(100個正向節點和100個反向節點),訓練批次大小設置為64,迭代次數設置為20,Dropout設置為0.5;采用IEMOCAP數據集最常用的評價指標:加權準確率WA和未加權準確率UA來評估模型性能的優劣。WA是整個測試數據的總體準確率,UA是每個情感類別的平均準確率。采用交叉熵損失函數作為模型的損失函數,其公式如下

式中:n為樣本個數;y為期望輸出;a為神經元實際輸出。

2.3 實驗結果

為了分析驗證所提的多模態融合方法以及該模型的優越性,本文分3個步驟進行驗證分析。首先針對單語音模態驗證深淺特征融合的有效性,本文做了如下幾組對比實驗:(1)IS09+BiLSTM:使用384維的IS09特征集作為聲學特征,并采用BiLSTM網絡進行分類;(2)emobase+BiLSTM:使用988維的emobase特征集作為聲學特征,并采用BiLSTM網絡進行分類;(3)emobase+deep features(pro?posed):使用988維的emobase特征集作為淺層特征,將其輸入Transformer Encoder提取深層特征,再將深淺特征融合,送入BiLSTM網絡進行分類。對比實驗結果如表1所示。由表1可以看出,在BiLSTM網絡參數與上述設置一致的前提下,對于單語音模態而言,Emobase+deep features(pro?posed)的WA和UA分別可以達到67.55%和66.39%。深淺融合特征明顯優于僅有低級描述符的淺層特征。同時驗證了利用Transformer Encoder是可以從淺層特征中提取更顯著的局部情感信息。

表1 僅語音模態的實驗對比結果Table1 Exper imental compar ison results for only speech modal

其次,針對單文本模態,本文做了如下幾組對比實驗:(1)Word2vec+BiLSTM:使用傳統詞嵌入模型word2vec提取文本特征,并采用BiLSTM網絡進行分類;(2)BERT+BiLSTM:直接采用轉錄文本,將其輸入BERT預訓練模型后,提取倒數第2層的768維輸出序列作為文本特征,并采用BiLSTM網絡進行分類;(3)DC?BERT+BiLSTM:直接采用轉錄文本,將其輸入DC?BERT預訓練模型后,提取倒數第2層的768維輸出序列作為文本特征,并采用BiLSTM網絡進行分類;(4)Pause+BERT+BiLSTM:使用經過停頓編碼后的轉錄文本,將其輸入BERT預訓練模型后,提取倒數第2層的768維輸出序列作為文本特征,并采用BiLSTM網絡進行分類;(5)Pause+DC?BERT+BiLSTM:使用經過停頓編碼后的轉錄文本,將其輸入DC?BERT預訓練模型后,提取倒數第2層的768維輸出序列作為文本特征,并采用BiLSTM網絡進行分類。對比結果如表2所示。由表2可知,在BiLSTM網絡參數與上述設置一致的前提下,對于單文本模態而言,DC?BERT+BiLSTM的WA可以達到69.01%,UA達到了68.93%;而BERT+BiLSTM的WA為68.78%,UA為68.69%,Word2vec+BiLSTM的WA僅為65.21%。由此DC?BERT的性能要優于BERT模型和word2vec。除此之外,不難發現相較于直接使用轉錄文本,采用經過停頓編碼后的文本新增了語義與停頓信息的聯結,在一定程度上是對語義信息無聲的補充,可以有效地提高情感識別的準確性,而DC?BERT與停頓編碼的組合也進一步提升了識別的準確性,其中WA和UA分別達到了70.13%和70.34%。

表2 僅文本模態的實驗對比結果Table 2 Experimental comparison results for only text(transcribed text)modal

最后將語音和文本模態融合的結果(本文采用基于特征層融合的策略)與最近的一些實驗結果比較,其中這些引用皆使用了相同的情感語料庫,同時在此基礎上,本實驗對比了3種不同注意力機制,如表3所示。

表3 多模態模型在IEMOCAP數據集上的對比結果Table 3 Comparison results on IEMOCAP dataset using multimodal models

(1)Concat(Yoon et al.,2018)[19]:提出一種多模態雙循環編碼器模型,使用雙向RNN對語音和文本序列進行編碼,再使用前饋神經網絡將編碼序列組合從而完成情感類別預測,最終在IE?MOCAP數據集上獲得了71.8%的識別率。

(2)Concat(Gu et al.,2018)[20]:提出一種多模態分層注意力結構(Multimodal hierarchical at?tention structure),該結構主要包括文本注意力模塊、語音注意力模塊和融合模塊,在預處理階段,將文本和語音進行強制對齊。然后,文本注意模塊和語音注意模塊從相應的輸入中提取特征,并通過融合后的特征進行情感預測,最終在IEMOCAP數據集上獲得了72.7%的識別率。

(3)Concat(Xu et al.,2019)[21]:使用注意力機制來學習語音幀和文本詞之間的對齊,再將對齊的多模態特征輸入至序列模型中進行情感識別,最終在IEMOCAP數據集上的WA和UA分別為72.50%和70.90%。

(5)Concat(Pepino et al.,2020)[6]:通過BERT獲得的上下文詞嵌入作為轉錄文本的特征,利用OpenSMILE工具包提取36維的聲學特征,采用模型融合的方式將兩個模態的信息整合,最終在IE?MOCAP數據集上的UA為65.10%。

(6)Concat(Patamia et al.,2021)[2]:利用librosa獲取34維聲學特征,通過BERT獲得的上下文詞嵌入作為文本的特征,并將兩個模態的特征輸入神經網絡獲取更深層的特征,采用特征層融合的方式整合兩個模態的信息,最終在IEMOCAP數據集上的WA為70.18%。

(7)LLDs+word2vec+BiLSTM:將語音模態的988維LLDs和文本模態中使用word2vec提取的詞嵌入進行簡單的特征拼接,再送入與上述參數設置一致的BiLSTM網絡中進行情感識別,最終WA為71.10%。

本實驗在多模態的基礎上,將注意力機制引入BiLSTM來引導網絡關注特征中情感濃烈的地方,并對比了3種不同注意機制(LoaclAtt、SelfAtt和MultiAtt),其WA分別是78.70%、77.99%和76.39%,UA為79.51%、78.77%和75.97%。顯然,與其他先進的方法進行比較,本文所提模型的性能優于上述模型。本模型相較于上述模型識別效果有所提高主要在于兩個模態特征提取的創新,在語音模態,本文對淺層聲學特征進行2次學習,從淺層聲學特征中挖掘深層聲學特征,并將深淺層特征融合,得到的新特征包含更豐富的信息,可以多層次的去識別情感;在文本模態,本文將語音中的停頓時長信息以編碼的形式添加至轉錄文本中,這是把語音模態中的特定信息與文本模態信息融合,使得文本所帶的語義信息中加入了停頓信息,讓文本內容變得更加豐富。最終將兩個模態的特征進行融合,并采用注意力機制去關注情感信息突出的部分,獲得了較好的實驗結果。

3種不同注意力機制下的分類混淆矩陣如圖4所示,發現基于局部注意力機制的BiLSTM網絡要比基于自注意力機制或多頭自注意力機制的BiLSTM網絡表現更好??梢钥闯?,除中立類別外,其他類的識別率幾乎都在75%以上。文獻[22]曾表述高興是一種正效價和喚醒值情感,僅靠淺層特征信息是無法很好預測的。在本文實驗中,高興的識別率在80%左右,遠高于文獻[22],證明了利用Transformer從淺層特征中學習深層特征的方法是有效的。

圖4 在3種不同注意力機制下4類情感識別結果的混淆矩陣Fig.4 Confusion matrices of four categories of emotion recognition results under three different attention mechanisms

為了進一步驗證BiLSTM?LocalAtt模型在語音情感識別方面的優勢,本文在IEMOCAP數據庫上進行了參數量(Params)和計算復雜度(FLOPs)對比實驗。如表4所示,BiLSTM?MultiAtt模型的網絡參數量最多,計算復雜度最大,但其識別準確率最低,可見對于小數據量的情感識別任務,較為龐大的網絡結構未必能取得預期效果。BiLSTM?LocalAtt模型和BiLSTM?SelfAtt模型的網絡參數量和計算復雜度是一樣的,但局部注意力機制的效果要優于自注意力機制,可見對于整句語音而言,情感并不是平均分布的,而是相對集中在某幾個地方,因此局部注意力機制會更適合情感識別任務。

表4 網絡復雜度對比實驗結果Table 4 Comparison of experimental r esults for net?work complexity

3 結束語

本文提出了一種有效的從語音和轉錄文本中識別情感的方法。通過Transformer Encoder模型從OpenSMILE工具箱提取的淺層特征中2次學習獲得深層特征,再把深淺層特征融合以補全信息的完整性。利用兩個模態的對齊獲取語音中的停頓信息,并以停頓編碼的方式將說話停頓添加到轉錄文本中,補充了文本模態除語義信息外的其他從屬信息,使得文本信息更加多元化。最終結果表明,與直接使用轉錄文本相比,具有停頓信息的轉錄文本可以提高情感識別的準確性;再使用DC?BERT模型提取的話語級文本特征,以彌補因BERT復雜網絡結構與數據量不足而不匹配的問題。本文將兩種改進后的模態特征融合并輸入到BiLSTM?ATT網絡中進行情感分類。實驗結果表明,該方法在情感識別效果上優于其他方法。同時本文對比了3種注意力機制在情感識別任務中的影響,發現在本實驗數據情況下,局部注意力機制的效果要優于另外兩個注意力機制。

猜你喜歡
注意力語音模態
基于BERT-VGG16的多模態情感分析模型
多模態超聲監測DBD移植腎的臨床應用
讓注意力“飛”回來
跨模態通信理論及關鍵技術初探
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合