?

語音情感識別綜述

2016-11-07 22:09薛文韜

軟件導刊 2016年9期

摘要：隨著情感計算成為人工智能的一個重要發展方向，語音情感識別作為情感計算的一個重要組成部分，受到了廣泛關注。從情感描述模型、語音情感特征、語音情感庫、語音情感挑戰賽這4個方面對語音情感研究現狀進行總結，并給出目前語音情感識別技術存在的挑戰，以及相應的研究方法。

關鍵詞：語音情感識別；情感描述模型；情感特征；語音情感庫；域適應

DOIDOI：10.11907/rjdk.161498

中圖分類號：TP391

文獻標識碼：A文章編號文章編號：16727800（2016）009014303

作者簡介作者簡介：薛文韜（1991-），男，江蘇常熟人，江蘇大學計算機科學與通信工程學院碩士研究生，研究方向為語音情感識別。

0引言

1997年，美國麻省理工學院的Picard教授提出了情感計算（Affective Computing）的概念。情感計算作為計算機科學、神經科學、心理學等多學科交叉的新興研究領域，已成為人工智能的重要發展方向之一。而語音情感識別作為情感計算的一個重要分支，亦引起了廣泛關注。

許多國內外知名大學和科研機構也開始語音情感識別研究，國外如美國麻省理工學院Picard教授領導的情感計算研究小組，德國慕尼黑工業大學Schuller教授領導的人機語音交互小組等；國內如清華大學的人機交互與媒體集成研究所、西北工業大學音頻、語音與語言處理組等。

1語音情感識別

語音情感識別系統主要由前端和后端兩部分組成。前端用于提取特征，后端基于這些特征設計分類器。在語音相關應用中，運用比較多的分類器是支持向量機和隱馬爾科夫模型。目前，語音情感識別的重點主要集中于特征提取。在傳統的語音情感識別中，如何提取具有判別性的特征已成為研究的重點。隨著數據的大規模增長，傳統語音情感識別的前提（訓練數據和測試數據具有相同的數據分布）已不能夠被滿足，研究者提出了遷移學習的概念，利用域適應方法來解決跨庫的語音情感識別。

本文將從情感描述模型、語音情感特征、語音情感庫、語音情感挑戰賽這4個方面對語音情感研究現狀進行總結，并給出現存語音情感識別的技術挑戰及相應的研究方法。

2情感描述模型

目前主要從離散情感和維度情感兩個方面來描述情感狀態。

離散情感描述，主要把情感描述成離散的形式，是人們日常生活中廣泛使用的幾種情感，也稱為基本情感。在當前情感相關研究領域使用最廣泛的六大基本情感是生氣、厭惡、恐懼、高興、悲傷和驚訝。

相對于離散情感描述，維度情感描述使用連續的數值來描述情感狀態，因此也稱作連續情感描述。它把情感狀態視作多維情感空間中的點，每個維度都對應情感的不同心理學屬性。常用的維度情感模型是二維的激活度-效價（Arousal-Valence）模型，其二維空間如圖1所示。其中橫軸表示效價屬性（Valence），用于衡量情感的正負面程度；而縱軸表示激活程度（Arousal），用于描述情感狀態的喚醒程度。通過不同的效價度和激活程度，就能區分出不同的情感，比如悲傷與生氣兩種負面情緒雖然效價相差無異，但兩者的激活度卻有很大差異。

3語音情感特征

傳統的語音情感特征可粗略地分為基于聲學的情感特征和基于語義的情感特征?；诼晫W的情感特征又分為3類：韻律學特征、音質特征以及頻譜特征[1]。音高、能量、基頻和時長等是最為常用的韻律學特征，由于韻律學特征具有較強的情感辨別能力，已經得到了研究者們的廣泛認同。音質特征主要有呼吸聲、明亮度特征和共振峰等，語音中所表達的情感狀態被認為與音質有著很大的相關性。頻譜特征主要包括線性譜特征和倒譜特征，線性譜特征包括Linear predictor cofficient（LPC）、log-frequency power cofficient（LFPC）等，倒譜特征包括mel-frequency cepstral cofficient（MFCC）、linear predictor cepstral cofficient（LPCC）等。此外，基于這3類語音特征的不同語段長度的統計特征是目前使用最為普遍的特征參數之一，如特征的平均值、變化率、變化范圍等。然而到底什么特征才最能體現語音情感之間的差異，目前還沒有統一的說法。

在2009年首次舉辦的國際語音情感挑戰INTERSPEECH 2009 Emotion Challenge（EC）的分類器子挑戰中，組織者為參賽者提供了一個基本特征集，選擇了在韻律學特征、音質特征和頻譜特征中廣泛使用的特征和函數，包括16個低層描述子（Low-Level Descriptors，LLDs）和12個函數，構建了一個384維的特征向量[2]。具體的16個低層描述子和12個函數如表1所示。

4語音情感庫

語音情感庫作為語音情感識別的前提條件，影響著最終語音情感識別系統的性能。目前，在語音情感庫的建立方面還沒有統一的標準，已構建的情感語音庫多種多樣，在語言、情感表現方式（表演型（acted）、引導型（elicited），自發型（naturalistic））、情感標記方案（離散情感或者維度情感）、聲學信號條件、內容等方面具有很大差異。從情感表現方式而言，表演型情感一般是讓職業演員以模仿的方式表現出相應的情感狀態，雖然說話人被要求盡量表達出自然的情感，但刻意模仿的情感還是顯得更加夸大，使得不同情感類別之間的差異性比較明顯，這方面的語音情感庫有Berlin Emotional Speech Database（Emo-DB）、Airplane Behavior Corpus（ABC）等[34]。早期對語音情感識別的研究都是基于表演型語料庫，隨著人們意識到引導型情感具有更加自然的情感表達之后，研究者們開始基于引導型情感庫進行研究，比如eNTERFACE[5]。隨著研究的深入，迫切需要一些自發的語音情感數據，目前出現了FAU Aibo Emotion Corpus（FAU AEC）、TUM Aduio-Visual Interest Corpus（TUM AVIC）、Speech Under Simulated and Actual Stress（SUSAS）和Vera am Mittag（VAM）[2，68]。常用的幾個語音情感庫如表2所示，描述了他們在年齡、語言、情感、樣本個數、記錄環境和采樣率之間的差異。

5語音情感挑戰賽

雖然已經有很多研究致力于語音情感識別，但是相對于其它語音任務（如自動語音識別和說話人識別）而言，語音情感識別中還不存在標準的語音情感庫和統一的測試條件用于在相同條件下進行性能比較。同時，為了處理更加現實的場景，需要獲得自然的語音情感數據。國際語音情感挑戰INTERSPEECH 2009 EC旨在彌補出色的語音情感識別研究和結果可比性之間的缺陷，它提供了自然的語音情感庫FAU AEC，以及開源工具包openEAR來提取基本的384維特征集，保證了特征的透明性，從而使得結果具有重現性和可比性[9]。FAU AEC庫包括了德國兩個學校（Ohm和Mont）10～13歲的孩子與索尼公司的機器狗Aibo進行交互的語音數據。為了實現說話人獨立的語音情感識別，通常學校Ohm記錄的數據用于訓練，而Mont記錄的數據用于測試。INTERSPEECH 2009 EC的情感分類任務主要包括2類情感（負面情感、所有其它情感）分類和5類情感（生氣、同情、積極、中立和其它）分類，目前已有很多研究基于FAU AEC庫進行情感分類。除了在FAU AEC庫上進行傳統的語音情感識別外，隨著跨庫語音情感識別研究的深入，很多研究者也將FAU AEC作為目標域數據庫進行域適應的研究。

6語音情感識別的主要挑戰

6.1語音情感特征

在傳統語音情感識別中，提取具有判別性的特征已經成為一個重要的研究方向。在情感特征提取過程中，通常存在一些與情感無關的因素，如說話內容、說話人、環境等，這些不相關的因素將會使得提取到的特征包含這些因素方面的變化，從而影響情感分類性能。

目前已有部分研究開始考慮這些與情感無關因素的影響。同時，隨著深度學習的提出與發展，越來越多的研究者開始使用深度神經網絡進行特征提取。Chao等[10]利用無監督預訓練去噪自動編碼器，減少了情感特征中說話人的影響。Mao等[11]提出了半監督卷積神經網絡模型，提取情感相關特征，通過實驗證明其對說話人的變化、環境的滋擾以及語言變化都有很強的魯棒性。Mariooryad 等[12]對特征構建音素層次的彈道模型，從聲學特征中分解出說話人的特性，從而彌補說話人對語音情感識別的影響。

6.2跨庫的語音情感識別

在傳統的語音情感識別中，訓練數據和測試數據一般來自同一個語料庫或者具有相同的數據分布。隨著數據的爆炸式增長，從不同設備和環境下獲得的語音數據通常在語言、情感表現方式、情感標記方案、聲學信號條件、內容等方面存在很大差異，這就造成了訓練數據和測試數據分布的不同，傳統的語音情感識別方法就不再適用。

近年來，遷移學習（Transfer Learning）的概念被提出，指從一個或多個源域中將有用的信息遷移到相關的目標域，以幫助改善目標域的分類性能[13]。域適應（Domain Adaptation）作為一種特殊的遷移學習，已成功應用于跨庫的語音情感識別。Deng等[14]提出一種共享隱藏層自動編碼器（shared-hidden-layer autoencoder，SHLA）模型，相較于傳統的自動編碼器，SHLA的輸入數據包含了源域和目標域兩類數據，讓兩個域的數據共用編碼部分而解碼部分不同，目的是誘使兩個域的數據在隱藏層空間具有相似的數據分布。Huang等[15]利用PCANet沿著從源域到目標域的路徑提取特征，并用目標域空間來調整路徑上的特征，以此彌補域之間的差異。

參考文獻參考文獻：

[1]EL AYADI M，KAMEL M S，KARRAY F.Survey on speech emotion recognition：features，classification schemes and databases[J].Pattern Recognition，2011，44（3）： 572587.

[2]SCHULLER B，STEIDL S，BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009，10th Annual Conference of the International Speech Communication Association，2009：312315.

[3]BURKHARDT F，PAESCHKE A，ROLFES M，et al.A database of German emotional speech[J].Interspeech，2005（5）：15171520.

[4]SCHULLER B，ARSIC D，RIGOLL G，et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP），2007：733736.

[5]MARTIN O，KOTSIA I，MACQ B，et al.The eNTERFACE05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops，2006.

[6]SCHULLER B，MULLER R，EYBEN F，et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing，2009，27（12）： 17601774.

[7]HANSEN J H L，BOUGHAZALE S E，SARIKAYA R，et al.Getting started with SUSAS：a speech under simulated and actual stress database[C].Eurospeech，1997，97（4）： 174346.

[8]GRIMM M，KROSCHEL K，NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo，2008：865868.

[9]EYBEN F，WOLLMER M，SCHULLER B.OpenEAR—introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops，2009： 16.

[10]CHAO L，TAO J，YANG M，et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing （ISCSLP），2014： 341344.

[11]MAO Q，DONG M，HUANG Z，et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia，2014，16（8）：22032213.

[12]MARIOORYAD S，BUSSO C.Compensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication，2014，57（1）： 112.

[13]PAN S J，YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering，2010，22（10）：13451359.

[14]DENG J，XIA R，ZHANG Z，et al.Introducing sharedhiddenlayer autoencoders for transfer learning and their application in acoustic emotion recognition[C].2014 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2014： 48184822.

[15]HUANG Z，XUE W，MAO Q，et al.Unsupervised domain adaptation for speech emotion recognition using PCANet[J].Multimedia Tools & Applications，2016（2）：115.

責任編輯（責任編輯：孫娟）

軟件導刊2016年9期

軟件導刊的其它文章: 基于結構方程模型改進ARMA模型參數估計; 基于改進遺傳算法的軟件測試用例自動生成; 一種改進的風光互補發電系統MPPT控制方法; 發動機內部EGR建模與仿真分析; 無線傳感器網絡定位技術可靠性分析; 應用于公司輿情分析的改進概念圖算法 

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合