?

基于隨機森林的語音情感特征選擇與分類?

2019-03-26 08:43劉立龍
計算機與數字工程 2019年3期
關鍵詞:特征選擇識別率差分

邢 尹 劉立龍

(桂林理工大學測繪地理信息學院 桂林 541004)

1 引言

隨著電子技術的廣泛發展,各種電子終端在人們生活中扮演著日益重要的角色,語音技術正逐步成為人機接口的關鍵技術。近年來,如何有效識別語音中的情感狀態已經成為人們關注的熱點。對操作者的情感分析,可使得人機交互過程更加生動、交互界面更加友好[1]。

目前,語音情感特征處理手段主要有主成分分析(Principal Component Analysis,PCA)特征降維法[2~4]和 Fisher準則特征選擇法[5~7]。主成分分析法通過對多元統計觀測數據的協方差結構進行分析,以期求出能簡約地表達這些數據依賴關系的主分量,在去除冗余特征方面有著特有的性能[8];Fisher準則依據特征之間的類內、類間距離剔除弱相關的特征。但由于這兩種特征處理方法對于語音情感識別率的提升能力有限,本文提出了一種融合Fisher準則和隨機森林算法中平均下降Gini指數的特征選擇法,以語音情感為研究對象,隨機森林為分類模型,深入探討影響語音情感識別的重要特征。

2 語音情感的特征提取

語音情感特征是情感變化的內在體現,直接關系著最終情感的識別。經過研究者對心理學以及語音語言學的大量研究,目前語音情感特征主要關注在韻律特征和音質特征[9~11]。本文選取短時能量、基音頻率、共振峰、梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC)四類特征及其它的衍生參數共構成140維語音情感特征[12]。各維的特征對應如下:

1~4:短時能量的最大值、最小值、均值和方差;

5~7:短時能量的抖動、線性回歸系數和線性回歸系數的均方誤差;

8:0Hz~250Hz頻段能量占總能量的百分比;

9~14:基音頻率的最大值、最小值、均值、方差和一階抖動、二階抖動;

15~18:濁音幀差分基音的最大值、最小值、均值和方差;

19~33:第一、二、三共振峰頻率的最大值、最小值、均值、方差和一階抖動;

34~36:第二共振峰頻率比率的最大值、最小值和均值;

37~140:0~12階MFCC及其一階差分的最大值、最小值、均值和方差。

3 基于隨機森林的特征選擇

3.1 隨機森林

隨機森林是一種由多棵分類回歸樹(Classification And Regression Tree,CART)構成的機器學習算法[13]。首先,采用Bootstrap抽樣技術從原始樣本中抽取N個訓練集;其次,為每個訓練集構造CART決策樹,產生由N棵CART決策樹組成的森林;再次,從全部M個特征變量中隨機抽取m個(m<<M),依據Gini指數最小原則選出最好劃分訓練集的特征,進行內部節點分支;最后,集合N棵決策樹的輸出進行投票,以得票最多的類作為隨機森林的決策結果。

3.2 特征選擇

3.2.1 Fisher準則

Fisher準則從均值和方差角度來對特征進行評價。對d個維度,Fisher判別準則可以用式(1)來表示:

式中:m為類別總數。

3.2.2 Gini指數

隨機森林算法中,在進行節點分割時,采用Gini指數衡量特征分割的效果[14]。假設樣本D中有K個類,那么它的Gini指數為

式中:Ck是D中屬于第k類的樣本子集,K是類的個數。如果在一次分割之后,樣本集合D被分成m部分:那么這次分割的Gini指數為

Gini指數的大小與分割效果呈反比關系。通過計算平均下降Gini指數值可以對所有特征的重要性進行排名,其值越大表示該特征越重要。

3.2.3 融合Fisher準則和平均下降Gini指數的特征選擇

設依據Fisher準則和平均下降Gini指數分別選擇了FT和GT個特征,其中T為所選擇特征數。那么同時滿足Fisher準則和平均下降Gini指數準則的新特征記為R'。依據平均下降Gini指數中重要特征的排列順序,對R'重新排列得到最終的新特征R,計算公式如下:

式中:DescendG表示以G特征順序進行排列。融合的特征選擇法給出了平均下降Gini指數基礎上特征重要性排名的深度優化,并依據最終分類識別率確定最佳的特征維度。

4 實驗結果與分析

本文的實驗數據來自于柏林情感語音庫[15]。柏林情感語音庫是柏林工業大學通過10名(5男5女)非專業演員的演繹所得到,共錄制了800條語音,包括生氣、開心、平靜、傷心、害怕、厭惡以及無聊7種情感。經過20名志愿者辨認試聽,保留了535條語音。本文選取前5種情感,剔除其中無法進行特征提取的語音,得到最終的實驗樣本,具體為:生氣126條,開心68條,平靜78條,傷心62條以及害怕66條,各種情感按1∶1隨機劃分為訓練樣本和測試樣本。

采用Fisher準則對原始140維特征數據進行分析,如圖1(上)所示。圖1(上)橫坐標表示特征編號,縱坐標表示 f(d)值,其中 f(d)值越大,表示特征的區分度越好。對所有 f(d)值降序排列,取對應的前25個特征編號如下:

F25={17,36,123,10,119,95,103,127,57,91,111,20,31,99,108,124,87,125,29,73,13,23,25,26,32}

采用隨機森林算法進行語音情感分類,其中需要控制的參數主要有樹數目Ntree以及每個分裂點特征數Mtry。實驗設定Mtry= d,Ntree=500可以達到較好的效果,得到的平均下降Gini指數對特征重要度評價如圖1(下)所示。圖1(下)中橫坐標表示特征編號,縱坐標表示平均下降Gini指數值,值越大表示特征在分類中所起的作用越大。對平均下降Gini指數值降序排列,取對應的前25個特征編號如下:

G25={36,17,35,34,91,95,123,119,111,127,20,10,87,103,99,15,69,115,19,108,135,57,25,79,22}

按照式(5),融合的特征選擇法所確定的特征編號為

R=DescendG(F25∩G25)={36,17,91,95,123,119,111,127,20,10,87,103,99,108,57,25}

圖1 Fisher準則和平均下降Gini指數特征分析結果

圖2 不同特征維度的語音情感平均識別率

對于特征集合R,我們認為排名越靠前的特征對最終的語音情感分類貢獻越大。R中不同特征數所對應的平均識別率如圖2所示。從圖2可以看出,起始階段,平均識別率隨著特征維度的增加而增加,之后平均識別率波動。在第10維時,平均識別率達到了最大,為96.5%,說明采用融合的特征選擇法將原始特征降至10維是最佳的維度,具體為:第二共振峰頻率比率均值(36)、濁音幀差分基音均值(17)、0階MFCC一階差分均值(91)、1階MFCC一階差分均值(95)、8階MFCC一階差分均值(123)、7階MFCC一階差分均值(119)、5階MFCC一階差分均值(111)、9階MFCC一階差分均值(127)、第一共振峰頻率的最小值(20)以及基音頻率的最小值(10)。為了說明融合的特征選擇法優越性,分別選取Fisher準則和平均下降Gini指數特征選擇下的最佳10維特征,基于隨機森林算法,識別結果見表1~3。

表1 Fisher準則下5種情感識別結果

表2 平均下降Gini指數下5種情感識別結果

表3 融合特征選擇法下5種情感識別結果

從表1中可以看出開心與平靜、害怕與開心易混淆,表2中開心與平靜易混淆,而表3中采用融合特征選擇法,改善了前兩種特征選擇法下情感識別易混淆情況。綜合表1~3,可以發現采用融合特性選擇法對5種情感的識別率均高于或等于另外兩種特征選擇法的識別率,尤其是,融合特性選擇法下對開心的識別率達到了97.06%,各提高了另外兩種特征選擇法的2.94%識別率;對傷心的識別率達到了96.77%,分別提高了另外兩種特征選擇法的6.54%和3.22%識別率。三種特征選擇法下平均識別率分別為95.00%、95.50%以及96.5%,說明采用融合的特性選擇法進行特征選擇是有效的,并取得了較好的識別效果。

5 結語

本文提取了柏林情感語音庫中的生氣、開心、平靜、傷心和害怕的情感特征,并采用融合Fisher準則和平均下降Gini指數特征選擇法選擇語音情感特征?;陔S機森林分類算法,在與Fisher準則和Gini平均下降指數特征選擇法的比較中,證明了融合特征選擇法在特征選擇上具備良好的性能,有效地提升了語音情感識別率??紤]到優質情感特征貢獻了大部分的識別率,下一步工作將研究從語音信號中提取新的更加優質的情感特征。

猜你喜歡
特征選擇識別率差分
一類分數階q-差分方程正解的存在性與不存在性(英文)
序列型分數階差分方程解的存在唯一性
一個求非線性差分方程所有多項式解的算法(英)
基于差分隱私的數據匿名化隱私保護方法
檔案數字化過程中OCR技術的應用分析
基于PCA與MLP感知器的人臉圖像辨識技術
科技文檔中數學表達式的結構分析與識別
基于智能優化算法選擇特征的網絡入侵檢測
故障診斷中的數據建模與特征選擇
人工智能現狀和發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合