?

基于隨機森林的語音情感特征選擇與分類?

2019-03-26 08:43劉立龍

計算機與數字工程 2019年3期

關鍵詞：特征選擇識別率差分

邢尹劉立龍

（桂林理工大學測繪地理信息學院桂林 541004）

1 引言

隨著電子技術的廣泛發展，各種電子終端在人們生活中扮演著日益重要的角色，語音技術正逐步成為人機接口的關鍵技術。近年來，如何有效識別語音中的情感狀態已經成為人們關注的熱點。對操作者的情感分析，可使得人機交互過程更加生動、交互界面更加友好［1］。

目前，語音情感特征處理手段主要有主成分分析（Principal Component Analysis，PCA）特征降維法［2～4］和 Fisher準則特征選擇法［5～7］。主成分分析法通過對多元統計觀測數據的協方差結構進行分析，以期求出能簡約地表達這些數據依賴關系的主分量，在去除冗余特征方面有著特有的性能［8］；Fisher準則依據特征之間的類內、類間距離剔除弱相關的特征。但由于這兩種特征處理方法對于語音情感識別率的提升能力有限，本文提出了一種融合Fisher準則和隨機森林算法中平均下降Gini指數的特征選擇法，以語音情感為研究對象，隨機森林為分類模型，深入探討影響語音情感識別的重要特征。

2 語音情感的特征提取

語音情感特征是情感變化的內在體現，直接關系著最終情感的識別。經過研究者對心理學以及語音語言學的大量研究，目前語音情感特征主要關注在韻律特征和音質特征［9～11］。本文選取短時能量、基音頻率、共振峰、梅爾頻率倒譜系數（Mel Frequency Cepstral Coefficient，MFCC）四類特征及其它的衍生參數共構成140維語音情感特征［12］。各維的特征對應如下：

1～4：短時能量的最大值、最小值、均值和方差；

5～7：短時能量的抖動、線性回歸系數和線性回歸系數的均方誤差；

8：0Hz～250Hz頻段能量占總能量的百分比；

9～14：基音頻率的最大值、最小值、均值、方差和一階抖動、二階抖動；

15～18：濁音幀差分基音的最大值、最小值、均值和方差；

19～33：第一、二、三共振峰頻率的最大值、最小值、均值、方差和一階抖動；

34～36：第二共振峰頻率比率的最大值、最小值和均值；

37～140：0～12階MFCC及其一階差分的最大值、最小值、均值和方差。

3 基于隨機森林的特征選擇

3.1 隨機森林

隨機森林是一種由多棵分類回歸樹（Classification And Regression Tree，CART）構成的機器學習算法［13］。首先，采用Bootstrap抽樣技術從原始樣本中抽取N個訓練集；其次，為每個訓練集構造CART決策樹，產生由N棵CART決策樹組成的森林；再次，從全部M個特征變量中隨機抽取m個（m＜＜M），依據Gini指數最小原則選出最好劃分訓練集的特征，進行內部節點分支；最后，集合N棵決策樹的輸出進行投票，以得票最多的類作為隨機森林的決策結果。

3.2 特征選擇

3.2.1 Fisher準則

Fisher準則從均值和方差角度來對特征進行評價。對d個維度，Fisher判別準則可以用式（1）來表示：

式中：m為類別總數。

3.2.2 Gini指數

隨機森林算法中，在進行節點分割時，采用Gini指數衡量特征分割的效果［14］。假設樣本D中有K個類，那么它的Gini指數為

式中：Ck是D中屬于第k類的樣本子集，K是類的個數。如果在一次分割之后，樣本集合D被分成m部分：那么這次分割的Gini指數為

Gini指數的大小與分割效果呈反比關系。通過計算平均下降Gini指數值可以對所有特征的重要性進行排名，其值越大表示該特征越重要。

3.2.3 融合Fisher準則和平均下降Gini指數的特征選擇

設依據Fisher準則和平均下降Gini指數分別選擇了FT和GT個特征，其中T為所選擇特征數。那么同時滿足Fisher準則和平均下降Gini指數準則的新特征記為R'。依據平均下降Gini指數中重要特征的排列順序，對R'重新排列得到最終的新特征R，計算公式如下：

式中：DescendG表示以G特征順序進行排列。融合的特征選擇法給出了平均下降Gini指數基礎上特征重要性排名的深度優化，并依據最終分類識別率確定最佳的特征維度。

4 實驗結果與分析

本文的實驗數據來自于柏林情感語音庫［15］。柏林情感語音庫是柏林工業大學通過10名（5男5女）非專業演員的演繹所得到，共錄制了800條語音，包括生氣、開心、平靜、傷心、害怕、厭惡以及無聊7種情感。經過20名志愿者辨認試聽，保留了535條語音。本文選取前5種情感，剔除其中無法進行特征提取的語音，得到最終的實驗樣本，具體為：生氣126條，開心68條，平靜78條，傷心62條以及害怕66條，各種情感按1∶1隨機劃分為訓練樣本和測試樣本。

采用Fisher準則對原始140維特征數據進行分析，如圖1（上）所示。圖1（上）橫坐標表示特征編號，縱坐標表示 f（d）值，其中 f（d）值越大，表示特征的區分度越好。對所有 f（d）值降序排列，取對應的前25個特征編號如下：

F25={17，36，123，10，119，95，103，127，57，91，111，20，31，99，108，124，87，125，29，73，13，23，25，26，32}

采用隨機森林算法進行語音情感分類，其中需要控制的參數主要有樹數目Ntree以及每個分裂點特征數Mtry。實驗設定Mtry= d，Ntree=500可以達到較好的效果，得到的平均下降Gini指數對特征重要度評價如圖1（下）所示。圖1（下）中橫坐標表示特征編號，縱坐標表示平均下降Gini指數值，值越大表示特征在分類中所起的作用越大。對平均下降Gini指數值降序排列，取對應的前25個特征編號如下：

G25={36，17，35，34，91，95，123，119，111，127，20，10，87，103，99，15，69，115，19，108，135，57，25，79，22}

按照式（5），融合的特征選擇法所確定的特征編號為

R=DescendG（F25∩G25）={36，17，91，95，123，119，111，127，20，10，87，103，99，108，57，25}

圖1 Fisher準則和平均下降Gini指數特征分析結果

圖2 不同特征維度的語音情感平均識別率

對于特征集合R，我們認為排名越靠前的特征對最終的語音情感分類貢獻越大。R中不同特征數所對應的平均識別率如圖2所示。從圖2可以看出，起始階段，平均識別率隨著特征維度的增加而增加，之后平均識別率波動。在第10維時，平均識別率達到了最大，為96.5%，說明采用融合的特征選擇法將原始特征降至10維是最佳的維度，具體為：第二共振峰頻率比率均值（36）、濁音幀差分基音均值（17）、0階MFCC一階差分均值（91）、1階MFCC一階差分均值（95）、8階MFCC一階差分均值（123）、7階MFCC一階差分均值（119）、5階MFCC一階差分均值（111）、9階MFCC一階差分均值（127）、第一共振峰頻率的最小值（20）以及基音頻率的最小值（10）。為了說明融合的特征選擇法優越性，分別選取Fisher準則和平均下降Gini指數特征選擇下的最佳10維特征，基于隨機森林算法，識別結果見表1～3。

表1 Fisher準則下5種情感識別結果

表2 平均下降Gini指數下5種情感識別結果

表3 融合特征選擇法下5種情感識別結果

從表1中可以看出開心與平靜、害怕與開心易混淆，表2中開心與平靜易混淆，而表3中采用融合特征選擇法，改善了前兩種特征選擇法下情感識別易混淆情況。綜合表1～3，可以發現采用融合特性選擇法對5種情感的識別率均高于或等于另外兩種特征選擇法的識別率，尤其是，融合特性選擇法下對開心的識別率達到了97.06%，各提高了另外兩種特征選擇法的2.94%識別率；對傷心的識別率達到了96.77%，分別提高了另外兩種特征選擇法的6.54%和3.22%識別率。三種特征選擇法下平均識別率分別為95.00%、95.50%以及96.5%，說明采用融合的特性選擇法進行特征選擇是有效的，并取得了較好的識別效果。

5 結語

本文提取了柏林情感語音庫中的生氣、開心、平靜、傷心和害怕的情感特征，并采用融合Fisher準則和平均下降Gini指數特征選擇法選擇語音情感特征?；陔S機森林分類算法，在與Fisher準則和Gini平均下降指數特征選擇法的比較中，證明了融合特征選擇法在特征選擇上具備良好的性能，有效地提升了語音情感識別率?？紤]到優質情感特征貢獻了大部分的識別率，下一步工作將研究從語音信號中提取新的更加優質的情感特征。

猜你喜歡

特征選擇識別率差分

一類分數階ｑ-差分方程正解的存在性與不存在性（英文）

上海師范大學學報·自然科學版(2022年3期)2022-07-11

序列型分數階差分方程解的存在唯一性

揚州大學學報（自然科學版）(2021年6期)2021-02-14

一個求非線性差分方程所有多項式解的算法（英）

華東師范大學學報（自然科學版）(2020年1期)2020-03-16

基于差分隱私的數據匿名化隱私保護方法

計算機應用(2016年10期)2017-05-12

檔案數字化過程中OCR技術的應用分析

中國高新技術企業(2017年5期)2017-05-05

基于PCA與MLP感知器的人臉圖像辨識技術

軟件(2016年6期)2017-02-06

科技文檔中數學表達式的結構分析與識別

物聯網技術(2016年11期)2017-01-12

基于智能優化算法選擇特征的網絡入侵檢測

現代電子技術(2016年23期)2017-01-12

故障診斷中的數據建模與特征選擇

電腦知識與技術(2016年25期)2016-11-16

人工智能現狀和發展

電腦知識與技術(2016年24期)2016-11-14

計算機與數字工程2019年3期

計算機與數字工程的其它文章: 基于GRU-HMM聲學模型的湖南方言辨識?; 基于深度學習的回環檢測算法研究?; 雙分數Vasicek利率環境下脆弱期權定價?; 不含3K1和K1+C4為導出子圖的圖色數上界?; 擬牛頓布谷鳥混合算法?; 一種改進油田產量預測算法的研究?

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合