基于GRU-HMM聲學模型的湖南方言辨識?

2019-03-26 08:43謝可欣錢盛友

計算機與數字工程 2019年3期

謝可欣董胡，2 鄒孝湯琛錢盛友

（1.湖南師范大學物理與電子科學學院長沙 410081）（2.長沙師范學院信息科學與工程學院長沙 410100）

1 引言

20世紀90年代，方言辨識開始逐漸被越來越多的人們重視，各國的研究人員對不同種類方言的特征和分類模型進行了大量研究，同時方言辨識在刑事案件中犯罪嫌疑人的歸屬地判定方面有重大貢獻。中國是一個多民族的人口大國，各民族各地區的語言都有差異，因此對于方言辨識的研究是必不可少的，該領域的研究對語音識別技術的推廣應用具有重要意義［1～2］。傳統的聲學建模方法是以HMM模型為基礎框架，并采用混合高斯模型（GMM）來描述語音聲學特征的概率分布。早年較為常用的聲學模型主要有隱馬爾科夫模型（HMM）和人工神經網絡（ANN），像BP神經網絡和RBF神經網絡等，并且至今都在沿用以及不斷優化中。而近年來，由于深度學習的廣泛應用，使得深度學習在語音識別領域中取得了不錯的成就，對多層神經網絡采用深度學習算法，可以得到更好的初始化權值，使得網絡在最佳的極值點處能夠更快完成收斂，從而改善了傳統神經網絡的不足。本文通過對湖南長沙、株洲、衡陽、湘潭四地方言進行研究，以Matlab為實驗平臺，提出了一種基于GRU神經網絡和HMM結合的聲學模型。

2 基本理論

2.1 門控循環單元GRU

語音信號是一種非平穩時序信號，而循環神經網絡（RNN）是一種網絡節點帶環狀回路的模型，具有一定的動態記憶能力。2013年，Alex Graves等［3］最早將RNN用于語音識別的聲學建模，并取得了很好的識別性能，但由于簡單的RNN隨著神經網絡層數的增加，梯度會逐漸趨于0，即梯度消失。2014年，Cho等［4］提出了RNN的一個變種——門循環單元（GRU），通過增加的門結構，不僅解決了梯度消失的問題，同時在各應用領域中的能力也不斷體現出來。

GRU的每個單元能夠自適應地捕獲不同時間尺度的依賴關系［5］。與簡單的RNN不同的是，GRU具有調制單元內信息流的門控單元，但沒有單獨的存儲單元。GRU結構中包含了一系列被稱為記憶單元的循環連接的子網絡，每個記憶單元包含了一個或多個自連接的記憶細胞和門控單元，即能夠通過門控機制來抵消梯度消失。在數學上，GRU神經元可以由以下關于時間t=1，2，…，T的遞推式描述［6～7］：表示當前隱藏節點的候選值，ht表示當前時刻的隱藏狀態，ht-1表示上一時刻的隱藏狀態，xt為t時刻的輸入，⊙表示兩個向量之間的內積，即按位相乘，W和U表式連接不同門的權重矩陣，σ表示Sigmoid函數。其結構圖如圖1所示。

更新門：用來決定當前時刻的輸入狀態xt有多少要保存到狀態單元中。

重置門：用來控制上一時刻隱藏狀態ht-1對當前輸入xt的影響，重置信號會判定對結果的重要程度。

隱藏狀態：根據當前輸入xt和重置后的ht-1可以得到候選的隱藏狀態。

其中，zt和rt分別代表t時刻的更新門和重置門，

當前狀態：最后由更新門zt決定有多少信息需要更新，混合上一時刻的隱藏狀態ht-1和候選的隱藏狀態得到當前時刻的ht。

GRU之所以對語音信號有很好的識別性能，是因為門控網絡信號能夠控制當前輸入方式，與此同時之前的內存也被用來更新當前的激活狀態與顯示狀態。這些門具有自己的權重集，其在學習階段（即訓練和評估過程）中被自適應地更新。同時，每個參數更新都將涉及與整個網絡狀態有關的信息。

圖1GRU結構圖

2.2 MFCC參數

特征提取主要是通過對語音信號的處理分析，去除對識別無用的冗余信息，得到表征語音信息的關鍵參數。提取MFCC特征的總體過程如下［8］：

1）對語音進行預處理，即預加重、分幀和加窗函數；

2）對每一幀信號進行FFT變換，得到頻域數據，進而求得功率譜；

3）將求出的功率譜通過Mel濾波器，得到Mel頻譜；

4）對Mel頻譜進行倒譜運算，獲得MFCC。其計算公式為

其中，L為濾波器個數。流程圖如圖2所示。

圖2 MFCC特征參數提取流程圖

3 模型訓練

聲學模型在方言辨識系統中處于最為核心的部分，它是用來描述聲學基元產生特征序列的過程［9］。本文通過GRU網絡的訓練先得到樣本特征屬于哪一種類別的概率，將得到的概率作為HMM模型的輸入再次進行訓練，進行一系列的統計迭代不斷進行優化，最后進行解碼得到最后的辨識概率。

3.1 GRU模型

GRU模型可以模擬任意函數，能夠處理多幀輸入，相當于引入了非線性的能力［10］，GRU作為判別模型可以直接生成狀態的概率輸出。其訓練過程的主要步驟為

1）將訓練集數據輸入到GRU的輸入層，經過隱藏層，最后達到輸出層并計算出zt、rt、ht的值；

2）由于GRU的輸出結果與估計結果有誤差，將該誤差從輸出層向輸入層進行反向傳播；

3）在反向傳播的過程中使用鏈式求導法，根據誤差對各個參數的值進行調整；

4）根據相應的誤差項，計算每個權重的梯度，同時進行不斷的參數調優來更新權重值。

在訓練GRU網絡的過程中，通過隨機梯度下降算法來更新權重值，選取的代價函數為交叉熵代價函數［11～12］，其公式為

其中，x表示樣本，y表示實際值，a表示輸出值，n表示樣本的總數。

隨機梯度下降算法對應的更新公式為

3.2 HMM模型

HMM模型作為一個統計模型，能夠簡單易行地從有限語音訓練集數據中訓練出模型近似參數，可以靈活地根據特殊的詞匯、聲音等改變認知系統的大小、種類或模型的架構，從而方便快捷地實現整個認知系統。

HMM是一個五元組［13］λ={ }N，M，π，A，B ，其中N表示隱藏狀態的數量，M表示可觀測狀態的數量，表示每組樣本的n個特征值，為初始隱藏狀態的概率，為隱藏狀態的轉移矩陣，是混淆矩陣，即隱最大［14］。

給定模型參數λ，定義t時刻的隱藏狀態為qi，t時刻部分觀測序列為的前向概率為藏狀態和觀測狀態之間關系的概率。對于已給定觀測序列O，通過前向-后向算法來得到一組盡可能最優的HMM參數λ使觀測序列出現的概率

t時刻部分觀測序列為 Ot+1，Ot+2，…，OT的后向概率為

給定模型參數λ和觀測序列O，在時刻t處于狀態 qi的概率值［15］：

給定模型參數λ和觀測序列O，在時刻t處于狀態qi且在時刻t+1處于狀態qj的概率：

分別求出的是前向后向算法里面描述的兩個變量值。根據以上兩個變量，可以得到新的模型參數λ，又稱為重估公式：

3.3 GRU-HMM模型

GRU-HMM聲學模型在建模處理上，由于用GRU代替了GMM來進行建模，因此，比GMM有更加出色的對多幀數據的處理能力，并且屬于深層次結構建模，擁有不錯的記憶功能，能處理更多更長的數據。如圖3所示為GRU-HMM聲學模型的結構圖。

圖3GRU-HMM聲學模型結構圖

模型參數設置為：隱藏層的激活函數為Sigmoid函數和tanh函數，輸出層的分類函Sigmoid函數，參數調優是選擇交叉熵作為代價函數，用隨機梯度下降算法來更新權重值。其訓練步驟如下：

1）按2∶1的比例隨機劃分訓練集和測試集；

2）訓練GRU模型，得到GRU模型預測的概率prob，GRU模型的準確率acc；

3）將得到的概率prob作為HMM模型的輸入，訓練HMM模型；

4）對HMM模型進行解碼，求解出隱藏狀態的時序路徑；

5）對隱藏狀態進行決策樹的訓練，并且測試，然后統計測試的正確率。

4 實驗結果與分析

方言辨識實驗的語音數據來自出生于湖南長沙、株洲、衡陽、湘潭各地人的發音，每人對表1中的40個單字用當地方言進行發音，每人每字發音3遍，共取得樣本480個。對語音數據加漢明窗，窗長為 32 ms，幀移16 ms。按1：2的比例，隨機取若干個樣本的MFCC特征參數作為測試數據，構成測試集，剩下樣本的MFCC特征參數作為訓練數據，構成訓練集。

表1 實驗所用單字表

采用Matlab仿真，對實驗中的單字方言分別加入了信噪比為0 dB、15 dB、30 dB的高斯白噪聲，得到帶噪語音數據，然后提取16階MFCC特征參數，分別作為不同模型的輸入，比較它們的辨識率。各個實驗分別進行100次，取其平均值，結果如表2所示。傳統的GMM-HMM聲學模型的最高辨識率為80.18%，GRU-HMM的辨識效果明顯優于高斯混合模型。隨著信噪比的增加，各個模型的辨識率均逐漸增加，其中HMM模型的辨識率增加幅度較大，而GRU網絡的辨識率比較平穩。在信噪比為零的情況下，GRU-HMM的辨識率仍舊比GMM-HMM辨識率高。并且可以看出，HMM在低信噪比情況下的辨識率都不高，而GRU神經網絡對信號的處理有很好的抗干擾性，無論是否有噪音，都能較為準確的辨識并保持穩定。因為GRU神經網絡對信號能夠實時更新并記憶，對于多輸入的信息有良好的分類性，從而訓練出的聲學模型能有較高的辨識率。

表2 不同方言用GMM-HMM聲學模型和GRU-HMM聲學模型進行辨識的效果比較

5 結語

本文提出了一種基于GRU-HMM聲學模型的湖南方言辨識方法。通過與傳統聲學模型的對比，證明該方法在不同信噪比的噪聲影響下，對湖南各地方言都有很不錯的辨識性能。而傳統的聲學模型不但容易發生過擬合，對特征的學習能力也遠遠沒有此聲學模型的學習能力強。由于GRU能夠對信息進行長期的學習并保存記憶，本文使用的方法比傳統的聲學模型具有更好的辨識效果，并且有良好的魯棒性。