周春暉++盧榮++潘姿蓉
摘 要
提取特征參數在說話人識別系統內是非常重要的步驟,說話人語音的很多特有個性信息包含于特征參數內,例如發聲特征或者語義特征,利用特征提取的方法一方面可以去掉聲音里沒用的冗余信息,剩下有用的體現說話人個性不同的特征信息,特別是可以有效減少計算量、模板數目以及存儲空間。選用的特征參數的會直接關系到整個系統的工作性能,良好的特征參數需要擁有好的穩定性和好的獨立性,一方面可以不受到外界情況的干擾,不容易為其他的聲音所替代,另一方面,能夠較好的辨別不同說話人,說明說話人之間的差異。
【關鍵詞】特征參數 倒譜系數 LPCC MFCC
1 前言
當今說話人識別領域使用的特征參數有多種,它們各具特點,能夠用于各種不一樣的場合,其中應用較為廣泛的具有代表性的特征參數是:基音頻率、線性預測系數(LPC)、線性預測倒譜系數(LPCC)、梅爾倒譜系數(MFCC)。
2 MFCC的提取與分析
梅爾倒譜系數(MFCC),MFCC是利用人耳聽覺模型建立的倒譜系數,人類的聽覺系統可以看成一個非線性系統,它對于不同的頻率信號的靈敏度是不一樣的,一般是對數型關系。正是由于Mel倒譜系數基于人耳感知這種特殊的特性,Mel倒譜系數在抗噪聲能力以及魯棒性這些方面都比其它特征參數要優秀了很多。
對于不一樣頻率的語音,人耳有不一樣的感知能力,聲音的物理頻率表示單位是梅爾(Mel)。頻率和MFCC系數的關系如下式:
其中,f的單位為Hz。參照Zvick的研究所說,臨界帶寬按照頻率不同而改變,在1000Hz以下時,維持線性分布,帶寬在100Hz附近;在1000Hz以上時,表現為對數增長形式,如圖1所示。
Mel參數的提取過程:
(1)把之前預處理過的語音信號,即時域信號做傅里葉變化(DFT)。計算得到線性頻譜x(k),其轉換公式為:
(2)把上面的頻譜x(k)通過Mel濾波器組生成Mel頻譜。
(3)接著對Mel頻譜做對數能量處理,得到對數頻譜S(m)。圖2所列即為得到的線性能量譜,Mel能量譜和對數能量譜。
上述第2步驟中提及的Mel頻率濾波器組是在語音的頻譜范圍內設置的若干個帶通濾波器表示濾波器的個數。f(m)表示濾波器組中的每個濾波器的中心頻率,其傳遞函數如下所示:
式中Fs表示采樣頻率,N表示窗寬,f1、fh分別代表濾波器的頻率應用范圍的最低頻率和最高頻率,N表示窗寬,,為促進結果對噪聲和譜估計的誤差有更佳的魯棒性,把上面通過Mel濾波器組獲取到的Mel頻譜取對數。因此經過線性頻譜X(k)到對數頻譜,S(m)的總傳遞函數是:
最后,將S(m)通過離散余弦變換(DCT)獲得倒譜頻域,即Mel頻譜倒譜系數(MFCC參數):
參考文獻
[1]M.Chetouani,M.Faundez-Zanuy,B.Gas,and JL.Zarader.Investigation onLP-residual representation for speaker identification,Pattern Recognition.2009,3(42):487-494.
[2]林琳,王樹勛,郭剛.短語音說話人識別新方法的研究.系統仿真學報, 2007,19(10):2272-2275.
[3]姚志強.說話人識別中提高GMM性能方法的研究[D].北京:中國科技大學,2006:9-12.
作者簡介
周春暉,男,浙江省人。碩士研究生學歷?,F為廣東科技學院講師。
作者單位
廣東科技學院 廣東省東莞市 523083