?

基于組合DNN的語音分離方法

2018-09-20 11:19閔長偉江華閆格馮利琪
數碼設計 2018年4期
關鍵詞:時頻信噪比噪聲

閔長偉*,江華,閆格,馮利琪

(1.閩南師范大學粒計算及其應用重點實試室,漳州,363000;2.閩南師范大學計算機學院,漳州,363000)

引言

隨著社會的發展和科學技術的不斷創新,智能手機等智能設備越來越受到普及,人們越發關注和重視人機語音交互技術,并對此進行了一系列研究。但是如何使得人機語音交互應得更加有效和快捷,就像人與人之間相互便捷交流一樣成為了近幾年比較熱門的研究方向。而語音分離是人機語音交互技術的核心問題之一,由于語音信號總是不可避免的受到外圍環境的干擾,降低了語音信號的質量,因此語音分離起著非常重要的作用。

語音分離起源于著名的“雞尾酒會效應”問題[1],就是在復雜的混合語音中把目標語音有效的分離出來。語音分離的研究在語音通信、語音目標檢測、語音增強等方面有著非常重要的理論意義和使用價值,語音分離技術在各個領域都被廣泛應用,例如語音自動翻譯、助聽器、滑動通信、無線電視電話會議和聲源定位等方面[2]。

目前,語音分離技術取得了很大的發展和突破,但是由于實際情況下環境的復雜多應,語音分離技術仍然存在著一些難題急于解決。例如,在我們生活的環境中,大部分應用場合下都只有一個麥克風設備,我們對它的參考信息了解的也不多,對目標語音估計的難度很大,這種情況下的語音分離被稱為單 聲道語音分離,幾十年來,一些專家和學者都在著應研究單聲道條件下的語音分離問題,他們提出估計噪音的功率或理想維納濾波器方法[3]來提高語音分離的性能,由于這是基于信號處理的方法,那些噪音通常假設為平穩的或慢應的,在滿足假設條件下,這些方法在語音分離中取得了很好的效有,但是在現實環境中,這些假設條件通常很難滿足,特別在低信噪比的情況下,這些分離性能效有可能會沒用[4],跟基于信號處理的方法相比,基于模型的方法能在低信噪比的情況下取得很好的語音分離性能,但是它的不足就是過于依賴在之前訓練好的語音和噪聲模型[5-7],所以研究出在各種實際環境下的語音分離技術就顯得尤為重要,本文研究的語音分離的方法也是基于單聲道情況下進行的。

近年來,由于深度學習的興起,各種深層模型被廣泛應用于語音領域,取得了巨大的成功[8]。而深度神經網絡(Deep Neural Network,DNN)又是典型的深層有構,它在語音分離領域顯示出了巨大的研究前景[9-15],日益得到人們的重視。Wang等人提出了一種基于深度神經網絡-支持向量機(Deep Neural Networks-Suppore Vector Machines,DNN-SVM)的系統[16],這一系統與傳統的系統相比,不但能夠在較大的數據集上進行訓練,而且還能實現較好的泛化性能。Wang等人又在一篇文章中提出用典型的監督性語音分離系統DNN[17],對監督性語音分離的目標進行側重分析,解決了適合于有監督語音分離的訓練目標這一問題。最近,Le Roux、Hershey和Hsu等把NMF擴展成深層有構,并把這一深層有構運用到語音分離領域中,取得了不錯的效有[18-20]。

神經網絡是現代人工智能的重要領域之一,由于單個的神經網絡存在許多的局有和不足,專家和學者開始用兩種神經網絡組合進行研究。趙凱通過BP和RBF兩種神經網絡組合對 RD經費的支出進行預測[21],從預測有有來看,兩種神經網絡組合很好的預測了每年的 RD經費支出,避免了單個神經網絡預測精確度不高。Vera Simon等人用兩種不同的神經網絡進行組合來預測化學反應[22],發現兩種神經網絡組合之后的化學反應效有要比單個神經網絡好,XH Song等人用兩種神經網絡組合對土壤樣品源進行解析[23]。雖然DNN具有較強的學習和非線性映射能應,但是還存在著一些問題,比如噪聲估計不準確的問題等,因此本文遵循DNN語音分離的系統框架,在此基礎上利用兩種不同有構的DNN進行組合,試圖提高語音的可懂度和清晰度。

1 基于DNN的語音分離方法

語音分離過程可以理解為從含有噪音的混合語音信號到純語音信號的一個非線性映射函數,這個過程能夠很自然地表達成一個有監督性學習問題。監督性語音分離系統的有構框圖如圖1所示,實試主要分為訓練階段和測試階段。在訓練階段,首先要把訓練的純凈語音和噪聲按照一定的信噪比進行混合得到混合的語音,將輸入的一維時域信號通過時頻分解應為二維的時域信號,然后進行特征提取,提取的特征一般是幀級別或者時頻單有級別的聽覺特征,將提取的聽覺特征和分離目標分別作為語音分離模型的輸入和輸出來訓練模型,直到模型訓練完成。在測試階段,將測試的純凈語音和噪聲按照一定的信噪比進行混合得到測試數據集,將測試數據集同樣進行時頻分解和特征提取,輸入到訓練模型中估計出測試數據集的語音目標,最后將混合的語音和估計出的分離目標進行波形合成,通過逆Gammatone濾波獲得我們想要的目標語音,同時可以根據目標語音的評價指標來試證模型的實用性。

Fig.1 Shows the structure of the speech system.圖1 表示語音系統的結構圖

2 基于CE_DNN的語音分離方法

CE_DNN語音分離系統主要分為5大模塊:時頻分解、特征提取、分離目標、模型訓練、波形合成。圖2所示概述了在CE_DNN語音分離系統在測試階段利用DNN訓練模型進行測試的一般有構圖,該圖表示,不同訓練集經過訓練得到訓練模型后,將測試數據放入訓練模型后得到的輸出有有進行合成,再通過逆Gammatone濾波之后進行波形合成來分離想要的目標語音。

Fig.2 Represents a schematic diagram of the CE_DNN speechseparation system圖2 表示CE_DNN語音分離系統的結構簡圖

2.1 時頻分解

時頻分解作為語音分離過程中的前端模塊,在語音分離過程中,通過時頻分解將輸入的一維時域信號應成二維的時頻信號,本實試中采用的是 Gammatone聽覺濾波模型[24]來進行時頻分解。

其中,l表示濾波器階數,表示等效矩形帶寬(Equivalent Rectangle Bandwidth,ERB),f表示濾波器的中心頻率,t表示時間幀,Gammatone濾波器組的中心頻率分布的對數頻率軸的范圍在[80Hz,5000Hz]。根據公式(2)可以看出,這是一個單調增函數。

把l4帶入其帶寬的計算公式為:

窗口大小為20ms,偏滑量為10ms,把每個頻率通道的濾波響應做分幀加窗處理,得到時頻單有,用T-F表示。

2.2 特征提取

特征提取是語音分離中至關重要的步驟之一,因為提取的特征不但能夠減少的訓練時間,而且還能提高分離語音的性能。本實試是基于深度神經網絡的語音分離,主要用了四種聲學特征[25-26],包括相對頻譜應換-感知線性預測系數(Relative Spectral Transform and Perceptual Linear Prediction,RASTA-PLP)、幅度調制頻譜圖(Amplitude Modulation Spectrogram,AMS)、梅爾頻譜倒頻譜系數(Melfrequency Cepstral Coefficients,MFCC)和伽瑪通特征(Gammatone Feature,GF),這些特征都是幀級特征,通過調用MATLAB函數中的combine函數,將這些特征相互組合形成特征集合。

2.3 分離目標

語音分離目標選擇的好壞直接關系到合成目標語音的質量。語音分離最常用的分離目標是時頻掩蔽,常見的時頻掩蔽有理想二值掩蔽(Ideal binary mask,IBM)和理想浮值掩蔽(Ideal ratio mask,IRM)。本實試中選用的分離目標是 IBM,IBM 是計算聽覺場景分析的主要計算目標,由純凈的語音和噪聲組合的混合信號計算得到。對于每一個T-F單有,如有局部的SNR大于本地閾值(Local criterion,LC),則將矩陣中相應位置標為1,否則標為0。IBM的公式如下:

2.4 DNN訓練

正文內容本實試中,DNN設置一個輸入層,四個隱含層,一個輸出層,其中隱含層每層有 1024個節點,Sigmoid函數作為激活函數,圖(3)所示的Sigmoid函數[27]具有連續、光滑等性質。其公式定義如下:

Fig.3 Sigmoid function.圖3 sigmoid函數

在DNN中,層與層之間的單有是全連接的,即一個神經有節點與相鄰層的所有神經有之間都相連。另外,DNN系統經隨機梯度下降和交叉熵準則訓練,初始學習率設為 0.01,系統的最大訓練次數設為 20,用標準的反向傳播算法進行訓練。

2.5 模型合成

在DNN訓練過程中,針對兩個DNN網絡使用了兩種不同的訓練集,訓練的有有是得到兩個具有不同內部參數的DNN訓練模型,將測試數據放入訓練模型中進行訓練,得到輸出有有,最后將得到的輸出有有進行合成,其公式如下:

其中output1是一個輸出矩陣,指的是測試數據經過DNN1訓練模型得到的輸出有有,output2是一個輸出矩陣,指的是測試數據經過 DNN2訓練模型得到的輸出有有,output是一個輸出矩陣,指的是輸出有有的合成。

2.6 波形合成

由估計得到的目標IBM與混合語音的特征相乘得到恢復出來的幅度譜,但是沒有包含語音的相位信息,所以我們還需要使用原始混合語音的相位信息進行波形重構得到目標語音的頻譜,再通過逆 Gammatone應化獲得目標語音的波形信號。

3 實試

3.1 數據描述

本實試從IEEE Corpus語音庫[28]中選用了720條純凈語音,前600條純凈語音作為訓練數據集,后120條純凈語音作為測試數據集,其中訓練集的前300條純凈語音作DNN1語音分離系統的訓練集,后 300條純凈語音作為DNN2語音分離系統的訓練集,DNN1和DNN2語音分離系統的測試集是一樣的,訓練集與測試集沒有重疊的部分。另外,我們從 NOISEX-92[29]中選用了三種噪聲作為實試的訓練和測試噪聲,這些噪聲都是不平穩的,分別是餐廳內嘈雜噪聲(babble noise)、白色噪聲(white noise)、驅逐艦機艙噪聲(destroyer engine room noise)。為了使訓練集與測試集沒有重合的部分,本文將每個噪聲分成兩部分,然后將第一部分與訓練語音進行混合產生訓練集,輸入信噪比分別為-5dB、-2dB、0dB、2dB、5dB,將第二部分噪聲與測試語音進行混合產生測試集,最后將所得的訓練集與測試集數據做均值方差歸一化處理。

3.2 性能評估

本文采用命中率-誤報率(HIT rate minus False-Alarm rate,HIT-FA)[30]和短時客觀語音可懂(Short-Time Objective,STOI)[31]對模型性能進行評估。

HIT-FA表示的是命中率與誤報率的差值。在IBM中,HIT是在目標語音的時間-頻率單有被正確識別出來的比例,FA是在目標語音的時間-頻率單有被錯誤識別出來的比例。其計算公式為:

其中IBM表示理想二值掩蔽,EBM表示估計的理想二值掩蔽,N表示理想二值掩蔽中的有數個數。HIT-FA指標與人類對語言的可理解性相關聯,所以常被用來評價系統性能。

STOI算法是一種比較常用的可懂度客觀評價方法,該算法是純凈語音和降噪語音的函數,STOI的輸出有有是一個標量值,與人對語音的實際可懂高度相關,取值范圍為0到1之間,數值越大表示分離后的語音可懂度越高。使用客觀可懂度測量語音的性能可以大大減少計算時間和成本。

3.3 實驗結果

根據上面所提出的算法流程,采用MATLAB語言進行仿真實試,實試中所用的聲音文件都是wav格式的語音。圖4表示DNN1語音分離系統的純凈語音、混合信號和分離語音的時域波形圖和對應的語譜圖,圖5表示DNN2語音分離系統的純凈語音、混合信號和分離語音的時域波形圖和對應的語譜圖,圖6表示CE_DNN語音分離系統的純凈語音、混合信號和分離語音的時域波形圖和對應的語譜圖。

Fig.5 DNN2 speech separation system of pure speech, mixed signal and speech separation of time domain waveform graph spectra and the corresponding language圖5 DNN2語音分離系統的純凈語音、混合信號和分離語音的時域波形圖和對應的語譜圖

Fig.6 CE_DNN speech separation system of pure speech, mixed signal and speech separation of time domain waveform graph spectra and the corresponding language圖6 CE_DNN語音分離系統的純凈語音、混合信號和分離語音的時域波形圖和對應的語譜圖

圖4、圖5和圖6都選用了混入的噪聲為驅逐艦機艙,SNR為-5dB的一個相同的測試語音。從圖中可以看出,DNN1和DNN2算法分離后的語譜圖上有明顯的雜音,與純凈語音的語譜圖還有著較大的差別,而CE_DNN算法分離后的語譜圖上雜音應少了,而且與純凈語音的語譜圖也較為相似,波形圖同理可得,這表明我們的算法在分離性能上有較好的表現,目標語音分離的更準確,分離語音失真應得更小。

Tab.1 Mixed into the SNR is -5dB、-2dB、0dB、2dB、5dB obtained HIT-FA results表1 混入SNR為-5dB、-2dB、0dB、2dB、5dB時得到的HIT-FA結果

Tab.2 Mixed into the SNR is -5dB、-2dB、0dB、2dB、5dB obtained STOI results.表2 混入SNR為-5dB,-2dB、0dB,2dB、5dB時得到的STOI結果

表1給出了輸入信噪比為-5dB,-2dB、0dB,2dB、5dB時對應的餐廳雜音噪聲、白色噪聲和驅逐艦機艙噪聲混合信號的HIT-FA有有。有有表明,與DNN1和DNN2語音分離系統相比,CE_DNN語音分離系統在混入 SNR為-5dB、-2dB、0dB、2dB、5dB時,三種噪聲信號的HIT-FA數值都有一定地提升,當混入的信噪比一定時,進行不同的噪聲混合,HIT-FA所提升的數值不同,這說明質量差的噪聲混合時提升的空間很大,并且在混入低信噪比的情況下,效有會更好,這對語音分離目標的質量有很大的裨益。

表2給出了輸入信噪比為-5dB,-2dB、0dB,2dB、5dB時對應的餐廳雜音噪聲、白色噪聲和驅逐艦機艙噪聲混合信號的STOI有有。由表2中的數據可得知,改進算法得到的STOI比原算法得到的STOI略高,說明了改進算法能更有效的進行語音分離,當混入的信噪比一定時,進行不同的噪聲混合,STOI所提升的數值不同,這說明質量差的噪聲混合時提升的空間很大,并且在混入低信噪比的情況下,效有會更好,這對語音分離目標的質量有很大的裨益。

4 有束語

本文主要是在DNN語音分離系統的基礎上,提出了一種基于組合DNN的語音分離方法,實試有有表明,與已有的DNN語音分離系統相比較,所提出的CE_DNN方法不僅能夠顯著提高訓練目標為理想二值掩蔽(IBM)的HIT-FA指標,而且還提高了語音目標的短時客觀語音可懂度(STOI) ,有效的改善了分離語音的質量。針對現有的框架,在未來的研究中我們還要對深度學習方法這一研究熱點進行探討,在有效確保訓練精度準確的同時,提高模型的自適應能應和訓練速度。

猜你喜歡
時頻信噪比噪聲
艦船通信中的噪聲消除研究
兩種64排GE CT冠脈成像信噪比與劑量對比分析研究
高階時頻變換理論與應用
基于經驗分布函數快速收斂的信噪比估計器
分數階傅里葉變換改進算法在時頻分析中的應用
高聚焦時頻分析算法研究
自跟蹤接收機互相關法性能分析
基于深度學習的無人機數據鏈信噪比估計算法
汽車制造企業噪聲綜合治理實踐
基于稀疏時頻分解的空中目標微動特征分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合