?

基于幅度和相位混合特征交叉的語音增強方法

2024-02-22 08:01卿朝進付小偉唐書海
計算機工程與設計 2024年2期
關鍵詞:掩模幅度交叉

卿朝進,付小偉,唐書海

(西華大學 電氣與電子信息學院,四川 成都 610039)

0 引 言

近年來,基于深度學習的語音增強方法[1-4],展示出了優于經典方法的語音增強效果[5-7]。然而,這些深度學習語音增強方法大都基于語音幅度信息構建神經網絡架構,語音的相位信息并沒有得以充分開發。事實上,語音的相位信息對語音質量和語音可懂度有較大的影響[8]。為此,本文從融合幅度與相位信息的視角出發,提出基于幅度和相位混合特征交叉的語音增強方法。首先,將含噪語音信號變換到時-頻域,提取對數功率譜和相位特征。其次,將提取到的對數功率譜和相位依次交叉排列形成混合交叉特征。最后,為充分利用特征的幀間相關性,對得到的混合交叉特征進行特征擴張。特別地,本文將復數掩模(complex ideal ratiomask,cIRM)作為網絡的學習目標,并將cIRM的實部和虛部依次交叉排列形成新的學習標簽。在此基礎上,本文基于幅度和相位混合交叉特征構建幅度相位深度編解碼器網絡(amplitude phase deep encoder decoder network,APDEDN),從而改善語音質量感知評估(perceptual evaluation of speech quality,PESQ)評分和短時目標可懂度(short time objective intelligibility,STOI)。PESQ為ITU-T(國際電信聯盟電信標準化部)推薦的語音質量評價指標,得分區間為[-0.5,4.5],得分越高代表語音質量越好[9];STOI為短時可懂度與人類對語音可懂度的主觀評價高度相關,得分區間為[0,1],得分越高代表語音可懂度越好[10]。

1 時頻掩模語音增強系統模型

在單通道語音增強系統中,時域含噪語音信號y[k] 可表示為

y[k]=s[k]+n[k]

(1)

其中,s[k] 和n[k] 分別為時域干凈信號和噪聲信號,k表示為時域樣本索引。時域含噪語音信號y[k] 經過短時傅里葉變換(short time fourier transform,STFT)后,其時-頻域形式為

Yt,f=St,f+Nt,f

(2)

(3)

2 基于幅度和相位特征交叉的語音增強

本節詳述基于幅度和相位特征交叉的語音增強方法。首先,在2.1小節展示混合特征提取過程。隨后,在2.2節詳述標簽設計過程。最后,在2.3小節給出APDEDN網絡。

2.1 混合特征提取

混合特征提取流程如圖1所示。首先,利用STFT將時域含噪語音信號轉換到頻域,并根據頻域含噪語音信號提取對數功率譜和相位特征。隨后,將提取到的對數功率譜和相位依次交叉排列,形成混合交叉特征。最后,將混合交叉特征進行特征擴張,得到特征擴張后的特征矩陣?;旌咸卣魈崛∷惴▊未a見表1。

表1 混合特征提取算法偽代碼

圖1 特征提取

下面,詳述混合特征提取過程。

(1)特征提取

長度為N的時域含噪語音信號y經STFT到時-頻域,得到時-頻域含噪語音信號Y∈T×F。 其中,T=N/Nr+1表示含噪語音信號在時域的幀數,Nr為滑動步長;F=(NSTFT/2)+1表示頻點個數,NSTFT為STFT長度。Y∈T×F的第 (k,m) 的元素Y[k,m] 可表示為

(4)

其中,k=1,2,…,T,m=1,2,…,F;w(n) 為窗函數,Nr為滑動步長。當窗函數為漢明窗時,w(n) 可表示為

(5)

其中,Nl為窗長。為放大幅度譜特征,根據時-頻域含噪語音信號Y計算對數能量譜A∈T×F, 其索引為 (k,m) 的元素可表示為

A[k,m]=log(|Y[k,m]|2)

(6)

根據時-頻域含噪語音信號Y提取含噪信號相位θ∈T×F, 其索引為 (k,m) 的元素可表示為

θ[k,m]=arctan2(Re(Y[k,m]),Im(Y[k,m]))

(7)

(2)特征交叉

將對數能量譜和相位進行交叉處理,可得到混合交叉特征H∈T×2F, 表示為

(8)

(9)

(3)特征擴張

為充分利用時-頻域信號的幀間相關性,根據文獻[12]方法對混合交叉特征H進行特征擴張,得到特征擴張后的特征矩陣O∈T′×F′, 可表示為

(10)

(11)

(12)

(4)特征交叉與特征擴張示例

對于給定特征擴張系數c, 幀數T和頻點數F的含噪語音信號,其對數功率譜和相位經過特征交叉后,形成混合交叉特征H∈T×2F可表示為

(13)

特征擴張后的特征矩陣O∈T′×F′為

(14)

其中,T′=T-c+1,F′=2cF。

2.2 標簽設計

在增強時域語音信號時,為降低采用含噪信號相位重構帶來的影響,本文采用cIRM作為網絡學習的目標,標簽設計流程如圖2所示。根據設計流程,計算cIRM、壓縮復數掩模并對cIRM進行實部和虛部交叉。

圖2 標簽處理流程

(1)cIRM計算

含噪語音信號y和干凈語音信號s∈N×1經過STFT后得到Y和S∈T×F, 將Y和S按實虛部展開獲得維度均為T×F的實數矩陣:Yr=Re(Y),Yi=Im(Y),Sr=Re(S),Si=Im(S); 根據Y和S計算時-頻域復數掩模M∈T×F。

將S[k,m]=M[k,m]Y[k,m] 展開后可分別計算出復數掩模的實部Mr∈T×F和虛部Mi∈T×F, cIRM的具體推導過程詳見文獻[13],有

(15)

(2)復數掩模壓縮

為提高網絡的收斂能力,根據文獻[13]的方法,對Mr和Mi進行壓縮。壓縮復數掩模的實部或虛部Rx∈T×F可表示為

(16)

其中,下標x代表r或i; 壓縮復數掩模實部或虛部Rx∈[-K,K];C為壓縮系數,控制著曲線的陡峭程度。

(3)cIRM實部和虛部交叉

(17)

對于給定的特征擴張系數c、幀數T和頻點數F, 計算得到的交叉壓縮cIRM矩陣L∈T′×2F可表示為

(18)

其中,b=(c-1)/2+1,e=T-b+1。 最后,對標簽設計算法流程進行總結,見表2。

表2 標簽設計算法偽代碼

2.3 APDEDN網絡

(1)網絡架構

APDEDN由輸入層、編碼器、LSTM層、解碼器,以及輸出層組成。其中,編碼器和解碼器分別由3個不同維度的子編碼器和子解碼器組成。APDEDN具體架構如圖3所示。

圖3 APDEDN架構

輸入層由BN、ELU和線性激活組成,將一幀語音信號轉換到編碼器所需的輸入維度。輸出層采用線性激活。編碼器提取語音信號特征,兩層LSTM則對輸入信號在時間軸方向上的建模以捕獲語音信號時間上的相關性,解碼器為編碼器的逆操作,以還原降噪后的語音信號。APDEDN的一個實施實例的各層參數見表3。

表3 APDEDN參數示例

(2)網絡離線訓練

1)數據集生成

訓練和測試所用的干凈語音信號均來自于TIMIT數據集,該數據集分為訓練集和測試集兩部分。TIMIT數據集是記錄8個不同區域的630名說話人(男性438名,女性192名)特定語句的語音集合。訓練所用的干凈語音信號從TIMIT訓練集中的8個區域中隨機選擇380句干凈語音信號,測試所用干凈語音信號從TIMIT測試集中隨機選擇10句。訓練和測試所用的噪聲數據集來自NOISEX-92數據庫,選擇其中的6種噪聲(Babble,Buccaneer,Factory,Destoryerengine,Volvo,White)。

將上述的訓練和測試所用干凈語音信號和6種噪聲在6種不同信噪比(SNR,Signal-to-Noise Ratio){-5,0,5,10,15,20} dB條件下疊加,最終可得到13 680句的訓練集和360句測試集。

根據收集到的含噪和干凈語音信號集合 {y,s}, 并按式(4)~式(7)計算相應的訓練樣本集合 {O,L}。

2)訓練參數設置

取短時傅里葉變換長度NSTFT=512,F=(NSTFT/2)+1=257, 窗長Nl=512, 窗移Nr=128; 計算cIRM時,根據文獻[13]常數K取值為K=10, 壓縮系數C=0.1; Batchsize取值為32,學習率取值為lr=10-4, 優化器為Adam[14]參數為默認參數。

3)模型訓練

根據訓練樣本集合 {O,L}, 將擴張后的特征O輸入到APDEDN網絡中訓練,訓練的損失函數為均方誤差損失函數,可表示為

(19)

(3)網絡在線運行

根據含噪語音信號y, 按式(4)~式(12)計算擴張后的特征O∈T′×F′; 將擴張后的特征O輸入已訓練的APDEDN網絡得到估計交叉壓縮復數掩模根據得到估計壓縮復數掩模實部T′×F和估計壓縮復數掩模虛部T′×F, 可分別表示為

(20)

(21)

(22)

3 實驗仿真

本文采用PESQ和STOI對提出方法的有效性進行驗證。對比基線選擇文獻[4]中的cIRM語音增強方法,文獻[16]中編解碼器網絡架構幅度譜映射方法和文獻[17]基于理想比值掩模的深度語音增強方法。

為簡化表達,本文采用“文獻[4]”,“文獻[16]”和“文獻[17]”分別表示文獻[4]中的基于cIRM語音增強的方法,文獻[16]中的基于編解碼器網絡架構幅度譜映射方法和文獻[17]基于理想比值掩模的深度語音增強方法?!癙rop_1”和“Prop_2”表示提出的幅度和相位混合特征的語音增強方法(其中,“Prop_2”表示特征幅度和相位交叉,標簽cIRM進行實部和虛部交叉;“Prop_1”表示特征先放置幅度后放置相位,標簽cIRM先放置實部后放置虛部)。訓練過程中本文采用方法和對比文獻方法訓練損失收斂曲線圖,如圖4所示。

圖4 訓練損失收斂曲線

表5和表6分別給出了提出方法與對比基線方法的PESQ評分和STOI。其中,NSTFT=512,F=(NSTFT/2)+1=257, 窗長Nl=512, 窗移Nr=128。 根據文獻[15],“文獻[4]”,“文獻[16]”,“文獻[17]”,“Prop_1”和“Prop_2”方法的特征擴張系數取值為c=3, 即“文獻[4]”,“獻[16]”,“文獻[17]”,“Prop_1”和“Prop_2”方法中APDEDN的輸入層節點數F′=2cF=2×3×257=1542。

表5 PESQ評分測試結果(F′=1542)

表6 STOI測試結果(F′=1542)

相對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”,從表5和表6分析可知:

(1)在PESQ評分上,提出的幅度和相位混合特征交叉語音增強方法“Prop_1”和“Prop_2”的PESQ評分性能優于單一特征方法。在PESQ評分方面,“Prop_1”和“Prop_2”相對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”,在各個給定的信噪比下,均獲得了更高的PESQ評分。例如,當SNR=15 dB時,“Prop_1”和“Prop_2”方法的PESQ評分分別為3.004和3.261,而“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法PESQ評分分別為2.982,2.875和2.895。特別地,在各個給定的SNR下,“Prop_2”均獲得了最大的PESQ評分值。相對于對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法,提出方法“Prop_1”和“Prop_2”提高了PESQ評分。此外,在各個給定的SNR下,“Prop_2”均能獲得最高的PESQ評分,含噪語音的幅度和相位交叉,以及學習標簽實部和虛部交叉帶來了更好的特征抽取性能。由此可見,幅度和相位特征混合,不但能更好地捕獲幅度特征信息,更有助于開發到不同維度的語音和噪聲相位特征信息,從而也更為有效地增強了語音的感知質量。

(2)在STOI性能方面,提出方法“Prop_2”優于“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法。在各給定的SNR下,“Prop_2”均獲得了最大的STOI值。例如,當SNR=10時,“Prop_2”方法的STOI值為0.882,而對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法STOI值分別0.856和0.829和0.864。在SNR={-5,0,5} 處,“Prop_1”的STOI值略低于“文獻[4]”和“文獻[16]”方法;除此之外,相對于“文獻[4]”和“文獻[16]”方法,“Prop_1”均獲得了更大的STOI值。由此可見,提出方法“Prop_1”和“Prop_2”較為有效地提高了語音的STOI。特別地,對含噪語音的幅度和相位交叉,標簽cIRM進行實部和虛部交叉,也即是“Prop_2”方法,特別有助于改善STOI性能。因此,本文提出的幅度和相位特征混合,在增強語音的可懂度上是有效的。

(3)“Prop_2”方法PESQ評分和STOI性能優于“Prop_1”方法。幅度和相位特征交叉且cIRM實虛部交叉方法(即“Prop_2”)在語音增強性能PESQ評分和STOI方面優于幅度和相位不交叉且cIRM實虛部不交叉方法“Prop_1”。如,在SNR=5 dB處,“Prop_2”方法的PESQ評分和STOI值分別為2.404和0.825;而“Prop_1”方法PESQ評分和STOI值分別為2.205和0.791?!癙rop_2”方法無論是PESQ評分還是STOI值均能在各給定的SNR下獲得最大值(最好性能)。因此,本文提出的幅度和相位交叉排列,更能充分利用含噪語音信號的特征以及特征之間的相關性與統計特性。除幅度特征外,本文還開發了語音信號的相位特征,從而更能有效地提高語音的感知和可懂度質量。

此外,我們增大了對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法中的APDEDN輸入節點數,驗證提出網絡可以更為輕型化。保持“Prop_1”和“Prop_2”方法的APDEDN輸入節點數為F′=1542, 而對于“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法中的APDEDN輸入節點數為F′=1799。 PESQ評分和STOI值分別在表7和表8中給出。

表7 PESQ評分測試結果

表8 STOI測試結果

從表7和表8的測試結果中可以看出,即使“文獻[4]”,“文獻[16]”方法和“文獻[17]”方法的APDEDN網絡輸入層節點數增大到F′=1799,提出方法“Prop_1”和“Prop_2”在保持網絡輸入為F′=1542時仍能獲得相當或更好的語音增強性能。如,當SNR=0 dB時,“Prop_1”和“Prop_2”的PESQ評分分別為1.865和2.049,而“文獻[4]”,“文獻[16]”方法和“文獻[17]”的PESQ評分分別為1.995和1.869和1.831。特別地,提出方法“Prop_2”在各給定的SNR下仍然獲得了最大的PESQ評分和STOI測試值。由此可見,提出方法“Prop_1”和“Prop_2”能在F′=1542情況下(更小的網絡輸入)獲得“文獻[4]”、“文獻[16]”方法和“文獻[17]”方法F′=1799時相當或更好的語音增強質量(PESQ評分和STOI值)。因此,提出方法在保持相當的語音質量的情況下,由于抽取到了語音的交叉特征,可使語音增強網絡更加輕量化。

4 結束語

本文從融合幅度與相位信息的視角出發,提出一種基于幅度和相位特征交叉的語音增強方法。本文提出方法旨在充分利用含噪語音信號的相位信息及其與幅度信息之間的相關性。實驗結果表明,提出的混合特征交叉方法語音增強性能優于單一特征方法且能在網絡具有更少輸入節點的情況下,保持相當或更好的語音質量和可懂度。此外,幅度和相位交叉排列能充分利用幅度和相位之間的相關性,有助于進一步提高語音質量。

猜你喜歡
掩模幅度交叉
單次止損幅度對組合盈虧的影響
“六法”巧解分式方程
基于直寫技術的微納掩模制作技術研究進展*
微波超寬帶高速數控幅度調節器研制
掩模圖像生成時閾值取值的合理性探討
基于ANSYS的四連桿臂架系統全幅度應力分析
掩模位置誤差對光刻投影物鏡畸變的影響
連一連
基于Fast-ICA的Wigner-Ville分布交叉項消除方法
Cr光柵掩模對金屬平板超透鏡成像質量的影響
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合