?

基于注意力機制的時頻域語音增強模型

2024-02-21 06:00何儒漢
軟件導刊 2024年1期
關鍵詞:掩碼頻域時域

林 攀,何儒漢

(1.武漢紡織大學 計算機與人工智能學院;2.湖北省服裝信息化工程技術研究中心,湖北 武漢 430200)

0 引言

各種類型的環境噪聲會極大地降低通信、自動語音識別以及助聽器的效果[1-2]。語音增強的目的是提升語音質量和清晰度,從部分被噪聲污染的混合語音中恢復干凈語音。隨著深度神經網絡(Deep Neural Networks,DNN)的發展,研究人員提出大量基于DNN 的方法以提升語音增強效果。在低信噪比(Signal-to-Noise Ratio,SNR)條件下,基于DNN 的方法相較于基于統計信號處理的傳統方法,能夠更好地抑制非平穩噪聲[4-5]。

基于深度學習的單通道語音增強方法按照其工作的信號域可分為頻域、時域方法。頻域方法對頻譜圖進行研究,認為經過短時傅里葉變換后的頻譜圖能更精確地分離背景噪聲和干凈語音[6]。在通常情況下,頻域方法的訓練目標包括理想二進制掩模(Ideal Binary Mask,IBM)[7]、理想比率掩碼(Ideal Ratio Mask,IRM)[8]與最優比掩模(Optimal ratio mask,ORM)[9]。但所有上述掩膜都僅考慮了幅度譜而忽視了相位信息,只是簡單地將估計的幅度譜與帶噪語音相位相結合來重新合成增強語音[10]。文獻[11]指出相位與語音的質量及清晰度有很強的關系。為解決相位失配問題,時域方法可以對語音原始波形進行處理。時域方法可以分為直接回歸方法和自適應前端方法兩類。直接回歸方法從帶噪語音波形直接學習到目標語音的回歸函數,其通常采用某種形式的一維卷積神經網絡。自適應前端方法在編解碼框架中插入語音增強網絡,如時間卷積網絡(Temporal Convolutional Network,TCN)[12]和長短期記憶網絡(Long Short-term Memory Networks,LSTM)[13]等具有時間建模能力的網絡。文獻[14]指出采用長短期記憶(LSTM)層的遞歸神經網絡進行語音增強,效果明顯優于多層感知器。遞歸網絡要對所有頻率的串聯特征向量序列進行建模,具有相對較高的狀態向量維度,因而會產生大量參數,嚴重限制了其適用范圍。殘差時間卷積網絡(Residual Network-Temporal Convolutional Network,ResTCN)利用膨脹卷積和殘差跳躍連接,在建模長期相關性方面表現出令人印象深刻的性能,并在語音增強方面取得了巨大成功。然而,語音和噪聲在頻譜表示上更容易區分,時域方法無法有效利用頻譜表示中的聲學信息。

現有模型主要關注如何有效地對長期依賴關系進行建模,而通常忽略了語音在T-F 表示中的能量分布特征,這對于語音增強同樣重要。受注意力概念的啟發[15-16],本文提出一種新的架構單元,稱為時頻注意力模塊,用于模擬語音的能量分布。具體而言,注意力模塊由兩個平行的注意力分支組成,即時間維度注意力和頻率維度注意力。其生成兩個一維注意力圖,引導模型分別關注“哪里”(哪些時間幀)和“什么”(哪些頻率信道),使得模型能夠捕獲語音分布。

針對時域、頻域方法的不足,本文在文獻[17]基礎上作出以下貢獻:

(1)為了實現時域、頻域兩個領域的優勢互補,進一步提取來自兩個不同領域特征之間共享的信息,本文通過連接時域與頻域的特征來構建時間和頻率特征圖。

(2)提出時頻注意力模塊,使得模型能夠捕獲時頻域特征中的語音分布情況。

(3)聯合時域、頻域損失函數,提升語音增強模型的性能。

1 相關工作

1.1 基于深度學習的語音增強算法

在單通道語音增強中,帶噪語音信號可由公式(1)表示。其中,x(t)為干凈語音,n(t)為背景噪聲,語音增強從帶噪語音y(t)中估計增強語音信號x(t),使得x(t)與x(t)的差異盡可能小。干凈語音中疊加了不同類型的噪聲和各種信噪比變化,因此需要提高增強模型的泛化性,并提高其去除不同類型噪聲的能力。

基于深度學習的語音增強模型如圖1 所示,神經網絡從已知的帶噪語音數據中學習到干凈語音特征空間的函數映射。網絡的輸入可以是音頻原始波形,也可以是頻譜特征。網絡的輸出是時頻掩碼估計值,利用得到的掩碼與輸入進行掩膜操作,得到增強語音的估計。

Fig.1 Voice enhancement flow圖1 語音增強流程

為了提升模型在不同信噪比條件下的去噪性能,研究人員提出了大量改進算法。語音信號作為一種時序信號,具有很強的上下文關聯性。卷積神經網絡不具備直接利用上下文的能力,常常通過拼接相鄰幀的方法擴大上下文窗口。循環神經網絡(Recurrent Netural Network,RNN)按照順序處理時序信號,不能大規模并行處理時間序列。上述方法通常會引入大量無關信息或存在不能充分關聯上下文信息的弊端。因此,可使用時間卷積神經網絡(TCN)維護語音信號中的時間信息。TCN 具有大規模并行處理的能力,降低了空間復雜度,提升了學習效率,其結合了因果層和膨脹卷積層來加強因果約束。與傳統的卷積神經網絡不同,因果卷積是一種只看到歷史信息的單向模型,但其時間建模長度受到卷積核大小限制。為了解決該問題,膨脹的卷積可通過間隔采樣來增加接受野。此外,TCN 使用殘差學習以避免深度網絡中的梯度消失或爆炸問題。

1.2 注意力模塊在語音增強中的應用

基于Transformer 的語音增強模型可以有效對語音上下文信息進行編碼,學習語音序列中的相互依賴關系。TST-NN 模型[18]在編碼器、解碼器中使用雙路徑Transformer 以擴大網絡注意范圍,可用于語音信息聚合。TU-NET在Transformer 基礎上結合UNET 多尺度特征融合,以提升語音增強性能。然而,現有模型更多關注對長時間依賴關系的建模,忽視了語音在頻域中的能量分布特征,而能量分布特征對預測掩膜具有重要意義。本文使用時頻注意力模塊對特征圖進行加權處理,利用兩個并行分支得到語音能量分布的兩個描述符,用來突出相關特征,弱化噪聲特征。

2 系統描述

本文提出一種新穎的單通道語音增強模型,對應的框架如圖2 所示。其由混合域編碼器、掩碼估計網絡和解碼器組成。該框架可以同時利用語音信號的時、頻域特征來協同提高語音序列的性能。因為噪聲在頻域上更具有區分性,而時域可以避免頻域方法相位失配的問題。為了有效捕獲時間信息并考慮輸入信號中的長期依賴關系,使用殘差時間卷積(ResTCNs)來創建掩碼估計網絡。同時使用時頻注意力模塊模擬語音的能量分布,其由兩個平行的注意力分支組成,即時間注意力維度和頻率注意力維度,使得模型能夠捕獲長程時間和頻率相關性。下面將詳細介紹相關工作。

Fig.2 Model structure圖2 模型結構

2.1 編碼器

如圖2 左側所示,編碼器結構由兩個并行過程組成:一維卷積和短時傅里葉變換。將輸入的噪聲語音信號分別轉換為時域和頻域特征,時域特征要經過如圖3 所示的分割操作后與頻譜特征進行拼接,時域特征分割與雙路徑遞歸神經網絡(DUAL-PATH RNN,DPRNN)[19]中的操作相似。將長度為T、寬度為N 的時域特征分割出S 個長度為2P、寬度為N 的數據塊,片段間的重疊率為50%。為了正確地集成來自不同域的兩個特征,本文為兩個域設置了相同的窗口大小和跨距。將頻譜特征與分割后的數據塊時間幀對齊進行拼接。

Fig.3 Speech sequence segmentation圖3 語音序列分割

2.2 掩碼估計網絡

掩碼估計網絡輸出權重掩膜,以實現去除噪聲、提取干凈語音的目的。為了有效地捕獲時間信息,并考慮語音信號中幀的長期依賴性,可以通過堆疊BiLSTM[20]或膨脹卷積層(如時間卷積網絡TCN)來創建掩碼估計網絡。膨脹卷積通過間隔采樣來擴大感受野,能看到的輸入層信息更多。圖4 展示了膨脹因果卷積結構,圖中輸出層可以看到輸入層前15 結點的信息。伴隨著膨脹因子d 的增大,輸出層的感受野也越來越大。本文在TCN 的基礎上嵌入一維殘差網絡,以增強模型對局部語音特征的學習能力。

Fig.4 Expanded causal convolution structure圖4 膨脹因果卷積結構

2.3 時頻注意力模塊

本文提出新的注意力模塊用來捕獲時間和頻率相關性,如圖5所示。

該模塊由兩個注意力分支組成,即時間維度和頻率維度。每個注意力分支通過兩個步驟生成注意力圖:全局信息聚合和注意力生成。注意力圖能準確反映語音在時間維度和頻率維度上的能量分布。對給定的輸入Y∈RM×N沿著時間幀維度和頻率維度進行全局平均池化,生成頻率統計信息ZF∈R1×N和時間幀上的統計信息ZT∈R1×M。具體公式為:

由此得到時間幀與頻率維度上語音能量分布的兩個描述符ZT和ZF,同時使用兩個堆疊的一維卷積層作為非線性變換函數來準確地生成注意力權重。其計算公式如下:

將得到的分支注意力圖相乘,得到時頻注意力圖:

2.4 解碼器

將混合域特征映射乘以掩碼之后,本文將掩蔽的編碼特征分解為其原始分量:卷積特征圖和頻域譜圖。本文從每個單獨的域重構原始信號波形,時域特征通過一個反卷積層,然后采用重疊相加的方法來重構信號。頻域特征用傅立葉逆變換導出,將具有權重參數α 的兩個分量加權和作為估計的增強信號。

2.5 損失函數

為了提高語音的清晰度和感知質量,本文的損失函數結合了時域和頻域信息,可以監督模型學習時頻域中的更多信息。其中,頻譜圖的損失函數定義為:

式中,X、分別代表干凈語音和增強語音的頻譜圖,r、i 分別代表STFT 變換后的實部和虛部,T、F 分別代表時間幀和頻率段數量。時域損失可定義為去噪語音與干凈語音之間的均方誤差(Mean Squared Error,MSE)。具體公式為:

式中,Xi分別表示干凈語音和增強語音,N 表示語音序列長度。本文采取的損失函數結合了時域和頻域信息,公式如下:

式中,α是一個可調參數,本文將其設置為0.2。

2.6 數據增強

研究表明,在訓練階段增加數據的多樣性可以增強模型學習不同特征的能力。因此,本文采用3 種數據增強方案:

(1)改變速度。針對原始輸入語音波形,通過速度函數SOX 改變其輸入信號的速度,并改變語音的音調。其是一種簡單、有效的聲學建模技術,被廣泛應用于語音增強中。

(2)時移。時移是一種簡單的音頻數據增強方法,其將音頻數據向左或向右移動f 秒。本文實驗統一選擇向右移隨機移動0~0.625 s。

(3)樣本掩蔽。將語音樣本的掩碼部分置零,從而使得被掩蔽的語音保持靜音。該方法鼓勵模型通過考慮上下文信息來預測干凈的波形。樣本掩蔽中有兩個超參數:每個掩碼的長度(t)和最大掩碼數量(m)。通過實驗,本文將t設置為固定值10,m 的取值區間為[0,150]。

3 實驗與分析

3.1 數據集

為驗證本文語音增強系統的有效性,采用公開、標準的語音語料庫。干凈語音從VoiceBank[21]中選取,根據說話者數量建立了兩個子數據庫:一個包含28 名說話者(14名男性,14 名女性),具有相同的英式口音;另一個包含56名說話者(28 名男性,28 名女性),具有不同口音(英式,美式)。從DEMAND[22]語料庫中選取10 種不同噪聲類型合成帶噪語音,噪聲包括8 種真實噪聲和2 種人工產生的噪聲。具體而言,8 種真實噪聲類型包括家庭廚房噪聲、會議室噪聲,以及3 種公共空間噪聲(包括食堂、餐廳和地鐵站)、2 種交通工具噪聲(包括汽車和地鐵)與繁忙的交通十字路口噪聲。2 種人工產生的噪聲分別是通過增加白噪聲產生的語音型噪聲和通過增加語音產生的干擾噪聲。在訓練集中選取每位說話者10 條干凈語音,將信噪比(SNR)值分別設置為15 dB、10 dB、5 dB 和0 dB。因此,每位說話者能產生400 條噪聲語音。每一個干凈的語音波形都會被歸一化,當無聲片段在開始和結束時超過200 ms 時,將被修剪掉。測試集選取兩位說話者(一名男性,一名女性),從DEMAND 數據庫中選擇了另外5 種噪聲類型,包括1 種家庭客廳的噪聲、1 種辦公室噪聲、1 種公共汽車的交通噪聲和2 種街道噪聲。信噪比分別為2.5 dB、7.5 dB、12.5 dB 和17.5 dB。

3.2 實驗設置

本實驗中語音采樣率均為16 kHz,編碼器中使用短時傅里葉變換時,利用漢寧窗函數,設置FFT 大小為512,幀大小與幀移位分別為64 和32。對于增強網絡,混合特征圖首先經過具有256 個濾波器的一維卷積塊,然后是8 個殘差一維卷積模塊(膨脹率為1,2,…,128),重復3 次。在訓練過程中,設置模型學習率為0.000 5,Epoch 總數為100,選取Adam 作為參數更新的優化器。在評估方面,采用的指標為語音質量感知(PESQ)[23]、信號失真比(SISDR)[24]、擴展短時目標可懂度(ESTOI)[25]與噪聲失真測度(CBAK)[26],上述指標數值越大,效果越好。

3.3 實驗結果分析

表1、表2 展現了不同SNR 條件下STOI、PESQ 的得分情況。實驗結果表明,本文采用的ResTCN+時頻注意力的方法性能最好,證實了注意力模塊的有效性。在3 種基線模型中,多頭自注意力網絡(MHANet)的性能最好。同時,ResTCN+頻域注意力和ResTCN+時域注意力相比ResTCN也有了實質性改進。

Table 1 Average ESTOI scores under different SNRs表1 不同信噪比下的STOI平均得分

Table 2 Average PESQ scores under differenent SNRs表2 不同信噪比下的PESQ平均得分

圖6 可進一步驗證上述結果,圖中紅圈標記表明,使用時頻注意力模塊后的局部去噪效果更好。本文提出的方法去除了大部分低頻噪聲,增強后的語音十分接近干凈語音。

Fig.6 Spectrogram of noise reduction results圖6 降噪結果頻譜圖

為驗證數據增強對實驗性能的影響,消融實驗結果如表3 所示。結果表明,樣本掩蔽方法對結果的影響最大,對實驗性能的提升最為顯著。

Table 3 Results of ablation experiment表3 消融實驗結果

為進一步驗證本文方法的有效性,與SEGAN[27]、ConvTasNet[28]、PHASE[29]、TCN 方法進行比較,結果如表4 所示。其中,SEGAN、ConvTasNet 是時域方法,編碼器用一維卷積提取時域特征;PHASE、TCN 是頻域方法,編碼器用短時傅里葉變換提取頻譜圖。結果表明,本文方法在PESQ、SI-SDR、CBAK 上的得分優于上述方法,表明在編碼器中融合特征能提高語音增強效果。

Table 4 Comparison of experimental results of different methods表4 不同方法實驗結果比較

4 結語

本文將時域與頻域特征相結合,利用兩個領域的不同優勢提升語音增強性能,同時提出一種輕量級時頻注意力模塊,可在T-F 表示中模擬語音的能量分布。在基線模型上進行了廣泛實驗,結果表明,本文提出的ResTCN+時頻注意力方法始終表現最佳。未來還可以研究不同訓練目標和損失函數對語音增強任務的影響,將語音增強技術擴展到真實語音噪聲環境中,如去混響、多目標語音自動識別等任務上。

猜你喜歡
掩碼頻域時域
大型起重船在規則波中的頻域響應分析
低面積復雜度AES低熵掩碼方案的研究
基于時域信號的三電平逆變器復合故障診斷
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設計
基于布爾異或掩碼轉算術加法掩碼的安全設計*
基于極大似然準則與滾動時域估計的自適應UKF算法
基于改進Radon-Wigner變換的目標和拖曳式誘餌頻域分離
基于時域逆濾波的寬帶脈沖聲生成技術
基于頻域伸縮的改進DFT算法
基于時域波形特征的輸電線雷擊識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合