?

數字語音降噪系統實現研究

2023-10-17 05:04張昊宇朱泳翔
西安航空學院學報 2023年5期
關鍵詞:梅爾端點門限

宋 飛,范 焜,張昊宇,朱泳翔

(西安航空學院 電子工程學院,西安 710077)

0 引言

語音是人們進行信息交換的最直接的手段,然而在各類通信交流場景中,語音信號又很容易受到各種噪聲的干擾。尤其在短波語音通信場景中,各種復雜而強大的電磁干擾往往會產生大幅度的背景噪聲,會使通信語音質量明顯下降。這種情況在短波通信中普遍存在,輕則可使通信雙方無法識別語音,重則可對接收人員聽力帶來損害,因此研究效果良好且易于實現的語音降噪技術具有重要的現實意義。

語音降噪技術在生產和生活中具有廣泛的應用,研究人員對其進行了深入研究。王濤[1]針對傳統的頻譜減法算法的噪聲估計部分進行改進,使用了基于語音檢測的噪聲估計算法對噪聲進行有效估計。并使用基于最小均方算法的自適應加權平均濾波器有效降低了語音噪聲。

孫端[2]采用小波變換理論對帶噪語音進行降噪處理,既可克服短時傅立葉變換窗口大小不隨頻率變化的缺點,又可提供隨頻率改變的時頻窗口。孫端[2]對比了使用不同閾值小波變換的降噪效果,驗證了小波降噪方法在語音信號降噪中的可行性。

聶欣欣[3]研究使用麥克風陣列結構,應用最小二乘法(RLS)進行語音降噪,并對降噪效果的影響因素進行了研究。

方健[4]將卷積神經網絡噪聲識別器和堆疊自動編碼器相結合,利用噪聲識別器的識別結果,自主選擇自動編碼器的模型,最終實現了噪聲自適應的堆疊自動編碼器語音降噪算法。

趙鼎[5]將子空間的思想與深度學習方法相結合,提出了基于子空間投影的時域語音降噪網絡,在編碼器和解碼器之間添加了基于自注意力的投影模塊,能夠將嵌入向量分別投影到兩個正交的子空間內,得到相互正交的語音向量和噪聲向量,進而極大程度地將語音信息與噪聲信息分離。

上述這些常用的降噪方法針對常見的噪音干擾具有一定效果,實驗普遍是高于-5 dB的帶噪語音,但對于信噪比較小,噪音幅度完全淹沒語音幅度的短波電臺應用場景,前述研究工作中沒有提及。研究表明,基于神經網絡的語音降噪方法對噪聲的自動識別和提升降噪效果有一定幫助,但選擇適合人耳語音的損失函數比較困難,且深度神經網絡需要的計算資源較多,過于復雜的算法應用于實現環節難度較高。

短波電臺接收端接收到的帶噪語音進行語音降噪應用場景下噪聲的幅度往往完全淹沒語音,使用常規方法很難達到有效降低噪音干擾的效果。這要求對帶噪語音進行濾波處理,改善語音質量,提高聽者的舒適度和可懂度。此外,在實際應用中需要在可移動的短波電臺中實現算法,因此對算法的復雜度也有一定的制約。

基于前述分析,本文探索解決短波電臺接收端噪聲污染問題,從接收端的帶噪語音中提取盡可能純凈的語音,在有效降低單音和白噪聲干擾的同時進行語音增強,提高通信質量及聽者舒適度,效果要求盡可能的使語音自然度和清晰度好,可懂度高,殘留“音樂噪聲”少。

1 語音降噪方法設計

經比較分析,語音降噪首先采用基于梅爾倒譜系數(MFCC)的時域倒譜算法進行語音分段識別處理,后采用譜減降噪算法進行語音降噪,再進行濾波處理,整體算法流程如圖1所示。

圖1 整體算法流程圖

1.1 基于梅爾倒譜系數的語音端點檢測

梅爾倒譜系數是在語音信號處理中常用的語音特征。研究者發現人類的聽覺靈敏度在可聽范圍內是隨聲波的不同頻率而變化的,低頻的靈敏度高于高頻的。由此設計一組帶通濾波器,其在低頻部分較稀疏,在高頻部分較稠密,輸入語音信號經過此濾波器組處理后,其強度可作為該信號的基本特征。這種特征的優點是能夠較好地匹配人類聽覺特性,具有良好的魯棒性,對低信噪比語音信號具有較好的識別性。

語音端點檢測是語音降噪系統中的一個重要環節,主要任務是將帶噪語音分成兩部分:語音部分和噪音部分。這樣方便后續對語音部分進行降噪,對噪音部分更新底噪,減少語音處理的數據量[6]。

端點檢測的誤差會直接導致語音識別的錯誤判別,進而對后續降噪產生不良影響。在高信噪比情況下,正確地確定語音的端點并不困難。然而,對于一些低信噪比場景下,常規的端點檢測方法,如基于能量的端點檢測方法等,不能有效地工作。由于基于梅爾倒譜系數的語音特征對高噪聲環境具有更好的魯棒性,本文利用其來檢測語音端點,圖2所示為MFCC特征向量獲取流程圖。

圖2 MFCC特征向量獲取流程圖

1.1.1 語音信號預處理

語音信號預處理模塊包括三個部分:預加重、分幀、加窗。

(1)預加重。預加重部分的作用是通過對高頻語音的補償,從而使語音信號的頻譜更加平坦化,進而能夠一定程度消除發聲過程中聲帶和嘴唇摩擦效應。

輸入信號s(n)先進行高通濾波處理,有

H(z)=1-a*(z-1)

(1)

式中:H(z)為z域濾波器函數;a為常數,介于0.9和1.0之間;z為z域自變量。

預加重后的信號s2(n),其時域表達式為

s2(n)=s(n)-a*s(n-1)

(2)

(2)分幀。語音信號具有短時平穩特性,可進行分幀處理,以降低處理難度。通常設置一幀信號有N個采樣點(通常取256),持續時間約為26 ms。并在兩幀之間設置一部分重疊區域,假設有M個采樣點,其值一般約為N的1/3。一般語音信號的采樣頻率為8 kHz,可知,分幀后對應一幀的時長是32 ms。

(3)加窗。分幀后,需要用窗函數卷積每一幀信號,以降低頻譜泄漏的影響。假設分幀后的語音信號為s3(n),n=0,1,…,N-1,N為幀數,使用漢明窗W(n)

W(n,a)=(1-a)-a*cos[2πN/(N-1)]

(3)

式(3)中n的取值范圍為[0,N-1]。選擇不同的a值可得到不同的漢明窗,一般取a=0.46。

卷積后的信號為

s′(n)=s(n)*W(n)

(4)

1.1.2 頻域變換及能量求取

(1)FFT。由于語音信號和噪聲信號很難從時域角度區分其信號特性,故常將其轉換為頻域加以區分。由此,對上一步分幀加窗處理后的信號,經過快速傅里葉變換得到其頻域表達式

(5)

式中:s′(n)為語音信號輸入;N為FFT變換的點數。

(2)頻譜能量。對傅里葉變換后的語音信號求解其頻譜能量。

1.1.3 Mel濾波

將上述譜線能量通過一組三角形濾波器組以平滑頻譜,消除諧波的影響,突顯語音的共振峰,與此同時還可減少數據量。

設這組含M個三角形濾波器,中心頻率為f(m),M通常取20~26。隨著m取值增大各f(m)的間隔也隨之變寬,其頻率響應定義為

(6)

同時需要注意這組三角形濾波器組在梅爾頻率上是平均分布的,梅爾頻率和一般頻率的關系式如下

Mel(f)=2 595log10(1+f/700)

(7)

計算每個濾波器組輸出的對數能量為

(8)

1.1.4 離散余弦轉換

信號處理中,離散余弦轉換(Discrete Cosine Transform, DCT)常用于有損數據壓縮。語音信號經過DCT處理后能量大多集中在低頻部分。

將上述對數能量SE(m)進行DCT處理后,可求出L階的梅爾倒譜參數。不同的梅爾濾波器是交集相關的,使用DCT變換可去掉這些相關性。離散余弦轉換公式如下

(9)

式中:L為MFCC系數階數;M為三角濾波器個數。

1.1.5 差量倒頻譜特征

要獲得語音信號各幀之間的動態信息,就需要加上差量倒頻譜特征,以顯示倒頻譜對時間的變化??梢杂卯斍皫那昂髱讕男畔碛嬎阋浑A差量倒頻譜特征

(10)

上式得到的dt是差量特征,計算第t幀需要t-P到t+P的系數(P通常取2)。若對一階差量的結果再使用上述公式就可得到二階差量倒頻譜特征,這樣總共可得到3×12=36維的特征。取一階和二階差分特征,再加入每幀的對數能量作為特征,共可得到MFCC特征向量為3×13=39維。

1.2 倒譜距離雙門限檢測

梅爾倒譜特征作為語音信號特征具有很好的魯棒性,在噪聲強度很高的情況下,對于語音幀和非語音幀的區分,使用其他信號特征很難進行,因此采用上述計算出的梅爾倒譜特征進行語音幀的端點檢測。

信號復倒譜定義為信號能量譜密度函數S(ω)的對數的傅里葉級數,其可表示式為

(11)

式中cn為實數,通常稱為倒譜系數,且

(12)

對于一對譜密度函數S(ω)與S′(ω),根據Parseval定理,倒譜距離表示對數譜的均方距離

(13)

信號譜的差異可以以倒譜距離作為衡量標準。先假定開始幾幀是背景噪聲,可計算出其倒譜距離矢量,利用其平均值可近似估計出背景噪聲的倒譜距離矢量。之后的當前幀若被認為是非語音幀,則背景噪聲倒譜距離矢量可按下式進行更新

(14)

若被認為是語音幀,則正常計算語音信號的倒譜距離矢量。

計算中對于式(13)表示的倒譜距離可進行近似計算,如式(15)所示

(15)

采用雙門限法進行語音幀端點檢測。先為倒譜距離設置較低和較高兩個門限,較低門限用于檢測信號的初步變化;較高門限用于最終確認信號的變化。假如信號超過了低門限,并不能確認是語音的開始,有可能是隨機噪聲超過了低門限。只有當信號超過了高門限,并且在之后一段時間內一直在低門限上方,才能表明語音信號開始。低于高門限時可能是擾動所引起的,未必是語音結束,只有低于低門限且持續一段時間內低于高門限,才能表明語音信號結束。語音端點檢測的準確性和敏感度受這兩個門限的影響很大:若設定過高,則會導致漏檢率上升;若設定過低,則會使誤檢率上升。在實際應用中,需根據具體數據和應用場景進行的參數調整。

1.3 譜減法降噪

經典的語音降噪算法為譜減法,具有簡單易實現,計算量小的優點,在實際中應用廣泛。依據人類語音的短時平穩特性,以及常見加性噪聲頻譜,近似替代含噪語音幀中的噪聲頻譜,再利用帶噪語音的頻譜減去這個底噪頻譜,從而達到降噪功能。

使用譜減法進行語音降噪處理,先根據之前階段已找到的各語音段端點,對噪音段進行消去并更新底噪水平,對語音段消除噪聲的影響。之后再進行平滑處理。人耳對語音的感知主要來源于語音幅度譜,對語音相位譜的感知并不敏感,因此在后續計算中可使用譜減前的含噪語音的相位譜近似代替譜減后的語音相位譜,進而可計算得到降噪處理后的時域語音信號。

1.4 濾波器濾除雜音

使用濾波法進一步濾除消噪后語音信號中的雜音。由于譜減法的缺點是存在對負數域的非線性處理及對噪聲譜的估計存在的偏差,處理后往往會產生“音樂噪聲”。為削弱這種附加的噪聲,方便后續嵌入式的實現,采用車比雪夫低通濾波器對低頻語音段進行濾波處理,可明顯降低這種噪聲的影響。此外,對于系統中存在的工頻等其他頻率的干擾,為便于后續嵌入式實現,采用凱澤窗高通濾波器進行濾波,只保留需要頻段的語音分量,可明顯消除這類噪聲的影響。

2 實驗分析

選用從某型短波電臺接收端實際接收到的真實含噪語音作為處理信號。設置其采樣率為8 kHz,采用一段典型背景下的接收帶噪語音進行語音降噪和濾波處理,原始語音信號波形如圖3所示。

圖3 原始語音信號波形

由圖3可以看出,噪音幅度較大,已完全覆蓋了語音的幅度。這種情況下,采用常規語音識別方法難以區分出語音和噪音。

原始語音信號經過前述的基于梅爾倒譜距離的語音端點檢測處理后,依據設置的雙門限劃分出了各自的語音段和噪音段,結果如圖4所示。

圖4 基于Mel倒譜距離的雙門限端點檢測

圖4中黑色曲線為倒譜距離軌跡,橫向黑色直線為設置的較高門限T1,橫向綠色虛線為設置的較低門限T2,豎向紅色直線為判斷的語音段起始點,豎向藍色虛線為判斷的語音段結束點。由圖4可明顯看出,使用本文提出的方法處理后語音段和噪音段的劃分非常明顯,這有利于后續的降噪處理。

采用前述的譜減法降噪算法處理后,得出降噪后的語音信號如圖5所示。由圖5可見,經譜減法降噪處理后,帶噪語音的語音信號得到了增強,同時噪音信號得到了抑制。

圖5 譜減降噪后的波形

采用前述的濾波器進行濾波處理,前述設計的低通濾波器幅頻響應如圖6所示。

圖6 低通濾波器幅頻響應曲線

采用高通濾波器幅頻特性曲線如圖7所示。

圖7 高通濾波器幅頻響應曲線

對帶噪語音段進行濾波處理后的波形如圖8所示。

圖8 進行濾波處理后的波形

由圖8可見,對所選擇的真實帶噪語音段經語音降噪系統處理后可有效進行語音段分解,語音信號得到加強,白噪聲和“音樂噪聲”信號得到抑制,輸出語音清晰,可懂度高,噪聲明顯減少,能夠滿足語音降噪的功能要求。

為進行定性實驗分析,采用上述Mel分段-譜減法對開源帶噪語音數據進行降噪處理,并將所得結果與標準譜減算法進行比較。

評價指標選擇語音處理中較常用的語音質量感知評價(PESQ)指標,該指標是國際電信聯盟認定的客觀語音質量評估指標,得分位于-0.5到4.5,越高代表語音質量越高[7]。

開源含噪語音數據選擇的是中文語音庫THCHS-30,其由清華大學語音與語言技術中心制作。其干凈語音由單麥克風錄制,并且可選擇附加強度可控的三種典型噪聲:餐廳噪聲、汽車噪聲或白噪聲。設置采樣精度為16 bit、采樣率為16 kHz。

本文選擇該語音庫中具體代表性的語音段并附加白噪聲,控制信噪比分別為-5、0、5、10和15 dB,通過下采樣達到8 kHz采樣率,分別采用標準譜減法和Mel分段-譜減法兩種方法進行降噪處理,結果如表1所示。

表1 不同信噪比下不同算法的PESQ結果

由表1可知,帶噪語音的信噪比從-5 dB到15 dB變化時,經Mel分段-譜減方法進行降噪處理的PESQ得分相較于標準譜減法降噪分別提高了0.36、0.24、0.49、0.28和0.29,相較于未處理語音更是提高了0.45、0.60、0.51、0.58和0.49。由此可看出,本文所提出的基于Mel分段-譜減降噪算法在降噪性能上優于標準譜減算法。

3 結論

針對短波語音通信場景,基于梅爾倒譜距離的語音端點檢測與譜減法降噪和有效的濾波器濾波相結合研究了數字語音降噪系統設計方案,并通過實驗方法對帶噪語音進行降噪處理,并與常用的標準譜減法進行對比。結果表明,本文提出的Mel分段-譜減法能夠高效的實現對強噪聲短波電臺接收語音的有效降噪功能,輸出語音清晰,可懂度高,同時又具有算法簡單等優點。

猜你喜歡
梅爾端點門限
非特征端點條件下PM函數的迭代根
基于梅爾頻譜分離和LSCNet的聲學場景分類方法
基于規則的HEV邏輯門限控制策略
地方債對經濟增長的門限效應及地區差異研究
隨機失效門限下指數退化軌道模型的分析與應用
不等式求解過程中端點的確定
梅爾維爾鯨
女詩人梅爾詩集《十二背后》三人談
“熊”視眈眈
參數型Marcinkiewicz積分算子及其交換子的加權端點估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合