?

基于聯合損失函數的語音增強深度學習算法

2023-07-10 13:21楊玲玲

電子產品世界 2023年6期

關鍵詞：聽覺

楊玲玲

關鍵詞：語音增強；聯合損失函數；聽覺；語音失真

DNN 根據獲取的語音特征對學習目標參數進行準確估計，目前已被廣泛應用于語音增強的研究中[1-2]。各類聲學特征也對語音增強方面存在差異。根據傳統語音特征進行分析并不能充分反饋語音內部信息，也不能獲得音幀和幀快速轉換的結果，因此該模型并不能準確預測時頻掩蔽結果，導致實際語音增強性能較差[3-4]。在背景噪聲濾除方面，時頻掩模值發揮著關鍵作用，以常規時頻掩模值進行處理時并未針對語音相位進行分析，語音相位譜則對改善語音可懂性具有關鍵作用[5]。

根據上述研究結果，本文優化了以語音增強實現的網絡模型與損失函數[6]。為確保代價函數能夠根據人耳感知特點開展分析過程，在上述基礎上設計了一種聯合損失函數。針對損失函數計算過程加入關于人耳聽覺的數據。

1 聯合損失函數

進行深度學習時，需要利用均方誤差損失函數（MSE）對神經網絡實施優化處理，而MSE 只對增強語音與純凈語音誤差進行簡單數據分析，并未考慮誤差正負因素的影響，也未加入人耳感知的信號。此時只以MSE 構建損失函數不能確保增強語音達到理想的算法處理效果[7]。

采用頻域加權分段的信噪分析方法可以對語音可懂度進行預測。以下為頻域加權分段信噪比表達式：

上述系數與時頻單元信噪比存在直接關聯，SNR（l，k）表示第l 幀第k 個頻帶對應的信噪比數據，同時根據各時頻單元信噪比獲得相應的動態系數，處于較高信噪比條件下時，動態系數接近1。

在聯合代價函數中融合了人耳心理聲學感知的內容[8]，以此訓練網絡來實現性能優化的目標，在確保提升話音質量的前提下使增強話音具備更高可懂度。

2基于聯合損失函數的語音增強算法

以聯合損失函數建立語音增強算法經多次重復訓練后，能夠從含噪語音幅度譜內獲得估計增強語音幅度譜。圖1給出了系統框圖。

時頻掩蔽因素是對神經網絡產生影響而引起語音增強性能差異的重要條件，采用傳統學習方法進行處理時只需對語音幅度進行分析。確定混合特征參數與學習目標后，再對神經網絡開展輸入、輸出訓練，同時利用最小均方誤差優化網絡算法。再以BP算法反向傳遞方式完成網絡參數的修正。從每次訓練的結果中選擇最優性能的網絡模型進行記錄后建立測試網絡模型。

本文選擇聯合損失函數對兩者差異進行評價，記錄最優性能的網絡模型參數。進行測試時，先將含噪語音幅度譜加入經過訓練的模型內，之后通過模型對增強語音幅度譜進行預測，最后以語音相位參數完成信號重構。

3實驗結果分析

3.1實驗數據的選取

以上語音數據都是由IEEE語音數據庫提供，之后從NOISEX-92噪聲庫內提取Pink、Factory與White三種噪聲信號，這些信號保持一致頻率。按照同樣信噪比把剩余50條純凈語音與噪聲后半段進行混合后建立測試集。

本文設定語音頻率為16 kHz，并以語音幅度譜作為輸入語音特征。各項網絡參數見表1。

3.2對比實驗分析

為了對本文建立的聯合損失函數與自注意力機制進行有效性驗證，構建得到表2的對比算法。

從表3～5中可以看到各噪聲條件下的PESQ值。其中，表3顯示，信噪比等于-5dB的情況下，根據算法1與2測試結果可以發現，在各類噪聲條件下，PESQ值提升均值達到0.13，同時STOI值提升了0.01的均值水平。比較算法2與3可以發現，PESQ值提升了0.07，STOI提升了0.01。

表4顯示，帶噪語音信噪比等于0 dB的條件下，根據算法1 與2 可以發現，各噪聲下的PESQ 值都提升了0.11，此時STOI 值提升0.02。比較算法2 與3 可以發現，PESQ 值提升0.09，STOI 提升0.01。

表5 顯示，帶噪語音信噪比等于5 dB 的情況下，比較算法1 與2 可以發現，各噪聲下的PESQ 值提升達到0.13 的均值，STOI 值提升了0.01。根據算法2 與3的比較結果可知，PESQ 值提升0.07，STOI 提升0.01。

綜合分析表3～5 得到下述結果：

1）通過對比算法1 與2 測試結果得到：當噪聲與信噪比都不同的情況下，以聯合損失函數實現的增強語音PESQ 值提高0.12，STOI 提高0.01。根據算法1 與2 可知，本文設計的混合損失函數實現增強語音質量的明顯優化。

2）對比算法2 與3 結果可以發現，為神經網絡模型設置注意力機制后，可以使增強語音PESQ 值提高0.08，STOI 提高0.01。同時根據算法2 與3 結果可以推斷，加入注意力機制后能夠促進背景噪音的進一步減弱，從而獲得更高可懂度。

3）比較算法1 與3 結果可知：以聯合損失函數對神經網絡開展訓練時，同時加入自注意力機制來分析理神經網絡特征的情況下能夠實現增強語音質量的顯著改善，此時PESQ 值提升0.2，STOI 提升0.03。

4 結束語

1）本文設計的混合損失函數實現增強語音質量的明顯優化。加入注意力機制后能夠促進背景噪音的進一步減弱，從而獲得更高可懂度。

2）綜合運用聯合損失函數并融合注意力機制后，可以使神經網絡獲得更優質量增強語音。利用注意力機制提取特征參數以及結合聯合損失函數進行神經網絡優化能夠促進增強語音質量的提升并達到更高的可懂度。

猜你喜歡

準確的心理節奏帶來聽覺美感

人間(2016年27期)2016-11-11

汽車A柱盲區消除系統設計

科技傳播(2016年7期)2016-04-28

如何讓農村中學生有“聽覺”

中學生英語·外語教學與研究(2015年4期)2015-06-12

電子產品世界2023年6期

電子產品世界的其它文章: 使用SiC的關鍵在于了解事實; 從隱空間理解編碼器(Encoder); 基于FPGA的手勢識別系統研究; 基于ESP8266的燃氣泄漏云響應裝置; 基于RK3399平臺的3D人臉建模設計與實現; 基于FaceNet的智能自習室的設計與實現

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合