?

多變背景噪音對聲紋識別技術的影響探討

2024-01-12 13:25曾繁祥楊璐銘廖云根
廣東公安科技 2023年4期
關鍵詞:聲紋識別聲紋噪音

曾繁祥 楊璐銘 扶 楠 廖云根

(1.梅州市公安局刑警支隊,廣東 梅州 514000 2.廣東省公安廳刑事技術中心,廣東 廣州 510000)

聲紋原指借助有關科學儀器分析、顯示出來的語音的圖像,即語音的頻譜圖。聲紋現指作為訴訟證據的聲音特征的集合[1]。聲紋識別是一種語音識別技術,它的特點在于該技術并不分析語音的內容,只在意說話人的身份,其原理是為每個說話人建立一個聲紋模型,先將語音信號中能反映說話人身份特征的個性特征參數提取出來,再進行一定的處理后,然后按一定規則加以匹配,從而確認或鑒別出說話人的身份。

隨著技術的進步,犯罪手段也在不斷創新,變聲器等各種干擾手段層出不窮,影響了部分語音的質量,導致識別比對效果欠佳。筆者在辦案過程中,發現不少語音存在背景噪聲、偽裝等可能影響比對效果的現象。

1 實驗目的

為研究不同的念讀狀態、背景噪聲、偽裝、情緒狀態等因素對聲紋識別技術的影響,本文利用小樣本數據,針對其中的三類影響因素進行初步研究:一是被試念讀的距離與狀態,二是被試念讀時的背景噪音,三是人聲語音疊加。

2 使用工具

訊飛聲紋采集設備(V2.0);真我手機自帶的錄音功能;國音智能聲紋鑒定專家系統(V2.10.5);MixPad 多軌道混音軟件(V10.24.CN);采集的實驗語音與樣本語音采樣率均為16000Hz;不同被試均使用統一的念讀文本;參與實驗的被試:樣本1 ~3 為男性,樣本4 ~5為女性。

3 實驗過程和結果

3.1 實驗一

在安靜的語音環境下,使用真我手機錄制以下實驗樣本語音:

3.1.1 不同的被試距離:真我手機10cm(近距離)、50cm、100cm 三種距離進行念讀。

3.1.2 不同的被試分別進行快速、慢速念讀。由于每名被試本身語速存在差異,因此快速、慢速念讀的速度均為相對值。

3.1.3 不同的被試分別偽裝(捏鼻子)念讀。

3.1.4 不同被試均錄制10s 的短時長念讀語音。

3.1.5 不同被試均使用客家方言念讀。

3.1.6 不同被試在不同情緒狀態下進行念讀。

3.1.7 實驗結果。分別將實驗語音與被試正常念讀的樣本語音導入國音智能聲紋鑒定專家系統(V2.0),采樣率均設置為16000Hz。利用系統自帶的聲紋比對功能,對不同的實驗語音與樣本語音進行比對識別,觀察分值的差異(百分制)。結果如表1 所示。

表1 實驗一結果

從表1 可以看出,遠距離(50cm)、快、慢速念讀、語音時長因素對聲紋識別分值干擾較??;遠距離(100cm)、方言、偽裝(捏鼻子)、情緒對聲紋識別分值影響較大。遠距離(100cm)使聲音變得微弱,對聲紋特征產生了顯著影響,降低了識別的分值。方言是人們從小習得的母語,經過多年聽、說的沉浸,一個人的聽覺、發音器官的神經和肌肉已形成定勢,方言部分音的發音方式與普通話發音方式存在明顯差別,因此造成方言的實驗語音與普通話樣本識別比對分值差別大。捏鼻子的偽裝方式改變了鼻腔共鳴模式,影響了個體聲音特征,導致比對分值差別大。不同情緒會影響聲音的頻率、強度、韻律、語速和語調等特征,高亢的情緒使聲音變得更高更快、更尖銳、更強烈;低沉的情緒會使聲音變得更低、更柔和、緩慢,因此聲紋特征變得不穩定,會對聲紋識別比對產生明顯的影響。但在偽裝(捏鼻子)、情緒低落的實驗語音比對結果中發現男性被試比對分值影響顯著,女性被試比對分值影響較小,可能與個體部分語音特征相關,由于樣本數量有限,有待進一步研究。

3.2 實驗二

將日常生活中常見的背景噪音,利用MixPad 多軌道混音軟件(V10.24.CN)疊加入樣本語音,合成導出為實驗語音,疊加參數如圖1 所示,研究多變背景環境音對聲紋識別的影響。

圖1 實驗語音疊加參數

3.2.1 疊加背景音樂,音樂類型為平緩的無人聲音樂。

3.2.2 疊加風噪聲。

3.2.3 疊加電視播放聲,播放內容為紀錄片。

3.2.4 疊加物體摩擦、敲擊聲。

3.2.5 實驗結果。分別將實驗語音與被試正常念讀的樣本語音導入國音智能聲紋鑒定專家系統(V2.0),采樣率均設置為16000Hz。利用系統自帶的聲紋比對功能對不同的實驗語音與樣本語音進行比對評分,觀察分值的差異(百分制)。結果如表2 所示。

表2 實驗二結果

從表2 可以看出,疊加背景音樂、風噪聲、電視播放聲、物體摩擦敲擊聲等加性噪音均會對聲紋識別產生明顯的影響。加性噪音[2]會影響原始語音的特征,在提取特征時,特征也會受到噪音的影響;噪音還會引起語音質量下降,使其模糊、失真;噪音與原始語音信息混合在一起,會導致語音信噪比下降,使聲紋識別系統難以分辨語音信號和噪音信號,進而影響聲紋識別評分的準確率。

3.3 實驗三

采用MixPad 多軌道混音軟件(V10.24.CN)將2 名不同被試在安靜的語音環境下采集的實驗語音與樣本語音進行疊加,并從疊加語段中隨機選取2min 時長的語音,合成導出為實驗語音,疊加參數如圖1 所示,與其原始樣本語音的識別分值進行分析比對。

3.3.1 同一被試在樣本語音與實驗語音中念讀的是不同的文本。

3.3.2 為了研究女性與女性聲音的疊加,增加了女性被試5。

3.3.3 實驗結果

分別將實驗語音與被試正常念讀的樣本語音導入國音智能聲紋鑒定專家系統(V2.0),采樣率均設置為16000Hz。利用系統自帶的聲紋比對功能對不同的實驗語音與樣本語音進行比對評分,觀察分值的差異(百分制)。結果如表3 所示(標紅的數據為同一人疊加比對分數)。

表3 實驗三結果

從表3 的實驗數據可以看出,疊加他人語音后的實驗語音與原樣本語音相比,分值均有降低,其中疊加他人語音后樣本1、3、4 比對分值下降較明顯,這是由于一個人說話的語音信號被另一個人所覆蓋,干擾了系統對聲紋特征的提取和匹配,從而影響聲紋識別的準確性。雖然有他人的語音疊加,但是樣本2 的比對分值下降相對較小,樣本1 的分值下降顯著,說明聲紋識別度并不是一成不變的,而是與自身語音在混合音中的強度有關,自身語音被他人說話聲淹沒程度低的,則自身語音被識別程度高,反之,自身語音淹沒程度高的,被識別程度就低。

此外,從實驗結果可以看出,同一被試疊加了他人語音后,明顯降低了識別比對分值。但無論是男女疊加、男男疊加或女女疊加后,識別比對所降低的分差之間的差異都不明顯,這說明在該算法下,只要混合了他人語音均會降低識別比對分數,但分數的下降程度與所混合語音的性別無關。

4 總結

通過上述三個實驗可以得出,念讀狀態、背景噪聲、語音疊加等因素對聲紋識別技術有明顯影響,但是程度各有不同。例如在實驗三中,樣本1說話人識別分值受語音疊加的影響顯著,樣本3 的說話人無論在實驗二、實驗三中,受實驗因素影響相對不大,比對分數較穩定。說明有的人存在部分不易受外界影響較穩定的聲紋特征,同時部分人的聲紋特征容易被影響受波動,此外還可能與特征算法相關。由于這次實驗樣本較少,有待進一步擴大樣本深入研究。

通過以上實驗數據可知,實際案件中的語音存在著遠距離說話、各種情緒狀態、偽裝說話、背景噪音、多人語音疊加等各種情況影響,對目標人物的聲紋識別造成一定干擾。針對上述較低質量的語音,在進行聲紋識別比對前,可以將低質量的語音進行優化清洗,進而提升語音識別度,例如:(1)對于錄制設備離聲源較遠距離、能量較低的語音進行增益調節來提升語音的識別度;(2)對于存在較多背景噪音的語音,可以將語音的背景噪音刪除,若噪音與目標人無法分離,可對背景噪音進行降噪處理[3],適當地削弱背景噪音;(3)對于多人說話音,可先對語音進行分離分類,后將目標人物分離后的語音聚類后再進行聲紋比對;(4)分析評判時需要結合考慮特定情緒因素下的語音特征,提高識別精確度。

猜你喜歡
聲紋識別聲紋噪音
噪音,總是有噪音!
無法逃避的噪音
屏幕即指紋識別
聲紋識別中的區分性訓練
噪音的小把戲
白噪音的三種用法
基于i—vector聲紋識別上課點名系統的設計與實現
面向移動終端的語音簽到系統
基于數字水印的人臉與聲紋融合識別算法
聲紋
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合