?

一種可學習的跨域魯棒說話人識別方法

2023-12-28 10:11鄭靚張友兵周奎付瑞
湖北汽車工業學院學報 2023年4期
關鍵詞:聲紋跨域聲學

鄭靚,張友兵,周奎,付瑞

(1.湖北汽車工業學院 汽車工程師學院,湖北 十堰 442002;2.內蒙古自治區能源局綜合保障中心 考務科,內蒙古 呼和浩特 010000)

隨著智能網聯汽車的飛速發展,人們對車載環境下語音技術的開發利用提出了更高的要求,說話人識別技術逐漸應用于車載語音交互。目前說話人識別技術主要基于深度神經網絡(deep neural network,DNN)[1],如Xu 等[2]提出了i-vector 技術,通過DNN 簡化i-vector 的類內協方差,允許i-vector在更多場景中使用;Variani E等[3]提出了d-vector模型,引入嵌入式信息,適用于大規模說話人識別和說話人驗證任務;Snyder D 等[4]提出了x-vector算法,較基于統計學的i-vector 算法有更好的識別性能,并衍生出了許多變體[5-6]。此后,基于卷積神經網絡(convolutional neural network,CNN)[7]、循環神經網絡(recurrent neural network,RNN)[8]等架構的說話人聲學特征提取網絡被逐步提出。此外,合理的聲學特征提取器對說話人識別系統性能起著至關重要的作用。為提高系統在不同場景下的識別性能,研究者提出了聲學特征提取器的不同改進方法。劉麗巖等[9]提出了逆梅爾頻率倒譜系數特征;Dongre V等[10]進一步提出了線性頻率倒譜系數(linear frequency cepstral coefficient,LFCC),與梅爾頻率倒譜系數(Mel frequency cepstral cofficient,MFCC)組合可以創建更好的輸入特征表示;童強等[11]提出了韻律特征是說話人識別中的有效特征,利用高層特征參數,結合高斯混合模型,來提高系統識別性能;Sadjadi 等[12]提出了均值希爾伯特包絡系數,提高系統在嘈雜和混響條件下的魯棒性。這些方法不同程度上提高了系統的性能,但都是通過固定參數或靜態操作實現,存在跨域魯棒性較差的問題。綜上所述,文中結合深度神經網絡優化聲學特征提取器,以MFCC 為基線,引入每通道能量歸 一 化 技 術(per-channel energy normalization,PCEN)[13],設 計 了 聲 學 特 征 提 取 器Mel-fixed-PCENs 和Mel-learnable-PCENs,實驗驗證了文中方法可以在車載跨域場景下顯著提高系統性能,不會降低域內條件的性能。

1 MFCC聲學特征提取器

MFCC是經典的聲學特征提取器,由一系列線性和非線性變換組成[14],這些變換最初由信號處理和人類聽覺系統驅動。MFCC特征提取流程如下:1)將信號進行預加重、分幀和加漢明窗處理,然后進行短時傅里葉變換(STFT)得到其頻譜;2)求頻譜平方,即能量譜,將每個濾波頻帶內的能量進行疊加,第k個濾波器輸出功率譜為

3)將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜,并進行反離散余弦變換(DCT),得到L個MFCC系數:

2 改進MFCC聲學特征提取器

考慮到MFCC 取對數操作的奇異性會造成說話人識別系統跨域魯棒性低的問題,文中設計了2個基于MFCC 改進的聲學特征提取算法,如圖1所示。初始處理部分,2 個特征提取算法與MFCC 特征提取算法步驟相同;后端處理階段,在MFCC 的基礎上引入PCEN,得到Mel-fixed-PCENs,在Melfixed-PCENs 的基礎上,使用Learnable PCEN 替代PCEN,得 到Mel-learnable-PCENs。 Mel-fixed-PCENs 是參數固定的聲學特征提取器,Mel-learnable-PCENs 是數據驅動、可學習的,適用于跨域場景的聲學特征提取器。

圖1 改進MFCC的特征提取流程

2.1 PCEN和Learnable PCEN

作為動態壓縮技術,PCEN 主要解決對數壓縮在零點處的奇異性問題,計算公式為

式中:t和f為時間幀數和頻率通道數;E[t,f]為輸入功率譜。Learnable PCEN 的計算公式為式(3),由自動增益控制(automatic gain control,AGC)和動態范圍壓縮(dynamic range compression, DRC)組成。自動增益控制為式(4)~(5),由平滑系數s 和指數α進行控制,其中ε取1×10-6,是為了防止分母為0。對自動增益控制功率譜進行動態范圍壓縮,得到PCEN的譜圖,表示為

式中:δ為正偏置項;r為主要的控制參數。Melfixed-PCEN 中,PCEN的參數α取0.98、δ取2.0、r取0.5、s取0.025[15]。為進一步提高說話人識別系統的性能,用Learnable PCEN 替代PCEN,作為數字信號處理組件聯合后端的神經網絡一起學習,而不是依賴于固定參數的選擇。Wang 等[15]將平滑系數設置為固定的超參數,α、δ和r由學習自適應獲得。Mel-learnable-PCENs 中Learnable PCEN 的 所有參數都參與學習。

2.2 倒譜均值歸一化

倒譜均值歸一化(cepstral mean normalization,CMN)在降低附加環境噪聲的影響方面有一定效果,是廣泛應用的補償技術。計算公式為

式中:μ[t,f]為具有滑動窗口長度為(N+1)的EPCEN平均值,N取300。

3 聲紋建模與說話人識別系統

采用ECAPA-TDNN[16]進行聲紋建模,基于傳統的x-vector 架構進行改進,更加強調局部多尺度特征表達和全局多層次特征融合。整個ECAPATDNN 的網絡結構如圖2 所示:首先將聲學特征提取器的輸出進行1 層Conv1D+ReLU+BN(等同于1個TDNN 模塊)處理;其次融合3 個SE-Res2Net 模塊的輸出特征映射,并送入ASP(attention statistics pooling)層塊;最后接入全連接層調整維度,得到192 維說話人嵌入碼。以ECAPA-TDNN 為聲紋嵌入碼提取器,余弦相似度作為后端相似度判別器,分別構建5 個以MFCC、LFCC、FBank、Mel-fixed-PCENs和Mel-learnable-PCENs 為聲學特征提取器的說話人識別系統。

圖2 ECAPA-TDNN網絡結構圖

4 實驗配置與結果

采用VoxCeleb1-dev 數據集[17]進行訓練,并在VoxCeleb-O 和VoxMovies[18]評估集上提取語音聲紋嵌入碼,對說話人識別系統進行評估,同時分析MFCC-SV、 LFCC-SV、 FBank-SV、 Mel-fixed-PCENs-SV 和Mel-learnable-PCENs-SV 在 域 內 和跨域場景下的性能。

4.1 數據集

1)網絡訓練 采用VoxCeleb1-dev訓練ECAPTDNN 說話人嵌入碼提取器,包含1211 個說話人,共148 642個wav文件(16k采樣率)。使用MUSAN語料庫[19]的多個聲源(噪聲、嘈雜聲和音樂)模擬嘈雜的環境場景。

2)網絡評估 采用VoxCeleb-O 作為測試集,表示域內場景(訓練和評估數據集均來自采訪視頻),包含40個說話人、18 802個真實實驗和18 809個假冒實驗。使用最新的VoxMovies 語料庫創建有趣的跨域說話人驗證場景(訓練數據集來自采訪視頻,評估數據集來自電影剪輯),并進行評估。VoxMovies 語料庫有5 個不同的評估列表,統計數據匯總在表1 中,語音材料來源于采訪視頻(D-I)和電影剪輯(D-M)。其中,D-M(same)和D-M(diff)分別表示注冊和測試文件來自同一部或不同的電影,說話人失配程度和確認難度從E-1增加到E-5。由于E-2、E-3、E-4與訓練集有重合,所以只選擇E-1和E-5作為說話人識別系統的評估列表。Pooled的評估列表是E-1和E-5的合集。

表1 VoxMovies評估集實驗結果

4.2 超參數設置

所有實驗中,隨機截取數據集中每句話語,截取長度為3.015 s的固定片段。輸入的聲學特征維數均設置為80,窗長為25 ms,幀移為10 ms。PCEN模塊固定參數值和Learnable PCEN參數初始值均設置為α取0.98、δ取2.0、r取0.5、s取0.025。以AAMSoftMax(m取0.2,s取30)為模型的后端分類器,用Adam優化器[20]進行訓練,將batchsize設置為300,初始學習率設置為0.001。同時采用間隔學習率調整策略,設置步長為1,每輪學習率為

從ASP 池化層之后的第1 個全連接層中提取說話人嵌入碼,最終輸出512 維的說話人特征向量。通過計算等錯誤率(EEER)和最小檢測代價函數(minDCF)來評估說話人識別系統的性能,設置風險系數為1.0。

4.3 實驗結果

在域內和跨域2 個場景下,對基于5 個聲學特征提取器構建的說話人識別系統進行對比實驗。

1)VoxCeleb-O 評估集實驗結果 在域內環境下的說話人識別系統性能評估結果如表2所示。在EEER方 面,Mel-learnable-PCENs-SV 與MFCCSV、LFCC-SV 和FBank-SV 相 比 分 別 降 低 了8.35%、5.73%、7.18%,Mel-fixed-PCENs-SV 較MFCC-SV、LFCC-SV和FBank-SV分別降低了7.59%、4.95%、6.41%,說明Learnable PCEN 為說話人識別系統提供了更優的性能;在minDCF 方面,Mellearnable-PCENs-SV 和Mel-fixed-PCENs-SV 的minDCF 均 比MFCC-SV、LFCC-SV 和FBank-SV小。當Pt為0.1 時,Mel-learnable-PCENs-SV 的minDCF 達 到 最 ??;當Pt為0.01 和0.001 時,Melfixed-PCENs-SV 的minDCF 最小,原因是高維參數進行神經網絡迭代訓練時,不如固定參數穩定。

表2 VoxCeleb-O評估集不同SV系統性能

2)VoxMovies 評估集實驗結果 在跨域場景下,VoxMovies 評估集上說話人識別系統性能評估如表3 所示。與VoxCeleb-O 數據集相比,VoxMovies 數據集具有域不匹配的特點。根據表1 可知,E-1 包含的域失配最少,E-5 包含的域失配最多,Pooled 是E-1 和E-5 的合集,因此E-5 具有較大的挑戰性。在跨域場景下,Mel-fixed-PCENs-SV 和Mel-learnable-PCENs-SV 的性能相比MFCC 均有不同程度的改善。Mel-learnable-PCENs-SV 實現了在E-1、E-5 以及合并集Pooled 評估集上的最佳系統性能。

表3 VoxMovies評估集不同SV系統性能

3)DET 曲線分析 如圖3 所示,在VoxCeleb-O 評估集(域內)和VoxMovies 的評估集指代E-1,E-5 和pooled(跨域)下,分析了含有不同聲學特征提取器的說話人識別系統的性能??梢杂^察到,在域內以及跨域場景下,Mel-fixed-PCENs-SV 和Mel-learnable-PCENs-SV 系統性能均比MFCCSV、LFCC-SV 和Fbank-SV 性能更好。Mel- learnable-PCEN的系統性能最優,與表2~4中數據呈現的結果一致。

圖3 評估集上不同SV系統的DET圖

4.4 說話人識別系統驗證

采用Sharing-VAN 2.0 為實驗平臺,麥克風安裝在車門內外側,如圖4a 所示,將采用Mel-learnable-PCENs 聲學特征提取器訓練得到的說話人識別模型布署到車載硬件平臺Jetson AGX Xavier上,如圖4b所示。測試人員共10名,男女比例為1:1,分別在車外較安靜的環境進行聲紋錄入,在車內多媒體、排風扇、發動機、氛圍燈等開啟狀態下進行說話人識別驗證。每人分別測試15 次,測試總次數為150 次。統計“未識別/識別錯誤”次數的情況,結果如表4所示,未識別次數為3次,識別錯誤次數為4 次,識別錯誤率為4.7%。因此,文中方法可以較好地滿足車載跨域場景的說話人識別要求。

表4 Mel-learnable-PCENs-SV實驗結果

圖4 實驗平臺

5 結論

針對車載跨域場景說話人識別模型魯棒性低的問題,提出了可學習的跨域魯棒說話人識別方法。在傳統MFCC基礎上,引入Learnable PCEN 代替對數運算,聯合ECAPA-TDNN 實現參數自動優化。在域內場景評估集VoxCeleb-O和跨域場景評估集VoxMovies 上進行了評估,Mel-learnable-PCENs-SV 相較MFCC-SV 的EEER分別有8.35%和8.42%的最大改進,并在Sharing-VAN 2.0 車載硬件平臺Jetson AGX Xavier驗證了該方法的有效性。這項工作可以在其他基于DNN 的模型上進行擴展,如在使用更大數據擴充的情況下,使用可學習的聲學特征提取器與TDNN 或ResNet 網絡進行聯合優化學習。

猜你喜歡
聲紋跨域聲學
跨域異構體系對抗聯合仿真試驗平臺
基于多標簽協同學習的跨域行人重識別
為群眾辦實事,嶗山區打出“跨域通辦”組合拳
G-SRv6 Policy在跨域端到端組網中的應用
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
屏幕即指紋識別
Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
基于數字水印的人臉與聲紋融合識別算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合