?

基于概率球面判別分析的說話人識別信道補償算法

2024-03-21 02:24景維鵬肖慶欣
計算機應用 2024年2期
關鍵詞:高斯分布球面先驗

景維鵬,肖慶欣,羅 輝

(東北林業大學 信息與計算機工程學院,哈爾濱 150006)

0 引言

說話人識別(Speaker recognition)技術也被稱為聲紋識別技術,是指通過分析處理采集到的語音信號識別相關說話人的身份,是語音處理領域最重要的技術之一[1]。經過50 余年的研究,說話人識別技術得到了很大的發展,研究者們相繼提出了聯合因子分析(Joint Factor Analysis,JFA)[2]、說話人身份矢量(i-vector)[3]和基于深度學習的說話人識別[4]等技術。說話人識別流程的如圖1 所示。

圖1 說話人識別流程Fig.1 Flowchart of speaker recognition

基于i-vector 的說話人識別系統是目前最有效的技術之一,它采用總變化空間(Total Variability Space,TVS)對說話人信息進行全局差異建模,不嚴格區分說話人信息和信道信息,減少了對訓練語料的限制,且計算簡單、性能優秀。

概率線性判別分析(Probabilistic Linear Discriminant Analysis,PLDA)[5]模型具有優秀的特征表示能力,通常用于基于i-vector 的說話人識別系統中的分類任務。PLDA 在跨域特征分類任務上有不錯的表現[6],這取決于PLDA 假設本征音和本征信道滿足高斯分布,但說話人特征分布存在很多非高斯行為,如果強行以高斯先驗假設處理特征必然會損失特征中的說話人信息。目前,主要可以從特征端或判別模型端兩個方面解決這一問題。在特征端,文獻[7]中提出了特征長度歸一化算法,該算法將空間Rd上的說話人特征通過高斯長度歸一化到低維空間Sd-1上,通過多次迭代不斷地對說話人特征進行高斯化規整,使得說話人特征分布不斷趨向于高斯分布,取得了不錯的效果。然而,只在特征級進行高斯變換操作,雖然減小了特征間單位尺度差異對模型的影響,但會在徑向方向上破壞說話人類內特征結構,違背了PLDA 對類內分布的假設,使模型不能充分利用特征信息,影響模型性能。在判別分析模型端,文獻[8]中提出的重尾PLDA(Heavy-Tailed PLDA,HT-PLDA)利用i-vector 模型中數據的長尾效應,統一用有更好擬合性的t-分布代替模型中先驗分布和特征分布中的高斯分布,解決了說話人特征分布存非高斯特性的問題。文獻[9]中提出一種概率球面判別分析(Probabilistic Spherical Discriminant Analysis,PSDA)模型,使用馮·米塞斯-費希爾(Von Mises-Fisher,VMF)分布代替高斯分布先驗假設,保護了說話人特征結構不被破壞,有效提高了模型的性能。但這兩種方法僅在判別分析模型更改了分布假設,并沒有提出與該假設相對應的特征信道補償方法,限制了模型的性能??紤]到特征級的信道補償與判別分析模型的分布假設存在互相促進的關系,僅針對高斯分布進行特征級變換[7],以及僅通過變換判別分析模型的分布假設[8-9],并不能很好地解決判別分析模型中分布的先驗假設與說話人特征真實分布不適配的問題。

基于上述分析,針對文獻[9]方法不能有效處理不滿足VMF 分布假設的說話人特征的問題,本文在該工作的基礎上,提出基于概率球面判別分析的說話人識別信道補償算法(Channel Compensation algorithm for speaker recognition based on PSDA,CC-PSDA),通過引入基于VMF 分布先驗假設的概率判別分析模型,并在PSDA 基礎上提出與之相應的VMF 特征長度歸一化方法進行信道補償(Channel Compensation,CC),在特征端和判別分析模型端完成互補,提高模型的識別性能。首先,在特征處理方面,本文對說話人特征進行仿射變換,使它更符合VMF 分布,由于VMF 分布能更好地描述特征空間內樣本的角度分布,因此對音頻的信道環境有不錯的擬合效果。其次,采用基于VMF 分布的概率球面模型避免高斯特性對信道補償的影響,模型將說話人特征定義到服從VMF 分布的特定維度超球面上,以保證基于VMF 長度歸一化的信道補償方法能保留說話人特征的類內分布,并能最大化特征區分度。本文算法可以增強特征的VMF 特性,使得判別模型發揮更好的效果;同時,本文根據模型特點提出CC-PSDA 的求解算法。大量相關實驗證明,相較于傳統的PLDA 模型,所提算法在性能上有不錯的提升。

1 基線系統

1.1 i-vector技術與長度歸一化

i-vector 是一種衍生于高斯混合模型(Gaussian Mixture Model,GMM)均值超矢量的具有統計特性的語音特征,一般被認為是說話人的身份標識。i-vector 采用總變化空間代替JAF 的說話人空間和信道空間。對于一段語音,通過Baum-Welch 統計量最終將說話人、信道相關的GMM 均值超矢量降維投影到固定長度的i-vector。為了去除信道信息對i-vector 的影響,通常還要進行信道補償操作[10]。

給定語音段s,在T矩陣參數集條件下,i-vector 可以表示為:

其中:N(s)(s)表示語音段s的0階、1 階Baum-Welch 統計量,Σ表示T矩陣訓練過程中產生的方差[11],I表示單位矩陣。盡管語音段長短可能不同,i-vector 可以將這些語音段用低維度且固定長度的ws來表示[12]。

為了解決i-vector 特征分布存在非高斯特性這一問題,使用長度歸一化(Length Normalization,LN)方法規整特征分布。LN 方法主要分為兩個步驟:首先,通過白化變換將i-vector 轉換成球面對稱分布簇;然后,對每個特征向量除以其對應的單位長度,使全部i-vector 向量長度都相等,從而使特征都映射在半徑為1 的單位超球面上。這樣可以將i-vector 分布近似的規整轉化成更適合的高斯分布。

1.2 two-convariance PLDA

two-convariance PLDA[13]形式與標準PLDA 類似,廣泛應用于說話人識別。假設某類說話人類別的某一樣本為m,其生成過程框架可以表示為:

其中:x代表類間因子,用于表示每個說話人類別的虛擬類中心(x~N(0,Φb));y代表類內因子,用于表示類別內部的樣本分布分別代表類間和類內方差。類似于標準PLDA,two-convariance PLDA 的參數集也可以通過EM 算法估計得出。打分階段通過訓練模型規整轉換計算,具體過程如下:

其中:same代表相同說話人,different代表不同說話人,表示待識別說話人因子表示注冊因子。分子聯合概率P{up,ug}可通過式(4)得到:

2 概率球面判別分析模型信道補償

為了充分利用特征端和判別模型端的互補的關系,解決特征分布與判別模型先驗假設不匹配的問題,本文提出基于概率球面判別分析的說話人識別信道補償算法(CC-PSDA),該算法通過對說話人特征進行VMF 分布變換,以完成特征級信道補償(CC),提高PSDA 模型[9]的性能。CC-PSDA 可用EM(Expectation Maximum)算法來求解參數集,并通過似然比的形式來打分。

2.1 Von Mises-Fisher分布

VMF 分布是一種圓上連續概率分布模型,是纏繞正態分布的一種近似,比高斯分布擁有更好的數學可控性。假設將空間Rd中長度歸一化后的說話人特征投影到單位超球空間上有:

如果x∈Sd-1,則x分布在球面上;如果‖x‖<1,則x分布在球面內部。在CC-PSDA 模型中,用VMF 分布代替高斯分布。VMF 分布是一種圓上連續概率分布模型,x的概率密度函數為:

其中:μ表示均值向量方向(μ∈Sd-1);κ表示集中度,即分散度的倒數(κ≥0),Cv(κ)的表達式[14]如下:

其中:Iv(κ)是第一類修正貝塞爾函數,單調遞增;Cv(κ)是嚴格單調遞減的函數在VMF 分布中,κ類似于正態分布中的σ2,κ越小分布越均勻,直到κ=0 時滿足均勻的超球面分布;相反,κ越大分布越集中于μ。根據文獻[9],可以得到式(8):

2.2 特征分布變換

考慮到提取到的i-vector 特征的分布不符合VMF 先驗假設,因此需要將它的分布轉換為VMF 分布,從而在分類模型中發揮更好的性能。本文通過最大似然估計得到相應的概率密度函數。

文獻[15]中給出了一種sinh-arcsinh 分布:

通過改變相應的參數便可執行相關變換,例如相應的偏斜變換或重尾對稱等,該分布可以將提取到的特征的分布變換成預期的分布,它的概率密度函數為:

其中:A代表特征變換映射矩陣,x代表待變換向量,b代表偏置向量。仿射函數的本質反映了一種空間映射關系。函數式(14)的雅可比矩陣可表示為:

首先分別求出sinh-arcsinh 中每個參數的導數的對角矩陣:

然后可得到雅可比行列式的對數行列式:

將式(17)作為目標函數通過L-BFGS 算法不斷迭代,計算出對數似然的最大化,當對數似然指標改善低于所設定的閾值時,可以完成參數估計。

根據文獻[16]中的結論可以得知,sinh-arcsinh 分布中δ、ε分別用來控制分布的重尾以及變量的偏度,因此可以通過實驗改變這兩個參數實現對預期分布的映射變換。

2.3 概率球面判別分析模型

對于每個說話人設置一個身份隱變量z(z∈Sd-1),身份變量具有VMF 先驗v(z|μ,b),μ表示說話人特征向量均值方向(μ∈Sd-1),b表示說話人類間集中度(b≥0)[17],代表特征項在不同說話人類別中的均勻程度,特征項越集中分布在某個類別中而不是均勻分布在各個類中時,帶有的類別信息越多,表征類別的能力越強。類似PLDA,μ和b可以通過數據學習得到。Sd-1中的觀測數據特征都應服從說話人獨立的VMF 分布,來自不同說話人的特征是條件獨立的,給定z,如果是某個說話人的特征,則有:

其中ω表示說話人類間集中度(ω>0)。式(18)表明:觀測數據VMF 分布的乘積是z的似然函數,其中z也滿足VMF 分布。綜上:CC-PSDA 模型的參數集為{μ,b,ω}。

CC-PSDA 的打分公式與高斯PLDA 類似,也是似然比的形式。給定一個訓練完成的CC-PSDA 模型(參數集為{μ,b,ω}),假設E={e1,e2,…,em}表示某一說話人的注冊集、T={t1,t2,…,tn}表示某一說話人的測試集,打分似然比公式可以表示為:

其中:H1代表語音段來自同一說話人,H2代表語音段來自不同說話人。式(20)還可以只用VMF 歸一化常數來表示:

模型所需要的統計信息為0 階統計量和1 階統計量,用EM 算法更新參數[20],對于給定的訓練數據,每個說話人均值特征為,說話人身份分布信息有效地包含在了內,數據總數為,說話人數為S,E 步驟[21]:

CC-PSDA 完整算法的偽代碼如算法1 所示,流程如圖2所示。

圖2 CC-PSDA流程Fig.2 Flowchart of CC-PSDA

算法1 基于概率球面判別分析的說話人信道補償算法(CC-PSDA)。

輸入 i-vector 特征集X={xi},識別任務迭代次數I1,CC-PSDA 分類模型迭代次數I2;

輸出 CC-PSDA 模型的參數集{μ,b,ω},相關說話人語音特征的似然比p。

3 實驗與結果分析

本文進行了廣泛的實驗解答以下問題:

問題1 在識別準確率方面,本文方法與目前流行的評分方法尤其是高斯PLDA 方法相比如何?

問題2 僅對后端分類模型的分布先驗假設進行改進與對特征級和后端分類模型同時進行先驗假設改進效果相比如何?

問題3 在相同的VMF 概率球面判別分析模型條件下,本文方法中的VMF 特征分布變換是否有利于模型的求解?

3.1 數據集、預處理及評價指標

本文使用VoxCeleb2-dev 數據集進行訓練,該數據集包含1 092 009 段語音和5 994 個說話人。為了評估模型的有效性,使用VoxCeleb1-O、VoxCeleb1-E 和VoxCeleb1-H 三個測試集進行驗證實驗。VoxCeleb1-O 測試集是在VoxCeleb1 數據集中采集的,包含40 個說話人共37 720 個語音測試對,VoxCeleb1-E 是VoxCeleb1-O 的擴展,包含1 251 個說話人共581 480 組測試對,VoxCeleb1-H 包含552 536 個測試對,每對測試中都選取了國籍和性別相同的說話人,相對更難一些[23]。

在i-vector 說話人識別模型中,通常使用梅爾倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)作為聲學特征進行實驗[12,23],實驗中提取13 維的MFCC 基本特征作為輸入信息,之后對它進行一階差分、二階差分計算,最后得到60 維聲學特征,提取特征前進行語音靜音檢測,去除音頻中不包含信息的靜音部分[24]。本文分別提取了100 維、200 維、400維的i-vector 特征,在不同系統進行實驗。實驗的識別準確性采用等錯誤率(Equal Error Rate,EER)和最小檢測代價函數(Minimum Detection Cost Function,MinDCF)作為標準。

3.2 識別效果總體比較(問題1、問題2)

表1~3展示了5個模型分別在VoxCeleb1-O、VoxCeleb1-E、VoxCeleb1-H 這3 個測試數據集上的識別性能驗證結果,CCPSDA 為本文模型、PLDA 為高斯PLDA 長度歸一化方法模型、HT-PLDA 為說話人因子和特征空間采用t 分布假設的重尾分布PLDA、cos[25]為余弦相似度打分后端、PSDA 為未采用VMF 特征分布變換信道補償的概率球面判別分析模型,從表中可知:

表1 VoxCeleb1-O測試集下各模型識別性能對比Tab.1 Comparison of recognition performance among various models on VoxCeleb1-O test set

表2 Voxceleb1-E測試集下各模型識別性能對比Tab.2 Comparison of recognition performance among various models on VoxCeleb1-E test set

表3 Voxceleb1-H測試集下各模型識別性能對比Tab.3 Comparison of recognition performance among various models on VoxCeleb1-H test set

1)在VoxCeleb1-O、VoxCeleb1-E、VoxCeleb1-H 這3 個測試集下,本文CC-PSDA 模型效果最好,驗證了本文模型的有效性;其次是PSDA 模型;高斯PLDA 模型表現最差。PSDA模型相較于傳統基線模型性能也有所提升,這是因為基于VMF 分布假設的球面模型不像高斯PLDA 模型一樣,在長度歸一化時壓縮說話人特征的徑向維度,以獲得更多的說話人特征徑向維度的信息。本文模型相較于目前較為流行的cos模型有較大提升,主要原因在于CC-PSDA 模型訓練時,可通過監督學習的方式很好地利用訓練數據的說話人標簽信息,從而得到更具有區分性的參數。同時,由于CC-PSDA 模型相較于cos 模型有更多的模型參數可以學習,因此CC-PSDA模型具有更強的特征表征能力,從而具有更好的分類性能。HT-PLDA 模型通過使用t 分布代替高斯分布假設,一定程度上減小了特征分布中非高斯特性帶來的影響,相較于高斯PLDA 模型,性能略有提升。CC-PSDA 模型相較于PSDA 模型識別準確率有了較明顯的提升,可以證明本文模型進行VMF 特征分布變換操作后,i-vector 分布假設更加擬合球面分類模型的先驗假設,可以更準確地計算說話人隱變量的后驗概率,有利于提高模型對特征的分類能力。

2)五種模型等錯誤率在不同特征維度條件下的標準差分別為:CC-PSDA 為0.178、PLDA 為0.260、HT-PLDA 為0.411、cos 為0.382、PSDA 為0.210,本文CC-PSDA 模型對特征維度變化最不敏感。隨著i-vector 維度的提升,各個模型的識別準確率也相應提升。使用較大維度的特征模型時,經過特征變換的特征能包含更多的說話人及相關信道信息,識別性能會相應提高。

3)五種模型在VoxCeleb1-O、VoxCeleb1-E、VoxCeleb1-H三個測試集下等錯誤率的標準差分別為:CC-PSDA 為0.06、PLDA 為1.81、HT-PLDA 為2.45、cos 為2.06、PSDA 為0.20,CC-PSDA 的EER 標準偏差最小,在不同數據集下具有更好的穩定性。

為了驗證本文模型在深度學習方法中的效果,使用VoxCeleb2-dev 作為訓練集、Voxceleb1-H 作為測試集,使用時延神經網絡(Time Delay Neural Network,TDNN)提取256 維的x-vector[26]說話人特征在不同模型上實驗[4],結果如表4 所示。當使用深度學習說話人特征時,cos 模型效果優于高斯PLDA 模型,并且由于cos 模型自然遵循球面幾何特性,效果與PSDA 模型接近。盡管如此,本文的CC-PSDA 模型取得了最好的效果,說明了本文模型在深度學習框架下有效。

表4 x-vector說話人特征各模型識別性能對比Tab.4 Comparison of recognition performance of various models using x-vector speaker features

本文還在3 個測試集下,模擬了i-vector 均值特征經過CC-PSDA 中特征變換前后的分布狀態。圖3 展示了3 個測試集200 維i-vector 均值特征變換前后的分布情況。

圖3 不同測試集下i-vector特征變換前后分布情況Fig.3 Distribution of i-vector before and after feature transformation in different test sets

從圖3 中可知,三組實驗中變換后的說話人特征均大致服從VMF 單峰分布,且分布更集中,便于模型進行概率計算。

3.3 特征分布變換對模型求解的影響(問題3)

為了探究VMF特征分布變換操作對概率球面判別分析模型求解的影響,本文還在3 個數據集下,取200 維i-vector 說話人特征和相同初始類內、類間參數的條件下設計了兩組實驗。

1)首先對記錄了本文2.3 節中的模型類間集中度b的更新情況,如表5 所示:實驗均取b=100 作為實驗初值,實驗進行10 輪迭代。類間集中度代表不同類別說話人特征的聚集情況,即特征項在各個類別中分布的均勻程度,越小表明模型對說話人特征的分類效果越好。從表5 中可知,在3 個測試集下,使用經過分布變換后的特征訓練模型可以得到更小的類間集中度,表明本文提出的VMF 特征分布變換操作有利于模型的收斂。

表5 CC-PSDA在各測試集下EM算法類間集中度b更新情況Tab.5 Update of between-class concentration parameter b in EM algorithm for CC-PSDA on different test sets

2)最后在相同模型參數初值條件下,模擬本文使用的訓練算法EM 算法的訓練情況,主要觀測它的收斂速度。

圖4 展示了用變換前后的i-vector 特征使用EM 算法對模型訓練的情況。對比圖4 可以得出結論,本文模型可以通過訓練EM 算法,并使用經過分布變換后的特征使模型收斂更快。

圖4 不同測試集下CC-PSDA特征變換前后EM算法訓練情況Fig.4 EM algorithm training before and after CC-PSDA feature transformation in different test sets

4 結語

在說話人識別任務中,由于上游任務提取的說話人特征分布總會存在許多后端分類模型分布先驗假設以外的特性,因此,協調好說話人特征歸一化分布假設與后端分類模型的先驗假設是提高系統識別效率的關鍵。本文介紹了一種基于VMF 分布的概率球面判別分析的說話人信道補償算法,理論和大量實驗分析都表明所提算法能有效克服目前高斯PLDA 存在的弊端。本文算法能對說話人特征非線性變換,使它更適合分類模型的VMF 分布,這與后端概率球面判別分析模型先驗假設相呼應,變換后的特征結構不受球面模型的影響,從而被更好地利用。同時,后端分類模型能將變換后的特征定義到服從VMF 分布的特定維度超球面上,最大化說話人特征類間距離,獲得更好的識別性能。

猜你喜歡
高斯分布球面先驗
利用Box-Cox變換對移動通信中小區級業務流量分布的研究
2種非對稱廣義高斯分布模型的構造
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
球面檢測量具的開發
Heisenberg群上移動球面法的應用——一類半線性方程的Liouville型定理
基于自適應塊組割先驗的噪聲圖像超分辨率重建
一種基于改進混合高斯模型的前景檢測
基于平滑先驗法的被動聲信號趨勢項消除
先驗的廢話與功能的進路
球面穩定同倫群中的ξn-相關元素的非平凡性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合