?

合成語聲的聲學分析及識別特征算法?

2024-02-29 10:58周峻林胡曉光黃子旭付哲宇
應用聲學 2024年1期
關鍵詞:聲強基頻聲學

周峻林 胡曉光 黃子旭 汪 旭 付哲宇

(中國人民公安大學 北京 100038)

0 引言

隨著人工智能技術的發展,合成語聲的能力日益提高。通過技術手段合成得到的語聲開始變得越來越逼真,甚至可以達到通過模仿目標說話人,生成即使是人類也很難區分的語聲?;谏疃葘W習的最新語聲合成研究成果包括Tacotron和Tacotron2框架、百度AI 研發的Deep Voice、谷歌Deepmind 提出的Wavenet 技術、科大訊飛語聲合成系統等。嫌疑人利用這些技術合成語聲開展電信詐騙等違法犯罪活動的比例逐年上升,對人民財產安全、社會穩定構成了嚴重威脅?,F有的傳統司法語聲鑒定技術在開展合成語聲檢驗時難度較大,難以出具鑒定意見。但由于人對語聲的感知是非常多樣化的,考慮到計算機受限于目前人工智能技術和硬件運算能力,只能通過部分參數在一定程度上對人類真實語聲的聲學特性進行感知,使得通過語聲合成技術生成的語聲在聲學特性上仍與真實語聲存在著一定距離。因此,研究合成語聲識別的技術存在可行性。目前的主流研究趨勢[1]是通過設計和改進語聲特征,以找到能夠較好表征出合成語聲和真實語聲間差異性的參數,實現有效識別合成語聲的目的。

現有的語聲特征研究成果豐富[2],主要可分為倒譜系數特征、相位特征、幅度值特征、長時特征、子帶特征,分別是根據在語聲合成的過程中短時內頻率變化、相位、幅度特性差異,長時內語聲信息差異和頻帶中的部分特性差異所提出的一系列特征,主要如下。

Davis 等[3]提出,在以人對頻率的聽覺感知曲線梅爾刻度的基礎上,設計得到梅爾頻率倒譜系數(Mel-frequency cepstral coefficients,MFCC)。在此基礎上,不同的研究人員設計了不同的MFCC改進特征,如Chettri 等[4]提出的逆梅爾頻率倒譜系數(Inverted Mel-frequency cepstral coefficients,IMFCC)等。類似于MFCC,還有利用線性的三角濾波器組對語聲做出處理后,再求取對數的倒譜系數,得到線性頻率倒譜系數特征(Linear frequency cepstral coefficients,LFCC),由于LFCC在語聲高頻區域可能具有更好的分辨率,其已被證實擁有較好性能。Hanilci[5]提出從線性預測殘差分析信號中提取出幅值和相位,得到線性預測殘差相位函數(Linear prediction residual phase,LPResPhase)、線性預測殘余希爾伯特包絡倒譜系數(Linear prediction residual Hilbert envelope cepstral coefficients,LPRHEC)以及線性預測殘余相位層系數(Linear prediction residual phase cepstral coefficients,LPRPC)特征,用于合成語聲識別,在ASVspoof2015 數據集上取得了較好性能。Sanchez等[6]提出利用相位信息開展對合成語聲的檢測工作,使用相對相位偏移(Relative phase shift,RPS)特征實現了合成語聲的檢測。除此之外,相位特征還包括群延遲特征(Group delay,GD)、修正群延遲倒譜系數(Modified group delay cepstral coefficients,MGDCC)、基帶相位差(Baseband phase difference,BPD)等。Tian 等[7]綜合比對了這些相位特征在合成語聲識別任務中的性能,證實了相位特征的有效性。Todisco 等[8]提出利用基于長時常數Q 變換的倒譜系數(Constant-Q cepstral coefficients,CQCC)特征,該特征是研究者針對偽造語聲識別領域所專門設計的特征,其能更密切地反映出人對聲音感知程度,提取過程是通過對語聲信號采樣恒Q變換(Constant-Q transform,CQT)后,再求對數得到倒譜系數所得到的。在CQCC 特征的基礎上,Yang 等[9]研究提出倒倍頻常數Q 系數和倒倍頻常數Q 倒倍頻系數來進一步優化CQCC特征。Das 等[10]驗證了基于CQT 的擴展恒Q 倒譜系數(extended constant-Q cepstral coefficients,eCQCC)、常數Q 統計量加主信息系數(Constant-Q statistics-plus-principal information coefficients,CQSPIC)特征的性能優于CQCC 特征。子帶特征指的是通過對頻帶中的一部分展開變換所得到的特征。主要包括子帶頻譜質心幅度系數(Spectral centroid magnitude coefficients,SCMC)、子帶質心頻率系數(Subband centroid frequency coefficients,SCFC)等。2020 年,Yang 等[11]提出的恒Q 等子帶變換(Constant-Q equal subband transform,CQEST)、恒Q 倍頻程子帶變換(CQ-OST)和離散傅里葉梅爾子帶變換(Discrete Fourier Mel subband transform,DF-MST),并在ASVspoof2019 LA數據集上取得了較好的效果,這證明了子帶特征也適用于合成語聲識別領域。Laskowski 等[12]提出基頻變化率(Fundamental frequency variation,FFV)特征用于說話人識別領域。Monisankha等[13]將其應用于合成語聲識別上,取得了較好的效果。

上述為目前研究領域主流特征,大部分是針對合成語聲短時內頻率、幅度、相位和長時內語聲信息、部分頻帶特性5 個方面進行設計和持續改進的。但是由于目前計算機對于人類語聲的感知學習能力是有限的,現有成果針對合成語聲的聲學特性表現研究較少,針對合成語聲同真實語聲在聽感上存在的韻律平淡、自然度欠缺的特點所設計的特征較少,且不同特征間的融合探索還可以進一步加強。

1 合成與真實語聲的聲學差異分析

本節通過剖析比對合成語聲同真實語聲在聲學特性上的差異,開展聲學分析,從而證實兩者差異是可通過聲學特性進行體現的。

1.1 聲學研究過程

本文通過使用語聲學分析軟件Praat 對比計算機合成的語聲、人類真實語聲的各項聲學特性,生成相關圖表,分析數據上的差異,從而找到可用以區分合成語聲和真實語聲的依據。其中真實語聲來自于TESS數據集[14],合成語聲來自于利用Jia等[15]提出的說話人風格遷移的方法和SV2TTS 模型在真實語聲的基礎上進行合成。兩者在語義信息、說話人聲音特點上保持了一致。

研究具體過程如圖1 所示。首先在語聲數據集中選取出真實語聲;隨后提取出真實語聲的文本信息與說話人聲音特點,融入至用于語聲合成的神經網絡模型中,得到滿足比對條件的合成語聲和真實語聲樣本;再依次通過不同的軟件進行語聲標注、數據提取、繪制圖表,得到聲學特性的數據統計結果;最后經過分析,得到結論。

圖1 聲學研究流程Fig.1 The process of acoustic research

1.2 聲學研究結果

對合成語聲與真實語聲的基頻、聲強、窄帶頻譜圖3 類聲學特性進行比對以及結果分析,其中真實語聲包含中性、憤怒、恐懼、開心、悲傷5 種情感。這是因為人類往往是在不同情感狀態下進行發聲的,使用不同的情感語聲將能更全面地代表人類語聲的真實發聲情況。分別提取90 條合成語聲與90條真實語聲中的基頻和聲強數據,求取均值和方差值的總體均值,統計結果如圖2、圖3所示。

圖2 合成與真實語聲的基頻、聲強均值及方差數據統計圖Fig.2 The statistical graph of the mean and variance data of the fundamental frequency and speech intensity of the synthetic and real speech

圖3 合成語聲與真實語聲窄帶頻譜比對圖Fig.3 The comparison of narrowband spectrogram of synthetic and real speech

總結合成語聲與真實語聲在聲學特性中的表現差異如下:

(1) 基頻。由圖2(a)可見:合成語聲的基頻均值約為170.75 Hz,而真實語聲的基頻均值約為257.98 Hz;合成語聲基頻方差值約為44.57,真實語聲基頻方差值卻為1849.83。對比之下,可見真實語聲基頻均值和方差值均大于合成語聲,其中方差值要遠大于合成語聲。這是因為人類真實語聲往往會受多方面影響而起伏波動,比如在某些激烈的情緒條件下,聲調變化程度也會加劇,使得基頻方差要明顯大于合成語聲。因此,可利用聲調的變化程度作為區分合成語聲與真實語聲的可靠依據之一。

(2) 聲強。由圖2(b)可見:合成語聲的聲強均值約為83.06 dB,真實語聲的聲強均值約為83.06 dB。對比之下,可見真實語聲聲強均值小于合成語聲,聲強方差值要大于合成語聲。這是因為真實語聲往往節奏多變,致使語聲能量起伏輸出、方差較大。但是語聲的強度大小可受到聲源設備等非語聲自身因素決定,并非合成語聲與真實語聲的根本性差異。由此可知,可利用語聲聲強的變化程度作為區分合成語聲與真實語聲的可靠依據之一。

(3) 窄帶頻譜圖。由文獻[16]以及圖3 可見:合成語聲3000 Hz 以上頻率的諧波存在著明顯缺失,諧波總體形態平直無傾斜,韻頭走向僅存在微小的彎曲,韻尾走向平直,音節過渡區域幾乎沒有抖動,見圖3(a)中藍色方框中無黑色實線;中性語聲諧波整體形態近乎平直,韻頭、韻尾均有微小的彎曲,傾角較小,在音節過渡區域可見明顯但幅度較小的抖動,見圖3(b)藍色方框中線條彎曲;悲傷語聲整體形態呈直線下降趨勢,韻頭、韻尾走向有些許彎曲,過渡區域的抖動較小,見圖3(d)藍色方框中線條起伏彎曲;恐懼、開心、憤怒語聲可見整體形態存在著明顯的、不同程度的傾斜和彎曲,呈下降趨勢,韻頭韻尾彎曲明顯且程度大,音節過渡區域存在明顯較大抖動,見圖3(c)、圖3(e)、圖3(f)藍色方框中線條為曲線,且彎曲程度大。

由上述比對結果可知:在窄帶頻譜圖諧波形態方面,真實語聲較合成語聲的整體彎曲、傾斜程度更大,韻頭韻尾彎曲程度明顯更大,過渡區域的抖動范圍更大。因此,頻譜圖中反映的諧波形態、頻譜分布寬泛程度可作為區分合成語聲與真實語聲的可靠依據之一。

2 合成語聲識別特征研究

表征聲學特性的數據需進一步量化為聲學特征輸入至構造的深度學習模型中,才能讓機器實現自動化識別合成語聲。本節針對聲學比對結果,對不同的聲學特性差異開展了特征量化,設計選用不同的聲學特征及其結合開展實驗,以驗證性能。

2.1 特征化聲學特性

特征化聲學特性的步驟是:(1) 依據聲學實驗結果得到所需數據;(2) 依據數據特點,設計特定算法;(3) 利用特定算法處理聲學數據;(4) 對數據進行變換,突出高價值部分。最終表征出對合成語聲識別任務具有針對性的特征。

本文設計了均方根角(Root mean square angle,RMSA)特征,一種能夠反映聲強變化程度的聲學特征。選取能夠反映出基頻變化程度、語聲頻譜特性的聲學特征,分別為FFV 特征、語聲窄帶頻譜圖(Speech narrowband spectrogram,SNS)特征。其中RMSA與FFV特征為時域特征,包含時序信息;SNS 特征為頻域特征,包含頻譜信息。進一步結合3種特征,將能更加適用于合成語聲識別任務。

2.1.1 RMSA特征

本文提出RMSA特征的具體過程如下:

(1) 語聲數據獲取。輸入語聲,經過16000 Hz采樣和8位量化提取語聲數字信號。

(2)計算語聲均方根(Root mean square,RMS)能量。首先對語聲信號進行分幀處理,其中每幀包含2048 個采樣點,幀與幀間的重疊部分包含512 個采樣點,再計算每幀語聲信號RMS能量,如公式(1)所示:

(3) 向量化輸入數據。為使一維時序型數據變換為二維數據,向原數據中加入時間點數據作為維度一,維度二為該點的數值。

(4) 計算相鄰向量間的余弦距離,如公式(2)所示:

(5) 最后根據計算的余弦距離d,得出夾角余弦值,利用反余弦函數計算對應的夾角度數,得到RMSA 特征,計算過程表示如公式(3)所示:

本文通過利用RMS 能量的計算方式作為特定處理算法表征聲強,能夠更為準確地表征出語聲信號的真實強度大小,有利于提取出周期性變化的語聲信號的每一幀能量,而每一幀的語聲能量有效值則能夠較好地表征出信號在較短時間段內的能量大小。圖4為語聲信號的RMS能量可視化??梢娊涍^計算RMS 能量值大小,將語聲信號的起伏程度以數值上變化的形式有效表征出來,為下一步提取聲強變化率提供了計算條件。

圖4 RMS 能量可視化Fig.4 RMS energy visualization

為量化合成語聲與真實語聲的聲強的變化程度不同,本文進一步計算了相鄰RMS 能量數據間的余弦夾角,如圖5 所示。這樣做可以提高數據精細度,放大相鄰數據差異大的部分,縮小差異小的部分,降低數據的平滑度,從而增強數據的特點。這是因為自然語聲在發聲過程中,往往是起伏較大、律感十足的,劇烈波動對聲強的影響往往較大,相鄰向量間的夾角度數擴大的程度較大,而合成語聲的聲強則會偏于平穩發聲,這使得兩個相鄰向量之間的夾角變化較小。因此經過計算得到兩個相鄰向量間的夾角大小,可以用以衡量數據點之間的差值大小,可以量化語聲在聲強聲學特性上體現的起伏程度。由圖5 可見,下個時間點的數值較當前時間點的增加得越多,則兩者夾角α越大,并且夾角的增幅越大。

圖5 RMSA 特征余弦夾角示意圖Fig.5 Diagram of RMSA feature cosine angle

通過提取語聲信號能量有效值,并量化相鄰兩幀的差異,在一定程度上可以反映出語聲的聲學特性情況和說話人發音時的狀態。因此提取語聲的RMSA 特征表征聲強變化程度可以從語聲聲學特性的角度,提取出聲強的即時變化情況,進而有利于區分合成語聲和真實語聲,有助于提高合成語聲自動化識別的準確率。

2.1.2 FFV和SNS特征

(1) FFV特征。使用韻律學特征中的FFV特征表示了逐幀間的基音頻率瞬時變化的情況,能夠較好體現聲學上的聲調起伏程度,又能較好地適用于合成語聲識別任務,將有助于區分合成語聲和真實語聲。

(2) SNS特征。SNS在頻率上的分辨能力高,相比寬帶頻譜圖,其包含的諧波結構及形態走向更加清晰明了。兩者本質上是同種變換不同參數下的結果。因此,本文直接提取SNS特征,利用機器直接學習和識別輸入的窄帶頻譜圖像,將能比較直觀地學習到合成語聲與真實語聲的頻譜特性差異情況,相較于寬帶頻譜有著更為高效、直觀的優點。

3 合成語聲識別特征驗證實驗

通過比對目前合成語聲識別領域前沿特征,開展合成語聲識別實驗和消融實驗,通過設置對照實驗特征及模型,與本文所提和使用的特征在同一模型下的表現性能進行比對,從而得出特征化聲學特性得到的聲學特征在區分合成語聲任務中的表現情況,用以證明聲學特征的有效性,進一步驗證特征的針對合成語聲識別任務的性能。

3.1 數據集及實驗環境

本實驗使用的數據集為FoR[17]:Fake or Real合成語聲數據集的2 s 語聲標準版。該數據集使用了最新的開源語聲合成(Text-to-speech,TTS)系統包括百度的Deep voice3、谷歌云Wavenet、亞馬遜AWS Polly、微軟Azure TTS 系統等,對選取的特殊短語文本生成聲頻文件;收集了來自Arctic、LJSpeech、VoxForge三個開源數據集和Youtube 視頻播放平臺上的語聲作為數據集中真實語聲的來源。訓練集包含的合成語聲、真實語聲均為8391 條語句,總共16782 條語句,驗證集包含2826 條語句,測試集中包含1088 條語句并且增加了一種訓練和驗證集中沒有的語聲合成方法,用以測試實驗模型和特征的泛化性能。

本實驗使用的評價指標為等錯誤率(Equal error rate,EER)[18],即錯誤接受率(False accept rate,FAR)和錯誤拒絕率(False rejection rate,FRR)相等時的數值。其數值越小,代表性能越好,分類錯誤出現得更少。

實驗工具包括Keras、tensorflow 深度學習框架、sklearn 機器學習工具庫、librosa 聲頻數據處理庫、spafe 語聲特征提取庫、numba 開源編譯器工具庫。實驗運行環境:操作系統為windows 10專業版,圖形運算顯卡為Nvidia Tesla V100-SXM2 32 GB。

3.2 實驗模型及參數設置

為保證能夠在相同的變量條件下開展對照實驗,在實驗模型上根據特征的類型選擇不同的深度神經網絡模型,以保證聲學特征和對比特征在同一模型中開展的同時,保證識別模型的性能。

(1) 時序型特征識別模型。針對以時間序列上排序為重要特性的RMSA 特征、FFV 特征,將使用適用于合成語聲識別任務的包含5 層隱藏層、每層2048 個神經元的深度神經網絡(Deep neural network,DNN)模型。

(2) 譜圖型特征識別模型。針對主要以頻譜圖像為形式的SNS 特征,將使用包含兩層64 個3×3的卷積核、兩層匯聚層的卷積神經網絡(Convolutional neural network,CNN)模型,對特征分類學習。使用該模型連接全連接層,實現二分類輸出為合成或者真實標簽。

(3) 融合特征識別模型。特征融合的方法是通過使用DNN、CNN 模型對聲學特征數據進行深度向量表示后,利用Concat 層融合,一同輸入至全連接層進行二分類輸出。融合特征識別模型結構如圖6所示。

圖6 融合特征識別模型結構圖Fig.6 Structure diagram of fusion feature recognition model

模型的訓練具體參數設置為:使用Adam 優化器,學習率初始化為3×10-4,損失函數使用二值交叉熵函數。為避免過擬合,當訓練過程中損失不再下降超過5 輪時,學習率縮小10 倍。訓練批次大小為128,訓練周期為60輪。

3.3 實驗結果與分析

3.3.1 RMSA、FFV特征有效性驗證實驗

為驗證本文設計的特征在合成語聲識別任務上的有效性以及優化性能,開展消融實驗,進一步對比本文所選用和設計的聲學特征在合成語聲識別領域的適用性,將提取RMS特征、RMS 差分特征比對本文設計的RMSA 特征識別性能;提取Pitch(基頻)特征、Pitch 差分特征比對FFV 特征識別性能,在相同的DNN 模型下進行測試,EER 指標如表1所示。

表1 RMSA、FFV 和對比特征的實驗結果Table 1 Experimental results of RMSA,FFV and comparison features

由驗證集實驗結果可見,6 種特征都能實現在一定程度上識別合成語聲,其中對照設置的RMS、Pitch 特征在模型中的識別效果則分別為25.2%、27.8%。這表明提取出語聲的聲強、基頻聲學特性,并且利用其開展區分合成語聲與真實語聲是可行的。差分特征能夠實現一定程度的識別效果,改進的RMSA和FFV特征優于差分特征。

由測試集實驗結果可見,RMSA 特征、FFV 特征的EER 為28.6%、43.8%,識別效果最佳。這表明本文使用的RMSA特征、FFV特征分別能在一定程度上對合成語聲進行識別的基礎上,對于訓練集中沒有學習過的語聲合成算法的泛化識別性能更好。

通過對比上述實驗結果可以發現:RMSA 特征在驗證集中的性能略差于RMS 特征,優于RMS 差分特征,在測試集中的性能卻同時好于RMS特征和RMS差分特征。這是因為模型通過學習RMS特征,學習到了聲強的數值大小,利用聲強數值上的差異也能夠區分部分合成語聲與真實語聲,但是表征聲強變化程度的RMSA 特征更為根本性地反映了合成語聲在聲學特性上與真實語聲的差異,并進一步增強了差異性表現程度,因此模型通過學習RMSA特征將能擁有更好的魯棒性和泛化性能。

FFV 特征則在驗證集、測試集上均優于Pitch特征及差分特征,但可以發現在測試集中Pitch 特征識別合成語聲失敗,且Pitch 差分特征和FFV 特征的EER 也明顯提高,證明在面對新算法的干擾時,利用基頻特性開展合成語聲識別的魯棒性要差于聲強特性。因此,可見通過提取RMSA特征、FFV特征實現合成語聲的識別,反映出本文所設計的算法能較好地表征出語聲聲學特性的特點的同時,也證明利用聲強、基頻的變化程度差異,區分合成語聲與真實語聲是可行的且性能較好。

3.3.2 SNS特征有效性驗證實驗

為對比SNS 特征,選擇基于語聲頻譜數據為基礎進行變換得到的特征,分別為MFCC、Mel-Spectrogram、CQT、LFCC 特征。以上4 種對比特征均是在語聲頻譜數據的基礎上設計應用不同的算法得到的特征,是目前合成語聲識別領域性能較好、應用較多、設計較為前沿的特征,在欺騙性語聲識別大賽上均能取得較好的實驗效果。同時提取了寬帶頻譜圖中的Formants(共振峰)特征來對比SNS特征。

通過采用相同的CNN 模型分別對SNS 特征以及Formants、MFCC、Mel-spectrogram、CQT、LFCC 特征進行對比實驗,以發現本文使用的SNS特征化頻譜聲學特性的方法對合成語聲識別任務的適用性,驗證所設計語聲的特征的有效性。根據結果計算的EER指標如表2所示。

表2 SNS 和對比特征的實驗結果Table 2 Experimental results of SNS and comparison features

由驗證集實驗結果可見,SNS 特征與對比特征都能識別合成語聲。其中SNS 特征、Formants特征、MFCC特征、Mel-spectrogram特征、CQT特征、LFCC 特征的EER 分別達到了1.2%、3.9%、2.0%、4.5%、7.4%、1.5%。這表明利用頻譜特性為基礎的聲學特征能夠使模型學習到合成語聲與真實語聲之間的差異,并且SNS特征在驗證集中的性能最優。

由測試集實驗結果可見,同為頻譜變換得到的SNS 特征和對比特征在相同的網絡模型下,得到的EER 分別為13.4%、19.6%、26.3%、20.1%、13.8%、20.8%,其中SNS 特征EER 明顯最低。這表明本文使用的SNS 特征對于訓練集中沒有學習過的語聲合成算法同樣保持著較好的識別性能,泛化性能更好。

通過對比上述實驗結果可以發現:SNS 特征在驗證集和測試集當中的識別性能是最佳的。這是因為SNS 特征表征的SNS 中包含了大量語聲頻譜聲學特性,當CNN 模型利用該特性開展合成語聲識別時,能更加直觀地學習到諧波形態與分布寬泛程度的差異,優于寬帶頻譜圖中Formants(共振峰)以及其他特征對于頻譜特性的表達方法。因此,可見通過提取SNS 特征能夠實現合成語聲的識別,在表征出合成語聲與真實語聲頻譜聲學特性差異的同時,也證明利用該差異區分合成語聲與真實語聲是可行的且性能較好。

3.3.3 RMSA、FFV、SNS融合特征消融實驗

通過采用DNN 模型分別對RMSA、FFV 特征進行深度向量表征,采用CNN 模型對SNS 特征進行深度向量表示,以融合特征化聲學特性的聲學特征。將三者的融合特征與消融后的單個特征進行對比,分析融合過程對最終的合成語聲識別所帶來的影響,驗證融合特征的有效性。根據結果計算的EER指標如表3所示。

表3 RMSA、FFV、SNS 融合特征的消融實驗結果Table 3 Results of ablation experiments of RMSA,FFV and SNS fusion features

通過對比可以發現:3 類特征融合后在驗證集和測試集上表現最佳。這是因為不同的聲學特征之間,存在著同質和異質之差的部分。特征數據內部不同部分對目標任務的價值高低也不盡相同。通過模型深度表示的方法對特征進行融合,可以相互補足異質有價值的數據、強化共有的同質關鍵數據以及弱化異質冗余數據。同時,證明了本文使用的3種聲學特征之間的信息冗余較少,不同特征之間可以相互補充,使得融合后的數據信息價值更高。因此,通過利用RMSA、FFV、SNS 的融合特征開展合成語聲識別是有效的,3 種特征之間包含著異質高價值數據,可以進一步降低EER,提升模型的識別性能。

3.3.4 RMSA、FFV、SNS 以及融合特征的損失變化曲線對比分析

在驗證集下的特征損失曲線變化如圖7 所示??梢园l現,圖7(a)中訓練曲線和驗證損失曲線在前10 個周期時下降速度較快,10~30 個周期內緩慢下降,最后大約于第35 個周期逐漸收斂于平穩;圖7(b)中訓練損失曲線和驗證測試曲線在前10 個周期內下降速度快,10~20 個周期內緩慢下降,驗證損失曲線存在波動,在大約第20 和第22 個周期時,訓練曲線和驗證損失曲線開始收斂于穩定值;由圖7(c)可見,訓練損失曲線在小于5 個周期內就收斂平穩,驗證損失曲線在經過2~3 次微小波動后于大約第12個周期就開始收斂于平穩;由圖7(d)可見,訓練曲線和驗證損失曲線均在小于5 個周期內就開始收斂于平穩值,驗證曲線僅經過一次驟升劇降,便趨于穩定下降。

圖7 單個特征和融合特征的損失曲線對比Fig.7 Comparison of loss curves of single features and fused features

通過分析以上的損失曲線觀察結果可以發現:當將RMSA 特征、FFV 特征和SNS 特征融合輸入至模型中時,模型的訓練損失曲線和驗證損失曲線下降速度進一步提高,起伏減少,穩定收斂所需周期進一步減小,反映出融合特征性能最佳。這是因為這3 種特征之間信息重復度較低,經過組合后能夠較好地將合成語聲與真實語聲區分開來。進一步證實特征在本質上所反映出的是語聲聲學特性的不同方面,且均有利于合成語聲的識別,也進一步反映出頻譜聲學特性對于合成語聲識別精度的提高是極其重要的。

3.3.5 融合特征與已有研究成果對比實驗

通過比對表4 可以發現:每組特征在不同的后端神經網絡模型中的性能各不一樣。其中在SERes-Net50 的模型下,本文提出的融合特征效果最佳;在SEResNet34 模型下,AFF 特征的效果最佳。除此之外,所提融合特征相比其他特征在不同模型下的表現差異更小,性能更為穩定。這是由于所提融合特征的構成是來自于頻譜、基頻、聲強3 個不同方面,不同特征之間相互補足,所以面對不同模型均能保持良好性能。融合特征在沒有SE 模塊的ResNet+DNN 模型下的表現依次優于SERes-Net34/SEResNet50+DNN 模型,是因為SE 注意力模塊并不能有效聚焦本文所提融合特征中的關鍵數據信息,導致,實驗EER的提高。

表4 RMSA、FFV、SNS 融合特征和已有研究的實驗結果Table 4 Experimental results of RMSA,FFV,and SNS fusion features and existing studies

由此可見,不同的后端分類模型對特征的性能影響較大。這是因為不同的模型對不同數據類型特征的學習程度不同,好的模型將能更為充分高效學習到關鍵信息。因此,接下來將開發適用所提融合特征的深度神經網絡模型,提高特征利用率,進一步強化識別合成語聲的性能。

綜合上述實驗可見,基于聲強和基頻的變化程度和語聲頻譜特性數據特征化得到的RMSA、FFV、SNS 特征皆可適用于合成語聲識別任務。對比3 種特征性能,在面對已知算法的數據時,三者都擁有較好的性能,能較好地實現合成語聲的識別。而面對訓練集中沒有的新算法干擾時,SNS 特征的泛化性能最優,RMSA特征其次,FFV特征最差,三者通過融合后的性能最佳。

4 結論

為實現利用聲學特性實現合成語聲識別的目標,本文著重論述了基于聲學特性的聲學特征的提取和設計算法,開展了深度學習實驗驗證所提特征的有效性。實驗結果表明,基于聲強、基頻變化程度和頻譜特性數據特征化的RMSA 特征、FFV 特征、SNS 特征模型以及三者的深度融合特征在使用深度學習方法進行合成語聲識別任務中,達到了較好的分類效果,實現了合成語聲與真實語聲的辨別。對于目前合成語聲識別領域大量使用頻域特征進行識別的現狀,從聲學角度進行對語聲差異進行分析描述,拓寬了研究思路,形成了較為完備的特征研究過程,為合成語聲識別領域提供了不同的特征設計方法,為深度學習方法提供了前提條件和實驗基礎。

在后續深化研究的過程中,將設計和使用更優的深度神經網絡模型,改進深度學習方法,針對所提聲學特征設計優化識別模型結構,提高聲學特征的使用效率,更大程度地發揮聲學特征效能。進一步拓展研究深度,將能使得合成語聲的識別更加準確。

猜你喜歡
聲強基頻聲學
三維聲強與振速波束形成結合的聲源識別方法研究
超音速聲強近似測量方法
語音同一認定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
橋面鋪裝層對中小跨徑橋梁基頻影響分析
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
45000kHz基頻晶體濾波器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合