?

基于功率譜的美聲發聲特征提取?

2024-01-05 07:16王舒蕾齊婷婷張義民
振動、測試與診斷 2023年6期
關鍵詞:波谷箱式錯誤

張 凱, 王舒蕾, 齊婷婷, 張義民

(1.沈陽化工大學裝備可靠性研究所 沈陽,110042) (2.沈陽音樂學院戲劇影視學院 沈陽,110818)

引 言

美聲唱法由于音色清脆高亢、靈活多變及音量較大[1],對于歌唱者的發聲技巧要求較多,且美聲唱法的共鳴是“所有腔體共同運作達到整體效果的展現”。相比于其他唱法,美聲唱法需要共鳴腔體以及骨骼都參與共鳴,即要求身體的各個器官放在一起共同產生共鳴。其他唱法參與共鳴的器官相對較少,發聲的位置也有所不同[2],導致美聲初學者在頭腔、口腔、胸腔和咬字等方式上相對于其他唱法出現的問題較多。目前,在聲樂領域的教學中,基本是通過老師的言傳身教來糾正學生歌唱技巧上的錯誤。為了更深入研究美聲發聲的特點,筆者利用美聲發聲信號的功率譜去評價初學者的發音狀態,從振動理論的角度比較發音的異同,從功率譜中提取美聲發聲的信號特征。

國內外學者圍繞美聲發聲原理開展了相關研究。文獻[3-5]從聲門振動和空氣動力學的角度對聲音信號進行了分析。Mayr[6]利用長期平均頻譜(long-term average spectrum,簡稱LTAS)和功率譜對美聲男高音的生理和聲學特征進行了研究,比較了假音和胸腔音的差異。Souza[7]通過對女高音的共振峰分析比較,得到音高的變化會導致基頻和共振峰的不同。Hasan 等[8]使用經驗模態分解(empirical mode decomposition,簡稱EMD)方法對歌曲的清音和濁音進行能量估計,以觀察學習者歌聲中的差異和錯誤。Zysk 等[9]設計了一套聲音記錄程序,利用頻譜特征對女高音的頭部和胸部音域表演進行分類。Barlow 等[10]根據平均元音譜(average vowel spectra,簡稱AVS)和長期平均譜對歌手在古典和現代風格之間的聲樂作品的差異進行了量化。

國內學者的研究主要集中在美聲唱法與民族唱法、流行唱法的融合與對比領域[11-13],但針對聲音信號特點進行研究的文獻較少。錢一凡等[14]針對標準元音提取了其基頻、共振峰和各通道振幅,比較不同元音的聲學特征,分析得知不同的元音發聲與身體不同部位的共鳴有關。

大部分關于發聲信號的研究采用傅里葉變換的方法,將原時域信號轉化為頻域信號。然而,頻域信號僅對變換后信號的實部進行對比,忽略了相頻信息。另外,對美聲唱法樣本的采集主要集中在美聲與通俗唱法的對比上,但是通俗唱法從發聲特點上與美聲唱法存在明顯差異,難以突出美聲聲音信號的特殊性。

針對上述問題,筆者利用功率譜的估計對信號進行研究,即從能量的觀點對信號進行分析,保留頻譜法所丟掉的相位信息。同時,從美聲初學者與歌唱技巧成熟的美聲老師中提取樣本并進行對比研究。因為美聲初學者的發音近似美聲,所以更適合對美聲發音的規范性進行系統評價。

1 基于功率譜發聲信號特征提取步驟

筆者對美聲聲音信號的特征提取主要分為以下步驟:①對聲音信號進行采集;②對采集到的聲音信號進行端點檢測處理,去除無用的語音段;③對處理后的信號做Burg 法功率譜分析;④將得到的功率譜進行局部二次回歸平滑處理。

1.1 聲音信號樣本的采集與端點檢測

對5 名美聲初學者和3 名美聲老師進行女高音信號的采集、篩選和分類。錄音時要求發音人在相同錄音環境下依次清唱出基礎元音/a/,/i/和/u/,在錄制的聲音樣本中選取發聲時長在3~5 s 的語音信號,最終得到老師的發音樣本50 條(設定為正確發聲信號)和學生的錯誤發音樣本350 條。美聲老師分別對學生的樣本進行錯誤分析,指出發聲存在的問題,總結出“口腔沒打開”、“咬字位置不正確”等一系列錯誤原因。為了便于分析,下面只討論發聲為/a/的分析結果,并不影響其統計規律。

由于采集到的美聲信號中存在無效的靜音段和噪聲段,會對功率譜分析和特征提取存在一定程度的干擾,增加運算量,因此需要對聲音信號進行端點檢測,確定其起點和終點,以便提高計算效率。筆者采用一種基于短時能量和譜質心特征進行端點檢測的方法[15],其方法步驟如下。

首先,對語音信號中的每一幀提取短時能量,設xi(n)(n=1~N)為第i幀信號,長度為N,該幀的能量E(i)為

其次,提取該幀的譜質心。設第i幀的譜質心Ci為

其中:Xi(k)(k=1~N)為第i幀的離散傅里葉變換;N為幀長度。

最后,估計短時能量和譜質心特征序列的閾值,設M1和M2分別為2 個局部最大值的位置,則閾值T為

其中:W為筆者設置的參數,W越大,閾值就越靠近M1。

經過上述閾值化處理,可以得到一段標記語音段的閾值化序列,將該序列代入原始信號中,就可獲得語音段在原始信號中開始和結束的位置。

1.2 Burg 法功率譜估計

將完成端點檢測的信號進行Burg 法功率譜分析。在對隨機信號的分析中,可以利用自回歸(autoregressive model,簡稱AR)模型進行功率譜估計。其中,Burg 法無需對自相關函數進行估算,而是用已知序列x(n)求出反射系數,再利用Levinson 遞推算法,由反射系數來計算回歸模型參數,以得到較好的譜估計結果。

利用Burg 法估計AR 模型參數,首先要確定式(4)所示的初始條件,其次根據序列x(n)求出式(5)所示的自相關函數σ20

令k=1,計算AR 模型的反射系數Kk

在Levinson 關系式的ak(i)(i=1~k-1)中,分別代入p階AR 模型反射系數和p-1 階AR 模型反射系數,計算aki(i=1~k-1)、前向預測誤差ek(n)和后向預測誤差bk(n),分別為

根 據計 算 出σ2k,令k=k+1。重復上述步驟,直至預計的階數為止,以求出所有階的AR 模型參數。

Burg 估計算法的遞推過程建立在已知序列的基礎上,很好地避免了對于序列自相關函數的計算,與其他算法相比,有著較好的頻率分辨率[16]。

1.3 局部二次回歸平滑

筆者使用局部二次回歸平滑對Burg 法得到的功率譜進行平滑處理。局部二次回歸平滑就是使用二次多項式作為局部多項式的回歸擬合,是一種用于局部回歸分析的非參數方法。

在對信號進行二次回歸平滑時,首先要確定擬合點的數量和位置,再以擬合點為中心,確定k個最鄰近的點,通過權重函數計算這些點的權重。其中,對權重的計算要先確定區間內的點到擬合點的x軸的距離,找到區間內的最大值,然后對其他距離做歸一化處理。歸一化函數表達式為

使用三次指數函數對權重進行轉化,三次函數表達式為

接下來對區間內的散點進行局部二次回歸擬合,考慮到離擬合點的遠近不同,點的取值對擬合線的影響也不同,故在定義損失函數時,應率先降低近的點與擬合線的誤差,即對最小二乘法加上權重。加權最小二乘法的表達式為

對區間內的樣本進行多項式擬合后,不斷重復擬合過程,得到不同區間內的加權回歸曲線,最后通過對回歸曲線中心的連接,便可生成完整的平滑曲線。

1.4 BP 神經網絡

筆者選取BP 神經網絡用于美聲特征的分類。BP 神經網絡作為一種多層的前饋神經網絡,由輸入層、隱藏層和輸出層組成。本研究對BP 神經網絡設置2 個隱藏層:第1 個隱藏層包含10 個神經元,使用線性函數作為激活函數;第2 個隱藏層包含2 個神經元,使用對數S 形轉移函數作為激活函數。所選樣本數據為平滑處理后的信號功率譜特征值,最后選擇梯度下降自適應學習率的反向傳播算法作為訓練函數來訓練BP 神經網絡。

2 實驗數據采集與分析

采集某音樂學院5 名女高音新生和3 名老師的美聲發聲信號共400 條,利用Matlab 軟件對經過預處理的美聲信號進行Burg 功率譜估計,對比正確樣本與錯誤樣本之間功率譜形態走勢的區別,對與正確功率譜圖像差距較大的地方做函數圖像的擬合,并提取譜圖的特征參數,最后比較科學美聲發聲和錯誤美聲發聲之間功率譜曲線與參數的差距。

2.1 信號的Burg 功率譜估計

聲音信號端點檢測時域波形如圖1 所示。首先對采集到的美聲信號進行端點檢測,原始信號的時域波形見圖1(a),去除多余的靜音段和噪聲段,得到無干擾的聲信號時域波形見圖1(b)。

圖1 聲音信號端點檢測時域波形Fig.1 Time domain waveform of sound signal endpoint detection

將預處理后的信號帶入25 階AR 模型,美聲發聲信號功率譜曲線如圖2 所示,得到正確美聲信號功率譜和3 種具有代表性的、不同錯誤類型的美聲信號功率譜。根據圖中功率譜整體的波動和走勢情況,可將功率譜劃分為3 個能量區,如圖2 中豎線所示。其中:0~6 kHz 為第1 能量區;6~11 kHz 為第2能量區;11~15 kHz 為第3 能量區。

圖2 美聲發聲信號功率譜曲線Fig.2 Power spectrum curve of bel canto signal

由功率譜曲線可以看出,高音信號的功率譜整體均呈下降趨勢。由圖2(a)的標準美聲信號功率譜中可以發現,1,6 和15 kHz 處均存在明顯的峰值變化,6 kHz 處有明顯的下降趨勢,波谷平均深度為-100 dB,與波峰有著40 dB 的落差。曲線從10 kHz開始平穩下降且無較大波動,在15 kHz 處下降速度加快,曲線陡峭,至17 kHz 處降至最低點-140 dB。

在錯誤美聲信號的功率譜中,圖2(b)所示的錯誤樣本1 存在著“口腔沒有打開、氣息沒有用上”的錯誤,其功率譜在6 kHz 處的波谷相對較淺,與左側波峰的落差僅有20 dB,而在15 kHz 處的曲線呈明顯上升趨勢的波動,持續約1 kHz 后加速下降至最低點。由圖2(c)所示的錯誤樣本2 可以看出,曲線在1,6 和11 kHz 處均有波谷產生,且波動幅度較大,曲線相對不穩定,存在“咬字位置不對”的錯誤,在15 kHz 處變陡加速下降。由圖2(d)所示的錯誤樣本3 可以看出,曲線整體無較大波動,幾乎呈平穩態勢下降,直至15 kHz 處曲線變陡并下降至最低點,存在“口腔發聲位置錯誤”的問題。

從能量區的分割上可以看出,錯誤樣本曲線在每個能量區中均有不同幅度的波動;而正確樣本曲線只有在進入第2 能量區后有一處波谷,從第2 能量區中部至第3 能量區結束之間的圖像下降勻速,無明顯起伏特征。

2.2 信號的曲線擬合與箱式圖

基于上述情況,筆者在功率譜曲線區別較大的區間內進行基于最小二乘法的一階擬合和二階擬合,得到一元二次曲線方程和一元一次直線方程,再對2 種方程的系數取平均值和方差。其中,一元二次方程擬合了3~7 kHz 之間功率譜中存在的波谷曲線,由于2 種信號在其區間內的變化差距較大,得到的方程在系數上有著較大差別。功率譜曲線一元二次方程擬合系數如表1 所示,正確發聲信號曲線的一次項系數b大于錯誤信號,而二次項系數a和常數項c則小于錯誤信號。

表1 功率譜曲線一元二次方程擬合系數Tab.1 Fitting coefficient of the power spectrum curve by the quadratic equation

在曲線方程中,二次項系數a代表函數拋物線的開口大小,a的絕對值越大,拋物線的開口越窄。對于2 條拋物線A1x2+B1x+C1y+D1=0 和A2x2+B2x+C2y+D2=0,其開度公式分別為

將正確信號和錯誤信號的多項式系數分別代入σ1和σ2,得到σ1>σ2,即正確信號拋物線的開口度要大于錯誤信號。

再對圖中10~15 kHz 的下降直線進行擬合,得到了斜截式的一次函數直線方程,功率譜曲線一元一次方程擬合系數如表2 所示??梢园l現,正確信號的斜率k要小于錯誤信號,而截距b大于錯誤信號,即正確信號的傾斜坡度較大,錯誤信號坡度較為平緩。

表2 功率譜曲線一元一次方程擬合系數Tab.2 Fitting coefficient of power spectrum curve by linear equation

為了更直觀地觀察數據的離散分布情況,了解數據分布狀態,將擬合出的多項式系數進行箱式圖分析,如圖3 所示。由圖3(a)所示的二次項系數a的箱式圖可以看出:錯誤信號的系數整體低于正確信號,其箱式圖長度較短,數據多集中分布在很小的范圍內;正確信號的箱式圖較長,表明數據間差異比較大,方差也大于錯誤信號。由圖3(b)所示的斜率k的箱式圖可以看出:正確信號的數據波動較大,但在錯誤信號中存在一處離群值,導致方差比正確信號的方差大。

圖3 多項式系數箱式圖Fig.3 Box-plot with polynomial coefficients

由箱式圖可知,在二次項系數箱式圖的5×10-6處和斜率箱式圖的-3×10-3處均有明顯的分界,可以把正確信號和錯誤信號按照分界數值直接區分開,故采用閾值法的識別率可達到100%。

對美聲信號的功率譜曲線做特征值統計,如表3 所示。由表可知,錯誤信號的方差明顯大于正確信號,說明錯誤信號的功率譜數據波動較大,數據分布比較分散,在平均數附近波動較大,且存在較大的上下限差。

表3 美聲信號功率譜統計特征值Tab.3 Statistical eigenvalues of power spectrum of bel canto signal

2.3 基于BP 網絡的神經分類

對400 條聲音信號進行訓練集和測試集的劃分,其中75%的數據作為訓練集導入BP 神經網絡中進行訓練,使BP 神經對兩類發聲信號的特征值有記憶能力;再將剩余的15%數據作為測試集,來測試BP 神經網絡的識別正確率。BP 神經網絡收斂圖如圖4 所示,由圖可以看出,訓練在120 次左右達到收斂,識別率為95.23%。

圖4 BP 神經網絡收斂圖Fig.4 Convergence diagram of BP neural network

由BP 神經網絡的識別結果可知,相比于利用BP 神經網絡對美聲進行分類,基于系數箱式圖的閾值法可以更直接地將2 種類別區分開,且識別率達100%。因此,采用函數擬合的方法明顯優于直接對功率譜特征值進行分類訓練的方法。

3 結 論

1) 標準美聲唱法的功率譜僅在6 kHz 左右有一處明顯的波谷,下降落差約為40 dB,其余頻率并無較大的波谷產生。在錯誤的美聲唱法中,有些譜線沒有明顯的波谷,而有些譜線波谷較多,波動幅度較大。對3~7 kHz 內的波谷曲線和10~15 kHz 內的下降直線分別做一元二次函數擬合和一元一次函數擬合,可以得出正確信號在擬合的曲線上有著更大的開口度和更深的波谷,在直線上有著更大的傾斜度。在系數箱式圖中使用閾值法,可以將2 種類型的信號直接區分開。

2) 根據功率譜的波動和走勢,可將其劃分為3個能量區。在能量區中,錯誤樣本的曲線波動頻率更大,且在區域交界處有波谷;正確樣本僅在第1、第2 能量區之間有波動,其余區域波動較不明顯。

3) 使用美聲聲音信號功率譜進行2 種聲音信號的BP 神經網絡訓練和分類識別,識別正確率可達95.23%;而使用系數閾值法,可實現對2 種發聲信號的100%分類,表明本研究提出的美聲發聲信號特征閾值法更加有效。

4) 可以利用筆者目前的研究結果建立一套針對美聲發聲的打分系統,用于評估聲樂初學者在發聲訓練時的標準程度。

猜你喜歡
波谷箱式錯誤
在錯誤中成長
板厚與波高對波紋鋼管涵受力性能影響分析
智能箱式變電站的應用探討
梅緣稻
基于音節時間長度高斯擬合的漢語音節切分方法
不犯同樣錯誤
箱式分區亭在鐵路供電系統中的應用分析
鋼筋混凝土箱式涵洞的構造及施工
《錯誤》:怎一個“美”字了得
鋰電池一體化箱式移動電源系統的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合