?

基于加權彈性網絡回歸的個性化HRTF方法研究

2024-01-17 07:17馮瑩依劉海生
聲學技術 2023年6期
關鍵詞:估計值生理受試者

馮瑩依,劉海生

(同濟大學聲學研究所,上海 200092)

0 引言

在過去的幾十年中,用于模擬空間聲源的音頻信號處理技術受到越來越多的關注,并在實際生活中得到應用,如沉浸式虛擬環境[1-2]、虛擬樂器[3]、AR 耳機[4]等。其中,基于頭相關傳輸函數(Head Related Transfer Function,HRTF)的聲信號處理技術是虛擬聽覺技術的重要組成部分。HRTF指人耳鼓膜處接收到的聲壓與同一聲源在頭移開后在頭中心產生的聲壓之比[5],在自由場條件下,聲源的空間位置信息可以通過這樣一對左右濾波器處理得到。所以HRTF對于空間聲重放有著重要意義。

HRTF反映了聲音信號從聲源傳遞到聽者耳膜的路徑中的所有線性變化,包含了人體軀干、頭部以及耳廓等的反射和衍射效應[5]。然而每個人的生理參數都不相同,即HRTF 是個性化的。研究發現,在實際應用中使用非個性化的HRTF會導致聲像前后反轉[6]、仰角誤認[7]以及頭中定位[8]等情況。因此,使用個性化的HRTF 才能獲得更佳的聽覺效果。

當前對個性化HRTF的獲得方式主要有實際測量、仿真計算以及近似估計等[9]。實際測量是獲取HRTF最直接的方法,但對于設備與人員操作的要求都較高,且過程復雜繁瑣,所以對每一位受試者進行實測是不現實的。同樣仿真計算對計算設備的要求也比較高。為了便于HRTF的相關研究,許多實驗室公開了測量結果,一些通用數據庫中還包含了受試者的生理參數數據,如被使用較多的來自美國加州大學戴維斯分校圖像處理和集成計算中心(CIPIC)的數據庫[10]等。

考慮到HRTF與生理參數的相關性,基于生理參數的近似估計獲取HRTF的相關研究在近些年廣泛展開。Zotkin等[11]提出假設:如果受試者之間的生理參數相同,那么其對應的HRTF 也應該相同。他們通過匹配新受試者的生理參數與數據庫中所有樣本生理參數之間差值最小的樣本作為新受試者的HRTF,不過在這種方法中僅使用了7個生理參數,且在數據庫匹配過程中略顯粗糙。近年來Zotkin課題組仍在為如何實現快速便捷地獲取個性化HRTF做出相關工作,2022年研究了通過2D耳朵照片與頭部尺寸計算誤差來匹配到數據庫中的耳朵,以實現HRTF個性化匹配結果[12]。Lu等[13]使用稀疏主成分分析和稀疏表示的匹配算法獲取數據庫中與受試者具有相同稀疏系數的HRTF數據,并通過兩個數據庫客觀驗證了方法的有效性。但即使是最接近的匹配并不能保證在所有情況下都有很好的效果,因為這種方法只是返回數據庫中最接近的非個性化HRTF,而且并不允許受試者對HRTF 進行相應的調整。此外,一些研究通過將生理參數與HRTF建立映射關系,從而通過新樣本的生理參數得到新的HRTF。如使用神經網絡的算法,Chen等[14]使用基于生理參數的深度神經網絡自動編碼獲得HRTF,Lu 等[15]提出一種基于生理參數和聲源方向重構HRTF的深度神經網絡模型。但使用這類方法對樣本數據數量的要求比較大,較少的樣本實驗數據可能會導致過擬合的情況從而產生誤差。

有研究者試圖不直接建立生理參數與HRTF之間的映射關系,簡化新樣本HRTF的獲取過程。Bi‐linski等[16]假設HRTF可以通過生理參數的稀疏表示得到,即將新樣本的生理參數用數據庫中的生理參數進行稀疏表示得到稀疏系數,繼而與數據庫的HRTF 合成來得到新樣本的HRTF 幅度,結果也驗證了這種方法的有效性。后續的研究對數據的預處理和后處理方式進行了改進與比較,進一步提高了方法的性能[17-18]。然而在進行稀疏表示時,以上方法都使用的是僅含有L1范數的套索回歸算法(Least Absolute Shrinkage and Selection Operator,LASSO)。L1 范數可以產生稀疏性,但僅保留貢獻較大的參數,往往會忽視一些信息,使得回歸結果不能全面地反映參數的貢獻。Zou等在21世紀初提出了彈性網絡(Elastic Net,EN)算法[19],他們表示若在LASSO回歸的基礎之上引入L2范數,在L1范數保證結果的稀疏性同時,L2 范數保證篩選參數的全面性,可以達到更理想的效果。

相較于認為所有生理參數對HRTF貢獻相同的算法,考慮生理參數與HRTF幅度的相關性而對不同的生理參數進行加權更能反映參數值的貢獻,從而可以提高估計值的準確性。在此基礎上結合EN回歸算法的優越性,本文提出了一種基于加權彈性網絡回歸的個性化HRTF方法。本文首先將對公開數據庫中樣本的生理參數與對應的HRTF幅度進行相關性計算,獲取不同參數的權重對其進行加權,然后使用加權彈性網絡回歸計算新樣本與數據庫中樣本生理參數的稀疏系數,最后將得到的稀疏系數與數據庫樣本的HRTF集結合就可以得到新樣本的HRTF幅值。使用這種算法,只需要獲得受試者的生理參數,就可以簡單有效地獲取個性化HRTF的估計值。

1 HRTF個性化算法

1.1 HRTF數據庫

本文中使用的數據庫是CIPIC數據庫,其中包括了45位受試者在1 250個方向上的數據,以時域即頭相關脈沖響應(Head Related Impulse Response,HRIR)的形式存儲。同時該數據庫提供了對應的27項生理參數,但只有35組數據具有所有的27項生理參數記錄值。本文研究將使用這些完整的數據展開。同時為了驗證算法的有效性,將選擇其中的32組數據為數據集,其余3組為檢驗樣本。

1.2 HRTF預處理

在自由場條件下,HRTF的定義式可以表示為

其中:HL、HR分別表示左右耳的HRTF,PL、PR分別表示左右耳接收到的聲壓,P0表示同一聲源在頭移開后在頭中心位置產生的聲壓,r表示聲源到聽者的距離,θ表示聲源的方位角,φ表示聲源的仰角,f表示頻率,a表示聽者的頭部半徑。

因為在CIPIC數據庫中數據是以時域的形式存儲的,所以首先對數據庫中的HRIR 數據進行256點的快速傅里葉變換使之轉換為頻域上的HRTF,然后再對HRTF進行取幅度的處理,本文將對幅度進行個性化合成:

其中:Horiginal表示原始數據庫中的HRTF 集,H表示處理后的HRTF幅度矩陣,大小為129×32。

1.3 人體測量參數選擇

目前研究對生理參數的選擇并沒有一個統一的標準,且不同研究中采用的篩選方式不同導致最后篩選出的結果也不相同。由于CIPIC數據庫中的幾項生理參數測量不便,本文考慮到生理參數獲取的便利性,參考文獻[20]中的方法,選擇用3 張平面圖就可以讀出的19項生理參數,如圖1所示。

圖1 生理參數示意圖[20]Fig.1 Schematic diagram of anthropometric features[20]

1.4 權重計算

已有研究發現,不同的生理參數對HRTF的貢獻并不相同[17-18]。本文通過計算相關性來對不同的生理參數進行加權。結合已有文獻中的方法,首先將數據庫中的P位受試者樣本的B項生理參數數據構成一個二維數組AB×P,即:

其中:Ab,p表示第p個受試者樣本的第b項生理參數。然后再對生理參數進行標準化:

本文通過成對比較來評估不同生理參數對HRTF的貢獻。首先計算B項生理參數的2B-1種生理參數組合下,兩受試者之間生理參數的距離與相應兩受試者譜偏差(Spectral Deviation,SD)的相關性,即:

其中:wb為第b個生理參數對應的權值,tb表示第b個生理參數在相關性最大的生理參數組合中出現的次數。由式(8)計算在本文中得到的權值,結果如表1所示。

表1 各生理參數對應的權值表Table 1 the weights corresponding to anthropometric features

1.5 加權彈性網絡回歸

結合1范數和2范數共同作用的優越性,以及上文中對不同生理參數根據相關性賦予不同的權值,本文提出加權彈性網絡回歸來獲得新樣本的生理參數稀疏表示,表達式為

其中:α=[α1α2…αP]T表示新樣本生理參數在數據庫中樣本集生理參數的稀疏系數,w=[w1w2…wB]是由上部分計算出的權值組成的數組,A0表示新樣本的生理參數,A表示數據庫樣本集對應的生理參數集,λ1和λ2表示正則化參數。為了便于后續的計算,對式(9)進行整理,令:

其中:β?[0,1]。將式(10)代入式(9)得到整理后的基于加權彈性網絡回歸對生理參數進行稀疏表示的表達式:

1.6 貝葉斯優化

因為式(11)中存在兩個未知參數,且理論上β與λ有無數種組合方式,而參數的選擇也會影響最終效果。因此需要一種簡單有效的方式找到最優解。本文選擇使用貝葉斯優化來實現參數的選擇。

貝葉斯優化是一種全局優化算法,能夠更加有效地找到全局最優解。因為貝葉斯優化過程是尋找實現最大化采集函數的參數β與λ,所以本文以估計值與真實值的偏離程度作為評判指標,即選擇譜偏差的倒數作為指標函數,第d個聲源方向上的譜偏差RSD(θd,φd)的表達式為

在強化思想教育的同時,也要加強對黨員干部特別是領導干部的嚴格管理。一方面,嚴格考核干部。明確干部考核指標,提升干部考核的針對性,推進述職評議考核,落實督查、問責、約談機制,督促干部落實責任,推進考核評價結果與干部晉升薪酬等掛鉤。另一方面,嚴格監督干部。加強對班子換屆、干部調整、機構改革、婚喪嫁娶、新居喬遷、子女考學等重點時段的監督檢查,健全“為官不為”的教育懲戒機制與容錯糾錯機制。

令:γ=γ(λ,β),于是指標函數y(γ)可以表示為

參考文獻[21]所述,本文選擇高斯過程和上置信邊界作為概率先驗模型與采集函數,這樣的配置具有高靈活性和可擴展性,也利于整個優化過程的進行。首先構造一個高斯過程:

其中:e為均值函數,k為核函數。為方便起見,本文中取e=0,k選擇平方指數協方差函數。對于每一組Γ=[γ1γ2…γz]T都滿足一個聯合高斯分布N(0,K),K為協方差矩陣,即:

假設有一組一致的樣本點{Γ,Y},Y=[y1y2…yz]T,對一組新樣本yz+1,有:

其中:K'=[kz+1,1kz+1,2…kz+1,z]??伤愠鰕z+1的后驗概率:

最后設置上置信邊界函數,表達式為

1.7 HRTF合成

結合上述,我們就可以通過獲得的稀疏系數來合成新樣本的HRTF幅值,即

其中:α=[α1α2…αP]T是由式(11)計算出的稀疏系數,H為式(2)處理得到的數據庫樣本的HRTF幅值,H′表示通過本文算法得到的新樣本HRTF對數幅值的估計值結果。最后將對數幅度轉換回初始單位即可得到最終結果:

其中:Hnew表示通過新樣本生理參數計算得到的HRTF幅度估計值。

圖2給出了個性化HRFF算法的流程圖。

圖2 個性化HRTF算法流程圖Fig.2 Block diagram of the personalized HRTF method

2 算法測試與結果分析

本章將展示本文提出算法的有效性。首先取測試樣本1的生理參數代入算法,通過貝葉斯調參獲得加權彈性網絡回歸的最優參數組合(0.02,0.5)。測試樣本1合成結果與實測曲線對比圖如圖3所示。圖3 中展示的是分別在豎直方向上平移了70 dB 和140 dB的結果,位置點使用的是CIPIC的坐標系規定,括號中的角度數據前者表示方位角大小,后者表示仰角大小。由于篇幅有限選擇了三個位置,分別是水平面同側耳方向、水平面異側耳方向以及一個中垂面仰角方向,可以看到估計值與實測值比較接近,曲線走向基本一致。同時相較于低頻段,估計值在高頻段誤差較大。同樣的方法我們可以獲得其余測試樣本的合成結果。

圖3 測試樣本1合成結果與實測曲線對比圖Fig.3 Curve comparison between the synthetic results and the measured results of test sample 1

得到三個測試樣本的HRTF幅度估計值后,為了進一步展示不同頻段的合成效果,根據式(12)和式(13)計算估計值與測量值在不同頻段不同位置點的譜偏差來進行比較。為說明在低頻段、不同的峰谷頻段以及全頻段的合成效果,這里分別計算了每一個測試樣本在0~8 kHz、4~10 kHz、10~16 kHz以及0~22.5 kHz 的平均譜偏差結果,如表2所示??梢钥吹?~8 kHz的譜偏差相較于其他頻段是比較小的,而在10~16 kHz頻段的譜偏差甚至要高于全頻段,說明該算法對于低頻段的合成效果是較好的,但對峰谷頻段的合成上有待進一步的提高。

表2 測試樣本在不同頻段下的平均譜偏差Table 2 Average spectral deviations of test samples in different frequency bands

Nishino 等[22]經過實驗驗證后得出結論:在小于8 kHz 的頻率范圍內,HRTF 估計值的譜偏差小于4.0 dB就可以有足夠的聲音定位效果。對不同聲源位置點在小于8 kHz頻率范圍與全頻帶范圍內的譜偏差結果比較,結果如圖4所示。這里的位置點指的是數據庫HRTF 測量的共1 250 個位置點。從圖4中可以直觀看到不同位置點的合成效果是不同的,且相較于與耳同側聲源位置,異側聲源的譜偏差明顯更高,這可能是因為聲源到達同側耳要比到達異側耳的接收點過程中受到的反射、散射等較少,使得頻譜曲線較平滑,細節較少,使用算法獲得的估計值結果能更接近實際值,從而使得相比之下的譜偏差更小。同時從圖4可以比較明顯地看出相較于全頻帶,合成結果的準確度在小于8 kHz的頻帶內較好,且在大多數位置點滿足譜偏差小于4.0 dB,這也進一步說明了本文方法的有效性。

圖4 在不同帶寬范圍內的平均譜偏差對比圖Fig.4 Comparison of average spectral deviations in different bands

因為所用到的數據庫樣本數量有限,本文在此基礎上對數據使用留一法(Leave One Out,LOO)進行交叉驗證,計算了每一個樣本作為測試集的平均譜偏差結果,繪制了曲線圖,結果如圖5所示??梢悦黠@看出所有的譜偏差結果都約為一定值,通過計算獲得所有值的平均值為5.42 dB,與測試集得出的結果相近,證明了本文算法的有效性與結果的可靠性。

圖5 本文算法的平均譜偏差交叉驗證結果Fig.5 The result of the average spectral deviation obtained by cross-validation of the method proposed in this paper

為了進一步展示本文算法的有效性,將與文獻[16]和文獻[18]中使用的LASSO 回歸以及加權LASSO 回歸方法進行對比。觀察數據庫中的生理參數可以發現,左右耳的生理參數并不是完全對稱的,于是在計算中同時考慮了這一特殊性,即分別計算了左右耳的譜偏差結果以及平均譜偏差進行對比,結果如表3所示。觀察表3中的數據可以看到,無論是左右耳結果還是平均結果,本文算法的平均譜偏差結果都小于另外兩種算法的結果。同時可以發現,左右耳的結果并不是完全相同的,且有的方法實現的左右耳結果會存在較大的不同??紤]到左右耳的差異,在后續的相關研究中有必要使用左右耳不同的數據來分別進行合成計算。

表3 三種方法下的平均譜偏差Table 3 Average spectral deviations under three methods

結合平均譜偏差結果,圖6是不同算法下測試樣本在不同位置點的左耳平均譜偏差結果。通過前兩種算法比較可以看出,對生理參數進行加權可以提高估計值的準確性,說明在使用生理參數來估計HRTF幅度中,考慮不同參數的不同貢獻值進行計算是有必要的。比較文獻算法與本文算法,本文的EN 算法在L1 范數的基礎上引入L2 范數來進行回歸計算提取稀疏系數,L1 范數保證結果的稀疏性同時,L2 范數保證篩選參數的全面性,能進一步提高估計值的準確度,這一點從結果數據中也得到了證明。

圖6 使用三種方法在不同位置點上的平譜偏差對比圖Fig.6 Comparison of the average spectral deviations at different locations with three methods

3 結論

本文在已有用稀疏表示獲取個性化HRTF方法的基礎上,提出一種基于加權彈性網絡回歸的個性化HRTF算法。該算法只需獲得新樣本的生理參數即可合成個性化HRTF幅度,使用加權彈性網絡回歸的方法進一步減小了估計值與真實值之間的譜偏差,提高了估計值的準確性。本文方法使用的生理參數可以直接從三張平面圖讀取出來,簡化了生理參數的獲取過程。研究結果表明,該方法有較好的合成效果,尤其在中低頻段的譜偏差較小,進一步提高了使用稀疏表示合成個性化HRTF 幅度的準確度。

雖然本文方法相較于之前的稀疏表示合成HRTF的方法準確度有所提高,但最終得到的結果仍然存在一定誤差,部分位置點的譜偏差較大,所以對于單個點的合成準確度還有待進一步提高。除此之外,從估計值與真實值的對比來看,該算法在不同頻段出現的誤差不同,后續可以考慮對低頻、中頻和高頻用不同的預測模型以及精度要求展開研究。最后,本文是獲取HRTF幅度估計值的一個計算過程,僅做了客觀驗證的工作,未來的工作可以對相位進行獲取并使用感知定位測試的方法來驗證HRTF估計值的主觀有效性。

猜你喜歡
估計值生理受試者
涉及人的生物醫學研究應遵循的倫理原則
涉及人的生物醫學研究應遵循的倫理原則
涉及人的生物醫學研究應遵循的倫理原則
打破生理“平衡”
一道樣本的數字特征與頻率分布直方圖的交匯問題
基于BP神經網絡的旋轉血泵生理控制
涉及人的生物醫學研究應遵循的倫理原則
統計信息
2018年4月世界粗鋼產量表(續)萬噸
媽媽們產后的生理煩惱
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合