?

基于二階差分MFCC深度學習的聲景基調聲分類方法

2024-01-01 10:46鄧志勇張萬億劉愛利
關鍵詞:聲景基調二階

鄧志勇, 張萬億, 劉愛利

(1.首都師范大學音樂學院,北京 100048;2.中央音樂學院音樂人工智能與音樂信息科技系,北京 100031;3.首都師范大學資源環境與旅游學院,北京 100048)

1 引言

“聲音景觀(Soundscape)”,即聲景,較早由芬蘭社會學與地理學家格蘭諾(Johannes Gabriel Gran?)在1929 年提出,其中心思想是“研究以聽者為中心的聲音環境”[1]。之后在20 世紀六七十代,由加拿大作曲家與生態學家謝弗(R. Murray Schafer)與托阿克斯(Barry Truax)等系統地構建了聲景學的理論與方法論框架,認為聲景是一種“強調個體或社會感知和理解方式的聲音生態”[2]。聲景思想提出的初衷是培養人們聆聽與改善聲音環境的能力,“人-聲-境(Human-Sound-Context)”是聲景的三個基本層次[3]。2014 年,國際標準化組織(ISO)將聲景定義為“在某種場境下,由個人或群體感知、經歷和(或)理解的聲學環境”[4]。

越來越多的音頻分類算法結合了不同的特征,例如隱馬爾可夫模型、支持向量機、高斯混合模型[5]和本文將使用的卷積神經網絡[6]。然而,與語音等音頻信號相比,聲景樣本分類任務具有其特殊性,因為它們具有更廣泛的能量頻率分布,并且包含更多豐富的人與環境信息,使得其比語音信號更為復雜[7]?;凇叭?聲-境”的相互關系,謝弗認為聲景可分為基調聲(Keynote)、信號聲(Signal)和坐標聲(Soundmark)三種基本類型,指出人們“通常不會有意識的感知基調聲”,信號聲“與基調聲形成對比”,而坐標聲是“引起特別考慮與注意的聲音”[8]?;谏鲜鲇^點,本文對聲景樣本進行分類時,在總體上將聲景進一步劃分為“基調聲(Keynote)”與“非基調聲(Non-Keynote)”兩個相互正交的類型,如表1所示。

表1 基于謝弗聲景類型的基調聲與非基調聲二分類

在單個既定的聲景樣本中,相對于非基調聲,基調聲往往作為一種聲壓級動態較小、頻率分布較廣、時域變化較小的穩態背景聲出現,主觀聽感也相對穩定[9]。例如,圖1 和圖2 分別為樣本No.71 中的長時穩態基調聲(于北京景山錄制,包含了自然聲和游客的喧鬧聲)和樣本No.115 中的短時瞬態非基調聲(于北京鼓樓錄制的擊鼓表演時的擊鼓聲,具體樣本編號所對應的區域如表2所示)的光譜圖。兩者對比可知,圖1直觀地顯示出了典型基調聲的穩態特性。

圖1 樣本No.71中基調聲光譜圖

圖2 樣本No.115中非基調聲的光譜圖

表2 老北京中軸線聲景數據集的基本信息

因此,本文在與傳統音頻分類方法中所采用的均方根包絡(Root Mean Square Envelope, RMS)、Mel 頻譜、梅爾倒譜系數(Mel-frequency Cepstral Coeffi‐cients, MFCC)進行比較分析的基礎上,嘗試提出一種改進后的二階差分39 維梅爾倒譜系數(以下簡稱“二階差分MFCC”),以卷積神經網絡(Convolutional Neural Network,CNN)對聲景樣本進行“基調聲-非基調聲”二分類,構建一個較為完整的深度學習網絡模型,以適應此類注重主觀聽感選擇并具有“人文色彩(Humanistic Color)”特征[10]的分類任務。

2 研究樣本與方法

2.1 研究樣本

本文研究所用的聲景樣本數據集覆蓋了圖3紅色虛線框所覆蓋的老北京中軸線的主要區域,從其南端的永定門至北端的鐘鼓樓,總長度約為7.8公里,分為永定門、前門大街、天安門廣場、故宮、景山、前海和鐘鼓樓及其主要連接道路及周邊等七個區域。所有聲景樣本均為WAV 格式,采樣頻率為48kHz,量化深度為24bit,由專業錄音師佩戴Sennheiser Ambeo 錄音耳機以符合國際標準化組織(ISO)技術標準的雙耳全景聲制式,以“定點錄音(Location Recording)”和“聲景漫步(Soundwalk)”兩種方式進行錄制[11-12]。具體各樣本編號及其所對應的區域,以及各區域中以上兩種錄制方式的樣本編號、數量和錄制年份如表2所示。

圖3 老北京中軸線聲景數據集分布的七個區域

老北京中軸線是一個功能多元、活動繁忙的城市綜合區域,交通與人流量大,區域中眾多的綠地、公園與知名景點吸引了大量游客與市民。綠地公園的自然聲與城市交通噪聲及嘈雜的人聲不僅是其聲景基調聲的主要內容之一,同時也提供了大量的非基調聲。老北京中軸線上時常會有一些傳統音樂演出,如前門大街的叫賣吟唱,景山公園票友們的京戲演唱交流,前?;鸬抡婢龔R的道教音樂表演,鐘鼓樓的鼓樂隊演出等,這些音樂聲成為了具有“人文色彩”的非基調聲。本文所選取的115個樣本完整涵蓋了圖3所標注的老北京中軸線上的七個典型地理區域。這些內容豐富[13-14]的聲景樣本,在全面體現“基調聲-非基調聲”二分類的同時,也完整涵蓋了聲景學研究中常用的包括“自然聲(Natural Sounds)”、“人聲(Human Sounds)”、“社會聲(Sounds and Society)”、“機械聲(Mechanical Sounds)”、“安靜與沉默(Quiet and Silence)”、“指示聲(Sounds as Indicators)”等在內的六個基于內容劃分的聲音類型[8]。由這些樣本所構成的聲景數據庫,充分滿足了深度學習對樣本多樣性和典型性的要求。

2.2 數據預處理

根據深度學習模型的樣本歸一化要求,以表1的描述為標準,表2 中的115 個樣本以“專家評分法(Expert Evaluation)”[15]進行人工分類標注,被分段截取劃分為“基調聲”與“非基調聲”兩個正交的層,形成1519個基調聲段和1899個非基調聲段。然后經過分層隨機抽樣,形成訓練集的樣本段總數為2394個,驗證集的樣本段總數為513個,測試集的樣本段總數為511個。即從基調聲段和非基調聲段中分別隨機抽取1453個和941個樣本段,形成2394個訓練集的樣本段;從基調聲段和非基調聲段中分別隨機抽取310個和203個樣本段,形成513個驗證集的樣本段;從基調聲段和非基調聲段中分別隨機抽取306個和205個樣本段,形成511個測試集的樣本段。最后由于CNN要求可處理的樣本數據長度必須保持一致,因此每個樣本段最終被劃分為等時長的4秒片段,少于4秒的樣本段將以零填充尾部至4秒[6]。

2.3 二階差分MFCC特征的選取

一維時域的均方根振幅包絡(RMS),類似頻率非線性特征的Mel 頻譜和如式(1)的從Mel 頻譜中獲取的帶有高冗余信息的梅爾倒譜系數(MFCC)都是音頻信號處理中常用的特征[16]。

其中,i為幀序數;n為列序數;m為Mel頻率;H(i,m)為能量譜與Mel 濾波器轉置矩陣的乘積;L為MFCC 的維數,本文中L=13;M為Mel濾波器的個數,本文中M=128。

如前所述,由于本文的分類任務具有“人文色彩”的特殊性,因此對式(1)的13 維MFCC 進行常規二階差分運算,形成了冗余信息更為豐富的二階差分39維MFCC(簡稱為二階差分MFCC)作為本文的分類特征。圖4顯示了樣本No.71中的基調聲和樣本No.115中的非基調聲的RMS、Mel頻譜和二階差分MFCC 的譜圖及其直觀上的差異。

圖4 樣本No.71中的基調聲與樣本No.115中的非基調聲的RMS、Mel頻譜和二階差分MFCC譜圖

2.4 本文CNN結構

根據上節所選取的二階差分MFCC 的分類,并便于與RMS和Mel頻譜特征的分類結果進行比較,本文研究的技術路線如圖5所示。

圖5 研究路線圖

在本文設計的分類器中,將基調聲和非基調聲稱為“Class(類)”,每個經人工分類標注劃分的樣本段稱為“Sample(樣本)”,對應的類以“Label(標簽)”進行標識,數值1表示該樣本段為基調聲,數值0表示該樣本段為非基調聲,標簽經過“獨熱編碼(one-hot cod‐ing)”進行預處理。由于所有深度學習系統中的基本數據結構都為以NumPy 數組形式存儲的張量(Tenser),而神經網絡的所有輸入和目標必須以浮點型張量的形式呈現,且必須對數據進行向量化,因此本文將輸入特征數據結構重構為一個包含數值的三維張量,設計的卷積神經網絡結構如表3和圖6所示。

圖6 卷積神經網絡結構圖

表3 本文卷積神經網絡結構

在訓練過程中,卷積核分別設置為32、64、128個,大小為3*3,將表3 中dropout 的值設為0.25。不同特征在CNN中具有不同的維度,如表4所示。整個深度學習過程在pytorch框架下實現[6]。

表4 特征階數

2.5 中間層的激活函數與結果驗證

由于本文以標簽數值標量0和1進行二分類的標識,因此還將選擇修正線性單元函數(ReLU函數)作為中間層的激活函數[6],將上述網絡神經元的輸入層映射至輸出層,以方便進行結果驗證。該函數具有將所有負值返回為零的特性,可使網絡稀疏,在一定程度上緩解了過擬合,對于二分類結果具有良好的驗證性能。ReLU函數的表達式如式(2),圖像如圖7所示,經由該函數的神經元輸入至輸出的加權過程如式(3)所示:

圖7 ReLU激活函數的圖像

其中,b為偏置量,w1、w2、w3為加權系數。

3 分類結果

3.1 二分類訓練的進度控制

表2 的數據集經預處理后,使用上述設計的分類器進行訓練的部分進度控制如表5所示。

該表用于監控深度學習模型訓練進度,其中“1372/2394”表示當前訓練的“批次數/總批次數”,如在該例中,表示已經完成了1372 個批次的訓練,總共需要訓練2394 個批次?!癊TA:33s”表示預計剩余完成訓練所需要的時間,“Loss:0.6886”表示訓練過程中的損失值,“acc:8.5598”則是以百分比表示的訓練過程中的準確率。該表提供了當前深度學習模型訓練的進度信息,包括已完成的批次數、訓練進度的可視化、預計剩余時間、損失值和準確率等指標。通過觀察這些指標,可以了解模型訓練的進展情況和性能表現。

3.2 輸出層的激活函數、損失函數、優化器與二分類識別準確率

為適應二分類任務的特點,本文接下來選擇SoftMax函數[6]作為輸出層的激活函數,其表達式如式(4):

其中,ak為向量a的第k個分量。

如果輸出神經元的數量為2,則SoftMax 函數具有一個屬性,即輸出值的總和為1,即滿足約束條件:P(A|x)+P(B|x)=1。因此,可將SoftMax 函數作為一種基于概率統計的方法對目標進行分類。在本文中,輸出越接近1,則識別結果與訓練集中的基調聲相似度越高,反之亦然。

此外,損失函數(Loss 函數)[6]是一種二元交叉熵函數,適用指示二分類問題中的分類誤差,其表達式如式(5):

其中,yi為分類標簽:0為非基調聲,1為基調聲;p(y)為某一分類的概率值。

RMSprop 函數[6]則是本文選擇的優化器,其表達式如式(6):

其中,gt為時間步t的梯度;E[g2]t為時間步t的梯度平方的移動平均值;α是忘記因子,取值區間為[0,1),常見值為0.9或 0.99;η0是全局學習率;ε為極小常數,以防止分母為零;Wt是時間步t的參數值。

最終,基于2.4 節的CNN 模型,分別使用RMS、Mel 頻譜和二階差分MFCC 三種特征進行訓練的分類器,在測試集中獲得的基調聲分類識別準確率如表6 所示,三種特征的識別準確率曲線與損失率曲線分別如圖8、圖9與圖10所示。

圖8 使用RMS特征的識別準確率曲與損失率曲線

圖9 使用Mel頻譜特征的識別準確率曲與損失率曲線

圖10 使用二階差分MFCC特征的識別準確率曲線與損失率曲線

表6 基調聲識別準確率

由以上分析可知,使用RMS 特征的識別結果基本上相當于隨機猜測,使用本文提出的二階MFFC 特征的識別結果為80.23%,遠高于使用傳統Mel頻譜特征68.68%的識別結果。

4 評價

4.1 性能評價

本文采用混淆矩陣(Confusion Matrix)[6]對上述分類結果進行性能評價?;煜仃嚍橐粋€兩行兩列矩陣,每一列的數值表示所識別類別中樣本段的數量,每列總和為所識別類別中的樣本段總數,每一行則表示樣本段的真實屬性類別,每行總和則為該類別的樣本段總數。因此,混淆矩陣由以下四個指標組成:

·TP(True Positive),真正例:模型將樣本識別為基調聲的真實基調聲類別樣本段數量。

·FN(False Negative),誤負例:模型將真實基調聲類別樣本識別為非基調聲的樣本段數量。

·FP(False Positive),誤正例:模型將真實非基調聲類別樣本識別為基調聲的樣本段數量。

·TN(True Negative),真負例:模型將樣本識別為非基調聲的真實非基調聲類別樣本段數量。

分別使用RMS、Mel 頻譜和二階差分MFCC 三種特征進行訓練的分類器混淆矩陣分別如圖11、圖12和圖13所示。

圖11 使用RMS特征的混淆矩陣

圖12 使用Mel頻譜的混淆矩陣

圖13 使用二階差分MFCC的混淆矩陣

可由TP、TN、FP 和FN 計算出其他四個更為直觀的指標來評價二分類模型的性能,如表7所示。 四個指標的定義如下:

表7 三種特征進行訓練的分類器性能

準確率:Accuracy=(TP+TN)/(TP+TN+FP+FN),即模型正確識別的樣本數量占總樣本數量的比例。

精確率:Precision=TP/(TP+FP),即模型被正確識別為正樣本的數量與實際正樣本數量的比例。

召回率:Recall=TP/(TP+FN),即正確識別的樣本數量在實際樣本數量中所占的比例。

調和度:F1=2*Precision*Recall/(Precision+Re‐call),為Precision和Recall的調和平均數。

4.2 識別能力評價

為了評價分類器識別能力的強弱,需要根據混淆矩陣計算另一個指標ROC 曲線[6]。這一曲線的橫軸為誤正率(False Positive Rate, FPR),即4.1 節中誤正例FP 的占比,是在二元分類中所有實際負例中被錯判為正例的比值;縱軸為真正率(True Positive Rate,TPR),即表6 中的召回率。ROC 曲線遠離對角線,越趨近于坐標(0,1)時,則分類器模型的整體識別能力越強;ROC曲線越接近于對角線時,識別能力越弱;當ROC曲線為對角線時,則該二分類器模型為無效的隨機猜測。參數AUC 則表示曲線下的面積:當AUC=1時,是理想的二分類器模型;當AUC=0.5時,則該二分類器模型為無效的隨機猜測。AUC 值越接近1,則模型的整體識別能力越強。分別使用RMS、Mel頻譜和二階差分MFCC 三種特征進行訓練的分類器的ROC曲線分別如圖14、圖15和圖16所示。

圖16 使用二階差分MFCC的ROC曲線

由ROC 曲線可知,RMS 的識別能力最弱,接近隨機猜測,而本文提出的二階差分MFCC 的識別能力最強。這可能再次表明,像RMS 這樣的一維時域特征不適用于CNN網絡的深度學習模型。不過ROC曲線通常對表示正負樣本比例的大幅變化不敏感,因此在本文中,還采用測試數據的得分作為ROC 的閾值,以表6 中的召回率(Recall)作為橫坐標,精確率(Preci‐sion)作為縱坐標,生成PR 曲線來評價模型的大幅變化特征,分別如圖17、圖18和圖19所示。

圖17 使用RMS特征的PR曲線

圖18 使用Mel頻譜的PR曲線

圖19 使用二階差分MFCC的PR曲線

PR 曲線繪制了在不同概率閾值下,模型的精確率和召回率之間的變化。曲線越接近坐標(1,1),意味著模型在保持高精確率的同時,能夠具有高召回率。也就是說,模型能夠正確地識別出正例,并且較少將負例誤分類為正例。

4.3 聯合特征的性能評價

如上所述,在CNN 網絡中,冗余量更為豐富的二階差分MFCC 比RMS 和Mel 頻譜特征更適用于基調聲分類這種具有“人文色彩”的主觀分類任務。同時,由于聯合特征主要以不同維度的特征信息,通過增加通道來實現更好的性能。因此接下來本文嘗試使用RMS 和二階差分MFCC 的聯合特征,即總共40 維信息來對基調聲二分類器進行訓練,以考察這一聯合特征是否能夠提高分類器的識別能力。圖20、圖21、圖22 和圖23 分別為使用該聯合特征得到的準確率曲線及損失率曲線、混淆矩陣、ROC曲線和PR曲線。

圖20 使用RMS與二階差分MFCC聯合特征的識別準確率曲線與損失率曲線

圖22 使用RMS與二階差分MFCC聯合特征的ROC曲線

圖23 使用RMS與二階差分MFCC聯合特征的PR曲線

由混淆矩陣和上述曲線可知,二階差分MFCC 特征聯合RMS 并沒有提高模型識別的準確率,甚至導致準確率下降了0.78%。

5 結論

綜上所述,基于本文提出的二階差分MFCC 特征及網絡模型結構進行聲景基調聲識別的準確率為80.23%,其表現優于單獨使用RMS 和Mel 頻譜特征的結果,也優于RMS 和二階差分MFCC 特征的聯合使用的結果。作為語音識別中最常用的特征之一,結合本文的數據分析結果來看,MFCC 及其改進的高維特征仍然適用于聲景樣本的分類;而基于單一能量特征的一維時域RMS 特征可能不適用于聲景這類復雜聲音的分類任務。

本文僅局限于以老北京中軸線的聲景樣本數據集為例,針對聲景基調聲與非基調聲的二分類任務,基于CNN 網絡深度學習的要求,提出了一種在該分類任務中表現良好的高維二階差分MFCC 特征,并與單獨使用RMS 和Mel 頻譜特征,以及使用RMS 和二階差分MFCC 聯合特征,進行了性能上的初步比較。而對于聲景這類具有“人文色彩”的復雜聲音的主觀分類任務,對抗性生成網絡等其它類型深度學習模型的性能,以及更多高維特征的選擇與提取都需要更為深入的研究。

猜你喜歡
聲景基調二階
中央定基調 明年經濟工作這么干
當代城市聲景研究進展
《白噪音》中后現代聲景的死亡倫理思考
基于分析軟件“CiteSpace”的聲景研究英文文獻知識圖譜分析
一類二階迭代泛函微分方程的周期解
一類二階中立隨機偏微分方程的吸引集和擬不變集
二階線性微分方程的解法
一類二階中立隨機偏微分方程的吸引集和擬不變集
俏麗基調
總基調:穩中求進
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合