?

融合注意力與多分支膨脹卷積的音頻隱寫算法*

2024-03-20 01:16廖浩媛
通信技術 2024年2期
關鍵詞:透明性信噪比音頻

廖浩媛,高 勇

(四川大學 電子信息學院,四川 成都 610065)

0 引言

隱寫技術是信息隱藏的一個分支,其核心目標是將秘密信息隱蔽地嵌入到特定的載體中,確保載體在傳輸過程中不引起懷疑,將其傳輸給通信接收方,合作接收方利用對應的提取算法從含密載體中得到秘密信息。在此過程中,除了通信雙方,第三方不能感知到除載體之外的隱蔽信息傳輸行為的存在[1]。音頻隱寫是一種能從源頭上保護秘密信息傳輸的安全技術,最初興起時隱藏的信息通常為文本。隨著傳輸需求的增大,隱藏音頻的隱寫算法逐漸發展起來。

有不少國內外學者提出了高效的音頻隱寫算法,主要分為傳統隱寫算法和深度學習算法兩類。文獻[2-4]在音頻時域上選擇載體音頻的最低有效位(Least Significant Bit,LSB)作為秘密信息嵌入位置,算法簡單、復雜度低,但在噪聲環境中容易丟失信息。文獻[5]借助人耳聽覺系統(Human Audio System,HAS)對音頻相位失真的低靈敏性,通過修改相位值實現秘密信息的隱藏。該方法魯棒性高,但其透明性受到嵌入率和相位變化程度的影響,表現相對不夠穩定。文獻[6]提出了基于離散余弦變換(Discrete Cosine Transform,DCT)將載體轉換至頻域并修改其DCT 系數進行嵌入的隱藏算法。文獻[7-8]在基于DCT 的方法的基礎上進行改進,采用離散小波變換(Discrete Wavelet Transform,DWT),并通過奇異值分解計算特征值,將秘密信息量化嵌入到特征值中,以實現隱寫目的。研究結果表明,該算法具備高透明性和魯棒性,然而其隱藏容量相對較低。

深度學習卓越的特征學習能力和端到端的傳輸避免了人工特征選擇的一系列煩瑣過程,因此以深度學習為基礎的自適應隱寫算法不斷發展起來。Kreuk 等人[9-10]首次提出了使用神經網絡進行音頻隱寫,并表明圖像隱寫的神經網絡模型不適用于音頻隱寫,極大地提升了隱寫算法的隱藏容量;文獻[11]提出了一種基于深度神經網絡(Deep Neural Network,DNN)的源混合和分離的音頻隱寫模型,在時域中將音頻與其他未知的音頻混合,利用源分離的方法提取秘密信息。為了進一步提升音頻隱寫方案的性能,本文提出一種融合多分支膨脹卷積與注意力機制的音頻隱寫算法,利用多分支膨脹卷積網絡完成原始載體音頻的編碼,同時在編解碼器的不同位置上引入瓶頸注意力(Bottleneck Attention Module,BAM)殘差塊,以提高網絡對音頻有效特征的表征能力。這樣的設計使得整個系統在網絡參數輕量化的情況下能全面地捕捉音頻特征,從而完成具有較高透明性、魯棒性及較大的隱藏容量的端到端的音頻隱寫任務。

1 多分支膨脹卷積與殘差注意力機制

1.1 多分支膨脹卷積

受到文獻[12]的啟發,本文選用通道式注意力機制來設計多分支膨脹卷積(Multi-Branch Dilated Convolutional,MBDC)網絡,實現不同膨脹率的多重卷積的通道選擇,在不增加參數量、不失去分辨率的情況下,結合上下文信息增大感受野,融合多尺度特征。MBDC、膨脹卷積和普通卷積的比較結果如表1 所示,其中N為普通卷積的參數量基準。由表1 可知,MBDC 具有比普通膨脹卷積更顯著的特征采樣率,同時具有比傳統卷積低得多的計算復雜性。

表1 MBDC、膨脹卷積與普通卷積的對比

本文提出的MBDC 的結構如圖1 所示,主要采用3 個分支來承載不同膨脹率的卷積層,以產生不同大小感受野的特征映射。本文選擇的膨脹系數為{1,2,4},這樣感受野下利用的區域是連續的,同時3 個擴張卷積層的卷積核大小相同,通過采用并行結構,可以在不顯著增加計算成本的情況下獲得更廣泛的感受野。

圖1 MBDC 結構

在編碼器部分采用MBDC 模塊,其參數量僅為普通卷積的1/3。具體的計算公式為:

式中:δ表示先進行softmax 操作,再進行批量歸一化(Batch Normalize,BN)與ReLU 操作;Md1(x)表示膨脹率為1,卷積核大小為3×3 的膨脹卷積操作;Md2(x)表示膨脹率為2,卷積核大小為3×3 的膨脹卷積操作;Md4(x)表示膨脹率為4,卷積核大小為3×3 的膨脹卷積操作。

音頻輸入經過MBDC 后,本文引入了一種基于殘差網絡與瓶頸注意力的模塊來增加網絡的關鍵特征學習能力。

1.2 殘差注意力機制

在處理復雜的輸入數據時,常常面臨信息超載的挑戰,即輸入數據中包含大量冗余和無關信息,這影響了模型從中提取有效特征的能力,從而降低了模型性能。為了應對這一問題,本文引入注意力機制。通過學習權重分配,注意力機制可以自動學習到關鍵特征,并將更多的注意力集中在與任務相關的重要特征上,有效地解決了信息超載的問題。

本文采用的BAM 是一種簡單而有效的注意力模塊,可用于任何前饋卷積神經網絡。對于輸入的特征圖,BAM 會生成注意力圖來強調重要元素,如圖2 所示。生成注意力圖的過程分為通道注意力和空間注意力兩個分支流程。通道注意力融合每個通道的特征,學習不同通道間的關系,而空間注意力通過學習上下文信息掌握不同空間位置的特征。

圖2 BAM 注意力機制流程

本文在BAM 網絡的基礎上進一步增加殘差得到R-BAM 模塊。給定輸入特征為Fin∈RC×H×W,定義中間特征為F∈RC×H×W,注意力模塊按照通道順序相應計算一維通道注意力特征Mc∈RC×1×1和二維空間注意力特征Ms∈R1×H×W。整個過程如下所示:

式中:f為卷積操作,f1×1為卷積核大小為1×1 的卷積操作,f3×3為卷積核大小為3×3 的卷積操作,W0∈RC/r×C,b0∈RC/r,W1∈RC×C/r,b1∈RC。

2 音頻隱寫算法

2.1 隱寫方案

本文針對音頻數據提出一種基于多分支膨脹卷積與殘差BAM 注意力機制的端對端的隱寫方案。此方案提出的模型隱藏與提取流程將在頻域中進行,但為了將音頻信號以時域形式進行傳輸,本文借鑒文獻[13]的方法,在傳輸過程中對音頻信號進行短時傅里葉變換和逆短時傅里葉變換,并加入模型中,將其作為一個可微層以約束網絡模型的輸出。隱寫流程如圖3 所示。

圖3 隱寫方案流程

本文研究的方案模型包括3 個關鍵模塊:(1)利用Ec從載體中學習并提取潛在冗余,以嵌入秘密信息完成隱藏;(2)Dc負責對含密音頻解碼;(3)Dm對解碼后的數據進行重建,從中提取出秘密音頻。

本文將載體c和秘密音頻m作為音頻隱寫的輸入,經過音頻隱寫網絡后輸出為含密音頻和重構音頻。為滿足音頻隱蔽通信的需求,本文需要對神經網絡不斷進行訓練優化,而神經網絡的參數優化是通過最小化載體音頻c與含密音頻、秘密音頻m與重構音頻之間的均方誤差(Mean Square Error,MSE)函數來實現的。損失函數的表達式為:

式中:參數Lc與Lm分別表示含密音頻和重構音頻對應的MSE;λc和λm的取值關系到對含密音頻和秘密音頻重構的平衡。

2.2 網絡模型

本文使用膨脹卷積與注意力網絡相結合的深度學習網絡,其主要分為Ec,Dc,Dm3 個模塊,同時每個模塊又由幾個子模塊組成。Ec由MBDC 模塊、Gconv 模塊與R-BAM 模塊組成,Dc模塊由Gconv模塊與R-BAM 模塊組成,Dm由Gconv 模塊與R-BAM 模塊組成。其中,R-BAM 借鑒經典ResNet網絡的殘差結構,引入殘差可以加速網絡模型的收斂速度并且防止出現深層網絡梯度爆炸的情況。各個模塊的具體結構分別如圖4~圖8 所示。

圖4 R-BAM 模塊

圖5 Gconv 模塊

圖6 Dc 模型

圖7 Ec 模型

圖8 Dm 模型

3 實驗結果及討論

本次實驗分別在DiDiSpeech[14]和TIMIT[15]兩類語言(中、英文)的數據集上對采用的網絡模型進行評測,數據集按照7 ∶2 ∶1 的標準比例分割為訓練、驗證和測試集。兩種音頻信號數據的采樣率均為16 kHz。為了提升模型效率,短時傅里葉變換(Short-Time Fourier Transform,STFT)中傅里葉采樣點數設置為512,各段間重疊采樣點數設置為256。通過隨機選擇數據集中的一條音頻作為載體信息,與任意一條其他音頻作為秘密信息形成一組訓練數據,以1 ∶1 的形式完成嵌入操作,實驗中對載體音頻與秘密音頻的選擇是完全隨機的。所有模型均采用經典的Adam 優化器進行參數優化,初始學習率設置為0.001,并采用每隔15 個epoch 學習率下降50%的策略進行訓練,網絡以目標損失函數連續3 個epoch 不下降作為停止訓練的條件,最后給出模型在通用數據集上的臨界值。在損失函數的設計中,λc設置為3.2,λm設置為0.8,以此來權衡載體音頻與含密音頻、秘密音頻與重構音頻之間的損失。

3.1 透明性測試

本節用于評價音頻隱寫算法透明性的含密音頻信噪比SNRs'、重構音頻信噪比SNRc'、含密音頻的均方誤差MSEs'、重構音頻的均方誤差MSEc'的計算公式為:

式中:符號s(t)和s'(t)分別為時域中的原始載體音頻和含密音頻,c(t)和c'(t)分別為時域中的原始秘密音頻和重構音頻,'(t)和(t)分別為模型預測的含密音頻與重構音頻。

為了能夠更加客觀地評價含密音頻與重構音頻的聽覺質量,本文采用了客觀的語音質量評估(Perceptual Evluation of Speech Quality,PESQ)方法。

表2 分別給出了本文提出的網絡模型在中、英文數據集上進行音頻隱寫實驗后的透明性測試結果。根據國際唱片業聯合會標準,當含密音頻信噪比SNR>20 dB 時,隱藏的秘密音頻不可察覺,擁有較好的透明性。在TIMIT 英文數據集下實驗,含密音頻的信噪比最高可達25.82 dB,重構音頻的信噪比最高可達12.92 dB;在DiDiSpeech 數據集下,含密音頻的信噪比最高可達25.78 dB,重構音頻的信噪比最高可達13.99 dB。

表2 透明性分析

PESQ 是ITU-T P.862 建議書中提供的客觀語音質量感知評估方法,它能將客觀的語音質量評估映射到主觀平均意見分(Mean Opinion Score,MOS)刻度范圍。評估得分在1.0 和4.5 之間,得分越高,音頻質量越好。表3 給出了中英文樣本分別通過隱寫網絡后得到的PESQ 值,含密音頻的PESQ 在3.8以上,人耳主觀聽覺不能發現異樣;重構音頻的PESQ 都大于2.6,可以清楚理解提取得到的重構秘密音頻的語義。表4 給出了本文提出的隱寫方案與其他一些研究的含密音頻信噪比的比較結果??梢钥闯?,本文的隱寫方案生成的含密音頻信噪比更高,透明性更好。

表3 含密音頻與重構音頻的PESQ

表4 本文方案與其他隱寫方案的信噪比對比

3.2 魯棒性測試

本節對隱寫網絡模型進行抗干擾能力的測試,主要在訓練過程中對樣本分別添加Gaussion 和Speckle 兩種噪聲,定義σ為噪聲強度,其計算公式如下:

表5 給出網絡模型對中、英文數據集在對應噪聲類型和噪聲強度下的含密音頻信噪比和重構音頻信噪比。通過結果可以看出,本文提出的隱寫模型在帶噪環境下,其含密音頻信噪比沒有較大的變化,其重構音頻信噪比也和無噪條件的結果相差不大,結果仍然呈現含密音頻的高透明性與重構音頻的高度可理解性。結果表明,本文提出的音頻隱寫方案具有良好的魯棒性。

表5 魯棒性分析

3.3 隱藏容量

對于隱寫方案來說,除了透明性、魯棒性,還需要衡量其隱藏容量。音頻隱寫中的隱藏容量Cap是指在一定時間內可以隱藏的秘密信息比特數,用每秒比特數(bit/s)來衡量。計算公式為:

式中:T為含密音頻的時間長度,B為隱藏到含密音頻中總的秘密信息比特數。

本文采取的深度神經網絡隱寫方案的隱藏容量為4 001.833 bit/s,與文獻[9]和文獻[16]的容量大小相同,是傳統隱寫方法[15,17-19]的20 倍左右。由此可以看出,深度神經網絡采用的音頻隱寫方案擁有更好的冗余提取能力與自適應隱藏秘密信息的能力,極大地提高了音頻隱寫方法的隱藏容量,彌補了傳統隱寫方法隱藏容量小的缺點。

4 結語

本文提出了一種結合多分支膨脹卷積網絡和殘差瓶頸注意力模塊的音頻隱寫算法。該方法選擇使用多膨脹率卷積網絡來學習音頻特征,并使用殘差的瓶頸注意力提高模型對音頻隱藏位置的學習能力,實現音頻完全的自適應編解碼及秘密音頻的提取。實驗結果表明,經過該隱寫算法處理的音頻具有良好的聽覺質量,保持了良好的透明性。此外,該算法對不同程度的加噪干擾具有較好的抵抗力,展現出了高度的魯棒性,同時該算法擁有高隱藏容量,可以在保持音頻質量的同時存儲較多的隱藏信息。綜合來看,該算法在透明性、魯棒性和隱藏容量這3 個評價指標上取得了良好平衡。

猜你喜歡
透明性信噪比音頻
日本建筑師蛇形畫廊展館的透明性特征探析
透明性理論與其在建筑設計中的體現
基于深度學習的無人機數據鏈信噪比估計算法
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
低信噪比下LFMCW信號調頻參數估計
網絡安全審查中的透明性研究*
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
音頻分析儀中低失真音頻信號的發生方法
Pro Tools音頻剪輯及修正
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合