?

基于隱寫噪聲深度提取的JPEG圖像隱寫分析

2023-09-07 08:47范文同李震宇羅向陽
西安電子科技大學學報 2023年4期
關鍵詞:卷積載體噪聲

范文同,李震宇,張 濤,羅向陽

(1.中國人民解放軍戰略支援部隊信息工程大學 網絡空間安全學院,河南 鄭州 450001;2.數學工程與先進計算國家重點實驗室,河南 鄭州 450001;3.河南省網絡空間態勢感知重點實驗室,河南 鄭州 450001;4.常熟理工學院 計算機科學與工程學院,江蘇 常熟 215500)

1 引 言

隱寫術通過將秘密信息嵌入到載體中,從而在不引起第三方懷疑的情況下進行隱蔽通信[1]。由于隱蔽通信的過程很難被他人發現,一些犯罪人員和恐怖分子會利用它來危害社會穩定和國家安全。作為隱寫術的對立技術,隱寫分析旨在檢測隱蔽通信的存在,并在與隱寫術的對抗過程中不斷發展。

隨著互聯網通信技術和圖像處理技術的發展,在互聯網中廣泛傳播的JPEG圖像成為了隱寫術的合適載體。因此,針對JPEG圖像的隱寫分析[2]也逐漸成為學術界的重要研究課題。JPEG圖像隱寫分析的目標是檢測一張看似正常的JPEG圖像中是否隱藏了秘密信息,判斷所使用的隱寫方法,估計秘密信息的嵌入位置,提取秘密信息[3]。其中,判斷圖像是否含有秘密信息是最重要的部分,這也是當前研究的重點[4]。含有秘密信息的圖像稱為載秘圖像,其他的稱為載體圖像。

現有的隱寫分析方法可以分為基于人工特征設計的傳統隱寫分析方法和基于深度學習的隱寫分析方法。對于傳統隱寫分析方法,研究者們首先利用人工設計的高維特征提取方法來捕獲圖像中由秘密信息嵌入引起的統計異常,然后使用經過訓練的分類器來確定圖像中是否包含秘密信息。代表性的方法有空域富模型方法(Spatial Rich Model,SRM)[5]、離散余弦變換殘差方法(Discrete Cosine Transform Residual,DCTR)[6]、相位感知投影模型(PHase Aware pRojection Model,PHARM)[7]和Gabor濾波器殘差方法(Gabor Filter Residual,GFR)[8]。然而隨著當前隱寫技術[9-10]的發展,有效的高維特征提取方法越來越難以設計,設計出的特征提取方法也會受限于研究者的領域知識和啟發式探索,這限制了隱寫分析的發展。

隨著深度學習的興起,研究人員發現,神經網絡可以學習圖像的多層次特征,這樣既可以減少啟發式的特征設計,也能更好地反映圖像的本質特征[11]。因此,研究者們開始將深度學習應用于隱寫分析之中,并取得了大量成果。在各種深度網絡中,卷積神經網絡(Convolutional Neural Networks,CNN)[12]因為其獨有的特性受到了研究者們的重視。卷積操作可以捕獲圖像中由秘密信息嵌入引起的細微變化,這種細微變化也被稱為隱寫噪聲,這在功能上與傳統隱寫分析方法中的特征提取步驟類似。池化層和激活函數層也可以用來模擬傳統隱寫分析方法中的量化和截斷步驟。因此,基于卷積神經網絡模型的隱寫分析方法[13]已成為圖像隱寫分析的主流。

根據針對隱寫算法類型的不同,基于深度學習的隱寫分析方法可以分為空域隱寫分析方法和JPEG域隱寫分析方法?,F有的基于深度學習的隱寫分析方法大多是針對空域隱寫算法所設計的。TAN等[14]將深度學習應用于隱寫分析之中,提出了名為TanNet的隱寫分析網絡。該網絡只有4層,包括3個卷積層和1個全連接層。QIAN等[15]將傳統卷積網絡的預處理層替換為固定的高通濾波核來增強隱寫信號,提出了一種基于深度學習的隱寫分析模型QianNet。為了避免隱寫特征的損失,在QianNet中使用了平均池化層來代替最大池化層。為了進一步提高隱寫分析的性能,XU等[16]沿用了QianNet網絡架構的特點,提出了XuNet??紤]到預處理層提取的噪聲殘差與符號無關,XuNet在第1個卷積層之前使用abs層來收斂特征圖,其檢測性能與SRM相當,甚至在某些情況下有所超越。YE等[17]將SRM的特征提取部分與深度學習相結合,提出了YeNet,其檢測精度已經超過基于人工特征設計的傳統隱寫分析方法。ZHANG等[18]針對卷積核以及網絡結構進行改進,提出了ZhuNet。該網絡使用可分離卷積代替原有的卷積層來提高隱寫信號和圖像信號之間的信噪比。此外,還采用了空間金字塔結構來豐富特征的表達,檢測效果有了相當大的提升。由于隨意調整圖像的大小會嚴重影響圖像中的隱寫信號[19],YOU 等[20]以孿生網絡為基礎,設計了一種新的隱寫分析網絡SiaStegNet,來實現在不重新訓練參數的情況下對多尺度的圖像進行隱寫分析,在多尺度圖像上的檢測效果十分優秀。

雖然目前在互聯網上傳播的圖像大多是JPEG圖像,但相比于空域隱寫分析方法,針對JPEG圖像的隱寫方法要少得多。ZENG等[21]提出了一個基于深度學習的JPEG域隱寫分析網絡,其檢測效果與傳統方法基本持平。后來,ZENG等[22]在之前工作的基礎上,通過將JPEG圖像轉換為空域圖像再進行隱寫檢測的方式,有效地提高了隱寫分析的準確率。此外,在XuNet的基礎上,XU[23]提出了一種名為J-XuNet的JPEG域隱寫分析方法。該方法采用了20層全卷積網絡來進行隱寫分析,通過殘差連接來防止梯度爆炸以及隱寫特征的消失,其檢測效果已經優于傳統方法??紤]到之前的隱寫分析方法仍然包含了一些手工設計的元素,BOROUMAND等[24]設計了一種基于殘差網絡的端到端隱寫分析模型,名為SRNet。該網絡在空域和JPEG域上都有非常出色的表現。2021年,SU等[25]提出了一種基于全卷積網絡的端到端隱寫分析模型,稱為EWNet。該模型可以在不重復訓練的情況下,針對任意大小的JPEG圖像進行隱寫分析,在JPEG圖像隱寫分析方面取得了最先進的檢測效果??紤]到當前基于深度學習的隱寫分析方法通常無法獲得選擇通道感知(Selection-Channel Aware,SCA)的知識,LIU等[26]將與SCA作用相同的剩余通道空間注意(Channel-Spatial Attention,CSA)模塊引入到卷積網絡中,來進一步提高模型的隱寫分析性能。此外,為了獲取多尺度的層次特征表示,文中使用空間金字塔池化來代替全局平均池化。該網絡在JPEG隱寫分析領域檢測效果要優于SRNet。

當前,大多數基于深度學習的隱寫分析方法會先提取圖像中包含的隱寫噪聲,再對提取的隱寫噪聲進行分類。隱寫噪聲提取的準確度在很大程度上決定了隱寫分析的性能。目前大多數方法通過將這兩個階段連接在一起,利用分類模塊的誤差優化隱寫噪聲提取模塊,以此提高隱寫噪聲提取的準確度。然而,隨著圖像質量因子的提高,隱寫噪聲與圖像內容的信號比例會急劇下降,隱寫噪聲也變得更加難以提取?;诙说蕉说碾[寫分析模型,在訓練過程中沒有為隱寫噪聲提取模塊設定優化目標。當圖像的質量因子較高時,這種訓練方式可能會限制隱寫噪聲的提取準確度。為了解決這個問題,文中提出了一種基于有監督訓練策略的隱寫噪聲深度提取模型,以此提高隱寫分析的準確率。文中工作的主要貢獻如下:

(1) 提出了一種基于隱寫噪聲深度提取的JPEG圖像隱寫分析方法。該方法可以減少圖像內容對隱寫分析的影響,準確地提取出隱寫噪聲,并判斷該圖像是否為載秘圖像。

(2) 提出了一種指導隱寫噪聲深度提取網絡的模型評價指標來選擇最佳網絡,并將其與針對隱寫噪聲所設計的分類網絡相融合,得到完整的隱寫分析網絡。

(3) 在基準數據集上的實驗結果表明,針對J-UNIWARD和UED-JC這兩種隱寫算法,文中方法要優于經典的基于深度學習的隱寫分析方法。

2 基于噪聲深度提取的JPEG隱寫分析方法

與經典計算機視覺領域中的物體識別和圖像分類等任務不同,隱寫分析主要關注細微的隱寫噪聲而不是一般的圖像內容。當圖像的質量因子較高時,隱寫噪聲與圖像內容的信號比例會急劇下降,隱寫噪聲很難被準確地提取出來。然而,基于深度學習的端到端隱寫分析方法并沒有為隱寫噪聲提取模塊設置獨立的優化目標,這可能會限制隱寫噪聲提取的準確度。為了克服這一局限性,文中為隱寫噪聲提取模塊設置單獨的優化目標來準確提取隱寫噪聲。

2.1 網絡結構

文中所提出的隱寫分析網絡名為SNdesNet。該網絡主要由兩個部分組成,即隱寫噪聲深度提取網絡(SneNet)和分類網絡,如圖1所示。

圖1 SNdesNet檢測流程

首先,使用SneNet從待檢測圖像中提取可能存在的隱寫噪聲;然后,將隱寫噪聲輸入到分類網絡,以確定輸入是載秘圖像還是載體圖像。由于隱寫噪聲提取模塊的優化過程是回歸任務,其目標函數與分類模塊不同,所以無法將兩個網絡連接在一起進行同步優化。出于這個原因,文中使用分段式的網絡結構來分別對這兩段網絡進行優化。顯然,文中方法的關鍵是隱寫噪聲深度提取網絡和分類網絡的構建。具體的網絡結構將在后文中分別進行介紹。

2.2 隱寫噪聲深度提取網絡

SneNet的目標是從輸入圖像中提取可能存在的隱寫噪聲。隱寫噪聲指的是載秘圖像和載體圖像之間的像素差:

Ri,j=Si,j-Ci,j,

(1)

其中,Si,j表示載秘圖像(i,j)位置的像素;Ci,j表示載體圖像對應位置的像素;兩幅圖像對應點像素之間的差值Ri,j就是圖像中所含有的隱寫噪聲。

在輸入的過程中首先將JPEG圖像解壓縮到空域,使用JPEG圖像的像素矩陣作為網絡的輸入。這樣網絡的訓練過程更容易收斂,也便于計算圖像中所包含的隱寫噪聲。需要注意的是,隱寫分析人員無法獲得載秘圖像的原始載體圖像。因此,隱寫噪聲的提取問題可以轉化為載體圖像的預測問題,而這與圖像去噪任務非常相似。不同的是,相比于圖像的自然噪聲,隱寫噪聲要細微得多,但仍可以從圖像去噪領域中尋找靈感。文中提出的SneNet受到了圖像去噪網絡RIDNet[27]的啟發,在其基礎上進行了一定的修改,以達到隱寫噪聲提取的目的。對于修改的合理性將會在實驗部分進行說明。

2.2.1 SneNet的網絡結構

SneNet的網絡結構如圖2所示,其骨干部分主要由兩部分組成,分別是高維特征提取模塊和隱寫噪聲學習模塊。

圖2 隱寫噪聲深度提取網絡(SneNet)的網絡結構

高維特征提取模塊由兩個卷積層組成,在圖像去噪網絡的最前端添加了一個預處理層,以提取高維特征f0。與圖像中的自然噪聲相比,隱寫噪聲要小得多,所以直接使用去噪網絡來提取隱寫噪聲會使網絡難以收斂。為了加速網絡的收斂,使用固定的濾波核來初始化卷積核,該步驟可以表示為

f0=Convp(x) ,

(2)

其中,Convp(·)表示在載秘圖像上的預處理卷積操作。之后提取出的高維特征f0被輸入到隱寫噪聲學習模塊,通過有監督的訓練策略來提取高維特征中的隱寫噪聲n,即

n=Mns(f0) ,

(3)

其中,Mns(·)為隱寫噪聲的學習過程,主要由圖2中4個逐級連接的增強注意力模塊(Enhancement Attention Module,EAM)組成。最后一個EAM模塊輸出的特征會再經過一層卷積來降低特征的維度,生成待檢測圖像中的隱寫噪聲n。

從圖2的下半部分可以看出,EAM的輸入特征首先經過一個并行的卷積層來擴大特征圖的接收域,再將并行卷積層的輸出結果合并來增加特征圖的通道;接著,使用兩個連續的卷積層來學習隱寫噪聲相關的特征,并通過增強殘差塊對特征進行壓縮和展平;最后,使用通道注意力機制關注高維特征中的隱寫噪聲相關特征。

SneNet中使用的殘差連接[28]可以有效地減少隱寫噪聲在網絡傳播過程中的損失。通過將網絡的淺層和深層直接相連,網絡可以避免退化,融合不同尺度的特征也能用來輔助網絡對隱寫噪聲的學習。此外,使用隱寫噪聲而不是載體圖像作為網絡輸出,與從載秘圖像到載體圖像的轉換相比,從載秘圖像到隱寫噪聲的轉換更容易學習。載秘圖像和隱寫噪聲之間的明顯區別能夠幫助網絡收斂。

需要注意的是,在SneNet中沒有使用批歸化處理(Batch Normalization,BN)層來對特征圖進行歸一化。當前的隱寫網絡常用BN層來加速網絡的收斂,防止模型過擬合。然而,使用BN層對圖像進行歸一化會破壞圖像的對比度信息,這一點在圖像去噪任務中得到了研究,因此不在SneNet中使用BN層。

2.2.2 SneNet的訓練過程

在網絡的訓練過程中,使用L1 損失來計算網絡的損失,計算公式為

(4)

其中,yi為真實噪聲,f(xi)為網絡的提取噪聲,N是同一批次輸入的圖像數量。圖像去噪網絡常用L2 損失作為網絡的損失函數,但它對孤立點更為敏感,而L1損失則更為穩定。此外,實驗結果表明,使用L1 損失作為損失函數的SneNet性能要比使用L2 損失高約2%,因此選擇L1 損失作為損失函數。

此外,使用峰值信噪比(Peak Signal to Noise Ration,PSNR)[29]作為衡量標準來評估隱寫噪聲提取的準確度。該值可用于評估圖像經過重建后的圖像質量,PSNR值越高,說明重建后的圖像質量越好。因此選擇這個指標來評估SneNet的隱寫噪聲提取能力。去噪后的圖像與原始圖像之間的PSNR值越高,提取的隱寫噪聲就越準確,PSNR定義為PPSNR,即

PPSNR=20 lg(MAX)-10 lg(MSE) ,

(5)

(6)

其中,I是原始圖像;K是去噪后的圖像;l和w分別是圖像的長和寬;MAX是圖像中可能存在的最大像素值。實驗中使用的圖像為8位像素,因此MAX為255;MSE是I和K之間的均方誤差。

此外,實驗結果還表明,由PSNR值最低的網絡提取的隱寫噪聲并不具有最佳的分類性能。事實上,從載秘圖像和載體圖像中分別提取的隱寫噪聲之間有較大的差異也很重要。為此,設計了一個模型評價指標P來評估SneNet的隱寫噪聲提取性能,指導模型的選擇。P的計算公式為

P=psc(pcc-pss) ,

(7)

其中,psc為去噪后的載秘圖像和載體圖像之間的PSNR值,pcc是去噪后的載體圖像和載體圖像之間的PSNR值,pss是去噪后的載秘圖像和載秘圖像之間的PSNR值。psc越高,從載秘圖像中提取的隱寫噪聲與真實隱寫噪聲越相似。而pss和pcc之間的差值越大,從載秘圖像和載體圖像中提取出的隱寫噪聲之間的差異就越大。評價指標P同時考慮了隱寫噪聲的準確提取以及載秘圖像和載體圖像提取噪聲的差異。因此,P值越高,提取的隱寫噪聲越利于分類網絡進行檢測。

為了擴大從載秘圖像和載體圖像中提取噪聲的差異,可為載秘圖像和載體圖像設定不同的優化目標。將隱寫噪聲用作載秘圖像訓練的監督,同時由于載體圖像中不包含隱寫噪聲,因此使用零值作為偽噪聲來優化載秘圖像的訓練。使用載秘圖像和隱寫噪聲作為正樣本,載體圖像和偽噪聲作為負樣本,來共同構建訓練數據集。

2.3 分類網絡

隱寫噪聲分類網絡的目標是對SneNet所提取的隱寫噪聲n進行分類,判斷輸入圖像是否屬于載秘圖像??紤]到提取的隱寫噪聲可以看作是一種特殊的圖像,基于現有的圖像分類網絡Swin Transformer[30]的骨干構建分類網絡,該網絡的輸出即為文中隱寫分析方法的檢測結果。分類網絡的具體結構如圖3所示。

圖3 分類網絡結構

從輸入圖像中提取的隱寫噪聲首先被Patch partition模塊分割成多個非重疊等尺寸的Patch,再通過全連接層進行嵌入,擴充Patch中特征的維度;然后,嵌入后的Patch被送入4個連續的Swin Transformer Block中,以獲得輸入圖像的層次化特征圖;最后,提取的特征圖依次通過LayerNorm層、平均池化層和全連接層,得到輸入圖像的分類結果。兩個連續的Swin Transformer Block中的主要模塊是窗口多頭自注意力模塊(Window Multi-headed Self-Attention,W-MSA)和滑動窗口多頭自注意力模塊(Shifted Window Multi-headed Self-Attention,SW-MSA)。W-MSA模塊基于局部窗口計算注意力矩陣,減少了計算工作量。同時為了獲得特征圖的全局注意矩陣,在W-MSA模塊之后,使用SW-MSA模塊來進行窗口之間的信息交互。

從圖1中可以看出,隱寫噪聲在空間上的分布是不連續的,這說明隱寫噪聲的局部特征不能準確地代表隱寫噪聲的特性。因此,分類網絡需要對隱寫噪聲的全局特征給予足夠的重視。眾所周知,Swin Transformer中使用的自注意模塊擴大了網絡的感受野,能夠捕獲輸入圖像的全局特征。此外,網絡中使用的滑動窗口策略也可以解決自注意模塊的高計算復雜性問題。因此,文中基于Swin Transformer的骨干網絡構建隱寫噪聲的分類網絡。

3 實驗設置

為了評估所提方法的隱寫分析性能,使用兩種自適應JPEG隱寫算法在不同圖像質量因子和嵌入率下進行了一系列的對比實驗。網絡的性能是通過在測試數據集上的檢測錯誤率來評估的,該錯誤率的計算方法為假陽性率和假陰性率的均值。接下來將對實驗設置、數據集生成和各種實現細節進行具體說明。

3.1 數據集與對比方法

文中實驗的數據集采用了來自BOSSBase-v1.01[31]和BOWS2[32]中的20 000張灰度圖像。這兩個數據集各包含了10 000張大小為512×512的灰度圖像。在數據集生成的過程中,首先將大小為512×512的原始圖像裁剪成4張互不重疊的256×256的圖像,然后隨機選擇這4張圖像中的1張進行實驗。使用這種方法生成實驗數據集可以減少網絡訓練的成本,并保持原有的圖像質量。接著,將所有挑選出的圖像壓縮為質量因子為75和85的JPEG圖像,使用這些壓縮圖像構建載體圖像數據集。

為了驗證文中方法在JPEG圖像上的隱寫分析性能,使用了兩種經典的自適應JPEG隱寫方法:J-UNIWARD[33]和UED-JC[34],對載體圖像進行嵌入,分別生成嵌入率為0.1、0.2、0.3、0.4和0.5 bpnzac的載秘圖像。對于每種質量因子、隱寫算法和嵌入率,隨機選擇BOSSBase數據集中的4 000張圖像和整個BOWS 2數據集用于網絡訓練,再從BOSSBase數據集中剩余的6 000張圖像中隨機選出5 000張圖像用于檢測,最后的1 000張圖像用于驗證。將選出的載體圖像和對應的載秘圖像一起共同構建實驗的訓練集、測試集和驗證集。這種數據集的劃分方式與SRNet[24]和EWNet[25]的劃分相同。

在圖像的讀取過程中,所有的圖像首先被解壓縮到了空域,使用JPEG圖像的像素矩陣作為網絡的輸入。為了增強模型的擬合能力,也采用了隨機鏡像和旋轉的方式對數據集進行數據增強[35]。

為了對比評估文中方法的隱寫分析性能,進行了一系列的實驗。采用的對比方法是針對JPEG圖像的隱寫分析方法,分別是:

(1) J-XuNet[23]:一個20層的全卷積深度網絡,采用殘差連接來減少特征的損失。

(2) SRNet[24]:一個48層的端到端隱寫分析網絡。該網絡去除了以往深度學習隱寫分析模型中的手工設計元素,使用神經網絡的強大學習能力來自主學習合適的參數。

(3) EWNet[25]:一個全卷積深度網絡,采用反卷積層來對特征圖進行上采樣,以此豐富用于分類的特征。該方法可以在不重新訓練參數的情況下對任意大小的JPEG圖像進行隱寫分析。

(4) CSANet[26]:一個端到端的隱寫分析網絡,使用CSA模塊來為網絡引入選擇通道感知的相關知識,此外還通過空間金字塔池化結構來獲取不同尺度的層次特征表示。

3.2 實現細節

文中方法包括兩個組成部分:隱寫噪聲深度提取網絡和分類網絡。因為兩個子網的網絡結構和優化目標并不相同,所以為其設置了不同的訓練參數。

對于隱寫噪聲深度提取網絡,網絡中所有卷積層參數采用均值為0,標準差為0.01的高斯分布進行隨機初始化。采用Adam算法優化損失函數,模型初始學習率設置為1×10-3,采用余弦退火策略對學習率進行動態調整,最小學習率設置為1×10-5,對于每一次迭代,mini-batch設置為16,即8個載體-載秘圖像對。網絡經過訓練直至收斂(約150個epoch),選擇在測試集上P值最高的網絡來進行隱寫噪聲的提取。

對于隱寫噪聲分類網絡,采用Swin Transformer網絡的預訓練參數對分類網絡進行初始化,優化算法采用Adadelta優化器,模型初始學習率為1×10-3,同樣采用余弦退火策略來動態調整學習率,最小學習率為1×10-4,每一次迭代的mini-batch設置為24,即12個載體-載秘圖像對。使用驗證集上性能最好的網絡在測試集上進行測試。

實驗采用的顯卡均為TITAN XP(12 GB),內存為64 GB,搭建的深度學習環境為Tensorflow 1.12.0和Pytorch 1.7。J-XuNet、EWNet和CSANet 3種模型所用的代碼為對應論文中給出的源碼,SRNet則是在Pytorch環境中自主復現。4種網絡的參數設置都與對應論文中的參數保持一致。需要注意的是,復現的SRNet并沒有達到文獻[24]中的檢測精度,這主要是因為數據集的預處理方式不同。文獻[24]將原始數據集中的512×512大小的圖像直接壓縮為256×256的JPEG圖像,這會導致圖像內容更加平滑,所以隱寫痕跡更容易被檢測。而實驗中則是先將原始圖像首先被裁剪成256×256的圖像,再壓縮成具有不同質量因子的JPEG圖像,這種處理方式生成的圖像更難被檢測。

此外,在訓練的過程中還采用了課程學習的訓練策略來幫助網絡更好的收斂。具體來說,對于每種隱寫方法,分別在不同質量因子和嵌入率下進行課程學習。對于質量因子,采用質量因子為75條件下訓練得到的網絡參數對質量因子85條件下訓練的網絡進行初始化;對于嵌入率,按照0.5-0.4-0.3-0.2-0.1(bpnzac)的順序進行漸進式學習,使用前一個嵌入率下訓練得到的網絡參數對后一個將要訓練的網絡進行初始化。

4 實驗結果與分析

4.1 參數合理性分析

為了確定SneNet的損失函數和學習率等參數,還進行了以下實驗分析。采用的隱寫算法為UED-JC,圖像質量因子為75,嵌入率為0.5。

對于損失函數,使用L1損失,L2損失和Charbonnier損失來進行對比實驗。L1損失用于最小化預測圖像和目標圖像之間的像素差值的絕對值之和,L2損失可以獲得更好的PSNR值,而Charbonnier損失能夠幫助網絡更好的收斂。實驗結果如表1所示。

表1 使用L1損失、L2損失和Charbonnier損失作為損失函數的PSNR值與準確率

實驗結果表明,雖然L2損失具有最好的PSNR值,但是pcc和pss之間的差異是最低的,僅為2.59,比L1損失要低0.99。與L1損失相比,Charbonnier損失雖然能夠幫助網絡更快的收斂,但P值和準確度都要低于L1損失。因此,選擇L1損失作為網絡的損失函數是合理的。

為了確保網絡能夠正常地提取隱寫噪聲,需要單獨設置載體圖像訓練的學習率,采用二分法來確定最合適學習率。具體來說,選擇了1×10-3,5×10-4,2.5×10-4,1×10-4,1×10-5來作為實驗的初始學習率。實驗結果如表2所示。

表2 不同初始學習率的PSNR值與準確率

實驗結果表明,當學習率為2.5×10-4時,網絡對隱寫噪聲的提取效果最好。當載體圖像的學習率接近載秘圖像的學習率時,偽噪聲會對網絡的訓練產生很大的影響,訓練后的模型基本不能提取任何隱寫噪聲。而當學習率較小時,psc更高,pss更低,從載秘圖像和載體圖像中提取的隱寫噪聲之間的差異十分微弱,這不利于分類網絡的訓練。因此,選擇2.5×10-4作為載體圖像的初始學習率。

為了直觀地展示網絡從載體圖像和載秘圖像中提取的隱寫噪聲之間的差別,在圖4中展示了多組載秘圖像和載體圖像所提取的隱寫噪聲。為了達到更清晰的視覺效果,對隱寫噪聲的像素值進行了翻轉,其中越暗的像素點表明該點隱寫噪聲越強。所用的隱寫算法為J-UNIWARD,嵌入率為0.5。

圖4 提取噪聲與真實噪聲的可視化結果

圖4為網絡提取噪聲和真實噪聲的可視化結果。其中載體提取噪聲為SneNet從載體圖像中提取的隱寫噪聲,載秘提取噪聲則是SneNet從載秘圖像中提取的隱寫噪聲。最右列的真實隱寫噪聲為載秘圖像中所包含的真實隱寫噪聲,而主要隱寫噪聲則是真實隱寫噪聲在去除了所有像素值為1的點后的噪聲圖,主要描繪真實噪聲中幅度較大的部分。從圖4中可以看出,載秘提取噪聲與載體提取噪聲相比,包含的信息要更加豐富,且兩種噪聲之間有著很大的差異,這種提取噪聲的差異構成了分類網絡對載秘圖像和載體圖像分類的基礎。從圖4中還可以看出,載秘提取噪聲與真實隱寫噪聲的分布十分相似,說明文中方法可以減少圖像內容的影響,更加關注圖像中所包含的隱寫噪聲。同時也能說明文中使用PSNR的差值來表示載秘圖像和載體圖像提取噪聲的差異是合理的。而且載秘提取噪聲可以較為完整地覆蓋主要隱寫噪聲所出現的區域,這說明隱寫噪聲深度提取網絡能夠有效地提取載秘圖像中所包含的隱寫噪聲。

4.2 網絡結構合理性分析

為了分析SneNet網絡結構的合理性,選擇了多種圖像去噪網絡來進行對比實驗。對比實驗的數據集與2.1節中的相同,為了降低訓練的成本,僅使用了嵌入率為0.4和0.5 bpnzac的數據集。使用去噪后的載秘圖像與對應的載體圖像之間的PSNR值來評估網絡對隱寫噪聲的提取能力。

在圖像去噪網絡方面,選擇了一個經典的去噪網絡DNCNN[36]和一個近期的網絡MIRNet[37]來進行實驗。DNCNN是一個端到端的卷積去噪網絡,在合成噪聲上展現出了良好的去噪性能,在不同噪聲上的泛化能力也很強。MIRNet通過對特征圖進行下采樣來獲得多尺度的噪聲特征,這對隱寫噪聲的提取很有好處。

此外,還對這些網絡進行了一些修改,使得網絡對隱寫噪聲的適應性更強。為了減少隱寫噪聲在網絡傳播過程中的損失,在DNCNN中添加了殘差連接[27],通過將網絡的淺層和深層直接相連,能夠避免網絡的退化。不同層次的圖像特征進行融合也能輔助網絡對隱寫噪聲的學習。對于MIRNet,學習從載秘圖像到隱寫噪聲的變換,幫助網絡的收斂。此外通過使用高通濾波核來初始化這兩個網絡第1個卷積層的卷積核,以此移除不必要的圖像內容信息。通過減少圖像低維信息的影響,輔助網絡的學習。將修改后的網絡稱為DNCNN+和MIRNet+,在實驗中,分別使用DNCNN、RIDNet、MIRNet、DNCNN+、MIRNet+以及文中所設計的SneNet提取隱寫噪聲。實驗結果如圖5所示。

圖5 使用6種網絡去噪后的載秘圖像與對應載體圖像的PSNR值

實驗結果表明,SneNet在多種情況下都取得了最高的PSNR值。通過比較DNCNN、MIRNet、RIDNet、DNCNN+、MIRNet+和SneNet的結果,可以看出,殘差連接能夠提高隱寫噪聲的提取效果,防止圖像中微弱的隱寫噪聲在網絡的傳播過程中丟失。而且,通過將網絡的淺層和深層直接相連,網絡能夠更加有效地融合不同層次的特征。融合后的特征更加全面,可以增強網絡對噪聲的提取能力。

與DNCNN相比,RIDNet和MIRNet在隱寫噪聲的提取方面表現更好,這是因為RIDNet和MIRNet是針對真實噪聲的去噪網絡。然而,MIRNet中使用的多尺度特征融合模塊在隱寫噪聲上并不是很適合。經過多次下采樣處理后,細微的隱寫噪聲難以保留,這會對隱寫噪聲的提取產生影響。因此,文中方法在RIDNet的基礎上構建SneNet是合理的。此外,MIRNet和MIRNet+的實驗結果表明,采用固定濾波核對卷積層進行初始化也能夠抑制圖像本身內容的影響。經過初始化的卷積層可以提取圖像的高頻信息,使網絡專注于隱寫噪聲的提取。

4.3 隱寫分析性能研究

為了評估文中方法的隱寫分析性能,使用所提方法在J-UNIWARD和UED-JC這兩種隱寫算法上進行了一系列的實驗,采用的對比方法是4種經典的針對JPEG圖像的隱寫分析方法EWNet、SRNet、CSANet和J-XuNet。圖像的質量因子為75和85,嵌入率為0.1~0.5.實驗結果如表3、圖6和圖7所示。

表3 文中方法SNdesNet與EWNet、SRNet、CSANet和J-XuNet的檢測錯誤率對比

(a) 質量因子為75

(a) 質量因子為75

從表3、圖6和圖7可知,SNdesNet的檢測錯誤率要普遍低于SRNet和J-XuNet。當質量因子為75時,SNdesNet的隱寫分析性能要低于EWNet,與CSANet相近;當質量因子為85時,SNdesNet的檢測效果優于CSANet;當嵌入率較高時,與EWNet相比,SNdesNet具有更好的檢測效果。

當隱寫算法為J-UNIWARD時,在質量因子為75的情況下,SNdesNet的檢測錯誤率要優于SRNet和J-XuNet,與CSANet相近,略高于EWNet。在質量因子為85的情況下,SNdesNet的檢測錯誤率要普遍優于其他4種對比方法。當隱寫算法為UED-JC時,在質量因子為75的情況下,SNdesNet的檢測錯誤率要優于SRNet和J-XuNet,略高于與EWNet和CSANet。在質量因子為85的情況下,當嵌入率大于0.3時,SNdesNet的檢測錯誤率要優于其他4種對比算法,當嵌入率小于等于0.3時,SNdesNet的檢測錯誤率要優于SRNet和J-XuNet,與CSANet相近,略低于EWNet。

與SRNet、CSANet和J-XuNet相比,SNdesNet更關注隱寫算法給圖像帶來的變化。SNdesNet可以抑制圖像內容的影響,網絡中采用的殘差連接也能減少隱寫信號的丟失。通過捕獲隱寫噪聲的全局特征,基于Swin Transformer骨干構建的分類網絡也能擁有更好的分類能力,因此文中方法取得了更好的檢測效果。

與EWNet相比,當質量因子為85且嵌入率比較高時,SNdesNet的檢測錯誤率要更低。這是因為在這些情況下,圖像內容對隱寫分析的影響更嚴重,SneNet提取的隱寫噪聲更準確,因此分類效果要更好。然而,當質量因子較低時,EWNet中使用的反卷積層可以通過對特征圖進行上采樣來豐富用于分類的特征。所以,在這種情況下,EWNet擁有更好的檢測效果。

在相同硬件條件下,對5種網絡的平均訓練時間進行了比較,結果如表4所示。

表4 5種網絡的平均訓練時長

從表4可以看出,文中方法的平均訓練時間相對較長,這主要是由于噪聲提取網絡的訓練相對耗時。在噪聲提取網絡的訓練過程中,以去噪網絡為基礎進行設計,圖像在網絡中傳播時大小并沒有發生變化,這增加了噪聲提取網絡的計算量,極大地增加了訓練的時長,該網絡的訓練時長為24.92 h。訓練獲得的噪聲提取網絡將作為一個預處理網絡添加在分類網絡之前,因此訓練分類網絡時無需再對噪聲提取網絡進行訓練。而由于文中提出的方法抑制了圖像內容對隱寫分析的影響,提出的評價指標P也使提取的隱寫噪聲有利于分類網絡的檢測,因此分類網絡在訓練30個epoch后就可以達到收斂,這極大地減少了訓練的時間,分類網絡的訓練時長為3.61 h。整個網絡的訓練時長為兩個子網絡分別訓練時長之和,即28.53 h。

5 結束語

為了提取更準確的隱寫噪聲,提高隱寫分析的準確率,文中提出了一種基于隱寫噪聲深度提取的JPEG圖像隱寫分析方法。該方法首先通過有監督的訓練策略構建隱寫噪聲深度提取網絡,而后利用文中提出的模型評價指標選擇最優網絡,最后,使用隱寫噪聲深度提取網絡和分類網絡共同構建文中的隱寫分析模型。在實驗中,對文中方法所提出網絡參數和結構的合理性進行了分析。與現有的基于深度學習的JPEG隱寫分析方法的對比實驗結果表明,與SRNet、CSANet和J-XuNet相比,文中方法可以獲得更高的檢測準確率。當圖像質量因子較大、信息嵌入率較高時,文中方法的隱寫分析性能與EWNet相比略有提高。但是文中方法仍有不足之處,如當嵌入率過低時,該方法難以非常準確地提取出隱寫噪聲,同時隱寫噪聲深度提取網絡和分類網絡的組合導致了模型的規模較大。未來的工作包括:一方面是提取更加準確的隱寫噪聲;另一方面是對模型進行壓縮,提升訓練的效率。

猜你喜歡
卷積載體噪聲
創新舉措強載體 為僑服務加速跑
基于3D-Winograd的快速卷積算法設計及FPGA實現
堅持以活動為載體有效拓展港澳臺海外統戰工作
噪聲可退化且依賴于狀態和分布的平均場博弈
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
控制噪聲有妙法
TiO_2包覆Al_2O_3載體的制備及表征
一種基于白噪聲響應的隨機載荷譜識別方法
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合