?

數字圖像篡改檢測技術綜述

2022-12-09 04:54朱新同唐云祁耿鵬志
關鍵詞:數字圖像插值像素

朱新同, 唐云祁, 耿鵬志

(中國人民公安大學偵查學院,北京 100038)

0 引言

隨著信息化程度的不斷加深與數字成像設備的大規模普及,數字圖像逐漸成為現代生活中不可或缺的組成部分,數字圖像的真實性與安全性也受到了空前的重視,數字圖像取證技術(Digital image forensics,DIF)逐漸成為一大研究熱點。數字圖像取證技術可分別為主動取證與被動取證兩大方向,主動取證技術的代表是數字簽名技術和數字水印,此類技術運用的前提是圖像經過數字水印處理,應用局限性較大。被動取證技術則可再細分為圖像溯源取證技術與對圖像篡改行為的檢測技術,前者主要聚焦于追溯一張數字圖像是由哪臺設備拍攝,后者則是本綜述所討論的重點。

圖像取證技術起步于主動取證技術,1993年,Friendman基于電子郵件數字簽名的思想,提出了可信數碼相機(Trustworthy digital camera)的概念。即在數字圖片數據的生成過程中同時生成一個對應的唯一編碼,可以根據哈?;蚱渌惴ㄉ?作為圖像原始性的依據。這種主動添加的圖片身份證有許多先天性的不足。比如數字圖像在網絡傳播的過程中會經歷多次壓縮或格式轉換,這些操作會改變圖像的哈希值,而圖像本身的畫面信息除了被某種壓縮外沒有經過任何修改。這就導致大多數情況下對數字圖像的原始性和有效性的證明還是依靠專家的鑒定,對數字圖像篡改檢測的需求仍然沒有得到有效解決。因此,無需事先添加信息的被動盲檢測技術成為近年來的研究熱點,本文所介紹的各類檢測方法均屬于被動盲檢測技術。

數字圖像篡改檢測技術在近年來有巨大進步,該領域發布了大量基于深度學習技術的新型算法。因此,本文按照數字圖像成像流程梳理了各類可檢測特征,對各方向的篡改檢測方法所采用的技術路線進行分類和整理,并對其檢測結果進行分析。本文在最后對目前數字圖像篡改檢測相關研究中問題和挑戰的解決辦法進行深入思考,旨在為該領域提供一些方向性參考。

1 數字圖像成像過程中所產生的特征

數碼相機在生成一張數字圖像的過程中主要涉及光電轉換和模擬數字轉換兩類信息轉換(ADC),在此流程中所使用的處理技術則可分為3大類,即光學技術、傳感器技術和圖像處理技術[1]。3種技術分別對應圖1中的鏡頭(Lens)、傳感器(Sensor)、圖像信號處理(ISP)3步,3類處理過程對最后的輸出圖像各施加了不同的影響,從而在圖像中留下了具有不同特點的規律。

圖1 數碼相機的視覺處理過程

本文受文獻[2]與[3]的啟發,根據數碼相機拍攝圖片所需要的處理過程,按照特征的來源對數字圖像成像過程中所產生的特征進行分類介紹。同時,把篡改行為所產生的特征按照特征的來源分類,可以有效地區分出各類圖像篡改特征的本質差異,有助于深度學習方法對某種特征進行針對性訓練以及對后續研究方向提供指引。

1.1 被拍攝客體的自然特征

相機拍攝的畫面會忠實地還原被攝客體的狀態,也能記錄下客體所具備的物理和幾何規則的表現。一些經過偽造的照片會表現出明顯違反自然規律的表現,如曾引發輿論熱議的“浮空視察”照片。這類特征就是膠卷時代的圖像篡改檢測技術所關注的特征類型。在文獻[4]中Peng等人提出了具體的測算方法來判斷畫面中的物品或人是否符合自然規律。其他可利用的特征還包括相機中心點、透視關系[5]、光照一致性[6]、陰影方位[7]等。

由于這類特征是拍攝畫面中的一部分,屬于日常生活中常見規律的表達,所以它易于人腦理解,也是人們主觀判斷圖片是否經過偽造的主要特征依據。比較反常識的是,人眼對這種特征的改變其實并不敏感。有研究表明,在對陰影、透視變形、鏡中畫面規律是否被篡改的問題上,大多數受試者無法給出正確答案[8]。對于被攝客體的自然特征在圖像取證方面的應用,卷積神經網絡尚未在這個領域獲得較大突破。

1.2 鏡頭光學特征

相機在記錄影像時,會利用透鏡等光學器件對被攝客體射向鏡頭的光線進行一系列的光學處理,使其變成適合被感光原件所記錄的形狀,此類處理過程中會在入射光線中留下鏡頭的光學特征。其中有一部分鏡頭光學特征是拍攝者可在一定范圍內定量調節的。如拍攝時所使用的焦距、光圈等鏡頭參數,這些參數既有聯系也有制約,直接影響到相機成像的景深、視場角、透視等效果[9]。

此外,鏡頭還會給畫面附加上一類拍攝者無法控制且難以消除的特征。在多色光作為光源的情況下,相機的鏡頭難以精準地把不同波長的光線聚集到同一個焦平面,此時就會產生色差。鏡頭的折射還會帶來畸變,并且由于凸透鏡離中心越遠,折射效果越強。鏡頭在不同的放大或縮小倍率下畫面還會產生桶形畸變和枕形畸變,廣角鏡頭通常是枕形畸變,魚眼鏡頭通常是桶形畸變[10]。這類本是一種成像缺陷的鏡頭特征也可以利用在圖像篡改檢測上,比較具有實用性的特征是紫邊失真、鏡頭色差(Chromatic Aberration)和鏡頭球面差(Spherical Aberration)。由于色差會導致RGB顏色通道中的3張圖像有輕微的偏移效果,文獻[11]就利用算法提取RGB三通道中的橫向色差來實現圖像篡改檢測。

1.3 傳感器噪聲特征

在數碼相機中,承擔光信號到電信號轉換任務的核心原件就是圖像傳感器(Image Sensor)。目前有兩大類被廣泛使用的圖像傳感器,一種是電荷耦合器件CCD(Charge Couple Device);另一種是互補金屬氧化物半導體CMOS(Complemen-tary Metal Oxide Semiconductor)。

圖像傳感器的輸出信號是從空間中采樣的離散模擬信號,由于各種干擾因素的存在,信號中夾雜著大量噪聲,產生的范圍包括信號的輸入、輸出、電荷的存儲和轉移等。傳感器產生的噪聲類別有:熱噪聲、光子散粒噪聲、復位噪聲等[13]。其中由于暗電流(Dark Current)的差異而產生的固定模式噪聲(Fixed Pattern Noise,FPN)和各像素對光的敏感度不同而產生的光感應不均勻(Photo Response Non-Uniformity,PRNU)特征具有較強的穩定性,且PRNU噪聲比FPN噪聲更難以消除,所以PRNU噪聲的實用化較強。這類具有穩定性噪聲被稱為“CCD的指紋”或“傳感器的指紋”[14-15]。傳統深度學習方法可以有效地提取和利用此類特征[16-17],而采用了卷積神經網絡結構算法的檢測性能則更加優異。

1.4 數字圖像處理特征

一張數字圖片的生成離不開數字圖像處理技術,該技術基本可以分為兩大類:模擬圖像處理(Analog Image Processing)和數字圖像處理(Digital Image Processing)。根據文獻[18]中的定義:“數字圖像處理是使用計算機來合成、變換已有的數字圖像,在原有圖像上產生一種新的變化,并把加工處理后的圖像重新輸出”。數字圖像處理的功能有幾何處理、算數處理、圖像編碼等。

在數字圖像篡改檢測領域,圖像處理特征是與深度學習技術結合最緊密的特征,現有篡改檢驗算法基本都依靠提取此類特征來實現篡改檢測。在數碼相機中,數字圖像處理的任務就是對A/D轉換器輸出的RAW格式原始數字信號進行處理,以還原出更加真實的圖像。負責這項任務的是圖像信號處理芯片ISP(Image Signal Processor)。ISP在RAW格式的圖片上可以實現去噪、CFA插值去馬賽克、色調映射、色彩變換、壓縮等功能。在電腦上,我們還可以使用各種圖像處理軟件來進行數字圖像后處理。在相機與電腦上的圖像處理軟件所使用的處理算法本質上是一致的,所以他們會產生同一類特征[19]。

數字圖像處理特征遍布在數字圖像中的各個方面,國外一般將數字圖像處理特征的表現稱為“statistical correlation”或“statistical inter-pixel correlation”,文獻[20]中將其稱為“數字屬性特征”。這類特征產生的原因是在圖像處理過程中,各類算法的使用使鄰近像素之間被人為的添加了某些統計規律,如重采樣方法中的CFA插值算法就在像素間引入了加權平均特征[21]。

2 主流數字圖像篡改檢測方法

2.1 同源復制粘貼特征檢測方法

同源復制粘貼(Copy-move)是指復制出同一張圖片上的一部分畫面,對復制畫面進行幾何變換、顏色與對比度調整、模糊或銳化等處理來對圖片進行修改的方法。在圖片偽造實際應用中圖片的紋理區域,如桌面、草地、道路、衣物等是復制粘貼的理想選擇,因為復制的區域再加上邊緣的羽化可以有效地使其與背景混合,人的眼睛難以將其分辨出來。復制粘貼篡改主要特征是圖片上會出現兩塊高度相似的區域,所以如何識別出高度相似區域是復制粘貼檢測的一條主要思路[22]。

同源篡改時雖然會對復制區域進行一系列處理,但其處理后的兩片區域中仍帶有大量的尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征。SIFT特征指的是可以利用SIFT算法思路來提取到的特征,這類特征的共同點是物體上局部外觀的興趣點,SIFT特征對于光線變化、圖片噪聲、視角改變等也有很高的容忍度。利用SIFT算法提取特征也是同源復制粘貼篡改檢測的主流思路。David Lowe于1999年提出并于2004年完善檢測SIFT特征的算法[23],這種方法基于尺度空間,提取圖像平移、旋轉、縮放等映射變換后保持不變的關鍵點描述向量,一般為一個長度為128的一維向量。

圖像金字塔是數字圖像處理中的常見算法,通過多分辨率尺度的疊加來更高效地解釋整張圖像的信息,其結構如圖2所示。下層高分辨率圖片體現細節信息,上層低分辨率體現整體結構信息,一般下層圖片經過步長為2的濾波器的下采樣處理得到上層圖像。圖像金字塔的概念被廣泛應用于計算機視覺的各類算法中,包括最新的YOLO[24]算法結構,在RPN(Feature Pyramid Network)層中也大量運用了多尺度圖像信息疊加的概念。

圖2 圖像金字塔

高斯金字塔就是使用高斯低通濾波作為濾波器的圖像金字塔,SIFT方法就使用高斯金字塔來提取特征點。使用不同的尺度空間因子(高斯正態分布的標準差σ)對圖像進行逐級下采樣,形成一個從突出豐富細節特征到突出個別顯著特征的圖片金字塔。高斯差分金字塔(Difference of Gaussian,DOG)則又增加一步,把上下圖片逐級相減,使用這種辦法來提取差分圖像所蘊含的穩定特征[25]。

SIFT算子會把剩下的每個特征點用一個128維的特征向量進行描述,進而進行特征比對,識別出篡改區域。這種思路與時下許多目標檢測模型類似,圖3展示了文獻[26]中提出的一種利用SIFT特征進行同源復制粘貼篡改的檢測實例?;赟IFT思路,目前研究人員開發出諸如SURF算法的大量特征提取新算法。

圖3 使用SIFT算法識別同源篡改示例[26]

通過SIFT特征與其他算法的結合,可以做到針對同源復制粘貼篡改的檢測與定位。文獻[27]中,XiuLi Bi等人使用新型多尺度特征提取算法,舍棄了傳統以方塊滑動劃分特征提取區域的方法,而是使用簡單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)完成圖像分割,再把分割好的圖像送入SIFT算法中提取特征。在實驗中XiuLi Bi等人設計了包含48張復制粘貼篡改圖片和48張原始圖片的篡改檢測實驗。實驗結果顯示,XiuLi Bi等人的深度學習新型算法在兩種尺度的測試中均取得了90%以上的篡改區域定位精確度,而傳統SIFT算法和SURF算法的篡改區域定位精確度與其相比均有明顯差距。

2.2 光響應非均勻性特征檢測方法

光響應非均勻性(PRNU)特征指的是相機感光原件所帶有的噪聲特征,其主要來源是由于感光原件在制造過程中,硅涂層的厚度不同導致各像素對光的敏感度不同[28]。

圖片的噪聲有兩個主要來源,首先是在圖像的獲取過程中,由于CCD或CMOS受材料屬性、工作環境、電路結構等影響,影響光電轉換的電流穩定性,會引入各種噪聲。其次在信號傳輸過程中,信號受傳輸介質和外界環境影響。利用此特征可以實現圖片來源和真偽的檢驗,即確定圖片是否由某一相機拍攝,或者圖片是否被篡改[29]。

光響應非均勻性特征的提取可分為濾波和增強兩個階段,其中濾波階段使用小波變換濾波器、維納濾波器等手段提取圖片背景噪聲特征,計算原始圖像與經過濾波器后所得圖像的差值,從而得到感光原件的噪聲殘差。在增強階段可以使用多個來自同一相機的圖片進行噪聲的矯正和提純,并且還可以去除圖像在重采樣過程中產生的其他特征。增強階段可以使用稀疏編碼[30]等機器學習方式來獲得更好的效果[31]。

使用卷積神經網絡結構的算法同樣可以做到利用光響應非均勻性特征的圖像來源識別和篡改識別,即使是單像素的偏移也會對殘差的局部統計產生很大的影響。文獻[32]中,文章作者利用兩個并聯的BP神經網絡,同時計算兩張圖片的背景噪聲殘差,用均方誤差計算兩張圖每個像素點的噪聲距離。如果兩張圖是來自于同一個相機就鼓勵網絡縮小噪聲距離,如果兩張圖拍攝的相機不同,則擴大噪聲距離。

作者從Dresden dataset[33]、VISION[34]等數據集中收集了19個品牌、70個型號、125個相機拍攝的圖片進行CNN的訓練和測試。在對25個不同相機組成的測試集進行分類驗證的表現為,像素定位(Pixel-Level Localization)的AUC值可達0.967。

光響應非均勻性特征還可以用來定位圖像篡改區域,其檢測效果如圖4所示。根據上文提取的圖片噪聲距離,以同一相機拍攝的一張已知原始圖片為樣本,與待檢測圖片比對噪聲距離大小,形成噪聲距離熱力圖。距離小的區域為冷色,距離大的區域為暖色,根據噪聲距離可以判斷出可能的篡改區域。

圖4 文獻[32]中基于PRNU的噪聲熱力圖的的識別效果

2.3 重采樣特征檢測方法

這種特征主要來自于非同源復制粘貼篡改(Splicing)行為,對非同源復制粘貼篡改行為的檢驗鑒定也是公安實戰中最常出現的需求。根據公安部某物證鑒定中心2012~2016年受理案件的統計數據,涉及圖像取證類案例中,90%以上的鑒定要求是對單幅圖像是否存在拼接篡改的檢驗[35]。非同源復制粘貼是指從其他圖片中復制一定區域的圖像,覆蓋或改變目標圖片的一部分區域的處理方法,由于篡改區域的圖片重采樣算法與原始圖像不同,被篡改區域的像素排列邏輯與未篡改區域就會存在差異。

重采樣是指根據采樣后形成的由離散數據組成的數字圖像,按一定算法重新采樣的處理方法,主要分為增加分辨率的“上采樣”和減少分辨率的“下采樣”兩類。重采樣一般用在改變圖片的像素大小上,比如重新生成一張不同像素尺寸的圖片。不同于后期處理時的重采樣操作,絕大多數數字圖片在生成時都會經過一次色彩上的重采樣,這就是CFA(Color filter array)插值[36]。這種插值方法圖片使數字圖像像素的排列方式存在特定規律,早在2003年,Kirchner等人就提出此類特征可應用在數字圖像篡改檢測中[37]。

數碼相機為了捕捉3種波長光線的強度,在感光原件前面設置了一個濾光層,濾光層使感光元件上的每一個感光像素都只能感受特定波長的光線強度。目前最常見的排列方式是拜耳排列(Bayer Array)。但這種記錄方式使得一個像素點只有一個色彩的亮度信息,要使拜耳排列得出的圖像變得平滑,就要進行CFA插值處理。使用這種方法獲得的彩色圖像的各個像素之間存在著算法聯系,如果非同源圖片覆蓋了一個區域,那么這片區域中的CFA特征就會被破壞,可以使用特定算法將篡改區域檢測出來,這種不同插值方式的細微特征也可以被神經網絡所捕捉并加以區分。

傳統的CFA插值檢測法為估算出圖片的CFA插值噪聲特征,需要利用后驗概率法對3個顏色通道進行建模,利用高斯濾波器對圖片進行濾波并提取CFA插值特征,標識出CFA插值規律被破壞的區域,根據提取出的區域大小來計算該區域被篡改的可能性。最大期望算法(Expectation-Maximization Algorithm,E-M算法)指在模型中尋找參數最大似然估計或者最大后驗估計的算法[38],E-M算法計算方法的一次迭代分可分為兩個步驟,分別為期望步(E步)和極大步(M步)。根據前次迭代計算出的數值來估算未知數據的值,再根據估計出的未知數據與已觀測到的數據重新再對參數值進行修正,通過反復迭代,直至最后收斂時迭代結束。圖5為警視通軟件的CFA插值檢測效果,圖6則為MATLAB環境下基于EM算法的CFA插值檢測效果。

圖5 警視通軟件CFA插值檢測功能的識別效果

圖6 EM算法的CFA插值檢測的識別效果

在卷積神經網絡中使用特殊設計的卷積核就可以做到代替傳統CFA插值檢測法的效果,通過算法對比可以發現,兩種方法在提取圖像CFA插值特征時其實都用到了卷積計算?;贓-M算法的CFA插值檢測法的卷積核如下式所示:

傳統方法中使用的E-M算法也是一種擬合算法,在文獻[38]中,其擬合的對象是圖像綠色分量的預測誤差,E-M算法擬合的過程和神經網絡類似,損失函數都需要找到其似然函數的最小值。在文獻[39]中,作者用BP神經網絡實現了利用紅色通道,取固定面積內圖像實際顏色值與估算值誤差的平均值對比來實現篡改區域檢測。在文獻[40]中,蘇文煊等人使用支持向量機(SVM)進行CFA插值檢測。作者表示,這種算法對LC數據集[41]和Dresden數據集[33]的篡改圖片判斷平均準確率均在96%以上。

但這類傳統算法也有很大的局限性,如在“警視通”等警用圖像處理軟件中,由于算法泛化能力的限制,CFA插值檢測就被限制到了非同源篡改檢測中,如果放入同源篡改圖片會導致算法失效。與傳統算法不同的是,卷積神經網絡本身可以學習圖片除CFA插值以外的其他重采樣特征,這類特征的來源不限于非同源篡改,運用簡單的BP神經網絡輸出概率密度統計[39]就可以反應不同的圖像插值算法所插值出圖像的差別。

在文獻[42]中,Belhassen Baya和Matthew C Stam等人對CFA插值特征的提取做了進一步研究,對CNN的卷積核進行了針對性設計。文章作者提出,在輸入層使用這種特殊設計過的卷積核,就可以利用傳統的神經網絡結構提取出圖片的CFA插值重采樣特征。這種根據CFA插值本身計算方法提出的卷積核結構使神經網絡對圖像邊界紋理不再敏感,而更專注于像素排列規律,從而使神經網絡把學習重點放在重采樣特征規律上。同時,Belhassen Baya等人還對訓練集和測試集的圖片進行了處理,其所用圖片均為由原始圖片綠色通道亮度信息形成的灰度圖片,實現了對綠色通道的CFA插值篡改特征提取。

數字圖片的像素在生成階段會經過CFA插值的處理,在之后則可能會經歷各類濾波器的后處理,從而在圖像的某些區域上留下對應濾波器的特征。濾波器是數字圖像處理的重要工具,經過濾波器重采樣的區域中可能會出現異常噪聲特征,如高斯濾波、中值濾波等。與CFA插值產生遍布整張圖片的本底重采樣特征不同的是,經過濾波器處理的圖片區域帶有的是特定濾波算法的后處理重采樣特征,二者同屬于重采樣算法特征,在提取方式上也較為相似。

圖片的背景噪聲原本具有強隨機性并隨機分布,但由于上采樣、下采樣、插值3個重要后處理步驟的基本運作過程是由線性濾波器完成的,所以線性濾波器處理后的像素和噪聲背景就會帶有強烈的線性特征。除此之外,篡改區域往往經過了數次旋轉、拉伸的重采樣處理,這就使得篡改區域的噪聲特征也附加了其他各類濾波特征。

從傳統算法角度出發,提取噪聲特征使用的也是E-M算法。文獻[43]中Alin C Popescu和Hany Farid把重采樣特征按照數字隱寫的角度思考并提出了使用E-M算法來提取各種濾波器處理后的像素規律,以確定圖像是否被修改過。

卷積神經網絡由于具有學習功能,能取得比EM算法更好的效果,文獻[44]中陳建生等人提出利用卷積神經網絡來提取中值濾波特征,他們發現特定的卷積結構可以捕獲相鄰像素點之間的依賴關系,可以有針對性地設計不同的卷積核來識別不同的濾波器。

2.4 異常邊緣特征檢測方法

異常邊緣特征檢測算法在人工篡改檢測與深度偽造篡改檢測中都表現出了優異的性能。異常邊緣在篡改圖片中普遍存在,這種特征的產生也來源于重采樣圖像處理,與重采樣特征主要關注篡改區域內部像素排列規律不同的是,異常邊緣特征把目光放在了篡改區域與原始區域的交界處上。在對圖片進行篡改處理的過程中,由于人的操作能力有限和軟件算法的限制,篡改者很難完全按照物體邊緣進行框選,并使新的圖層邊緣融入原圖背景中,這就使得剪切下來的圖片邊緣產生不同于正常物體邊緣的異常。

文獻[45]中,王俊文等研究人員提出了一種基于SVM的人工篡改真銳化邊緣點標記算法,通過對圖像進行非下采樣輪廓波變換[46](NonSubampled Contourlet Transform,NSCT)來提取圖像中的邊緣輪廓特征,該文作者提出了強、次強、弱3種邊緣點分類模型,并通過實驗證明原始圖像與經過銳化處理的圖像邊緣點在Contourlet變換域上具有可分性。文獻[47]中,王波等研究人員提出了異常色調率檢測模糊處理的算法。該文作者認為,正常圖片中不同物理的邊緣顏色過渡特點在整張圖片中呈現出穩定的規律,并且圖片中物體邊緣的過渡有一定的銳利性,而在受過模糊處理的圖片中,這種特征會被嚴重破壞。該文作者首先定義了異常色調值與異常色調率的概念,文中提出異常色調值是在某一像素的8×8鄰域中單獨出現,并與鄰域內像素色調差的最大值不超過某一閾值的色調值。而異常色調率指具有異常色調值像素的總數占圖像像素總數的百分比。受過模糊操作的圖像,其全局異常色調率通常為正常圖像的10倍以上。

此外,這類異常邊緣會影響圖片的噪聲流積神經網路和SRM濾波(Steganalysis Rich Model)[48]可以在盲檢測的情況下識別,而使用卷積結構可以有效提取出這些異常。文獻[49]中提出了一種雙流Fast-R-CNN網絡,在RPN(RegionProposal Network)網絡中加入SRM濾波后的噪聲流輔助預測框(bounding box)的調整,通過RGB流與SRM流的結合的異常邊緣噪聲實現了篡改圖片的篡改區域定位,圖7展示了其檢測效果。

圖7 文獻[49]中圖片噪聲特征在Fast-R-CNN中的識別效果

文獻[50]提出了一種基于YCbCr色域的篡改圖片檢測算法,該網絡首先把圖片從RGB色域轉換為YCbCr色域,提取Cb和Cr通道的紋理圖片,之后再生成紋理圖片的灰度共生矩陣(Gray Level Cooccurrence Matrix,GLCM),最后把灰度共生矩陣送入神經網絡中完成處理。該算法的結構如圖8所示,這種算法構型具有很強的泛用性,能完成人工篡改圖片檢測和深度偽造篡改圖片檢測兩類任務,在CAISA2.0這種人工篡改數據集與StyleGAN[51]這類深度偽造篡改圖片數據集上都能達到98%左右的分類準確率。同時,使用灰度共生矩陣的處理方法能以很小的信息損失完成圖像大小歸一化,讓不同分辨率的圖像都能以共同的矩陣大小輸入到神經網絡中。該文獻作者總結了異常邊緣特征適用于深度偽造篡改圖片檢測的原因,雖然深度偽造圖片可以達到以假亂真的效果,但在毛發細節、衣物紋理、陰影等要素的邊緣仍會與真實圖片有較大的區別。

圖8 文獻[50]中提出的算法結構

文獻[52]中提出了一種基于多色域融合的異常邊緣特征篡改檢測算法,該算法利用YCbCr色域中Cb與Cr色度分量和RGB色域中G值分量,用不同濾波算子提取紋理圖片。對色度分量使用了Scharr濾波算子,亮度分量則使用了Laplacian濾波算子,生成出3個分量紋理圖片的灰度共生矩陣后通過矩陣拼接完成特征融合,最后連接EfficientNet進行篡改檢測。這種利用多色域特征融合的異常紋理檢測算法具有比單一特征算法更好的準確度與泛用性,在CAISA2.0數據集的準確率為98.03%,在Realistic Tampering Dataset 2.0高清人工篡改數據集的準確率為90.43%。

2.5 JPEG重壓縮特征檢測算法

基于JPEG壓縮的篡改區域檢測方法常用在非同源拼接篡改檢測中,這種方法具有方便定位篡改區域的特性。JPEG壓縮是一種基于像素區塊的有損壓縮算法,算法中的核心是離散余弦變換DCT(Discrete Cosine Transform)算法,1974年由Ahmed和Rao提出,它是一種圖像二維離散變換,可以看成傅里葉變換的一種變體。其常見用途是對音視頻進行壓縮,DCT算法是JPEG、H.26X等多種音視頻編碼的核心[53]。

數字圖像本身也可以看成是一個二維的信號,像素點灰度值的大小代表亮度信號的強弱。高頻區域就是圖像中灰度變化劇烈的點,一般是圖像輪廓、物體邊緣或噪點;低頻區域是圖像中灰度變化平緩的區域,圖像中的大部分區域都屬于低頻。DCT算法就是計算出圖像由哪些二維余弦波構成,得出一個與輸入圖像同樣大小的矩陣。經過對浮點數的量化(Quantization)后舍棄高頻信息,保留低頻信息[54]。DCT變換常用8×8像素作為區塊大小,在一個經過了DCT變換的8×8頻域能量分布矩陣中,64個點所對應的數字組成了DCT系數矩陣,矩陣低頻信息集中在左上角,高頻信息則在右下角。

JPEG壓縮算法的流程如圖9所示,先把一張圖片的色彩空間轉換到YCbCr中再進行DCT變換,每一個8×8的圖像塊都變成了3個8×8的浮點數矩陣,經歷了這兩個步驟的圖片信息仍處于可逆的狀態。JPEG有損壓縮的原因是量化處理,量化的目的是犧牲浮點數精度換來更小的存儲體積,其操作方法是把浮點數除以一個量化系數再取整。JPEG壓縮的量化操作信息損失量由量化系數矩陣(Quantization matrices)控制,量化系數矩陣的大小對應DCT系數矩陣,不同的量化系數矩陣也對應不同的壓縮率。

圖9 JPEG壓縮算法流程

JPEG重壓縮特征所提取的就是圖像多次經過不同量化系數矩陣處理后所留下的差異,經過單次JPEG壓縮后的圖片,其DCT系數的直方圖近似服從高斯分布,經歷過JPEG二重壓縮的圖片會在由DCT系數矩陣得到的直方圖中留下周期性的波峰和波谷。文獻[55]中Luká?和Fridrich提出了一種估測第一量化系數矩陣(Primary Quantization Matrix)的方法。文獻[56]中,Niu等人提出一種CNN結構為基礎的量化系數矩陣估計算法,從而更準確地檢測圖片是否經過重壓縮處理。

原始圖像與篡改區通常會經歷不同的JPEG壓縮次數,每次壓縮時的壓縮系數也不同,從而攜帶不同的重壓縮特征。文獻[57]中Lin等人提出了構建DCT AC系數與SVM結合的算法來判斷區塊是否為篡改區域,并提出圖片經過重壓縮后在DCT AC系數直方圖會出現雙峰的統計特性。實現了JPEG重壓縮特征的篡改檢測。在文獻[58]中則直接把每個區塊的DCT系數矩陣中Y分量的AC系數變為一維向量送入人工神經網絡中進行訓練并輸出結果,從而判斷各個區塊的JPEG壓縮特征,實現了非同源拼接圖片的篡改區域定位,圖10展示了該算法的檢測效果。

圖10 文獻[58]中展示的JPEG重壓縮檢測效果

2.6 深度偽造篡改檢測算法

數字圖像篡改檢測與深度偽造生成圖片檢測是當前熱門研究方向,現階段的檢測算法主要集中于機器學習領域。圖像篡改被動篡改檢測主要經歷了人工測量、算法檢測、深度學習3個發展階段。而深度偽造技術誕生時間不久,深度偽造檢測技術從一開始就大量運用了深度學習技術。同時,用于深度偽造圖片檢測的特征與圖像篡改檢測所提取的特征大多是同一類特征或有密切聯系,有些算法會有明顯的思路繼承。

深度偽造技術的發展和深度學習有密切聯系,在圖像內容生成層面使用的深度學習技術主要有生成對抗網絡(Generative Adversarial Networks,GAN)[59]、卷積神經網絡(Convolutional Neural Network,CNN)[60]、循環神經網絡(Recurrent Neural Network,RNN)[61]等,這3類網絡結構在生成深度偽造內容上都需要數據集構建和模型訓練兩個步驟。深度偽造內容的檢測方法也同樣依賴于深度學習,檢測思路是使用深度偽造數據集與真實內容數據集訓練模型,實現特征的提取并進行分類。在深度偽造內容檢測中所使用的方法主要可分為3大類:基于傳統圖像篡改取證方法、基于GAN圖像特征方法和基于生理信號特征方法。

使用傳統圖像篡改檢測方法來檢測深度偽造圖片的思路與上文所描述的比較相近,除了上文提到的利用異常紋理檢測的方法外,還有許多可供檢測的特征與專門設計的檢測算法。RAO[62]等人通過固定第一層卷積層中卷積核的權重權值,提SRM中的殘差映射來完成換臉篡改識別。Nataraj等人[63]使用提取灰度共生矩陣的思路,直接將RGB三通道的灰度圖片特轉換為灰度共生矩陣,最后送入神經網絡中進行篡改檢測。Zhou等人設計了一種雙流網絡[64],其中一條為基于GoogLeNet結構的人臉分類網絡,另一條為背景噪聲提取網絡,用人臉分類網絡框定人臉位置減少背景影響,再使用背景噪聲判斷人臉是否被篡改。Li等人[65]提出Deepfake算法所生成的假臉和原圖像有分辨率不匹配的問題,故通過構建經過高斯模糊、旋轉縮放的樣本數據集引導神經網絡學習此類特征,進而進行真假判別。

深度偽造算法的生成過程中也改變了圖像的像素和色度空間統計特征,有研究指出這類特征可以通過共生矩陣等方法提取到并用于深度偽造檢測,文獻[66]中提出了一種基于深度偽造生成圖片在光譜波段之間的不一致性的檢測方法,文中作者提出GAN生成的圖像在RGB三通道中的灰度圖像中會存在不一致性,除了利用每個色彩通道的灰度共生矩陣提取特征外,還可以跨通道地進行共生矩陣的計算來進一步突出光譜不一致性。在算法中增加RG、GB、RB的灰度共生矩陣輸入可以提高深度偽造篡改檢測準確率。文獻[67]提出深度偽造生成圖片與真實圖片在色度分量上有更明顯的區別,則通過高通濾波抑制圖像內容,再提取殘差進行檢測,該算法的結構如圖19所示。不同的GAN生成器所生成的圖片具有不同的特征,研究人員將其稱為“GAN的指紋”,文獻[68]和[69]利用這類特征,可以通過生成出來的圖片反推其使用的GAN類型。

對于深度偽造換臉視頻,人臉的生理信號特征也可被用于檢測中,Amerini等人提出了光流場+CNN來捕捉面部五官運動信息的鑒別方法[70],Guera等人提出了LSTM+CNN的算法框架[71]。韓語晨等人使用Inception3D卷積提取口部與眼部特征運動信息進行深度偽造視頻的檢測[72]。此類算法大多基于動態視頻,對靜態圖像的檢測能力有限。

3 總結與展望

3.1 建立高品質的篡改圖片數據集

與在實戰條件下面對的篡改圖像相比,目前數字圖像篡改檢測算法所用的訓練與測試數據集表現出了篡改痕跡明顯、分辨率較低、篡改區域偏大等特點,有算法在某個數據集有較好的檢測準確度,但如果用自己制作的篡改圖片去檢驗則會發現算法幾乎失效。建立一個覆蓋多種分辨率的高品質篡改圖像數據集是很有必要的,一方面可以引導篡改檢測算法向著更貼近實際情況的情景中學習檢測方向,另一方面也可以讓各類篡改檢測算法有統一的性能衡量指標。

在深度偽造視頻檢測領域,有幾乎通用的Face-Forensics++和DeepfakeTIMIT等視頻數據集,也有Deepfake Detection Challenge等大型比賽,各類算法也會列出在大型數據集上的檢測效果,能得出較為直觀且通用的評價。在深度偽造生成圖片篡改檢測領域,有FFHQ這種超大型真實人臉數據集和由PGGAN、StyleGAN、BigGAN等深度偽造算法生成的假臉圖片數據集。但在數字圖像人工篡改檢測領域則缺乏相同量級的數據集,許多數據集在圖片數量上僅為百余張的水平,CAISA2.0等較大型數據集的質量則偏低,自動生成的篡改圖片數據集無法反映實際篡改情況。目前學界需要一種貼合現實場景、區分開不同篡改手段,包含人工篡改圖像與深度偽造篡改圖像,覆蓋多種不同分辨率的篡改圖像數據集。

3.2 著力應對深度偽造篡改技術的挑戰

深度偽造篡改技術影響深遠,目前應用最廣的是“換臉”操作,由這種技術篡改出的圖像非常逼真,篡改痕跡隱蔽。篡改技術的進步給篡改檢測算法提出了更高要求,對于傳統篡改痕跡要有更有效的提取方式的同時也要有效提取深度偽造生成區域的特征。深度偽造算法可以生成一張現實中不存在的人像圖片,在換臉的場景下其邊緣仍需模糊銳化等重采樣處理,會留下與人工篡改相近的特征模式。但深度偽造算法的生成器還可以生成出一張完全虛構的偽造圖片,這類圖片是整體生成,不具有SIFT特征或JPEG重壓縮特征,其他傳統篡改檢測算法對其是否有效也有待檢驗。這就要求圖像篡改檢測算法最好能在有效完成傳統篡改檢測的基礎上,具有對深度偽造生成內容的檢測能力。目前來看,文獻[50]與文獻[52]所使用的基于異常紋理的篡改算法可以有效完成對深度偽造生成人臉圖像的檢測,更完善、高效的檢測技術方法還有待進一步研究。

3.3 探究更有效的特征提取與融合方式

在目標識別領域,以YCbCr色域進行紋理信息增強已成為新的研究方向,這種從RGB轉換到YCbCr色域的思路已應用于圖像數字水印[73]、手勢識別[74]、膚色分割[75]等領域。Cb、Cr色度分量比Y亮度分量對拼接引入的異常邊緣信息更加敏感,在對數字圖像進行篡改的過程中,即使圖像在RGB色域看起來很自然,也會在色度通道中留下一些不自然的線索。而大多數拼接檢測方法只使用圖像在RGB色域的亮度分量,色度分量是被去除掉的。Wang提出圖像色度對于彩色圖像拼接檢測非常有效[76]。這指引我們需要跳出單一的RGB色彩空間,從其他色彩空間中尋找更多的篡改痕跡。

多特征融合也是數字圖像篡改檢測的研究熱點,圖像篡改檢測關注的并不是一張圖片的表層信息,而是人眼難以發現的像素分布規律,按照原本圖像分類和目標檢測的思路去設計神經網絡,會導致算法的注意力過分集中在大量圖像表層無用信息中。這些隱含規律的成因與來源各不相同,僅憑訓練卷積神經網絡難以做到準確提取,還需要通過許多不同的特征提取算法來做到針對性提取。如雙流Faster R-CNN網絡構型[49]、雙流FCN網絡構型[77]、三相流Faster R-CNN結構[78],均采用了不同特征的融合來提高算法性能。文獻眾多研究成果也證明:直接輸入RGB圖像或僅靠調整卷積核構型的篡改檢測網絡性能已被多特征融合構型拉開較大差距,應加強特征融合方式和網絡結構的創新,探索泛用性更好的篡改特征提取方法。

猜你喜歡
數字圖像插值像素
像素前線之“幻影”2000
“像素”仙人掌
基于Sinc插值與相關譜的縱橫波速度比掃描方法
ARGUS-100 藝術品鑒證數字圖像比對系統
éVOLUTIONDIGAE Style de vie tactile
一種改進FFT多譜線插值諧波分析方法
基于四項最低旁瓣Nuttall窗的插值FFT諧波分析
高像素不是全部
基于塊效應測度的JPEG數字圖像盲取證
數字圖像修補技術的研究進展與前景展望
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合