?

空域頻域相結合的唇型篡改檢測方法

2022-02-04 05:56林佳瀅周文柏張衛明俞能海
網絡與信息安全學報 2022年6期
關鍵詞:空域頻域人臉

林佳瀅,周文柏,張衛明,俞能海

空域頻域相結合的唇型篡改檢測方法

林佳瀅1,2,周文柏1,2,張衛明1,2,俞能海1,2

(1. 中國科學院電磁空間信息重點實驗室,安徽 合肥 230027;2. 中國科學技術大學網絡空間安全學院,安徽 合肥 230027)

近年來,社交網絡中的“換臉”視頻層出不窮,對說話者進行唇型篡改是其中的視頻代表之一,這給大眾生活增添娛樂的同時,對于網絡空間中的個人隱私、財產安全也帶來了不小隱患。大多數唇型篡改檢測方法在無損條件下取得了較好的表現,但廣泛存在于社交媒體平臺、人臉識別等場景中的壓縮操作,在節約像素和時間冗余的同時,會對視頻質量造成影響,破壞空域上像素與像素、幀與幀之間的連貫完整性,導致其檢測性能的下降,從而引發對真實視頻的錯判情況。當空域信息無法提供足夠有效的特征時,能夠抵抗壓縮干擾的頻域信息就自然而然地成為重點研究對象。針對這一問題,通過分析頻率信息在圖像結構和梯度反饋上的優勢,提出了空域頻域相結合的唇型篡改檢測方法,有效利用空域、頻域信息的各自特點。對于空域上的唇型特征,設計了自適應提取網絡和輕量級的注意力模塊;對于頻域上的頻率特征,設計了不同分量的分離提取與融合模塊。隨后,通過對空域上的唇型特征和頻域上的頻率特征進行有側重的融合,保留更多關鍵紋理信息。此外,在訓練中設計細粒度約束,分開真假唇型特征類間距離的同時,拉近類內距離。實驗結果表明,得益于頻率信息,所提方法能有效改善壓縮情況下的檢測準確性,并具備一定的遷移性。另外,在對核心模塊開展的消融實驗中,相關結果驗證了頻率分量對于抗壓縮的有效性,以及雙重損失函數在訓練中的約束作用。

人臉偽造;人臉偽造檢測防御;唇型篡改檢測;抗壓縮;深度學習

0 引言

2017年,第一個針對名人的換臉視頻在社交平臺上發布,從此人臉偽造技術開始走進公眾視野。根據篡改區域的不同,人臉偽造技術分為全臉替換和局部篡改。前者通常將整個源臉替換成目標臉;后者修改部分臉部區域,如篡改唇型來匹配音頻內容,并達到視覺上的同步。前者篡改區域大,且伴隨著身份屬性的改變;后者篡改區域小,身份屬性不變但視頻內容會發生更改,因而后者產生的社會危害更大。隨著攻防一體化的發展,針對人臉偽造的檢測技術應運而生,同樣按照篡改區域劃分為全臉檢測技術和局部檢測技術兩大類。無損情況下,唇型篡改視頻中淺層紋理特征能夠得到完整保留且具有連貫性,現有的局部檢測模型依靠該空域信息即可提取到具有區分性的特征,在真實、篡改視頻的鑒別任務中取得較好的表現。

然而實際生活中,壓縮作為一種基本的數據處理方式,普遍存在于各個數字平臺中。從像素空間冗余壓縮、時間冗余壓縮以及編碼冗余壓縮3個維度對視頻的分辨率和尺寸進行改變,能夠有效節約帶寬資源,防止自身數據冗余造成不必要的消耗。倘若外界施加的壓縮強度過大,在包括信道傳輸損失等多路干擾的疊加下,視頻畫面極易產生大幅度的缺陷,甚至出現人眼都無法分辨清楚視頻內容的情況。常見的壓縮導致的視頻受損情況有高斯噪聲、像素腐蝕以及高斯模糊等。

毫無疑問,對視頻采取的壓縮強度越大,淺層紋理特征就越容易被破壞,像素與像素、幀與幀之間的連貫完整性因此被削弱。原本未經篡改的真實視頻此時在基于深度神經網絡的檢測模型看來,由于噪聲的影響其極有可能被認為是經過篡改的假視頻而發生錯判。作為一種廣泛使用的后處理操作,壓縮對當前的局部唇型篡改檢測提出了新的挑戰。

當空域信息所剩無幾,面對此類困難場景,本質上需要解答一個問題,即什么信息對于高壓縮視頻的檢測是有效的,這也是人臉偽造檢測發展至今,學者們不斷從各個領域借鑒新思路試圖解決的問題。傳統圖像處理領域除了研究空域信息外,另一個重點研究對象是頻域。頻域信息能很好地反映圖像的不同結構,表征梯度的變化,這一特性使得某些操作在頻域上的效果會優于空域,因而將其引入同屬于圖像處理細分下的人臉偽造檢測任務中,具備充分的合理性。

綜合上述研究背景,本文提出了空域頻域相結合的唇型篡改檢測方法。從空域頻域兩個方面入手,分別提取各自特征并采取有側重的融合方式,進一步突出紋理信息;另外,為了更好地區分不同真假唇型特征,拉近相同特征,在訓練中引入雙重損失函數,對模型構成細粒度約束。面對壓縮環境下的人臉偽造場景,從多個角度對檢測模型開展積極探索,促進實際人臉安全防御體系的構建。

1 相關工作

1.1 局部唇型篡改方法

早期的局部唇型篡改主要基于單幅圖像或者純視頻,現階段為了進一步營造出自然逼真的效果,通常會與音頻進行結合,生成可以說話的偽造人臉視頻。其核心思想是篡改目標人物的唇型以匹配當前音頻的說話內容,因而在生成過程中會涉及音頻、視頻等多模態的特征信息。通過音頻結合的局部唇型篡改技術,偽造方可以達到操控目標人物說出他們希望說的話的目的。

通過音頻生成的唇型在完成張開閉合動作的同時,還要盡可能形狀準確,符合人類發音規律。為了實現這一任務,深度學習領域的神經網絡模型成為首選。對音頻進行編碼后作為特征輸入生成模型中,得到對應的唇型關鍵點或者3D重建參數,再將這些唇型特征送到解碼器中還原出當前唇型。

相關唇型篡改方法包括Obama lip-sync[1]、First order motion[2]、Audio-driven[3]和Wav2Lip[4]等。其中,Obama lip-sync通過奧巴馬的每周總統演講視頻,學習其特定的說話方式和表情姿勢;Audio-driven利用3D重建分別提取音頻、表情參數,將屬性和身份特征分開;First order motion則通過視頻驅動單幅原始人臉圖像。Wav2Lip通過輸入一段動態視頻和一段音頻,即可實現任意人的唇型篡改。Wav2Lip框架如圖1所示,由3個模塊組成:音頻驅動的人臉唇型生成器、生成人臉視覺質量判別器、音頻唇型同步判別器。不同于先前方法在每幀視頻上進行篡改,該方法一次性輸入連續5 幀,經過編解碼器結構得到相應的人臉輸出幀,使用 L1 重建損失約束生成人臉與真實人臉間的距離,同時視覺質量判別器會對生成人臉進行真假判斷,形成對抗式訓練。

圖1 Wav2Lip框架

Figure 1 The framework of Wav2Lip

1.2 局部唇型檢測方法

對局部唇型檢測方法的發展過程進行大致追溯可以發現,其主要從語音識別、唇型識別等真人音視頻任務上遷移而來。利用在真實大規模數據集上經過嚴密訓練和測試的語音、唇讀等預訓練模型,可以很好地對當前偽造人臉特征進行初步篩選過濾。固定網絡的前層模塊,損失函數在迭代訓練中更新調整最后一個全連接層的權重,實現預訓練模型在人臉偽造數據集上的微調。

受到以上研究視角的啟發,來自Facebook的團隊率先提出了Lip Forensics算法[5],其框架如圖2所示,核心思想是挖掘高級語義在嘴部運動中存在的不規則性,如超出正常人嘴唇的開合幅度,或者相反地,不能自如地完成嘴唇的閉合動作。唇讀預訓練模型的優勢在于空間上提取 3D 特征,時間上使用 MS-TCN網絡[6]描述時序特征,學習真實自然場景下嘴部運動特有的高級語義表征。因此,能有效避免一些過擬合的情況,如檢測網絡過于依賴低層次語義表征或者某種生成方法產生的特定偽影。

圖2 Lip Forensics框架

Figure 2 The framework of Lip Forensics

圖3 空域頻域相結合的唇型篡改檢測方法的框架

Figure 3 The framework of lip forgery detection via spatial-frequency domain combination

值得一提的是,雖然預訓練模型在庫內和跨數據庫間的實驗上展現了優異的性能,但其龐大的模型結構導致適用范圍受到局限,在大企業的大平臺上更具備施展空間。日常生活中,面向計算機和手機等靈活終端,往往要求模型輕量化、易部署,且對于壓縮場景具備一定檢測能力。

1.3 頻率特征變換

按照常規的幾種頻率變換方法如離散傅里葉變換、離散余弦變換,可以將圖像從空域轉到頻域。在此基礎上對頻率特征進行劃分,進而得到低頻、中頻、高頻3個基本分量。低頻信號往往占比最高,主要描述了圖像中梯度變化平緩的區域,這意味著在顏色和內容上的波動幅度不大,與空域中的低維紋理特征具有相同性質。高頻信號則與此不同,其刻畫了梯度變化劇烈的部分。在圖像內容出現明顯轉換的地方,高頻信號所蘊含的能量越多,因而大多對應空域中的高維細節特征如邊緣、輪廓等,甚至少部分的噪聲。中頻信號的梯度變化介于兩者之間,一方面,減少對圖像內容的補充;另一方面,增加對細節的描繪。

實際上圍繞頻率信息,已經有相關的人臉偽造檢測工作展開。例如,文獻[7]和文獻[8]均指出空域上低維淺層紋理特征的重要性,另外,文獻[9]探討了不同頻率分量對檢測模型的有效性。

因此,不僅要引入頻率特征與空域上的唇型特征相結合,還要對頻率特征進行劃分得到不同分量。在頻率分量的基礎上進行特征融合,起到引導和增強的作用,有利于模型在壓縮情況下的檢測判斷。

2 空頻域唇型篡改檢測

壓縮操作會引發圖像空域出現一定缺陷,頻率信號卻因自身在結構、梯度上的特性,能很好地抵抗此類影響。為了盡可能捕捉到更多有效特征減小干擾,可將空域、頻域二者結合,相互取長補短,共同用于壓縮場景下的唇型篡改檢測任務。檢測方法的框架如圖3所示,采用空域頻域相結合的方式,在空域上提取唇型特征,在頻域上提取頻率特征,經過卷積神經網絡將兩者進行特征融合,最終得到真實、篡改的判斷。

其中,在空域的唇型特征提取模塊,使用區域生成網絡(RPN,region proposal network)[10]實現唇型候選區域的自適應提取,在隨后的特征編碼階段引入輕量級的注意力模塊分別作用于通道和空間維度,調整每個通道的權重,關注感受野中激勵更強的區域。在頻率特征提取模塊中,利用離散余弦變換去相關性得到頻域信號,濾波器濾波后提取低、中、高3個頻帶信息,再利用離散余弦反變換回空域,得到3個頻帶各自對應的圖像信號。經過特征堆疊網絡將3個圖像信號合并,形成最終的頻率特征。在特征融合階段,將兩路分支提取的特征進行結合,經過CNN 中的卷積、池化和全連接層,輸出最終的判決結果。

2.1 唇型特征提取

唇型特征提取模塊的目的在于直接從空域獲取顯著的低維紋理特征,核心由自適應提取模塊和輕量級注意力模塊組成。

RPN自適應提取模塊如圖4所示,目標人臉圖像經過卷積提取特征圖后,進入RPN特征提取網絡。對該特征圖進行卷積得到兩路分支,上支路進行 Softmax 和 Reshape 操作生成初步的候選框,下支路保留該特征圖并與上支路結合,得到最終的唇型候選框。在特征響應較大的人臉下半區域,唇型候選框經過多次迭代優化,具有一定動態性,當遇到臉部出現較大轉動或外界遮擋的情況,候選框的大小與位置會做出靈活調整。與先前基于人臉關鍵點進行唇型特征提取的方法相比,本文方法減少了人工干預和尺寸固定的限制。

圖4 RPN自適應提取模塊

Figure 4 RPN adaptive extraction module

輕量級注意力模塊如圖5所示,本文分別設計了通道注意力模塊和空間注意力模塊,前者注重內容理解找到關鍵信息,后者確定關鍵信息所在的具體位置。為了使特征更好地聚合并減少參數量,在注意力圖的生成過程中添加了兩種池化操作,分別為平均池化(AvgPool)和最大值池化(MaxPool),前者能保留全局范圍內的反饋,后者能突出強調局部響應大的反饋,相互補充。

圖5 輕量級注意力模塊

Figure 5 The light-weighted attention module

2.2 頻率特征提取

為了更好地發揮頻率特征的優勢,頻率特征提取模塊采取先分離后融合的策略,如圖6所示,本文設計了頻率特征分離模塊和頻率特征融合模塊。

圖6 頻率特征提取模塊

Figure 6 Frequency feature extraction module

首先進行頻率特征分離操作。選用離散余弦變換得到人臉頻譜圖。其中,低頻分量密度大,集中在左上角;中頻分量信號靠近中間呈帶狀分布;高頻分量的密度較低,占據整個右下角。設計3種二分類濾波器將低頻、中頻、高頻分量各自提取出來,其本質是由 0、1構成的二進制掩碼。

在頻率分量的特征融合階段,依次經過卷積和平均池化得到尺寸相同的編碼特征。隨后,在通道方向上按照低、中、高的順序進行拼接,保持各頻率分量獨立的同時得到融合后的頻率特征。

2.3 特征融合

特征融合是特征處理的關鍵模塊,空域頻域融合后的總體特征將對模型的最終決策起到指導作用。

在權重的指導下,相乘后的新頻率特征能呈現更多檢測所需的紋理信息。相比起均勻融合,以唇型特征為主的有側重融合,能突出有效特征,增強網絡的學習能力。

2.4 損失函數

針對壓縮場景下的唇型篡改檢測任務,本文設計雙重損失函數,改善原先方法中普遍采取的基于二分類任務的粗粒度約束,進一步優化模型的檢測性能。損失函數模塊如圖8所示,輸入的融合特征經過卷積、平均池化后,再通過全連接層進行矩陣變換,與樣本標記空間建立映射得到當前的輸出結果。隨后,由 Softmax Loss[12]和 Center Loss[13]構成的雙重損失函數模塊對輸出結果進行誤差計算。

圖7 特征融合模塊

Figure 7 Feature fusion module

圖8 損失函數模塊

Figure 8 Loss function module

Softmax Loss計算公式如下:

Center loss計算公式如下:

進一步,求得偏導為:

顯然,兩個損失函數的作用有所不同。在特征空間中,Softmax Loss 將不同類別間的各點分開,Center Loss 將同一類別中的各點向中心方向收縮,共同對唇型篡改檢測任務形成細粒度的約束。模型在上述迭代優化中,逐漸學習真實、篡改唇型間更具有區分性的特征,提升檢測性能。而大多數方法采用的二分類交叉熵則屬于粗粒度約束,僅從輸出結果與標簽之間的距離進行衡量,導致類內特征不夠緊湊,在唇型篡改的關鍵痕跡獲取上更難把握。

3 實驗

本節首先介紹實驗設置,包括數據集和評價指標等,隨后對提出的唇型篡改檢測方法進行實驗,包括庫內的真假分類評估、跨方法評估,跨數據庫的遷移性評估以及關鍵模塊的消融實驗。

3.1 實驗設置

本文實驗采用人臉偽造數據集FaceForensics++[14]和Celeb-DF[15]。

FaceForensics++數據集使用4 種人臉偽造方法,其中,FaceSwap[16]和Face2Face[17]是基于計算機圖形學的方法,而DeepFakes[18]和 Neural Textures[19]則是基于學習的方法,在不同方法間可進行檢測評估。此外,采用H.264編解碼器對視頻進行不同程度的壓縮,得到相應的高質量視頻(HQ,C23)和低質量視頻(LQ,C40)。該數據集是目前首個引入壓縮操作的大型公開數據集。

Celeb-DF數據集則以視頻制作精良,檢測難度較大為顯著特點,是評估模型遷移性較為理想的測試數據集之一。

評價指標方面,采用準確率(ACC,accuracy)[23]和ROC曲線面積(AUC,area under thecurve)[20]對本文實驗進行評估。

3.2 真假分類評估

為了評估不同壓縮強度下模型的檢測性能,在FaceForensics++數據集的C23和C40上分別進行訓練和測試,并與現有方法在ACC 和AUC指標上進行對比,得到的實驗結果如表1所示。

表1 真假分類評估結果

在比較的方法中,Steg. Features[22]是基于隱寫分析特征的人工檢測方法,從Cozzolino等到XceptionNet的5種方法[23-27]則是基于卷積神經網絡的特征學習檢測方法。從表1中結果可以看出,本文方法在兩種壓縮場景下的性能均優于先前方法。在高壓縮的C40上,通過結合頻率特征捕捉到關鍵篡改痕跡,取得了更大的增幅。

3.3 庫內跨方法評估

在FaceForensics++數據集的不同方法間使用留一法進行評估,即選擇3類作為訓練集,剩下一類作為測試集,總共產生4類測試結果。為了保障公平客觀性,本文實驗統一使用C40高壓縮下的視頻進行訓練和測試,ACC作為評價指標,并與真假分類評估中的檢測方法進行比較,結果如表2所示。

表2 庫內跨方法評估結果

在4種篡改方法中,DeepFakes上的檢測準確率普遍較高,而在Neural Textures的檢測上則呈現一定差距,這可能與篡改方法自身的原理有關。DeepFakes和FaceSwap屬于早期的篡改方法,Neural Textures和Face2Face則在前兩者的基礎上改進,提高了生成視頻的質量。雖然不同方法間的檢測難度有所不同,本文方法依然在庫內跨方法評估上取得了更好的表現效果。

3.4 跨數據庫遷移性評估

為了更好地模擬真實場景,本文進行了跨數據庫遷移性評估。本文實驗采用FaceForensics++的C23視頻作為訓練集,Celeb-DF作為測試數據集,AUC作為評價指標,并與主打遷移性的4種相關檢測方法進行比較,具體的實驗設置如表3所示。其中,Two-stream[28]采用雙流網絡結構;Multi-task[29]不僅判斷人臉圖像是否經過篡改,還定位分割出篡改區域;VA-LogReg[30]使用邏輯回歸模型,聚焦于篡改方法在眼睛、牙齒上留下的視覺偽影;FWA[31]則捕捉插值和尺寸縮放引起的形變痕跡。上述方法分別從不同的檢測視角出發。

從同時列出的FaceForensics++(C23)和Celeb-DF的實驗結果來看,兩個數據集的特征分布存在明顯差異,模型在后者上的表現出現普遍下降。雖然Celeb-DF在檢測上具有相當的挑戰難度,本文方法依然取得了AUC上的提升,達到66.24%,在跨數據庫間展現出一定的遷移性。

表3 跨數據集遷移性評估結果

3.5 消融實驗

3.5.1 頻率分量選擇實驗

低頻、中頻、高頻分量分別包含不同的圖像特征,在壓縮場景下的唇型篡改檢測中產生的作用也不盡相同。設計實驗對不同頻率信號下的模型檢測性能進行評估,結果如表4所示。

表4 頻率分量選擇實驗結果

表4中第一行基線模型XceptionNet 作為對照組,沒有頻率分量輸入。從壓縮程度來看,在高壓縮的C40上,性能提升幅度更大;從頻率信息來看,相比高頻信息,加入低頻和中頻信息的提升作用更大,但3個分量的加入均對模型的檢測起到正向作用。

3.5.2 損失函數選擇實驗

本文方法的損失函數由Softmax Loss和Center Loss 兩部分組成,實驗如表5所示。與第一行僅使用Softmax Loss的粗粒度約束場景相比,加上Center Loss的約束項后,在C23和C40的場景中模型的性能均有所提高。結果表明,改進后的損失函數在模型訓練中進行了細粒度約束,在分開不同特征的同時,引導同一類特征向中心方向更加靠攏。

表5 損失函數選擇結果

4 結束語

針對網絡空間中廣泛存在的壓縮操作,對當前唇型篡改檢測帶來的挑戰,本文充分挖掘頻率信號抗干擾的特性,提出了空域頻域相結合的唇型篡改檢測方法??沼蛏?,采用RPN自適應提取與輕量級注意力兩個模塊,關注局部重點區域,實現唇型特征的靈活提??;頻域上,使用離散余弦變換與反變化,提取低頻、中頻、高頻率分量再進行通道上的堆疊,保持各分量獨立性。隨后,在唇型特征指導下對兩路特征進行有側重的融合。訓練階段,為了對模型形成細粒度約束,采用由Softmax Loss 和 Center Loss 構成的雙重損失函數。實驗結果表明,與現有方法相比,本文方法在檢測準確性與遷移性上取得更好表現。此外,消融實驗的結果證明了頻率分量和細粒度約束的有效性。

隨著人臉偽造方法的精細化發展,未來的檢測工作除了考慮現有的空域、頻域外,還可能拓展至時域,從3種特征維度上挖掘出更多潛在篡改痕跡,突破先前框架,進一步提升面向實際的檢測性能。

[1] SUWAJANAKORN S, SEITZ S M, KEMELMACHER- SHLIZERMAN I. Synthesizing Obama: learning lip sync from audio[J]. ACM Transactions on Graphics (TOG), 2017, 36: 1-13.

[2] SIAROHIN A, LATHUILIèRE S, TULYAKOV S, et al. First order motion model for image animation[J]. ArXiv, 2019, abs/2003.00196.

[3] YI R, YE Z, ZHANG J, et al. Audio-driven talking face video generation with learning-based personalized head pose[J]. arXiv: 2002. 10137v2, 2020.

[4] PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. 2020: 484-492.

[5] HALIASSOS A, VOUGIOUKAS K, PETRIDIS S, et al. Lips don't lie: a generalisable and robust approach to face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 5037-5047.

[6] FARHA Y A, GALL J. MS-TCN: multi-stage temporal convolutional network for action segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 3570-3579.

[7] QIAN Y Y, YIN G J, SHENG L, et al. Thinking in frequency: face forgery detection by mining frequency-aware clues[C]//Proceedings of Computer Vision – ECCV 2020. 2020: 86-103.

[8] LI J M, XIE H T, LI J H, et al. Frequency-aware discriminative feature learning supervised by single-center loss for face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 6454-6463.

[9] CHEN S, YAO T P, CHEN Y, et al. Local relation learning for face forgery detection[J]. arXiv:2105.02577, 2021.

[10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[11] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2261-2269.

[12] SUN Y, WANG X G, TANG X O. Deep learning face representation from predicting 10, 000 classes[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1891-1898.

[13] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[C]//Proceedings of Computer Vision – ECCV 2016. 2016: 499-515.

[14] R?SSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensics++: learning to detect manipulated facial images[C]//Proceed- ings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 1-11.

[15] LI Y Z, YANG X, SUN P, et al. Celeb-DF: a large-scale challenging dataset for DeepFake forensics[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 3204-3213.

[16] Faceswap. Faceswap github[EB].

[17] THIES J, ZOLLH?FER M, STAMMINGER M, et al. Face 2 face: real-time face capture and reenactment of RGB videos[J]. ArXiv, 2019, abs/2007.14808.

[18] DeepFakes. Deepfakes github[EB].

[19] THIES J, ZOLLH?FER M, NIE?NER M, et al. Real-time expression transfer for facial reenactment[J]. ACM Transactions on Graphics, 2015, 34(6): 1-14.

[20] LI L Z, BAO J M, ZHANG T, et al. Face X-ray for more general face forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 5000-5009.

[21] KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. CoRR, 2015, abs/1412.6980.

[22] FRIDRICH J J, KODOVSKY J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.

[23] AFCHAR D, NOZICK V, YAMAGISHI J, et al. MesoNet: a compact facial video forgery detection network[J]. 2018 IEEE International Workshop on Information Forensics and Security (WIFS), 2018: 1-7.

[24] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2017: 1800-1807.

[25] COZZOLINO D, POGGI G, VERDOLIVA L. Recasting residual-based local descriptors as convolutional neural networks: an application to image forgery detection[C]//Proceedings of the 5th ACM Workshop on Information Hiding and Multimedia Security. 2017: 159-164.

[26] BAYAR B, STAMM M C. A deep learning approach to universal image manipulation detection using a new convolutional layer[C]// Proceedings of the 4th ACM Workshop on Information Hiding and Multimedia Security. 2016: 5-10.

[27] RAHMOUNI N, NOZICK V, YAMAGISHI J, et al. Distinguishing computer graphics from natural images using convolution neural networks[J]. 2017 IEEE Workshop on Information Forensics and Security (WIFS), 2017: 1-6.

[28] ZHOU P, HAN X T, MORARIU V I, et al. Two-stream neural networks for tampered face detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 1831-1839.

[29] NGUYEN H H, FANG F M, YAMAGISHI J, et al. Multi-task learning for detecting and segmenting manipulated facial images and videos[C]//Proceedings of 2019 IEEE 10th International Conference on Biometrics Theory, Applications and Systems. 2019: 1-8.

[30] MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose deepfakesand face manipulations[J]. 2019 IEEE Winter Applications of Computer Vision Workshops(WACVW), 2019: 83-92.

[31] LI Y, LYU S. Exposing DeepFake videos by detecting face warping artifacts[J]. ArXiv, 2019, abs/1811.00656.

Lip forgery detection via spatial-frequency domain combination

LIN Jiaying1,2, ZHOU Wenbo1,2,ZHANG Weiming1,2,YU Nenghai1,2

1. Key Laboratory of Electromagnetic Space Information, Chinese Academy of Sciences, Hefei 230027, China 2. School of Cyber Science, University of Science and Technology of China, Hefei 230027, China

In recent years, numerous “face-swapping” videos have emerged in social networks, one of the representatives is the lip forgery with speakers. While making life more entertaining for the public, it poses a significant crisis for personal privacy and property security in cyberspace. Currently, under non-destructive conditions, most of the lip forgery detection methods achieve good performance. However, the compression operations are widely used in practice especially in social media platforms, face recognition and other scenarios. While saving pixel and time redundancy, the compression operations affect the video quality and destroy the coherent integrity of pixel-to-pixel and frame-to-frame in the spatial domain, and then the degradation of its detection performance and even misjudgment of the real video will be caused. When the information in the spatial domain cannot provide sufficiently effective features, the information in the frequency domain naturally becomes a priority research object because it can resist compression interference. Aiming at this problem, the advantages of frequency information in image structure and gradient feedback were analyzed. Then the lip forgery detectionvia spatial-frequency domain combination was proposed, which effectively utilized the corresponding characteristics of information in spatial and frequency domains. For lip features in the spatial domain, an adaptive extraction network and a light-weight attention module were designed. For frequency features in the frequency domain, separate extraction and fusion modules for different components were designed. Subsequently, by conducting a weighted fusion of lip features in spatial domain and frequency features in frequency domain, more texture information was preserved. In addition, fine-grained constraints were designed during the training to separate the inter-class distance of real and fake lip features while closing the intra-class distance. Experimental results show that, benefiting from the frequency information, the proposed method can enhance the detection accuracy under compression situation with certain transferability. On the other hand, in the ablation study conducted on the core modules, the results verify the effectiveness of the frequency component for anti-compression and the constraint of the dual loss function in training.

DeepFake forgery, DeepFake detection and defense, lipforgery detection, anti-compression, deep learning

TP309.2

A

10.11959/j.issn.2096?109x.2022075

2022?04?06;

2022?07?09

周文柏,welbeckz@ustc.edu.cn

國家自然科學基金(U20B2047,62072421,62002334,62102386,62121002);中國科技大學探索基金項目(YD3480002001);中央高?;A研究基金(WK2100000011)

The NationalNatural Science Foundation of China (U20B2047, 62072421, 62002334, 62102386, 62121002), Exploration Fund Project of University of Science and Technology of China(YD3480002001), Fundamental Research Funds for the Central Universities(WK2100000011)

林佳瀅, 周文柏, 張衛明, 等. 空域頻域相結合的唇型篡改檢測方法[J]. 網絡與信息安全學報, 2022, 8(6): 146-155.

LIN J Y, ZHOU W B, ZHANG W M, et al. Lip forgery detection via spatial-frequency domain combination[J]. Chinese Journal of Network and Information Security, 2022, 8(6): 146-155.

林佳瀅(1997? ),女,江西贛州人,中國科學技術大學碩士生,主要研究方向為人工智能安全、信息隱藏。

周文柏(1992? ),男,安徽合肥人,中國科學技術大學特任副研究員,主要研究方向為信息隱藏、人工智能安全。

張衛明(1976? ),男,河北定州人,中國科學技術大學教授、博士生導師,主要研究方向為信息隱藏、多媒體內容安全、人工智能安全。

俞能海(1964? ),男,安徽無為人,中國科學技術大學教授、博士生導師,主要研究方向為多媒體信息檢索、圖像處理與視頻通信、數字媒體內容安全。

猜你喜歡
空域頻域人臉
有特點的人臉
一起學畫人臉
基于頻域的聲信號計權改進算法
我國全空域防空體系精彩亮相珠海航展
三國漫——人臉解鎖
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設計
網絡控制系統有限頻域故障檢測和容錯控制
淺談我國低空空域運行管理現狀及發展
基于能量空域調控的射頻加熱花生醬均勻性研究
基于改進Radon-Wigner變換的目標和拖曳式誘餌頻域分離
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合