基于卷積神經網絡的人臉圖像隱私保護

2023-10-13 12:13王祥根崔佳佳

沈陽師范大學學報(自然科學版) 2023年3期

沈博, 王祥根, 田澍, 崔佳佳

(1. 華北計算技術研究所, 北京 100083; 2. 北京信息科技大學信息與通信工程學院, 北京 100192)

隨著智能手機和高像素相機的發展,人們獲取與共享人臉照片更加便捷。例如,社交媒體上的用戶通過Facebook,Instagram,Twitter和YouTube等應用,實時發布手機或相機中拍攝的照片;谷歌、百度和微軟等主要云服務商都為用戶提供了基于圖片的免費服務,用戶可以保存和管理自己的照片,并隨時下載到手機或電腦上。通過收集這些人臉照片,利用生物識別技術對大量圖像進行處理和分析,可為企業與個人提供更具有個性化的服務。但由于人臉圖像中通常包含敏感的個人信息,簡單地共享或發布人臉圖像數據后,攻擊者對其進行身份推斷得到的社會關系會造成個人隱私泄露。因此,設計面向人臉圖像的隱私保護發布方法是十分必要的。

已有的人臉圖像隱私保護方法包括基于傳統圖像處理[1]與基于深度學習[2]2類?；趥鹘y圖像處理的隱私保護方法通過混淆圖像中的敏感信息來達到隱私保護的目的,如遮蔽、像素化和模糊化。雖然該類方法計算復雜度較低,但通常會降低原始圖像的質量,產生較差視覺質量的圖像數據,無法為人臉識別或分類任務提供有效數據。為解決傳統圖像處理方法的不足,基于深度學習的圖像合成方法被提出,通過神經網絡模型從面部數據中去除或隱藏生物特征信息,發布替代原始人臉的高質量合成圖像,用于人臉識別模型的訓練與應用。

給定一張人臉圖像,如何生成一張與其具有相似外觀和相同背景的圖像,同時隱藏真實身份并且允許人臉檢測器進行檢測與識別是現有工作研究的核心問題。Hukkelas等[3]提出DeepPrivacy方法,利用條件生成對抗網絡合成圖像,在不破壞原始數據分布的情況下對圖像中的身份信息進行匿名處理;Chen等[4]利用深度卷積生成對抗網絡合成與原始圖像屬性匹配的高逼真人臉圖像,同時采用定性與定量相結合的方式衡量合成圖像的隱私性和可用性;Sun等[5]通過設計參數化的GAN人臉圖像隱私保護模型,允許在合成圖像中添加細粒度的臉部細節信息,產生具有更高視覺真實感的合成圖像;Meden等[6]通過使用生成神經網絡合成代替人臉確保隱私性,同時保留非身份相關方面數據以實現可用性;Maximov等[7]提出基于條件生成對抗網絡的圖像和視頻匿名化模型,能夠去除面部和身體的識別特征,同時生成可用于任何計算機視覺任務的高質量圖像和視頻;Xue等[8]利用深度神經網絡提出在特征空間中使用對抗性擾動的新型人臉圖像去識別框架,生成圖像在有效保留與身份相關的信息的同時確保其他屬性與原始圖像保持一致。

上述基于深度學習的人臉圖像隱私保護方法,可以幫助解決人臉圖像發布和共享時引起的隱私問題,但仍存在一些有待解決的問題:一是現有方法沒有提供形式化的隱私保證來證明合成圖像的隱私保護效果;二是未考慮語義完整性,不能有效保持隱私性和可用性之間的優化權衡。導致上述問題的主要原因是基于對抗生成網絡的方法通常只關注圖像內容之間的轉換,而忽略了訓練圖像的其他關鍵語義條件信息,包括人臉輪廓、身份等屬性信息,因而無法有效引導網絡生成具有高視覺保真度和準確身份屬性的人臉圖像。同時,在實際訓練中,由于針對具有統一身份的人臉圖像收集成本較高,訓練效率不夠理想,基于對抗生成網絡的方法仍然面臨著樣本類別不均衡的問題,因而容易導致模型出現過擬合,影響人臉合成質量。此外,在沒有高級條件語義信息的指導下,現有的人臉隱私保護方法對人臉圖像身份隱藏的效率相對低下。針對以上問題,本文提出一種基于卷積神經網絡的人臉圖像隱私保護方法,利用卷積自動編碼器對原始人臉圖像進行解耦,實現身份信息的差分隱私保護,并在卷積生成對抗網絡的基礎上添加分類器保持原始圖像和合成圖像間的語義一致性,代替原始圖像發布。該方法在保留原始人臉圖像的關鍵特征的基礎上,可有效平衡隱私保護和數據可用性,保持圖像的語義完整性,同時提供可證明的隱私保證。

1 預備知識

1.1 差分隱私

設數據集D和D′具有相同屬性結構,二者的對稱差記為D?D′,|D?D′|表示對稱差D?D′中的記錄個數,若|D?D′|=1,則D和D′稱為相鄰數據集。

定義1ε-差分隱私[9]。給定相鄰數據集D和D′,若存在隱私算法M,Range(M)是M的取值范圍,若算法M在數據集D和D′上的任意輸出結果S(S∈Range(M))滿足

Pr[M(D)∈S]≤eεPr[M(D′)∈S]

(1)

則稱算法M滿足ε-差分隱私。

其中,參數ε表示隱私預算,ε值越大,隱私保護強度越低值越小隱私強度越高。采用Laplace機制實現ε-差分隱私。

定義2 Laplace機制[10]。設函數f:D∈n→d,如果算法M的輸出滿足

M(D)=f(D)+Z

(2)

且Z∈n是服從位置參數為0,尺度參數為Δf/ε的Laplace分布,則算法M提供ε-差分隱私。Laplace機制引入噪聲的大小與函數f的敏感度Δf和隱私預算ε有關,Laplace機制的敏感度Δf由L1-范數定義。

定義3L1-敏感度。設函數f:D∈n→d對所有相鄰數據集D和D′的L1-敏感度為

差分隱私具有以下2個重要的性質[11],它們是判斷一個機制是否滿足差分隱私的標準。

性質2 變換不變性。給定任意算法M1滿足ε-差分隱私,對任意算法M2(不一定滿足差分隱私),則有M(·)=M2(M1(·))滿足ε-差分隱私。

1.2 自動編碼器

1.3 生成對抗網絡

生成對抗網絡(generative adversarial networks, GANs)由生成器模塊G和判別器模塊D組成,生成器模塊的目標是根據學習的概率模型生成圖像內容。判別器模塊的主要目的是判斷生成的圖像內容是真是假,并對此作出接受或拒絕圖像內容的決定。GANs利用零和極小極大(G,D)=[logD(X)]+進行博弈完成對抗學習,其中為隱向量的先驗分布,G(·)為生成函數,D(·)為輸出范圍為[0,1]的判別函數。當D(X)=0時表示判別器D將樣本X分類為生成的,反之D(X)=1表示判別器D將樣本X分類為真實的。在GAN網絡的訓練過程中,將判別器和生成器生成的人臉圖像之間產生的期望值作為每一批次人臉質量判別的依據。為了使模型具有較高的人臉圖像合成質量并保證其魯棒性,通常會將訓練模型分成多個小批量數據集,并將每個批評的樣本取期望的平均值作為網絡訓練的依據,同時保證損失函數在一個小批量梯度下降的過程中交替地進行最小化和最大化,保證GAN網絡模型的訓練效率。

1.4 問題描述

1) 對于身份屬性x∈Xid,在訓練期間未使用的屬性分類器fx的性能降低;

2 基于卷積神經網絡的人臉圖像隱私保護模型

根據1.3節的問題定義及描述,本文結合生成對抗網絡、自動編碼器與差分隱私設計面向人臉圖像發布的隱私保護模型。如圖1所示,該模型包括預訓練和圖像合成2個部分。

圖1 基于卷積神經網絡的人臉圖像隱私保護方法框圖Fig.1 Overview of privacy-preserving face images protection based on convolutional neural networks

1) 基于卷積自動編碼器與差分隱私的預訓練。首先,利用自動編碼器來捕獲人臉圖像X中的身份屬性和其他屬性的隱空間信息表示;其次,根據身份屬性的隱空間表示之間的距離對其添加Laplace擾動;最后,基于解碼器人臉圖像進行重構。

3) 人臉屬性判別及輸出。為了生成具有隱私保護屬性的高質量的人臉圖像,本文在生成對抗網絡判別過程中引入了具有輔助引導功能的人臉屬性分類器和人臉判別器,用于監督學習本文提出的基于卷和自動編碼器與差分隱私的預訓練網絡框架。在訓練過程中,輔助分類器被嵌入到判別器中,用于多個人臉屬性的分類,然后將可控屬性的約束反饋給生成器,以合成具有隱私保護功能的人臉圖像,同時保證了人臉圖像的實用性。同時,人臉判別器的目的是減少原始圖像和合成面部圖像之間的結構差異,使得生成圖像域原始面部圖像具有更相似的統計分布。最后,將合成后并具有隱私保護功能的人臉圖像輸出發布。

2.1 基于卷積自動編碼器與差分隱私的預訓練

該階段由表征解耦、加噪擾動與表征重構3個子網絡構成,通過卷積自動編碼器和差分隱私實現預訓練,使生成對抗網絡在訓練過程中滿足差分隱私保護,在有效抵抗成員推斷攻擊的同時,實現可證明的隱私保護。

2.1.1 表征解耦

利用CACIAE人臉識別模型[12]將給定輸入人臉圖像X進行解耦成身份屬性與其他屬性(表情、光照、背景等信息),分別用隱空間信息x′id和x′att表示。將身份屬性與其他屬性的隱空間信息分別定義為Encid(X)=X′id、Encatt(X)=X′att,其中X′id,X′att表示人臉圖像X的隱空間信息。

2.1.2 加噪擾動

通過根據圖像中身份屬性表征向量之間的距離度量控制噪聲[13],提出一種基于距離度量的ε-差分隱私機制。

定義4 基于距離度量的ε-差分隱私機制。設距離函數d:n→n,若隱私算法M:n→n在圖像X的表征向量X1與X2上的任意輸出結果S滿足

Pr[M(X1)∈S]≤eεd(X1,X2)Pr[M(X2)∈S]

(3)

則稱算法M滿足基于距離度量的ε-距離差分隱私。

證明由公式(3)可得

由Laplace分布可得

2.1.3 表征重構

2.2 基于卷積生成對抗網絡的人臉圖像合成

根據定理,在預訓練階段已經通過添加擾動噪聲的方式保護身份屬性,該階段算法滿足差分隱私保護。因此,在圖像合成階段對數據做任何處理都不會對隱私保護有所影響,同時可有效抵抗在利用卷積生成對抗網絡合成圖像時的成員推斷攻擊。

在人臉圖像合成階段,為了避免經典的GANs存在訓練不穩定、生成過程不可控以及不具備可解釋性等問題,本文提出一種基于深度卷積生成對抗網絡(Deep Convolutional GAN, DCGAN)的人臉圖像合成模型SynthesisNet,該模型由生成器模塊、判別器模塊與分類器模塊3個子網絡組成。

2.2.1 損失函數

為了生成與原始圖像相似的身份保護圖像,設計生成器G的損失函數LG,tot并利用反向傳播的方式進行訓練:

LG,tot=LG,orig+LG,info+LG,class

(4)

LG,class=

其中:LG,orig,LG,info分別表示生成器網絡原始損失函數、合成圖像與原始圖像之間的信息損失函數;LG,class表示衡量生成圖像的標簽與分類器為該圖像預測標簽之間差異的損失函數,l(·)表示返回輸入記錄的標簽屬性值函數;remove(·)表示去除輸入圖像標簽屬性函數;C(·)表示分類器神經網絡預測標簽函數。

判別器網絡D用于分辨圖像是真實圖像還是合成圖像,使用DCGAN中的原始損失函數LD,tot訓練判別器網絡。為了保持合成圖像與原始圖像之間的身份一致性,在原始DCGAN網絡模型基礎上,設計分類器C的損失函數LC,tot用于預測合成圖像標簽:

LC,tot=Lc,class+LG,class

(5)

其中Lc,class=[|l(X)-C(remove(X))|]。

因此,訓練神經網絡的總損失函數的加權和為Ltot=LG,tot+LD,tot+LC,tot=Lorig+λG,infoLG,info+λC,totLC,tot,其中λG,info,λC,tot為平衡不同項的權重參數。

在實際訓練時,在預訓練階段隨機抽取2個人臉圖像提取其身份屬性和其他屬性,并在基于DCGAN的圖像合成模型時需要根據實時的生成效果調整訓練參數,將它們進行合成。

2.2.2 神經網絡結構

如圖2所示,SynthesisNet模型使用實例歸一化(instance normalization, IN)[15]代替批量歸一化,將ReLU激活函數、LeakyReLU激活函數分別用于生成器G和判別器D,并引入輔助分類器C[16]到判別器中。

圖2 SynthesisNet模型的網絡結構Fig.2 Network structure of face image synthesis model

1) 生成器網絡G。由多個反向卷積層組成,用于生成與真實人臉圖像具有相同分布的偽圖像。它的輸入是128×128的RGB人臉圖像X,前2個反卷積層使用步長為2,由實例歸一化層組成,并應用非線性ReLU激活函數計算每一層,最后將圖像上采樣到128×128。

2) 判別器網絡D與分類器網絡C。如圖2所示,將判別器網絡D和分類器網絡C組合成一個網絡,用于判別圖像是生成圖像還是真實圖像,并保持真實圖像與生成圖像的語義一致性。分類器網絡C與判斷器網絡D具有相同的神經網絡結構,訓練分類器從圖像中判斷標簽與其他屬性之間的相關性,保持生成器合成圖像在語義上的正確性。例如,輸入圖像性別“性別=女,年齡段=青年,種族=白種人”,分類器可以確保輸出圖像的語義完整性,即為“性別=女,年齡段=青年,種族=白種人”。雖然DCGAN中的判別器D在一定程度上可以實現語義一致性,但其本身存在一些生成實例不正確的問題,為此引入分類器網絡,幫助判別器提高語義完整性,減少分類錯誤。判別器D的輸入是128×128的真實或生成圖像,除最后一個卷積層外的所有層在2個網絡之間共享參數,所有共享的卷積層使用LeakyReLU非線性激活函數。在最后一層,2個網絡使用單獨的卷積層,其中判別器D根據DCGAN計算損失,返回一個標量分數,同時分類器網絡返回每個屬性類的概率向量。

3 實驗評估

本文采用的實驗環境為8GB內存,Intel Core i5處理器,2.3 GHz;GPU為NVIDIA GeForce GTX 970。所有實驗在Ubuntu 14.04操作系統上執行,分別采用Python和TensorFlow作為本實驗的編程語言和機器學習庫。

3.1 實驗設置

3.1.1 數據集

本實驗使用3種公開數據集:

1) MUCT數據集[17]。包含276位受試者的3 755張圖像,其中1 844位為男性,1 911位為女性,使用5個網絡攝像頭在不同光照下捕獲。

2) MORPH數據集[18]。MORPH數據集包含55 134張面部圖像,涵蓋13 000個獨特的身份,其年齡跨度從16～77歲。同時,該數據集還包含多樣的人臉圖像屬性信息,包括不同年齡、性別等。在具體的網絡學習中,本文將MORPH數據集分為訓練集和測試集,其中,訓練集包含50 020張人臉圖像,測試集中包含4 925張人臉圖像,根據上述數據集比例進行實驗對比分析,驗證人臉圖像的隱私保護性能。

3) CelebA數據集[19]。包含202 599張人臉圖像,其中84 434位為男性,118 165位為女性。

由于CelebA的種族標簽分布嚴重偏向白種人,而MORPH則嚴重偏向非洲血統的人,因此,在實驗時將CelebA和MORPH數據集以留出法的方式分為訓練集和測試集,訓練出種族分布相對均衡的模型。MUCT數據集用于合成圖像的隱私性和可用性評估。

3.1.2 評價指標

1) 可用性。使用IS(Inception Score)[20]和FID(Fréchet Inception Distance)[21]作為可用性評價指標。IS用來衡量GANs網絡生成圖像的質量,IS=exp(xDKL(p(y|x)||p(y))),其中x表示給定的圖像,y為標簽。IS值越高,圖像質量越好。FID使用Inception network分別提取真實圖像與合成圖像中間層的特征,計算2個多維特征分布之間的距離,FID=+Tr(C+Cr-2(CCr)1/2),其中m,mr分別表示真實圖像與合成圖像的特征均值;C,Cr分別表示真實圖像與合成圖像的協方差;Tr表示矩陣對角線上的元素和。

2) 隱私性。采用基于Inception-Resnet backbone[22]的身份距離作為圖像隱私性的評價指標,衡量真實人臉圖像與合成人臉圖像的身份差異。

3.2 實驗結果與分析

本節對提出的SynthesisNet模型與DeepPrivacy模型[3],FaceDCGAN模型[4]、HybridGAN模型[5]在隱私性與可用性方面進行比較、評估與分析。

3.2.1 可用性評估

1) 視覺評估

首先將SynthesisNet與其他3個模型分別在MUCT數據集、MORPH數據集和CelebA數據集上訓練生成合成圖像,結果見表1。DeepPrivacy模型與HybridGAN模型利用匿名化的思想對原始人臉圖像進行隱私保護處理,產生的合成人臉圖像精度不高,結果容易發生面部錯位的問題;而FaceDCGAN模型無法保證原始圖像與合成圖像之間的語義一致性;SynthesisNet模型在細節上的表現好于其他模型的結果。該模型在實驗中使用預訓練的方式解耦面部特征后對其進行合成處理,在保證原始圖像與合成圖像之間的語義一致性的同時,合成圖像的視覺效果在精度方面也顯著提升。

表1 SynthesisNet與其他模型在視覺評估方面的比較結果Table 1 Comparison between SynthesisNet and other models in visual evaluation

2) 定量分析

在3個數據集上對SynthesisNet模型與其他3個模型計算可用性評估指標IS和FID,結果見表2。從表2中可以看出,在3個數據集上SynthesisNet模型的性能明顯優于其他3個模型,其原因是本文提出的方法使用卷積自動編碼器提取圖像更高維的隱空間信息來充分表示完整的人臉屬性,將該屬性作為輸入可以緩解利用反向傳播訓練生成對抗網絡時產生的梯度消失問題,提高模型的泛化能力。

表2 SynthesisNet模型與其他模型的可用性比較結果Table 2 The results of SynthesisNet and other models in the utility evaluation

3.2.2 隱私性評估

為了在人臉圖像數據集上評估身份差分隱私機制的隱私保護效果,首先提取每張測試圖像的身份表征并計算敏感度,然后將隱私預算ε設置為0.01到1評估提出模型的隱私保護效果,實驗結果如圖3所示。從圖3中可以看出,當ε從0.01增加到1時真實圖像與合成圖像的身份距離逐漸變小,這說明較小的隱私預算保證了更好的人臉圖像的隱私性,通過調整ε的大小可得到理想的隱私保護效果。

圖3 SynthesisNet在3個數據集上的隱私性分析Fig.3 Privacy analysis of SynthesisNet in three datasets

4 結語

人臉圖像隱私保護問題是目前數據發布領域的研究熱點。針對現有的方法缺少可證明的隱私性、無法在保持隱私性和可用性之間優化權衡的同時生成語義合理的圖像的問題,本文提出一種基于卷積神經網絡的人臉圖像隱私保護方法,利用卷積自動編碼器與差分隱私為生成對抗網絡提供預訓練后的人臉圖像,并合成偽圖像代替原始圖像發布。該方法可有效平衡圖像隱私性和可用性,在保持人臉圖像的語義完整性的同時,為發布圖像提供可證明的隱私保證。在未來的工作中,嘗試將本文的方法進一步優化,將其應用于保護高分辨率的視頻人臉圖像。