?

自適應差分隱私的高效深度學習方案

2023-09-07 09:02王玉畫朱建明
西安電子科技大學學報 2023年4期
關鍵詞:差分損失噪聲

王玉畫,高 勝,朱建明,黃 晨

(中央財經大學 信息學院,北京 100081)

1 引 言

近年來,深度學習技術作為機器學習研究的前沿領域,憑借對文本、聲音、圖像等數據的強大處理和理解能力,在社會網絡分析、物聯網和無線通信等諸多領域任務中表現出優越的性能。其巨大成功主要依賴于高性能的計算、大規模的數據以及各種深度學習框架的開源。深度學習技術主要分為兩個階段:首先是模型訓練階段,用收集到的海量數據對深度神經網絡模型進行迭代訓練,直到模型收斂,獲得目標模型;其次是模型推理階段,利用訓練好的目標模型對目標數據集執行分類和預測等任務。

然而,由于攻擊手段的不斷演進,深度學習模型存在的隱私泄露風險也隨之增加。常見的攻擊方式有模型反演攻擊和成員推理攻擊。模型反演攻擊在模型訓練和推理階段都可能發生,敵手通過截取模型參數和測試模型輸出來重建訓練數據集。SONG等[1]根據模型參數重構原始的訓練數據,竊取特定個體數據的敏感信息。成員推理攻擊主要發生在模型推理階段,敵手通過目標模型的輸出差異來推斷給定樣本是否屬于模型的訓練集[2]。SALEM等[3]證明了敵手可以在沒有任何背景信息的情況下,根據目標模型的輸出規律判斷出樣本是否參與過訓練。本質上,這些隱私問題的產生歸因于深度神經網絡獨特的學習和訓練方法,通過大量的隱藏層不斷提取高維數據特征,模型將記住某些數據細節,甚至整個數據集[4]。

針對深度學習潛在的隱私威脅,現有的方案通過結合一些經典的隱私保護機制來增強隱私,主要分為加密機制和擾動機制[5]。加密機制目的在于保護數據交換的過程,常用同態加密和安全多方計算實現。其中,同態加密允許第三方無需解密就可以直接在加密域上執行計算,保證了模型參數的精度[6-7];安全多方計算允許當不可信多方參與到模型的訓練和推理過程時,通過秘密共享或不經意傳輸等來實現數據的安全性[8-9]。相比于同態加密方法,基于安全多方計算的方案雖然不需要大量計算開銷,但卻增加了通信成本。擾動機制目的在于保護數據內容本身,通過差分隱私(Differential Privacy,DP)[10]技術在模型訓練過程中添加噪聲來擾動,使得某條數據是否參與訓練對最終的輸出結果影響微乎其微。這是一種輕量級隱私保護技術,計算效率高,通信開銷低,且具有后處理性?;诓罘蛛[私的方案關鍵在于模型效用和隱私保護之間的權衡[11-15]。ABADI等[16]設計了一種差分隱私隨機梯度下降(Differential Private Stochastic Gradient Descent,DPSGD)算法,將多個數據批分為一組,對每組的累積梯度添加噪聲,還引入矩會計 (Moment Accountant,MA) 來追蹤隱私損失,從而獲得更緊致的整體隱私損失估計。然而,該算法以等量的隱私預算加噪會導致原始梯度出現較大失真,數據可用性顯著降低。ZHANG等[17]提出了一種自適應衰減噪聲的隱私保護算法,每次迭代中向梯度加入通過線性衰減率調整的噪聲,以減少負噪聲的添加,但此方案對于線性衰減率并沒有很好的計算方法,只能通過實驗調試,實用性較差。所提兩種方案都是對梯度進行二范數裁剪來控制梯度的敏感度,可實際應用中對高維梯度的裁剪范圍較難把握,且每輪訓練中每個批次的迭代都需要加噪,使得隱私損失嚴重依賴于迭代次數,當需要較多次迭代來保證模型準確性時,其訓練效果會受到影響。PHAN等[18]提出了一種自適應拉普拉斯機制,通過逐層相關傳播 (Layer-wise Relevance Propagation,LRP) 算法衡量深度神經網絡中輸入與輸出的相關性,再根據相關性對第一個隱藏層加入拉普拉斯噪聲,真正實現了從樣本特征的角度來自適應確定噪聲大小??墒?在使用LRP算法時可能會泄露隱私。作為改進,ZHANG等[19]設計了一種自適應動態隱私預算分配的差分隱私方案(Adaptive allocation Dynamic privacy budget Differential Privacy,ADDP),對LRP算法輸出的相關性進行了加噪處理。LIU等[20]引入隨機化隱私保護調整技術,直接對相關性超過設定閾值的輸入特征進行擾動,未超過閾值的特征由隨機因子決定是否被擾動。然而,不同預定閾值和隨機因子的選取會對模型效用造成不同的影響。以上三種方案都采用拉普拉斯機制加噪太過嚴格,且沒有很好地考慮相關性衡量算法與數據可用性之間的關系,較精確的相關性衡量才能獲得較好的數據可用性。更多地,這三種方案都沒有在設計時兼顧到模型的收斂速度,而在實際應用中這也是非常重要的。

為解決現有深度學習差分隱私保護方案中所存在的迭代與隱私預算之間依賴、數據可用性較低和收斂速度較慢等問題,筆者提出了一種自適應差分隱私的高效深度學習(Adaptive Differential Privacy-based Efficient deep learning,ADPE) 方案。主要貢獻如下。

(1) 設計一種自適應差分隱私機制,通過Shapley加性解釋模型在特征維度對原始樣本進行自適應擾動,使得迭代次數獨立于隱私預算,并結合函數機制來保護樣本的真實標簽,從而實現對原始樣本及其標簽提供隱私保護的同時,保證數據的可用性。

(2) 將自適應矩估計算法與指數衰減函數相結合,利用先驗知識優化梯度,針對不同的參數調整學習率,加快模型收斂速度,并增強后期模型訓練的穩定性。

(3) 引入零集中差分隱私中的組合機制對整個方案的隱私損失進行更清晰更緊湊的統計,從而降低因隱私損失超過隱私預算帶來的隱私泄露風險,更好地平衡隱私和效用之間的關系。

(4) 給出了詳細的隱私分析,并在MNIST和Fashion-MNIST數據集上通過衡量模型的分類準確率進行了對比實驗。與其他方案相比,文中所提方案效果更優。

2 預備知識

2.1 差分隱私

差分隱私的提出是為了解決查詢數據庫中的隱私信息泄露問題,其主要基于擾動的思想,讓敵手無法根據查詢結果來判斷出單條數據記錄的更改或增刪,即輸出結果對于數據集中的任何一條特定記錄都不敏感。差分隱私的形式化定義如下。

定義1(ε,δ)-DP[10]。設有隱私機制M,其定義域為Dom(M),值域為Ran(M)。若隱私機制M對于任意兩個僅相差一條記錄的相鄰數據集D和D′?Dom(M),O?Ran(M),滿足:

Pr[M(D)∈O]

(1)

則稱隱私機制M滿足(ε,δ)-DP。其中,Pr[x]表示數據x泄露的概率;ε為隱私預算,用來衡量隱私保護的程度,ε越小,隱私保護程度越高;δ為違反隱私機制M的概率,δ=0時隱私機制M滿足嚴格差分隱私,即ε-DP。

定義2全局敏感度[10]。給定數據集D上的一個查詢函數f:D→Rd,f的全局敏感度是指刪除數據集中任何一條記錄所引起查詢結果的最大變化,定義為

(2)

其中,D和D′是任意兩個相鄰數據集,l表示度量距離的向量范數,通常為1或2范數距離。

2.2 零集中差分隱私

在訓練深度神經網絡模型時,由于迭代次數較多,對隱私損失的估計至關重要。零集中差分隱私[21](zero-Concentrated Differential Privacy,zCDP)是一種新的差分隱私松弛形式,與(ε,δ)-DP相比,對多次迭代計算的隱私損失提供了更清晰和更嚴格的分析。zCDP的定義如下。

定義3zCDP[21]。對于任意α>1,若隱私機制M對于任意兩個僅相差一條記錄的相鄰數據集D和D′滿足:

(3)

則稱該隱私機制滿足ρ-zCDP。其中,Dα(M(D)‖M(D′))表示M(D)和M(D′)間的α-Renyi距離,L(O)表示輸出結果為O時,算法在兩個數據集之間產生的隱私損失,即

(4)

文中使用到zCDP的一些性質和定理如下。

性質2[21]假設兩種機制滿足ρ1-zCDP和ρ2-zCDP,那么它們的組合滿足(ρ1+ρ2)-zCDP。

性質3[21]若機制M滿足ρ-zCDP,那么對于任意δ>0,M滿足(ρ+2(ρlog(1/δ))1/2,δ)-DP。

2.3 SHAP

SHAP[22](SHAPley additive explanations) 是一種對黑箱模型進行解釋的方法。SHAP基于 Shapley值被解釋為一種加性特征歸因方法,以此衡量出每個輸入特征對最終預測結果的貢獻程度。模型的預測結果被解釋為二元變量的線性函數,具體表示為

(5)

其中,g表示解釋模型,M表示輸入特征集合,φ0表示平均模型的預測,φi為每個特征i的Shapley值,其計算公式為

(6)

其中,V表示{Mxi}的子集合,分式表示不同特征組合對應的概率,f(xV∪{i})與f(xV)分別表示不同特征組合下xi入模和不入模時的預測結果。

3 方案設計

筆者基于差分隱私的思想,在模型訓練過程中,首先利用SHAP模型衡量每個輸入特征對模型預測結果的貢獻度,再根據貢獻比例對每條原始數據在特征維度上進行自適應擾動,解除迭代次數與隱私預算之間的依賴;其次,基于函數機制原理,對損失函數進行泰勒展開,獲取近似多項式并對其系數進行擾動,確保每條樣本的真實標簽信息不會被泄露。在每次參數更新時,通過自適應矩估計算法來優化梯度和調整學習率,從而加快模型的收斂速度。此外,還引入了零集中差分隱私的組合機制,對整個訓練過程中隱私損失進行了更嚴格更清晰的度量。最終,文中所提的ADPE方案在保護了整個深度學習模型隱私的同時,極大地保證了模型訓練的準確性和實用性。具體系統設計如圖1所示。

圖1 系統設計圖

3.1 模型框架

文中以卷積神經網絡做為基礎網絡結構,每個隱藏層神經元的轉換過程可表示為h=a(xWT+b),其中x為輸入向量,h為輸出,b為偏置項,W為權重矩陣。xWT+b表示線性變換部分,a(·)為激活函數。給定一個模型參數為θ的損失函數L(θ),通過在Nepoch輪訓練中應用Adam算法優化數據集D上的損失函數L(θ)來訓練卷積神經網絡。其中,每個訓練輪次進行Niteration次迭代,每批次訓練樣本B是D中大小為|B|的隨機集合。

ADPE方案主要考慮白盒攻擊[23],即敵手擁有該深度學習模型的全部知識,包括模型結構和參數,可以訪問發布的模型而不只是訓練過程。此時主要存在以下兩種隱私泄露的威脅:① 敵手依據模型參數獲取敏感信息甚至原始數據;② 敵手試圖通過目標模型推斷出某條目標樣本是否參與過訓練。

3.2 具體流程

ADPE方案的具體流程主要分為5個階段。需要注意的是,總迭代次數為訓練輪數和每輪迭代次數的乘積。具體方案如算法1所示。

(1) 自適應噪聲尺度的分配。不同的輸入特征對預測結果影響程度是不同的,較重要的特征往往對預測結果起到決定性作用,而不重要的特征無論如何擾動都不會對結果產生太大影響。因此,可以將每個特征的貢獻度作為分配噪聲尺度的依據。

首先,讀取批量數據進行特征維度上的貢獻度計算,記作Ctrj,j∈[1,k],表示第j個特征對預測標簽的貢獻度。對于每個輸入特征Mj,計算每個樣本中該輸入特征的SHAP值,將所有樣本中該特征SHAP值累加求平均值,得到該特征的貢獻度。其次,計算每個輸入特征對于預測結果的重要性,即貢獻比例

(2) 原始樣本的擾動??紤]到原始樣本只作為神經網絡的輸入被使用,在樣本被輸入神經網絡時,構造自適應差分隱私機制,對每條數據添加高斯噪聲以實現擾動,無需在每次迭代中都對模型梯度或權重加噪。這能夠讓隱私損失不受迭代次數的影響,提高了模型的準確性和實用性。具體地,對樣本集合B中的每個樣本xi中第j個輸入特征值添加的噪聲如下:

(7)

其中,Δs1表示原始數據的敏感度。假設兩個相鄰樣本集合B和B′中只有最后一個樣本xn和x′n不同,且xi(Mj)被歸一化到[0,1],則敏感度Δs1的計算如下:

(8)

通過式(7)可以看出,某輸入特征對預測結果的貢獻度越小,所分配的隱私預算就越少,添加的噪聲尺度就越大。這是因為對于這些因子而言,添加太多噪聲對預測結果的影響不大。該過程衡量了隱私與效用之間的關系,即在提供隱私保護的同時,盡可能保證數據的可用性。

(3) 損失函數的擾動。由現有損失函數的定義可知,原始樣本的真實標簽值{y1,…,yd}參與了損失函數的計算,因此,為保護原始樣本中的標簽,可以根據函數機制原理[24]處理損失函數。文中采用sigmoid作為激活函數,交叉熵作為損失函數。具體表示如下:

(9)

其中,HxiWT為最后一個隱藏層的輸出。通過泰勒展開將損失函數在0處展開到二階,具體如下:

(10)

(11)

其中,Δs2表示近似多項式系數的敏感度。同理,假設兩個相鄰樣本集合B和B′中只有最后一個樣本xn和x′n不同,則有[18]

(12)

s1=γ1s1+(1-γ1)gt,

(13)

(14)

其中,γ1和γ2表示指數衰減率。為防止s1和s2趨向0,通過計算偏差進行修正:

(15)

最后,用優化的梯度更新參數:

(16)

式中,ξ是為了維持數值穩定性而添加的常數。Adam算法將歷史梯度作為先驗知識,利用歷史梯度的指數衰減平均值更新當前梯度,加快了模型收斂速度;同時利用歷史梯度平方的指數衰減平均值更新學習率,使得模型收斂過程更加穩定。

算法1ADPE。

輸入:總迭代次數T,每輪迭代次數Niteration,批次訓練樣本B,輸入特征集合M={M1,…,MK},超參數學習率η,損失函數L(θ),噪聲尺度σ1和σ2,全局敏感度Δs1和Δs2

輸出:目標模型參數θT和總體隱私損失ρtotal

① 初始化模型參數θ0和隱私損失統計量ρ

②//確定自適應噪聲尺度

③ forj→1 toKdo

④ 計算輸入特征Mj對預測標簽的貢獻度Ctr

⑦ end for

⑧ fort←1 toTdo

⑨ 獲取批次訓練集B中的每個樣本xi

⑩//擾動原始樣本

3.3 隱私性分析

由節3.1可知,文中主要存在兩種隱私泄露的威脅,二者本質上都是由于敵手可以從模型本身獲取到隱私數據。首先,針對威脅①,在訓練之前直接對原始數據進行加噪處理,從而在訓練過程中減弱中間參數與原始數據的關聯性,讓敵手無法反推出真正準確的數據信息。其次,針對威脅②,通過加入滿足差分隱私定義的噪聲,使得相鄰的兩條數據樣本無法區分,敵手就無法判斷目標樣本是否真實存在于訓練數據集。因此,通過證明算法1滿足差分隱私來論證對上述兩種威脅的抵抗。

定理3算法1滿足Nepochρ0-zCDP,即(ρ1+2(ρ1log(1/δ))1/2,δ)-DP。

文中的隱私損失統計部分可以擴展為隱私損失的動態監測機制,即給定zCDP的總隱私預算ρtotal,每輪訓練之前都先判斷:剩余的隱私預算減去本輪所需的隱私預算后是否大于0,大于0繼續執行訓練,從而保證整個訓練的運行都滿足ρtotal-zCDP。圖2展示了當σmax=σ1=σ2=5時,隨著訓練輪數的增加,分別采用zCDP、 MA和(ε,δ)-DP來統計隱私損失的變化情況,其中δ=10-2。

圖2 隱私損失與訓練輪數的關系

4 實驗與分析

4.1 實驗設置

使用MNIST和Fashion MNIST兩種數據集進行實驗驗證。其中,MNIST數據集包含10種類別的手寫數字圖片,有60 000個訓練樣本和10 000個測試樣本,每個樣本由28×28個像素點的灰度圖像構成。Fashion MNIST數據集由10種類別的服裝正面圖片組成,分為60 000個訓練圖像和10 000個測試圖像,每個樣本由28×28個像素點的灰度圖像構成。

實驗部署在操作系統為Windows 11 64位、CPU為12th Gen Intel(R) Core(TM) i7-12700H @2.30 GHz、GPU為Nvidia GeForce GTX2050 4GB和內存16 GB的工作站,基于Python 3.8仿真實驗。預訓練時使用DeepSHAP衡量輸入特征對輸出的貢獻度,采用Tensorflow1.5.0訓練深度學習模型,網絡結構為卷積神經網絡,包含2個特征分別為32和64、卷積核大小為5×5、步長為1的卷積層,2個2×2的最大池化層,以及2個神經元個數均為30的全連接層。利用Adam算法進行模型訓練時基本參數設置為ξ=10-8,γ1=0.9,γ2=0.999,并結合指數衰減法優化學習率,使得模型在后期訓練中更加穩定,所選擇的批次樣本大小為600。

4.2 實驗結果

主要進行兩個實驗:一是驗證ADPE方案的有效性;二是將所提ADPE方案與現有方案在模型準確性上進行對比。

4.2.1 有效性驗證

通過對比模型引入自適應差分隱私機制前后的模型準確率,來驗證ADPE方案有效性。引入差分隱私機制前以常規的方式訓練文中基礎網絡結構模型,稱作基線模型,引入后在δ=10-5的情況下分別設置σ1=σ2=4,8,10。在訓練輪數Nepoch=100時的結果如圖3所示。

(a) MNIST數據集

由圖3可知:① 引入ADPE方案的隱私保護機制對模型進行擾動時,模型的準確率不會明顯降低。② 在MNIST數據集上,第10輪訓練時,3種噪聲條件下的模型準確率都達到約98%以上,第50輪訓練后則趨于穩定,尤其是當σ=4時,中后期的訓練效果與基線幾乎一致,說明了模型較好的可用性。③ 由于Fashion-MNIST數據集的圖像比MNIST數據集更復雜,因此模型的準確率沒有MNIST數據集那么高,且模型中后期訓練,包括基線模型在內,均不穩定,會有約1%的波動幅度,但總體的訓練效果依然在約87%以上,說明了該方案的有效性。④ 對于不同的噪聲尺度,噪聲尺度越小,模型的分類準確率就越高,說明用戶可以根據個性化需求調整噪聲尺度,實現方案隱私和效用之間的平衡。

4.2.2 對比分析

研究所提方案ADPE與經典方案DPSGD[13]和較為先進的方案ADDP[19]對模型提供隱私保護時的對比情況。針對3種方案,設置Nepoch=100,δ=10-4,當取不同隱私預算時,3種方案在2種數據集上的分類準確率隨訓練輪數的變化情況如圖4和圖5所示。 其中,ADPE方案采用節3的公式得出隱私預算和噪聲參數的關系。

(a) ε=0.5

(a) ε=0.5

由圖4和圖5可知:① 隨著隱私預算的增大,所添加的噪聲逐漸減少,3個方案的模型分類準確率都呈上升趨勢。② 隱私預算相同的情況下,所提ADPE方案在2種數據集上的模型分類準確率都高于對比方案,說明ADPE方案的性能較優。具體表現為,在較大的隱私預算ε=4時,方案的模型在MNIST數據集上能達到約98.7%的準確率,在Fashion-MNIST數據集上準確率后期最高約為89.7%。③ 在MNIST數據集上,當隱私預算ε=0.5時,ADDP方案難以達到收斂狀態,波動劇烈,而ADPE和DPSGD方案表現較為平和,這說明加入高斯噪聲更有利于模型的穩定。隨著隱私預算的增大,ADPE和ADDP方案在20輪訓練后都趨于穩定,甚至ADPE方案在10輪左右就基本收斂,而DPSGD方案在訓練100輪后還未達到明顯的收斂狀態。④ 在Fashion-MNIST數據集上,由于其樣本結構的復雜性,ADPE方案和ADDP方案出現一定程度的波動,但前者的波動范圍較小,后者的波動范圍較大,而DPSGD方案仍然收斂較慢。綜上可見,ADPE方案在加快模型收斂的同時具有一定的穩定性。

5 結束語

筆者提出了一種基于自適應差分隱私的高效深度學習方案,有效平衡了模型的隱私性和可用性。該方案基于沙普利加性解釋模型設計了一種自適應差分隱私機制,用于保護原始數據樣本,并利用函數機制擾動原始標簽,增強了深度模型訓練的隱私性。同時,引入零集中差分隱私的組合機制度量整個訓練過程的隱私損失,使得方案有更好的隱私保證。通過在兩個經典數據集MNIST和FashionMNIST上的實驗分析表明,所提方案能夠在保護隱私的前提下盡可能實現較高的模型準確率,并且加快了模型收斂速度以及保證了模型中后期訓練的穩定。

猜你喜歡
差分損失噪聲
數列與差分
胖胖損失了多少元
噪聲可退化且依賴于狀態和分布的平均場博弈
玉米抽穗前倒伏怎么辦?怎么減少損失?
控制噪聲有妙法
一般自由碰撞的最大動能損失
損失
基于差分隱私的大數據隱私保護
一種基于白噪聲響應的隨機載荷譜識別方法
相對差分單項測距△DOR
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合