?

基于后門的魯棒后向模型水印方法

2024-02-29 04:39曾嘉忻張衛明張榮
計算機工程 2024年2期
關鍵詞:剪枝魯棒性權值

曾嘉忻,張衛明,張榮

(1.中國科學技術大學信息科學技術學院,安徽 合肥 230027;2.中國科學技術大學網絡空間安全學院,安徽 合肥 230027)

0 引言

隨著人工智能技術的進步,深度學習模型在許多領域的性能已經匹敵甚至超過人類,在醫療[1]、金融[2]、人臉識別[3]、自動駕駛[4]等行業得到了廣泛應用,與此同時,模型版權保護也引起了人們的關注。一個訓練好的高性能模型意味著高昂的數據集籌備成本和訓練成本,可以視為一種價值昂貴的知識資產,但是深度學習模型非常容易被竊取并擴散[5]。因此,如何保護深度學習模型的知識產權,成為了亟需研究的問題。

研究者們將保護傳統多媒體數字產品的數字水印的概念拓展到深度學習,為需要保護的模型嵌入水印。當模型擁有者懷疑某個模型涉嫌竊用,便可以通過提取隱藏在模型中的水印信息,鑒別其是否為竊用。根據驗證階段需求的不同,模型水印大致可分為兩類:白盒模型水印驗證時需要訪問模型內部,獲得模型權值等內部信息;而黑盒模型水印只需要訪問模型獲得輸出,不需要內部信息。由于黑盒模型水印的這種特性,其應用場景更為廣泛,是模型水印的主流發展方向。

黑盒模型水印方法使用后門或者對抗樣本等作為水印圖片加入模型訓練,水印圖片只有輸入嵌入水印的模型才能得到指定輸出,以此驗證模型版權。黑盒模型水印根據水印嵌入階段的不同,又可以分為前向模型水印和后向模型水?。呵跋蚰P退≡谀P陀柧氈蹙颓度胨?;而后向模型水印在模型原始任務訓練好之后再進行水印嵌入。相比前向模型水印,后向模型水印可以兼容已訓練好的模型,嵌入更加靈活,需求的計算量更小,更適用于真實場景。后向模型水印的缺點是面臨微調等水印擦除攻擊時,魯棒性較弱,版權認證的可靠性降低。當前的黑盒模型水印方法主要關注前向模型水印,不重視對后向模型水印的性能提升。

為提升后向模型水印的魯棒性,分析后向模型水印相較于前向模型水印更加脆弱的原因,并提出相應的改進方案:在基于后門的黑盒模型水印框架的基礎上進行優化,在后向嵌入水印的過程中引入對水印模型輸出和中間層特征的約束。最后,在多個數據集和微調、剪枝等攻擊下進行實驗,驗證所提方法的有效性。

1 相關工作

模型水印技術是隨著深度學習技術發展而出現的新興研究領域,主要建立在計算機視覺、數字水印、深度學習等研究領域的基礎上。近年來,由于深度學習技術的普及和推廣,保護深度學習模型安全的需求也與日俱增。本節以圖像任務為主要載體,介紹近年來國內外的模型水印研究現狀。

1.1 模型水印

模型水印的方法有多種,但總體而言,有一個通用的框架,即生成水印、植入水印、提取水印。首先根據身份信息和待水印模型,設計可植入模型的水印形式;然后通過訓練,將水印信息嵌入模型;嵌入后,新生成的模型能夠在給定輸入中檢驗并提取水印信息,將提取的水印信息與嵌入的水印信息對比,從而完成模型所有權的驗證。水印技術并不能避免模型版權的非法使用,它的目的是使侵權行為變得更容易識別,從而阻止這種行為(如作為證明所有權的證據向法庭提供)。

評價模型水印通常使用以下指標[6]:一個合格的模型水印首先需要達到一定的保真度和有效性,其中,保真度指水印任務對原任務的影響盡可能小,有效性指水印信息的提取成功率高。由于攻擊者可以嘗試檢測并刪除模型中的水印或以某種方式使它們無效,因此模型水印也應具有魯棒性,即保證模型水印抵抗水印擦除攻擊的能力。隱蔽的模型水印能夠迷惑攻擊者,使其無法采取針對性的方式去除、無效化或偽造水印。

從驗證階段所需模型信息量的角度進行分類,模型水印大致可以分為兩類:白盒模型水印和黑盒模型水印。

白盒模型水印需要獲取模型結構和權值等內部參數,通常做法是將水印信息嵌入模型內部參數,引起模型權重的定向變化,從模型中提取這種定向變化來進行水印驗證[7-9]。由于白盒方法必須知道深度神經網絡模型參數等具體細節才能進行水印驗證,因此在實際應用中受限較大。

黑盒模型水印提取的過程中不需要訪問模型內部參數,通過訪問模型輸出對水印進行提取。常見的黑盒模型水印方法多利用后門或對抗樣本的機制。ADI 等[10]提出在黑盒場景下,利用后門技術添加水印,保護模型版權。在模型的訓練或微調過程中,模型擁有者將抽象圖片作為后門樣本加入模型訓練集,使模型在原任務上分類準確,并把抽象圖片分類到指定類別。模型擁有者想要驗證版權,只需要檢驗抽象圖片分類到指定類別的成功率,以及干凈圖片的分類成功率即可。由于正常的模型不會在給定抽象圖片的情況下輸出指定類別,因此這樣的特殊輸出使得水印驗證成立。ZHANG 等[11]提出用隨機噪聲、不相關樣本、添加文本水印等作為不同類型的后門觸發器,探討了水印形式對水印性能的影響。CHEN 等[12]提出將模型所有者的二進制簽名包含在輸出激活中作為模型的水印,提升了水印容量。NAMBA 等[13]提出將后門水印對參數的影響指數加權在較大值的權重參數上,減小了后門任務對模型整體的影響。

LE MERRER 等[14]指出可以利用對抗樣本構建模型水印。對抗樣本的原理是:通過向原始數據添加人為的擾動,使得模型以高置信度輸出錯誤分類[15],而模型則可以通過對抗訓練調整決策邊界,正確分類其中一部分對抗樣本,另一部分對抗樣本仍被錯誤分類。這種水印算法主要依賴于對抗樣本在不同模型之間的遷移性,在遷移過程中,水印的準確率是否會下降是一個有待解決的問題。在沒有此水印的模型上,對抗樣本因為自身的遷移性也可能會以較高概率被判別錯誤,被誤識別為水印,從而發生誤報。因此,本文設計不考慮基于對抗樣本的模型水印方法。

對于基于后門的黑盒模型水印,有的工作同時適用于前向模型水印和后向模型水?。?0],有的工作在水印嵌入時需要已訓練好的模型,屬于后向模型水?。?2],但這些工作都沒有關注到后向模型水印相較于前向模型水印優越的應用價值和性能缺陷。

1.2 模型水印攻擊

對于模型水印的攻擊多圍繞著魯棒性、隱蔽性展開,但同時攻擊應保持原模型的保真度(攻擊者不愿意失去原模型的性能,因為需要使用去除水印后的模型進行服務)。由于本文旨在提升后向模型水印的魯棒性,因此本節重點介紹針對水印魯棒性的模型擦除攻擊。為了方便描述,定義原有的未含水印的模型為M,模型原任務為T,水印任務為W,模型M 的擁有者O 將W 嵌入M 得到MW。

常見的模型擦除攻擊主要有微調[16]、剪枝[17]等。攻擊者的目標是在保持必要模型性能的情況下使模型水印無法被驗證。如果攻擊者擁有一個與原模型訓練集規模、數據分布相當的數據集,攻擊者可以重新訓練一個性能相當的新模型。所以,通常假設攻擊者只能使用少量、甚至不使用原模型訓練樣本進行模型水印攻擊。微調方法不對原始模型的結構進行操作,而是直接采用帶有標簽的數據進行模型的重訓練。模型本身包含兩部分任務(水印任務W 和原任務T),而重訓練僅使用T 相關的干凈數據進行訓練,因此,隨著訓練的進行,W 會被逐漸遺忘,但T會保持不變或增強(過擬合),從而使得水印W 逐漸去除。剪枝方法原本用于模型壓縮,但它的原理是削減不重要參數來壓縮模型結構,也能應用于水印擦除,迫使原始模型遺忘部分已有的任務(包括任務W 和任務T),攻擊者同時需要使用訓練數據進行任務T 的增強。事實上,由于神經網絡的難以解釋性,任務W 和T 激活的神經元很難區分,因此剪枝方法通常對任務T 具有較大影響,在水印W 被去除之前,原任務T 的性能已經下降到攻擊者不能承受的程度。

2 基于后門的魯棒后向模型水印嵌入方法

黑盒模型水印根據水印嵌入階段的不同可分為前向模型水印和后向模型水印。后向水印相較于前向水印,嵌入過程更為靈活,需要的算力更低,應用場景更廣,代價就是魯棒性遠弱于前向水印,難以抵御微調、剪枝等水印擦除攻擊。改進后向水印的挑戰在于:在模型原任務訓練完成之后才進行水印圖片訓練,可水印空間小,水印任務難以與原任務耦合,同時激活的神經元差距較大,難以抵抗水印擦除攻擊。

針對上述問題,本文在經典的黑盒后向水印嵌入框架上進行優化,在訓練過程中引入輸出和特征空間的雙重約束,減少水印任務對原任務的影響,同時使水印任務與原任務激活的神經元相似,增強后向水印的魯棒性。

2.1 后向模型水印嵌入框架

后向模型水印的嵌入流程如圖1 所示,具體步驟如下:

圖1 魯棒的后向模型水印嵌入流程Fig.1 Robust backward model watermarking embedding process

步驟1使用干凈圖片訓練隨機初始化權值的模型,得到干凈模型。

步驟2根據干凈圖片及其分類標簽,生成水印圖片并指定其標簽(與原圖標簽不同)。

步驟3在干凈模型的基礎上進行再訓練嵌入水印,在訓練時的損失中加入輸出空間約束項和特征空間約束項,直至模型收斂。

2.2 后向模型水印嵌入流程中的約束項

2.2.1 輸出空間約束

后向水印任務的加入,會影響模型在原任務上的性能,即使訓練時有對于干凈數據分類的交叉熵損失約束,也只能保證干凈數據經模型分類后logit向量的argmax 值(即分類結果)不變,而logit 向量的分布會發生改變[18],即后向水印嵌入會隱性地影響干凈任務的性能。

本文約束訓練好的干凈模型與后向水印模型在干凈數據上的性能表現,如式(1)所示:

其中:si(θ,x)表示內部參數為θ的干凈模型在標簽為第i類的輸入x下的logit 向量輸出;si(θ+δ,x)表示內部參數為(θ+δ)的后門模型在標簽為第i類的輸入x下的logit 輸出,標簽共有C類。

2.2.2 特征空間約束

基于后門的模型水印主要是通過給干凈圖片添加某種圖形,并使模型將圖片分到指定類別實現。這樣的水印圖片雖然與部分干凈圖片產生同樣的分類結果,但在特征空間上的表現形式卻不一致,這就意味著水印任務與干凈任務激活的神經元相差較大。因此,本文在水印嵌入過程中加入特征空間的約束,使水印任務的特征分布與干凈任務盡可能相似。受到JIA 等[19]提出的糾纏水印嵌入方法的啟發,本文采用軟最近鄰丟失(SNNL)損失[20]進行約束,衡量模型學習到的干凈數據和水印數據的特征表示之間的糾纏程度,如下所示:

SNNL 損失可用于測量不同組(通常是類)樣本之間的距離相對于同一組內樣本的平均距離。在本文中,m表示圖像在水印模型上的中間層特征,y為圖像類別,T為超參數,用于控制距離對SNNL 損失的影響大小。本文借助SNNL 損失,將被分類到指定類別的水印樣本與類別恰好相同的干凈樣本在特征空間上糾纏到一起,試圖去除與干凈數據糾纏的水印的攻擊者也會被迫犧牲干凈數據的性能。

2.2.3 總約束

除了以上2 個約束項,還要考慮實現后向水印任務的損失,即限制水印模型將水印圖片分類為指定類別,將干凈圖片分類到其正確類別的交叉熵損失(LCross-Entropy)。

最終,后向水印的損失項如下:

本文采取以下幾種約束方式向模型中添加后向水印,通過調節超參α與β實現:不添加其他約束,只使用常規的交叉熵損失(后向水印基線);只添加輸出約束(Llogit);只添加特征約束(LSNNL);添加雙重約束(Llogit&LSNNL)。

3 實驗結果與分析

3.1 實驗設置

本文選用了以下4個數據集:CIFAR-10[21],CIFAR-100[21],GTSRB[22],CALTECH-101[23]。CIFAR-10數據集共有60 000張彩色圖像,圖像尺寸為32×32×3,分為10 個類,每類有6 000 張;CIFAR-100 數據集共有60 000 張彩色圖像,圖像尺寸為32×32×3,分 為100 類;GTSRB 為交通標志識別圖像數據集,包括43 種交通信號,圖像尺寸接近CIFAR-10 數據集;CALTECH-101 數據集包含了101 類圖像,每類約有40~800 張 圖像,大部分是50 張/類,圖像尺寸約為300×200。本文對ResNet-18 模型[24]進行了典型的后向水印實驗。

由于ADI 等[10]和ZHANG 等[11]的工作是黑盒后向水印中的經典,且在實驗設置中隱含前向模型水印和后向模型水印的區分,因此將這兩篇工作作為前后向水印的基線,與本文結果進行比較。本文的實驗也參考了基線的實驗設置:在水印注入的設置上,對于抽象型圖片水印,參考ADI 等[10]的工作,使用100 張抽象圖片作為水??;對于內容型圖片水印,參考ZHANG 等[11]的工作,對1%的訓練集添加內容型水印“TEST”并指定分類類別。在訓練時,對于干凈模型和前向水印模型,本文訓練60 個epoch;對于后向水印模型,本文在干凈模型的基礎上,訓練20 個epoch。超參α設置為0.5,超參β設置為0.01。使用經典的攻擊設置,即微調使用RTAL(Re-Train All Layers)設置,剪枝使用基于權值的剪枝方式。

對于評價的實驗指標,本文主要關注水印任務對模型的性能影響(干凈任務的準確率下文稱為ACC),以及水印擦除攻擊下后門的魯棒性(后門的成功率下文稱為SR)。

3.2 基礎后向水印與前向水印的性能比較分析

本文首先對前后向水印進行了性能上的比較,在表1 中可以看到:當沒有受到水印擦除攻擊時,兩者在保真度和水印驗證成功率上相當;而在微調攻擊下,兩者的模型性能下降不超過1%,部分情況下甚至性能略有提升,這是由干凈數據的多次訓練帶來的模型過擬合導致的;后向水印的魯棒性大幅下滑,前向水印雖然也有下滑,但幅度小于后向水印。

表1 后向水印與前向水印的基線性能比較 Table 1 The baseline performance comparison between backward watermarking and forward watermarking %

之前的研究工作[25]探討了模型權值修改幅度與植入后門的關聯,本文據此進行實驗,比較了前向水印與后向水印對模型的修改。從表2 中可以看到,后向水印相對于前向水印,對模型的權值修改相對幅度和絕對幅度都更大。因此,筆者認為后向模型水印的魯棒性弱于前向模型水印的原因可能是:對于前向水印,水印任務與權值任務一起訓練,兩者互相影響,當攻擊者試圖擦除水印時,勢必影響原任務的性能,擦除水印極大地損害了模型保真度;而對于后向水印,由于其在干凈模型的基礎上進行權值調整,要想水印任務不過分影響干凈任務的性能,模型權值的調節范圍是受限的。

表2 后向水印與前向水印的權值修改幅度比較 Table 2 Comparison of weight modification amplitude between backward watermarking and forward watermarking

已有的實驗證明,在后向模型水印訓練過程中,添加對于模型權值的直接約束不可行(直接約束包括約束模型的絕對權值和相對權值變化),會導致后門無法成功注入,如果逐步放松對權值變化的限制,直到后門基本注入,對擦除攻擊的魯棒性也不佳。因此,本文間接地約束水印嵌入時模型的權值變化,在水印嵌入的過程中對模型的中間層特征和輸出進行約束,目標是使后向水印對干凈模型的權值和性能影響最小化,從而增強后向水印在水印擦除攻擊下的魯棒性。

3.3 魯棒性分析

本文選用CIFAR-10 數據集,在抽象型圖片水印和內容型圖片水印的設置下,比較基線后向水印與添加了各種約束的后向水印在微調攻擊、剪枝攻擊和微調-剪枝(fine-pruning)攻擊下的性能。

3.3.1 微調攻擊下的魯棒性分析

如表3 所示,只添加輸出約束(Llogit)、只添加特征約束(LSNNL)和添加雙重約束(Llogit&LSNNL)情況下的魯棒性都優于基線設置(不添加Llogit或LSNNL約束)。

表3 后向水印在不同約束下的抗微調性能比較 Table 3 Comparison of performances after fine-tuning of backward watermarking under different constraints %

具體分析如下:

1)在加入logit 約束后,后門對微調攻擊的魯棒性有所提升,在微調攻擊者的權限更高時(可用于微調的干凈圖像比例更大),logit 對魯棒性提升得更多,這符合實驗預期,模型擁有者嵌入水印時使用logit 約束,使后門模型與干凈模型的logit 分布相似,從而減小了攻擊者使用干凈圖片微調對logit分布的調整空間。

2)直接添加SNNL 損失對于抽象型水印的提升效果更加突出,筆者認為這主要是由于抽象圖片在分布上與原任務圖片有較大差距,SNNL 損失的加入在特征域上減小了這種差距,所以,使用部分原任務數據集微調時,難以將2 個任務觸發的神經元區分,從而增強了水印魯棒性。

3)如果同時使用2 種約束,整體而言,能夠進一步提升后門對于微調攻擊的魯棒性。在內容型水印設置下,使用全部數據集微調的SR 略低于單項logit約束,這是因為2 種約束也會互相制衡,從而影響最終的性能。

3.3.2 剪枝攻擊下的魯棒性分析

對在CIFAR-10 數據集下訓練的ResNet-18 網絡添加內容型水印。如圖2 所示,后向水印的性能與模型原任務性能曲線基本糾纏在一起,擦除模型水印就需要犧牲一定的模型性能。當模型性能下降到90.5%時(考慮到CIFAR-10 數據集相對簡單,這是一個較大的性能犧牲),后向水印基線SR 為66.2%,logit 約束下的后向水印SR 為81.2%,SNNL約束下的后向水印SR 為82.4%,即在同等強度的剪枝攻擊下,加入約束的后向水印更加魯棒。

圖2 不同設置的內容型后向水印在剪枝攻擊下的性能Fig.2 Performance of content-type backward watermarking with different settings under pruning attack

3.3.3 微調-剪枝攻擊下的魯棒性分析

進一步探究在更強的微調-剪枝攻擊下本文方法的性能。微調-剪枝攻擊參照文獻[26]設置實現,微調與剪枝迭代進行,模型添加抽象型水印。實驗結果如圖3 所示,添加了約束的后向水印,曲線上更接近前向水印,在性能降低到91%時,前向水印基線SR 為47%,后向水印基線SR 為28%,而3 種約束下的后門水印SR 均比基線有所提升,這說明本文方法在強力的攻擊設置下也能一定程度上提升后向水印的魯棒性。

圖3 不同設置的抽象型后向水印在微調-剪枝攻擊下的性能Fig.3 Performance of abstract-type backward watermarking with different settings under fine-pruning attack

3.3.4 與其他同類方法的魯棒性比較

上文將ADI等[10]和ZHANG 等[11]的工作作為后向模型水印的基線進行比較。本節將與NAMDA 等[13]的工作進行比較。在NAMDA 等提出的方法中,水印嵌入發生在后向階段,在水印嵌入時對各層權值進行指數加權,使水印主要影響模型各層的大數值權值,以此增強水印魯棒性。由于指數加權的性質,此方法對基于權值大小的剪枝攻擊防御效果較好。該方法與本文使用雙重約束方法的對比結果如表4 所示,水印設置選取內容型水印和抽象型水印,數據集使用CIFAR-10,參照NAMDA 等文中說明進行指數加權的水印嵌入,使用10%訓練集進行微調攻擊。從表4 中可以看出,指數加權的方法無法防御微調攻擊,而本文方法在魯棒性上更加全面,能夠抵御多種攻擊方式。

表4 本文方法與指數加權方法的比較 Table 4 Comparison between the proposed method and the exponential weighting method %

3.4 通用性分析

為了證明本文方法的通用性,使用CIFAR-100、CALTECH-101、GTSRB 數據集進行魯棒性實驗,嵌入抽象型水印,對比基線設置和雙重約束設置下的性能。如表5 所示:在CIFAR-100 和CALTECH-101數據集下,本文的水印嵌入方式對模型的原任務性能有一定提升;在GTSRB 數據集下,模型性能有一些損失,這可能是由于GTSRB 為交通指示牌數據集,其原任務的特征空間比較簡單,而本文方法引入了更復雜的約束機制,一定程度上制約了模型性能。

表5 后向水印的基線與雙重約束設置在不同數據集下的性能比較 Table 5 Comparison of performances between baseline and double constraints setting of backward watermarking under different datasets %

關于魯棒性,在CALTECH-101 和GTSRB 數據集下,本文提出的帶約束的后向水印比后向水印基線都有一定的提升??紤]到CIFAR-10 數據集僅有10 個類別,另外幾個數據集甚至有100 個分類,水印圖片被分到指定類別的難度更大,這已經達到了比較理想的實驗效果。但是對于CIFAR-100 數據集幾乎沒有性能,本文認為這是由于CIFAR-100 數據集不僅有100 個分類,并且每個類別只含500 張訓練集圖片,圖像尺寸也較小,模型學習到的特征不足以支持引入多種約束來嵌入水印。

實驗結果表明,本文方法對多種數據集訓練出的模型都能增強其嵌入的后向模型水印的魯棒性,是一種通用的增強水印性能的方法。

3.5 可行性分析

從復雜性和安全性2 個方面分析本文方法的可行性。

首先是算法復雜性,如上文介紹,后向模型水印相較于前向模型水印最大的優勢,就是要求的計算量少、部署靈活。比如在本文的實驗設置中,前向水印需要跟原任務一起訓練60 個epoch,而后向水印只需要在訓練好原任務模型的基礎上再訓練20 個epoch,實際上只需要10~15 個epoch 就能很好地嵌入水印??紤]到現在深度學習模型的結構越來越復雜,所用數據集的規模也在增大,模型原任務需要訓練遠不止60 個epoch,比如在文獻[27]中,模型需要訓練500 個epoch。在實際場景中,后向水印的計算量可能遠小于前向水印。本文方法在水印嵌入時引入了2 種約束,這增加了一定的計算量。輸出約束Llogit只需要對水印嵌入時的每張圖片計算模型logit輸出與干凈模型logit 輸出的L2 損失函數,幾乎不影響計算量;特征約束LSNNL則需要計算同一個batch 內水印圖片與干凈圖片在選定層的中間特征的L2 損失函數,并計算其SNNL 損失,這一定程度上增加了計算量,但考慮到后向水印與前向水印的計算量差距,本文提出的魯棒后向模型水印嵌入方法仍是可行的。

4 結束語

本文提出一種通用的提升后向模型水印魯棒性的方法,在添加水印的過程中加入特征約束和輸出約束,通過約束使類別相同的干凈圖片和水印圖片在水印模型上具有相似的中間層特征,同時減小干凈圖片在干凈模型和水印模型上的輸出差異。本文方法在多種數據集訓練的不同模型上和不同水印攻擊下表現出了泛用的對后向水印魯棒性的提升,即使面對較為強力的水印擦除攻擊,也能提升一定的性能。該方法可以應用在其他基于后門的模型水印方法中,拓寬模型水印的應用場景,提升后向模型水印的魯棒性。本文中采用的水印設置為經典的內容型水印和抽象型水印,后續可將本文提出的魯棒模型水印嵌入方法與隱蔽型水印結合,進一步提升后向模型水印的性能,增強對模型版權的保護。

猜你喜歡
剪枝魯棒性權值
一種融合時間權值和用戶行為序列的電影推薦模型
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
CONTENTS
荒漠綠洲區潛在生態網絡增邊優化魯棒性分析
基于確定性指標的弦支結構魯棒性評價
基于權值動量的RBM加速學習算法研究
剪枝
基于非支配解集的多模式裝備項目群調度魯棒性優化
非接觸移動供電系統不同補償拓撲下的魯棒性分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合