?

基于聯邦集成算法對不同脫敏數據的研究

2024-02-18 13:46羅長銀陳學斌張淑芬尹志強李風軍
應用科學學報 2024年1期
關鍵詞:脫敏集中式聯邦

羅長銀,陳學斌,張淑芬,尹志強,石 義,李風軍

1.寧夏大學數學統計學院,寧夏 銀川 750021

2.華北理工大學理學院,河北 唐山 063210

3.華北理工大學河北省數據科學與應用重點實驗室,河北 唐山 063210

聯邦學習自被提出以來一直是國內外相關研究的熱點[1-2],并且在眾多領域都有很好的應用前景[3]。聯邦學習的訓練數據來自于不同的客戶端,因此,訓練數據的分布和數量是影響聯邦模型的重要條件[4]。如果客戶端的訓練樣本分布不同,則多個本地模型就難以集成[5]。為了解決這個問題,文獻[6] 提出了一種聯邦平均算法,它利用權重或梯度的平均值對多個本地模型進行集成,從而得到集成后的全局模型。但是文獻[7] 針對聯邦平均算法中的梯度更新提出了梯度深度泄露算法,能還原大部分的訓練數據。

針對此問題,本文提出了在不同脫敏數據上的聯邦集成算法,即根據不同的應用需求設置不同的參數,還原出的數據是不同程度脫敏后的數據。首先,該算法通過設置不同的變異率與適應度取值對數據進行脫敏,從而得到不同程度上的脫敏數據。其次,各客戶端使用不同類型的全局模型在不同程度的脫敏數據上進行訓練,根據其訓練結果,選擇合適的參數進行聚合。最后,使用加密算法對傳輸過程中的模型進行加密,以此來保護模型在傳輸過程中的安全性。實驗結果表明,與聯邦平均算法和傳統集中式方法相比,stacking 聯邦集成算法與voting聯邦集成算法的準確率更優。在實際應用中,可根據不同的需求設置不同的脫敏參數來保護數據,以提升數據的安全性。

1 相關知識

1.1 聯邦學習

在聯邦學習中,常見的算法是聯邦平均算法,針對聯邦平均算法的精度問題,文獻[8-9]利用統計學的方法來聚合多個本地模型,構建的全局模型的精度在非獨立同分布上要優于聯邦平均算法。同時為了檢驗不同聯邦學習算法的性能,文獻[10] 提出了使用貝葉斯檢驗的基準測試來衡量。文獻[11] 提出了針對聯邦學習開放應用程序的基準測試,主要研究各種指標之間的關系,如模型準確率與隱私保護預算之間的關系[12-13]。

1.2 遺傳算法

遺傳算法(genetic algorithm)是一種模仿自然界演化過程以尋找最佳解的方法[14],也是根據生物種群優勝劣汰、適者生存的特點模擬出的隨機搜索算法,交叉和變異操作是遺傳算法中群體進化的主要操作[15]。

1.3 集成學習

集成學習指將多個弱監督模型結合在一起,從而建立一個更好更全面的強監督模型[16]。因集成學習構建的模型具有更高的準確率與魯棒性等優點,所以集成學習被成功應用于解決語音識別、基因數據分析[17]、遙感數據處理[18]、圖像處理、文本分類等眾多實際問題。而在聯邦集成領域中,經常使用stacking 集成算法、voting 集成算法、average 聚合算法、weighted average 聚合算法等來聚合多個本地模型。

2 基于遺傳算法的聯邦集成算法

2.1 算法的描述與流程

基于遺傳算法的聯邦集成算法包括數據處理和模型訓練兩個階段。

在數據處理階段的算法思想是各客戶端在本地設置種群大小,并最大程度地對數據進行脫敏,根據脫敏前后向量的相似度來計算脫敏后數據的適應度情況,且對適應度的閾值進行了不同的設置,然后設置不同的變異率對數據進行變異,從而得到脫敏后的數據。

在模型訓練階段的算法思想是通過可信第三方將不同的初始全局模型傳輸至各客戶端,并使用不同的集成算法來整合多個本地模型,得到更新的全局模型,且不斷迭代訓練。各客戶端獲取不同的初始全局模型,并在脫敏數據上進行訓練,獲取本地模型,各客戶端將多個本地模型參數上傳至可信第三方。

算法的流程如圖1 所示。

圖1 不同脫敏數據上的聯邦集成算法流程圖Figure 1 Flowchart of federated ensemble algorithm on different desensitization data

2.2 性能分析

2.2.1 算法的復雜度分析

算法的復雜度分為全局模型傳輸、本地模型訓練以及模型聚合3 部分組成,即時間復雜度為,其中:是5 種全局模型mj在客戶端i上訓練時的復雜度,l為本地模型聚合時的復雜度,n為數據脫敏時的復雜度,2k為模型傳輸時的復雜度。

2.2.2 算法的安全性分析

該算法通過調節不同的參數,對各客戶端上的數據進行不同程度的脫敏,降低因梯度變化帶來的數據風險,進而提升本地模型訓練時數據的安全性。

3 實驗分析

3.1 實驗設置

本文所提的算法由python 與pycharm 軟件實現。實驗數據采用的是從https://www.heywhale.com/mw/dataset/5e61c03ab8dfce002d80191d/file 下載的數據集,該數據集來自于機器學習競賽中的數據集,其中訓練集中共有200 000 條樣本,預測集中有80 000 條樣本。

實驗中數據預處理階段的步驟如下:

步驟1將各客戶端的待脫敏數據P0從右至左均分M份,每份為[P0/M]。當位數不足時,用0 補齊,得到初始種群S1={s1,s2,···,sm},本文的種群大小參數[19]為M=8。

步驟2依據脫敏前后數據間的關聯程度[19]將初始種群S1和遺傳算法衍生的種群Sn用向量來表示,即(s11,s12,···,s1m) 和(sn1,sn2,···,snm)。用向量間的相似度來衡量脫敏的程度。用適應度閾值作為運算終止條件,適應度計算公式為

式中:適應度取值范圍[0,1],當滿足終止條件f(S1,S2)>x時,算法終止。因此,數據脫敏程度可通過x調節。適應度閾值的取值為x={0.25,0.50,0.75,0.90}。

步驟3客戶端數據通過設置不同的變異率取值,來獲取變異后的數據。變異率的取值范圍為{0.1,0.3,0.6}。

3.2 實驗分析

實驗中模型訓練階段的步驟如下:

步驟1服務器將5 種初始模型類型與初始模型參數傳輸至客戶端;

步驟2客戶端獲取模型類型與初始參數后,將初始模型在不同脫敏程度的數據上進行訓練,獲取本地模型;

步驟3客戶端將本地模型傳輸至服務器;

步驟4服務器使用average 算法、stacking 集成算法、voting 集成算法聚合本地模型;

步驟5迭代步驟2~4,直至滿足停止條件。

本文選取的初始模型類型為:隨機森林、極端隨機森林、神經網絡、邏輯回歸、梯度提升樹(gradient boosting decision tree,GBDT)。根據模型訓練的步驟進行訓練,使用不同集成算法對本地模型進行聚合,獲取不同的全局模型[20]。表1~5 依次是5 種不同初始全局模型在不同的適應度閾值與變異率下的實驗結果,為表明實驗數據的可靠性,表中的數據均為實驗數據集隨機劃分且運行50 次后所得結果的均值。

表1 初始模型為隨機森林時,使用3 種集成算法與傳統集中式方法的性能Table 1 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a random forest %

從表1 中可以得到,在3 種集成方式與傳統集中式方法中,stacking 集成算法的準確率最高,剩下的依次是傳統集中式方法,voting 集成算法和average 算法。其中,在stacking 集成算法中,當變異率增加時,模型的準確率逐漸降低;當適應度閾值增加時,模型的準確率也在逐漸降低。當變異率取0.1 且閾值取0.25 時,模型的準確率為80.249%,與傳統集中式方法相比,準確率高0.099%,比voting 集成算法的準確率高0.328%,比average 集成算法的準確率高0.879%。

從表2 中可以得到,在3 種集成方式與傳統集中式方法中,傳統集中式方法的準確率最高,其次是stacking 集成算法,voting 集成算法,average 算法。其中,在3 種集成方式與傳統集中式的方法中,當變異率增加時,模型的準確率逐漸降低;當適應度閾值增加時,模型的準確率也在逐漸降低。當變異率為0.1 且適應度閾值為0.25 時,傳統集中式方法的準確率最高,為79.992%,stacking 集成算法的準確率為79.834%,stacking 集成算法的準確率略低于傳統集中式方法。

表2 初始模型為GBDT 時,使用3 種集成算法與傳統集中式方法的性能Table 2 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a GBDT %

從表3 中可以得到,在3 種集成方式與傳統集中式方法中,stacking 集成算法的準確率最高,剩下的依次是傳統集中式方法,voting 集成算法,average 算法。在3 種集成方式與傳統集中式方法中,當變異率增加時,模型的準確率在逐漸降低;當適應度閾值的取值增加時,模型的準確率也在逐漸降低。當變異率為0.1 且適應度閾值為0.25 時,stacking 建立的模型的準確率最高,為78.114%,比傳統集中式方法的準確率高0.943%,比voting 集成算法的準確率高2.271%,比average 算法的準確率高0.437%。

表3 初始模型為極端隨機森林時,使用3 種集成算法與傳統集中式方法的性能Table 3 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is an extreme random forest %

從表4 中可以得到,在3 種集成方式與傳統集中式方法中,傳統集中式方法的準確率最高,其次是voting 集成算法,剩下的依次是average 算法和stacking 集成算法。其中,在3 種集成方式與傳統集中式方法中,當變異率增加時,模型的準確率逐漸降低;當適應度閾值增加時,模型的準確率也逐漸降低。當變異率為0.1,適應度閾值為0.25 時,傳統集中式方法的準確率最高,為75.069%,voting 集成算法模型的準確率為75.039%。

表4 初始模型為神經網絡時,使用3 種集成算法與傳統集中式方法的性能Table 4 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a neural network %

從表5 中可以得到,在3 種集成方式與傳統集中式方法中,stacking 集成算法的準確率最高,其次是傳統集中式方法,剩下的依次是average 算法和voting 集成算法。其中,在除average 算法以外的其他兩種集成方式與傳統集中式方法中,當變異率增加時,模型的準確率逐漸降低;當適應度閾值增加時,模型的準確率逐漸降低。當變異率為0.1,適應度閾值為0.25時,stacking 集成算法建立的模型的準確率最高,為75.125%,比傳統集中式方法和average算法的準確率高0.002%,比voting 集成算法的準確率高0.035%。

表5 初始模型為邏輯回歸時,使用3 種集成算法與傳統集中式方法的性能Table 5 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a logistic regression %

3.3 實驗小結

本文將遺傳算法應用到客戶端的數據脫敏中,通過調整適應度閾值與變異率取值,生成與原數據關聯度不同的數據,進而獲取不同脫敏程度的數據集。聯邦學習框架中的模型在客戶端的脫敏數據上進行訓練,結合不同的集成算法來聚合本地模型,實驗結果表明stacking集成算法與voting 集成算法建立模型的準確率要優于聯邦平均算法,且與傳統集中式方法的準確率幾乎相等。同時本地模型是在脫敏數據上訓練獲取的,因此降低了梯度更新造成的數據泄露的風險。

4 結語

本文通過對適應度閾值和變異率采用不同取值來探索數據脫敏前后的關聯性,關聯性越低,準確率在降低;變異率取值越大,準確率也在降低。將不同的聯邦集成算法在不同程度的脫敏數據上進行分析,聯邦集成算法要優于聯邦平均算法,同時降低了數據泄露的風險。

猜你喜歡
脫敏集中式聯邦
激光聯合脫敏劑治療牙本質過敏癥
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
過敏體質與脫敏治療
303A深圳市音聯邦電氣有限公司
光伏:分布式新增裝機規模首次超越集中式
讓青春脫敏
組串式、集中式逆變器的評估選定淺析
接觸網隔離開關集中式控制方案研究
光伏集中式逆變器與組串式逆變器
Nd:YAG激光作用下牙本質脫敏機制的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合