?

一種基于隨機掩碼的低通信量Logistic回歸外包訓練方案

2021-02-11 09:31黃曉文王政杰崔碩碩張宇浩鄧國強
科技資訊 2021年34期
關鍵詞:明文加密方案

黃曉文 王政杰 崔碩碩 張宇浩 鄧國強

摘要:Logistic回歸是一種典型的機器學習模型,因其在疾病診斷、金融預測等許多應用表現優越而受到廣泛關注。logistic回歸模型的建立不僅依賴于算法,更依賴于大量有效的訓練數據。盡管構建高精度模型并提供預測服務有諸多優點,但用戶的敏感信息數據造成隱私問題。因此,該文提出一個新的logistic回歸外包訓練方案。在該方案中,用戶會預先對私有數據進行處理,并添加隨機掩碼的數據矩陣上傳給聚合器,聚合器將聚合得到的全局訓練矩陣上傳給云服務器進行訓練。該方案在滿足數據隱私的安全性需求下具有較高的計算效率和較低的通信開銷。

關鍵詞:Logistic回歸隱私保護隨機掩碼低通信量

中圖分類號:TP309 文獻標識碼:A ? ? ?文章編號:1672-3791(2021)12(a)-0000-00

An Outsourcing Training Scheme of Low-traffic Logistic Regression Based on Random Mask

HUANG XiaowenWANG ZhengjieCUI ShuoshuoZHANG YuhaoDENG Guoqiang*

(School of Mathematics and Computing Science, Guilin University of Electronic Technology, Guilin, Guangxi Zhuang Autonomous Region, 541004 China)

Abstract: Logistic regression is a typical machine learning model, and its superior performance in many applications such as disease diagnosis and financial forecasting is widely welcomed. Providing user data to the server for logistic regression is a new service mode. ?Although predictive services have many advantages, the user 's sensitive data itself has privacy problems. Therefore, a new outsourcing privacy protection logistic training framework is proposed. ?In our framework, the user processes the private data in advance, and uploads the data matrix with random mask to the aggregator. The aggregator uploads the aggregated global training matrix to the cloud server for training. The scheme meets the security requirements of data privacy and has high efficiency in computing and communication overhead.

Key Words: Logistic regression; Privacy-preserving; Random mask; Low-traffic

機器學習模型在各種應用領域取得了前所未有的發展[1-3]。然而,由于龐大的數據量,訓練過程是一項計算和存儲密集型任務。此外,通常針對敏感數據(如醫療記錄、瀏覽歷史記錄或金融交易)進行訓練時,會引發數據集的安全性和隱私問題。

一方面,由于其復雜性,訓練過程往往需要外包給如云這樣的更強大的計算平臺。另一方面,訓練數據集通常是敏感的,它可能包含一些敏感或私有信息,一旦披露,將導致災難性后果。因此,對于參與云計算的數據需要進行隱藏得到密文數據。然而,機器學習算法不能直接訪問密文,如果將解密密鑰提供給誠實且好奇的云服務器又無法確保數據隱私。由此可見,如何在保護數據隱私的前提下進行高效機器學習訓練是一個極具挑戰的問題。

Logistic回歸是一種典型的機器學習算法,可以理解為一種廣義的線性回歸,被應用于生物醫療[4],金融服務[5]等分類問題上。近年來,由于logistic回歸的廣泛使用,數據安全問題受到了更多的重視,學者們針對logistic回歸隱私保護問題提出了許多方案。

李娟等研究者[6]基于HEAAN全同態加密,提出有效保護數據隱私的多分類logistic回歸模型,可用于安全訓練多個分類器,該模型可以在解決多分類問題的同時保證數據的隱私安全。全同態加密是一種特殊的加密方案,可以保證密文下運算得到的輸出結果與未加密運算輸出的結果一致, 不影響模型的準確率,然而由于涉及復雜的密碼學操作,效率上一般比較低。因此,針對縱向分布的數據,宋蕾[7]采用效率更高的部分同態系統Paillier對私有數據加密,通過對數據進行特征維度的劃分,將其縱向分布在用戶間,通過和服務方進行協同訓練,交換logistic訓練中間結果而不直接暴露隱私數據。這兩種方案需要重復執行復雜度較高的同態運算,并且在每次迭代過程中,需要云服務器與數據所有者進行交互。為了提高隱私保護下訓練的效率,也有學者使用差分隱私[8-9]對用戶數據進行隱藏,可以有效地處理分布式存儲數據并保護隱私,然而這種方法需要對本地數據添加噪聲,會對訓練出來的模型精度產生較大影響。

該文使用了一種預處理本地數據的方法,用戶將其處理完成得到的矩陣添加掩碼后直接上傳給聚合器,之后便不參與其他任何環節,大幅降低了通信量,為了防止外部攻擊使用Paillier對中間數據加密,云服務器解密得到結果之后,相當于在明文下進行模型訓練,大量降低了計算成本。

4 數值實驗

使用Python編程語言完成了該文所有實驗。在兩個UCI真實數據集pima和BCD上實現了本文方案,并與明文下做對比以評估方案的性能,數據集詳細信息見表1。通過建立類來模擬各個參與方,訓練任務在一臺個人計算機上進行,該計算機配置為Intel (R) Core(TM) i7-1065G7 CPU,1.5GHz處理器和8GB RAM。

4.1 精度測試

該節對方案進行精度測試并與明文下做對比,使用精準率(Precision)和召回率(Recall)作為評估指標,根據表2給出的實驗結果,可見由于本文方案本質上等價于明文下全局數據訓練,因此在精度上與明文相比幾乎沒有損失,證明了方案的可行性較強。

4.2 效率測試

圖2(a)-(b)給出的是本文方案與明文下各階段時間對比,可以看出該方案總訓練用時稍大于明文訓練的,主要原因在于使用了Paillier同態系統加密數據,這花費了方案的大部分計算開銷,但總體上方案表現地依然十分高效,特別是迭代時間幾乎與明文訓練的迭代時間相同,因此,適合隱私保護需求的logistic回歸訓練任務。

為了進一步測試迭代次數對方案效率的影響,分別對數據集進行了1 000到5 000次的迭代測試,并與明文訓練做對比,測試結果如圖3(a)-(b)所示。盡管方案比明文訓練時間上多了幾秒鐘,因為本地用戶的預處理都是在明文下進行的,同時使用添加掩碼的方式隱藏私有數據,計算復雜度較低,訓練階段云服務器實際也是在明文下訓練模型,因此在一定范圍內迭代次數對方案效率的影響可以忽略。

5 結語

該文提出了一個新的logistic回歸隱私保護方案。通過分離數據,讓一些計算任務在用戶本地提前將進行,而不必再花費更多的通信開銷用于交互。結合隨機掩碼與加同態秘密系統Paillier,實現了保護數據的目的。通過對比實驗發現,在效率稍低于明文的情況下,達到了與明文相同精度,因此節省了大量計算成本和通信開銷,能夠用于大規模logistic回歸外包訓練。

參考文獻

[1] 周奕文.人工智能技術在眼前節疾病及近視診療中的應用[J].中華實驗眼科雜志,2021,39(9):821-826.

[2] 沈國良,錢濟人.基于系統辨識的機器學習模型參數可調性研究[J].自動化應用,2019(3):97-98.

[3] 饒元,吳連偉,王一鳴,等.基于語義分析的情感計算技術研究進展[J].軟件學報,2018,29(8):2397-2426.

[4] 谷鴻秋,王春娟,李子孝,等.基于Logistic回歸與XGBoost構建缺血性卒中院內復發風險預測模型的初步比較研究[J].中國卒中雜志,2020,15(6):587-594.

[5] 王宇茜,彭連,夏乙月.基于PCA和Logistic回歸的A股36家上市券商排名的研究[J].經濟學,2020,3(3):53-55.

[6] 李娟,馬飛.基于同態加密的分布式隱私保護線性回歸分析模型[J].微電子學與計算機,2016,33(1):110-113,118.

[7] 宋蕾.基于數據縱向分布的隱私保護邏輯回歸[J].計算機研究與發展,2019,56(10):2243-2249.

[8] 王璞玉,張海.分布式隱私保護–Logistic回歸[J].中國科學:信息科學,2020,50(10):1511-1528.

[9] 葛宇航.基于差分隱私的線性回歸分析[J].科技經濟導刊,2019,27(14):163-164.

[10] WANG F,ZHU H,LU R,et al.A Privacy-preserving and Non-interactive Federated Learning Scheme for Regression Training with Gradient Descent[J].Information Sciences,2021,552:183-200.

猜你喜歡
明文加密方案
解決方案和折中方案
保護數據按需創建多種加密磁盤
谷歌禁止加密貨幣應用程序
奇怪的處罰
明確題目要求 尋找適合育種方案
加密與解密
奇怪的處罰
奇怪的處罰
穩中取勝
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合