?

基于RRCM 框架的聯邦學習激勵機制*

2022-03-02 12:42王文鑫趙奕涵張健毅
北京電子科技學院學報 2022年4期
關鍵詞:參與方貢獻度聲譽

王文鑫 趙奕涵 張健毅

北京電子科技學院,北京市 100070

1 背景

近年來,深度學習受到社會各界的廣泛關注,然而此種技術通過用戶端數據直接傳輸,可能存在信息泄漏和被篡改的風險。 隨著歐盟《通用數據保護條例》[1]和我國《個人信息保護法》[2]的相繼頒布,越來越多企業對于個人敏感信息提起高度重視。 為解決數據安全問題和實現信息孤島的共享,谷歌2016 年提出聯邦學習(FL)的概念,其主要是將用戶數據存儲階段和模型訓練階段轉移至本地用戶,客戶端僅與中心服務器交互更新模型,從而有效保障用戶隱私安全。

隨著共享理念近些年的不斷興起,聯邦學習技術在越來越多領域中得到應用,比如反洗錢、保險規劃和累犯風險預測(COMPAS)等。 2019年微眾銀行正式開源全球首個工業級聯邦學習框架FATE,并嘗試將聯邦學習應用于金融業務。 盡管聯邦技術現階段在通信路由與后門防御研究日趨深入和成熟,然而激勵機制卻可能成為一個制約其未來發展的短板。 如在聯邦學習商業化場景中,中心同盟對參與方上傳的本地模型多次迭代后形成全局模型,聯邦系統通過全局模型和外界交易獲取收益,此部分收益可作為激勵分配給各個參與方。 由于聯邦系統中數據所有者是具有獨立性的利益共同體,所以各數據所有方具有利己性。 當參與方得到報酬與其付出貢獻不匹配(激勵機制不公平),相互獨立的聯邦成員可能會選擇背叛整體利益,追求自身短期利益最大化,最終導致聯邦系統存在合作的風險。

現階段,聯邦學習激勵機制的獎勵方式主要分為收益獎勵和梯度獎勵兩種類別。 前者包括偏見信息和經濟報酬,例如文獻[3]通過帶有偏見的信息作為獎勵給予各個參與方,不過此種方式引入帶有偏見的信息,可能使得聯邦系統存在歧視,從而影響整體系統的公平性。 文獻[4]從經濟學和博弈論角度入手,通過經濟報酬解決激勵機制的分配問題,不過此方法引入其他變量,會加重系統的通信負擔,同時通信損耗也會隨之增大。 后者研究主要依賴當前輪次數據所有者貢獻程度獲得不同全局模型的思想,從而使得次輪迭代的局部模型得到更好優化。 然而依靠此種激勵的部分文獻沒有探討聯邦學習Non-IID問題[5],即給聯邦系統分配不同的全局模型,各個同盟的數據項和特征屬性可能均不相同,所以中心服務器在整體迭代時不能簡單采取FedAvg聚合模式。 此外,大多數文獻沒有考慮梯度獎勵的弊端,比如貢獻度較低參與方分配得到較小相似度的權重使得次輪訓練的全局模型結果變差[6]。

此外由于沒有任何保障機制,聯邦系統在多方合作時,傳統FL 框架存在被敵手攻擊的風險。 機會主義者可采用上傳無關梯度或者貢獻度較低梯度來影響中心同盟的全局模型。 所以聯邦系統需要引入懲罰措施,通過對聯邦系統中實用主義者的獎勵機制和機會主義者的懲罰機制,對系統中的各參與方形成警示作用,從而保證聯邦系統有效幫助企業中個體實現資源共享、降低系統經營風險[7]。

目前在激勵機制公平性文獻中,傳統的激勵機制[8]沒有考慮企業加入聯邦系統時需要提供成本。 當聯邦系統分配各個參與方獎勵時,沒有引入聯邦系統的成本問題,這樣會導致激勵機制過程不夠完善。 如果成本和成本利息比系統收益更大,參與方可能不會加入到系統中,而會選擇加入其它聯邦系統或單獨訓練,此時參與者的實際收益應為利潤-收益組成。

總之,本文的貢獻包括:

1. 本文提出一個聲譽獎懲成本利息機制(Reputation, Reward-punishment system, and Cost-interest Mechanism,RRCM)框架來實現聯邦學習激勵機制的公平性,使得聯邦系統中參與者分配的激勵與其貢獻度程度呈正相關趨勢。

2. 通過引入聲譽系統和獎懲措施,實現降低敵手攻擊的風險和減少低貢獻者存在的可能,提高聯邦系統的保護機制。

3. 在基準數據集上的實驗表明,本文提出的RRCM 框架能夠實現較高的公平性,并且系統引入利潤-收益機制,使聯邦學習激勵機制更加完善。

本文其余章節內容如下:“相關工作”回顧現有文獻中的公平性標準和激勵機制方式,為本文的研究提供實行基礎;“RRCM 框架”介紹本文方法各模塊的設計,以及模塊間的關聯;“實驗”包括數據集的設置和實驗的比較,從而證明本文提出的RRCM 框架更加合理。 最后,本文在“總結和未來發展”展開總結,并討論聯邦學習激勵機制未來的研究發展。

2 相關工作

本節回顧有關聯邦學習激勵機制的文獻,以便將以前的研究與現有研究相聯系。

國內外聯邦學習的同盟激勵普遍分為Stackelberg 博弈、拍賣、契約理論、Shapley 價值和聲譽信任五種類別[9]。 Stackelberg 博弈[10]主要用于制定不同參與者在銷售或采購共同產品的互動。 文獻[11]中Sarikaya 使用Stackelberg游戲模型來激勵多個工人的CPU 供應,以減少FL 中心同盟的預算和SGD 本地培訓時間;拍賣[12]是一種用于定價、任務分配和節點選擇的數學工具。 文獻[13]在移動邊緣計算場景中提出了一種基于采購拍賣的FL 輕量化多維激勵方案[14];契約理論[15]是在利益沖突和信息水平不對等情況下,參與者如何構建和發展最優協議。 在公共采購合同時,服務器向參與者提供一個合同菜單,在編寫合同時不告知參與者的私人成本,每個參與者主動選擇系統類型設計的選項;源于合作博弈論的Shapley 值[16]被聯邦學習的貢獻評估和利潤分配廣泛采用,基于Shapley值進行聯盟成員的利益分配體現各盟員對聯盟總目標的貢獻程度,避免分配上的平均主義。 在文獻[17]采用一種Shapley 組值的變體版本來衡量一個特征子集的效用,文中將一些私有特性合并為聯合特性,并計算聯合特性的Shapley 組值;聲譽系統[18]是聯邦學習激勵的常用方式,楊強團隊主要通過此種方式進行激勵公平性的研究,文獻[19]中引入聲譽動態模型和聲譽遺憾模型形成更具公平性的激勵方式。

合理的聯邦學習激勵機制需對各個參與方公平[20]。 早期公平性機制主要代表是平均主義[21],不同同盟方在系統中訓練迭代得到相同激勵。 現在公平性標準主要將公平性分為貢獻公平性、遺憾分布公平和期望公平[22]。 貢獻公平性指數據所有者的收益須與其貢獻呈正相關,遺憾分布公平指盡量減少數據所有者間遺憾和暫時遺憾的差異,期望公平指最小化數據所有者遺憾值和時間遺憾值的波動。

綜上,聯邦學習激勵機制可以將聲譽系統機制和貢獻公平性相結合,通過聲譽信任判斷同盟方貢獻度的高低,從而分配不同的獎勵收益。 此外,還可以引入歧視率、獎勵率和懲罰閾值等因素來深度討論聯邦學習的激勵分配問題。

3 RRCM 框架

本節介紹在聯邦學習系統中引入聲譽系統、獎懲措施和成本-收益三種機制,從而形成基于聲譽獎懲(RRCM)框架的聯邦學習激勵優化。本方案遵循的核心原理是:各參與方獲取中心同盟激勵與其貢獻程度呈正關系。

本文采用聯邦學習多個客戶端通過本地數據集訓練全局模型的標準優化模型:min{F(w)?ψiFi(w)}。 其中F(w) 表示全局模型的梯度,Fi(w) 表示本地模型的訓練模型,N表示聯邦系統中參與方數量,ψi表示第i個參與方的權重,并且ψi≥0 和= 1。 在第t輪更新 時,: = ▽Fi(w(t-1)) 和Δw(t)=。

3.1 成本-利息機制

在傳統聯邦學習系統中,不同參與方參與聯合訓練需要提前向中心同盟上繳入盟費用,這些費用主要用于聯邦系統的持續再生產過程。 例如,數據所有者構建本地模型上傳給中心同盟,聯合訓練后的全局模型又可以與外部企業鏈交易得到收益。 然而模型聚合和商業化形成需要時間,從而導致中心同盟需積累足夠的預算償還同盟方的加盟成本。 現有聯邦學習激勵機制,如文獻[23]中提出聯邦學習激勵器報酬共享方案,用以解決合伙費用償還與激勵暫時不匹配問題,不過此方法忽視成本的利息效用。 企業從初次加入同盟上繳入盟費用到聯邦系統商業化形成分配激勵,整個過程中心同盟不能僅僅償還各參與方成本,還應考慮補償成本產生的利息。

在聯邦學習商業化過程中,中心同盟需事先要求參與方支付加入聯邦系統的成本。 在激勵補償時,同盟系統先償還參與方的成本-利息,然后在支付真正的獎勵。 假設Ci為第i個參與方向聯邦系統貢獻的成本,第i個參與方償還過程如下:

3.2 聲譽系統

聲譽系統是一種重定向自反饋機制,其可通過相關方協作認可來反映自身信用的狀態,旨在表明聲譽對于聯邦決策的影響。 本文采取的聲譽系統是根據各個參與方每輪的貢獻程度,從而決定給予各同盟方激勵的程度。 根據余弦相似度表示梯度質量的研究: cos(u,v) = 〈u,v〉/(‖u‖× ‖v‖),本文各參與方貢獻度由局部權值和中心權值余弦相似度表示為=cos(,Δw(t))。 聯邦系統初始階段,各參與方初始聲譽設置相同初始值(聲譽閾值A)。 假設本輪暫時聲譽和貢獻度α存在一定正向關系?α, 則(t)i可表示為cov(,Δw(t)), 本輪實際聲譽可由歷史聲譽和本輪暫時聲譽求得,公式如下:

其中β是可設置的權重系數,表示前一輪的聲譽數值,表示本輪的暫時聲譽。 由此,本框架通過聲譽和貢獻度之間的聯系,從而分配不同數據所有者不同的激勵。

3.3 獎懲措施

本文激勵機制主要包括根據參與方每輪的貢獻程度決定給予收益的大小。 除這種定性關系外,本文還考慮通過Pearson 相關系數描述數據所有者的貢獻和獎勵之間的關系,定量表示聯邦學習激勵機制的合作公平性。

定義1 合作公平性

假設參與方的實際貢獻度為一組α,而其獲得的獎勵分配為一組σ, 則其合作公平性可表示為ρp(α,σ)。ρp(·,·) 表示Pearson 系數,且ρp(·,·) 越大,表示所提出的RRCM 框架更具有合作公平性。

本文框架除以上獎勵措施外,還通過設置聲譽閾值A方式制定相應懲罰措施,每一輪低于聲譽閾值的數據所有者,將剔除出聯邦系統,從而防止貢獻度較低的參與方(如搭便車或充滿敵意的參與方)破壞系統聯合訓練的結果。

3.4 整體框架

如圖1 所示,參與方先將本地數據訓練成模型上傳時需通過信譽系統的閾值檢測,如果聲譽數值小于聲譽閾值,則RRCM 系統消除具有異常聲譽的參與方,如果聲譽良好則通過檢測。 良好的本地模型到達中心服務器經多次訓練迭代后形成全局模型。 聯邦系統可通過商業活動將全局模型與外部交互產生商業化利潤。 其中一部分利潤用于補償給信譽良好的數據所有者,另一部分利潤在中心服務器臨時存儲。 當聯邦系統訓練結束時,中心服務器會將暫時存儲的收益返還給信譽良好的參與方,而聲譽異常的參與方將不獲得利潤償還。

圖1 聯邦學習激勵機制RRCM 框架

整體聯邦學習激勵機制RRCM 框架包括聲譽系統、獎懲措施和成本-利息機制三部分,它們相互獨立卻又相互關聯。 比如,成本-利息機制通過獎懲措施幫助聯邦系統商業化收益更合理的補償數據所有方的成本和利息,分配激勵時又可通過聲譽系統完成相應的獎懲措施,從而既使聯邦學習整體系統更加公平合理,又能吸引更優質的參與者加入到系統中。 本文涉及的懲罰措施不僅為剔除出聯邦系統,還包括中心同盟和參與方事先建立契約,數據所有者一定比例的成本保留在中心服務器不給予分配,當數據所有者的聲譽低于一定比例時,中心服務器不再償還貢獻程度較低的參與方成本,且將其直接剔除系統。 由于各參與方尋求加入聯邦系統獲取更多的利益,所以它們會選擇提供較高相似度的貢獻,由于貢獻程度低而剔除聯邦系統的方法不將影響各參與方合作的積極性。

RFFL 的具體實現在算法1 如下:

算法1 RRCM輸入:每個參與方加入同盟投資成本Ci,聯邦系統回報的激勵和利息率分別為ut i、γ,聲譽閾值A。符號:r(t)i 、αti、σt i 和Tt 表示第i 個參與方第t 輪的聲譽、貢獻度、分配收益和中心同盟總收益,R = {i rti ≥A } 是一個良好的聲譽集合,Δw(t)i 和Δw(t) 分別表示第t 輪i 的局部模型和全局模型,且中心同盟最初收益應為各個參與方的加盟成本Tt = ∑i=Ni=1 Si。參與方i:下載梯度▽w(t-1)i 、分配激勵σti ( σt i ∈Tt )if ∑tt=1σti < ∑t t=1uti(1 + γ)此階段是償還成本if ∑tt=1σti > ∑t t=1uti(1 + γ)此階段是實際收益本地訓練得到本地模型Δw(t)i 并上傳服務器:聚合:Δw(t) = ∑N i=1ψiΔw(t)i αt = cov(Δw(t)i ,Δw(t))for i ∈R do r~ti = ρρ(αti,σti)r(t)i = βr(t-1)i + (1 - β) r~ ti if r(t)i A then R = R{i} 剔除聲譽過低的參與方Tt+1 = Tt -∑i=N i=1∑t t=1σt i + Si end if end for下載:分配梯度▽w(t+1)i 、分配激勵σt i

算法1 中RRCM 框架懲罰措施有兩種,其一是將聲譽低于聲譽閾值的參與方剔除出聯邦系統,從而保障聯邦系統訓練梯度聚合的準確性。 其二是成本-利息中的補償機制,聯邦系統會將部分成本臨時儲存于中心服務器。 若參與方聲譽從始至終大于聲譽閾值,當訓練結束時,中心服務器會歸還臨時存儲的成本。 若參與方的聲譽小于聲譽閾值,則中心服務器不將此參與方臨時存儲的剩余成本退換給數據所有方。 此部分資金一方面可以用于更多商業化的投入,另一方面可以更多補償給其他高貢獻度參與方。表示中心同盟總收益過程。

4 實驗

4.1 評估標準

本文通過三個指標作為本實驗的評估標準:公平性、準確度和補償趨勢。 公平性通過定義1中的合作公平性定量表示,貢獻度和激勵間的皮爾遜系數(ρp(α,σ)) 越大,表示聯邦學習的框架更具有公平性。 除了FedAvg[24]框架,本實驗提出的RRCM 還和q-FFL[25]、CFFL[26]兩種公平性標準框架相比較。 而準確度通過聯邦系統輸出結果和測試集相比較得出,本文提出的RRCM框架使用FedAvg 算法和聲譽系統、獎懲措施、成本-收益三種機制結合,所以就準確性而言本實驗框架只和FedAvg 相比較。 補償趨勢主要比較激勵機制沒有成本、考慮成本和成本-利息三種方案下激勵機制的獎勵趨勢,從而確定本文提出的框架具有優越性。

4.2 數據切割

本文選取MNIST[27]和CIFAR-10[28]兩種數據集完成本次實驗的對照。 就標準IID 方面,本文選擇數據集的統一切割,將其記做UNI;就Non-IID 方面,考慮數據的異質性,本研究根據冪率分布將樣本在參與者中隨機切分, 將其記做POW[29]。

4.3 超參數設置

參照聯邦學習聲譽激勵相關文獻,本文將信譽閾值設置為A= 1/(3N), 即每個聯邦系統應貢獻超過1/3 參與方的貢獻比。 又根據工資分配原則,本文將中心同盟存儲成本設置為S=1/(10T),聯邦系統將此成本臨時存儲以防止數據所有方貢獻較低相似度的模型。

4.4 實驗結果

公平性比較:表1 列出不同數量參與方在MNIST 和CIFAR-10 兩種數據集下不同合作公平性的數值,合作公平性數值可以通過皮爾遜系數計算。 根據表中內容,RRCM 性能明顯優于FedAvg[24]、q-FFL[25]和CFFL[26]三種框架,所以本文提出的方案能使貢獻度更高的數據所有方得到更好的準確度:表2 列出不同參與方通過RRCM、FedAvg 兩種方式在UNI 和POW 情況下的準確度。 根據實驗數據大體一致表明。 其中RRCM和FedAvg 的準確度相似,這是因為RRCM 框架中參與方的分配方式是借助FedAvg 算法。 不過在準確度一致的情況下,此方法比FedAvg 更具有公平性,所以RRCM 框架更具有優越性。

表1 常用框架的公平性比較

表2 FedAvg 和RRCM 的準確性比較

補償趨勢:如圖2 所示,是聯邦學習激勵機制在三種情況下的補償趨勢仿真圖。 左邊表示不同補償,右邊表示不同激勵。 根據圖示,“沒有成本”方案的參與者不需要中心服務器補償成本,而是直接從聯邦系統中獲得激勵。 在“成本”方案中,聯邦系統應先補償參與者的入盟成本,然后再分配參與方相應的激勵報酬。 在“成本利息”方案中,聯邦系統在分配激勵前需先補償參與方成本和成本附帶的利息。 因此,在訓練開始時“成本利息”方案并不直接獎勵每個參與者,而是首先補償每個參與者的部分成本和利息之和。 此外,“成本利益”方案通過暫時存儲參與方的部分激勵來保護整體系統的安全運行,所以此方案并不會在系統訓練中提供與“成本”方案一致的激勵。 但在系統整體迭代訓練結束后,中心服務器會補償聲譽良好的參與者剩余的激勵。

圖2 補償趨勢仿真圖

總之,根據準確性和公平性,RRCM 在公平性相似的情況下能提高框架的準確性。 根據補償趨勢,本方案引入成本-利息機制可以使得聯邦系統更符合實際生活。 相比于傳統框架,本文提出的RRCM 激勵機制更具有優越性和合理性。

5 總結和未來發展

本文提出聲譽系統、獎懲措施和成本-利息三種機制相結合(RRCM)的聯邦學習激勵優化,它對聯合學習協作公平性優化改進。 在使得考慮參與方加入聯邦系統產生成本-利息時,還能使參與方獲得與其貢獻度程度成正相關的激勵。根據實驗得出,本文提出的方案不僅能保證準確度無損,還能使公平性得到提升,由此本文提出的激勵優化更具有優越性。 就獎懲措施方面,本文只是簡單提出可將懲罰的參與方成本作為系統激勵的措施,后續實驗可以進一步改進獎懲方式,如引入閾值判定的容錯機制或設置聲譽異常次數的超參數等,希望此框架后續能夠優化完善。

猜你喜歡
參與方貢獻度聲譽
基于秘密分享的高效隱私保護四方機器學習方案
短期與長期聲譽風險的不同應對
Top 5 World
充分把握教育對經濟社會發展的貢獻度
基于貢獻度排序的腎透明細胞癌串擾通路分析
審計師聲譽與企業融資約束
審計師聲譽與企業融資約束
綠色農房建設伙伴關系模式初探
武器裝備體系能力貢獻度的解析與度量方法
聲譽樹立品牌
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合