?

面向車輛與參數服務器雙向選擇的聯邦學習算法

2024-02-21 11:15韓志博聶錦標李子怡林尚靜
無線電通信技術 2024年1期
關鍵詞:數據量聯邦準確度

莊 琲,韓志博,聶錦標,李子怡,林尚靜

(北京郵電大學 安全生產智能監控北京市重點實驗室,北京 100876)

0 引言

近年來,基于人工智能的模型訓練方法主要使用傳統的基于云的集中式學習框架。然而,這種將訓練數據傳輸到云服務器進行處理的方法存在一系列問題,包括傳輸質量、數據隱私和高消耗[1]。因此,領域內提出了邊緣計算來改善這些問題,并將數據處理和其他任務放在離設備更近的邊緣服務器上。聯邦學習[2]作為一種分布式框架,促進了邊緣計算的發展。它允許用戶在本地保存數據,邊緣服務器作為參數服務器,將訓練模型參數上傳到參數服務器進行參數融合。目前,聯邦學習已廣泛應用于物聯網,如入侵檢測[3]、網絡流量分類[4]和自動駕駛汽車[5]。車聯網作為特殊的物聯網場景,也逐漸得到關注,車輛可以通過車對基礎設施技術(Vehicle-to-Infrastructure,V2I)[6]與路邊單元、基站等基礎設施進行數據交換。聯邦學習應用在車聯網中,保護車輛用戶個性化隱私數據的同時,可以避免將大量訓練數據上傳至云服務器,提高了通信效率。

在車聯網場景下,擁有云服務器的服務提供商為車輛提供車載娛樂、自動駕駛和路徑規劃等服務[7-8],需要利用車輛的私有數據進行聯邦學習共同訓練一個機器學習模型,再部署到車輛上為其提供服務。

車聯網下的聯邦學習面臨許多挑戰:

一方面,由于車輛設備的異構性,聯邦學習參與者的設備條件參差不齊,容易造成通信和計算效率低下、資源浪費的問題?,F有文獻主要考慮到車輛自身條件以及信道條件等因素進行車輛節點選擇,Wang等人[9]提出了一種基于數據集內容的車輛選擇和資源分配方案,提高了模型精度與收斂速度。文獻[10]提出了基于內容均衡性的車輛選擇方法,綜合考慮了車輛本身數據集內容分布不均衡、車輛計算能力以及無線信道的影響。文獻[11]設計了一種分布式數據流抽樣算法來進行車節點選擇,能夠保證車節點最大可能地參與模型訓練。文獻[12]提出了一種基于鏈路時長預測的聯邦訓練節點選擇機制。該機制首先根據車輛上傳的相關指標預測出邊緣節點與車輛剩余的通信時長,將其與模型訓練時長綜合考慮來決定車輛是否參與訓練。Saputra等人[13-14]在聯邦學習的每一輪中,根據車輛的當前位置來進行車輛選擇,確定聯邦學習過程中的一組最佳車輛集合。其中,文獻[14]更進一步考慮了車輛的信息歷史的影響。Yu等人[15]提出了一種基于近端策略優化(Proximal Policy Optimization, PPO)的用戶選擇方法,綜合考慮了用戶本地數據質量、能耗和通信延遲,解決了車聯網中聯邦學習的用戶選擇問題。Lu等人[16]將車輛節點選擇建模為一個時間成本的優化問題,采用深度強化學習求解,提高了聯邦學習效率。盡管有研究將車輛位置考慮進車輛選擇,但車輛位置是快速實時變化的,算法需要捕捉移動性帶來的長期影響,且全面考慮設備的通信與計算條件。

另一方面,大量車輛參與聯邦學習,短時間內與參數服務器頻繁通信,高并發的訪問會造成通信擁塞,進一步導致訓練瓶頸。為了實現負載均衡,車輛可以切換接入的參數服務器,選擇最優的參數服務器上傳梯度數據。 演化博弈是解決用戶選擇行為動力學的一個有效工具。演化博弈與傳統的博弈論不同,它不要求參與者完全理性。Fan等人[17]在空天地一體化網絡場景下引入演化博弈理論研究用戶的動態網絡選擇行為和演化均衡。Luong等人[18]在智能反射面輔助無線網絡場景下,采用演化博弈分析用戶的服務提供商和服務選擇行為。Van等人[19]在基于6G的支持速率分割多址的網絡中,利用演化博弈解決移動用戶的動態網絡資源選擇問題。賴成喆等人[20]在車聯網下應用演化博弈解決車輛是否參與數據包轉發的問題,證明演化博弈在車聯網下具有優勢:由于車輛的移動性,車輛節點通信鏈路不一定穩定且完整,車輛為有限理性狀態,演化博弈對車輛行為建模,車輛節點會動態根據網絡狀況調節自身策略實現利益最大化。進一步,由于網絡環境是動態的,文獻[21]采用基于演化博弈和雙層博弈的車載異構網絡選擇方法解決了動態網絡環境中異構網絡切換時出現的大規模乒乓效應?,F有研究對參數服務器的選擇問題關注較少,車聯網中,大量的車輛接入參數服務器,會導致通信擁塞,在聯邦學習場景下,也面臨著模型準確度與訓練成本之間的權衡。

針對上述問題,提出一種考慮移動性和資源的基于模糊邏輯的車輛選擇方案和基于演化博弈的參數服務器選擇方法。在大量移動車輛場景下,選擇計算能力強、數據量多的車輛參與訓練,降低移動車輛對全局模型準確度產生的影響,采用演化博弈對車輛自主選擇參數服務器的過程建模,通過復制者動態刻畫車輛決策的動態性和有限理性,解決易產生通信擁塞的問題,降低通信和計算成本。

1 系統模型

車聯網中,云服務提供商通過邊緣服務器向底層的車輛用戶發布計算任務,通過聯邦學習協同訓練特定的智能模型,如圖1所示。

圖1 車聯網下的聯邦學習框架Fig.1 Federated learning framework for internet of vehicles

車聯網下的聯邦學習框架主要包括任務發布者層、邊緣層和用戶層。邊緣層由多個邊緣服務器組成,例如基站和路邊單元,由邊緣服務器調動大量車輛用戶參與聯邦學習。

為了提高通信效率,推動聯邦學習有效進行,本文提出了一個移動感知的高效分布式系統模型,即基于模糊邏輯的車輛選擇和基于演化博弈的參數服務器選擇方法,如圖2所示。

圖2 移動感知的高效分布式系統模型Fig.2 Efficient distributed System model for mobile sensing

1.1 聯邦學習

ωi(t)=argminFi(ω),

(1)

式中:Fi(ω)表示車輛i的損失函數,本文采用交叉熵損失函數作為車輛本地訓練模型的損失函數。損失函數的反向傳播是機器學習訓練過程中調整權重和參數的必要條件。第i輛車在t輪迭代中更新參數的過程如下:

ωi(t)=ωi(t-1)-η?Fi(ωi(t-1)),

(2)

式中:η為學習率,η∈[0,1]。在每一輪全局迭代后,車輛將訓練的本地模型上傳至參數服務器。

全局模型更新:在每一輪全局迭代后,參數服務器接收到來自所有車輛的本地模型,并進行全局模型更新。模型參數更新算法可以選擇聯邦平均算法、聯邦加權平均算法和聯邦隨機梯度下降算法等方法。由于模型參數更新算法不是本文的研究重點,所以選取基礎的聯邦平均算法進行全局模型的更新。因此,在t輪迭代中全局模型的更新過程為:

(3)

式中:D為聯邦訓練的總數據量大小。將更新后的全局模型參數下發到所有車輛,車輛在該全局模型的基礎上開始下一輪迭代訓練,重復迭代過程,直至達到最大迭代次數或全局模型收斂。

1.2 模糊邏輯法

1.3 演化博弈

在通過模糊邏輯法選出參與聯邦學習的車輛后,為了實現進行聯邦學習時參數服務器的負載均衡,采用演化博弈推動車輛自主選擇最優的參數服務器。在博弈過程中,用戶需要貢獻自己的數據并消耗自己的資源,而參數服務器需要動員更多的車輛加入協同訓練模型,從而提升模型訓練準確度。初始所有車輛隨機選擇一個參數服務器加入,并計算當前選擇策略能夠獲得的收益。在每一輪迭代后,車輛都會調整他們的策略,傾向于加入能夠獲得更高收益的參數服務器。

在傳統博弈理論中,假設參與者是完全理性的,且博弈在完全信息條件下進行。但在現實中,參與者的完全理性與完全信息的條件是很難實現的,且參與者之間具有差異性。與傳統博弈理論不同,演化博弈理論不要求參與者是完全理性的,也不要求完全信息的條件。演化博弈所刻畫的是具有有限理性的群體通過各種具體的動態學習模仿行為,最終達到穩定均衡狀態的過程。

2 算法設計

先通過模糊邏輯法選擇參與聯邦學習的車輛,再采用演化博弈建模被選擇的車輛動態選擇參數服務器的過程。

2.1 基于模糊邏輯的車輛選擇

在車輛的選擇中考慮了三個因素:車輛的設備條件、數據量和移動性,分別用車輛計算的CPU周期頻率、車輛本地私有數據量大小和車輛速度數據來衡量。設備條件因素確保了總是可以選擇計算能力更強的車輛,降低訓練時的計算時延;數據量因素確保了所選車輛具有更大的數據量,有利于提高模型訓練的準確度;考慮移動性因子可以盡可能選擇速度接近全體車輛平均車速的車輛,確保車輛之間的通信連接更穩定。由于車輛的移動性,車輛獲取的信息往往不完整或不精確,因此采用模糊邏輯來進行車輛選擇,使用了較為主觀的模糊規則,具有魯棒性和較強的容錯能力。

2.1.1 模糊邏輯因素

計算三個模糊邏輯因素的影響因子值,分別用來代表車輛的設備條件水平、數據量大小和移動穩定性。

① 設備條件因素:采用車輛的CPU周期頻率值來衡量車輛的計算能力,對車輛的CPU周期頻率進行歸一化處理得到設備條件影響因子值。

(4)

式中:車輛i的CPU周期頻率記為fi,CFi表示車輛算力相對大小,CFi的值越大,代表車輛i的計算能力越強。CFi值較大的車輛更有可能被選擇,因其擁有更豐富的計算資源,可以減少聯邦學習時的計算時延。

② 數據量因素:對車輛本地私有數據量大小進行歸一化處理得到數據量影響因子值。

(5)

式中:車輛本地擁有的私有數據量大小為Di,DFi表示車輛擁有數據量的相對大小。DFi值越大,代表車輛i的擁有的數據量越多。由于聯邦學習時大量的訓練數據有利于提高訓練模型的準確度,傾向于選擇DFi值較大的車輛。

③ 移動性因素:主要采用車輛的速度值來衡量車輛的移動水平。車輛的移動性影響因子值計算如下:

(6)

2.1.2 隸屬度函數

轉化后得到的設備條件影響因子值、數據量影響因子值和移動性影響因子值為數字格式,本節通過隸屬度函數轉化為模糊數據,以便描述對車輛評價的高低,三個影響因子值的隸屬度函數如圖3所示。

(a) 設備條件因素

(c) 移動性因素

2.1.3 模糊規則

在將輸入模糊化后,需要定義一組規則,來確定輸入模糊變量和輸出模糊變量之間的關系,定義的模糊規則如表1所示。

表1 模糊規則

在得到輸出模糊變量后,需要通過解模糊化方法將其模糊格式重新轉化為數字格式,以此來表示車輛屬性的優劣,從而做出車輛選擇決策。采用重心法進行解模糊化,通過輸出隸屬度函數得到輸出變量具體的數值,輸出隸屬度函數如圖4所示。定義閾值STh,將車輛的輸出變量與閾值STh比較,若大于閾值則該車輛會被選為聯邦學習的參與車輛。STh的大小可根據實際場景需求進行調整,從而控制參與車輛的數量和質量。

由于車輛環境是動態的,并且在每輛車上獲取的信息是不完整或不精確的,因此很難使用簡單的數學模型來解決車輛選擇問題。車輛的選擇過程考慮三個因素,即移動性因素、設備條件因素和數據量因素,每個因素對系統性能的影響也取決于其他因素的值。如果某個車輛一個因素的值很低,那么無論其他兩個因素如何,選擇該車輛的可能性都不高。所提出的基于模糊邏輯的方法能夠根據定義的模糊隸屬度函數和模糊規則來聯合考慮這三個因素。當輸入不精確或矛盾時,模糊邏輯可以做出很好的決策,從而為問題提供靈活的解決方案。

2.2 基于演化博弈的參數服務器選擇

針對本文的場景,將車輛進行聯邦訓練時選擇參數服務器的動態過程建模為演化博弈。

2.2.1 演化博弈要素

演化博弈包含四個基本要素:種群、適應度函數、動態和均衡。

② 適應度函數:適應度函數是指選擇接入不同參數服務器的車輛所獲得的收益。這與車輛所選擇的參數服務器和當前的策略分布有關。將適應度函數定義為接入參數服務器所獲得的獎勵與通信、計算所產生的成本之間的差值。適應度函數的設計在下節進行了進一步的討論。

④ 均衡:演化博弈的結果是達到一個收斂的穩定狀態,即選擇每個參數服務器的車輛比例收斂到一個唯一且穩定的點,最終車輛種群的策略分布向量表示為x*=(x1*,x2*,…,xM*)。

2.2.2 動態過程建模

本節詳細描述定義的適應度函數。在參與聯邦訓練時完成一次迭代后選擇接入參數服務器j的車輛群體的適應度為:

(7)

在使用分布式模型訓練時,車輛越多,數據越多,模型準確度越高。擬合出數據量和全局模型準確度的關系[22]如圖5所示,橫坐標代表參與聯邦訓練的圖片數,縱坐標代表聯邦學習全局模型的準確度,每個數據點為聯邦訓練100次得到的均值,車輛在私有數據集上的本地訓練輪數epoch設置為30,一次訓練所選取的樣本數Batch Size為128。

圖5 數據量與模型準確度的關系Fig.5 Relationship between data size and model accuracy

所擬合的關系式表達如下:

Rj=0.057 1lg(D)+0.746 8,

(8)

式中:D為聯邦訓練的總數據量大小。

在每輪迭代結束后和下一輪迭代開始前,車輛與參數服務器之間進行參數交互,本文采用所交互的參數量作為一次迭代產生的通信開銷,針對參數服務器j,其通信開銷為所有與其交互的參數量總和。則參數服務器j一次迭代產生的通信成本表示如下:

(9)

式中:T為一次迭代交互參數的次數,一般情況下T=2,表示在每輪迭代結束后車輛向參數服務器上傳一次本地模型參數,在下一輪迭代開始前車輛從參數服務器下載一次全局模型參數;|ω|為模型參數的大小,由于所有車輛本地所采用的機器學習模型結構相同,所有車輛交互的參數大小也近似相等。

在聯邦學習的計算階段,每個車輛在本地數據Di上訓練本地模型。選擇參數服務器j的所有車輛一次迭代產生的計算成本表示如下:

(10)

式中:εi為車輛i處理一單位數據所需的CPU周期數,fi為車輛i的CPU周期頻率。

更進一步可得所有車輛在第t輪的平均適應度為:

(11)

在博弈過程中,車輛可以交換通過接入不同的參數服務器獲得的適應度值信息,即凈收入信息,從而與當前參數服務器進行比較。相比之下,車輛更傾向于加入能提供更高凈利潤的參數服務器。本文采用復制者動態去捕捉和建模車輛選擇參數服務器的動態過程。

(12)

式中:α為車輛的學習率,控制車輛適應策略的速度。當種群規模較大時,車輛往往需要更多的時間來獲得和傳遞信息和狀態,學習速度往往較慢,α值設置得更小。

車輛之間的博弈最終會演化到一個唯一且穩定的均衡點,即種群從任何初始策略分布開始演化都可以收斂到相同的平衡點,且不再改變。

2.2.3 算法過程實現

上節對車輛進行了動態博弈過程的建模,本節對車輛動態演化博弈算法進行具體的闡述。不同于傳統的演化博弈,由于車輛有限的規模,實際車聯網下種群的策略分布是離散狀態。

(13)

(14)

在策略分布收斂且所有車輛的策略概率分布向量收斂后,得到最終的策略分布x*=(x1*,x2*,…,xM*)。算法1給出了車輛動態演化博弈算法的偽碼。

算法1 車輛動態演化博弈輸入:車輛集合,策略集合,初始策略分布x(0)輸出:演化博弈達到均衡時,種群的策略分布向量x?1.t=0,車輛根據初始策略分布x(0)隨機選擇參數服務器2.WHILE ?j∈,Aj(xj(t))-A(t)

3 仿真分析

3.1 實驗場景及參數設置

考慮一個具體的城市街道車輛環境,由兩個參數服務器和若干車輛構成,參數服務器分別為路邊單元和基站。路邊單元可以通過短距離直接通信接口PC5匯集道路上行駛車輛的信息,上傳至V2X(Vehicle to Everything)平臺,經過計算后將消息廣播至車輛,通信覆蓋范圍設置為600 m?;究梢酝ㄟ^通信接口Uu實現與車的更大范圍的長距離可靠通信,可以收集車輛信息同時具備計算能力,以4G基站為例,通信覆蓋范圍設置為2 000 m。在實驗分析中,用A替代基站,B替代路邊單元,假設所有車輛都在A和B的通信覆蓋范圍內,則有A和B兩個參數服務器選擇,分別對應車輛的A策略和B策略。

車輛之間的演化博弈過程建立在車輛進行聯邦學習的背景下,考慮車輛訓練MNIST圖像數據集,采用卷積神經網絡(Convolutional Neural Network,CNN)對圖像數據分類和預測,模擬車聯網的目標識別場景。以1∶1為所有車輛分配200或400張不同圖片作為訓練集,測試集是相同的1 000張圖片。仿真設置車輛總數大于50,模擬高密度車輛環境,所采用的車輛CPU周期ε為5,CNN模型參數|ω|為0.02 MByte。實驗環境使用Python 3.7.0利用 pytorch深度學習框架構建。在車輛動態演化博弈算法中所設定的閾值Th=0.001。

將演化博弈算法與其他算法獲得的收益進行對比,對比算法包括K-means算法[23]和譜聚類算法[24]。K-means算法和譜聚類算法是分簇算法,譜聚類相比傳統的K-means算法,對數據分布的適應性更強、計算量更小。采用這兩種分簇算法按照車輛位置將車輛劃分為兩簇,分別接入A和B兩個參數服務器。在進行算法對比時,隨機在參數服務器通信范圍內生成車輛位置,分別模擬50、75、100輛車的場景。

3.2 演化博弈穩定性能分析

圖6給出了在不同的初始策略分布下,B策略分布的演化最終收斂到納什均衡點的過程。給定種群選擇B策略的初始比例分別為0.2、0.3、0.4,種群中的車輛不斷改變自身的策略選擇,最終趨于穩定,選擇最有利于自己的策略??梢钥闯?不同初始比例下最終都收斂到相同的平穩點0.44,則對應地選擇A策略的種群比例為0.56。

圖6 不同初始比例時B策略分布變化Fig.6 Changes in the distribution of strategy B at different initial proportion

圖7分析了不同的車輛密度下的策略分布變化。在同一初始比例下,給出了50、75、100輛車的情境下,演化博弈的收斂過程,分別在第6、第22和第53次迭代時收斂??梢钥闯?無論何種車輛密度,演化博弈最終都可以達到收斂,參與的車輛數量越多,收斂的速度越慢。另外,不同數目的參與車輛最終的收斂點也不相同。由此可得,車輛越多,車輛需要更多的時間去適應策略,且演化博弈適用于大量車輛場景,在不同種群規模下都能達到穩定狀態,個體都可以學習到最佳策略。

(a) 50輛車

(c) 100輛車

圖8給出了相同初始條件下,設定不同的學習率α值時車輛選擇不同策略的概率變化,體現學習率對演化博弈達到穩定需要迭代次數的影響??梢钥闯?學習率α越大,選擇A、B策略的概率收斂越快,即種群適應策略的速度越快,且最終收斂值為0或1,驗證了演化博弈算法的準確性。

圖8 不同學習率時車輛選擇不同策略的概率變化Fig.8 Probability variation of vehicle selecting different strategies under different learning rates

模型準確度反映了車輛選擇A和B可以獲得的利潤,通信量反映了車輛接入A和B的通信擁塞程度,模型準確度與通信量的差值則反映了車輛的凈收益。圖9給出了不同車輛密度下車輛選擇A和B對應的三個指標的變化??梢钥闯?隨著車輛數的增加,通信量增加即通信擁塞程度上升,而模型準確度提高是由于訓練數據的增加。收益在逐漸降低,這是因為隨著車輛的增多,準確度提高速度比通信量增加速度慢。因此在實際應用中,應根據對準確度和通信開銷的需求和容忍程度來選擇參與訓練的車輛數。

圖9 不同車輛數適應度、準確度和通信量的變化Fig.9 Changes in fitness, accuracy, and communication cost of different number of vehicles

3.3 對比算法性能分析

圖10給出了在不同車輛數下,不同算法的總收益對比,選擇不同策略的收益根據式(7)計算得出,求和得到總收益。

圖10 不同車輛數下不同算法的收益對比Fig.10 Comparison of benefits of different algorithms under different number of vehicles

與K-means算法、譜聚類算法相比,采用演化博弈算法得到的總收益更高。當車輛數為50時,演化博弈與K-means算法、譜聚類算法的差距并不明顯;當車輛數為100時,演化博弈相比其他算法收益明顯更高。由此可得,隨著車輛數的增加,演化博弈的效果更加顯著,這恰恰證明了所提出的演化博弈理論的有效性。K-means和譜聚類算法由于在聚類時沒有考慮準確度和通信計算成本,僅考慮車輛的位置因素,導致無法平衡準確度和通信計算成本,最大化車輛和整體利益。

4 結束語

提出了面向車輛與參數服務器雙向選擇的聯邦學習算法,針對參數服務器調動大量車輛進行聯邦學習時通信效率低下的問題設計算法。設計基于模糊邏輯的車輛選擇算法,解決了車輛移動條件下通信連接不穩定以及車輛設備條件和數據量參差不齊的問題,設計較為主觀的模糊規則,便于實際場景中根據具體需求更改車輛選擇規則。此外由于車輛移動下通信質量較差,從車輛獲取到的信息可能不完整或者不精確,模糊邏輯算法的容錯能力可以彌補這一缺陷。進一步提出基于演化博弈的參數服務器選擇算法,設計收益函數來平衡聯邦學習模型準確度和通信與計算成本,利用復制者動態理論對車輛的動態自主決策過程建模,體現出車輛具有有限理性的特點,解決通信擁塞問題,同時最大化個體和整體利益。

由仿真結果可以看出,在演化條件相同時,演化博弈最終可以收斂到唯一且穩定的均衡點,并且隨著車輛規模的增大演化速度會降低,學習率也是可以影響演化速度的重要因素。與簡單的車輛分簇算法相比,通過演化博弈算法將車輛分配給不同的參數服務器可以使收益最高、利益最大化。未來會進一步研究車聯網下多種群的合作和競爭機制,并在其中考慮車輛的移動性因素,切實解決車聯網下的移動性難題。

猜你喜歡
數據量聯邦準確度
基于大數據量的初至層析成像算法優化
計算Lyapunov指數的模糊C均值聚類小數據量法
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數據量傳輸系統設計與研究
303A深圳市音聯邦電氣有限公司
幕墻用掛件安裝準確度控制技術
動態汽車衡準確度等級的現實意義
高爐重量布料準確度的提高
對電子天平的誤差及保證其稱量準確度的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合