?

基于強化學習的多用戶聚合幀長度優化方案*

2023-08-17 12:38方旭明
通信技術 2023年5期
關鍵詞:多用戶吞吐量比特

鄧 邱,方旭明

(西南交通大學,四川 成都 611756)

0 引言

近年來,隨著無線技術的飛速發展,無線業務的應用越來越廣泛,比如在移動教學、視頻會議、虛擬現實(Virtual Reality,VR)和物聯網等設備[1]中的應用。由于各種智能設備的不斷涌現,移動數據流量呈現爆炸式增長。為了滿足流量需求,Wi-Fi 不斷地提升傳輸速率,然而想要進一步突破吞吐量的瓶頸,盲目地提升傳輸速率并不可行。有研究[2]表明,IEEE 802.11 標準具有理論吞吐量上限和理論延遲下限,當傳輸速率達到足夠高時,僅僅增加傳輸速率而不減少開銷將限制吞吐量的提升。因此,減少開銷對于Wi-Fi 網絡實現更高的吞吐量是尤為關鍵的。在IEEE 802.11n 標準中引入了幀聚合技術[3-4],可以較好地解決上述問題。通過該技術,將多個較短的媒體訪問控制(Medium Access Control,MAC)幀組合成一個長的MAC 幀進行傳輸,可減少MAC 層和物理層的幀頭開銷以及信道訪問開銷,提高MAC 效率。

單用戶傳輸場景下的幀聚合機制迄今為止已經得到了廣泛的研究。文獻[5]提出了一種基于802.11n 網絡的服務質量(Quality of Service,QoS)保證的幀聚合算法,根據隊列指標(例如平均隊列長度和鏈路利用率)并結合有效容量的概念,使用比例積分導數控制器來選擇合適的聚合MAC 協議數據單元(Aggregation-MAC Protocol Data Unit,A-MPDU)長度,以提高信道利用率和降低時延。文獻[6]針對幀聚合過程中的能耗問題,提出了一種基于在線學習的幀聚合方案,通過ε貪婪策略和模糊邏輯從MPDU 子幀大小集合中找到最優子幀長度,以最大限度地減少網絡中的能耗。文獻[7]提出了一種基于隨機森林方法的幀聚合方案,首先利用Minstrel 速率控制算法確定調制與編碼方案(Modulation and Coding Scheme,MCS),再根據網絡狀態(例如信道利用率、所選MCS 傳輸成功率等)選擇合適的聚合幀長度,以提高網絡吞吐量。

IEEE 802.11n 之后的標準繼續使用幀聚合技術,并對此進行改進升級。IEEE 802.11ac 標準和IEEE 802.11ax 標準分別引入了多用戶多輸入多輸出(Multi-User Multiple-Input Multiple-Output,MUMIMO)技術和OFDMA 技術來支持多用戶幀聚合傳輸。在多用戶幀聚合傳輸機制下,用戶的傳輸時間需保持對齊[8]。由于網絡流量異構性強[9],且每個用戶的傳輸速率不同,導致用戶的傳輸時間不同,傳輸時間較短的用戶需要填充比特。在傳輸的過程中,過多的填充比特會降低信道的利用率,影響系統的吞吐量。因此,設計有效的多用戶聚合幀長度優化方案來合理填充比特顯得愈發重要。

目前,針對多用戶幀聚合傳輸技術的研究主要基于MU-MIMO 多用戶傳輸機制。文獻[10]提出用其他用戶的數據來代替填充的比特,以提高傳輸效率。文獻[11]與文獻[10]類似,提出用其他用戶的數據幀來填補空閑信道時間,設計了兩種填充方案,能以非常小的開銷收集所需的信息,同時防止填充幀損害原始幀的可解碼性。雖然用其他站點的數據來代替填充比特可以提高傳輸效率,但是這種方法需要修改標準,以允許空間流中有多個目的地,且需更改用戶幀結構以及MCS,增加了發送和接收過程的復雜性。文獻[12]提出了一種基于802.11ac 網絡的多用戶傳輸幀聚合方案,根據站點的數據緩存狀態和傳輸速率,找到最優的多用戶聚合幀長度,以最大化傳輸效率。但是該方案是從所有用戶的傳輸時間中找出一個使當前網絡吞吐量最優的傳輸時間,作為多用戶傳輸時間,這樣可能會陷入局部最優。

針對OFDMA 多用戶幀聚合傳輸的研究鮮少,現有研究大多側重于OFDMA 中資源的優化,比如資源單元(Resource Unit,RU)調度[13]、子載波分配[14]以及接入機制[15]的研究。多用戶聚合幀長度優化這一問題在文獻中尚未得到深入的探討,但是多用戶幀的填充開銷對系統性能的影響不容忽視,是無線局域網中多用戶傳輸的一個重要設計因素。

綜上所述,盡管當前已有對多用戶幀聚合傳輸技術的研究,但主要是針對MU-MIMO 多用戶傳輸。由于OFDMA 多用戶傳輸與MU-MIMO 多用戶傳輸在傳輸機制方面有一定差異,因此針對MUMIMO 多用戶幀聚合傳輸的優化方案不能完全適用于OFDMA 多用戶傳輸。

本文基于802.1ax Wi-Fi 網絡,對OFDMA 多用戶聚合幀長度優化問題進行了研究,主要貢獻如下:

(1)提出了一種基于強化學習的OFDMA 多用戶聚合幀長度優化方案,該方案將AP 作為智能體,通過訓練和學習,根據站點的緩存狀態決策出最佳的多用戶聚合幀長度。

(2)所提方案適用于下行和上行OFDMA 傳輸。因為無論是上行還是下行傳輸,都由AP 進行集中調度,AP 能夠獲得上、下行需要傳輸的數據信息[8],并以此來決策多用戶聚合幀長度。

(3)以上行傳輸場景為例進行問題建模,并通過仿真驗證了所提方案能夠減少幀聚合傳輸過程中的填充比特,增加傳輸的有效負載,提升了系統吞吐量和信道利用率。

1 系統模型與問題建模

1.1 網絡模型

在本文中,幀聚合傳輸考慮上行傳輸場景,基于集中式網絡拓撲結構。如圖1 所示,系統中有一個AP 和n個站點(Station,STA),n個STA 均與AP 相關聯,由AP 調度STA 的傳輸。AP 采用緩沖狀態報告輪詢(Buffer Status Report Poll,BSRP)的方式調度上行多用戶幀聚合傳輸,周期性地向STA發送觸發幀來收集緩存信息,根據緩存信息為STA分配RU 進行數據傳輸。

圖1 一個AP 和多個STA 組成的網絡拓撲

假設系統中STA 的集合表示為SSTA={STA1,STA2,…,STAn},忽略干擾,則STAi與AP 之間的信噪比(Signal to Noise Ratio,SNR)可表示為:

式中:PTX為STA 的發送功率,GTX和GRX分別為站點天線的發送增益和AP 天線的接收增益,PL為路徑傳輸損耗,路損模型使用標準中的802.11 傳輸模型[16],為環境中的噪聲功率。

根據香農公式可以計算出STAi在給定RU 下的最大傳輸速率:

式中:B為RU 的帶寬。

1.2 問題建模

基于OFDMA 多用戶幀聚合傳輸的過程如圖2所示,為了保證多用戶傳輸時間對齊,需要對傳輸時間較短的站點進行額外的比特填充,而多用戶聚合幀長度的設置決定了填充比特的數量。若采取聚合幀長度L1所對應的傳輸時間,那么所有站點都需要填充比特,這樣會降低系統吞吐量。若采取聚合幀長度L2所對應的傳輸時間,那么所有站點傳輸的有效負載大大減少,也會降低系統吞吐量。因此,本文的目標是設計出合理的方案來對多用戶聚合幀長度進行優化,以此最大化系統吞吐量,提高信道利用率。

圖2 OFDMA 多用戶幀聚合傳輸過程[8]

將STAi的緩存隊列記為li,對應的傳輸時間為li/vi,i=1,2,…,n,vi為STAi的實際傳輸速率。假設多用戶聚合幀長度設置為L,那么多用戶聚合幀傳輸時間為:

式中:vave為n個STA 的平均速率。

假設有k個STA 的傳輸時間小于多用戶幀聚合傳輸時間,那么這類STA 需要額外填充比特,據此系統吞吐量可以表示為:

式中:tcost為多用戶傳輸機制開銷;tdifs為分布式幀間隔持續時間;tsifs為短幀幀間隔持續時間;tbsrp和tbsr分別為緩存區狀態報告輪詢觸發幀和緩存區狀態報告的持續時間;ttf,tpre,thead和tba分別為觸發幀、前導碼、聚合幀幀頭和塊確認應答幀的傳輸時間。

因此,優化問題可以表示為:

式中:Lmin為最小多用戶聚合幀長度;Lmax為最大多用戶聚合幀長度。

2 基于強化學習的聚合幀長度優化方案

上述OFDMA 多用戶幀聚合傳輸場景下的幀長優化問題實際上是一個動態調優問題,而動態未知環境下的優化問題可以被建模成馬爾可夫決策過程(Markov Decision Process,MDP)。Q learning 算法可以有效解決MDP 問題。然而OFDMA 多用戶傳輸過程較為復雜,且具有較大的狀態和動作空間,簡單的Q learning 算法難以解決。深度Q 網絡(Deep Q-Network,DQN)算法在Q learning 算法的基礎上引入了神經網絡,來擬合Q 表,可以很好地解決此類復雜問題。因此,本文提出了利用DQN 算法來優化OFDMA 多用戶聚合幀長度。

2.1 強化學習三要素定義

在強化學習中,智能體根據環境的狀態選擇動作并且執行,環境根據智能體的動作進行狀態轉移,并給智能體一個獎勵或者懲罰。強化學習的三要素包括狀態空間、動作空間和獎勵函數。對于本文所考慮的OFDMA 多用戶場景,將AP 作為智能體,狀態空間、動作空間和獎勵函數定義如下:

狀態空間S:st∈S,S=[s1,s2,…,st],st=[l1,l2,…,ln],表示在t時刻n個STA 的緩存數據長度。AP 可以通過BSRP 幀向STA 發出請求,STA 通過緩存狀態報告(Buffer Status Report,BSR)向AP 反饋緩存數據信息。

動作空間A:at∈A,A=[a1,a2,…,at],對于當前狀態st,智能體可以根據決策策略采取動作at。at為可選的聚合幀長度L,范圍為[a,b],以步長δbyte 進行離散化。

獎勵函數r:r(st,at)表示在當前狀態st下選擇動作at得到的即時獎勵。在前面的優化問題中,本文的研究目標是最大化系統吞吐量。因此,定義即時獎勵為t時刻的系統吞吐量,并將其歸一化,表達式如下:

式中:Th為式(5)中給出的含義;Thmax為網絡預期的最大吞吐量。

2.2 多用戶聚合幀長度優化策略

在t時刻,智能體通過觀察狀態st,按照策略π選擇相應的動作at,作用于環境,環境反饋給智能體一個即時獎勵r(st,at),然后轉移到下一個狀態。st+1智能體的目標是學習策略π,使其獲得的長期累積折扣獎勵最大化,表達式如下:

式中:γ∈[0,1]是折扣率。當γ接近于0 時,表明智能體更在意短期回報;反之,當γ接近于1 時,長期回報變得更加重要。因此,在選擇γ值時,應根據系統特性進行調整,來確保γ在合理的范圍內。

策略π是將當前狀態映射至動作的概率分布。狀態st的狀態值函數表示智能體在遵循策略π時一個狀態的值,表達式如下:

狀態-動作值函數則表示智能體在遵循策略π時,在狀態st下采取某個動作的好壞程度,表達式如下:

Bellman 方程常用于求解MDP 問題,其核心思想是尋找最優狀態值函數,即所有狀態值函數中的最大值函數,表達式如下:

對于V*(s),一個狀態的最優值等于在該狀態下采取的所有動作所產生的狀態-動作值函數中的最大值,表達式如下:

因此,可以通過尋找最優狀態-動作值函數來尋找最優策略π*。在Q learning 算法中,更新Q值Q(st,at)[17]的公式為:

式中:α為學習率。

Q learning 算法使用一張Q 表來存儲Q 值,在DQN 算法中,使用神經網絡來近似Q 表輸出Q 值,即Q(st,at;θ)≈Q(st,at)。本文使用的DQN 算法模型如圖3 所示,為了提高網絡訓練的收斂性和穩定性,DQN 引入了目標網絡和經驗回放策略。通過梯度下降來更新θ值,損失函數表達如下:

圖3 DQN 算法模型

式中:Q_target為Q的目標值;θ'為目標網絡的權重。

本文提出的多用戶聚合幀長度優化算法流程如下:

3 仿真結果及分析

本節通過MATLAB 仿真對所提出的基于DQN算法的聚合幀長度優化方案的性能進行驗證。

3.1 仿真場景及參數設置

仿真場景設置為單AP 多STA 場景,STA 在AP周圍隨機分布。仿真采用IEEE 802.11ax 標準中基于OFDMA 的上行多用戶傳輸機制,由AP 調度STA 進行傳輸。信道帶寬設置為20 MHz,聚合幀采用A-MPDU 傳輸方式。具體參數如表1 所示。

表1 仿真參數設置

為了準確體現本文所提方案對網絡吞吐量性能的提升,在仿真中對所提方案與3 種基線方案進行了比較,這3 種基線方案具體如下文所述。

(1)基線方案1:將多用戶聚合幀傳輸過程中最長的用戶傳輸時間設置為多用戶傳輸時間,記為最大(Max)聚合方案。

(2)基線方案2:將多用戶聚合幀傳輸過程中最短的用戶傳輸時間設置為多用戶傳輸時間,記為最?。∕in)聚合方案。

(3)基線方案3:隨機選擇一個用戶的傳輸時間,將其設置為多用戶傳輸時間,記為隨機(Random)聚合方案。

3.2 仿真結果分析

圖4 給出了所提算法累積獎勵收斂曲線。在算法初期,累積獎勵較低,智能體通過不斷地探索和訓練,掌握了環境狀態和動作之間的映射,能夠做出更優的動作選擇,累積獎勵不斷增加,最終達到收斂。

圖4 累積獎勵收斂曲線

圖5 給出了不同學習參數對系統吞吐量的影響。圖5(a)表示,設置ε=0.2,α=0.5,γ=0.2 時,系統吞吐量相對較大。在這種情況下,α值降低對于吞吐量的影響較小,但是α值增大,吞吐量卻大大降低。圖5(b)表示,設置ε=0.5,α=0.5 時,改變γ的值,系統吞吐量的變化較小。圖5(c)表示,對于ε=0.8,α=0.5,設置γ=0.8 時,系統吞吐量得到顯著提升。因此,在設置ε,α和γ的值時,應根據系統特性不斷調整,以使算法具有較好的性能提升效果。

圖5 吞吐量與學習參數的關系

圖6 和圖7 分別給出了4 種方案下不同STA 的吞吐量以及系統吞吐量。從圖6 可以看出,基于DQN 算法的聚合方案能夠有效提升每個STA 的吞吐量。

圖6 STA 吞吐量

圖7 系統吞吐量

從圖7 可以看出,Min 聚合方案吞吐量最低,而DQN 聚合方案吞吐量最高,其次是Max 和Random 聚合方案。主要是因為Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,大大減少了每次傳輸過程中的有效負載,增加了協議開銷在聚合幀傳輸時間中的占比,從而降低系統吞吐量。Max 和Random 聚合方案相較于Min 聚合方案,能夠減少協議開銷在整個聚合幀傳輸時間中的占比,然而不可避免地會帶來一定程度的比特填充,從而降低系統吞吐量。而基于DQN 算法的聚合方案,可以根據站點的數據緩存情況,自適應地調整聚合幀長度,從而減少填充比特,增加傳輸過程中的有效負載,提升系統性能。

圖8 和圖9 分別給出了4 種方案下不同STA 的填充比特數量以及系統填充比特數量。從圖8 可以看出,基于DQN 算法的聚合方案能夠有效減少每個STA 的填充比特數量。

圖8 STA 填充比特數量

圖9 系統填充比特數量

從圖9 可以看出,由于Max 聚合方案將最長的用戶傳輸時間作為多用戶傳輸時間,導致填充比特數量最多,Min 聚合方案將最短的用戶傳輸時間作為多用戶傳輸時間,基本沒有填充比特,Random和DQN 聚合方案有一定程度的比特填充,但是DQN 聚合方案填充相對較少。因此,結合系統吞吐量與填充比特數量,可以看出DQN 聚合方案對于系統性能的提升是優于其他三種方案的。

圖10 給出了4 種方案下的系統頻譜效率。從圖中可以看出,基于DQN 算法的聚合方案的頻譜效率較高。這是因為其可以根據各個站點的數據緩存情況,動態地找出最優的聚合幀長度,從而減少填充比特,提高系統頻譜效率。其他3 種聚合方案的系統頻譜效率相對較低,這是因為過多地填充比特或者減少傳輸有效負載,會導致帶寬資源的浪費。

圖10 系統頻譜效率

4 結語

本文基于OFDMA 傳輸過程,對多用戶聚合幀長度優化問題進行了研究。首先給出了多用戶幀聚合傳輸過程的系統模型并建立了優化問題,其次設計了基于深度強化學習框架的聚合幀長度優化方案,最后通過MATLAB 進行仿真。仿真結果表明,本文所提出的方案能夠根據站點的數據緩存情況自適應選擇聚合幀長度,減少填充比特,增加有效傳輸負載,降低協議開銷在聚合幀傳輸時間中的占比,從而提升系統吞吐量和頻譜效率。

然而本文的研究還存在一些局限:一是在仿真過程中,只搭建了上行傳輸場景,從而只驗證了該方案對于上行傳輸系統性能提升的有效性和適用性;二是并未分析算法的復雜性,只驗證了算法對于系統性能的提升。在接下來的研究工作中,會從以下兩個方面進行完善:一是通過仿真驗證所提方案對于下行傳輸系統性能提升的有效性和適用性;二是在不同的仿真場景下,對于系統性能的提升以及算法的復雜性,與其他優化算法進行對比分析。

猜你喜歡
多用戶吞吐量比特
安泰科多用戶報告訂閱單
安泰科多用戶報告訂閱單
安泰科多用戶報告訂閱單
安泰科多用戶報告訂閱單
比特幣還能投資嗎
比特幣分裂
2017年3月長三角地區主要港口吞吐量
2016年10月長三角地區主要港口吞吐量
2016年11月長三角地區主要港口吞吐量
比特幣一年漲135%重回5530元
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合