?

霧無線接入網中面向時延的協作緩存策略

2023-08-24 08:04韓少江陳藝洋
西安郵電大學學報 2023年2期
關鍵詞:線程時延協作

江 帆,韓少江,劉 磊,陳藝洋

(1.西安郵電大學 通信與信息工程學院,陜西 西安 710121;2.西安郵電大學 陜西省信息通信網絡及安全重點實驗室,陜西 西安 710121)

隨著第五代移動通信(5th Generation Mobile Communication,5G)網絡的大規模商用,以及移動設備和物聯網的大量應用,導致數據流量急劇增加,消耗過多回程鏈路帶寬,增加了核心網的開銷[1-2]。根據思科公司報告,海量用戶總會重復請求一小部分熱門內容,這將導致網絡中存在大量冗余傳輸,增加了用戶訪問內容的時延[3]。而作為解決這一問題最有效的技術之一的邊緣緩存技術,其支持邊緣節點如霧接入節點(Fog-Access Point,F-AP)和用戶設備(User Equipment,UE)等提前主動緩存最受歡迎的內容[4]。通過將霧無線接入網(Fog-Radio Access Networks,F-RANs)與邊緣緩存技術結合,使得熱門內容能夠在邊緣節點處提前緩存,用戶可以利用無線鏈路從附近的霧接入節點或利用終端直通技術(Device-to-Device,D2D)從鄰近設備獲取請求內容,而不再需要從遠程云中心才能獲取內容[5]。此外,通過優化緩存策略,可以有效緩解流量訪問高峰期的網絡擁堵問題,顯著降低視頻傳輸服務的時延,同時也可以有效提升用戶的體驗質量(Quality of Experience,QoE)。

考慮到邊緣節點的緩存容量有限及用戶請求內容具有隨機性,高效的邊緣緩存能夠最大程度降低通信時延,確保更多緩存內容可以有效地用來提供本地服務。為了實現高效本地緩存,緩存策略應當考慮在什么時候、哪個邊緣節點處及存放什么內容,相關研究學者提出了協作緩存的解決策略。通過多個邊緣節點共享已經緩存的內容,能夠有效擴展緩存容量,且提高緩存多樣性[6]。文獻[7]提出了一種基站協作緩存策略,以最小化總傳輸成本,但該策略沒有考慮用戶設備的緩存能力。文獻[8]提出了一種D2D輔助的協作邊緣緩存策略,用于緩解毫米級密集網絡的小基站負載,但其沒有考慮基站之間的協作。目前,大多數協作緩存策略均假設用戶對各種內容的請求遵循Zipf分布[9-10]。但是,文獻[11]證明了內容流行度和用戶偏好的分布是非平穩的,并表現出高度的空間和時間動態特性,這表明在設計緩存相關的策略時,應采取動態的用戶偏好學習和內容流行度預測。

考慮到無線環境的動態特性,深度強化學習(Deep Reinforcement Learning,DRL)算法也為在線內容緩存優化提供了新的解決策略。在文獻[12]中,提出了一種基于Q-learning算法的協作編碼緩存策略,用于搜索F-RANs中的最佳內容緩存策略。文獻[13]結合演員批評家(Actor-Critic,AC)算法學習最佳隨機緩存策略,文獻[14]進一步證明了異步優勢演員評論家(Asynchronous Advantage Actor-Critic,A3C)算法在動態環境中具有更快的收斂性能。但是,Q-Learning算法難以解決大規模網絡問題,AC算法采用單線程學習的方式,收斂速度較慢,而A3C算法利用多線程異步并行學習,能夠有效提升收斂速度。

針對邊緣節點有限存儲空間有限的問題以及考慮到A3C算法的有效性,擬提出一種面向時延的基于A3C算法的協作緩存策略。該策略考慮了F-AP之間的協作和UE之間的D2D通信協作,將協作內容緩存建模為一個平均下載時延最小化問題,并證明了該問題為非確定性多項式(Nondeterministic Polynomial-hard,NP-hard)問題。為了獲得最佳的緩存策略并最小化內容下載時延,進一步將內容緩存問題劃分為兩個階段求解。在第一階段,使用邏輯回歸算法建立用戶偏好模型,并根據獲得的用戶偏好預測用戶請求內容的概率,最終得到F-AP覆蓋區域內的局部內容流行度。在第二階段,根據獲得的內容流行度分布,采用A3C算法進行在線內容緩存優化,通過利用多個智能體異步并行地與未知環境進行交互,最終通過學習得到能夠最小化平均內容下載時延的最佳緩存策略。最后,通過仿真驗證所提的緩存策略的有效性。

1 系統模型和問題建模

1.1 系統模型

假設F-AP之間可以共享已緩存內容,并且允許由同一個F-AP服務的UE通過D2D的通信方式共享已緩存內容,以進一步提高緩存效率。此外,只有當通信距離小于預設的最小D2D通信閾值dmin時,UE之間才能建立D2D通信。令βu,u′∈{0,1}表示用戶u和用戶u′之間是否可以建立D2D通信,當可以建立D2D通信時,βu,u′=1,否則βu,u′=0。具體的F-RANs中協作緩存的系統模型如圖1所示。

圖1 F-RANs中協作緩存的系統模型

1.2 問題建模

根據圖1所建立的F-RANs中協作緩存的系統模型,當UE發起內容請求時,如果所請求的內容不在其本地存儲中,UE通過以下4種可能的途徑獲得該內容,相應的內容傳輸的平均下載時延計算過程如下。

1)利用D2D通信從鄰近UE獲取內容產生的平均內容下載時延,表達式為

(1)

2)通過從服務的F-AP獲取內容產生的平均內容下載時延,表達式為

(2)

3)通過從協作的F-AP獲取內容產生的平均內容下載時延,表達式為

(3)

4)通過云中心獲取內容產生的平均內容下載時延,表達式為

(4)

一般而言,用戶只會對同一內容發起一次請求,而不會重復請求同一內容,且傳輸距離從以上4種相應的內容傳輸的平均下載時延方式依次增加。為了盡量減少下載時延,將用戶獲取內容的優先級設定為從以上4種相應的內容傳輸的平均下載時延方式依次減少,分別用二進制變量α1,α2和α3表示某個用戶是否從前3種方式中獲得所請求的內容。具體來說:如果UE從鄰近的UE獲得所請求的內容,則α1=1,否則α1=0;如果用戶通過從服務的F-AP獲得請求的內容,則α2=1,否則α2=0;如果用戶通過從協作的F-AP獲得所請求的內容,則α3=1,否則α3=0。那么,所考慮的系統的平均內容下載時延計算表達式為

(5)

定義變量gi,i∈{1,2,3,4}滿足以下條件

則可以將式(5)簡化為

(6)

將所考慮的系統的內容平均下載時延最小化問題建模為

(7)

式中:約束條件C1和C2表示F-AP和UE緩存的內容總量應分別小于其緩存容量限制,m∈Q,u∈G;約束條件C3表示這3個變量都是二進制的,i∈{1,2,3,4}。文獻[15]已經證明式(7)中所建立的問題是NP-hard的,用傳統方法難以直接獲得最優解。并且由于邊緣節點和內容數量眾多,導致網絡中的狀態和動作空間高維且離散??紤]A3C算法在解決高維空間方面的有效性,以及與AC算法相比其具有更高的迭代速度。因此,基于A3C算法提出了一個可行的解決策略,通過將問題劃分為兩階段獲得最小化平均下載時延的最佳緩存策略。

2 基于A3C算法的協作緩存策略

為了解決式(7)所建立的問題,將內容緩存問題分為兩個階段。首先,預測當前時間段的內容流行度分布。然后,根據預測得到的內容流行度結果,采用A3C算法學習獲得最佳緩存策略。

2.1 內容流行度預測算法

考慮到邊緣節點的存儲空間有限,必須選擇最流行的內容進行緩存以提高緩存效率。因此,有必要對內容流行度進行預測,內容流行度預測算法包括以下3個步驟。

(8)

式中,ωu表示第u個UE的偏好模型,可以通過文獻[16]中的方法訓練獲取。

相應的邏輯損失函數定義為

(ωu,c(f),s(f))=-s(f)logpωu(s(f)|c(f))-
(1-s(f))log[1-pωu(s(f)|c(f))]

(9)

(10)

步驟3更新內容流行度。結合內容度的動態變化特性,需要實時跟蹤內容流行度的波動。如果一個用戶在前一個時間段已經請求過內容f,則將當前時間段的第m個F-AP的內容流行度更新為

(11)

由于用戶偏好動態變化,需要收集用戶的請求數據,并基于式(9)計算出當前時間段的平均邏輯損失函數。當平均邏輯損失函數超過給定閾值δ時,重新啟動步驟1中的算法更新用戶偏好模型。平均邏輯損失函數的表達式為

(12)

通過以上3個步驟,可以預測出每個時間段的內容流行度分布,其偽代碼如算法1所示。

算法1 內容流行度預測算法1:輸入:c(f),ωu,u∈G2:for u=1,2,3,…,Utm do3:if 第u個UE已經請求過內容f4:ptm,u,f=05:else6:根據式(8)計算ptm,u,f7:end if8:收集用戶請求信息Rku,k←k+19:根據式(12)計算?u,f10:if?u,f≥δ11:重新訓練用戶偏好模型ωu12:end if13:end for14:根據式(10)計算ptm,f15:輸出:ptm,f

2.2 基于A3C算法的內容緩存策略

2.2.1 算法概述

A3C算法在每一個訓練周期通過全局網絡創建L個線程和L個環境,每一周期執行Tmax個n步更新。全局網絡和線程網絡具有相同的結構,都是采用了演員評論家網絡結構。演員評論家網絡使用兩個深度神經網絡,包括兩個隱藏的全連接層,第一層包含256個神經元,第二層包含128個神經元,分別用于改進策略函數和評估價值函數。全局網絡不需要進行訓練,只用來存儲全局參數。在每次訓練之前,每個線程從全局網絡中獲取最新的網絡參數,并初始化一個緩沖區。多個線程并行與各自環境進行交互學習,在所有異步線程執行完畢后,全局網絡將使用累積的梯度信息更新網絡參數。由于線程的工作原理相同,因此以一個線程內的網絡訓練過程為例,闡明所提的緩存策略步驟。所提算法中的必要元素具體定義如下。

1)智能體。在DRL算法中,智能體通常是學習者和行動的執行者。由于UE接受F-AP的服務并受其控制,因此將F-AP建模為智能體。

2)狀態空間。集合s(t)={C(t),P(t)}表示狀態空間。其中,C(t)為邊緣節點UE和F-AP的緩存狀態,P(t)為時間段t的內容流行度分布。

3)動作空間。動作空間可以被表示為a(t)={am,u,f(t),am,f(t),m∈Q,u∈G},其中am,u,f(t)表示內容f應該由第m個F-AP所服務的第u個UE緩存,am,f(t)表示內容應該在第m個F-AP處緩存。

4)獎勵函數。由于優化目標是通過最流行的內容選擇最佳的緩存位置減少平均下載時延,因此獎勵與式(7)目標函數呈負相關,即時獎勵函數表示為

(13)

5)策略。智能體思考并做出決策動作的過程被定義為策略,表示為π(a(t)|s(t);θ′)?;贏3C算法的緩存策略示意圖具體如圖2所示。

圖2 基于A3C算法的緩存策略示意圖

在圖2中,將基于A3C算法的緩存策略分為演員網絡階段和評論家網絡階段。

1)演員網絡階段。演員網絡的任務是指導智能體選擇和執行相應的緩存動作。在每個時間段t通過輸入當前狀態s(t),演員網絡輸出當前的策略函數π(a(t)|s(t);θ′),根據該函數,智能體在不超過緩存設備的容量限制的情況下,為流行內容選擇適當的緩存位置。當智能體執行了當前的緩存動作a(t)后,狀態將從s(t)轉移到s(t+1),智能體獲得即時獎勵r(t)并向緩沖區存儲(s(t),a(t),r(t),s(t+1))。反復執行上述程序,直到動作執行完n步。

2)評論家網絡階段。評論家網絡的任務是為價值函數提供準確的評估。通過輸入當前狀態s(t),評論家網絡輸出當前的價值函數V(s(t);w′)。利用價值函數評估從演員網絡中獲得策略的好壞,從而幫助智能體學習到最佳的緩存策略。

每個線程的演員評論家網絡執行完所有步驟后,將其梯度信息發送到全局網絡。當所有異步智能體完成其工作后,全局網絡會根據累積的梯度信息更新網絡參數。在每個周期開始前,全局網絡將更新后的參數發送到每個智能體,從而加快學習速度。上述過程將以迭代的方式重復進行,當全局網絡執行了Tmax次后,結束當前的訓練周期,輸出能夠最小化平均下載時延的最佳緩存策略。

2.2.2 梯度更新

A3C算法使用n步累計獎勵的同時更新演員網絡和評論家網絡的參數,加快學習速度。優勢函數作為所選動作的評價標準,具體定義為

A(s(t),a(t))=Q(s(t),a(t))-V(s(t))

(14)

式中:V(s(t))表示由評論家網絡輸出的價值函數;Q(s(t),a(t))表示時間段t內采取的動作a(t)的長期累積獎勵,計算表達式為

(15)

式中,γ表示在當前和未來回報之間提供權衡的折扣因子。

1)演員網絡。演員網絡定義了一個以θ′為參數的策略函數,A表示演員網絡,其損失函數定義為

LA=logπ(a(t)|s(t);θ′)A(s(t),a(t))

(16)

采用梯度上升算法更新演員網絡的參數,具體表示為

dθ′←dθ′+θ′logπ(a(t)|s(t);θ′)A(s(t),a(t))

2)評論家網絡。評論家網絡定義了一個以w′為參數的價值函數,C表示評論家網絡,其損失函數定義為

LC=(A(s(t),a(t)))2

(17)

采用梯度下降算法更新評論家網絡的參數,表示為

(18)

最后,基于A3C的內容緩存算法的偽代碼如算法2所示。將算法2得到的最終緩存策略與式(6)相結合,得到平均下載時延。

算法2 基于A3C算法的內容緩存算法1:初始化:Tmax,tmax=n,γ,θ,w,T=0,t=02:repeat3:線程網絡重置梯度:dθ←0,dw←04:線程網絡獲取全局網絡參數:θ′=θ,w′=w5:tstart=t6:智能體從環境獲取狀態s(t)7:repeat8:智能體根據策略函數π(a(t)|s(t);θ′)選擇緩存動作a(t)并執行,獲取即時獎勵r(t)9:向緩存區添加(s(t),a(t),r(t),s(t+1))10:t←t+111:until終止狀態st或t-tstart=tmax12:R=0,終止狀態stV(s(t);w′),t-tstart=tmax{13:for i∈{t-1,…,tstart} do14:R←r(i)+γR15:累積線程網絡的參數:dθ←dθ+?θ′logπ(a(t)|s(t);θ′)A(s(t),a(t))dw←dw+?(A(s(t),a(t)))2/?w′16:end for17:全局網絡更新參數θ和w18:until T>Tmax

3 仿真結果及分析

3.1 仿真參數

為了評估所提策略的性能,選擇大小為10 M的MovieLens作為仿真的數據集[17]進行測試。該數據集來源于MovieLens網站的真實電影評級數據。假設用戶已經觀看過某一內容才會對其進行評分,因此,如果用戶對某一電影進行過評分,則認為該用戶已經請求過該內容。該數據集包含用戶ID、電影ID、評分和時間戳,而電影又分為18種類型,如喜劇、科幻和冒險等。提取18種電影類型作為內容特征,即當電影屬于某種類型時,內容特征向量的相應位置取值為1,否則取值為0??紤]到一部電影的受歡迎程度在一天內幾乎不會變化,將預測周期t時長設為一天。

為了衡量所提策略的平均下載時延性能,選擇參考策略、貪婪緩存策略和隨機緩存策略等3種已有的緩存策略進行對比。貪婪緩存策略[18]的特征是在不超過F-AP緩存容量限制的前提下,盡可能多地緩存最流行的內容。隨機緩存策略[13]隨機選擇符合F-AP緩存空間大小限制的內容進行緩存。此外,將文獻[7]中的策略命名為參考策略,該策略考慮了F-AP之間的協作,但忽略了UE的緩存能力。關鍵仿真參數如表1所示。

表1 仿真參數

3.2 仿真結果分析

為了驗證所提策略的性能,將不同緩存策略下的平均下載時延進行對比,具體如圖3所示。

圖3 不同緩存策略下的平均下載時延

圖3首先比較了不同緩存策略下平均下載時延隨F-AP緩存容量增加的變化情況,由圖3(a)可以看出,隨著F-AP緩存容量的增加,所提策略的平均下載時延明顯下降。這一現象可以解釋為當緩存容量增加時,F-AP可以緩存更多的內容,而從F-AP獲取內容的時延要比從云中心獲取的小得多。同時,所提策略的性能明顯優于其他3種緩存策略,這是因為所提策略考慮了UE的緩存能力,這使得鄰近的用戶能夠以很低的時延獲得所請求的內容。其次,所提策略和參考策略的平均下載時延低于貪婪策略,這是因為兩個策略都考慮了F-AP之間的協作,表明協作緩存行為的重要性。最后,隨機緩存的時延性能不穩定,與F-AP的緩存容量并不成正比,這證明了進行流行度預測的重要性。

圖3(b)比較了不同緩存策略下平均下載時延隨內容數量增加的變化情況,可以看出,當更多的內容需要在存儲空間有限的邊緣節點上進行緩存時,將導致內容下載時延增加。此外,所提緩存策略在平均下載時延方面比其他3種策略的性能更好,增加趨勢更低,這進一步驗證了所提策略的優越性。所采用的A3C算法通過與環境的交互學習了最佳的緩存策略,通過將流行內容緩存到合適的設備上,充分利用了有限的存儲空間,從而降低了下載時延。

采用A3C算法學習最佳的緩存策略,將A3C算法與AC算法的時延性能進行對比,具體如圖4所示。

圖4 A3C算法與AC算法時延性能對比

由圖4可以看出,A3C算法的平均下載時延低于AC算法,并且A3C算法的性能比AC算法更穩定。這是由于A3C算法采用了異步機制,即多線程并行探索,這有助于快速發現未知的動作和狀態,從而極大地提高了學習效率。此外,引入了優勢函數作為所選緩存動作的評價函數,使得A3C算法可以更好地根據獎勵對動作進行評估,選擇動作的優勢值越大,則證明該動作越好,進而提高選擇該動作的概率,更好地指導演員執行適當的緩存動作,為流行內容找到最佳的緩存位置。

考慮到UE存儲容量也會對緩存性能造成一定的影響,因此對比了不同UE存儲容量下的平均下載時延,具體如圖5所示。

圖5 不同存儲容量下的平均下載時延

由圖5可以看出,平均下載時延并不總是隨著緩存容量的增加而降低,這是因為當UE的緩存容量變大時,更多的流行內容緩存在了用戶側。由于在緩存過程中采用了冗余緩存避免的策略,即其他UE和F-AP不會重復緩存第u個UE已緩存過的內容,當第u個UE緩存了太多的流行內容時,受限于通信距離,無法與第u個UE建立D2D通信的UE則不得不從較遠的云中心獲取內容。這種現象表明,占用邊緣節點所有的存儲資源進行內容緩存不是最優的,應該根據實際情況進一步優化存儲資源,以實現更高效的內容緩存。

4 結語

對F-RANs中面向時延的協作緩存策略進行研究,所提策略結合了F-AP之間的協作和D2D通信,使鄰近節點能夠共享已經緩存的內容。首先,通過在線學習方法獲得每個F-AP服務的用戶偏好模型,并且基于用戶偏好模型獲取每個F-AP的局部內容流行度分布。然后以最小化平均下載時延為優化目標對協作內容緩存問題進行建模。鑒于這個優化問題是NP-hard問題,進一步引入了A3C算法,通過與未知環境的智能交互學習,構建了最優的內容緩存策略。仿真結果表明,與現有的緩存策略相比,所提緩存策略可以實現更低的平均內容下載時延。

猜你喜歡
線程時延協作
團結協作成功易
基于GCC-nearest時延估計的室內聲源定位
基于改進二次相關算法的TDOA時延估計
協作
淺談linux多線程協作
FRFT在水聲信道時延頻移聯合估計中的應用
基于分段CEEMD降噪的時延估計研究
協作
可與您并肩協作的UR3
基于上下文定界的Fork/Join并行性的并發程序可達性分析*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合