?

基于改進型Stackelberg博弈的異構蜂窩網絡干擾協調算法

2021-11-21 11:46吳詩弈莫國美

南昌航空大學學報（自然科學版） 2021年3期

關鍵詞：發射功率中繼蜂窩

孫晨，吳詩弈，張波，莫國美

（南昌航空大學軟件學院，南昌 330063）

引言

在下一代3GPP蜂窩網絡5G中，通常需要引入小蜂窩，例如設備間直通通信（Device-to-Device，D2D）和中繼，來放大系統容量和/或擴大覆蓋范圍。這些技術已經被寫入了最新版本的3GPP的移動通信系統標準[1]。D2D技術通過允許兩個終端無需基站（Base Station，BS）轉發而直接傳輸數據，來提高頻率利用率并降低用戶設備（User Equipment，UE）的功耗。在D2D通信帶內復用的模式中，D2D鏈路需要與宏蜂窩網絡的UE（Cellular UE，CUE）非正交地共享頻率資源，這將增加可用資源以及增大CUE和D2D用戶之間的干擾（DUE）。中繼技術運行離基站較遠的中繼用戶（Relay UE，RUE）通過復用CUE的頻率資源來接入中繼節點（Relay Node，RN），由中繼節點將信息轉發給基站，同樣增加了可以資源和干擾。

針對中繼異構蜂窩網絡和D2D異構蜂窩網絡的干擾協調已經被廣泛的研究了，主要可以分為啟發式算法，基于凸優化的算法，智能優化算法，強化學習算法和基于博弈論的算法。

Liang等人提出了一種中繼異構蜂窩網絡中的資源復用方法，可以有效降低中繼用戶對宏蜂窩用戶造成的干擾[2]。文獻[3]研究了D2D與宏蜂窩異構網絡中的功率控制問題，通過將傳統蜂窩通信的功率控制研究方案用于D2D通信功率控制。其中，功率控制方案包括固定的目標SNR功率分配、固定的發射功率分配、開環功率控制以及閉環功率控制技術，通過分析對比來評價這幾種方案的性能優劣。文獻[4]通過部分頻率復用，將蜂窩小區劃分為中心區域和邊緣區域，根據D2D用戶的位置為其分配資源，有效地減小了D2D與蜂窩用戶之間的干擾。這些啟發式算法復雜度較低，能夠保證性能的改進，但難以繼續提升逼近最優化。

因此，部分研究者探索了通過凸優化問題建模來解決干擾協調問題。文獻[5]提出了一種中繼異構蜂窩網絡中動態改變資源復用數量的方法，將尋找最大化效用函數時的中繼用戶資源數量問題建模成了凸優化問題，并使用KKT條件進行求解，得出的動態資源復用算法比啟發式的部分頻率復用取得了更好的性能。文獻[6]探討了D2D異構蜂窩網絡場景下的基于部分頻率復用的功率控制問題，在部分功率控制的基礎上提出了動態功率控制。以小區系統吞吐量最大化為目標，建立功率控制的目標函數，將非凸函數轉化為凸函數，并對拉格朗日對偶分解方法進行了改進，降低了算法的復雜度?；谕箖灮母蓴_協調算法通過建立優化目標和求解凸優化得出近似最優解，但理想化的優化目標建模和求解過程中的NP難問題也會使得這些算法需要退而求其次。

部分研究者也嘗試了使用智能優化算法來解決目標優化中的NP難問題。文獻[7]提出了一種基于遺傳算法的聯合資源分配與用戶匹配方案來最小化干擾并最大化頻譜效率，實現了使用有限數量的資源塊為大量用戶提供服務的優點。并且，該方法具有優越的性能和快速收斂的性能。文獻[8]提出了兩種基于PSO（粒子群優化）和混合PSO-GA（遺傳算法）的資源分配方案，通過允許最多兩個D2D對與一個CUE共享同一頻率資源來最大化系統吞吐量。其中，提出的混合PSO-GA可以改善粒子的多樣性，從而避免局部最優。

智能優化算法依然將優化目標建模成理想化的數學模型，而強化學習算法可以通過真實網絡的結果反饋來實現目標優化。文獻[9]提出利用Qlearning來讓小蜂窩基站學習合適的發射功率，以減少小蜂窩基站間的干擾。文獻[10]中提出一種多智能體的Q-learning方法用于D2D多層異構網絡的中D2D用戶進行頻率資源選擇。這兩種方法需要解決的問題是迭代次數過多和陷入局部最優解。

很多研究也從博弈論的角度來解決干擾協調問題。文獻[11]考慮了多小區中繼網絡中的非合作分配博弈，它僅旨在通過資源分配來提高系統吞吐量，而忽略了功率能效的問題。文獻[12]在宏蜂窩通信和中繼通信系統下，提出了基于博弈論的功率控制和資源分配算法。與等功率分配相比，使用較低的傳輸功率，可以達到系統的吞吐量提高的目的。文獻[13]提出了一種改進的基于博弈論的D2D通信功率算法，作者在提高系統吞吐量的同時，在算法中還將代價因素引入效用函數，用戶具有更高的公平性。文獻[14]把下行系統總傳輸速率最大化的資源分配問題建模成拍賣模型，使用了反向迭代組合拍賣機制，所有D2D鏈路的集合作為組合拍賣物，資源作為競拍者。文獻[15]中的資源分配使用了Stackelberg博弈模型，該模型中根據決策行動次序將博弈方區分為領導者和跟隨者，領導者首先決定某個參數，而跟隨者根據這個參數做出決策，通常用于地位不對等的博弈雙方，與D2D鏈路和宏蜂窩鏈路之間的關系較為類似。文獻[15]的作者將已經分配了資源的宏蜂窩鏈路視為領導者，D2D鏈路視為跟隨者，以優化宏蜂窩鏈路和D2D鏈路的傳輸速率為目標進行了鏈路的配對。

在Stackelberg博弈模型中，雙方的成本參數是重要的參量，將會影響兩階段博弈的結果。因此，有一些研究提出了不同的成本參數設置方法。文獻[16]提出人為調整成本參數來保證反應方程等號兩邊是相同的數量級，反應方程的值在合理的范圍內。也有研究提出成本參數由跟隨者的信道狀態來決定[17]，或者由領導者的信道狀態決定[18]。文獻[19]提出了一種迭代更新的成本參數改進策略，根據博弈結果按固定步長更新全局成本參數。文獻[20]則證明了需要為每個信道的每個D2D鏈路設置一個成本參數。在目前的基于Stackelberg博弈的干擾協調算法研究中，成本參數大多是固定的或是自迭代更新的，尚缺乏優化機制的探索，難以保證Stackelberg博弈的有效性。

本文關注在D2D和中繼異構蜂窩網絡中使用Stackelberg博弈模型解決干擾協調問題，做出了以下貢獻：

1）使用Stackelberg博弈模型對于D2D和中繼異構蜂窩網絡中的干擾協調問題進行了建模，提出了D2D和中繼用戶上行發射功率控制算法，提出D2D和中繼用戶與宏蜂窩用戶之間的配對算法，實現了對D2D和中繼用戶的資源分配和功率控制，減少了鏈路之間的干擾問題；

2）提出了一種成本參數訓練和更新的強化學習算法，通過現有成本參數和宏蜂窩用戶信道條件為狀態空間，成本參數更新動作為動作空間，用戶傳輸速率為回報的強化學習訓練框架，尋找出較優的成本參數狀態，并通過epsilon-greedy算法執行成本參數的更新；

3）通過仿真實驗驗證了成本參數改進后，基于Stackelberg博弈的干擾協調算法相較其他算法的性能提高，以及成本參數改進的效果。

1 系統模型

本文考慮研究的系統是由一個基站BS和一個中繼節點RN的單蜂窩小區，其中包含若干宏蜂窩用戶設備CUEs和D2D通信用戶設備DUE。在蜂窩上行通信鏈路中，M個宏蜂窩用戶設備（CUEs）和Q個中繼用戶設備（RUEs）分別與基站BS和中繼節點RN進行通信。N對D2D用戶，其發射端（DTx）和D2D接收端（DRx）之間的鏈路，可以復用蜂窩用戶CUE的上行鏈路資源進行數據通信。帶內RUE-RN鏈路與接入子幀中的某些CUE-BS鏈路使用相同的物理資源塊（PRBs），并且為了避免在RN處的自干擾，RN-BS鏈路和RN-BS鏈路在回程子幀中與CUE-BS鏈路正交地共享PRB。因此，CUE-BS鏈路可能會受到來自RUE和DTx的干擾，同時CUE還可能是DRx上D2D鏈路和RN上RUE-RN鏈路的干擾源。

因此，蜂窩用戶CUE的上行鏈路中某個CUE在某個PRB上接收到的信噪比SINR為：

其中，Pm,k表示第m個蜂窩用戶CUE在使用第k個PRB時的發射功率；Pn,k表示第n對D2D用戶的發射端DTx在使用第k個PRB時的發射功率；Pq,k表示第q個中繼用戶RUE在使用第k個PRB時的發射功率。同樣地，PLm表示第m個蜂窩用戶CUE與基站BS之間的鏈路（即CUE-BS）的路徑損耗，PLn表示第n對D2D用戶的發射端DTx與基站BS之間的鏈路（即DTx-BS）的路徑損耗，PLn表示第q個中繼用戶RUE與基站BS之間的鏈路（即RUE-BS）的路徑損耗。此外，N0,k表示高斯白噪聲，二進制變量αm,k、βq,k和γn,k表示復用系數，0表示不復用資源，1表示復用資源。

D2D進行上行通信時，其某對D2D的接收端DRx在某個PRB上接收到的信噪比SINR可以表示為：

其中，PLm,n表示第m個蜂窩用戶與第n對D2D用戶之間的鏈路的路徑損耗，PLq,n表示第q個中繼用戶與第n對D2D用戶的接收端DRx之間的鏈路的路徑損耗。

同樣地，中繼用戶RUE在回傳鏈路進行上行通信時，某個RUE在某個PRB上接收到的信噪比SINR為：

其中，PLm,q表示第m個蜂窩用戶與第q個中繼用戶之間的鏈路的路徑損耗，PLn,q表示第n對D2D用戶的發射端DTx與第q個中繼用戶之間的鏈路的路徑損耗。

綜上，整個蜂窩通信系統在帶寬為B的PRBk上的總數據傳輸速率可以表示為：

在本文中干擾協調的目的是使每個PRB上所有鏈路可以達到最大化的系統吞吐量，其目標函數可以表示為：受限于：

其中，Pq,min和Pq,max分別表示中繼通信用戶設備RUEq所允許的最小發射功率和最大發射功率；Pn,min和Pn,max分別表示D2D用戶對n的發射端所允許的最小發射功率和最大發射功率。

2 基于Stackelberg博弈的干擾協調算法

為了實現分布式干擾協調決策，本研究通過使用Stackelberg兩步博弈模型來讓D2D用戶對/RUE發射功率控制和其資源分配分別在小蜂窩（D2D/RUE）和宏蜂窩基站BS進行決策。小蜂窩（D2D/RUE）上進行的博弈是跟隨者博弈，宏蜂窩基站處進行的博弈是領導者博弈。異構蜂窩網絡中，宏蜂窩處于核心地位，小蜂窩被認為是補充和輔助，系統性能以保證小蜂窩基本性能的前提下，使宏蜂窩性能盡可能少地受到干擾的影響。因此，使用Stackelberg兩步博弈模型來對干擾協調建模是符合實際應用需求的。

2.1 領導者效用函數

在領導者博弈中，效用函數可由在PRBk中，CUEm、D2D用戶對n以及RUEq組成，其可以表示為：

其中，λm是每個CUEm提供給任何其他復用鏈路的成本參數。此外，復用系數γn,k和βq,k∈{0,1}，且它們無法同時為1，即D2D對和RUE不能復用同一個CUE的鏈路資源。

2.2 跟隨者效用函數

在跟隨者博弈中，D2D對n和RUEq在PRBk中的支付效用函數可以分別表示為：

在本研究所提出的模型中，既不考慮D2D與RUE之間的資源復用，也不考慮不同D2D對之間的資源復用。

2.3 小蜂窩決策的功率控制算法

在小蜂窩（D2D和RUE）處，發射功率由追隨者效用函數求偏導計算得出。以求解D2D的發射功率為例，用式（11）求對Pn,k的偏導函數，并令其為0，可以得到針對不同λm的D2D最佳發射功率。

同樣地，也可以通過式（12）求對Pq,k的偏導函數，并令其為0，可以得到RUE的最佳發射功率：

2.4 宏蜂窩決策的資源分配算法

為了實現式（18）中的優化目標，本研究采用了匈牙利算法來實現。具體實現步驟如下：

第一步：遍歷Um,n,q,k矩陣中所有的列，在這N+Q個列中分別尋找Um,n,q,k最大值，及其對應的所有行m；

第二步：判斷所有的m是否為不一樣的數。如果是跳至第四步；

第三步：找出所有不重復的行m，及其對應的列n或q，將其剔除出Um,n,q,k矩陣，（注：由于N +Q應小于M，因此矩陣必不為空），重復第一步；

第四步：輸出所有(m,n)和(m,q)的對應關系，以Round-Robin算法將所有的資源k公平地分配為(m,n)和(m,q)，以及未復用的CUE。

3 基于強化學習的成本參數改進算法

由于在上文所提出的博弈模型中，成本參數λm是關鍵因素，它決定了D2D對的發射端DTx和中繼用戶RUE的發射功率，也影響了D2D/RUE和CUE之間的資源復用。但是，為CUEm設置一個好的λm是困難的，它應該讓D2D/RUE的發射功率位于適當的范圍內，以實現功率控制。因此，本章提出了一種基于蒙特卡洛的離線強化學習算法，通過動態調整成本參數，實現通信系統性能的進一步優化。

3.1 強化學習模型

強化學習常用于智能體在與環境交互過程中通過學習在特定狀態下執行何種動作以達到累計回報最大的目標。不同于監督學習和非監督學習，強化學習不需要預先給定數據集，而是需要定義智能體和狀態-動作-獎勵三元組變量。

每個CUEm在每個時隙t中執行學習過程以更新三元組變量，該變量是狀態s，動作a和獎勵r。成本參數的強化學習模型的各個組成變量定義如下：

狀態：定義為K個PRB上的CUE-BS鏈路的路徑損耗s；

動作：定義一組價格因素λm為動作a，在本研究中取值空間設定為a(t)∈(2×1013,5×1019)；

獎勵r(t)即回報函數：回報函數反應了學習的目標，定義為表示D2D / RUE復用CUE的鏈路資源與D2D / RUE沒有復用CUE的鏈路資源時，它們之間取對數吞吐量的差值，即：

3.2 更新和訓練算法

上文已經定義了狀態，動作和獎勵（即回報函數）。狀態和動作將組成Q表，根據訓練算法在獎勵的作用下進行更新。具體實現過程由兩個步驟組成：

第一個過程是Q值進行更新的過程。由宏蜂窩基站構建Q表，表中的每一個Q值Q(s,a)反映的是狀態s下采取動作a的累計獎勵。Q(s,a)的更新算法如下：

其中，α為學習率，表征Q值的更新速度，在本研究中設定為0.01。γ為折扣率，表示最終獎勵對中間狀態的影響，在本研究中需要設定為0。

第二個過程是根據Q表選擇動作，并執行動作，從而產生獎勵的訓練過程。和第一個過程首尾相連，形成“動作執行-產生獎勵-更新Q表-更新動作選擇”的循環。根據Q表進行動作選擇的算法有很多，本研究選擇了ε?greedy算法。在ε?greedy算法中，一般稱到目前為止發現是最好的或者其對應Q值最高的動作作為貪婪動作。其中，在動作選擇的貪婪策略中，以 ε的概率選擇其他動作，以(1?ε)的概率選擇貪婪動作。ε的值決定了探索和決策之間的平衡。在本研究中，在學習的初始階段選擇 ε的值接近1，這樣做的目的是避免發生死循環，同時還可以讓其有機會跳出局部最優。ε的值會隨著學習的不斷進行逐步減小，當它達到學習的最后階段，貪婪動作就會成為最佳動作，從而達到Q?table收斂的程度。

4 仿真實驗

本研究進行了單扇區的系統級仿真，擬比較所提出的算法和基準方法的系統性能優劣。在仿真實驗中，在一個扇區內隨機分布了不同通信方式的用戶設備，其中包含30個CUE/RUE和若干D2D對用戶設備。具體參數設置如下表1所示。

表1 系統仿真參數

本文考慮了兩種基準算法作為比較算法。第1種，在基于Round-Robin的資源分配算法中，RUE和D2D對隨機復用CUE的鏈路資源，而不考慮它們的信道信息和功率的優先級，這里稱為“RR”算法；第2種，在不進行功率控制的貪婪優化算法中，每個PRB上的CUE和RUE/D2D對的吞吐量之和進行優化，而不考慮減少它們之間的干擾，標記為“GO”算法。此外，在GO方案中，D2D用戶的發射端DTx和RUE的最大發射功率被設置為不同的發射節點。

本章提出的基于改進型Stackelberg博弈的干擾協調算法，將與上述兩個基準算法進行一些性能指標的比較，例如：平均吞吐量，5%最低吞吐量以及通用比例公平（Generalized Proportional Fairness，GPF）等。

其中，GPF的定義如下：

如圖1所示，反映了使用不同資源分配和功率控制算法的CUE吞吐量的累積分布函數（CDF）。與RR算法和GO算法相比，本研究所提算法對吞吐量低于800 Kbps左右的CUE具有更大的性能。這意味著，所提出的算法可以緩解部分CUE受到使用相同資源的D2D對的干擾，從而改善其信道狀況。

圖1 CUE的吞吐量CDF

隨著D2D對數量的增加，圖2給出了CUE的平均GPF。從圖中可以反映，隨著D2D對數的增加，導致其對CUE的干擾不斷增加，因而增加D2D對將降低CUE的平均GPF。從圖中可以看出，就兩個對比算法而言，使用GO算法的CUE的平均GPF在D2D對數較少的情況下具有較大的值，而在D2D對數較多的情況下，RR算法則優于GO算法；但是，從圖中可以明顯看出，本研究所提出的算法的CUE的平均GPF一直優于其他兩種算法。

圖2 不同D2D對數下的CUE的GPF

如圖3所示，反映了各個算法在不同D2D對數下的5%最低吞吐量的變化情況。從圖中可以看出，當D2D對的數目從3個增加到6個時，CUE的5%最低吞吐量在使用GO算法的情況下，從500 Kbps顯著下降到80 Kbps；使用RR算法時，其吞吐量從460 Kbps下降到180 Kbps；而使用本研究所提的算法，雖然吞吐量從640 Kbps下降到了240 Kbps，但是相比于GO算法也有一定的優越性。

圖3 不同D2D對數下的CUE的5%最低吞吐量

從圖4中可以看出，當中繼節點RN遠離基站BS時，使用不同算法的CUE的GPF都會隨之增加，這是因為邊緣信號質量不好的用戶隨著中繼節點的靠近，使得其信號質量得到了較大的改善。與此同時，如圖5所示，基站和中繼節點之間距離變化下的CUE的5%最低吞吐量在各個算法下的情況相差較大。從圖中可以清楚的看出，與RR和GO算法相比，本研究所提出的算法下CUE的GPF和5%最低吞吐量具有顯著優勢。

圖4 基站和中繼節點之間距離變化下的CUE的GPF

圖5 基站和中繼節點之間距離變化下的CUE的5%最低吞吐量

5 結論

本研究改進了基于Stackelberg博弈的干擾協調算法使其應用于D2D和中繼多種小蜂窩與宏蜂窩共存的異構蜂窩網絡。在這個基礎上，提出了一種Stackelberg博弈中成本參數的改進方法，利用了強化學習算法，獲得了較好的博弈效果。從仿真實驗的結果可以看出，基于Stackelberg博弈的干擾協同算法相比對比算法，可以有效地降低對CUE的干擾，提高異構蜂窩網絡性能，而成本參數的訓練和更新方法可以進一步擴大這種優點。因此，本研究所提出的算法在提高異構蜂窩網絡性能方面具有明顯的有效性。下一步的研究中將考慮不同的學習率和不同的ε-greedy算法對于收斂性的影響。

猜你喜歡

發射功率中繼蜂窩

熱塑性蜂窩板的平壓性能分析

包裝學報(2022年2期)2022-05-13

現代裝飾(2021年1期)2021-03-29

“鵲橋號”成功發射

學苑創造·C版(2018年7期)2018-08-08

Link—16中繼時隙自適應調整分配技術研究

科學與技術(2018年23期)2018-06-17

退化型高斯中繼廣播信道的信道容量研究

上海師范大學學報·自然科學版(2018年2期)2018-05-14

“蜂窩”住進輪胎里

知識就是力量(2018年3期)2018-03-08

放大轉發中繼器降低發射功率的選擇策略研究

無線互聯科技(2017年24期)2018-01-22

淺談AC在WLAN系統中的應用

中國管理信息化(2017年18期)2018-01-04

基于功率分配最優中繼選擇的研究

物聯網技術(2017年2期)2017-03-15

河南油田CDMA無線網絡優化簡述

科學時代·上半月(2013年2期)2013-04-15

南昌航空大學學報（自然科學版）2021年3期

南昌航空大學學報（自然科學版）的其它文章: 主動電磁軸承飛輪轉子系統自適應偏置控制; 分層加密網格的懸鏈面膜結構數值找形優化; 一種求解多介質流問題的正保護數值方法; 具有控制結構的集值強向量均衡問題解集的本質連通區; 基于數據挖掘下機器學習算法對學生成績影響因素的研究; 基于Monte Carlo方法計算積分的研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合