?

規則耦合下的多異構子網絡MADDPG博弈對抗算法

2024-04-09 01:42張鈺欣趙恩嬌趙玉新
智能系統學報 2024年1期
關鍵詞:勢函數耦合經驗

張鈺欣,趙恩嬌,趙玉新

(哈爾濱工程大學 智能科學與工程學院, 黑龍江 哈爾濱 150001)

隨著現代戰爭的復雜性日益提升,智能化空戰對無人機自主決策的需求日漸迫切。在多無人機博弈對抗過程中,無人機的自主決策方法已成為空戰對抗問題中的重要研究課題。多無人機博弈對抗是指在博弈區域內的兩方無人機以一對多或多對多的形式針對敵方無人機進行打擊、協同圍捕或逃逸敵方無人機的圍捕。參與博弈對抗的無人機通常需要根據觀測信息進行決策,使無人機群在盡可能保證組內個體存活的同時完成對敵方無人機的協同圍捕或擊毀[1]?;诙嘀悄荏w深度強化學習(multi-agent deep reinforcement learning, MADRL)的智能算法在上述多無人機博弈對抗過程中的應用能夠對決策機制起到有效的輔助作用,使無人機在動態環境中的機動能力大幅提升,并為智能空戰中的策略應用提供參考。因此,開展基于MADRL的多無人機博弈對抗算法的研究具有重要的工程意義。本文選取多個具有相同打擊能力、防御能力、探測能力及機動性能的無人機組成參與博弈的雙方并在有限區域內進行對抗。通過對上述博弈問題的研究,設計基于MADRL的多無人機博弈對抗算法以提升無人機的對抗性能。

目前,學者們針對基于MADRL的多無人機博弈對抗問題提出了多種研究方法并取得了大量的研究成果,依據其核心內容的不同,主要分為觀測信息預處理、網絡結構設計、目標函數設置、獎勵機制細化、經驗采樣和先驗知識開發利用6個方向。

在觀測信息預處理方面,由于博弈環境的高度復雜性,環境信息通常是不可完全觀測的,若直接將所有無人機的觀測信息作為共享信息全部輸入網絡則會為網絡輸入端引入大量冗余信息。針對觀測信息冗余問題,研究者通常會基于觀測信息序列為網絡設計注意力機制以提取特征信息;針對觀測信息缺失問題,研究者通常會為網絡設計信息共享機制以生成局部觀測信息從而彌補缺失信息[2-5]。

在網絡結構設計方面,經典的Actor-Critic網絡框架雖然能夠解決多種復雜問題,但在某些特殊情況下仍然無法做出合理的決策。在傳統的網絡結構基礎上引入額外的輔助網絡或豐富傳統網絡的層次結構可以對網絡輸出進行有效的約束,在提高網絡魯棒性的同時強化網絡性能[6-7]。

在目標函數設置方面,目標函數是網絡參數更新的基礎,由于網絡參數以目標函數梯度進行更新迭代從而逼近最優解,合理的目標函數設置方法不僅能夠提升網絡學習的收斂速度,還能在一定程度上避免過擬合問題[8-9],如將交叉熵項引入目標函數可以在提高網絡泛化能力的同時強化網絡在干擾環境中的自我調整能力。

在獎勵機制細化方面,稀疏獎勵問題是網絡學習過程中需要解決的重點問題之一,存儲經驗的獎勵值分布稀疏通常會導致網絡學習效率低下,由于參數更新迭代缺乏合理的引導,網絡參數始終無法逼近最優解。為博弈問題設計細化的獎勵機制能夠有效避免稀疏獎勵問題,對網絡參數的更新以及決策也起到了一定的指導作用[10-11]。

在經驗采樣方面,傳統的經驗抽取通常以均勻采樣的方式抽取一個批次的樣本,由于優勢經驗數量較少,對經驗進行等概率隨機采樣通常會導致網絡學習效率低下,網絡難以學習優秀的成功經驗。針對上述問題,研究者通常會對經驗生成、存儲和采樣機制進行優化設計以提升對優勢經驗的利用效率[12-13]。

在先驗知識開發利用方面,完全依靠自主探索積累經驗的學習方式雖然能夠達到預期的學習目標,但完全摒棄了對先驗知識的利用。專家經驗對網絡學習能夠起到良好的指導作用從而提升網絡學習效率[14-15]。部分學者在網絡學習過程中引入專家經驗對其進行指導,如建立專家經驗庫以輔助決策或生成成功的偽經驗以輔助訓練。實驗表明,上述方法在網絡訓練和決策階段均能夠起到良好的輔助作用。

隨著MADRL算法的發展,學者們開始將其應用于多無人機博弈對抗問題的研究中。傳統的多無人機博弈對抗方法以基于統計決策和知識推理進行決策或基于最優決策方法在解空間內進行迭代尋優為核心思想,上述傳統方法雖然使無人機具有一定的決策能力,但其靈活性、適應性和魯棒性等性能仍有待提升,在具有連續狀態、動作空間的復雜環境中難以取得優秀的表現?;贛ADRL的決策方法賦予無人機自我學習和擴展的能力,為智能無人機博弈對抗決策研究的發展帶來新契機?;旌螿值(QMIX)算法是一種基于價值學習的早期MADRL算法,可以以集中的端到端方式訓練分散策略,算法基于局部觀測將聯合動作值估計為每個無人機Q值的復雜非線性組合。多智能體深度Q學習網絡(multi-agent deep Q-learning network, MADQN)將深度Q網絡(deep Q-learning network, DQN)算法擴展至多智能體領域,為每個無人機分配了一套獨立的DQN,無人機個體以獲取最優Q函數為學習目標。雖然QMIX算法和MADQN算法在對多無人機博弈對抗的研究中已經取得了一定的成果,但是從任一單無人機的角度來看,由于其他個體策略的未知性導致環境不穩定,狀態轉換受到影響,從而違反了馬爾科夫決策標準,同時該問題還會導致經驗回放在逼近狀態對概率進行轉換時變的不準確。MADDPG算法以“集中評價-分布執行”為框架以適應多無人機博弈對抗過程的復雜環境,算法在“捕食者-獵物”(predator-prey)問題的研究中取得了初步的成果,但上述問題中無人機群主要以協同圍捕作為主要目標而非對抗[16]。針對無人機群博弈對抗過程的特點,通信多智能體深度確定性策略梯度(communication multi-agent deep deterministic policy gradient, COM-MADDPG)算法對經典的MADDPG算法進行改進,使無人機群能夠完成協同圍捕和打擊任務,但無人機仍以粒子的形式參與博弈對抗任務,并未對無人機進行具體的建模[17]。在博弈對抗過程中無人機所處環境通常具有高度復雜性而其自身也受到一定的約束,同步目標分配路徑規劃(simultaneous target assignment and path planning, STAPP)算法對參與博弈的無人機進行簡單建模并構建了具有威脅區的復雜博弈環境以解決多無人機目標分配和路徑規劃問題(multi-UAV target assignment and path planning, MUTAPP),但任務的高度復雜性使無效經驗的比例大幅度提升,降低了網絡模型的學習效率[18];獎勵生成多智能體深度確定性策略梯度(reward shaping multi-agent deep deterministic policy gradient, RS-MADDPG)算法對無人機進行完整建模并提出了相應的約束條件以增加任務復雜性和真實性,同時算法對獎勵機制進行優化設計以指導網絡參數的更新方向,但所設計的獎勵機制更加適用于近距離打擊任務而非完整的博弈任務[19]。雖然大部分基于MADRL的智能算法在多無人機博弈對抗過程中已經取得了良好的表現,但無人機完全依賴自身對環境的探索以積累經驗的學習方式通常不具有較高的學習效率,與在環境中進行試錯學習的純基于算法的學習方式相比,以合理的規則輔助決策可以減少無效的探索操作,并提升決策能力?;谝巹t的MADDPG算法將先驗知識與MADDPG算法結合,在保留博弈環境復雜性和無人機自身約束的同時,為算法制定規則集以指導無人機在特殊情況下進行決策,雖然規則集在決策階段起到了有效的指導作用,但決策網絡的性能并未得到顯著提升且并未考慮到無人機數量衰減這一實際問題[20]。

綜上所述,現有研究成果均利用MADRL算法對各自提出的問題進行研究并改進了原始的MADDPG算法。然而環境的非平穩性、狀態空間和動作空間的連續性會導致訓練效率低下且學習階段過于漫長;對有效經驗的利用率不高會導致學習的策略與最優策略相差甚遠。部分算法雖然對上述問題進行了研究和改進,但涉及到真實博弈場景中多無人機博弈對抗問題的研究實則較少,無人機的有限打擊能力和有限防御能力等特性極大地提高了博弈問題的復雜性且參與博弈的無人機數量的動態衰減問題為網絡決策增添了冗余信息。因此,將基于MADRL的博弈對抗算法應用于多無人機空戰問題時,算法的網絡結構、有效經驗利用以及獎勵函數設計等方面仍存在許多值得探索和研究的內容,如何在經典MADDPG算法的基礎上進行研究并針對特定博弈場景進行改進以提升算法的學習效率、收斂速度和穩定性是本文研究的核心目標。

本文主要針對有限區域內的多無人機博弈對抗問題,在考慮無人機有限打擊能力和有限防御能力等約束條件的同時,利用MADRL算法對無人機攻擊、逃逸的機動決策方案進行研究。根據MADDPG算法“狀態評估-自主決策-環境反饋-網絡訓練”的自舉博弈及訓練方法在多無人機博弈對抗問題的應用中存在的無人機數量衰減問題、先驗知識利用問題、稀疏獎勵問題和有效經驗抽取問題,對原始算法的網絡結構、獎勵機制、決策機制及經驗采樣方法進行改進并提出了基于規則耦合的多異構子網絡MADDPG算法;為了提升算法的收斂速度和穩定性,提出了各子網絡在遷移場景中獨立訓練、在目標場景中聯合訓練的場景遷移訓練方法。

1 無人機群博弈對抗問題描述與建模

1.1 多無人機博弈對抗問題

本文基于2-vs-2多無人機博弈對抗問題對實驗環境進行構建,如圖1所示。

圖1 無人機群對抗場景Fig.1 UAVs game confrontation scenario

在300 m × 300 m的有限博弈區域內,紅、藍兩方各有2架作戰無人機參與博弈。與某一無人機距離最近的敵方無人機稱為目標無人機,無人機可以通過機載雷達、電子陀螺儀等裝置對環境進行觀測以獲取自身的絕對位置信息以及與目標無人機間的相對位置信息。無人機通過機載通信裝置實現主體與友方的觀測信息共享,使無人機群具有一定的協同能力,但受限于通信能力,無人機群只能在博弈區域內進行信息共享。若無人機被擊毀或離開博弈區域則無法參與后續的對抗任務且由于通信范圍受限,被擊毀或離開博弈區域的無人機將停止與己方無人機的信息共享。參與博弈的無人機需要在博弈區域內根據融合后的共享觀測信息對目標無人機進行攻擊或逃離目標無人機的攻擊區域。綜上所述,本文的研究內容與真實的空戰場景更加接近。

每個無人機的單體狀態so為

式中:(x,y)為無人機在區域內的位置坐標,m;(vx,vy)為無人機沿x軸正方向和y軸正方向的分速度,m/s;d為目標無人機與當前無人機的相對距離,m;ψ為當前無人機的天線列角(antenna train angle, ATA),rad;δ為目標無人機相對當前無人機的方位角(aspect angle, AA),rad。

無人機i的狀態序列中,目標無人機j相對于無人機i的距離d(i,j)、無人機i針對目標無人機j的天線列角ψ(i,j)和目標無人機j的方位角δ(i,j)為

式中:wixj、wiyj分別為無人機i與目標無人機j在x方向和y方向上的相對距離,vix、viy分別為無人機i在x方向和y方向上的分速度,vxj、vyj分別為目標無人機j在x方向和y方向上的分速度,vi、vj分別為無人機i和目標無人機j的絕對速度,其關系為

對于作戰無人機來說,其搭載的自行火炮打擊能力通常會受到武器射程的限制,機載武器的搭載方式和機械結構對火炮轉角也起到約束作用,而無人機的防御能力通常會受到自身機動能性能的約束[21]。無人機的攻防約束條件如圖2所示。

圖2 無人機攻防約束條件Fig.2 UAV attack and defense constrains

在本文中,每個無人機的最大攻擊距離為datt,m;在以datt為半徑的圓形區域內,無人機的攻擊范圍被限制在一個扇形區域內,該區域位于無人機前端,其左右邊界與無人機主軸的夾角為±θatt/2,rad;而無人機的受威脅范圍同樣也被限制在一個扇形區域內,該區域位于無人機的尾端,其左右邊界與無人機主軸的夾角為±θdef/2,rad;當敵方無人機的方位角δ大于|θdef/2|時,無人機可以有效躲避敵方無人機的攻擊以避免被擊毀。

當某一無人機探測到目標無人機時,只有其狀態序列滿足以下3個條件時才能判定為成功將目標無人機擊毀:

1) 攻擊者i與目標j之間的距離小于攻擊距離datt;

2) 目標j位于攻擊者i的攻擊區域內;

3) 攻擊者i位于目標j的受威脅區內。

上述擊毀條件可描述為

1.2 無人機數學模型

每個無人機個體的動作序列ao為

式中:ax為無人機沿x軸正方向加速度,m/s2;ay為無人機沿y軸正方向加速度,m/s2。無人機的動作序列直接決定了其狀態空間中的(x,y,vx,vy)元組,其關系為

在執行過程中,各無人機僅能以己方共享的狀態信息和動作信息作為決策依據并生成動作序列ao。每一組編隊中的無人機均通過控制機體沿各方向的加速度以實現對博弈區域這一未知環境的邊界探索;在未跨越博弈區域邊界的情況下,對各自鎖定的目標無人機進行追捕、打擊;在編隊中的無人機鎖定了相同的目標無人機時,對目標無人機進行協同圍捕。

2 基于MADRL的多無人機博弈模型

2.1 馬爾可夫博弈

在MADRL領域中,各個智能體通過與環境的交互來改進自身的策略模型,而智能體本身僅能獲取自身的信息或團隊的信息,敵方的策略對其來說則是未知的,這也導致了每個智能體所處的環境對其本身來說是極度復雜多變的。

多智能體博弈對抗的過程被稱為馬爾可夫博弈(Markov game)或隨機博弈(stochastic game)。N個智能體的博弈通常以元組(N,S,A,O,R,P,γ)表示。其中S為全局環境狀態序列空間,s∈S;動作序列空間集合A為

式中:Ai為智能體i的動作序列空間,ai∈Ai;智能體觀測狀態序列空間集合O為

式中:Oi為智能體i的觀測序列空間,oi∈Oi;智能體的獎勵集合R為

式中:Ri:S×A→R為智能體i的獎勵函數,所有智能體在全局環境狀態s下執行聯合動作a后智能體i獲得的獎勵值ri為

獎勵值的大小不僅取決于自身的動作序列,還受到其他智能體的動作序列影響;P為智能體在環境中的狀態轉移概率函數,即P:S×A×S→[0,1]表示所有智能體在全局環境狀態s下執行聯合動作a后全局環境狀態轉移到s′的概率分布;γ∈[0,1]為累積獎勵值的衰減因子。多智能體與環境交互的過程如圖3所示。

圖3 智能體與環境交互過程Fig.3 Interaction between agent and environment

在馬爾可夫博弈中,智能體i的確定性策略對應的概率密度函數為

式中:μ為智能體i的策略網絡,θi為策略網絡參數。由于網絡輸出確定性策略,故執行策略網絡輸出的動作序列的概率為1。智能體i的累積折扣獎勵為

式中:rit為智能體在時刻t獲得的即時獎勵。智能體i的累積期望獎勵為

2.2 MADDPG算法

MADDPG算法是一種適用于多智能體博弈對抗問題的經典算法[22],算法框架如圖4所示。

圖4 MADDPG算法框架Fig.4 MADDPG algorithm framework

算法采用的“集中式訓練-分布式執行”方式使智能體能夠在訓練時通過Critic網絡對全局狀態進行評價以適應不穩定的環境,而在決策時通過Actor網絡依據本地信息生成動作序列。

對于參與博弈的N個智能體,每一個智能體的決策核心由2個網絡組成,即Critic評價網絡和Actor策略網絡。智能體i的Online Critic網絡參數為θi,Online Actor網絡參數為wi,為了使訓練具有良好的穩定性,算法額外引入了Target Critic網絡和Target Actor網絡,其網絡參數為和wi′。智能體的Critic網絡將全局信息sgl和agl作為輸入,表示為

式中:so、ao為當前進行網絡參數更新的智能體(待更新智能體)的狀態序列和動作序列,stm、atm為待更新智能體的全部友方智能體的聯合狀態序列和聯合動作序列,sen、aen為待更新智能體的全部敵方智能體的聯合狀態序列和聯合動作序列。智能體的Actor網絡則將局部信息slo作為輸入,表示為

網絡的輸入和輸出關系為

原始MADDPG算法的Actor-Critic網絡結構如圖5所示。

圖5 Critic網絡和Actor網絡Fig.5 Critic network and actor network

分析網絡輸入、輸出可知,Critic網絡利用全局觀測信息對當前智能體的狀態-動作價值評價,即“集中評價”,Actor網絡僅利用本地觀測信息進行決策,即“分布執行”,該框架適用于多無人機博弈對抗問題。

網絡參數的訓練采用經驗回放機制,即為網絡設置經驗池D 以存儲經驗(oj,aj,rj,o′j),每一步博弈結束后,智能體會從經驗池D中抽取一定數量的經驗分別訓練Critic網絡和Actor網絡。

對于智能體i的Online Critic網絡,其梯度更新為

對于智能體i的Online Actor網絡,其梯度更新為

所有智能體的Target網絡則不依據梯度進行更新,而是采用軟更新的方式進行參數迭代。因此Online Critic網絡和Target Critic網絡參數的更新為

Online Actor網絡和Target Actor網絡參數的更新公式為

式中:βCritic為Online Critic網絡學習率,αActor為Online Actor網絡學習率,τ∈[0,1]為軟更新系數。

3 基于規則耦合方法的多異構子網絡改進MADDPG算法

3.1 狀態評估-基于博弈無人機數量衰減問題構造異構子網絡

傳統的MADDPG算法中,無人機的Actor網絡輸入己方所有無人機的聯合狀態,即局部狀態slo,Critic網絡輸入雙方無人機的聯合狀態,即全局狀態sgl。在多無人機博弈對抗問題中,若某一個無人機被擊毀,而其友方無人機仍然存活,則該無人機在后續博弈中的狀態難以定義且由于團隊獎勵函數的設計,被擊毀的無人機會因為友方的良好表現而獲得額外的獎勵。上述情況會導致“Lazy無人機”出現,造成學習效率低下,因為無人機在擊毀狀態下是沒有必要進行狀態-動作價值評估的,而且在該狀態下無人機的任何決策都是無效的。在基于MADRL的多無人機博弈對抗問題中,若無人機數量衰減,保留學習效果較好的無人機使其繼續參與博弈同時舍棄學習效果較差的無人機并重新定義其信息序列一直是一項挑戰[23]。

本文基于2-vs-2的小規模多無人機博弈對抗問題,為3種可能出現的博弈場景設置了4個不同結構的子網絡,即2-vs-2子網絡、2-vs-1子網絡、1-vs-2子網絡和1-vs-1子網絡,在每個博弈場景下只需要為對應的子網絡輸入存活無人機的狀態序列和動作序列并將任意一架無人機被擊毀時對應的狀態作為博弈的終止狀態即可。若某一個博弈場景結束訓練則直接切換至下一個博弈場景以繼續訓練對應的子網絡,上述方法不僅可以提升網絡的學習效率,還能夠使所有無人機的狀態在下一個場景中得到繼承以積累更多的有價值經驗。在博弈對抗中,所有無人機的任務目標相同,因此兩方無人機群的網絡參數可以實現共享。公共網絡參數的共享使參與博弈的無人機具備相同的觀測信息轉化能力,可將其視為一種公共知識[24]。公共知識能夠使系統更快地從環境狀態的突發性改變中恢復過來,網絡參數更新所需的計算量也會更小。各場景對應的子網絡結構如圖6~9所示。

圖6 2-vs-2 Critic網絡和Actor網絡Fig.6 2-vs-2 Critic network and actor network

圖7 2-vs-1 Critic網絡和Actor網絡Fig.7 2-vs-1 Critic network and actor network

圖8 1-vs-2 Critic網絡和Actor網絡Fig.8 1-vs-2 Critic network and actor network

圖9 1-vs-1 Critic網絡和Actor網絡Fig.9 1-vs-1 Critic network and actor network

每個無人機單體在訓練時只需要對全局觀測序列進行初等變換以組成專屬的全局觀測序列和局部觀測序列并將信息序列輸入網絡即可。無人機的Critic網絡需要根據全局觀測序列對其狀態-動作價值進行評估,故輸入網絡的全局狀態序列和聯合動作序列[sglagl]為

無人機的Actor網絡需要根據局部觀測序列計算動作序列,故輸入網絡的局部狀態序列slo為

如果Actor網絡直接輸出執行動作序列[axay],通常會產生嚴重的過擬合問題,導致策略模型的穩定性較差[25]。本文中,Actor網絡輸出的動作序列由5個基本動作對應的動作價值組成:

式中:ql為無人機沿x軸負方向的加速度價值,qr為無人機沿x軸正方向的加速度價值,qu為無人機沿y軸正方向的加速度價值,qd為無人機沿y軸負方向的加速度價值,qs將無人機的加速度限制在一定范圍內。對Actor網絡輸出的價值序列ao進行Softmax處理后得到基本動作序列ab為

式中:Setb為基本動作(無人機加速度方向)集合{left,right,up,down,stay},該集合可縮寫為{l,r,u,d,s};qi、qj分別為Actor網絡輸出的動作價值序列中與基本動作i、j相對應的輸出值;ai為無人機沿方向i的加速度。無人機的5個基本動作和執行動作的關系為

3.2 環境反饋-基于勢函數的獎勵機制優化設計方法

強化學習問題中,獎勵函數是一種環境反饋信息,實現了環境與算法之間的溝通以及對學習目標的數學化描述,因此獎勵機制設計的合理性對于策略的學習至關重要[26]。本文中,參與博弈的無人機具有相同的任務目標,故所有無人機獎勵機制相同。無人機的團隊獎勵機制以離散獎勵函數對成功打擊目標、離開博弈區域等基本任務節點對無人機的獎勵函數進行設置,其目的是引導無人機團隊學習簡單的競爭、合作策略。無人機基本任務節點的團隊離散獎勵函數rb設置為

如果在博弈對抗過程中,無人機只有在完成基本任務時才能獲得獎勵,則會導致訓練過程缺乏環境反饋引導[27]。由于在一次博弈中,無人機需要在開始階段對區域進行探索,而探索環境的無人機很難完成基本任務,故幾乎不會獲得獎勵,即稀疏獎勵問題。獎勵函數設計不合理導致的稀疏獎勵問題可能會延長算法的收斂時間或增大學習策略與最優策略的偏差,甚至會導致學習策略永遠無法達到預期目標[28-29]。

本文中,為避免稀疏獎勵問題且使無人機能夠學習如何接近目標無人機的受威脅區域,對基于勢函數的個體連續獎勵機制進行設計。該機制為無人機的每一步動作計算獎勵值,在原有的基本任務節點獎勵函數的基礎上,額外增加了基于勢函數構造的獎勵函數Rpo。綜合獎勵勢函數?(s)由常規獎勵勢函數?no(s)和特殊獎勵勢函數?sp(s)組成。常規獎勵勢函數?no(s)由3項基于狀態的子獎勵勢函數組成,即角度獎勵勢函數?0(s)、距離獎勵勢函數?dis(s)和速度獎勵勢函數?vel(s),其作用為引導當前無人機對目標無人機進行打擊;特殊獎勵勢函數?sp(s)由2項基于狀態的子獎勵勢函數組成,即邊界安全獎勵勢函數?bou(s)和逃避追擊獎勵勢函數?esp(s),二者僅在無人機狀態滿足特定條件時有效且由于該狀態下的無人機以保證個體存活為優先任務,常規獎勵勢函數在該狀態下無效。

角度獎勵勢函數?0(s)根據當前無人機的速度矢量與目標線的夾角ψo(s)(rad)和目標無人機的速度矢量與目標線的夾角δt(s)(rad)進行設置為

距離獎勵勢函數?dis(s)在?0(s)基礎上額外考慮到了無人機間的距離為

式中:De為最適合無人機攻擊的距離且滿足0<De<datt,m;D(s)為當前無人機與目標無人機間的距離,m;kdis∈[0,1]為相對距離系數。

速度獎勵勢函數?vel(s)則在?0(s)基礎上額外考慮到了無人機間的速度差值:

式中:vo為當前無人機速度,m/s;vt為目標無人機速度,m/s;kvel∈[0,1]為相對速度系數。

邊界安全獎勵勢函數?bou(s)在當前無人機距戰場邊界距離小于安全距離dbou(m)時有效:

式中:Dbou(s)為無人機距邊界的最小距離,m;kbou∈[0,1]為邊界距離系數。

逃避追擊獎勵勢函數?esp(s)在當前無人機與敵方無人機距離小于危險距離ddan(m)且敵方無人機的速度矢量與目標線夾角ψen(s)(rad)和當前無人機的速度矢量與敵方無人機目標線夾角δo(s)(rad)滿足攻擊條件時有效:

稱滿足式(32)條件的敵方無人機為威脅無人機,則式(32)中Desp(s)為當前無人機與威脅無人機的距離,m;kesp∈[0,1]為威脅距離系數。

綜合獎勵勢函數?(s)由上述各項子獎勵勢函數組成,無人機的獎勵機制根據每個無人機的當前狀態序列s選擇對應的子獎勵勢函數并生成獎勵值。最終得到的綜合獎勵勢函數(個體連續獎勵函數)?(s)為

由式(27)~(32)可知,組成綜合獎勵勢函數的子獎勵勢函數的取值均被限制在一定范圍內且具有一定差異。各項子獎勵勢函數取值范圍如表1所示。

表1 子獎勵勢函數取值范圍Table 1 Value range of sub incentive potential function

由表1中數據可知,組合后的常規獎勵勢函數?no(s)∈[-3,3],而組合后的特殊獎勵勢函數?sp(s)∈[-1,1]。綜上所述,若要將綜合獎勵勢函數與基本任務節點的獎勵函數rb相結合且盡可能避免網絡學習過程中出現振蕩等不穩定現象,需要根據離散獎勵值的大小對?(s)進行標準化處理,最終獎勵值Rfin為

式中:w?為獎勵函數歸一化參數,其作用為平衡個體競爭經驗和團隊合作經驗對策略模型學習的影響,避免獎勵值差異導致網絡學習收斂至次優解。

3.3 自主決策-規則耦合模塊構造

僅基于客觀事實對獎勵函數進行優化設計以學習最優策略的方法對于多無人機博弈對抗問題來說是不現實的,與完全基于算法在環境中不斷進行試錯學習的策略相比,使用某些已經由人類總結出來的規則作為輔助的策略可以減少無人機的無效探索并在某些情況下做出更加合理的決策。本文建立了一個基于專家經驗的規則耦合模塊并與Actor網絡相互耦合,規則耦合模塊參與博弈的過程如圖10所示。

圖10 規則耦合模塊參與博弈過程Fig.10 Game process with rule coupling

在決策階段,根據無人機在環境中的狀態對算法輸出的動作序列和規則耦合模塊輸出的動作序列進行評估以選擇實際動作序列的方法在網絡的學習過程中通常能夠起到較好的指導作用[30]。

轉移狀態預測模塊基于無人機當前的局部狀態對執行規則耦合模塊輸出的基本動作序列aRule和Actor網絡輸出的基本動作序列aActor后的轉移狀態進行預測;動作選擇模塊則基于預測轉移狀態的獎勵勢函數和對進行采樣以生成執行動作序列aExe,對基本動作序列的采樣概率為

式中:P(aRule)、P(aActor)為規則耦合模塊和Actor網絡輸出基本動作序列的采樣概率,由動作選擇模塊計算;λe為模塊依賴參數,其值隨著網絡訓練幕數p的增加而逐漸衰減。動作采樣概率表明,在網絡模型的訓練過程中,無人機對規則耦合模塊的依賴程度降低,決策機制逐漸放棄對保守策略的依賴并開始對復雜度更高的戰術性策略進行探索,即網絡學習對“搜索”策略和“開發”策略的平衡。

規則耦合模塊中集成的約束規則觸發條件如圖11所示。

圖11 約束規則觸發條件示意Fig.11 Diagram of constraint trigger conditions

規則耦合模塊針對出界、追蹤、逃逸和鎖定4種情況制定了約束規則。當無人機與邊界的距離小于邊界安全距離dbou(m)時,規則耦合模塊的出界約束參與規則耦合,模塊輸出的動作序列使無人機沿遠離邊界方向以最大加速度運動;當無人機與目標無人機的距離大于探索距離dexp(m)時,無人機執行未完成訓練的Actor網絡輸出的動作序列通常會導致無價值經驗增加,此時規則耦合模塊的追蹤約束參與規則耦合,模塊輸出的動作序列使無人機直接向目標無人機靠近;當無人機與任一敵方無人機距離小于危險距離ddan(m)且敵方無人機位于當前無人機的受威脅區時,規則耦合模塊的逃逸約束參與規則耦合,模塊輸出的動作序列使無人機向遠離構成威脅的敵方無人機的方向以最大加速度運動;當無人機與目標無人機的距離小于攻擊距離datt時,規則耦合模塊的鎖定約束參與規則耦合,模塊輸出的動作序列使無人機的速度矢量、目標線和目標無人機的速度矢量盡可能位于同一直線。

3.4 網絡訓練-重要性權重耦合的經驗優先回放采樣

原始的經驗回放機制可以解釋為將每一步博弈產生的經驗元組存入經驗池,而在網絡參數更新時則以均勻采樣的方式隨機抽取多個訓練元組進行策略改進。經驗回放機制的引入,在提高經驗利用率的同時降低了經驗池中各經驗元組間的關聯度,進而提升了網絡訓練效率[31]。

為了讓無人機的網絡模型能夠對成功擊毀敵方無人機的優質經驗進行優先學習,優先經驗回放機制(prioritized experience replay, PER)根據每個經驗元組的TD-Error絕對值|δk|的大小為其分配優先級,TD-Error為

TD-Error可以隱含地反映智能體從經驗中學習的程度,從而使網絡評估結果更符合未來數據的趨勢。較大的TD-Error表明Target網絡的評估值與該狀態的實際價值之間存在顯著差異,因此算法需要增加對該經驗元組的采樣頻率,以盡快更新Target網絡和Online網絡的參數從而達到最佳訓練效果。根據PER機制定義的經驗抽取概率為

式中:rank(ek)為所有經驗根據其TD-Error絕對值進行由大到小排序后經驗ek對應的序號,參數α∈[0,1]決定采樣依賴優先級的程度,當α=0時,經驗回放將完全采用均勻采樣的方式抽取經驗。從采樣概率的定義可以看出,即使是TD-Error絕對值較小的經驗也可能會被抽取,這種非零的概率分布確保了采樣經驗的多樣性,防止網絡訓練產生過擬合問題。

雖然根據PER機制抽取經驗能夠為所有經驗分配合適的抽取概率,但TD-Error絕對值較高的經驗通常會被更頻繁地抽取,即各個經驗被采樣的頻率會產生嚴重的不均衡問題,這不僅會導致訓練過程出現振蕩或發散的不穩定問題,甚至仍無法避免網絡的訓練產生過擬合問題或陷入局部最優問題[32-33]。

本文中,在PER的基礎上,為每條經驗分配一個重要性權重wk,使網絡在訓練階段的經驗抽取更加偏向于有較大的學習價值的經驗而又不完全舍棄無效的探索經驗,重要性權重為

式中:S為經驗池的大??;參數β∈[0,1]用于控制經驗ek的重要性權重wk對網絡學習的影響,隨著β的增加,經驗池中高優先級經驗的重要性權重幾乎不變,而低優先級經驗的重要性權重則會大幅增長;p為仿真博弈的幕數;參數η∈[0,1]用于控制規則耦合模塊生成的偽經驗的重要性權重對網絡學習的影響;pk為ek的偽經驗標志位,若ek來自規則耦合模塊則pk為1,否則pk為0,隨著p的增加,偽經驗的重要性權重將逐漸減小,即網絡學習對偽經驗的依賴程度將逐漸降低。在完成一個樣本批次(one batch)的抽取后,算法會計算批次中所有經驗的重要性權重并對其進行歸一化處理,最終根據采樣經驗及其重要性權重對用于Critic網絡更新的損失函數進行計算,重要性權重耦合的損失函數為

式中:K為一個樣本批次所抽取的經驗數(batch size),為歸一化重要性權重。

如果在每次采樣時均對經驗池中所有經驗的抽取概率進行計算,則需要消耗巨大的計算量,導致訓練速度大幅降低。本文中,改進算法使用小批量抽取并逐漸累積經驗的方法進行經驗抽取以減少每次訓練網絡所需的計算量。每一輪從經驗池中僅抽取M條經驗并計算其抽取概率,依據概率進行經驗抽取后,若累積抽取經驗數已經達到一個樣本批次的經驗數,則停止采樣,否則繼續下一輪采樣。每存儲一條經驗的同時,算法還會計算其重要性權重wk并將其與經驗元組一同存入本次采樣的樣本批次中。經驗采樣過程如圖12所示。

圖12 重要性權重耦合的經驗采樣流程Fig.12 Experience sampling process based on importance weights

3.5 算法流程設計

在本實驗初始階段,算法運行子博弈場景以進行子網絡的預訓練,子網絡完成在3個子博弈場景中的預訓練后即可被遷移至完整的目標博弈場景中以進行進一步的網絡訓練。本文中,當無人機數量衰減時,用于決策的子網絡也需要同時切換。無模型的MADRL算法通常需要大量的訓練已學習最優策略,而無人機通常需要耗費大量的時間對具有高維狀態-動作空間的復雜環境進行探索,導致訓練效果難以得到有效提升。直接在目標場景中對所有子網絡進行串行訓練的方法通常會導致子博弈場景過早結束,難以積累有效的學習經驗?;谏鲜鰡栴},子網絡的訓練將采用“子場景遷移訓練-目標場景聯合訓練”的訓練優化方法。遷移學習的核心思想是將智能體針對簡單任務的學習所獲得的知識應用到對相關性較高的復雜任務的學習中[34]。本文中,各個子網絡分別在其對應的博弈場景中進行訓練屬于簡單任務,所有子網絡在相互銜接的博弈場景中進行訓練則屬于復雜任務,2個學習任務雖然有所差異卻具有較高的相似性,因此相比于直接訓練由2-vs-2博弈場景開始直到某一方無人機被全部擊毀的復雜任務,將各個博弈場景作為遷移場景分別進行訓練并逐漸過渡到目標場景訓練,即簡單任務向復雜任務遷移訓練的方式能夠實現知識的繼承,從而取得更好的訓練效果。訓練子網絡由遷移場景向目標場景過渡的流程如圖13所示。

圖13 遷移場景訓練流程Fig.13 Migration scenario training process

4 實驗設置

本文實驗中的環境參數如表2所示,算法的超參數設置如表3所示。當無人機的位置超出博弈區域時,無人機被判定為出界。當無人機的動作序列使其絕對速度超出上限時,無人機的絕對速度大小將會被限制在最大值而僅按照vx和vy的比例改變方向。

表2 環境參數設置Table 2 Environment parameter settings

表3 超參數設置Table 3 Hyperparameter settings

各個子網絡模型的Critic網絡結構參數如表4所示,Actor網絡結構參數如表5所示。

表4 Critic子網絡結構Table 4 Critic subnetwork structure

表5 Actor子網絡結構Table 5 Actor subnetwork structure

5 仿真實驗

5.1 訓練過程

基于MADRL的多無人機博弈對抗算法以最大化參與博弈的無人機獲得的累積獎勵值為學習目標。平均獎勵是一幕博弈的每一步所獲得獎勵的平均值,平均獎勵收斂速度越快、收斂平穩性越好說明網絡的訓練效果越好。在本實驗中,每完成100幕網絡訓練即運行一幕測試博弈,并計算測試環境中無人機的平均獎勵。

在3.1節中提出的3個遷移場景中,分別使用本文提出的改進MADDPG算法、基于獎勵勢函數的MADDPG算法(MADDPG-I)、基于規則耦合方法的MADDPG算法(MADDPG-II)、重要性權重耦合的PER-MADDPG算法(MADDPG-III)和原始的MADDPG算法對場景中的子網絡進行訓練并通過對比無人機的平均獎勵曲線以驗證各改進方法的有效性。與上述5種算法對應的平均獎勵曲線如圖14所示。

圖14 改進方案平均獎勵曲線Fig.14 Average reward curve of plans

分析圖14中數據可知,上述3種改進方案均能夠提升原始MADDPG算法的網絡訓練效率,但是算法的性能無法得到顯著的提升。聯合3種方案的改進算法則能夠通過改進方案的相互輔助以大幅提升算法的性能。

在3個遷移場景中,分別使用傳統的MADDPG算法、PER-MADDPG算法、H-MADDPG算法和改進MADDPG算法對場景中的子網絡進行預訓練并繪制4種算法的平均獎勵曲線以驗證改進算法的性能。上述4種算法中,PER-MADDPG算法將PER機制與傳統的MADDPG算法結合以提升網絡學習效率[35];H-MADDPG算法將線性獎勵函數和“后知后覺單元”引入MADDPG算法,線性獎勵函數為訓練經驗引入了連續獎勵值,一定程度上解決了稀疏獎勵問題,提升了網絡訓練效率,“后知后覺單元”則在一幕仿真結束后對經驗序列進行分析并生成相對成功的偽經驗,偽經驗與真實經驗同時被存入經驗池并參與經驗回放,提升了算法對先驗知識的利用率;改進MADDPG算法在原始算法的基礎上引入規則耦合模塊并基于勢函數對算法的獎勵機制進行設計,同時采用重要性權重耦合的PER方法對原始算法進行改進。子網絡在各個子博弈場景中的訓練效果如圖15所示。

圖15 改進算法平均獎勵曲線Fig.15 Average reward curve of algorithms

對平均獎勵曲線的信息進行分析,計算各算法的評價指標,各算法的收斂均值和收斂時間如表6所示。

表6 算法收斂情況Table 6 Algorithm convergence

聯合分析圖15和表6中的數據可知,相比于3個對比算法,改進算法具有更高的優越性。在1-vs-1子博弈場景和2-vs-2子博弈場景中,與改進算法對應的平均獎勵曲線收斂更快且曲線收斂后具有更加良好的平穩性,其平均獎勵值基準線始終保持在與對比算法對應的平均獎勵值基準線之上。

5.2 測試結果

在無人機的策略模型收斂后,為研究與改進對應的策略模型在博弈對抗中的表現,以進一步驗證基于規則耦合的多異構子網絡MADDPG算法在多無人機博弈對抗問題中的優勢,實驗將在測試環境中運行150幕完整的博弈對抗場景以相對直觀地表明根據改進算法進行訓練的Actor網絡的優越性。本文從大量無人機博弈軌跡圖中選擇了一組具有代表性的軌跡數據進行分析,如圖16所示。

圖16 目標博弈場景博弈軌跡Fig.16 Game curves in target game scenarios

測試博弈場景中,紅方無人機使用以改進算法進行訓練的Actor網絡作為決策網絡且引入規則耦合模塊輔助網絡決策而藍方無人機分別使用以傳統的MADDPG算法、H-MADDPG算法、PERMADDPG算法和RS-MADDPG算法進行訓練的Actor網絡作為決策網絡且不引入任何輔助模塊。如引言所述,RS-MADDPG算法對無人機博弈對抗環境進行了完整的建模并引入了優化獎勵機制以提升網絡的訓練效率和無人機Actor網絡的決策能力。

初步分析無人機軌跡可知,以改進算法進行訓練的網絡模型能夠使無人機有效避免出界問題,模型具有一定的智能性且無人機在分工、合作等方面均表現出了良好的決策能力。在目標博弈場景01和目標博弈場景04中,紅方無人機具有相同的目標無人機,故團隊以合作的方式對藍方無人機實施打擊;在目標博弈場景02和目標博弈場景03中,紅方無人機的目標無人機不同,故團隊以分工的方式分別對各自的目標無人機實施打擊;在目標博弈場景05和目標博弈場景06中,紅方無人機則利用環境因素,將藍方無人機驅趕至邊界以完成對抗任務,即將目標無人機逼入絕境。在目標博弈場景07和目標博弈場景08中,紅方無人機則展現出了更加智能靈活的博弈策略,無人機通過學習已經能夠將分工、合作以及圍捕等基礎策略進行結合并應用于部分目標場景中。

為了研究策略模型在收斂后的表現,進一步驗證以改進算法訓練的網絡模型在多無人機博弈對抗問題中的決策優勢,實驗對150幕完整博弈過程中紅、藍兩方無人機的仿真對抗數據進行統計。

測試實驗中,博弈場景中紅方無人機使用以改進算法進行訓練的Actor網絡作為決策網絡,且引入規則耦合模塊輔助網絡決策,而藍方無人機分別使用以傳統的MADDPG算法、PER-MADDPG算法、H-MADDPG算法和RS-MADDPG算法進行訓練的Actor網絡作為決策網絡且不引入任何輔助模塊。雙方在2-vs-1子博弈場景、1-vs-2子博弈場景和目標博弈場景中的對抗結果見圖17~19。

圖17 2-vs-1子博弈場景對抗數據統計Fig.17 Statistical data in 2-vs-1 scenarios

圖18 1-vs-2子博弈場景對抗數據統計Fig.18 Statistical data in 1-vs-2 scenarios

綜合分析圖17~19中的數據和仿真軌跡圖可知,使用以改進算法進行訓練的策略模型進行決策的紅方無人機在博弈過程中的出界次數較少且具有更強的追蹤打擊能力和安全逃逸能力,即使紅方無人機處于1-vs-2的劣勢下,其策略模型仍然能夠將勝率控制在50%左右,而使用以原始算法進行訓練的策略模型進行決策的藍方無人機的博弈對抗能力相對較弱且出界次數較多,以其他對比算法進行訓練的策略模型的博弈對抗能力雖然優于以原始的MADDPG算法進行訓練的策略模型但仍然無法完全超越以改進MADDPG算法進行訓練的策略模型。

6 結束語

本文針對基于MADRL的多無人機博弈對抗問題進行研究,建立了與真實空戰場景相似度較高的2-vs-2無人機博弈對抗場景。首先,對經典的MADDPG算法進行介紹并提出了算法在多無人機博弈對抗環境應用中存在的問題。其次,針對文中提出的問題對MADDPG算法進行改進,為算法設計異構子網絡和規則耦合模塊并引入獎勵勢函數以生成優質經驗,同時設計了重要性權重耦合的PER方法以提高優勢經驗的利用率。最后,仿真實驗結果表明:

1) 規則耦合模塊能夠為算法引入更優質的經驗,提升了網絡模型的收斂速度和決策能力。在無人機的決策過程中,模塊也能夠起到良好的輔助作用。

2) 對博弈任務進行分解并引入子網絡的方法能夠在不增加網絡學習所需計算量的同時解決無人機團隊在博弈過程中的團隊成員數量動態衰減問題,可以滿足小規模無人機團隊博弈對抗任務的需求且不會引入冗余信息或丟失特征信息。

3) 以勢函數構建的獎勵機制解決了網絡模型學習過程中的稀疏獎勵問題,對網絡參數迭代能夠起到良好的指導作用。

4) 重要性權重耦合的PER機制使算法能夠優先抽取TD-Error較大的經驗以對網絡模型進行訓練且未完全放棄對探索經驗的參考,隨著學習時間的增加,重要性權重使網絡學習對規則耦合模塊的依賴程度逐漸降低,提升了網絡學習效率。

雖然算法在多無人機博弈對抗問題中取得了良好的學習效果,但當無人機數量增加時異構子網絡的數量也會大幅增加。如果將大型無人機編隊劃分為多個小型編隊并為若干小型編隊分配相同的專屬任務,則可以使一個或多個小型編隊專注于完成全局任務的一部分即專注于完成子任務。在訓練階段,算法需要為具有相同子任務的小型編隊設置局部Critic網絡并為全體無人機構成的大型無人機編隊設計全局Critic網絡,而不需要對小型編隊內無人機的Actor網絡和Critic網絡進行額外的修改。在今后的研究中將基于上述方案對算法進行進一步優化以使其適用于更大規模的多無人機博弈對抗任務。

猜你喜歡
勢函數耦合經驗
航天器姿態受限的協同勢函數族設計方法
非Lipschitz條件下超前帶跳倒向耦合隨機微分方程的Wong-Zakai逼近
次可加勢函數拓撲壓及因子映射
2021年第20期“最值得推廣的經驗”評選
金屬鎢級聯碰撞中勢函數的影響
經驗
2018年第20期“最值得推廣的經驗”評選
SOME RESULTS OF WEAKLY f-STATIONARY MAPS WITH POTENTIAL
基于“殼-固”耦合方法模擬焊接裝配
當你遇見了“零經驗”的他
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合