?

自主空戰連續決策方法

2022-10-25 05:03單圣哲楊孟超張偉偉高傳強
航空工程進展 2022年5期
關鍵詞:空戰敵機機動

單圣哲,楊孟超,張偉偉,高傳強

(1.西北工業大學 航空學院,西安 710072)(2.中國人民解放軍93995部隊,西安 710306)

0 引言

自主空戰(AAC)是指戰機依靠機載設備,感知戰場態勢,基于人工智能在戰場中實時選擇作戰方案和戰術動作的機制,其智能化程度決定了機制的優劣??諔疬^程中,交戰飛機需要在復雜的環境中通過連續高強度機動來力爭態勢,進而消滅敵人保全自己,故決策是自主空戰中最為核心的部分。

依據自主空戰決策算法的核心內涵不同,可以將現有算法劃分為基于數學求解、機器搜索以及數據驅動三大類。

數學求解方法將空戰決策視為博弈問題。該類方法通?;诓┺恼搶諔饐栴}進行簡化假設,使用微分對策方法求解Nash均衡,根據假設類型不同可以將空戰問題描述為追逃問題(Pursuit-Evasion Game,簡稱PE)、雙目標優化問題(Two Target Game)和態勢函數優化問題等。微分對策方法本身屬于解析求解方法,其結果具有清晰的數學形式和顯式優越性,但由于微分對策方法在數學上具有局限性,尤其是在處理奇異曲面問題上的不完備性,限制了數學求解方法在復雜博弈問題中的應用。

機器搜索方法通常將空戰中的可選方案離散化,通過試探輸入得出每種機動方案的可能結果,并通過態勢函數量化其結果,最終通過一定的搜索機制找出最有利的方案。根據搜索機制的不同該類方法可分為AML(Adaptive Maneuvering Logic)搜索、博弈矩陣搜索、啟發算法搜索等。由于空戰機動中的控制量為連續變化量,存在選擇方案無窮多的“維度爆炸”問題,針對該問題,文獻[28-31]使用多種動作庫來描述機動方案,但仍存在動作突變或靈活性較差問題。

數據驅動方法的優勢在于可以擺脫常規方法對人類知識的高度依賴,主要有神經網絡、模糊矩陣、強化學習等。

強化學習方法,是基于馬爾科夫決策過程(Markov Decision Process,簡稱MDP)中的價值迭代和策略迭代,讓智能體與環境交互,利用環境的獎勵反饋不斷改進策略,以獲得最大累計折扣獎勵的方法。Liu P等基于DQN(Deep Q-Learning)算法將深度強化學習用于空戰決策,解決了連續狀態輸入的“維度災難”問題,同時驗證了獎勵與行為的效用性,但DQN網絡無法解決連續動作輸出問題;張強等基于強化學習中的Q-Network開展了超視距空戰決策的研究,并基于QNetwork的輸出量求解Nash均衡,選擇敵我的空戰動作,但動作的選取仍與真實空戰有一定差距;B.Kurniawan等將行動者—批評者(Actor-Critic,簡稱AC)架構引入空戰決策研究,提高了訓練效率,同時探索了獎勵結構對學習速度的影響,但訓 練 課 目 設 置 仍 較 為 簡 單;Yang Q等采 用DDPG(Deep Deterministic Policy Gradient)算法解決了DQN算法無法實現空戰的連續動作輸出問題,提高了控制的精度和平滑性,同時也開展了DQN與Curriculum Learning相結合的研究,提高了決策模型在對抗中的獲勝率。

綜合考慮自主空戰決策算法的研究進展與問題,為建立一種連續動作、強遠視性、全動態的實時空戰機動決策方法架構以適應于實際空戰需求,本文基于AC強化學習架構,使用深度神經網絡的非線性表現能力,構建由連續狀態空間至連續動作空間的映射,采用線性方法將飛機各個狀態機動包線動態歸一化,與動作空間對齊,保證決策算法充分調用飛機機動潛力的同時避免動態失速;通過增大空戰訓練環境的不確定性,增強算法的全泛化能力,避免決策算法僅對特定起始條件有效;通過高不確定度的空戰場景設置與訓練,說明方法架構的合理性。

1 AC強化學習基本架構

強化學習問題分為連續時間問題和離散時間問題,通常將連續時間問題近似為離散時間問題,這樣強化學習問題就可以統一表示為離散時間馬爾科夫決策過程。本文基于連續時間的離散化與環境完全可知表述空戰軌跡序列:

基于馬爾科夫性假設進一步引入MDP的演化概率為

至此,MDP可 由 四 元組S,A,R,P來表示,其中P是環境動力的四階張量形式。

在AC架 構 下,agent由Actor和Critic兩 部 分構成,分別負責動作生成與策略評估工作,其基本框架如圖1所示。

圖1 Actor-Critic架構Fig.1 Framework of Actor-Critic

Actor網絡以當前時刻狀態s為輸入,輸出當前時刻動作a的相關量;Critic網絡以當前狀態—動作對(s,a)為輸入,動作價值q(s,a)為輸出,其作用為評價當前狀態采取的動作方案的價值。

式中:γ∈[0,1]為累加獎勵的折扣因子,代表agent的遠視程度。

agent從環境觀測得到當前狀態樣本s,依據Actor網絡輸出的動作相關量選擇動作樣本a,在環境中執行該動作,進而使環境演化至下一狀態樣本s,并返回獎勵樣本r。Critic對s下行動方案a進行價值評估,并與獎勵r進行對比更新自身網絡參數,使其評價更接近真實值,本文采用單步時序差分的方式更新,其評估方式為

根據動作價值評估q(s,a),利用隨機策略梯度(Policy Gradient,簡稱PG)方法更新Actor網絡參數,使其策略得到優化。

基于上述Actor-Critic架構產生了多種算法,其中比較有代表性的有鄰近策略優化算法(Proximal Policy Optimization,簡稱PPO)、柔性行動 者—批 評 者 算 法(Soft Actor-Critic,簡 稱SAC)、深度確定性策略梯度算法(Deep Deterministic Policy Gradient,簡稱DDPG)以及雙重延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic Policy Gradient,簡稱TD3)等。

本文空戰環境為連續動作環境,DDPG算法的Actor網絡輸出為連續動作范圍內的值,通過加入噪聲N確定執行動作;TD3算法在DDPG算法的基礎上采用了兩套價值函數,避免DDPG算法更新時陷入局部最優;SAC算法的Actor網絡輸出為動作的均值與方差,以此均值和方差選取執行動作,并使用獎勵工程在原獎勵的基礎上增加由動作分布確定的熵以鼓勵智能體探索。

2 狀態空間及動作空間設計

AC強化學習架構下,由于深度神經網絡具有強大的非線性映射能力,可直接由連續狀態空間向連續動作空間進行決策映射,通過數值方法實現空戰環境連續決策。為在空戰機動決策中使用AC架構,首先對空戰的狀態空間和動作空間進行設計。

2.1 空戰狀態空間設計

參量化空戰狀態空間,首先應建立空戰態勢的幾何模型。敵我空戰幾何關系如圖2所示,紅色飛機為我方飛機,藍色飛機為敵方飛機。R為敵我距離矢量,其方向由我方指向敵方,同時也是我方的射擊瞄準線方向;V為我方的速度矢量;V為敵方的速度矢量;兩者參考系為地面坐標系Oxyz;φ為我方飛機的提前角,即我方飛機機體軸與射擊瞄準線之間的夾角,其大小等于我方速度矢量V與距離矢量R之間的夾角,該角度同時也是導彈瞄準時我方導彈的離軸角;q為我方飛機的方位角,表示我方飛機相對敵機的方位,其大小等于敵方速度矢量V與距離矢量R之間夾角。角度φ與q的計算公式如式(5)所示。

圖2 空戰幾何關系Fig.2 Geometry relationship of air combat

由于環境需要滿足馬爾科夫性的要求,參量化空戰狀態空間需盡量包含空戰的態勢特征,而空戰中位置、速度、加速度及角度是機動飛行的最主要特征,故將空戰態勢信息S描述為S=[p,V,a,φ,q,p,V,a,φ,q],其 中p和p分別為我機和敵機的位置坐標;V和V分別為我機和敵機的速度矢量;a和a分別為我機和敵機的加速度矢量;φ和φ分別為我機與敵機的提前角;q和q分別為我機和敵機的方位角。

2.2 空戰連續動作空間設計

2.2.1 動作維度選取及動態求解

動作維度應在保證可實現大多數機動動作的基礎上盡量減少。參考飛行員在空戰中的操縱習慣,多以駕駛桿和油門配合完成戰術機動,故選取飛機法向過載n、推力T與速度滾轉角φ三個維度的連續量構成動作空間。

輸入上述三個操縱量后,飛機動態仿真可在氣流軸系下利用三自由度飛行動力學方程求解實現。

由于飛機機動范圍較大,可能出現垂直向上或向下的姿態,采用歐拉角表征姿態會出現“萬向鎖”問題進而導致仿真求解中斷。故采用四元數法表征飛機姿態。

使用四元數,由地面坐標系到氣流坐標系的旋轉矩陣L可以表示為

則飛機在地面慣性參考系下的速度矢量投影V為

飛機所受外力可以簡化為由重力mg、氣動升力L、氣動阻力D和發動機推力T構成,其中L和D可由操縱量法向過載n和飛行狀態(飛行高度、飛行馬赫數、飛行動壓)確定。飛機所受合力在地面慣性參考系下的投影F為

飛機運動過程中,因所受外力與速度方向不共線而導致的速度軸的轉動角速度ω為

則飛機氣流坐標系相對慣性參考系的旋轉角速度在自身坐標系的投影為

則飛機的動力學方程可表示為

在實時求解飛機動態時,可以通過數值積分更新四元數和飛行速度標量V,進而更新L矩陣,代表飛機的姿態。接下來可利用式(7)更新飛行速度矢量在地面坐標系下的投影V,進而對時間進行數值積分,便可求解飛機的位置坐標。

2.2.2 機動包線動態歸一化

基于上述連續動作空間,理論上可以實現除失速機動和非協調側滑外的所有空戰機動動作的仿真模擬,但在實際空戰中,飛機操縱量的安全范圍和極限使用范圍是隨飛行狀態實時變化的。以法向過載為例,某型飛機法向過載的使用包線如圖3所示,上方曲線代表不同高度最大可用正過載,下方曲線代表不同高度最大可用負過載。在實際飛行中,如果飛機使用過載超出過載包線范圍可能發生失速偏離或結構受損等危險情況,同樣在油門和滾轉角控制量上也存在著隨飛行狀態變化的限制條件。

圖3 飛機可使用過載包線Fig.3 Envelope of load factor

由于存在限制條件,使得動作空間不再整齊,且量綱隨飛行狀態實時變化。本文在不破壞強化學習方法對環境馬爾科夫性要求的前提下,采用動態線性歸一化的方法,即實時將每個動作范圍線性映射至[-1,1]區間內。以法向過載n為例,法向過載的動態歸一化公式為

式中:n為歸一化后的法向過載動作量;n和n分別為飛機當時狀態下的最大正、負過載可用值,兩者都受飛行馬赫數和飛行高度的影響。

(1)在不破壞環境馬爾科夫性的同時,使所用動作范圍保持在[-1,1]范圍內,可以與深度神經網絡的輸出層激活函數tanh進行量綱對接,且數值范圍處于激活函數的非飽和區域有利于加速訓練;

(2)可保證決策的輸出動作均在包線以內,不會產生失速、結構超載等危險動作;

(3)完成常規機動動作的難度更低,如完成垂直動作時,若使用未歸一化的動作空間需要根據動作階段不斷調整法向過載,而使用歸一化后的動作空間只需保持法向過載為0.8即可使其保持在最優使用范圍內。

2.3 空戰連續機動動作驗證

為驗證動作空間設置的合理性和仿真方程的有效性,本文選取空中的高斤斗、斜斤斗和水平盤旋進行仿真驗證。

以歸一化動作為操縱量的斜斤斗及水平盤旋飛行軌跡分別如圖4~圖5所示。

圖4 斜斤斗運動軌跡圖Fig.4 Trajectory of inclined loop maneuver

圖5 水平盤旋運動軌跡圖Fig.5 Trajectory of sustained turn

從圖4可以看出:飛機的機動軌跡平滑,在垂直位置未出現仿真中斷現象。斜斤斗機動過程中三個歐拉角會急劇變化,尤其是接近垂直向上位置時,會出現歐拉角變化率無窮大的現象,表明本文采用的仿真方法具有良好的魯棒性。

空戰中所有常規機動動作均可以認為是水平動作和垂直動作的組合與變形。使用歸一化的動作空間來參量化空戰動作,經驗證可以通過保持特定操縱量完成成套的垂直和水平機動動作。在實際空戰中,機動動作多是成套動作的拆分和組合。通常飛行員動作切換的時間為秒量級,故本文選取2 s為一個決策步長,決策步長之間的操作量變化受到飛機敏捷性制約。理論上使用本文動作空間設置方法,可以實現飛機全狀態、全包線、任意空戰動作的連續決策,且決策步長之間不會出現操縱量突變的現象。

3 空戰環境與獎勵設置

3.1 空戰環境設置

AC強化學習架構下,agent需要不斷與環境交互獲得獎勵,通過“試錯”方式搜索最優策略。

航炮是應用最廣泛的空對空武器,隨著戰斗機性能的不斷提升,人們開始尋求更強的火力。即使航炮與瞄準設備在不斷更新換代,航炮的空對空射擊仍然對飛行員有較高的要求。實際需求與技術的進一步發展促使空對空導彈的出現?,F代空戰中,戰斗機多會在裝備航炮的同時攜帶導彈,由飛行員控制飛機做出機動以獲得有利態勢??v觀戰斗機發展歷程,雖然其作戰能力在不斷提升,但在近距空戰中使用的戰術機動并未體現出較大的差異性,仍以尾后攻擊為主,因此空戰環境中敵我雙方飛機不同的性能參數設置并不會對強化學習結果產生很大的影響。同時考慮到在實際空戰訓練時,雙方使用的飛機不會具有較大的性能差別,故對敵我飛機設置了相同的性能參數。在空戰仿真環境中,機載武器考慮使用空空導彈與機炮的情況。同時為了與真實空戰訓練場景保持一致,本文主要針對從敵我飛機發現對方到一方構成武器攻擊條件的空戰機動過程進行訓練尋優,不考慮武器發射后的后續規避過程??諔饎儇摰呐袚O定主要參考實際空戰中BFM(Basic Fighter Maneuvering)課目的設置方法,即一方構成火力控制系統解算下的導彈發射條件或機炮攻擊條件,則認為該輪訓練已分出勝負。參考空戰訓練中的相關課目,除上述情況外,若一方被迫撞地,也認為另一方對其完成“撞地擊殺”;若發生雙機危險接近,則認為雙機相撞,雙方均“失敗”;若一方飛出邊界,則認為該方任務失敗。

3.2 空戰獎勵設置

參考空戰實際訓練中的課目設置方法,并考慮強化學習網絡的收斂性,采用事件獎勵為主,過程獎勵為輔的獎勵設置方法。

事件獎勵只有在回合結束時才會給出,會受到折扣因子的影響而衰減。本文在獎勵設計時選取較大量級的事件獎勵值與合理的折扣因子,使智能體仍有足夠的動力以結果為導向進行決策。而事件獎勵在整個空戰過程中是稀疏的,此時無明顯的策略梯度來引導agent的演化方向。針對該現象,結合飛行員空戰的先驗知識合理設置過程獎勵,在空戰過程中實時給予智能體反饋以引導智能體探索最有可能獲勝的方向。首先根據不同空戰結果的重要程度,設置以結果為導向的事件獎勵??諔鹬凶睢巴昝馈钡慕Y果為使用導彈擊殺敵機,若空戰仿真結果為使用導彈擊殺敵機,則agent獲得獎勵+2 000;若使用航炮擊殺敵機,則agent獲得獎勵+1 000;若雙方纏斗中,迫使敵方損失高度而最終撞地,則獲得獎勵+1 000;空戰中應盡量避免與敵機相撞,若發生此結果,agent獲得獎勵-1 000。相對應,若被敵機導彈擊殺,agent獲得獎勵-2 000;若被敵機航炮擊殺,agent獲得獎勵-1 000;被迫損失高度撞地,agent獲得獎勵

-1 000。

在仿真訓練中,由于agent操縱飛機的自由度較大,飛機易出現進入小速度、低高度、超速、超出升限或者脫離初始空域等現象。在實際空戰出現該類現象可能會影響飛行安全,故將該類現象統一稱為“飛出邊界”事件,并給予一定負獎勵。發生該事件后將終止本輪空戰仿真,重置空戰環境,agent得到獎勵-300,此處負獎勵絕對值較小的原因是防止agent因避免“飛出邊界”而限制飛機機動潛能。

綜上,空戰事件獎勵的設置匯總如表1所示。

表1 事件獎勵設置Table 1 Reward setting of statements

過程獎勵的設置,主要以飛行手冊中的“最佳機動點”為依據。實際雙機機動對抗中,存在一個相對的位置區域,在該區域內飛機可以用最小的機動過載來保持對敵機的持續跟蹤,且容易達成導彈發射條件,該區域的中心即為“最佳機動點”。

使用某型導彈攻擊某型飛機時,最佳機動點的坐標計算經驗公式為

式中:p為最佳機動點在地面坐標系下的坐標;V為敵方飛機速度矢量;α為最佳攻擊距離的比例系數,α∈[0,1]。

過程獎勵的設置思路為:當飛機位置與最佳機動點距離較遠時,讓獎勵與該距離負相關,以引導agent以最快方式向最佳機動點接近;當距離較近時,為引導agent減小敵機視線率和導彈離軸角以構成導彈發射條件,此時的獎勵要與敵機視線率和導彈離軸角的大小負相關,且距離越小獎勵值越大,設置經驗過程獎勵公式為

式中:d為我方飛機與最佳機動點的歐式距離;R為過程獎勵值;φ為我機導彈離軸角;φ為導彈最大離軸角;l為敵機視線率的大??;l為導彈發射架的最大轉動速率。

4 神經網絡模型搭建

由于總體算法基于Actor-Critic框架,故需要建立兩類神經網絡模型。參考深度強化學習算法搭建神經網絡,如文獻[47]中使用DDPG算法在隱藏層較少時設置了300與400個節點,在不同難度的經典強化學習環境中獲得了較好的收斂結果,如4維度狀態空間的倒立擺環境,18維度狀態空間的機械臂環境等。而空戰環境更為復雜且狀態空間維度更大,同時考慮到通用性與封裝性,本文Actor和Critic網絡均采用相同規格的隱藏層,均設有兩個隱藏層,每個隱藏層均有512個節點,在隱藏層后加入ReLu激活層,用來增強神經網絡的非線性映射能力。

其中Actor網絡以敵我飛機的總體態勢為輸入,由于S中的p、p、V、V、a、a均為三維矢量,對于敵我飛機均有方位角與離軸角,故Actor網絡的輸入維度為22維。Critic網絡的輸入層維度為狀態S維度與動作A維度的疊加,即22+3=25。其隱藏層參數設置與Actor網絡基本相同。Critic的輸出為狀態—動作對的價值評估,輸出維度為1維。

本文主要對比DDPG、SAC、TD3三種算法的效果,雖然都基于AC架構,但神經網絡的構建仍有區別,SAC將動作分布嵌入神經網絡,而DDPG與TD3算法選擇在外部添加噪聲來實現連續動作的訓練。

SAC算法中Actor的輸出不是確定性的動作,而是基于高斯分布的動作概率,故其輸出為動作的均值與標準差,由于操縱量的設置共有3個維度,故均值與標準差均為3維輸出。在均值與標準差輸出層后,Actor網絡會基于高斯分布抽樣選擇出動作樣本,并由Tanh激活層將動作歸一化至[-1,1]區間,與仿真環境進行量綱對齊,Actor網絡結構如圖6所示。

圖6 SAC算法Actor網絡結構Fig.6 Structure of actor neural network in SAC

為對比不同算法的效果,DDPG算法與TD3的Actor網絡架構與SAC基本相同,但輸出為確定性動作,經Tanh激活層將動作歸一化至[-1,1]區間,在神經網絡框架外引入高斯噪聲,再經過范圍限制輸出動作,其Actor網絡結構如圖7所示。

圖7 DDPG、TD3算法Actor網絡結構Fig.7 Structure of actor neural network in DDPG and TD3

三種算法Critic網絡作用都為輸出價值評估值,采用相同的Critic網絡架構,如圖8所示。

圖8 Critic網絡結構Fig.8 Structure of Critic neural network

5 結果與討論

空戰場景的設置,借鑒空戰訓練中的“熱身練習”課目??諔鹩柧氈?,在開始正式對抗課目之前,飛行員通常會進行1~2輪的熱身練習,用以熟悉空戰技術和適應空戰節奏。本文研究以驗證思路可行性為主,故借鑒空戰中的熱身訓練課目設置空戰場景??諔鹩柧氈谐R姷臒嵘矸绞綖?,扮演敵方的飛機進行過載轉彎,我方分別從劣勢、均勢、優勢的起始態勢下,對敵方飛機進行機動、跟蹤、鎖定、射擊等操縱。

為提高決策算法的泛化能力,以更加適應實際空戰中的復雜態勢,設置高不確定度的空戰場景以驗證決策算法的有效性,具體設置如下。

敵方由藍色飛機代表,軌跡為虛線,初始水平坐標為(0,0),起始高度為3 000 m,起始速度為138~305 m/s,起始航向從0~360°隨機選取,0~60°隨機選取滾轉角做向左或向右等速水平盤旋機動;我方由紅色飛機代表,軌跡為實線,起始水平坐標為(5 000,5 000),起始高度從2 500~3 500 m隨機選取,即我方初始高度優勢隨機設置,起始速度為208 m/s,與敵機速度相比我方初始速度優勢隨機設置,起始航向從0~360°隨機選取,即我方初始角度優勢隨機設置。

在我方起始高度優勢、速度優勢和角度優勢都具有高不確定度的空戰場景下訓練,各算法訓練過程中學習曲線如圖9所示,可以看出:各算法在本文設置環境下都有不錯的收斂性,在AMD Ryzen 7 5800H with Radeon Graphics 3.20 GHz處理器及NVIDIA GeForce RTX 3060 Laptop GPU環境下訓練,由于不同算法以及代碼的差異性,訓練時間有所差別,但2~3 h都可以達到收斂水平;DDPG與SAC算法收斂性差別較小,TD3由于使用了延遲更新與雙網絡學習稍顯緩慢但最終也能趨于最優值。

圖9 學習曲線對比Fig.9 Learning curves contrast

在此高不確定度空戰場景中對不同算法訓練完成模型進行測試,統計結果如表2所示,可以看出:agent可以在多種算法下適應隨機度的空戰仿真環境,并且在大多數態勢下做出最優決策,完成對敵擊殺。

表2 空戰測試結果Table 2 Results of air combat test

其中TD3算法由于延遲更新與雙網絡架構學習較慢,但在更多的更新回合下也能達到很好的效果;DDPG與SAC算法整體差異不大,可以看出由于SAC算法選擇將動作的不確定性嵌入神經網絡,使得在測試時會有少許擾動讓我方飛機飛出邊界。

由于環境中機炮擊殺范圍比導彈擊殺范圍小,機炮擊殺比導彈擊殺要求更為嚴苛,agent學習結果體現出使用導彈對敵擊殺。

在初始條件為敵機隨機位置、隨機速度、隨機滾轉角做轉彎機動時,agent可以做出半滾倒轉、低速Yo-Yo等實際飛行中飛行員常做的飛行動作。

敵機轉彎空戰動態如圖10所示。圖10(a)中,我方飛機高度占優勢,飛行方向與敵機基本平行,且敵機在我機后方,角度占劣勢的前提下,agent操縱我方飛機滾轉180°后保持較高過載,迅速下翻轉,做了類似半滾倒轉的機動動作,將機頭指向敵機,完成導彈擊殺。圖10(b)中,我方飛機高度與敵機相近,飛行方向與敵機基本平行,且我機在敵機后方,角度占優勢,但與敵機距離較遠,無法構成導彈發射條件的前提下,agent操縱飛機向下俯沖增速,而后拉起機頭指向敵機,通過類似低速Yo-Yo的機動動作,縮短雙機距離,完成導彈擊殺。

圖10 敵機轉彎空戰動態Fig.10 Dynamic of air combat in enemy aircraft turn

為進一步說明空戰環境與動作設置的合理性,除前文所述的敵方做隨機水平盤旋機動外,還測試在不同場景下agent的表現,如雙機迎面相遇、追擊、爬升、防御等機動,如圖11~圖13所示。

圖11 迎面空戰動態Fig.11 Dynamic of air combat in head-on

圖13 攻防轉換Fig.13 Attack and defense conversion

從圖11可以看出:我機以大過載小轉彎半徑完成領先轉彎將機頭指向敵機完成擊殺。

從圖12可以看出:設置敵機在平飛一段距離后拉起,我機可以保持跟隨敵機并用導彈完成擊殺。

圖12 爬升空戰動態Fig.12 Dynamic of air combat in climb

從圖13可以看出:agent通過側向拉起,直至敵機沖到我機前方后俯沖將機頭指向敵機完成擊殺。

6 結論

(1)基于AC強化學習架構,能夠實現基于連續動作空間的空戰機動決策,克服傳統方法的“無限維度”問題,使空戰基于連續動作的遠視最優決策得以在較短時間內求解。

(2)利用動態歸一化方法,可以解決因飛機狀態變化導致的動作空間不整齊問題,且可以降低執行成套機動動作的難度,有利于agent的訓練學習。

(3)通過高不確定度的空戰仿真驗證,訓練完成的agent可以在復雜空戰態勢下對飛行目標保持較高的擊殺率;且agent在特定態勢下可以做出實際空戰中的常用機動動作,其機動方案具有較高的合理性。

本文通過高不確定性的空戰場景設置與多種強化學習算法驗證了在此環境下實現連續動作空戰決策的合理性與可行性,但可以看到智能體所學習出的機動動作仍較為有限。為了與實際空戰環境更為貼近,下一步的工作將主要針對多智能體自博弈方法展開研究,這將是未來智能空戰的發展方向。

猜你喜歡
空戰敵機機動
1937年筧橋空戰戰果之謎
What Are the Different Types of Robots?
敵機不可怕 讓民工吃飽更重要
未來空戰怎么打
機動三輪車的昨天、今天和明天
海軍航母編隊啟航執行機動訓練任務
第三帝國的興亡之六 大不列顛空戰(下)
單兵扛導彈
敵機不支,騰空逃去
偷架敵機開回家
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合