?

聯合戰役仿真環境對強化學習的挑戰

2023-09-20 11:25胡曉峰
計算機仿真 2023年8期
關鍵詞:戰役戰場決策

李 東,許 霄,吳 琳, 胡曉峰

(國防大學聯合作戰學院,北京 100091)

1 引言

隨著DeepMind公司相繼在Atari游戲[1]和圍棋[3]中取得超過人類水平,以深度強化為代表的智能決策技術吸引了學術界和工業界的廣泛關注。決策問題正成為繼計算、感知后人工智能領域新的研究前沿陣地。

作為軍事指揮訓練和作戰問題分析的重要平臺,作戰仿真模擬系統(也稱兵棋)已成為各軍事大國研究的主要途徑之一[2]。由于歷史和學科發展原因,兵棋系統當前主要用于對傳統作戰理論和試驗方法的補充,即使用主體是人。將智能決策方法應用于戰役推演環境的研究方興未艾。

本文以聯合戰役推演仿真環境作為基礎平臺,從戰役決策問題本身出發,結合聯合戰役仿真的特點,探討將基于深度強化學習的決策技術應用到作戰決策這一特殊問題的可能性,以及面臨的困難和挑戰,為智能決策在作戰指揮中的研究提供參考。

2 相關背景

在取得圍棋戰勝人類頂級選手的里程碑式的成果后,DeepMind團隊瞄準了多智能體實時交互這一領域,依靠自身在深度強化學習領域的技術積累以及Google公司強大的計算資源,一直引領著星際爭霸2智能技術的突破,其開發的智能體AlphaStar[3]于2019年取得了戰勝人類職業選手的輝煌成績,成為第一個采用端到端的學習技術達到此水準的計算機程序。在深度強化學習取得矚目之前,參加星際爭霸游戲AI賽事的隊伍們大多使用基于規則的技術嘗試打敗游戲內置程序,普遍達不到人類專業電競選手的水準。

作戰決策問題的研究一般基于作戰仿真平臺,按照仿真層次可分為戰略級、戰役級、戰術級和武器平臺級仿真。其中,基于計算機生成兵力(CGF)的戰術級智能決策技術研究較為充分,可大致分為兩類:面向知識工程的方法和基于傳統機器學習的方法[4],如表1所示。知識工程的方法以專家系統為代表,在領域知識構建的規則集上采用模糊推理和決策樹等技術,指導智能體產生行動。這些方法所采用的具體決策技術不盡相同,但共同缺點是規則組織難以維護,拓展性不強?;趥鹘y機器學習的方法被用到一些電子游戲,采用樹搜索、人工神經網絡、基于上下文推理等技術,從收集的經驗數據訓練模型指導決策輸出。這些方法的共同缺點是高度依賴訓練數據,泛化能力弱,難以應對新情況。兩種主要技術途徑的局限阻礙了軍事智能決策技術進一步應用更高的層次和更復雜的場景。

表1 傳統智能決策技術及其局限

盡管強化學習及一般的人工智能方法在作戰決策領域已有不少運用,但多是在軍種和戰術層級上進行的[5-7]。戰術層級的決策及控制問題由于狀態單一、動作可數、因果直接、反饋即時等原因,邊界比較容易界定,給深入研究提供了很好的環境。而與之相對地,戰役層級的決策問題狀態廣袤、動作眾多、反饋延遲等因素,原因不僅在于戰場規模及復雜度的增大,還在于高層決策本身的過程有其獨特特點。聯合戰役層級相對于軍種戰術層級決策,決策層級變高,變量規模增大,以及過程的復雜性都給決策的智能化帶來極大挑戰,而且針對不同作戰場景有多種個性化研究的需求,有進一步研究的空間。

3 聯合戰役仿真推演環境

聯合戰役仿真旨在利用計算機仿真技術,還原戰役進程。聯合戰役仿真在仿真層級上處于中間位置,決定了它相對于純戰術仿真的抽象性,以及較戰略仿真的具體性。一般認為,戰役級仿真的層次應與其訓練戰役指揮員的目的保持一致,即避免底層過多的戰術動作,因戰役指揮員不能指揮到一機一艦;同時不能省略必要的體現戰術素養的交戰過程,才能客觀反映戰爭的行進。

文獻[2]定義了戰爭模擬的基本元素:實體、行動和交互,在聯合戰役仿真層面的特點可以概況為實體多樣、行為異質和交互復雜,下面依次簡述。

一般認為,由兩個以上軍種戰役軍團共同實施的戰役稱為聯合戰役。相應地,仿真實體應涵蓋兩個以上軍種戰役兵團,必然涉及多種性能差異較大的實體。

聯合戰役仿真一般模擬地面、空中、海上、情報和后勤行動的實施。為了模擬相對完整的聯合作戰進展,各作戰活動應涵蓋以下基本功能。

從表2中可以看出,不同行動在時間和空間維度差異性較大。當所有活動在同一世界觀下進行時,必然呈現行動效果的緩急差異。例如同樣是一小時時間,地面部隊可能只能移動40公里,而空中任務可以在幾千公里的廣闊疆域上來回幾趟。而海上單位可能移動更小。大部分地面或海上單位可能處于靜止狀態。情報后勤對戰場態勢的影響可能滯后或者不明顯。這些行動效果的差異正是對客觀世界的模擬造成的,反過來也影響在這樣的世界觀下進行的決策。

表2 聯合戰役仿真行動

在兵力交互方面,大型兵棋系統內部涉及眾多參戰兵力,交互過程異常復雜,一般采用離散事件仿真機制對交戰結果進行等效,以此改變戰場的形態。離散事件仿真方法用事件隊列維持事件的生命周期,所有事件按事件順序發生效果,將結果依次輸出。當事件處理服務速度低于事件產生速度時就會出現排隊現象,一般大量事件的涌入會造成交互效果的延遲。

4 對強化學習的挑戰

從上節描述可以看出,聯合戰役仿真環境與即時策略游戲有很多共同點:大規模的狀態和動作空間,復雜的任務完成設定以及需要長程決策等。受到AlphaStar等一些強化學習智能體在即時策略游戲中的啟發,也嘗試將類似的方法遷移到戰役決策中來,然而實踐并非一帆風順。本節結合強化學習問題設定和聯合戰役仿真的基本特點,梳理戰役決策對強化學習的挑戰。

4.1 連續的狀態空間和動作空間

聯合戰役仿真是對發生在現實世界中的戰爭活動進行模擬,整個戰場不僅包含多種異構的作戰單元和目標,還包含多種地形和天氣信息,實體與實體之間、實體與環境之間的交互比較復雜,整個狀態變化接近連續。由于戰爭迷霧的影響,參戰一方往往只能感知局部戰場態勢,并且感知范圍隨著偵察能力變化而變化。從對戰場環境施加影響方面看,能做出動作的作戰單元差異巨大,有的能對局部戰場造成顯著影響,大部分只能影響其作用對象,通常是另一個作戰單元或目標。

站在強化學習角度,代替作戰指揮的智能體所面臨的狀態空間可用全部參戰單元和戰場環境的高維向量表示。由戰爭迷霧帶來的直接影響是只能建模部分可觀測的戰場狀態。而智能體作用于環境的動作則包含所有能做出行動的作戰單元,以及行動參數,這些行動種類及參數共同構成巨大的動作空間。高維狀態空間和多維離散動作空間對智能體策略學習帶來可計算性的挑戰。目前學術界前沿未見類似的強化學習環境作為基線。

4.2 狀態變化的不確定性和獎勵的模糊性

強化學習中的模型是對環境的高度抽象,最重要的兩個功能是給出狀態轉移和釋放獎勵信號。然而這兩項基本功能在聯合戰役仿真環境下都是默認缺失的。

由于戰役仿真層次的抽象性和全局性,很難就整場態勢在具體動作的情況下發生轉移建立模型。聯合戰役仿真中,作戰實體的交互通常只在瞬間改變相關實體的實力狀態,但從長遠看可能對戰場態勢造成重要影響,例如通信樞紐的毀傷可能影響下級作戰單元的相應速度。但將其建模為可用的狀態轉移概率或者函數面臨以下困難:1)狀態表示問題,將戰役全局態勢表示成可轉移的統一形式是前提,而全局態勢的時空多樣性和由感知真實帶來的不完全性又給統一表示帶來難題。2)狀態變化的機理問題,在態勢的統一描述下,難點在于如何解決局部態勢變化受因果機理支配進而對全局態勢的影響。3)交互效果的不定期延遲,來源為觀測狀態的延遲和動作實施的延遲。4)建模的不確定性和隨機性對狀態變化的影響,主要是戰役仿真引擎內部對于交互的處理,加入了隨機性因素和近似的等效化處理。

在獎勵信號釋放方面,戰役決策中呈現模糊、延遲和可變的性質。獎勵信號指引著強化學習智能體學習的方向,而戰役決策通常由作戰企圖牽引,細化為作戰目的,具體分解為一系列作戰任務。表面看可用這些作戰任務的完成度來近似戰役決策的獎勵信號,但對智能體做出的行動很難具體量化以及其對作戰目的貢獻度。由上述討論可知,戰役決策帶來的不同領域的行動在時間上及空間上差異巨大,本身很難再同一量級下衡量其對戰役任務完成的貢獻。此外,異質行動混在一起帶來的另外一個問題是獎勵分配問題(credit assignment problem):如何分配不同性質的行動對同一作戰目的的貢獻度?例如一方發射導彈毀傷了對方的重要目標,前提是一個小時前派出的電子偵察機偵察到了該目標的存在,如何量化偵察部隊和導彈部隊的貢獻?

在一定獎勵信號可用的情況下,由于作戰決策下達到作戰任務完成可能持續很長時間,該獎勵被高度延遲。其中,戰役仿真的獨特性體現在仿真機制的一定自主性以及作戰行動交互效果的延遲性上。戰場態勢并非因指揮員做出決策而直接發生變化,戰場態勢經歷決策-行動-交互的過程更加漫長。

更嚴重的是,作戰目的本身往往隨戰役進程的推進而改變。改變的動力可能來自指揮員,也可能來自戰場態勢本身的突變。在目標可變情況下的強化學習本身是一個待突破的科學問題。

4.3 決策過程的非馬爾科夫性

馬爾科夫決策過程(MDP)為形式化強化學習問題提供了一般的數學基礎。其中,狀態轉移的馬爾科夫假設為強化學習提供了“一步一積累”的理想情況,反映了行動如何影響回報,進而為累積回報最大的目標提供一般的計算原則。其背后存在行為改變狀態的單一因果律。然而該假設在真實世界中往往不成立,在戰役仿真環境中尤其如此。主要體現在:1)戰役進程的驅動因素問題,戰役進程的發展表面是受參戰方各自行動及其交互的影響,而參戰方行動受各自企圖以及作戰規劃影響。2)作戰任務之間的路徑依賴較為普遍,復雜任務的完成得以一系列子任務按照嚴格次序完成。

還有一些任務是持續性的,例如偵察。決策的執行只是觸發該任務的起點,但發揮作用的時間卻是隨機的,有時根據戰場態勢自行改變任務狀態,進而對戰場環境產生持續性影響。對于這類任務的決策邏輯很難被智能體學習到。

4.4 決策過程的非均勻性

在聯合戰役推演中,因雙方兵種、實力、武器平臺等帶來的不對稱作戰,再加上戰場對抗激烈程度不一,大部分時間無需頻繁決策。以3.3中描述的戰役三個階段為例,除第二階段直接對抗以外,第一、三階段的大部分時間無需決策。而一旦需要頻繁決策,智能體無法在單個時間步長內控制大量單位執行不同類型的動作,這里既有仿真模型的限制,也有不同類型的動作所需時間差異大的問題。而為了規避此問題采用全場高頻決策會帶來大量沒有反饋的空動作。另外,戰役級仿真模型一般因采用離散事件仿真機制,若決策頻率高于仿真模型調度事件的頻率,則決策毫無意義。

決策過程的非均勻性導致了智能體除了要學習決策內容本身,理論上還要學習何時以何種頻率進行決策,而后者相對于前者具有超越性,相當于在兩個維度上同時進行學習,增加了策略優化的難度。如果推演過程的這種快慢決策具有一定模式,例如都是圍繞3.3中的三個階段固定模式進行推演,兩個維度的學習并非不可能。然而這樣的限定無疑與決策的泛化性要求背道而馳。

4.5 智能體訓練難題

游戲智能中大量運用的有監督預訓練、分布式訓練、自我對抗(self-play)、聯盟技術(league)等智能體訓練方法對于聯合戰役仿真推演環境同樣存在難以適配問題。

首先,戰役仿真推演由于推演目的、想定等因素,未能有效積累高質量決策樣本,難以提供有監督預訓練的樣本。對既定想定和場景,受專業性要求,人工標注決策過程的代價無法估計。

其次,大規模分布式訓練是游戲智能領域中的基本手段,而戰役仿真引擎受管理約束無法在在商用訓練云中大規模展開訓練。單位自建訓練環境相對于戰役層決策智能體訓練的復雜程度,難以讓有限的經費發揮作用。

自我對抗的訓練模式同樣無法實現。典型場景下參與對抗的作戰雙方由于歷史和現實需求,通常配備較大差異的作戰裝備和能力,動作空間有顯著的非對稱性,無法直接應用自我對抗的訓練方式。非對稱的智能體也限制了大規模的聯盟訓練技術。

5 可能的解決方案

針對在廣袤的狀態空間和動作空間中學習難題,分層強化學習提供了一條可能的道路:壓縮問題空間到可解的程度。無論是從狀態或動作垂直分層的指揮控制角度,還是以目標牽引的時序抽象角度,都可以找到合適的途徑解決部分問題。但基本維持在無模型的基于交互進行學習。

戰役仿真環境帶來更本質的挑戰在于模型本身,例如戰場狀態變化帶來的不確定性以、獎勵的模糊性、決策過程的非馬爾科夫性和非均勻性等問題,只能從環境模型層面加以解決。對于未知模型,大致可分為構造模型和學習模型兩種途徑,前者需要進一步提煉仿真經驗,而后者需要大量高質量數據,是戰役推演所欠缺的。重構精簡環境模型的另一好處是進一步壓縮問題規模,使得訓練成本降低,但需要領域專家結合學習特點進行建模。

6 結論

本文從梳理了當前軍事智能決策的研究現狀,以及將智能化方法運用到戰役決策的前景,從聯合戰役仿真推演環境的描述出發,分析了將強化學習應用到戰役決策所面臨的挑戰。這些挑戰來源于強化學習的問題設定和戰役推演環境運行之間的鴻溝,并就可能的解決方案進行了探討。這些問題不少是在將深度強化學習技術運用到戰役層決策的實踐活動中總結而來,旨在闡明問題的科學屬性,并為類似的嘗試提供一定的參考。

猜你喜歡
戰役戰場決策
戰場上的神來之筆
為可持續決策提供依據
C-130:戰場多面手
貼秋膘還有三秒到達戰場
戰役中的你
決策為什么失誤了
也門,西方反恐的第三戰場
備而不發,功不可沒——評抗美援朝“第六次戰役”
關于抗美援朝出兵決策的幾點認識
搶占三所里 阻敵建奇功——憶抗美援朝二次戰役穿插作戰中的先遣團
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合