?

對抗環境下的智能兵棋系統設計及其關鍵技術*

2024-04-24 09:20孫宇祥李原百趙俊杰周獻中
火力與指揮控制 2024年2期
關鍵詞:兵棋棋子子系統

孫宇祥,李原百,周 勝,趙俊杰,周獻中*

(1.南京大學控制科學與智能工程系,南京 210093;2.南京大學智能裝備新技術研究中心,南京 210093)

0 引言

近年來人工智能技術突飛猛進,尤其在智能博弈對抗領域取得了一系列的關鍵進展。2016年,AlphaGo 與李勝石進行了一場萬眾矚目的圍棋大戰,最終人工智能AlphaGo 以4∶1 的結果完勝人類,一時間掀起了社會上的廣泛熱議,推動了人工智能技術的又一次發展浪潮[1-2]。隨后,AlphaGo的研制團隊DeepMind 趁熱打鐵,在《星際爭霸》游戲上進一步取得明顯突破,研制成功AlphaStar[3]。中國騰訊AI Lab 利用深度強化學習技術,在《王者榮耀》游戲虛擬環境中構建“覺悟AI”,開發高擴展、低耦合的強化訓練系統,使得“覺悟AI”能夠具有進攻、誘導、防御、欺騙和技能連續釋放的能力[4]。

智能博弈系統雖然取得了顯著成就,但是依然有很多問題亟待進一步研究。雖然人工智能的概念早在1956 年就被提出,但是由于計算機性能的不足以及理論基礎的缺失,人工智能還遠遠沒有達到可以挑戰人類思維的地步[5]。隨著對于智能化研究的逐漸深入,各種算法的實現以及在圍棋上Alpha-Go 的出現[6-7],對智能博弈系統進行智能化研究已經是一種趨勢。智能輔助決策是制約智能博弈系統升級換代的瓶頸問題,是一個不容忽視甚至是需要爭分奪秒去解決的問題。由于智能博弈系統特點,深度學習和強化學習的算法效果依然有很大的提升空間。這里以最經典的博弈系統“兵棋推演”為例,簡述基于強化學習的智能博弈系統的構建思路及仿真驗證。

本研究設計的算法模型為設計適用于復雜環境的智能兵棋系統提供了思路:建立智能兵棋系統通用的體系架構,并針對每個模塊進行功能解釋。針對智能兵棋系統的核心模塊,建立智能決策算法模型,通過典型實驗環境來驗證建模思路。其中,智能決策模型以A3C 算法為代表的強化學習驅動,進而從原理和實踐上,驗證了智能決策算法模型在智能兵棋推演系統的可行性。

1 智能兵棋系統環境建模

1.1 智能兵棋系統構成要素設計

智能兵棋系統的組成必然包括了基本的構成要素,為了保障兵棋系統的正常輸入-輸出及智能博弈的有序推進,兵棋系統中應包括兵棋系統棋子、兵棋系統地圖、兵棋系統對抗規則及兵棋系統想定4 個基本要素。

1.1.1 兵棋系統棋子

在兵棋系統里面,棋子的用途是表示實際博弈單元,可以代表博弈中的游戲單元,也可以以編隊為基本單位,并且需要注明游戲單元的相關參數,比如單位編號、單元數量、攻擊能力、防護能力、機動力值等主要信息。

1.1.2 兵棋系統地圖

兵棋系統地圖的主要功能是模擬實際地理情況,需要真實反映平原、公路、山地、叢林湖泊、海洋、河流等地理條件與作戰場景[11]。目前主流的繪制地圖途徑有多種,一種是將實際的地理環境測繪出來,并依照比例尺縮放后進行還原,還有一種是將地圖網格化,進行一定程度上的抽象。由于網格化的地圖既易于機器進行理解,又能較好地還原實際地理條件與對抗場景,而按比例尺縮放的地圖不便于機器理解,因此,電子化兵棋系統的地圖一般選擇網格化的地圖,在這種情況下,網格化地圖中的網格又被稱作為棋格,兵棋系統雙方棋子行動的最小單元就是棋格,地理條件與對抗場景模擬的最小單元也是棋格。其原因是能夠與真實情況更加貼近。在真實的對抗環境中,對抗單位并不會被格子形狀限制移動規則,而是可以360°選擇方向。因此,為了與真實情況貼近,網格形狀應支持棋子有盡可能多的移動方向。正三角形、正方形與正六邊形可以無間隙覆蓋整個平面,這三者作為棋格時可以選擇的移動方向數分別為3、4、6,因此,現階段網格化的地圖基本上都采用六邊形作為網格的形狀[9]。

1.1.3 兵棋系統對抗規則

如果說棋子和地圖是兵棋系統的血肉和骨架,那么兵棋規則就是博弈的靈魂,是大量博弈對抗問題研究成果的集中反映,所有棋子的移動和地圖的使用都離不開兵棋規則[10]。規范兵棋推演并使其變得有序是規則的主要作用,規則能夠使參與兵棋推演的雙方,在一套明確具體的規定之下進行機動和對抗等一系列行動。兵棋規則內容的制定主要有兩個渠道:從過往的歷史經驗中總結,或者從抽象的模擬數據中總結。在絕大多數情況下,兵棋規則分為兩部分,一是推演規則;二是裁決規則[11],這兩部分規則的使用范圍以及作用效果不盡相同。推演規則側重于規范博弈的行為,進行如何博弈的說明,比如棋子的攻擊規則,棋子的機動規則,棋子上車下車規則,棋子隱藏掩蔽規則等,這些都屬于博弈推演規則。而裁決規則側重于明確棋子交戰的對抗裁決依據,對作戰過程中雙方棋子造成傷害進行裁決,最終確定交戰過程結束后雙方力量的戰損情況以及作戰的勝負情況[12]。

1.1.4 兵棋系統想定

想定的主要內涵是對推演的態勢情況、雙方對抗目標、對抗行動計劃以及進程發展等情況的提前設想,有企圖立案想定、基本想定、補充想定的劃分。需要明確的是,兵棋推演的想定需建立在棋子、地圖和規則上,對想定背景進行描述,給定初始對抗的態勢、博弈目標、研究計劃等,且對行動先后手、推演次數以及最終勝負的評判依據等進行明確。

1.2 推演基本規則設計

規則在博弈對抗中是限制和規范棋子行為的一套體系,會很大程度影響路徑選擇和博弈過程,在規則體系內作出的決策是決定推演勝負的重要因素[13]。因此,智能兵棋系統的設計必然是以基本規則的支撐為基礎的,本文以兵棋推演系統為例,通過程序函數把相應的基礎功能封裝為相應的基礎功能函數,通過基礎功能函數的調用,進而實現智能兵棋的算法,最終實現智能引擎的建立,其主要功能函數如下。

1.2.1 移動函數

初始化出發位置,在想定中進行賦值,計算每個棋子的x,y 坐標,獲取周圍六角格的坐標,進而在獲取的六角格坐標中選擇一個坐標進行賦值,然后進行坐標移動,移動方向包括東、西、東北、西北、東南、西南、靜止7 個方向。移動過程有機動力損耗,具體損耗值參考機動力損耗表,以坦克棋子為例。每回合每單位坦克具有2.5 單位的機動力值。

表1 不同地形機動力損耗Table 1 Loss of maneuverability at different terrains

1.2.2 射擊獎勵積分函數

對敵方棋子進行射擊,獲取敵方棋子的坐標,進而判斷射擊后敵方棋子是否存在,如果存在且坐標對應符合敵方棋子坐標,即獲得相應的獎勵積分,否則不得分。

1.2.3 射擊函數

獲取棋子的坐標位置,通過調用可視函數判斷是否可對敵方棋子進行觀察,如果觀察到可以射擊的距離,根據敵方與距離設定打擊效果。并且射擊會受隨機數影響,以模擬對抗的隨機性。射擊受到距離、地形、通視、隨機性等方面的影響,通過在隨機數上體現,具體如表2 所示。

表2 射擊規則Table 2 Shooting rules

1.2.4 獲取相鄰坐標函數

輸入棋子x,y 坐標,代表六角格的坐標,輸出list 列表,以列表形式表示周圍六角格坐標。

1.2.5 查詢兩個六角格之間的距離

輸入x0,y0,x1,y1為int 的坐標,表示起點六角格坐標和終點六角格坐標,輸出表示兩個六角格之間的距離。

1.2.6 獲取棋子狀態信息函數

通過函數獲取棋子的當前坐標以及回合機動狀態。

1.2.7 檢查棋子能否觀察對方棋子

輸入對方棋子狀態信息,可觀察對方棋子輸出true,不可觀察輸出false。整個智能兵棋的對抗規則是紅藍雙方進行對抗,雙方棋子可進行機動、遮蔽、直瞄射擊以及間瞄射擊,其中,機動是指輸入x,y 坐標,代表相鄰六角格的坐標,輸出效果,棋子進行移動;遮蔽是保證棋子進入隱蔽狀態,不利于被攻擊;直瞄射擊是輸入敵方棋子所在坐標,輸出相應射擊效果,射擊敵方棋子;輸入x,y 代表目標六角格坐標,輸出效果,間瞄目標六角格。

1.2.8 裁決規則

裁決規則。每次射擊后進行裁決,根據結果選擇:無效,損毀,壓制。每個坦克分隊有3 個班組,損毀結果從1~3 中選擇。如果壓制后,則會使對方棋子無法移動和射擊一回合,下回合恢復正常。

每局推演完畢后,一方總分=任務完成分+參數A×戰果分(損傷分+打擊分),并且判斷勝負。設置一個參數A,調整任務分和戰果分占總分的比例。因為任務分占比高時,和戰果分占比高時算法模型算出效果不同,前者結果的勝率高,后者結果的戰損比高。目前對于當前研究來說,勝率是最重要的評價因素,所以任務完成分占比較高。

1.3 智能博弈推演引擎核心接口設計

1.3.1 環境加載接口

智能兵棋接口應包括環境加載模塊,保證每次加載對抗想定可以啟動相關環境。

1.3.2 環境重置接口

該接口保證在每個episode 中可以重置環境,重新開始推演,并返回觀測值。在強化學習算法中,智能體需要不斷地嘗試,累積經驗,然后從經驗中學到好的動作。一次嘗試我們稱之為一條軌跡或一個episode。每次嘗試都要到達終止狀態。一次嘗試結束后,智能體需要從頭開始,這就需要智能體具有重新初始化的功能。函數reset()就是這個作用。

1.3.3 環境渲染接口

在每次的step 里面,env.render()會刷新畫面。render()函數在這里扮演圖像引擎的角色。一個仿真環境必不可少的兩部分是物理引擎和圖像引擎。物理引擎模擬環境中物體的運動規律;圖像引擎用來顯示環境中的物體圖像。其實,對于強化學習算法,該函數可以沒有。但是,為了便于直觀顯示當前環境中物體的狀態,圖像引擎還是有必要的。另外,加入圖像引擎可以方便調試代碼。

1.3.4 動作隨機選擇接口

env.action_space.sample()返回一個action 的隨機sample,即隨機在動作空間里面選擇一個動作,保證動作選擇的隨機性,防止局部最優。

1.3.5 執行動作接口

env.step(action)強化學習算法執行動作,需要返回動作執行后的狀態信息,根據貝爾曼方程需要返回狀態、回報值等。兵棋推演狀態空間可定義為位置狀態坐標X 和Y,同時包括棋子的實時狀態(機動、隱蔽、設計)形成兵棋推演的狀態空間。其中,棋子可機動方向為南、北、東北、西北、東南、西南以及靜止7 個狀態,分別定義為0~6;棋子在其中一格的射擊狀態為射擊或者未射擊,因此,這樣就可以為采用深度強化學習技術提供必須的基礎要求。

2 智能兵棋推演系統體系框架構建

本文設計的智能兵棋系統對抗環境如圖1 所示,主要由六角格代表具體地形。地形高程越高則顏色越深,黑色代表二級公路,紅色代表一級公路,陰影代表城鎮居民地,利于隱蔽。

圖1 智能兵棋系統想定展示Fig.1 Intelligent strategy system schematic display

智能兵棋推演系統主要有基礎支撐層、仿真平臺層及典型應用層3 層結構組織。智能兵棋推演平臺的整體架構,主要以AI 兵棋模型系統和數據庫為支撐,以棋子管理、地圖編輯、想定編輯、推演控制、輔助決策、態勢顯示、數據管理、分析評估為仿真平臺具體功能,以智能推演引擎接口支撐兵棋推演平臺兩類典型應用,如圖2 所示。

圖2 智能兵棋推演系統框架Figa2 Framework of intelligent strategy wargame system

圖3 DQN,A3C,PPO 實驗結果對比Fig.3 Comparison of experimental results of DQN,A3C and PPO

數據庫系統主要由目標態勢數據、裝備性能數據、交戰裁決基礎數據集毀傷裁決修正數據組成。目標態勢數據負責對抗態勢目標數據進行獲取,在獲取對方態勢數據后,為后續輸入數據進行處理做準備[14]。我方裝備性能數據包括對我方棋子的性能指標數據進行賦值,并作為智能決策的數據支持。對抗裁決基礎數據用于評估博弈對抗雙方在對抗后的結果,并引入隨機數據值。裁決規則是實施兵棋推演的基本準則和核心,是對過去作戰經驗的總結和歸納。兵棋推演中裁決規則是根據歷史數據并結合概率統計學原理設計的裁決方法和規定。毀傷裁決修正數據用于博弈對抗結束后,相關結果的進一步修正。

模型系統主要以強化學習驅動的智能決策算法為基礎,是智能博弈推演系統的核心[15],包括了紅方指揮AI 模型、藍方指揮AI 模型、紅方行動AI模型、藍方行動AI 模型、輔助決策分析模型及環境綜合作用模型?;诒宓幕疽亟M成,兵棋推演系統主要包括地圖編輯子系統、棋子編輯子系統、規則編輯子系統、想定編輯子系統、推演籌劃管理子系統,推演導調控制子系統、兵棋態勢顯示子系統、兵棋推演命令子系統8 個子系統。

2.1 地圖編輯子系統

地圖編輯子系統是針對每個想定所對應的對抗區域,導入規定格式的數字地圖或文本地圖,并對相關地貌和地物進行量化處理。根據地圖比例尺和六角格大小等兵棋設計要求,系統能對想定所對應的作戰區域進行地形量化。量化的地形信息能為各種作戰行動的裁決,提供所需數據支撐。

2.2 棋子編輯子系統

棋子編輯子系統是對單位棋子、地物棋子、注記棋子進行編輯,棋子分辨率最小定為單兵、單件重火器,單兵的武器裝備可疊加,棋子可合并、分解,即一個棋子分解為多個棋子、多個棋子合并為一個棋子。

2.3 規則編輯子系統

規則是兵棋推演事件裁決的依據,兵棋的特點之一就是具有非常具體、細致且各不相同的規則,正是這種規則體系使得兵棋可將軍事專家的經驗來建模模擬,因此,在處理各種關系和裁決方面的處理將主要體現為不同規則組合與使用。規則編輯子系統能夠對裁決表和裁決流程進行編輯。兵棋規則均為開放式,可快速更改,在裁決過程中,可依據裁決結果查找對應的交戰規則,此外,還應考慮玩家對棋子數據的影響。

2.4 想定編輯子系統

想定編輯子系統用于容納各種對抗樣式、各個對抗層級的各個推演想定,并可以靈活地進行編輯。

2.5 推演籌劃管理子系統

推演籌劃管理子系統用于推演開始前在兵棋地圖進行量算作業,分析判斷推演環境、推演任務、推演力量情況,在分析判斷的基礎上,確定推演目標、推演編成、態勢配置、推演計劃等。

2.6 推演導調控制子系統

推演導調控制子系統能夠為導裁人員提供兵棋推演管理之外的其他導調控制功能支持,導裁人員可以對當前正在推演的所有推演進程進行監控。

2.7 兵棋態勢顯示子系統

態勢顯示模塊用于對兵棋推演的態勢進行可視化,方便博弈者清晰地了解當前態勢。

2.8 兵棋推演命令子系統

兵棋推演命令子系統主要包括兵棋推演命令下達、命令糾錯、命令預裁決、命令排序、命令顯示、命令報表等功能。

3 智能決策模型設計

隨著強化學習技術的不斷發展,現有強化學習技術范式已從基于海量數據的樣本學習模式,逐漸向自主學習進化模式轉變,在小樣本或無樣本環境下采用“左右互搏”技術[16]。本章設計基于強化學習的智能決策模型,從而實現智能兵棋系統的自主決策和自主博弈對抗。設計的智能兵棋推演系統包括了強化學習算法選擇模塊,可以自主選擇所使用的智能算法,從而進行智能決策。需要對仿真環境的狀態變量空間與動作變量空間進行篩選,得到適用于算法輸入、輸出的狀態空間S={s1,s2,...,sn}和動作空間A={a1,a2,..,am}。智能算法包括基于DQN 算法驅動、基于A3C 算法驅動和基于PPO 算法驅動3種典型類型,為驗證算法可行性,本文實驗所使用的藍方是正常版本的規則AI 進行測試。

3.1 狀態輸入

在智能兵棋環境狀態輸入為當前我方棋子可以觀察到的(Obs)observation,該Obs 以列表形式輸入強化學習算法的神經網絡,用于訓練神經網絡并得出估計值。對于強化學習需要輸入兵棋全局的Obs,本文以r(si)表示,包括棋子周圍高程、棋子周圍地圖類型、雙方棋子剩余血量、雙方的數量、雙位置信息、奪控點位置信息、棋子是否通視,全局狀態觀察量r(s)=r(si)∪r(s2)∪…∪,即所有局部狀態觀察量的并集,如表3 所示。

表3 狀態信息設置Table 3 Tatus information settings

3.2 算法驅動過程

在本文設計的智能兵棋博弈平臺中,設計的算法為采取分布式執行、集中式訓練的A3C(asynchronous advantage actor-critic)行動決策算法框架。A3C 算法是由Google DeepMind 在2016 年提出的,用于解決連續控制問題的一種深度強化學習算法。該算法延續了傳統的Actor-Critic 框架,即Actor 用于選擇動作,Critic 用于評估狀態價值,在此基礎上采用了多線程異步更新的訓練方法,即在多個CPU 核心上并行執行訓練任務,從而加速整體的訓練過程,提升了訓練效率和穩定性。

如圖4 所示。多智能體訓練時采用集中式學習訓練Critic 與Actor,使用時Actor 只需知道局部信息即可執行。記棋子為agenti(i=1,2,...,n)。局部狀態觀測量是每個棋子能夠觀察到的態勢信息集合。每個Critic 網絡的輸入會將對應棋子的動作AI 以及行動后的全局狀態觀測量考慮在內,且每個棋子都擁有自己的獎勵值。每個棋子的Actor 網絡更新時,Critic 網絡輸出的狀態估計差值會輸入進行更新,以此來調整Actor 網絡。

圖4 強化學習AC 框架Fig.4 Reinforcement learning AC framework

同時,本文在實驗時對每個智能體訓練多個策略,并基于所有策略的整體效果進行優化,以提高A3C 算法的穩定性及魯棒性。實驗中的每個Actor和Critic 都有一個eval-net 和一個target-net。Critic的狀態估計網絡生成的Q 值和狀態現實網絡生成的貝爾曼方程計算出來的值進行相減,計算出loss值,再利用loss 值反向更新Critic 網絡參數,再利用Critic 反向指導優化Actor,最后利用Actor 進行動作輸出。更新Actor 網絡的目的在于調整動作輸出的概率,使其朝著得到更高價值的方向調整。

3.3 動作輸出

輸出動作在wargame 中,可以在執行動作后獲取新的態勢信息和回報值,進而反饋到Q 網絡中,進一步更新網絡參數。具體的輸出動作包括移動、射擊、靜止和隱蔽,如表4 所示。

表4 動作信息表Table 4 Action information table

由于行動決策的不確定性以及開火對象的不確定性,且想定地圖狀態空間復雜,會使得訓練的收斂速度較慢,很可能長時間難以取勝[17],導致大量無意義訓練。針對以上環境的特性,本文對兵棋棋子的戰術決策擬定了如圖5 所示的詳細戰術決策規則,該規則AI 屬于加強版的規則AI。本文基于綜合規則和多智能體強化學習算法的決策生成機制,同時構建多智能體強化學習算法在對抗過程中的在線評估體系σ。當獲取當前態勢信息后,A3C 算法輸出相對應的決策方案后,利用σ 來評估當前動作是否有效,如果大于σ 值則按照強化學習A3C 方法進行動作輸出,如果小于σ 值則按照專家規則庫中方案進行動作輸出。σ 值計算包括Rwin獲勝回報值,St1紅方坦克存活分數,Gt1值紅方奪取奪控點分數,Kt1值紅方擊毀對方坦克分數,Rwin獲勝回報值,St2藍方坦克存活分數,Gt2藍方奪取奪控點分出,Kt2值藍方修正系數擊毀對方坦克分數,α1分別表示修正系數。通過計算得出σ,根據專家經驗擬定選臨界值,如果σ 超過臨界值則選擇強化學習A3C 決策算法,否則按照專家庫規則進行動作選擇。這樣可以保證動作輸出不會長期難以收斂,且避免了大量無意義的訓練。

圖5 智能體戰術決策規則Fig.5 Tactical decision rules of agents

圖6 智能兵棋推演系統推演效果Fig.6 Simulation effect of intelligent strategy simulation system

3.4 獎賞值設置

在強化學習中,獎勵承擔了監督訓練過程的作用,智能體根據獎勵進行獎勵優化。在本文所討論的仿真環境中,由于兵棋推演環境只針對動作進行規則判斷以及交戰決策,并不在發生機動或者交戰之后提供任何獎勵信息,只會在我方棋子到達奪控點或者全殲敵方棋子之后發送勝利信息或者敵方棋子到達奪控點或者我方棋子被全殲之后發送失敗信息兩種情況,也即在訓練過程中的每一步都是無獎勵的[18]。但是,這種情況會導致訓練的過程大部分時間是沒有獎勵的,這種稀疏獎勵會導致訓練結果難以收斂,訓練效率很低。本文針對這種情況,加入了額外獎勵機制,即在棋子與奪控點距離越近則獎勵值增加,距離奪控點越遠獎勵值減少,并且為了防止棋子無限移動難以收斂,本文對每移動一次即扣除微量的獎勵值,防止無法收斂的情況。具體的獎勵設置如下頁表5 所示。

表5 獎勵設置表Table 5 Reward setting table

4 智能兵棋推演系統仿真驗證

本章結合本文的兵棋構成要素、兵棋規則、系統架構及智能決策模型構建智能兵棋推演系統,并在該系統進行智能博弈對抗,生成對抗數據,驗證本文智能博弈系統的設計思路的可行性。

想定描述:智能博弈兵棋系統主要分為紅藍兩方,獲勝規則是一方率先到達奪控點,或者擊毀另一方所有坦克。六角格作為地圖基本組成單位,每個六角格具有編號和高程,高程越高則顏色越深。紅色實線代表一級公路,黑色實線代表二級公路。六角格中有陰影部分代表城鎮居民地,坦克在城鎮居民地中不利于對方發現,有利于隱蔽,提高生存率。

在博弈推演中,以紅藍雙方對抗博弈進行推演。紅方以強化學習算法為驅動,藍方以加強版規則AI 驅動。以100 局為單位進行勝率統計,詳細勝率如圖7 所示。

圖7 詳細勝率Fig.7 The detailed win rate

在100 局的對抗過程中,以A3C 強化學習智能算法控制的紅方勝率達到66%,以基于知識庫的基于規則的藍方勝率達到34%。紅藍雙方對抗的細節分數展示如圖8 所示。通過博弈對抗細節得分,可以更好地驗證博弈系統設計的可行性。其中,存活分數紅方為3 712 分,藍方為4 009 分。到達奪控點得分紅方為2 631 分,藍方為1 461 分。擊毀敵方棋子得分紅方為632 分,藍方為521 分??傮w上以強化學習算法控制的紅方AI 主要以奪取奪控點取得勝利,顯示出強化學習算法更傾向于快速高效的獲勝方式,而基于規則的藍方AI 以打擊對方取得獲勝,總體上還是強化學習算法的方法更加具有優勢。

圖8 細節分數展示Fig.8 The show of detail scores

5 結論

智能博弈已成為當前研究的熱點問題。本文以智能兵棋推演為例,詳細介紹了智能兵棋推演系統的環境建模所需要的基本要求。分析構建智能兵棋系統所需要的基本要素以及兵棋推演基本規則,建立智能兵棋推演系統的核心引擎接口,建立智能兵棋推演系統體系框架。對于智能兵棋推演最核心的智能決策模型進行詳細分析介紹,構建基于A3C 的強化學習智能推演引擎,通過A3C 的強化學習算法,驗證了該智能博弈推演系統設計的可行性。本文工作可以為智能博弈對抗推演系統的構建提供一個可行路徑,為智能博弈領域的研究提供基礎性的工作參考,未來會在該智能博弈系統上,進一步研究強化學習算法的改進優化工作。備注:

本文依據的實驗平臺是團隊自主開發的“先勝1 號”智能兵棋環境,如讀者需要平臺進行實驗驗證可聯系第一作者。

猜你喜歡
兵棋棋子子系統
不對中轉子系統耦合動力學特性研究
棋子多少顆
擺棋子
有趣的棋子
兵棋推演:未來戰爭的水晶球
GSM-R基站子系統同步方案研究
基于兵棋推演實驗的綜合評估指標度量方法
駝峰測長設備在線監測子系統的設計與應用
基于深度學習的兵棋實體決策效果智能評估模型
基于混合Beta分布的兵棋推演可信度評估方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合