?

面向作戰決策智能體的融合賦權評估方法*

2024-04-24 09:20張人文陳希亮趙春宇
火力與指揮控制 2024年2期
關鍵詞:賦權決策評估

張人文,賴 俊,陳希亮,趙春宇

(陸軍工程大學指揮控制工程學院,南京 210007)

0 引言

當前,世界新軍事變革加速演進,利用強化學習技術訓練智能體進行作戰智能決策,成為作戰領域的研究熱點。美軍“深綠”計劃、“空戰演進”項目等都是作戰智能決策領域的典型應用[1-3]。通過耦合專家知識,而后在數據驅動下使用強化學習方法進行訓練,獲得符合戰場環境需求的作戰決策智能體,指揮員及參謀人員能夠及時評估作戰計劃,驗證作戰構想,完善作戰方案,使作戰籌劃、作戰實施階段指揮機構人員從繁重的手工作業和腦力勞動中得到解放,提升應對戰場態勢變化的效率,加速“觀察-判斷-決策-行動”循環[4],獲得戰場優勢。

通過強化學習方法訓練出合適的智能體后,能否對智能體決策效果進行合理評估是判斷模型可用性的關鍵。智能體效果評估的重點在于衡量智能體決策是否達成作戰目的、完成作戰目標,是智能體能力評估的核心內容,也是輔助指揮員選擇作戰方案的重要依據[5]。然而,目前在作戰智能決策領域,雖然實際應用于智能體訓練的強化學習方法較多,但對智能體訓練效果評估開展的研究仍然較少,大多僅簡單依靠勝率等單一指標。歐微等通過構建兵棋決策效果評估模型,實現對決策效果的快速準確評估[5];方偉等從評估決策的有效性、實時性、魯棒性3 個維度,對航空兵智能決策模型的評估方法進行了分析[6];鄭華利等從系統工程角度出發,開展作戰輔助決策模型構建與評估通用方法的研究,提出輔助決策模型評估分級的一般流程與方法[7];韓超通過建立評估指標體系,應用深度學習方法對作戰推演中智能博弈對抗算法水平評估模型進行研究[8],上述研究雖側重點不一,但均未涉及強化學習智能體評估,無法滿足作戰決策智能體的評估要求。

由于訓練算法與硬件算力等條件的限制,目前應用強化學習算法對作戰決策智能體進行訓練時,大多采取與預先設定好行動規則的對手進行仿真對抗的方式。而勝率作為對戰結果的直接體現,被許多研究者用來作為評估智能體的依據。但考慮戰場的高度復雜性及作戰進程的不確定性,規則型對手具有較高局限性,容易造成智能體對訓練環境的過擬合,且智能體有可能出現勝率較高但決策動作或效果不符合實際的戰術要求的情況,因此,僅靠勝率這一單一指標難以對智能體訓練效果進行全面的量化評估。

在評估領域,目前得到較多應用的方法是通過構建評價體系并對各指標賦予相應權重的綜合評價法,如基于主觀權重的層次分析法(analytic hierarchy process,AHP)、Delphi 法等,基于客觀權重的CRITIC 法、熵權法等[9-12]。但單一方法存在主客觀差異,具有一定的局限性。在解決較為復雜的評估問題時,研究者往往對多種方法綜合使用。

本文以作戰決策智能體評估這一問題為切入點,充分考慮智能體的戰場環境適應性及智能體訓練的方法手段,通過建立作戰決策智能體評估指標體系,采用融合主客觀權值的融合賦權法及逼近理想解排序法(TOPSIS)[13]對智能體效果進行打分排序,評估智能體訓練效果,避免僅采用勝率作為單一指標的局限,為解決該類評估問題提供支撐。

1 作戰決策智能體評估指標體系

作戰決策智能體是使用計算機技術解決軍事決策問題的典型應用。因此,構建評估指標體系時,必須充分考慮模型應用場景,結合智能體使用的強化學習方法特點,突出智能體可靠性及作戰決策能力,并依據戰場環境各要素對智能體影響程度形成綜合評估指標。

作戰決策智能體評估指標體系包括戰術、技術兩大因素,主要涵蓋作戰決策能力等主觀指標及智能體訓練效率等客觀指標,包括作戰決策有效性、作戰意圖實現性、作戰環境適應性、智能體訓練效率、智能體訓練體系及智能體訓練方法,如圖1 所示。

圖1 作戰決策智能體評估指標體系Fig.1 Operational decision-making agent evaluation index system

以上為第一層次指標,第二層次指標具體構成如下。

1.1 作戰決策有效性評估指標

決策有效性是反映智能體決策效果的評估指標,主要包括裝備效能發揮水平、威脅評估水平、戰中臨機處置水平、戰術效果等。

裝備效能發揮水平是反映智能體發揮武器裝備效能的指標,如智能體控制的坦克能夠在戰場進行機動、開火,做到發現對手、殲滅對手;威脅評估水平是反映智能體面對敵方威脅時主動進行態勢評估的指標,即面對復雜戰場態勢時,智能體能夠作出決策,首先消滅對自身威脅程度最大的對手,例如武裝直升機面對敵方主戰坦克和防空車輛時,應根據戰場形勢作出判斷,是否首先摧毀敵防空車輛;戰中臨機處置水平是反映智能體對敵方偷襲、預備隊投入戰場等未知情況能否進行高效決策的能力指標,體現智能體全流程決策能力;戰術效果是反映智能體決策是否具備戰爭藝術的指標,智能體可通過強化學習技術掌握如穿插、迂回等戰術手段,應用于作戰決策。

1.2 作戰意圖實現性評估指標

意圖實現性是反映作戰決策智能體功能實現情況的指標,即能否實現作戰意圖、完成作戰任務、達到作戰目的,主要包括智能體在仿真環境進行驗證時的勝率、兵力生存時間、智能體的戰場損耗率、對敵方毀傷率等。

勝率是體現智能體能否戰勝對手的重要指標。即在仿真戰場環境下,智能體與規則型對手或人類對手進行對戰取得勝利的場次比率;兵力生存時間是智能體在戰場整體生存能力的體現,在主動投入戰斗的情況下,智能體能夠有效牽制敵方,保存自己消滅對手,達成戰術目標;戰斗損耗率是智能體決策結果的直接體現,例如,達成同等戰術目的的情況下,“殺敵一千自損七百”的智能體比“殺敵一千自損八百”的決策效果好;對敵方毀傷率與戰斗損耗率相反,反映同等戰斗單元殲滅敵方兵力情況。

1.3 作戰環境適應性評估指標

環境適應性是反映作戰決策智能體適應環境能力的評估指標,即避免智能體對訓練環境的過擬合,具備遂行不同作戰背景下進行決策的泛化性。主要包括戰場環境適應性、我方兵力布勢適應性、敵方兵力布勢適應性等。

戰場環境適應性反映智能體對不同地理位置、不同作戰時間等的適應情況;我方兵力布勢適應性、敵方兵力布勢適應性,分別反映智能體對我方、敵方兵力規模及初始位置的適應情況。

1.4 智能體訓練效率評估指標

智能體訓練效率是反映作戰決策智能體實際應用性價比的評估指標,即智能體是否能夠在較短時間內完成訓練、面對新情況時能否接續訓練進行能力提升及算力資源需求。主要包括智能體訓練耗時和智能體訓練資源耗費等。

智能體訓練耗時是智能體評估的客觀指標,若智能體雖效果較好,但訓練時長超出人們的可接受范圍,則不具備較好的應用性;同理,智能體訓練資源耗費也是評估智能體訓練性價比的客觀指標,若訓練所需的硬件資源(如顯卡算力,以NVIDIA GeForce RTX 3080 為97MHash 的基準計算)過多,不具備實際可操作性,則無法進行應用,成為“空中樓閣”。

1.5 智能體訓練體系評估指標

智能體訓練體系是反映作戰決策智能體訓練流程、步驟合理性的評估指標。由于作戰決策智能體采用強化學習特別是多智能體強化學習技術,訓練智能體時常遇到的冷啟動、探索與利用、獎勵稀疏等問題也需要恰當處理。主要包括訓練流程合理性、訓練體系創新性[14-16]、強化學習算法運用等。

訓練流程合理性是反映訓練各階段內部及各階段之間是否銜接順暢、有效的指標,如智能體訓練時應該先易后難,使用規則耦合等方式對智能體訓練初期進行引導,采用知識驅動等方式提高訓練效果;體系創新性是反映訓練過程創新特色的指標,如設置更有效的探索利用參數、設計新的獎勵函數等;強化學習算法運用是反映智能體訓練算法質效的指標,訓練時可以選擇MAPPO、QMIX、MADDPG 等主流算法并改進優化,篩選符合需求的算法,提升智能體的決策能力。

1.6 智能體訓練方法評估指標

智能體訓練方法是反映作戰決策智能體訓練手段先進性、合理性的評估指標。主要包括對手抽樣方式設計、自我學習提升、綜合方法設計與運用等。

對手抽樣方式設計是衡量對抗環境下智能體訓練方法優劣的典型評價指標,在戰場激烈對抗條件下,挑選訓練對手是一個重要環節,面對太強的對手,智能體常被擊敗,較難學習,面對太弱的對手,智能體輕松獲勝,無法提升;自我學習提升是智能體決策能力提升的新穎方法,采用類似“左右互搏”的手段,能夠在獲得訓練數據的同時,尋找自身漏洞,減輕強化學習智能體策略遺忘現象的影響;綜合方法設計與運用是反映智能體訓練方法綜合性能的指標,如使用聯盟訓練[17]、種群訓練[18]等綜合方法,嘗試突破智能體策略循環的限制,提升智能決策性能。

作戰決策水平是指揮藝術的重要體現。因此,設計評估體系時,需要充分考慮不同技戰術指標對智能體決策過程合理性與結果合理性的影響。體現結果合理性的指標方面,充分利用智能體客觀數據反映決策效果;體現過程合理性方面,運用指揮機構人員的主觀能動性,可通過集體研究賦分的方式反映智能體決策的戰術效果及戰術合理性。將底層指標通過主客觀不同方式融合進入作戰決策評估過程,形成底層指標內部獨立、上層指標外部融合的整體,提升評估體系的合理性,如圖2 所示。

圖2 作戰決策智能體評估指標體系示意圖Fig.2 Operational decision-making agent evaluation index system diagram

2 基于融合賦權-TOPSIS 綜合評價法的評估建模過程

2.1 融合賦權過程

為了解決各類評估問題,人們對具有不同特點的賦權方法進行了大量研究。但不同方法的特點也導致了一定的局限性,如主觀賦權方法難以精確量化客觀指標,同樣,客觀賦權方法無法反映主觀因素影響。為全面反映評價過程,本文采用主客觀評價方法分別對相應指標進行賦權,而后融合進評估體系的融合賦權方法。通過區分主客觀因素求取權重的方式,使不同的賦權方法分別反映指標自身特點,體現權值的合理性。

2.1.1 主觀賦權

層次分析法是一種典型的主觀賦權方法,能夠將定性分析和定量計算相結合,反映評估人的主觀意圖。在作戰決策智能體評估指標體系中,許多指標如作戰決策有效性、作戰環境適應性、智能體訓練體系、智能體訓練方法等指標帶有一定的主觀性,難以精確地進行量化,使用層次分析法可以較好的發揮優勢,反映主觀因素影響,繼而確定指標權重。

層次分析法的主要步驟[19]如下:

1)分析評估問題影響因素及內部關聯,確定評估目標,建立指標體系。

2)構造判斷矩陣。采用兩兩比較的方式,對各個指標間的相互重要性進行賦值。判斷矩陣J 中,aij表示第i 個元素ai相對第j 個元素aj的相對重要性,可采用1~9 標度法。

由各元素相對重要性向量:

可得相對重要性權重向量W:

3)對判斷矩陣進行一致性檢驗。主要是對判斷矩陣中的邏輯矛盾進行檢查,保證邏輯合理。

引入一致性指標CI,表達式為:

一致性比率為:

其中,RI 為平均隨機一致性指標。一般認為,當CR小于0.1 時,判斷矩陣通過一致性檢驗,且該值越小則一致性越理想。

2.1.2 客觀賦權

CRITIC (criteria importance though intercriteria correlation)法是一種典型的客觀賦權方法,通過利用數據計算評估指標的標準差和相關系數,反映指標間的對比強度及沖突性[20]。該方法不需要大量的計算,能夠兼顧指標之間的變異性大小和相關性,是一種比熵權法和變異系數法效果更好的方法。

CRITIC 法的主要步驟[21]如下:

假設現有P 個評價指標,N 共個評價樣本,形成數據矩陣M:

1)數據無量綱化處理

一般使用正向化或逆向化處理,對于正向指標(指標的值越大越好):

對于逆向指標(指標的值越小越好):

2)計算指標變異性

通常使用標準差體現指標變異性:

其中,Sj表示第j 個指標的標準差。

3)計算指標沖突性

通常使用相關系數體現指標沖突性:

4)計算指標的綜合信息量

5)得到各指標權重系數

2.1.3 融合賦權

在作戰決策智能體評估指標體系中,既有主觀性指標,又有客觀性指標,難以單獨通過某種特定賦權方式完整地反映各指標的特點。因此,與組合賦權[22]不同,本文采用基于主客觀賦權結合的融合賦權方法。融合賦權的具體含義為:對于作戰決策有效性(A)、作戰環境適應性(B)、智能體訓練體系(E)、智能體訓練方法(F)等4 類主觀性指標所屬的第二層次各指標采用層次分析法進行賦權;對于作戰意圖實現性(C)、智能體訓練效率(D)等2 類客觀性指標所屬的第二層次各指標使用CRITIC 法進行賦權,而后分別融合進入評估指標體系。不同賦權方法內部獨立,外部融合,能夠體現方法優勢,提高賦權合理性、科學性,如表1 所示。

表1 融合賦權方法示例Table 1 Examples of fusing weight method

對于作戰決策智能體評估指標體系所屬的第一層次6 類指標,結合指標特點,采用層次分析法進行主觀賦權。

2.2 融合賦權-TOPSIS 綜合評價法

TOPSIS(technique for order preference by similarity to an ideal solution)法又稱逼近理想解排序法,廣泛應用在方案評估問題中,能夠充分利用原始數據信息,準確反映出各方案之間的差距和優劣[23]。

TOPSIS 法主要步驟如下:

1)將原始數據正向化

將極小型指標、中間型指標、區間型指標統一轉化為極大型指標,形成數據正向化矩陣。

2)將正向化矩陣標準化

消除量綱影響,對正向化矩陣進行標準化,可采用如下方式:

其中,Zij表示標準化后的元素值。

對于n 個待評價對象,m 個評估指標,標準化矩陣Z:

3)計算得分

定義最大值Z+:

定義最小值Z-:

則第i 個評價對象帶權重的正理想解為:

則第i 個評價對象帶權重的負理想解為:

第i 個評價對象的得分為:

根據得分的大小即可判斷方案的優劣,進而進行評價及篩選。

3 作戰決策智能體效果評估分析實例

通過構建陸上合成分隊進攻作戰場景,將使用不同強化學習方法訓練出來的6 個作戰決策智能體與預先設置好的規則型對手進行對戰,獲得對戰數據,對本文提出的融合賦權-TOPSIS 方法進行驗證。

3.1 陸上合成分隊進攻作戰場景構建

本文構建了由紅藍雙方展開遭遇對抗的陸上合成分隊進攻作戰場景。紅方由3 個坦克排(各含4 輛坦克)、2 個武裝直升機中隊(各含4 架武裝直升機)、1 個防空導彈排(含4 輛履帶式防空導彈車)等兵力組成,使用強化學習算法訓練,自主決策;藍方兵力規模與紅方對等,使用設定好的固定戰斗規則,如圖3 所示。

圖3 紅方坦克排Fig.3 Red tank platoon

作戰場景構建基于Unity 平臺,以C#作為開發語言,使用ML-agents 機器學習工具包,作戰實體模型接入多智能體深度強化學習算法,用于作戰決策仿真。實驗基礎硬件為Intel 512 G 固態硬盤,128 G內存,操作系統為Windows 10。不同智能體訓練時,使用NVIDIA GeForce RTX 系列不同型號顯卡,以便獲取訓練資源耗費的相關數據。

交戰地域為三維仿真野戰開闊地,紅藍雙方于固定區域范圍內生成兵力,但不設置固定起始位置。

以紅方兵力運用為例,交戰時,紅方坦克排擔負陸上突擊任務,紅方武裝直升機中隊擔負空中突擊任務,重點攻擊藍方坦克及履帶式防空導彈車;紅方履帶式防空導彈車擔負野戰防空任務,重點抗擊藍方武裝直升機。藍方兵力運用相同。

交戰時,雙方主戰裝備首先進行戰場態勢感知,按仿真規則對敵方目標進行偵察,發現目標后自行判斷是否具備開火條件,若條件具備,則對目標開火,否則進行戰場機動。開火后繼續攻擊前進,在殲滅目標后繼續搜索其他目標,直至殲滅敵方全部目標,如圖4 所示。

圖4 陸上合成分隊進攻作戰場景Fig.4 The simulation platform of Army synthesis unit’s offensive combat environment

3.2 作戰決策智能體訓練

預先訓練6 個作戰決策智能體,作為此次效果評估對象。

6 個作戰決策智能體使用MAPPO、MADDPG 等不同核心算法進行訓練。訓練過程中,分別采用與規則型對手對戰、自我博弈對戰及隨機對手抽樣對戰等多種方式,掌握作戰決策能力。而后,通過改變兵力初始位置、臨機增加敵方兵力等途徑,進一步提升智能體適應戰場環境能力,使決策能力符合,避免過擬合。

3.3 指標數據采集

評估時需采集評估體系的主客觀指標。獲得主觀指標數據時,每個智能體分別與固定規則型對手進行10 次交戰,交戰時在部分輪次按一定規則改變敵我雙方初始位置,戰中適當增加藍方兵力,觀察智能體交戰表現,作為主觀指標的打分依據。獲得客觀指標數據時,每個智能體分別與固定規則型對手進行100 次交戰,根據勝負場次計算勝率,生存時間、戰損率、毀傷率以100 次交戰的平均值計算。

3.4 確定主觀指標權重

邀請若干負責作戰決策工作的參謀部門人員共同商討,對各層次指標進行重要性比較,構造判斷矩陣。

對于第1 層次指標,判斷矩陣為:

可得第1 層次各指標權重為(保留2 位小數):ωM=(0.08,0.12,0.16,0.25,0.22,0.17)

對于第2 層次指標,判斷矩陣為:

可得各主觀指標權重為(均保留2 位小數):

ωA=(0.17,0.29,0.34,0.20)

ωC=(0.54,0.30,0.16)

ωE=(0.17,0.44,0.39)

ωF=(0.21,0.24,0.55)

3.5 確定客觀指標權重

根據對戰情況,獲得6 個作戰決策智能體的各項數據,如表2 所示。其中,兵力生存時間單位為s,訓練耗時單位為h,訓練資源耗費單位為MHash。

表2 6 個作戰決策智能體演示數據Table 2 Demo data of 6 operational decision-making agent

經數據無量綱化處理,使用CRITIC 法獲得客觀指標權重為:

ωB=(0.17,0.16,0.54,0.13)

ωD=(0.46,0.54)

融合各項指標權重,可得評估體系整體權重,如表3 所示。

表3 各級指標權重Table 3 Weights of indicators at all levels

3.6 智能體決策效果評估與分析

根據現場演示情況,形成作戰部門人員對6 個智能體效果的打分結果,各主觀性指標滿分以10分計(最高10 分,最低0 分,取整記錄),具體如表4所示。

表4 各智能體指標得分及運行數據Table 4 Agents index score and operation data

采用TOPSIS 法,基于融合權重,對6 個智能體進行打分排序,結果如表5 所示。

表5 基于融合權重-TOPSIS 法智能體評估結果Table 5 Agent evaluation results based on fusing weight-TOPSIS method

由排序結果可知,雖然在演示中智能體3 勝率最高,各項戰術指標得分也較高,但其戰損率也相對較高,且訓練耗時和資源耗費均最高,毀傷率與戰損率超過1∶1,屬于“不惜一切代價達成決策目的”,行為較激進,因此,綜合評分較低;智能體4 勝率水平不高,但毀傷率與戰損率達到1.6∶1,能夠有效消滅敵人,且訓練耗時和資源耗費均處于較低水平,綜合評價最好;智能體2、智能體5 勝率接近,但智能體5 在反映強化學習方法的多項指標得分比智能體2 高,且使用的訓練資源最少,訓練時間適中,性價比較高。智能體1 訓練體系創新性和強化學習算法運用兩項指標得分較低,且毀傷率與戰損率比值小于1,決策效果整體發揮不明顯,但受訓練時長不足的影響,決策能力有待提升;智能體6勝率與智能體3 幾乎相同,毀傷率與戰損率達到1.4∶1,其余指標也較好,但其訓練耗時最高,達到智能體4 的1.34 倍,在戰時遇到新情況新態勢需重新訓練模型時,訓練耗時高是嚴重短板,因此,評分相對較低。

綜合各指標數據,通過使用主客觀方法分別對不同類型指標進行量化賦權,權值融合后進行打分排序,得到的6 個智能體評價結果,使其既反映智能體的決策戰術性能,又反映智能體訓練客觀情況,提高作戰決策智能體效果評估的科學性。

4 結論

本文針對作戰決策智能體評估這一問題,從戰術、技術等不同維度,構建了涵蓋作戰決策有效性、作戰意圖實現性、作戰環境適應性、智能體訓練效率、智能體訓練體系和智能體訓練方法等6 個方面的評估指標體系,設計了基于AHP-CRITIC 和TOPSIS 的融合賦權評估方法,并對6 個作戰決策智能體實例進行評估分析,得到下列結論:

1)融合賦權方法能夠科學有效反映不同類別指標特點。通過使用AHP 和CRITIC 方法分別對主客觀指標進行賦權,各權值內部獨立,外部融合,使評估指標的權值科學性、合理性得到科學反映,為后續評估奠定了基礎。

2)在融合賦權的基礎上,通過使用TOPSIS 方法對6 個作戰決策智能體效果進行評估,能夠有效避免以往智能體評估時僅依靠勝率這個單一指標的局限。在充分利用權值信息的基礎上,發揮原始數據作用,準確地反映出智能體決策效果的差距和優劣,綜合篩選出更優秀的作戰決策智能體。

3)由于作戰決策智能體的評估涉及因素眾多,既有人工智能技術發展牽引的客觀指標,也有作戰決策藝術反映的主觀因素,是一個新穎又復雜的評價問題。本文僅以綜合評估為切入點,對該問題的解決方法進行初步探索,在賦值方法的選取、評價排序方法的優化等方面仍需進一步探討。

猜你喜歡
賦權決策評估
論鄉村治理的有效賦權——以A縣扶貧項目為例
為可持續決策提供依據
企業數據賦權保護的反思與求解
試論新媒體賦權
決策為什么失誤了
基于改進AHP熵博弈賦權的輸變電工程評價
評估依據
立法后評估:且行且盡善
最終評估
EMA完成對尼美舒利的評估
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合