?

面向動態毀傷概率和目標價值的武器目標分配方法

2024-04-24 09:20雕,朱燕,楊
火力與指揮控制 2024年2期
關鍵詞:武器分配概率

林 雕,朱 燕,楊 劍

(1.陸軍指揮學院,南京 210045;2.解放軍61175 部隊,南京 210046;3.信息工程大學,鄭州 450052)

0 引言

武器目標分配(weapon target assignment,WTA)是指通過選擇一種合理的方案將武器或武器平臺合理的分配給目標,通常以實現對目標最大毀傷效能或打擊最大效費比為目標函數[1]。該問題于20世紀50 年代,由MANNE 在研究彈道導彈防御問題中首先提出,自此廣泛應用于地面防空、艦艇防空、地對地打擊、空對空打擊等不同作戰背景下的武器目標分配[2]。武器目標分配本質上屬于一種組合分配問題,隨著武器和目標數量的增大,其解的數量呈指數級增加,屬于一個NP 完全(non-deterministic polynomial complete)問題[3]。傳統的武器目標分配算法包括整數規劃法、蟻群算法、粒子算法[4-11]等方法。

近年來,由于強化學習(Q-learning)在ATARI[12]游戲和AlphaGo 等問題上表現出強大的學習和決策優化能力,得到了廣泛關注。深度強化學習的“動作選擇”與組合優化中離散決策空間內的決策變量優選具有天然的相似性,使得其成為一種較好的組合優化解決方法[13]。此外,深度強化學習的“離線訓練、在線決策”的特點,賦予了其在線快速求解組合優化問題的潛力。因此,應用強化學習快速求解大規模武器目標分配問題成為一種較優方案,且出現了部分相關文獻[14-16]。文獻[14]針對集群多目標分配問題,提出了一種基于強化學習的求解方法,通過設計獎勵函數,將多目標分配的約束條件納入到強化學習的建模中,并在小規模問題上驗證了所提方法在求解武器目標分配問題上的時效優勢性。面向靜態條件下武器目標分配的強化學習建模,文獻[15]提出了一種基于DQN 的導彈反艦求解方法。其中,狀態空間表示為當前已發射導彈和艦隊毀傷狀況,動作空間表示為所有可選艦船目標,獎勵函數設置為發射導彈后增加的毀傷數值。針對反導火力分配問題,文獻[16]提出了在武器、目標類別數量固定條件下的深度強化學習建模方法,驗證了所提模型在不同武器目標數量條件下的有效性。

聯合作戰條件下,隨著戰場空間向全域多維延伸,戰場容量不斷擴大。無人機、無人車、無人艇等新型作戰武器的列裝,使得戰場動態目標數量陡增。敵我對抗過程中,武器對目標的毀傷概率并非一成不變。例如,隨著武器與目標的相對位置、相對速度等參數的變化,對應的毀傷概率通常會隨之改變[8]?;诖?,面向大規模、動態條件下的武器目標分配問題,本文提出了一種基于深度強化學習的武器目標分配方法,以實現對動態毀傷概率和目標價值條件下的武器目標快速分配求解。

1 武器目標分配問題

假設有m 個武器和n 個目標,武器i 對目標j的毀傷概率為Pij(對應毀傷概率矩陣表示為P),目標的威脅程度為Vj(對應威脅度矩陣表示為V)。根據武器和目標的分配情況可構建一個m*n 的分配矩陣X

在上述分配矩陣條件下,其對應的總毀傷為:

武器目標分配的目標函數表示為:

其解空間大小為nm,即每個武器有n 種選擇(n個目標中的一個),隨著問題規模的增大,其解空間呈指數增長。對于動態條件下的武器目標分配問題,其毀傷概率矩陣為P 和威脅度矩陣V 并非一成不變,通常隨著武器和目標狀態的變化而改變。

2 基于深度強化學習的武器目標分配

2.1 深度強化學習模型

強化學習是一種試探、評價與更新的過程,智能體根據感知的當前狀態,執行特定的動作,環境在接收該動作后,產生相應的獎勵信號,同時根據動作產生相應的環境變化;智能體在觀測到新的環境信息和獎勵信號后,根據特定的目標對策略進行調整,如此反復迭代實現對策略的優化?;趶娀瘜W習的武器目標分配建?;舅悸?,是將武器目標分配問題看作多階段序列決策問題,每一步決策完成對一個武器的目標分配,當完成所有武器的目標分配后,即完成一輪序列決策。對于m 個武器,從第1 個武器開始分配到第m 個武器完成分配即完成1個回合(episode),其對應的動作價值函數為:

其中,Ri為第i 步決策對應的獎勵值,γ 為獎勵對應的折扣因子。對應的動作價值函數更新方式如下:

其中,α 為學習率。

對于深度強化學習,即構建一個深度網絡Q(s,a,w)來對Q(s,a)進行估值,如下頁圖1 所示。

圖1 深度強化學習網絡結構示意Fig.1 The network structure of the deep reinforcement learning

為防止出現單網絡DQN 結構中出現的“過估計”問題,本文采用雙網絡結構的DQN 模型(double DQN)[17],設置評估網絡Q(s,a,we)與目標網絡Q^(s,a,we)兩個結構相同且共享參數的深度強化學習網絡,來增強網絡的穩定性。double DQN 對應的單樣本損失函數為:

對應的評估網絡參數更新方式為:

其中,B 和|B|分別為模型每次訓練對應的批量樣本及其大小,α 為學習率。

2.2 面向武器目標分配的深度強化學習建模

基于強化學習的武器目標建模關鍵在于設計恰當的狀態、動作以及獎勵函數。

狀態:表示為大小等于(m+1)*n 的一維向量,其中,前m*n 個元素表示為(1-pij)xij,(i∈[1,m];j∈[1,n]),后n 維為目標的價值vj(j∈[1,n]),此處設計的思路是基于式(2)將毀傷概率pij與對應分配情況xij的聯合算子(1-pij)xij作為狀態的特征描述,其取值為1 或者(1-pij)。1 對應于武器i 未分配給目標j,1-pij對應的是武器i 分配給了目標j。同時,將目標的價值也作為特征一并納入到狀態的向量表示中,以此適應目標價值矩陣變化的情況。

動作空間:動態空間A 大小等于目標的數量n。動作即為在某一時刻可從n 個目標中選擇其中的一個,將當前武器分配給該目標。

獎勵函數:獎勵函數表示為兩個狀態轉換前后的毀傷變化,即

不同于針對固定毀傷概率與目標價值的強化學習模型訓練,此處的目標是獲得可應對動態毀傷概率與目標價值的強化學習模型。為此,需要以動態變化的毀傷概率和目標價值數據集{(P1,V1),(P2,V2),…,(PK,VK)}作為訓練的輸入集,以此生成多個不同的初始狀態和對應的狀態轉移方式。綜上,完整的基于Double DQN 的武器目標分配算法如算法1 所示。

算法1:基于DON 的武器目標分配算法初始化經驗回放存儲D 的大小為N初始化訓練數據集大小為K隨機初始化動作價值函數的評估網絡Q 的權重值we隨機初始化動作價值函數的目標網絡的權重值wt For episode=1,2,...,M do For k=1,2,...,K do讀取一組毀傷矩陣Pk 和目標價值矩陣Vk根據εk=εend+(εstart-εend)*e(-1*k/εdecay),生成εk For t=1,2,...,m,從D 中隨機抽樣|B|個樣本do初始化武器目標分配矩陣(m*n)為全零矩陣對起始狀態s0 進行初始化以概率εk 選擇一個隨機動作at否則,令at=argma xatQ(st,at,wt)執行動作at,計算得到獎勵Rt 和狀態Si+1將(Si,at,Rt,Si+1)存儲到D 中令yj=Ri,若回合在第i+1 步停止Ri+γmax■■■■■■■■■■■ai+1 Q^(si+1,ai+1,wt),其他情況執行梯度下降算法更新we(參見式(8))每完成C 步迭代,令Q^=Q End for End for End for

3 仿真實驗與分析

為驗證所提深度強化學習武器目標分配方法,在打擊毀傷概率和目標價值動態變化條件下的性能和效率,通過仿真實驗對深度強化學習模型進行訓練和測試,并通過對比實驗,驗證訓練所得模型相較于粒子群和隨機分配方法的優勢性。

3.1 實驗數據集

實驗設定武器目標數量為50∶20,采用隨機生成毀傷矩陣和目標價值矩陣的方式,模擬中等毀傷概率條件下的動態武器目標分配情況。其中,毀傷概率和目標價值均以0.1 為間隔,分別在[0.5,0.8]和[0.4,0.7]之間隨機取值。隨機生成2 000 組毀傷和目標價值矩陣作為訓練數據集(即算法1 中的K=2 000),為判斷模型訓練的收斂情況,隨機生成100 組毀傷和目標價值矩陣作為強化學習的驗證集。

3.2 DQN 的模型訓練

基于DQN 的實驗中設置兩層全連接神經網絡,每一層的神經元大小為100,折扣因子γ=0.9。其中,εstart=0.9,εend=0.05,εdecay=K*β=2 000*0.3=600。隨機選定測試集中3 個驗證樣本,繪制其整體毀傷隨著訓練回合的變化情況,如圖2 所示,并繪制100個樣本對應的平均整體毀傷隨著訓練回合數變化情況。由訓練曲線可知,在訓練的前期整體毀傷概率得到了快速的提升。對單個樣本,其整體毀傷在后期的震蕩幅度較平均整體毀傷的震蕩幅度較大??傮w而言,所提模型基本可在100 個回合內實現較快收斂。

圖2 整體毀傷與訓練回合變化關系圖Fig.2 The change of the total damage with regard to the training episode

3.3 模型測試與對比實驗

為對上述訓練所得模型進行測試,基于相同毀傷概率和目標價值取值范圍,隨機生成4*100 個毀傷概率和目標價值矩陣作為測試數據集,用于對所提方法進行測試。為進一步驗證模型的優勢性,采用基于粒子群[9]和隨機分配兩種武器目標分配方法作為對照。其中,基于粒子群的方法中粒子群數量和迭代次數分別設置為500 和50?;陔S機分配方法中,每一個武器隨機從20 個目標中選擇一個作為打擊目標。以4 組測試集的平均整體毀傷概率和平均計算時間為指標對3 種方法進行比較,實驗結果如表1 所示。較基于粒子群的方法,本文方法在平均計算時間上具有顯著優勢,其武器目標分配方案的整體毀傷效率計算,在驗證集2~4 上均高于粒子群方法。較隨機分配方法而言,本文方法和粒子群方法在平均整體毀傷的計算結果上均具有明顯優勢。相較于本文方法和粒子群方法,由于隨機分配法計算簡單,其在計算時間上最快。

表1 基于4 組測試集的實驗結果Table 1 The experiment results of the 4 test datasets

為進一步測試模型在毀傷概率和目標價值精度變化條件下的適用性,以0.05 為間隔分別在[0.5,0.8]以及[0.4,0.7]之間隨機生成100 個毀傷概率和目標價值矩陣作為新的測試集?;诒疚姆椒ê突诹W尤旱姆椒ㄓ嬎愕玫降恼w平均毀傷分別為9.68與9.64,平均計算時間分別為0.26 s 和25.64 s,進一步證明了本文所提方法在毀傷概率和目標價值精度變化條件下仍具有較高的適用性。

綜上,本文訓練所得模型在動態變化的毀傷概率矩陣和目標價值條件下具有良好的適用性,且其總體武器目標分配方案和計算時間均優于基于粒子群的武器目標分配方法。

3.4 DQN 模型參數分析

DQN 模型訓練中涉及多個參數配置,結合本文方法實際,選取訓練樣本集大小K 和Epsilon 衰減系數εdecay兩個關鍵參數對其敏感性進行分析。

3.4.1 訓練樣本集參數設定

在3.2 節的基礎上,保持其他參數和測試集不變的基礎上,另設兩組大小不同的訓練數據集(K=1 000,K=3 000),采用相同的網絡結構,進行100 個回合的訓練。對應的整體毀傷變化曲線如圖3 所示。由圖3 可知,訓練樣本數量等于3 000 時,模型的前期收斂速度最快,樣本數為1 000 時其前期的整體毀傷增速最慢。3 種訓練樣本條件下,基本可在100 個回合內實現訓練的收斂。在樣本數為3 000時,模型訓練后期出現了一個顯著毀傷底點,而在K=1 000 時則未見此現象。說明隨著訓練樣本數量的增大,訓練所得模型可能在局部范圍出現欠擬合情況,導致收斂曲線震蕩。

圖3 3 種不同大小訓練樣本對應的平均整體毀傷變化Fig.3 Theaveragetotaldamagesofthreedifferenttrainingdatasets

3.4.2 系數設定

在以及訓練樣本K 一致的條件下,通過設定大小可控制Epsilon 的變化曲線。Epsilon 越大,選擇隨機動作的概率越大;Epsilon 衰減越快,意味著智能體可探索的空間越小。在原有的基礎上,另設3 組系數,分別等于(對應的值分別為0.1,0.5,0.7)。4 組對應的衰減曲線如圖4 所示。圖中清晰展示了隨著增大,Epsilon 的衰減速度變慢,且其在最后一個樣本上的終止值也更大。

圖4 不同的epsilon decay 對應的衰減曲線Fig.4 The decay curves of four different epsilon parameters

在保持其他參數和測試集與3.2 節一致的條件下,利用4 組不同的對模型進行訓練,對應100 個回合內的整體毀傷變化情況如圖5 所示。由圖5 可知,隨著Epsilon 的增大,訓練曲線震蕩現象更加明顯,可能是由于其探索空間變大而導致的。另外,Epsilon 的增大并未展現出對整體毀傷峰值的正向影響,說明強化學習過程中需要保持探索與利用之間的平衡,過度追求隨機探索未必會提升模型的計算效果。

圖5 不同epsilon decay 對應的整體毀傷變化Fig.5 The total damages with regard to four different epsilon decay parameters

4 結論

本文提出了一種基于深度強化學習的武器目標分配方法。該方法利用武器目標分配的毀傷函數,設計了一種簡單高效的狀態特征化描述方法。實驗證明,該方法可有效應對動態毀傷和目標價值條件下的武器目標分配,且其目標分配的時間效率與總體毀傷優于基于粒子群的方法。下一步將從3個方向進一步深化研究:一是將所提模型整合到作戰仿真、任務規劃等信息系統中,實現對方法的工程化應用。二是研究在武器目標數量、毀傷概率、目標價值聯合變化條件下的武器目標分配建模方法,進一步增強方法的可用性。三是研究引進Distri butional DQN、Noisy DQN 等改進版DQN 方法,提出對應的武器目標分配建模方法,以期進一步提高武器目標分配的效果和效率。

猜你喜歡
武器分配概率
第6講 “統計與概率”復習精講
第6講 “統計與概率”復習精講
概率與統計(一)
概率與統計(二)
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
一張圖看懂武器發展史
請放下你的武器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合