?

模型數據混合驅動的水聲器材防御決策方法

2023-09-20 10:36黃金才張馭龍郭力強
計算機仿真 2023年8期
關鍵詞:魚雷潛艇分類器

楊 靜,黃金才,張馭龍,郭力強

(1. 國防科技大學,湖南 長沙 410073;2. 海軍潛艇學院,山東 青島 266071)

1 引言

戰術決策是一個連續時間決策過程,一種通用的方式是采用基于時間步長推進仿真,將連續時間離散化。在最優決策推演、精確制導武器參數設定等戰術領域[1,2]應用廣泛。過程仿真的時間步長是影響仿真時間、精確程度的重要因素。在實際應用過程中,傳統依賴于過程仿真的方式存在一些難以解決的困難。一是環境、態勢數據的高維特性、以及水中作戰環境瞬息萬變,導致規劃決策空間出現“維度災難”。二是水中對抗態勢演化迅速,基于仿真步長的推演過程難以簡化,導致決策實時性和決策精度之間存在矛盾。

隨著人工智能技術的發展,越來越多研究者將目光投向基于數據驅動的智能決策技術研究。通過數據驅動模型代替基于模型-時間步長方式的推演,可以有效緩解傳統模型仿真效率難以提高問題。在一次決戰過程中,對抗態勢發生往往緊迫而短促,無論是攻擊還是防御決策數據,快速采取有效攻防對策都是決勝的重要因素。特別是水中潛艇存在著保持隱蔽性的特殊需求,攻擊、防御器材的使用不當可能導致行動無效甚至意外暴露,因此對防御決策提出了更高的可靠性要求,單純從數據出發的學習模型其靈活性、實時性、抗風險能力等很難保證。

水中對抗、特別是水中防御問題決策屬于一個嚴重的不均衡數據學習問題[1,2]。已經證明在近距離條件下的有效防御決策空間在整體決策空間中所占的比例非常小。如何從不均衡數據中學習一個無偏模型,一直是一個具有挑戰性的任務。傳統的不均衡學習基于隨機假設條件設計重采樣和重新設計權重的機制。但是經常會導致執行效率不穩定,適應性較差,而且一旦任務復雜、初始假設不成立,計算代價極高甚至結果發散等問題。

本文的貢獻在于:一是以水中對抗環境下,潛艇使用水聲器材防御來襲魚雷的決策問題為例,提出一種全新的數據和模型混合驅動的仿真決策方法,以同時滿足決策效率和抗風險能力等需求。二是提出了一個新的集成不均衡學習框架,可以在訓練集上每次迭代的時候自適應的選擇采樣策略,從而得到不同的分類器,并得到集成模型。文中的學習框架不同于已有的基于元學習的不均衡學習策略,通過在元采樣基礎上獨立訓練一個元分類器的方法,將模型訓練和元訓練步驟解耦合。這使得文中的策略可以在大部分學習模型上兼容,并且,元采樣器也可以很好的適應新的任務。

2 水聲器材防御模型

本節將首先對決策模型及其仿真過程進行描述。

2.1 防御決策問題的描述

假設1:潛艇魚雷報警態勢用魚雷到潛艇的距離D和魚雷所處的潛艇舷角X表示。以潛艇為坐標原點,潛艇當前運動方向為0度航向(以正北方向表示);

假設2:預設當前來襲魚雷正按照有利射擊提前角的方向行進,如圖1所示。

圖1 潛艇防御魚雷態勢圖

潛艇使用水聲器材防御魚雷的具體過程為:

i)潛艇接到魚雷報警后,以速度Vsub,轉向半徑Rsub開始做轉向Hb角度的規避,并同時發射一枚誘餌,以誘導來襲魚雷并為我轉向規避爭取時間;

ii)發射誘餌的速度為vbait,其固有轉向半徑為rbait,誘餌出水后首先轉向αb1角度,然后直航tb1時間,再轉向αb2角度,然后再直航至航程終了。其中轉向過程仍以其轉向半徑做勻速圓周運動,直航時為勻速直線運動。

iii)來襲魚雷速度為vtor(vtor>vbait>vsub)做勻速直線航行搜索,其初始航向為當前態勢下魚雷與潛艇相遇三角形對應方向Htor,其計算方法如式(1),魚雷在未發現目標時做直線運動,一旦目標進入其探測扇面,則轉向追擊目標。

(1)

在模擬一次仿真的過程中,每個實體都按照有限狀態機模型運動(如圖2)。決策的目的是在整個狀態空間內,找到最優的潛艇使用魚雷防御方案的四元組(Hb,αb1,tb1,αb2),其中Hb,αb1,tb1,αb2分別為潛艇轉向角,誘餌的第一次轉向角、第一段直航時間和第二次轉向角。

圖2 使用水聲器材防御魚雷過程有限狀態機

2.2 仿真優化與復雜度分析

2.2.1 價值函數

決策四元組的狀態空間內,每次仿真過程,潛艇與魚雷探測扇面的最小距離可以作為價值函數,定義為

(2)

其中,C為魚雷搜索扇面,函數Dis(x,y,C)為潛艇當前所在坐標(x,y)到魚雷搜索扇面C的最小距離,求得一次仿真的最小距離算法如下所示。

算法1:OneSim(D,X,Δt,Hb,αb1,tb1,αb2,init[11])

初始化:潛艇狀態機=1;潛艇參數;魚雷狀態機=1;

魚雷參數;誘餌狀態機=1;誘餌參數;

for Δt in total_Time:

潛艇到扇面D=f(Dis(x,y,C));

誘餌到扇面D_bait=f(Dis(x,y,C));

誘餌到識別扇面D_bait2=f(Dis(x,y,C));;

if D

if Dmin<0 do return Dmin;

if StateS==1 do 潛艇轉向

else: 潛艇直航 ∥StateS=2;

if StateB==1 do 誘餌準備

elseif StateB==2 do 誘餌轉向

elseif StateB==3‖StateB==5 do誘餌直航

elseif StateB==4 do 誘餌轉向

else do State B=6

if 誘餌達到最大航程do State B=6

if StateT==1 do魚雷直航

else魚雷尾追目標∥StateT=2

end for

return Dmin

2.2 復雜度分析

一次搜索過程的決策粒度取決于搜索的Δt,如果仿真步長過大,則可能會忽略重要的極小值點,造成決策失誤。在一次仿真過程中,每個實體按照觸發條件進行基于有限狀態機的運動模擬,因此,一次仿真過程本身的復雜性決定了其無法從算法上進一步并行優化。

算法2:MTaskSim()

初始化:態勢參數(11維)

fori1 in range(1,N):

for i2 in range(1,N):

fori3 in range(1,N):

for i4 in range(1,N):

Dmin=OneSim(D,X,Δt, Hb[i1],αb1[i2],tb1[i3],αb2[i4],init[11]);

if DminYou>Dmin

DminYou=Dmin;

end if

end for

end for

end for

end for

而整個仿真決策的過程中,通過對四元組在整個狀態空間的組合搜索,找到所有最小值Dmin中的極大值:

Dminyou=max(Dmini),i=1,…,n4

(3)

其中,n是決策四元組(Hb,αb1,tb1,αb2)的搜索粒度,四元組的搜索空間為

Hb?[-π,π],αb1?[-π,π],

tb1?[0,Lbait/vbait],αb2?[-π,π]

(4)

因此,最終決策組合的搜索空間為O(n4),然而考慮到一次仿真本身需要計算M個仿真步長,仿真的時長約為魚雷整個航程段,以仿真魚雷航行20分鐘、選取步長1s為例(對于連續事件仿真,該仿真步長往往并不能滿足決策精度的要求,真實環境下往往需要時間步長0.1s甚至更短),則需要計算超過 1000次復雜度為O(n4)的仿真計算,一次真實的對抗過程,往往3-5分鐘就結束了,而基于模型在狀態空間搜索的方式求解最優決策往往需要耗時超過5分鐘,即使通過并行手段對搜索空間進行并行化可以實現103的優化(即本文簡化參數條件下,實現5分鐘/103=0.3秒一次仿真,這是加速的極限情況,達到103加速意味著需要多達1000核的計算資源),但由于本模型假設輸入參數均為確定值,真實情況還需要考慮目標的方位、速度、航向的誤差散布,即使不確定變量僅多出三個,對每種變量的散布選取100個樣本用于統計結果,則計算量也將增加0.3s×1003≈83hour,因此,通過分析可以得出結論:一次戰術仿真過程,隨著輸入態勢參數的增加,僅考慮并行優化方法是無法滿足決策實時性要求的。因此,本文提出一種新的基于模型與數據混合驅動的決策方法,其主要框架如圖3所示。

圖3 數據與模型混合驅動決策框架

圖5 隨機3組不均衡數據迭代訓練中的AUCPRC準確率

2.3 基于模型與數據混合驅動的決策方法

如圖3所示,右側是傳統仿真過程,左側是基于仿真模型的集成學習網絡。通過對該態勢下的仿真數據分析發現,有效決策存四元組存在一個決策邊界,在近距離遇敵防御條件下,整個決策空間中有效決策樣本僅占極小的比例,只有當Dmin值大于0時,該決策策略才可以實現防御,因此本文通過對決策數據和Dmin取值正負的對應關系,訓練了一個二分類的集成學習網絡,考慮當近距離遇襲條件下,數據的不均衡IR極高(達到26以上)的情況,為了獲得更高的決策效率和準確度,本文采用了如左圖所示的基于元學習的集成學習模型(在第3部分詳述),再將決策網絡與仿真相結合,首先通過仿真確定樣本空間,將仿真數據樣本交給集成學習網絡進行預測,再從預測出的決策邊界內尋找最優解,同時,為了確保決策邊界劃分的準確性能夠適應不同態勢參數的狀態,在預測模型的同時,將會同時對決策邊界附近的樣本進行仿真比對,如果模型預測結果與仿真結果不符,則將該數據加入權重數據庫,增大邊界樣本學習模型的影響,從而實現決策模型的動態自適應。

3 基于模型與數據混合驅動的決策方法

3.1 不均衡數據的模型定義與評價指標

考慮到問題的特殊性,采用水聲器材防御通常是在近距離遇襲條件下,為了爭取時間而采用的策略,當距離較近時,通過對數據分析(詳見第4部分),以及對決策四元組與安全余量Dmin的相關性分析,可以看到決策狀態樣本離散但集中在特定空間,僅有少量特定樣本會出現決策邊界模糊的情況,因此,在防御仿真前,首先通過集成學習對不均衡數據做有效的判斷,僅對Dmin取值大于0的情況進行仿真,可以極大提高仿真決策的效率,同時又能保證決策的可靠性。

在數據驅動模型中,關鍵在于解決對于Dmin取值是否大于0的判斷,屬于二元不平衡分類問題,數據集中只存在兩個類別:少數類,即本文中的屬于決策空間內的樣本數量較少的類;多數類,即樣本數量相對較多的類別。本文用D來表示全部訓練樣本的集合,其中,每一個樣本用(X,y)表示,標簽y∈{0, 1}。在二分類條件下,y取值為1代表該樣本屬于正類(少數類),為0則代表該樣本屬于負類(多數類)。即:

少數類集合:P={(x,y)|y=1},(x,y)∈D

多數類集合:N={(x,y)|y=0},(x,y)∈D

其中:P∩N=?,P∪N=D

本文采用文獻[1]的定義,對于(高度)不平衡的數據集,在|N|?|P|情況下,采用不平衡比IR(Imbalance Ratio)為多數類樣本數量與少數類樣本數量的比值

IR=|N|/|P|

(5)

對于不平衡數據,分類正確率很難有效表示分類器的效果,因此數據模型采用的評價指標為AUC-PRC。AUC(Area Under Curve,曲線下面積)采用ROC下面的面積,可以用于衡量分類器的優劣。另外,考慮到數據的極端不平衡特性,還結合準確召回率曲線PRC(Precision Recall Curve,準確召回率曲線),在負樣本的數量遠遠大于正樣本數量的情況下, PRC更能有效衡量檢測器的好壞,因此,本文引用AUC-PRC作為評價指標。

3.2 元學習方法與集成模型

考慮到過去對于不均衡數據的處理方法主要從兩個方面:一是從數據層面,通過重采樣[5]或者欠采樣[6]方法,以提高學習過程中樣本的不均衡比例;二是從模型的角度考慮,采用集成學習[4]的思想,通過多個弱分類器加權的方式代替單一分類器,以提高對于不均衡樣本學習的魯棒性。數據采樣和多分類器都是為了能夠從不平衡數據中(特別是少量樣本中)學習一個無偏模型。然而,多個弱分類器采用隨機策略對數據進行分類,因此容易陷入局部極值,且對分類器的數據設計要求較高。

因此,本文考慮采用元學習的策略,通過對分類器的權重進行先驗性的調整,構建一個元學習框架,具體的思想是:直接通過仿真數據樣本學習一個參數化的采樣策略,代替過去集成模型的隨機假設策略??蚣馨ㄈ齻€部分,元采樣、集成學習和元訓練。

3.2.1 元采樣方法

本文首先引入文獻[4]中的“元狀態”思想,希望可以找到一種對集成學習訓練過程的信息有效的任務表示,從而提供有效的元采樣信息。采用“梯度/硬度”分布的概念,引入了對訓練樣本和驗證誤差的直方圖分布作為集成訓練系統的元狀態。

具體的做法是:把樣本集的先驗信息作為元采樣的輸入,給多數類的每個樣本設計一個加權,將計算得到的權重作為每個樣本前面的系數。對于每個數據樣本集D,其權重u定義為:μ~gμ,σ(μ|D),其中gμ,σ為高斯方程用于衡量數據樣本的分類誤差,定義為

(6)

則對于樣本集D,假設正樣本比例(少數類為P,多數類為N,其D=P∪N中,對于每個(xi,yi)∈N,則其權重計算為

(7)

令N′=w·N,每次采樣得到|N′|=|P|,并以子集D′=N′∪P作為每次元采樣的數據集。

3.2.2 集成學習訓練

基于一個采用元采樣策略得到的數據樣本,可以迭代的訓練一個基分類器。假設采取k次迭代得到的分類器結果作為最終分類結果。則在第t次迭代過程中,將元采樣得到的數據集D′劃分為訓練集DT和驗證集Dv。對于分類器Γt(x),分類誤差e可以定義為分類器Γt(x)與其真實標簽之間的差,即|Γt(x)-y|,通過下方式(8)進行計算。

iD=|x,y|i-1b|≤|Γt(x)-y|≤ib||D|,(x,y)∈D

(8)

其中i∈[1,b],然后,可以將訓練集和測試集的誤差分布向量進行拼接,就可以得到一個元狀態

s=[Dt:Dv]∈R2b

(9)

然后,按照元采樣的思想,將分類誤差e作為新的采樣依據,令

(10)

作為更新權重,這個過程重復迭代k次,最后得到的結果作為最終分類結果。分析可知:誤差分布直方圖可以直觀的表示出分類器對于數據的分類能力,本文考慮b=2的情況,其中分類準確率為1D,分類錯誤率2D。而當b>2時,就代表在分布的“無爭議”樣本(誤差接近0)和“有爭議”樣本(誤差接近于1)之間取了更為細致的粒度,因此,本模型未來也可以對多分類問題如何使用元信息提供借鑒。另外,由于同時考慮訓練集和驗證集,元狀態可以通過當前集成模型的偏差提供一個元采樣器,用于輔助決策。

3.2.3 元訓練

元采樣的目的是通過多次迭代選擇訓練數據的方式優化決策效率,它基于當前樣本狀態s(式(9))作為訓練輸入,通過高斯方程的輸出參數u來決定每個樣本的采樣概率。元分類器的目的是通過當前的狀態st、動作u得到新的狀態st+1,并通過多次迭代在效率優化的條件下,通過減少差分優化訓練過程。這一過程與強化學習類似:

采用基于強化學習的設定,基于馬爾可夫決策過程(MDP)的四要素(SApr)可以定義為:狀態空間S,動作空間A:[0,1]都是連續的。而狀態轉移概率p:S×S×A代表的是下一個狀態st+1在當前狀態st和當前動作A條件下的概率密度。在每次迭代中,分別訓練k個分類器,并形成k個集成分類器F。給定一個性能度量函數P(F,D),獎賞r定義為r=P(Γt+1,D)-P(Γt,D)。則元分類器的優化目標變成了集成分類器的性能。

4 仿真研究

4.1 數據分析

在不同初始態勢條件下生成了以安全距離為判定依據生成了大量仿真數據樣本。隨著來襲魚雷與我相對距離靠近,數據樣本的不均衡比例大幅提高(在其它態勢參數不變情況下,相對距離D從3海里縮短到2.7海里,相同時間步長的810000條數據中,不均衡數據比例從2.6提高到了29.4。這也從一個側面說明,對于來襲高速武器防御,越早采取有效策略,防御的成功概率越大,但對于決策時間的要求也越高??紤]相對極端條件下的快速決策,本文的后續實驗采用D=2.7條件下的,相對弦角X在區間[-π,π]內取30個區間值,每個值對應生成81萬條數據,采用批量為10(batchsize),對30個區間采樣的8.1萬條數據進行組合,構成10個樣本集,每個樣本集大小為243萬(30×8.1萬)??倲祿颖綢R約為29.4,單獨取出的10個數據樣本集不均衡比例范圍為為21.7-30.9之間,可以認為抽樣數據基本滿足總數據樣本特征分布。

通過數據處理,將Dmin>0情況的flag為1,其余情況flag為0,得到數據總分布,和mini-batch分布分別如下圖a、b所示。

通過對上述仿真模型進行分析,一次仿真的最小安全距離可以作為判定決策四元組Hb,αb1,tb1,αb2是否能夠有效防御來襲魚雷的依據,通過對狀態空間內所有四元組組合的分析,發現可防御四元組僅占總體決策空間的極小一部分,然而,傳統的基于仿真方法需要遍歷所有狀態空間以尋求最優,即使采用及早停止的相關策略,仍然無法避免在所有決策空間上的遍歷(算法1的OneSim過程),極大影響決策性能,因此,考慮采用數據與模型混合驅動的方式,利用數據學習模型實現兩個任務:一是針對當前態勢,預測狀態空間的范圍;二是在對狀態空間的最小安全距離Dmin給出合理的回歸分析,實現高可靠度的預測。

4.2 基于元集成學習方法的訓練

在81萬條數據中通過等間隔方式劃分為10個子集,每個子集數據81000條。再從中隨機選取3個樣本集分別用于訓練、驗證和測試,重復這個過程7次得到的模型用于最終數據與模型混合驅動仿真模型,其中,數據訓練的樣本準確率采用AUCPRC準則進行評估,下圖是隨機選取3組不均衡數據比例為22.6,22.8,23.9的81000數據子集作為訓練集、驗證集、測試集時,迭代訓練過程中的AUCPRC準確率。數據驅動模型在單個訓練集上極容易過擬合,但是在驗證集、測試集上都可以達到98%以上的預測準確率,考慮到預測的目的是縮小決策空間,對于一個仿真模型,對其決策空間預測準確率達到98%,并在該決策空間內進一步搜索決策最優解,可以認為是可行的。

尤其是當這種決策可以極大程度提高模型運算效率的情況下,下表給出了三種態勢下,模型仿真與使用文中的元訓練模型預測的時間和決策方案。

態勢說明:態勢1,距離D取3.2海里,樣本不均衡比例IR=1.6;決策四元組(-3.1416,-1.1916,0.0502,-0.3245);態勢2,距離D取2.7海里,樣本不均衡比例IR=22.7;態勢3,距離D取2.4海里,樣本不均衡比例IR=59;決策方案是最小安全距離Dmin的最大值所對應的方案四元組,以及對應的Dmin取值。

混合模型的決策時間包括兩部分:一是7輪樣本訓練的總耗時,二是決策模型仿真時長,以兩部分加和作為總決策時長。

可以看出,雖然混合模型并未得到最優解對應的決策方案,但是仍在可行域內得到了相對較優的決策方案,且計算效率大大提升。從D為3.2海里到2.4海里,隨著時間流逝,可行決策空間大幅下降,這也從另一方面表明水中防御態勢情況緊急,快速決策對于緊急條件具有重大意義。采用混合決策模型,運行時間分別下降了63、16、8.8倍,越早決策,可行空間越大,因此從整體上看,模型與數據混合驅動方法可以很好的提高決策效率。

4.3 不均衡數據學習方法比較

首先對元集成學習的方法和其它6種有代表性的不均衡集成學習方法進行了對比。包括2種欠采樣策略(ORG、RUSBoost[9])和4種過采樣不均衡集成學習方法(SMOTE[7]、 BorderSMOTE[8]、SMOTEENN、SMOTEomek)。采用的都是同一個數據樣本(從30*10個樣本中選出的不均衡比例最高的81萬條數據),測試其分類效率和準確性。對于不同的基分類器,比如K近鄰、高斯貝葉斯(GNB)、決策樹(DT)、自適應梯度(AdaBoost)和梯度下降(GBM),通過不同的采樣策略與這些分類器進行結合,記錄了不同方法的決策精度和執行時間(執行時間都是10次運算取平均值),如下表1。利用AUCRPC分數來記錄不同集成學習算法的效果,并對所有方法AUC和運行時間做了對比。結果表明,文中的元訓練方法在幾個不均衡比例很高的數據樣本集上在精度較高條件下,計算時間也更短。

表2 不同集成學習方法分類效率和準確性對比

5 結論與展望

本文主要關注的是戰術決策問題,傳統的戰略決策的仿真常用的方法是基于決策狀態空間的搜索。然而這種搜索即使有提前終止策略,由于決策過程是連續的,離散化仿真的時間步長是很難進行優化的,特別當水中對抗條件下,實體的數據探測、感知往往就在分秒之間。

本文通過數據與模型混合驅動的方式,可以在決策初始通過集成學習方法,利用仿真樣本學習縮小決策空間,從而提高最終模型搜索的精度。然而,水中防御是一個相對復雜的戰術對抗過程,未來,一方面還將從模型上考慮敵我雙方的博弈與對抗;另一方面,還需要通過擴大樣本規模、探究當高維狀態空間數據存在更多種變化時,模型的遷移、泛化能力。隨著高維環境數據的變化,防御模型中的決策狀態空間也會發生劇烈的變化。因此,未來這種數據模型混合驅動方式的模型可遷移性和適用場景問題是我們需要特別考慮的。

猜你喜歡
魚雷潛艇分類器
魚雷造反
十分鐘讀懂潛艇史(下)
軍事島 魚雷人
潛艇哥別撞我
十分鐘讀懂潛艇史(上)
潛艇躍進之黃金時代
魚雷也瘋狂
BP-GA光照分類器在車道線識別中的應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合