?

基于雙層強化學習的多功能雷達認知干擾決策方法

2023-12-12 11:29廖艷蘋謝榕浩
應用科技 2023年6期
關鍵詞:樣式先驗雙層

廖艷蘋,謝榕浩

哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001

具有認知功能的多功能雷達(multi-function radar, MFR)可以感知作戰環境,并根據作戰環境的變化動態調整作戰方式[1],能夠實現多部傳統雷達才能實現的功能,大大降低了運行和維護成本[2],因此被廣泛應用于各種軍事用途。不同于傳統雷達,MFR 工作狀態靈活多變[3-4],單一固定的傳統干擾決策方法很難再對雷達方產生有效干擾[5]。為了對MFR 進行有效干擾,國內外學者提出了一系列干擾決策方法,根據是否具有自適應與自學習能力可以分為2 類[6]。第1 類是不具有自適應和自學習能力的傳統干擾決策方法,該類方法未利用偵察信息,靈活度較低:文獻[7]提出了基于多決策準則的干擾樣式選擇方法,將不同準則中選優次數最多的干擾樣式確定為最佳干擾樣式;文獻[8]提出了基于博弈論的干擾決策方法,將雷達干擾與抗干擾的過程看作一個動態博弈的過程。第2 類是具有自適應和自學習能力的智能干擾[9]方法,該類方法利用了偵察信息,靈活度較高:文獻[10]提出了一種基于部分可觀測馬爾可夫決策過程(partially observable Markov decision process,POMDP)的干擾決策技術,在對方雷達工作策略未知的前提下,干擾方依舊可以做出較為有效的干擾決策;文獻[11]設計了基于Q-Learning[12]算法的雷達對抗過程,使得干擾系統能夠自主學習針對性強的干擾策略;文獻[13]提出了基于先驗知識的MFR 智能干擾決策算法,相對于傳統的Q-Learning 算法,極大地提高了算法的收斂速率。

上述方法為MFR 的干擾決策奠定了基礎,尤其是第2 類方法成為目前的研究熱點。然而在實際環境中,MFR 模型往往比較復雜,也難以獲得關于MFR 工作狀態轉移的正確先驗知識[14]。針對這一問題,本文提出一種基于雙層強化學習的MFR 認知干擾決策算法,通過雙層強化學習,克服復雜模型和錯誤先驗知識給傳統強化學習算法帶來的困難,改善干擾決策收斂效果。仿真實驗證明了本算法的有效性,這對于強化學習在智能干擾決策中的運用具有重要意義。

1 強化學習與認知對抗

強化學習[15](reinforcement learning, RL)不要求預先給定任何數據,而是通過接收環境對動作的獎勵(反饋)獲得學習信息并更新模型參數,然后改進行動策略,最終適應環境,如圖1 所示。強化學習的特點使它可以滿足無人化的現代軍事需求[16],用于解決認知對抗問題。具體來說,令干擾機為智能體,MFR 為環境,干擾機通過與MFR 交互學習獲得雷達方信息,改進干擾策略,達到干擾目的,如圖2 所示。

圖1 強化學習過程

圖2 強化學習解決認知對抗問題

2 雙層強化學習干擾決策算法

2.1 雙層強化學習算法框架

在先驗知識正確且MFR 工作狀態轉移模型簡單的情況下,文獻[13]提出的基于先驗知識的收益函數塑造方法確實可以加快Q-Learning 算法的收斂速度。但在非合作對抗中,一方面,MFR 從初始工作狀態轉移到目標工作狀態經歷的中間工作狀態信息,即先驗知識很難保證正確;另一方面,MFR 從初始工作狀態轉移到目標工作狀態可能有多條干擾決策路徑長度相近的策略,在這種情況下,現有的單層強化學習算法無法收斂至最優干擾策略,甚至會被錯誤先驗知識誤導而做出錯誤決策。

以圖3 為例,與簡單MFR 模型相比,復雜MFR 模型中干擾決策路徑長度小于10 的干擾策略數量從1 條增加到了8 條以上?,F實中,MFR 模型的復雜程度可能更高。

圖3 簡單MFR 模型(左)與復雜MFR 模型(右)對比

在有錯誤先驗知識的情況下,為了消除錯誤先驗知識對干擾決策的誤導,提高算法挖掘信息和適應復雜MFR 模型的能力,本文提出基于雙層強化學習的MFR 干擾決策算法。該算法分為2 層強化學習:第1 層強化學習檢驗先驗知識是否正確,如果正確,則跳過第2 層強化學習直接根據Q矩陣生成最優干擾策略,如果不正確,則將發現的最短決策路徑信息作為新的先驗知識加入到第2 層強化學習;第2 層強化學習使用第1 層強化學習更新的先驗知識,進行基于先驗知識的Q-Learning 算法,根據Q矩陣生成最優干擾策略。算法流程如圖4 所示。

圖4 雙層強化學習算法

2.2 Q-Learning 算法

本文提出的基于雙層強化學習干擾決策算法以Q-Learning 算法為基礎。在Q-Learning 算法中,令狀態集S為MFR 的工作狀態集合,動作集A為干擾方的干擾樣式集合,p為MFR 的工作狀態轉移概率,R為干擾效果收益函數,V為MFR 工作狀態價值函數,Q為MFR 工作狀態-干擾方干擾樣式價值函數[17]。在MFR 認知干擾決策中,干擾方的目的是采取干擾措施之后MFR 盡快轉移至低威脅狀態或者戰術需要的目標狀態。干擾決策算法的目標是計算得到一個收斂且正確的Q矩陣,干擾方再根據Q矩陣進行干擾決策,找到一條決策路徑最短的干擾策略,作為最優干擾策略。

定義 π為MDP 的行動策略,策略 π決定了價值函數V和Q的大小,最優策略 π*就是使每個狀態s的狀態價值Vπ*(s)最大的策略:

在Q-Learning 算法中,智能體采取動作之后,更新迭代狀態-動作價值函數Q(s,a):

式中:s和a分別為當前時刻智能體的狀態和采取的動作;s′為下一時刻智能體的狀態;r(s,a)為智能體狀態為s時,采取動作a獲 得的收益; α為學習率,α ∈(0,1) ; γ為折扣因子,代表未來收益相對當前收益的重要程度,γ ∈(0,1)。

2.3 改進Q-Learning 算法的動作選擇策略

在Q-Learning 算法的每一次迭代中,智能體利用ε-貪婪策略進行動作選擇,即以 ε的概率從動作集A中隨機選擇一個動作,以1-ε的概率選擇Q值最大的動作?,F有Q-Learning 算法都是以固定的 ε值進行動作選擇,導致算法探索知識的能力和利用知識的能力不能夠達到最佳的平衡,無法滿足雙層強化學習算法的任務需求,為了強化雙層強化學習算法探索知識和利用知識的能力,提高干擾決策效率,需要根據每一層強化學習的任務對動作選擇策略進行改進。

1)提高第1 層強化學習的知識探索能力。為了保證干擾決策的實時性,第1 層強化學習要在盡可能短的時間內確認最優決策路徑,檢驗先驗知識的正確性。定義達到干擾目標的最短決策路徑為最優決策路徑,第1 層強化學習的動作選擇策略要使得最短決策路徑出現一定次數耗費的時間最少:

式中:Nbest為最短決策路徑出現次數;Nc為一個正整數,代表確認最短決策路徑有效的次數下限;Tcheck(ε)為最短決策路徑出現次數達到Nc次(Nbest=Nc)所耗費的時間,Tcheck(ε)是與探索率ε有關的函數,該最小化問題通過參數尋優實驗解決。

2)提高第2 層強化學習的知識利用能力。經過第1 層強化學習,算法已經獲得了正確的先驗知識。第2 層強化學習的目的是算法收斂,為了提高算法收斂速度,令探索率 隨著算法逐漸收斂而自適應地減小,降低探索信息能力,提高利用知識能力:

ε

式中: ε0是初始探索率,Ngood是較短決策路徑(收斂步數不超過10)出現次數。

3 仿真實驗

用馬爾可夫模型(Markov decision process,MDP)代替隱馬爾可夫模型[18]對MFR 的脈沖序列信號進行建模,將MFR 系統建模為一個有限狀態機。MFR 在受到干擾方施加的干擾之后,會發生工作狀態轉移,用轉移矩陣定量描述MFR 模型工作狀態轉移的概率,為了體現非合作對抗的性質,將轉移概率以隨機矩陣的形式給出:式中:c為干擾樣式庫中的一種干擾樣式,不同干擾樣式對應不同的轉移矩陣;pc

ij為MFR 在干擾樣式c作用下從狀態i轉移到狀態j的概率,且對于任意為MFR 工作狀態總數。

假設MFR 工作狀態總數為50 個,狀態轉移關系如圖5 所示,干擾機干擾樣式總數為9 個。

圖5 MFR 狀態轉移關系

MFR 狀態轉移矩陣根據MFR 狀態轉移關系隨機生成,矩陣數量為9 個,矩陣大小為50×50。MFR 初始狀態sinit為s1,干擾方設立的目標狀態saim為s36。干擾方通過與MFR 交互學習,優化Q矩陣,減小雷達從初始狀態轉移到目標狀態所需的決策步數。定義決策步數最短的干擾策略為最優干擾策略。

3.1 錯誤先驗知識對單層強化學習算法的影響

假設干擾方在干擾決策前被提供的錯誤先驗知識為se=[s4,s7,s12,s16,s27,s30,s32],基于錯誤先驗知識的單層強化學習算法干擾決策結果如圖6所示。

如圖6(a)所示,在錯誤先驗知識的誤導下,傳統單層強化學習算法收斂至決策的路徑為s1→s4→s7→s12→s16→s27→s30→s32→s36, 路徑長度為8 步,非最優干擾策略;如圖6(b)所示,在錯誤先驗知識的干擾下,傳統單層強化學習算法無法收斂。在錯誤先驗知識情況下,傳統單層強化學習算法進行100 次蒙特卡洛實驗,算法收斂情況統計如表1 所示。

表1 傳統單層強化學習算法實驗結果統計

由仿真結果可知,如果先驗知識錯誤,則現有單層強化學習算法無法求解得到最優干擾策略。本文提出的雙層強化學習算法通過任務分層可以解決這一問題。

3.2 第1 層強化學習:尋找最短決策路徑

探索率ε ∈(0,1],以步長0.01 取值,進行參數尋優實驗,每個參數下進行50 次蒙特卡洛實驗,每次蒙特卡洛實驗進行400 個回合強化學習,分別對最短決策路徑出現次數和最短決策路徑最早出現時間(回合)求平均值,得到仿真結果如圖7和圖8 所示。

圖7 探索率與最短決策路徑出現次數

圖8 探索率與最短決策路徑最早出現時間(回合)

由圖7 可知,探索率增大則最短決策路徑出現次數減少。由圖8 可知,探索率過大或過小都會導致尋找到最短決策路徑的回合數過大、時間過長。因此,根據式(1),要在較短時間內找到較多最短決策路徑,設置探索率的選擇區間為[0.4,0.7]。

選擇ε=0.43進行第1 層強化學習,進行第1 層強化學習后尋找到的最短決策路徑為s1→s46→s42→s38→s36,比基于錯誤先驗知識尋找到的決策路徑s1→s4→s7→s12→s16→s27→s30→s32→s36更快,與圖5 的MFR 狀態轉移關系相符合,證明了第1 層強化學習在錯誤先驗知識的情況下能夠找到最優干擾策略。根據雙層強化學習算法,將第1 層強化學習找到的最短決策路徑信息s1→s46→s42→s38→s36作為正確先驗知識更新se,則更新后的正確先驗知識se=[s38,s42,s46]。

3.3 第2 層強化學習:生成Q 矩陣

假設sinit=s49、saim=s36,因為初始狀態不是s1了,由第1 層強化學習過程可知,需要將s1也加入到先驗知識中去,即se=[s1,s38,s42,s46]。設置學習率α=0.01、折扣因子γ=0.95,研究不同探索率ε對第2 層強化學習算法收斂的影響。式(2)設置4 種不同探索率 ε,它們對算法收斂的影響如圖9 所示。

圖9 探索率變化情況對收斂效果的影響

式中Ngood是較短決策路徑(收斂步數不超過10)出現的次數。

由圖9 仿真結果對比可知,較小的且隨著算法逐漸收斂而自適應減小的探索率可以使算法更快收斂。因此,本文將探索率 ε設置為ε=0.1×0.9Ngood。

基于先驗知識的Q-Learning 算法,通過改造收益函數可以加快算法收斂速度[13],利用先驗知識改造收益函數R:

式中:Nae為正整數;a>0,代表正向激勵;se為MFR 從初始工作狀態轉移到目標工作狀態需要經歷的中間工作狀態,即先驗知識;b>0,代表先驗知識帶來的附加收益大小,可根據實際情況調整。

定義收斂正確率為算法收斂到最優干擾策略的次數占實驗總次數的比率。令式(3)中a=1、b=2,智能體到達目標狀態saim的收益Nae與到達中間狀態se的收益1 之間的倍數關系Nae對收斂正確率的影響如圖10 所示。

Nae圖10 與收斂正確率的關系

由仿真結果可知,Nae取值太大會造成收斂正確率下降,為了保證算法正確收斂,提高干擾決策正確率,Nae的取值區間應為[1,44]。選擇Nae=20進行第2 層強化學習,最終基于先驗知識的高收斂正確率收益函數塑造為

設置學習率α=0.01、折扣因子γ=0.95、探索率ε=0.1×0.9Ngood,每次實驗進行400 個回合的強化學習,一共進行50 次實驗,收斂步數取平均值。不同收益函數對應算法的收斂效果如圖11所示。

圖11 不同收益函數收斂效果對比

基于先驗知識的第2 層強化學習算法最終收斂于最短決策路徑s49→s50→s1→s46→s42→s38→s36,步數為6,與圖5 的MFR 狀態轉移關系相符合,證明了最短決策路徑的正確性。由圖11 收斂曲線可知,基于先驗知識的算法經過8 次迭代即收斂,而無先驗知識的算法經過250 次迭代才收斂,證明了基于先驗知識的QLearning 算法通過改造收益函數可以大大提高收斂速度。

算法生成的Q矩陣如表2 所示。表2 列出了Q矩陣中和本次決策過程有關的數據,該矩陣代表強化學習學習到的知識。算法收斂之后,在每次干擾決策時,干擾方根據Q矩陣選擇當前狀態對應的Q值最大的干擾樣式進行干擾。

由Q矩陣可知,MFR 工作狀態為s49時,選擇干擾樣式5,記為a5;MFR 工作狀態為s50時,選擇干擾樣式8,記為a8;MFR 工作狀態為s1時,選擇干擾樣式6,記為a6;MFR 工作狀態為s46時,選擇干擾樣式5,記為a5;MFR 工作狀態為s42時,選擇干擾樣式2,記為a2;MFR 工作狀態為s38時,選擇干擾樣式9,記為a9。

于是,根據Q矩陣,最終求得當sinit=s49,saim=s36時最優干擾策略為

核對MFR 狀態轉移矩陣P,驗證式(4)所示的最優干擾策略是否正確。

由矩陣P1、P2、P3、P4、P5、P6、P7、P8、P9可得表3。

表3 不同干擾樣式下MFR 狀態轉移概率

4 結論

本文提出了一種能夠在復雜MFR 模型中克服錯誤先驗知識誤導的雙層強化學習干擾決策算法。

1)該算法通過改進Q-Learning 算法的動作選擇策略,提高干擾方挖掘信息和糾正錯誤先驗知識的能力,克服錯誤先驗知識對干擾決策的影響。

2)該算法通過研究收益函數大小與收斂正確率的關系,優化收益函數設置,提高算法收斂正確率。

3)該算法通過結合先驗知識,加快算法收斂速度。

仿真實驗表明,在錯誤先驗知識情況下,面對復雜MFR 模型,該算法能夠收斂至正確的最優干擾策略。動作選擇策略和收益函數設置方法的改進,提高了MFR 認知干擾決策的效率和正確率。該算法能夠有效增強認知干擾決策系統適應復雜電磁環境的能力。

猜你喜歡
樣式先驗雙層
CPMF-I 取樣式多相流分離計量裝置
CPMF-I 取樣式多相流分離計量裝置
取樣式多相流分離計量裝置
墨爾本Fitzroy雙層住宅
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
基于自適應塊組割先驗的噪聲圖像超分辨率重建
次級通道在線辨識的雙層隔振系統振動主動控制
基于平滑先驗法的被動聲信號趨勢項消除
這是巴黎發布的新樣式
先驗的廢話與功能的進路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合