?

不完全信息Epsilon納什均衡的航天器末端追逃博弈策略

2024-03-17 04:28孫兆偉
宇航學報 2024年1期
關鍵詞:攔截器納什航天器

湯 旭,葉 東,肖 巖,孫兆偉

(哈爾濱工業大學衛星技術研究所,哈爾濱 150001)

0 引言

隨著太空技術的不斷升級,空間航天器的功能日趨完備,越來越多的航天器具備了空間態勢感知的能力[1-2]。當攔截航天器接近目標航天器時,目標方將采取機動策略加以躲避,這使得攔截航天器控制系統在應對新體系下迅速發展的空間攻防任務時面臨著困境[3]。因此,在爭奪戰時空間信息優勢的過程中,亟待發展新的軌道控制策略。

針對此類具有自主機動、自主決策能力的航天器攔截問題,需要對連續動態對抗的雙邊復雜態勢進行研究,傳統的單邊優化攔截控制方法將不再適用[4]。此時,攔截器與目標存在利益沖突,構成博弈關系,空間攔截、交會對接問題也將發展成雙方航天器間的追逃博弈問題[5]。此外,由于空間戰場環境的限制、航天器固定指向以及傳感器的約束,攔截器將不能完全獲悉目標信息,導致攔截呈現不完全信息態勢。因此,研究不完全信息下的航天器軌道追逃問題對于應對未來空間領域的新形勢具有重要意義[6]。

針對目標具有機動能力的雙邊攔截博弈問題,應用最廣泛的研究方法是微分對策理論,該理論已成熟應用于導彈攔截問題中。文獻[7]基于簡化的雙積分系統導彈攔截模型,設計了導彈攔截矢量制導率,并分別給出了制導率在極坐標和球坐標下的分量表示,以便在不同坐標系下進行描述。文獻[8]在攔截過程中考慮了存在角度測量有界噪聲的情況,通過設計狀態觀測器實現對角度的估計并分別給出了不同噪聲條件下脫靶量的估計值。文獻[9]針對制導率包含攔截剩余時間且該時間難以確定的問題,建立了關于剩余時間的方程,并討論了該方程的分叉現象,以求解最短攔截時間,從而實現快速攔截。盡管微分對策理論在導彈領域得到了廣泛的應用,但在太空領域中仍有較大的提升空間。

與傳統的空間交會攔截問題相比,航天器追逃博弈策略需要考慮博弈雙方的控制策略。文獻[10]將非線性攔截逃逸相對動力學簡化為CW方程,根據攔截任務終止要求引入零控脫靶矢量將動力學方程降階,采用攔截脫靶量和燃料消耗作為二次最優目標函數,推導了衛星軌道次優控制策略。文獻[11]則以CW 方程為基礎,推導了最優推力角博弈策略,并采用粒子群優化算法解決了協態變量初值難以確定的問題,得到了開環解。同時,通過預先生成一系列最優軌跡,并進行插值和外推,得到反饋控制策略的閉環解。文獻[12]考慮了航天器追逃的雙邊博弈問題,提出了混合控制策略,以適配多任務的需求。通過博弈值函數與軌跡界柵判斷是否需要執行策略切換,以實現追逃任務與自身任務的平衡。文獻[13-14]對航天器遠程攔截博弈問題進行了研究,針對協態變量初值難以確定的問題,通過遺傳算法優化求解近似初值,然后將運動軌跡離散化,為各離散點配置狀態,并使用非線性規劃優化求解協態變量初值的精確值。文獻[15]研究了航天器多段博弈攔截問題:在遠程攔截段,基于微分對策理論分別給出了閉環鞍點解和開環鞍點解,兩組解在形式上相同;在近程攔截段,考慮不同的指標函數,分別建立了不同的博弈策略。通過分析得出,實現攔截的充要條件是攔截器的推力幅值大于目標的推力幅值。文獻[16]針對多航天器的末端攔截博弈問題,根據攔截空間是否具有防御器將博弈態勢分為雙星博弈和三星博弈,并提出了一種博弈切換策略,將三星博弈轉化為分段的雙星博弈,并將雙邊時間方程擴展到三星博弈中,使得攔截器能夠在不被防御器反攔截的情況下快速攔截目標。

由于空間攻防時戰場的不確定性、信息不對稱等因素,航天器追逃任務中往往存在信息不完全的情況。因此,攔截航天器需要在有限時間內對目標航天器的不完全信息進行估計,以便實施有效的機動策略。在這種情況下,航天器追逃博弈理論可以為攔截任務提供有效的決策支持。針對不完全信息下的攔截問題,文獻[17]研究了目標的逃逸防御問題,通過給定攔截器策略,考慮目標與防御器之間存在單向通訊或雙向通訊的不同情況,建立了目標與防御器間的最優博弈策略。文獻[18-19]中使用雙積分系統作為動力學模型來探究目標信息不完全和動力學信息不完美的情況,將不完全信息和不完美信息視為擴展的狀態變量,采用了增廣原動力學的方法處理信息缺失問題。同時,設計了觀測器對擴展狀態進行有效估計。文獻[20-21]中提出了一種基于狀態觀測的博弈值函數近似方法。該方法利用級數展開對博弈值函數進行近似,然后通過觀測目標的狀態信息對級數的各系數進行更新。該方法具有較高的計算效率和精度,已經在空間攻防任務中得到了廣泛應用。文獻[22-23]中考慮了模型不確定問題,首先預設了多種攔截彈可能采取的制導率,并設計了多個估計器并行計算不同情況下攔截彈的最優狀態估計,并給出相應估計后驗概率。然后,通過概率融合方法將不同估計器得到的最優狀態估計和后驗概率融合,得到更加準確的攔截彈制導率。最后,通過設計目標和防御器的協同制導率有效躲避了攔截。

雖然追逃博弈問題已經得到了廣泛研究,但大多數研究都是以攔截器可以完全獲得目標信息的假設為基礎進行的,或者是基于簡化的動力學模型研究不完全信息博弈,這與實際的航天器追逃博弈態勢存在較大差異。因此,本文針對不完全信息下的航天器追逃博弈問題進行了研究,實現了在不完全信息下對目標的快速攔截。隨著低軌目標攔截技術不斷發展,任務能夠快速準確地獲得發射窗口[24],該方法也將成為未來處理一類具備智能體特性的失控航天器的機動策略之一。通過快速接近不受地面指令控制的失控航天器,并將其引導到安全軌道,可以避免對其他航天器和空間設施造成威脅。

綜合前文所述,本文針對不完全信息下航天器末端追逃博弈問題,首先建立了航天器末端攔截動力學模型,并給出了完全信息下的納什均衡策略對。然后,考慮目標控制矩陣信息不完全的情況,設計了基于廣義卡爾曼濾波的行為學習信息估計算法,并嚴格證明了所提出的不完全信息下微分博弈策略對滿足Epsilon 納什均衡。最后,通過仿真驗證了算法的有效性和攔截的快速性。本策略不僅適用于航天器攔截任務,還可以作為星群中具備智能體特性的失控航天器的處理方法,具有實際應用價值。

1 航天器相對運動狀態方程

在航天器末端攔截段,攔截航天器與目標航天器的相對距離遠小于兩星質心到地心的距離,因此在攔截衛星附近設置參考衛星O1,P為攔截航天器,如圖1 所示。假設參考衛星運行在圓軌道,以參考衛星為原點,x軸沿著參考衛星地心矢徑方向,z軸沿著軌道角動量方向,y軸滿足右手定則,定義虛擬衛星軌道坐標系O1xyz[25],在LVLH 坐標系下攔截器相對參考衛星的動力學方程可以簡化為CW方程:

圖1 攔截器與參考衛星Fig 1 Interceptor and reference satellite

式中:x,y,z為攔截器相對參考衛星的位置;ω為參考衛星的軌道角速度;ux,uy,uz分別為攔截器三軸方向上的控制輸入。

由線性系統理論可得狀態轉移矩陣為:

式中的子矩陣[26]分別為:

式中:τ=t-t0,且滿足(t,t0)=Φ(t,t0)A。

當τ=tf-t時,狀態轉移矩陣Φ滿足(tf,t)=-Φ(tf,t)A。在該虛擬衛星軌道坐標系下,攔截器與目標動力學均滿足CW方程,即:

式中:Ui(i=P,E)分別為攔截器P 以及目標E 的推力,且均滿足幅值限制‖UP‖<ρP,‖UE‖<ρE。

定義攔截器與目標的相對狀態為:

對其求導并將式(4)代入可得相對狀態方程:

式中:CE=BP。

2 有限時間追逃博弈策略對

在末端博弈過程中,雙方將圍繞攔截結束時的距離展開爭奪。攔截器盡可能以最小代價實現對目標的快速接近,而目標則盡可能以最小代價增大與攔截器之間的距離。因此,本文定義以下指標函數:

式中:S>0為對稱正定矩陣;Q≥0為對稱半正定矩陣;RP>0與RE>0均為對稱正定矩陣,且滿足:

式中:I∈R3×3為單位陣。

定義如下哈密頓函數:

式中:λ為協態變量。

設協態變量與狀態變量滿足如下關系:

式中:P為對稱正定陣,即P>0,PT=P。

對式(12)求導,并將其與式(7)和式(11)代入式(13),可得黎卡提微分方程如式(14)所示。

因此,攔截器與目標的鞍點策略對為:

式中:P滿足式(15),推力滿足幅值限制‖UP‖≤ρP,‖UE‖≤ρE。

3 不完全信息下博弈策略設計

本節考慮攔截航天器無法獲取目標航天器控制矩陣的不完全信息情況。在這種情況下,追逃博弈不再滿足納什均衡,因此本文采用Epsilon 納什均衡(后文簡寫為ε-納什均衡)[27]對其進行描述。此外,目標航天器實際采取式(16)中的博弈策略,掌握著博弈進程的完全信息,進而獲得更好的逃逸性能。

假設1.在本節研究的情境下,攔截器在面對不完全信息時存在行為學習信息估計進程,而目標無法獲取攔截器的實際機動策略。

注1.如果目標能夠獲取攔截器的實際策略,那么它將采取誘導策略來迷惑攔截器,而攔截器則會采取相應的對策來應對誘導策略。這種無限變化的過程可以被看作是一個無限維博弈,因為雙方都在不斷地改變自己的策略以適應對方的變化。為了避免這種情況,本文假設1 指出只有攔截器存在信息估計的策略,而目標不知道該過程和其實際機動策略。

定義擴展狀態變量Y=[XPETrE]T,則擴展狀態方程與量測方程為:

由于擴展狀態方程的非線性,本文采用廣義卡爾曼濾波(類EKF)對RE進行估計。定義標稱狀態為Yn,Zn,則在標稱狀態點對式(17)進行一階泰勒展開可得:

式中:ΔY=Y-Yn,ΔZ=Z-Zn為狀態偏差,Fn為雅克比矩陣,Hn為量測矩陣,具體形式如下:

式中:Φ(k,k-1)為狀態轉移矩陣,且Φ(k,k-1) ≈I+FnT,Wk-1為過程噪聲,Vk為量測噪聲,T為采樣時間,且滿足如下條件:

式中:Ψk為系統噪聲序列的方差陣,為半正定陣;Rk為量測噪聲序列的方差陣,為正定陣;δkj為Kronecker符號。

圖2所示為不完全信息下的博弈控制策略流程,針對線性化的狀態方程(21),采用卡爾曼濾波進行狀態估計,此時的濾波方程為:

為了盡可能減小狀態偏差,本文希望狀態標稱值盡可能接近于狀態最優估計值。因此,可以將狀態標稱值設置為狀態最優估計值,以減少估計誤差。

式中:P*滿足如下黎卡提方程:

且P*仍滿足終端條件P*(tf)=S。

4 滿足ε-納什均衡的數學證明

在實際的空間攻防過程中,存在許多不確定性因素,例如戰爭迷霧、傳感器約束、目標無規律機動等。這些因素導致了目標信息的不完全性,從而無法滿足完全信息下的納什均衡,因此完全信息策略不再適用。本節將嚴格證明所設計的微分博弈策略對滿足ε-納什均衡。這意味著,當策略對滿足更加寬松的ε-納什均衡時,可以確保攔截航天器處在不完全信息下的最劣情況時仍能獲得近似最優解,并且目標航天器的機動策略不會對其收益帶來較大影響。

定理1.設攔截航天器與目標航天器的動力學方程為式(7),指標函數采用式(8),攔截器實際采取的策略為式(25),記為,目標實際采取的策略為式(16),記為。此時博弈策略對形成ε-納什均衡,即:

證.采取狀態估計策略下,相應的航天器狀態分別記為,協態變量記為λ*,此時的博弈策略對改寫為:

將式(29)代入相對狀態方程(7),并積分可得:

此時的指標函數為:

注2.當攔截器采取不同的機動策略時,會導致兩者相對狀態變量的不同,因此盡管目標都采取了最優策略,但是對應的控制輸入卻可能是不同的。綜上所述,本文將這種情況下的目標策略記為。

此時的狀態變量為:

此時的指標函數為:

同時,對式(13)進行積分,并結合橫截條件可得:

式中:i為任意策略。

定義狀態變量差為ΔX=X*-X+,協態變量差為Δλ=λ*-λ+,分別將式(30)、(33)和(35)代入得到:

對上式中的ΔXT(tf)SX+(tf)項進行積分變換,則有:

令τ1-t0=τ-tf,則有:

式中:λmax(·)表示矩陣的最大特征值,由函數積分有界性定理可知:

因此,不完全信息下的追逃博弈策略設計滿足ε-納什均衡。

5 仿真校驗

為了驗證所提出的行為學習信息估計追逃博弈策略在不完全信息條件下的有效性,本節進行了3 種不同情況的對比分析,包括完全信息、不完全信息和不完全信息條件下的信息估計博弈策略。

在完全信息條件下,假設雙方都可以獲取對方采取的納什均衡策略和當前狀態信息。而在不完全信息條件下,假設攔截器只獲取到初始位置和對方可能采取的策略集合。在信息估計博弈條件下,本文考慮實際空間攻防中末端追逃場景,采用提出的不完全信息下ε-納什均衡博弈策略追擊目標。通過對比分析3 種不同條件下的末端追逃結果,本節評估了所提出的不完全信息ε-納什均衡的航天器追逃博弈策略的有效性。

初始條件設定如下:假設攔截航天器與目標均運行在近地軌道附近,選取近地軌道上與其相近的衛星作為參考衛星,其軌道角速度ω=0.001 rad · s-1。攔截器與目標的初始位置分別為[1.5 0.5 0]Tkm,[0 0 0]Tkm,初始速度分別為[0 0 0]Tkm · s-1,[ -0.05 0 0.05]Tkm · s-1。

假設攔截器與目標的最大推力加速度均為10 m·s-2,廣義Kalman 濾波中過程噪聲方差陣為diag[10-610-610-60.25 × 10-60.25 × 10-60.25 × 10-61010],量測噪聲方差陣為diag[10-810-810-80.25 ×10-80.25 × 10-80.25 × 10-8]。

5.1 完全信息博弈

在這種情況下,攔截器可以精確獲取到目標的控制矩陣RE。通過仿真,可以觀察到圖3和圖4中展示的航天器三維運動軌跡和相對距離變化,在488 s時,攔截器成功地攔截了目標。此外,圖5展示了完全信息博弈進程中攔截器的控制加速度變化情況。

圖3 完全信息下航天器追逃軌跡Fig.3 Spacecraft pursuit-evasion trajectory under complete information

圖4 完全信息下航天器相對距離Fig.4 Relative distance of spacecraft under complete information

圖5 完全信息下攔截器控制加速度Fig.5 Control acceleration of the interceptor under complete information

5.2 不完全信息博弈

在這種情況下,攔截器無法準確獲取到目標的控制矩陣,只能通過猜測該矩陣來設計攔截器策略,假設攔截器猜測的目標控制矩陣為=2 ×106I3。

通過仿真圖6 可以看出航天器間追逃軌跡,且攔截器在1 979 s 時成功攔截了目標。然而,從圖7中可以看出,攔截器與目標的相對距離變化很劇烈,經過多次震蕩,攔截器才最終實現攔截。

圖6 不完全信息下航天器追逃軌跡Fig.6 Spacecraft pursuit-evasion trajectory under incomplete information

圖7 不完全信息下航天器相對距離Fig.7 Relative distance of spacecraft under incomplete information

通過比較圖5 和圖8 可以看出,由于攔截器是在猜測較大的值下決策的,該條件下的控制加速度表現出劇烈的振蕩,攔截過程的控制性能顯著下降。仿真結果表明,如果攔截器不能完全獲得目標的信息,會導致攔截時間增加、攔截性能下降。因此,在航天器追逃控制中,對目標的不完全信息進行估計具有重要意義。

5.3 不完全信息下信息估計博弈策略

在這種情況下,攔截器采用信息估計的方法來適配目標的控制矩陣,從而建立不完全信息下的博弈策略。假設攔截器對目標控制矩陣的初始估計值為=2 × 106I3。

通過圖9和圖10可以觀察到航天器的三維追逃軌跡以及兩者間相對距離的變化情況,攔截器在經過501 s 的追擊后成功地攔截了目標。從仿真圖11中可以看出,在估計目標控制矩陣并采取相應的行為學習方法后,攔截器的控制性能與完全信息條件下的情況相對接近,說明在目標信息不完全的情況下,通過信息估計來適配目標的控制矩陣可以有效提高航天器的攔截性能。

圖9 不完全信息估計策略下航天器追逃軌跡Fig.9 Spacecraft pursuit-evasion trajectory under estimation strategy

圖10 不完全信息估計策略下航天器相對距離Fig.10 Relative distance of spacecraft under estimation strategy

圖11 不完全信息估計策略下攔截器控制加速度Fig.11 Control acceleration of the interceptor under estimation strategy

圖12 顯示了攔截器對目標控制矩陣信息的估計誤差,通過廣義Kalman 濾波算法,可以有效地對目標信息進行估計,估計誤差快速收斂。

圖12 目標信息估計誤差Fig.12 Estimation error of the target information

在追逃博弈中,代價函數值是衡量策略優劣的標準。圖13 給出了3 種博弈場景的代價函數指標。結果表明,當攔截器采用信息估計策略時,相應的指標明顯優于不完全信息方案,攔截時間短、成本低,并且接近完全信息方案的指標,這驗證了不完全信息估計博弈策略的有效性。

圖13 三種博弈場景的代價函數指標值Fig.13 The cost function values of the three game scenarios

6 結論

本文探討了在不完全信息的情況下,如何設計一種快速、有效的航天器末端追逃博弈策略。首先,本文基于微分對策理論推導出完全信息下的納什均衡策略對。為了對未知的目標信息進行估計,進一步提出了基于廣義Kalman 濾波的估計算法。在此基礎上,設計了不完全信息下的航天器追逃博弈策略,并嚴格證明了該策略滿足ε-納什均衡條件。最后,通過仿真分析驗證了該策略的有效性,結果表明采用本文提出的末端追逃博弈策略可以有效地估計目標信息并實現快速攔截。

綜上所述,博弈論與空間飛行器導航、制導與控制相結合具有廣闊的應用前景,能夠為未來具有自主避障能力的航天器攔截領域研究提供新的思路和方法,有望成為未來空間攻防任務的重要突破點。

猜你喜歡
攔截器納什航天器
2022 年第二季度航天器發射統計
多動能攔截器協同制導規律的研究及仿真
英國MARSS公司推出新型反無人機攔截器
以色列“天鎖”公司展出新式反無人機攔截器
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
2019 年第二季度航天器發射統計
2018 年第三季度航天器發射統計
2018年第二季度航天器發射統計
愛,納什博弈人生的真理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合