?

一種超參數自適應航天器交會變軌策略優化方法

2024-03-17 04:28孫雷翔郭延寧鄧武東呂躍勇馬廣富
宇航學報 2024年1期
關鍵詞:變軌交會航天器

孫雷翔,郭延寧,鄧武東,呂躍勇,馬廣富

(1.哈爾濱工業大學(深圳)空間科學與應用技術研究院,深圳 518055;2.哈爾濱工業大學航天學院,哈爾濱 150001;3.上海衛星工程研究所,上海 201109)

0 引言

隨著航天技術的不斷發展,太空中航天器的數量快速增加,地球同步軌道(GEO)等特殊軌道逐漸變得擁擠。根據美國憂思科學家聯盟(UCS)衛星數據庫統計,截至2022 年12 月31 日,在地球同步軌道上已有580顆有效航天器[1],多數為通信衛星等高價值目標。與近地軌道相比,軌道高度更高的GEO 航天器具有發射成本高、運營年限長等特點,對2008—2010 年GEO 航天器失效數量的統計[2]表明,燃料耗盡失效比例已經達到85.4%。針對GEO航天器等高價值目標進行燃料加注、故障維修等在軌服務(OOS)可以延長航天器在軌年限、降低航天器運營成本,具有十分重要的意義[3]。其中,航天器交會技術是實現在軌服務的關鍵技術之一。只有在完成交會后,才能進行接管控制、在軌加注、故障維修等在軌服務。在進行在軌服務之前,選擇適當的轉移策略可以最大程度地節省服務航天器的燃料消耗,為后續服務保留更多的機動能力,延長其服役時間。

目前在軌航天器主要變軌方式為脈沖變軌,其發動機點火時間很短,可近似為瞬間完成,具有速度改變而空間位置不變的特點。根據脈沖變軌次數的不同,又分為多脈沖變軌和雙脈沖變軌。多脈沖變軌中使用較多的是三脈沖變軌,主要包括雙橢圓變軌和三脈沖Lambert 變軌。其中雙橢圓變軌雖然計算相對簡便,但難以靈活地調整入軌相位,且難以滿足部分在軌服務任務的時限要求;三脈沖Lambert變軌相比于雙脈沖變軌決策變量維度大幅上升,計算難度增大,且使用三脈沖Lambert 變軌完成交會任務的規劃研究往往基于近距離假設(100 km以內)使用CW 方程,時間約束為固定量或自由量[4],而本文主要面向遠距離交會問題的快速規劃,且時間約束為不等式形式。綜合考慮現有研究進展和計算的快速性,本文選擇雙脈沖變軌方式。雙脈沖變軌中,Hohmann 變軌被證實為雙脈沖共面變軌中燃料消耗最小的方法[5],但其難以調整目標位置和轉移時長;Lambert 變軌不受半長軸、傾角等軌道根數限制,幾乎可以實現任意轉移時長到達任意位置,因其靈活性在軌道優化問題研究中被廣泛應用,但其燃料消耗往往較大,只有適合的變軌策略才能使其具有實際應用價值。

為在不同的軌道轉移條件下尋找最優化Lambert 變軌策略,針對其高復雜度、強非線性、非凸的特點,許多學者結合智能優化算法提出了不同的規劃方法,包括遺傳算法[6-7]、模擬退火算法[8]、粒子群優化算法(Particle swarm optimization,PSO)等,其中PSO 因原理簡單直觀被廣泛應用[9-12]。Pontani等[9-10]率先將PSO 應用于空間軌跡優化問題和脈沖轉移軌道的優化求解中;陳全等[11]以變軌時刻和真近點角作為決策變量,利用PSO 進行多脈沖燃料最優Lambert 轉移軌道的求解,Yang 等[12]利用量子行為粒子群優化和序列二次規劃相結合的混合算法對航天器遠距離快速協同交會過程進行了優化求解,非共面協同交會的仿真結果證明,相比于其他算法,該算法在收斂速度和解的穩定性方面均有一定優勢。

雖然PSO 具有全局搜索能力,但不佳的超參數選擇(包括慣性因子、學習因子)往往會導致收斂速度與全局最優性相沖突,例如:①過小的慣性因子會導致PSO 全局搜索能力較差,容易陷入局部最優;②過大的慣性因子會導致PSO 局部搜索能力較差,粒子容易在最優位置附近產生振蕩而不是收斂到最優位置;③過小的個體學習因子或過大的群體學習因子會導致PSO 的“無私行為”,即個體極大程度地服從于群體,粒子向群體最優位置快速靠攏,迅速喪失種群的多樣性,容易產生早熟現象;④過小的群體學習因子或過大的個體學習因子會導致PSO 忽略群體共享信息,收斂速度過慢。PSO 及其現有相關改進算法中的超參數通常是人為給定常數或在迭代過程中根據固定規則簡單調整的,缺乏自學習、自適應能力。為了彌補這一缺陷,將強化學習與PSO 相結合的思想逐漸受到關注。目前,大多數結合強化學習思想的PSO都是基于Q學習的自適應算法,將搜索最優解的優化過程視為尋找最優策略以獲得最大期望回報的強化學習過程。Samma等[13]提出了一種新的基于強化學習的記憶粒子群優化模型,每個粒子根據強化學習算法生成的動作進行5 類操作,包括探索、收斂、高跳、低跳和微調。Hsieh等[14]提出了一種基于Q學習的群優化算法,根據個體累積的表現而不是每次評估時的瞬時表現來選擇最佳的粒子。Liu等[15]使用Q學習思想,以與全局最優粒子的距離和粒子適應度排名作為輸入,根據當前優化進度確定獎勵函數,在單目標優化測試問題和多目標優化測試問題中都取得了不俗的表現。Xu 等[16]提出了一種結合拓撲結構的強化學習粒子群優化算法,根據粒子群的多樣性和上一步的拓撲結構從Q 表中選擇最佳的拓撲。Lu 等[17]通過選擇粒子群算法迭代過程中的精英粒子并學習其搜索行為,構建了精英行為網絡,有效降低了污水處理的能量消耗。不同于上述研究局限于傳統Q學習得到的離散Q 表(算法超參數只能在給定離散數值中進行選擇),Yin 等[18]利用一個深度強化學習網絡控制PSO 中的超參數變化,實驗結果表明該算法優于幾種最先進的PSO 變體??梢钥闯?,與傳統優化算法相比,結合強化學習的PSO 可以有效地利用歷史數據,不僅能根據自身經驗進行學習,還能交換信息進行學習。強化學習已廣泛應用于包括航天器在軌博弈在內的宇航智能化研究中,如耿遠卓等[19]針對脈沖推力航天器軌道追逃博弈問題,提出一種基于強化學習的決策方法,實現追蹤星在指定時刻抵近至逃逸星的特定區域。但結合強化學習思想的PSO 在空間軌道變軌策略優化中應用還較為少見。

除在合適的超參數選擇方面進行研究外,部分學者還致力于通過改進算法模型來避免PSO陷入局部最優。綜合學習粒子群優化算法(Comprehensive learning particle swarm optimization,CLPSO)由Liang等[20]在2006 年首次提出,旨在避免PSO 陷入局部最優。該算法利用所有其他粒子的個體最優解來更新粒子的速度,以保留群體的多樣性,防止過早收斂。CLPSO 已成功應用于多智能體路徑規劃[21]、結構可靠性優化設計[22]等諸多領域中,均取得了不俗的應用效果。CLPSO 較好地避免了算法陷入局部最優,但這是以犧牲收斂速度為代價的。在此基礎上,文獻[23]提出了改進式綜合學習粒子群優化算法(Improved comprehensive learning particle swarm optimization,ICLPSO)。相比于CLPSO 僅利用其他個體最優信息,ICLPSO 額外利用了全局和個體最優信息,同時采用多種群設計,各種群超參數相互獨立,在保持粒子多樣性的情況下加快了收斂速度。

因此,為解決GEO 航天器交會Lambert 變軌策略優化問題,在保證求解準確性的同時兼顧計算快速性的需求,本文引入ICLPSO,并將之與深度強化學習網絡相結合,組成可根據粒子群收斂情況實時調整超參數的強化學習粒子群算法(Reinforced learning particle swarm optimization,RLPSO),將該算法用于上述優化問題中,實現算法超參數根據實時迭代收斂情況的自適應動態調整,在避免陷入局部最優解的同時減少迭代次數,降低計算負荷,以實現快速、準確求解。

本文所提算法總體架構如圖1所示。

圖1 本文所提算法總體架構Fig.1 Overall architecture of the proposed algorithm

1 GEO航天器交會Lambert變軌模型

為便于描述交會過程,定義以下參數變量:

Ttotal:航天器交會任務時長上限,即交會任務必須在該時長內完成。

T:服務航天器相對初始時刻(定義為0 時刻)的脈沖機動時刻,T=[T1T2]。T1為服務航天器第1 次脈沖機動時刻,T2為服務航天器第2 次脈沖機動時刻,轉移時長可表示為Δt=T2-T1。

S:服務/目標航天器狀態矢量[rTvT]T=[rxryrzvxvyvz]T,r和v分別代表航天器在地心慣性坐標系下的位置和速度,rx,ry和rz則對應r在地心慣性坐標系下的三軸分量,vx,vy和vz對應v在地心慣性坐標系下的三軸分量。s/t 代表航天器為服務/目標航天器,Ti代表狀態矢量對應的時刻。

ΔV:描述服務航天器軌道轉移時的脈沖矢量,為第1 次機動時的脈沖矢量,Δv2為第2次機動時的脈沖矢量。

依托上述參數,本文所述GEO 航天器交會過程可按時間順序分為以下步驟:

1)0 時刻至T1時刻,服務航天器在其初始軌道上運行。

2)T1時刻,服務航天器施加第1 次Lambert 變軌脈沖,進入轉移軌道,脈沖矢量為Δv1。

3)T1時刻至T2時刻,服務航天器在轉移軌道上運行。

4)T2時刻,服務航天器施加第2 次Lambert 變軌脈沖,進入目標軌道完成交會,脈沖矢量為Δv2。

5)在交會過程中目標航天器不進行變軌。

本文的目標為選取合適的兩次脈沖變軌時刻T1和T2,使得燃料消耗最優化,也即之和最小。GEO航天器交會過程如圖2所示。

圖2 GEO航天器交會過程Fig.2 Rendezvous process of spacecraft in GEO

1.1 基本假設

針對GEO 目標航天器,將服務航天器部署在相近的GEO 軌道上,相較于LEO 軌道部署方案及地面應急發射方案,燃耗更低且響應更快[24]。本文基于上述在軌服務模式,作出如下基本假設:

1)本文著重研究服務航天器軌道轉移策略,對于在軌服務過程中的姿態控制不作具體展開。

2)服務/目標航天器的軌道根數應選取高度與地球靜止軌道相近的小傾角、小偏心率軌道。

1.2 交會模型建立

基于上述假設,可以定義航天器交會模型,包括軌道動力學模型、末態約束、軌道轉移方法、目標函數、優化變量和時間約束。

1)軌道動力學模型

對于GEO 軌道上較短時間的軌道轉移過程,考慮J2攝動的軌道動力學模型即可滿足大部分工程的精度要求,因此本文軌道轉移仿真部分采用考慮J2攝動的軌道動力學模型如下:

式中:μ為地球引力常量;aNSP為地球非球形引力加速度,其計算公式如下:

式中:J2為非球形參數;Re為地球半徑。

考慮到交會任務優化需進行多次迭代,同時本文所提算法又涉及到對深度神經網絡的訓練,為保證計算速度,本文神經網絡訓練及優化求解部分采用僅考慮地球引力的二體模型。

2)末態約束

為完成交會,在軌道轉移的末時刻,服務航天器與目標航天器的位置、速度應保持一致。因此,通過軌道動力學遞推得到的目標航天器末狀態即為服務航天器最終期望狀態。

3)軌道轉移方法

本文采用Lambert 轉移,通過軌道動力學遞推可以獲得變軌前服務航天器的狀態和目標航天器的末狀態,也即服務航天器最終期望狀態Lambert變軌過程可表述為[25]:

進一步可以得到兩次轉移的脈沖矢量:

4)目標函數

以航天器交會任務消耗燃料最優為目標,將兩次脈沖的速度增量之和作為目標函數:

5)優化變量

目標函數與Lambert 變軌的兩次脈沖有關,而在兩航天器初始軌道根數確定的情況下,兩次脈沖又只與機動時刻有關,選取T=[T1T2]作為優化變量,通過調整T的取值使得目標函數取得最優值時,即可相應得到兩次脈沖的大小及方向,進而確定完整交會策略。

6)時間約束

優化變量各分量要滿足合理性,即第1次脈沖、第2 次脈沖要依次進行,且交會要在時長上限內完成,具有以下約束:

2 用于交會變軌策略優化的ICLPSO算法簡介

2.1 粒子適應度函數

適應度函數表征了當前粒子對應的解的優劣。本文以燃料消耗最小為優化標準,選取前文1.2 小節中的目標函數J作為適應度函數,J的取值與當前粒子位置Xi、服務星初始狀態Ss,0、目標星初始狀態St,0有關,第i個粒子的適應度函數可表示為如下形式:

2.2 PSO簡介

在PSO的迭代中,每個粒子位置、速度的更新與全局最優位置Gbest和個體最優位置Pbest相關。第i個粒子的更新公式如下:

式中:Xi=[xi1xi2…xiD]T為第i個粒子的位置;D為種群維度,粒子位置的各分量取值要滿足區間[xmin,xmax];Vi=[vi1vi2…viD]T為第i個粒子的運動速度;w為慣性因子;c1和c2為學習因子;w、c1和c2均為人為給定常系數;rra_1和rra_2為[0,1]區間內取值的隨機數。算法持續迭代,直至觸碰收斂迭代次數上限gcmax或迭代次數上限gemax時算法結束,輸出全局最優位置Gbest作為最終優化結果。

2.3 CLPSO簡介

CLPSO[20]在PSO 的基礎上修改了粒子更新機制,不再跟隨全局最優位置與個體最優位置,轉而對每個粒子隨機給定種群內通過錦標賽規則篩選出的優勝粒子,并定期更新該粒子,將該粒子的個體最優位置與當前粒子的個體最優位置依維度按概率進行交叉,作為當前粒子真正的跟隨目標。第i個粒子運動速度各分量更新公式如下

式中:上角標d表示第d維度的分量,fi=[fi(1),fi(2),...,fi(D)]表示第i個粒子追隨的優勝粒子群,通過錦標賽規則產生,即:隨機抽取種群中2 個其他粒子,對比它們的個體最優值,擇其中較優者作為優勝粒子,重復該過程直至產生足量的優勝粒子;rra和P為[0,1]區間內取值的隨機數;Pci為第i個粒子的交叉概率,服從以下公式:

式中:a=0.05,b=0.45 為常系數。當當前粒子的個體最優值持續m代未更新時,則重新選擇優勝粒子群(除去自身及上一輪選中的粒子)。

CLPSO 算法整合了種群內全體粒子的歷史信息,挑選出更有優化可能的方向更新粒子,避免陷入局部最優解,但也因粒子運動方向相比傳統粒子群算法更為分散導致其收斂速度慢于后者。

2.4 ICLPSO算法簡介

為在較快收斂速度的基礎上兼顧全局最優性,在PSO 的基礎上結合CLPSO 中的優勝粒子跟隨機制,文獻[23]提出了ICLPSO,該算法中第i個粒子運動速度各分量更新公式如下:

同時,出于搜索的靈活性考慮,將粒子群種群均勻劃分成多個子種群,每個子種群使用獨立的慣性因子w、學習因子c1,c2和c3,需要指出的是,每個子種群的上述4種超參數均為后續利用強化學習進行自適應優化的超參數。

ICLPSO算法流程如下:

算法1.改進式綜合學習粒子群算法

1)初始化粒子群;

2)使用式(8)計算粒子適應度,并分別記錄全局最優和個體最優;

3)如當前粒子個體最優值停滯超過m代未更新,則通過錦標賽規則更新優勝粒子群;

4)使用式(12)更新粒子群;

5)更新收斂迭代次數和迭代次數,如觸碰收斂迭代次數上限gcmax或迭代次數上限gemax則算法結束并輸出最優解,否則返回2)繼續迭代。

3 基于強化學習的ICLPSO超參數調整策略設計

本節以前文2.4 小節介紹的ICLPSO 為基底,設計基于強化學習的超參數調整策略并與之結合,形成可根據粒子群離散情況動態調整慣性因子和學習因子的RLPSO。

3.1 DDPG簡介

強化學習是機器學習的一個分支,旨在引導智能體在特定環境中依照優化策略采取行動,以最大化累積獎勵函數。智能體在離散時間中與環境進行交互,在每一步k中,智能體觀察到狀態量sk∈S,根據策略π執行動作ak∈A,其中S是狀態空間,A是動作空間,策略π:S→A是由S到A的映射。

本文所采用的DDPG 是強化學習的一種分支,是Q 學習在深度神經網絡方向的延伸。在DDPG算法中,為獲得最優策略π,需設計并調用4 個神經網絡,分別為:策略網絡μ(sk|θμ),目標策略網絡μ′(sk|θμ′),動作-價值網絡Q(sk,ak|θQ),目標動作-價值網絡Q′(sk,ak|θQ′)。其中策略網絡μ和目標策略網絡μ′可以根據狀態量選擇動作,動作-價值網絡Q和目標動作-價值網絡Q′用于評估所選擇動作的優劣,θμ,θμ′,θQ及θQ′代表上述神經網絡權重。起始狀態下,隨機初始化θμ和θQ,θμ′的初始值與θμ相同,θQ′的初始值與θQ相同。訓練開始后,目標網絡權重按下式更新:

式中:τ?1,使得目標網絡的更新緩慢而平穩,提高了學習的穩定性。

為訓練動作-價值網絡,需最小化損失函數:

而后利用動作-價值網絡訓練具有策略梯度的策略網絡:

DDPG的訓練過程中數據流向如圖3所示。

圖3 DDPG神經網絡訓練流程Fig.3 DDPG neural network training process

3.2 狀態、動作與網絡結構

狀態量、動作量和網絡結構的詳細設計過程可詳見于文獻[18],文中僅作簡單介紹。狀態量能將粒子群當前狀態反饋給DDPG 神經網絡,動作量則由神經網絡根據當前狀態給出,經過轉換實現算法超參數的動態變化。狀態量和動作量的選取與轉換決定了DDPG 神經網絡的結構,且影響著神經網絡與ICLPSO的有機結合。

1)狀態量

本文所選擇的狀態量主要分為3 個部分:迭代進度I、粒子離散度Ddiv、停滯時長Istay。

迭代進度I計算公式如下:

式中:g為當前迭代次數,gemax為迭代次數上限。

粒子離散度Ddiv為各粒子到全局最優粒子歐氏距離的平均值與求解空間內最遠距離的比值,計算公式如下:

式中:ρ代表兩點間的歐氏距離。粒子離散度越小,表示粒子越集中,反之則表示粒子越發散。

停滯時長Istay表征了當前粒子群算法是否在高效運轉,計算公式如下:

式中:glast為上一次全局最優更新時的迭代次數。停滯時長越小,表示當前粒子群運轉效率越高。

上述3種狀態量取值范圍均為[0,1],為使信息更加突出,避免狀態量的小范圍變化被忽略,選擇正弦編碼格式對上述狀態量進一步編碼,具體方式如下:

式中:x表示3 個狀態量中的任意一個;sst_i表示由狀態量產生的新分量;i的取值集合為{0,1,2,3,4}。通過上述變換,3 個狀態量被轉換成為一個15 維的狀態矢量,輸入到DDPG神經網絡中。

2)動作量

本文采用前文2.4 小節介紹的ICLPSO 作為基礎,將粒子群分成5 個子種群,每個子種群使用獨立的慣性因子w、學習因子c1,c2和c3,每個子種群有4 個待定參數,共有20 個待定參數。以其中一個子種群為例,其4 個待定參數由5 個動作分量{ac1,ac2,ac3,ac4,ac5}產生:

式中:kw=0.8,ks=8,ε=0.000 01,w0=0.1,均為常系數;sscal是用于量化學習因子的中間變量??梢?,5 個子種群需要一個25 維的動作矢量作為策略網絡的輸出。

3)網絡結構

在DDPG 智能體中,策略網絡μ(sk|θμ)與目標策略網絡μ′(sk|θμ′)的網絡結構相同,動作-價值網絡Q(sk,ak|θQ)與目標動作-價值網絡Q′(sk,ak|θQ′)結構相同。設計策略網絡結構為15 維輸入25 維輸出的神經網絡,結構如圖4(a);設計策略網絡結構為40維輸入1維輸出的神經網絡,結構如圖4(b)。

圖4 DDPG神經網絡結構Fig.4 DDPG neural network architecture

3.3 獎勵函數設計

結合實際問題背景,取種群數量N=100,種群維度D=2,分成5 個子種群,每個子種群有20 個粒子,迭代次數上限gemax=128,收斂迭代次數上限gcmax=50,個體最優位置持續4 代未更新時重新選擇較優粒子群。

獎勵函數的設計關乎到神經網絡訓練的成敗,不合適的獎勵函數會使得神經網絡出現懶惰傾向和刷分傾向。懶惰傾向指因為錯誤動作懲罰過大,神經網絡的行為偏向保守,雖然能夠快速收斂,但所得解并非全局最優解;刷分傾向指因為單步獎勵值設置過大,神經網絡傾向于小步前進,從而獲得更多獎勵,雖然最終能收斂到全局最優解,但收斂代數多,收斂速度慢。

在以往利用強化學習優化智能算法超參數的研究中,往往采用如下簡單獎勵函數:

式中:J*(k)為第k次迭代后算法所求的全局歷史最優適應度,該值在每次迭代后只會變得更優(即更?。┗虮3衷挡蛔?,因此僅有J*(k) <J*(k-1)和J*(k)=J*(k-1) 兩種情況,而不會出現J*(k) >J*(k-1)。該獎勵函數旨在通過獎勵有效迭代、懲罰無效迭代使得粒子群快速收斂,但因獎勵函數設計單一,神經網絡經常出現懶惰傾向和刷分傾向。為改善以上情況,引入PSO 優化解作為參考基準,設計日常獎勵函數如下:

式中:σ=0.001,為誤差系數,即認為所提算法優化解劣于PSO 優化解1‰以內仍是成功的結果,給予正向的最終步獎勵,該常系數的設置是為了改善訓練過程中曲線的頻繁震蕩情況。

上述日常獎勵函數通過合理的數值設計和引入參考基線,防止了懶惰傾向的產生,同時通過設計數值合適的最終步獎勵函數,鼓勵算法快速收斂到最優解,防止了刷分傾向的產生。

3.4 RLPSO算法設計

將訓練好的DDPG 神經網絡與ICLPSO 結合,形成RLPSO算法如下:

算法2.強化學習粒子群算法

1)初始化粒子群;

2)使用式(8)計算粒子適應度,并分別記錄全局最優和個體最優;

3)如當前粒子個體最優值停滯超過m代未更新,則通過錦標賽規則更新優勝粒子群;

4)使用式(16)~(18)計算狀態量,使用式(19)編碼為狀態矢量輸入到DDPG神經網絡中;

5)使用式(20)將DDPG 神經網絡輸出的動作矢量轉換為各子種群的慣性因子w、學習因子c1,c2和c3;

6)使用式(12)更新粒子群;

7)更新收斂迭代次數和迭代次數,如觸碰收斂迭代次數上限gcmax或迭代次數上限gemax則算法結束輸出最優解,否則返回2)繼續迭代。

RLPSO 算法與前述各算法的繼承關系如圖5所示。

圖5 RLPSO算法繼承關系Fig.5 Inheritance relationship of RLPSO

4 仿真實驗

本節首先給出用于DDPG 網絡訓練的詳細參數,并在后續的仿真實驗中,采用交會任務時長上限不同的兩組實際服務航天器和目標航天器數據,分別用RLPSO、PSO 和CLPSO 求出迭代次數ge、燃料最優值Jbest、時間最優解Gbest以及脈沖Δv1和Δv2,并進行比對分析。

4.1 DDPG網絡訓練

考慮到同步軌道單次轉移實際可接受的速度增量一般在100 m/s 量級,且需滿足前文1.1 小節基本假設,取如下限制的一族典型工況作為神經網絡訓練的待解問題:兩航天器軌道半長軸在41 966~42 366 km 之間隨機選取,偏心率在0~0.005 之間隨機選取,軌道傾角在0°~0.05°之間隨機選取,升交點赤經選為0°,近地點幅角選為0°,目標航天器真近點角選為0°,服務航天器真近點角在-25°~25°之間隨機選??;交會任務時間上限取86 400 s(同步軌道周期)。為使得DDPG 智能體更好地進行探索學習,在訓練過程中向動作矢量加入不相關的、均值為0、方差為0.5的高斯噪聲,如下式所示:

設置折現系數γ=0.99,策略網絡學習率取2 ×10-4,動作-價值網絡學習率取1 × 10-3,相比于策略網絡更高的學習率有助于動作-價值網絡更快做出準確評估,經驗回放緩存長度設置為3 × 104。按上述條件進行50 000 輪次仿真訓練,選取表現最好的DDPG神經網絡。

取迭代進度I為0.5,停滯時長Istay為0.05,粒子離散度Ddiv取值區間為[0.1,0.9],將以上3 量編碼為狀態量輸入訓練好的DDPG 網絡中,將所得動作量轉換為5 組待定超參數,其中一組超參數隨粒子離散度變化曲線如圖6 所示,可以看出訓練好的DDPG 網絡實現了根據粒子群收斂情況實時調整超參數的預定目標。

圖6 超參數隨粒子離散度變化曲線Fig.6 Curves of hyperparameters changing with particle diversity

4.2 單次實驗結果對比

單次仿真實驗結果對比所用兩航天器軌道根數見表1。在本小節實驗中,PSO、CLPSO 和RLPSO算法參數如表2所示,交會任務時長上限較短,需在1天(86 400 s)內完成。

表1 單次仿真實驗所用航天器軌道根數Table 1 Orbital elements of spacecrafts used in a single simulation experiment

表2 算法參數Table 2 Algorithm parameters

為了驗證所提算法的實用性,針對上述工況,在粒子群規模相同的情況下,分別利用RLPSO、PSO和CLPSO 進行單次燃料最優轉移策略求解。單次仿真實驗結果對比如表3所示。在變軌策略的優化求解中,單次軌道外推計算量很大,與之相比粒子群位置、速度的計算及通過神經網絡計算超參數的時間幾乎可以忽略不計,迭代次數的縮減能夠在相當程度上節約計算時間。相比于PSO,RLPSO 在迭代次數上縮減了49.54%并取得了更好的優化解;相比于CLPSO,RLPSO 在迭代次數上縮減了55.64%,而優化誤差僅擴大了0.016%,可滿足實際工程需要。

表3 單次仿真實驗結果對比Table 3 Comparison of single simulation experimental results

3種算法的最優解收斂過程如圖7所示,可以看出,在首代全局最優值相近的情況下,RLPSO 僅經過5 次迭代就收斂到其最終優化值,此時PSO 和CLPSO 優化值為30.813 1 m·s-1和34.063 4 m·s-1,均劣于RLPSO的優化值30.794 8 m·s-1。

圖7 RLPSO、PSO和CLPSO收斂過程對比Fig.7 Comparison of convergence processes of RLPSO,PSO and CLPSO

將二體模型下所求得的脈沖矢量代入到考慮J2攝動的軌道動力學模型中,通過軌道外推得到兩航天器在第二次脈沖機動后,位置僅相差0.103 6 km,可繼以末端制導完成交會,驗證了算法的可行性。

4.3 多次實驗結果對比

多次仿真實驗結果對比所用兩航天器軌道根數見表4。在這次仿真實驗中,PSO,CLPSO 和RLPSO 算法參數仍為表2 中參數,為進一步驗證算法的有效性,增大兩航天器軌道高度差和相角差,同時加長交會任務時長上限,需在5 天(432 000 s)內完成,更長的時長上限意味著更大的解搜索空間,對算法的搜索性能要求更高,同時相比于4.2小節中與訓練工況相同的時長上限,本小節實驗亦對算法的泛用能力做出了檢驗。

表4 多次仿真實驗所用航天器軌道根數Table 4 Orbital elements of spacecrafts used in multiple simulation experiments

針對上述工況,分別使用PSO、CLPSO和RLPSO進行20 次燃料最優轉移策略求解。多次實驗結果對比如表5 所示,仿真過程使用個人計算機完成,CPU 型號為Intel Core i7-11800H @ 2.30 GHz,內存為16 GB。

表5 多次仿真實驗結果對比Table 5 Comparison of multiple simulation experimental results

雖然RLPSO 的迭代代數與總計算時長略遜于PSO,但RLPSO在優化精度上占據顯著優勢;相比于CLPSO,RLPSO 在迭代代數與總計算時長上占據顯著優勢,且在優化精度上也優于CLPSO。上述結果反映出RLPSO 的參數自適應機制能夠更好地適應較長時間規劃任務,更大的初始軌道差異也進一步證明了方法的有效性。這說明RLPSO 算法在更大的解搜索空間的問題上體現出了良好的泛用能力,也說明采用短時間規劃任務進行訓練并在較長時間規劃任務中應用是可行的,這一結果利于神經網絡的快速訓練與部署。需要注意的是,相比于PSO和CLPSO,在粒子群規模相同的情況下,RLPSO 的代均計算時長明顯更長,這是由于深度神經網絡對超參數的自適應計算消耗了部分計算資源,但即便如此,由于迭代次數的壓縮,RLPSO 的計算速度仍然具有相當的競爭力。

5 結論

本文針對考慮燃料最優的GEO 航天器交會Lambert變軌策略優化問題建立了數學模型,引入了ICLPSO 作為變軌策略優化的基礎方法,并探索運用DDPG 神經網絡實現算法超參數的動態自適應調節,將DDPG 與ICLPSO 組合為RLPSO,在犧牲較小求解精度的前提下大幅壓縮了算法迭代次數,改善了以往航天器交會變軌策略優化方法計算資源消耗大的問題,最后通過仿真實驗驗證了所提算法的有效性和可行性。研究成果及總結展望如下:

1)建立了GEO 航天器交會Lambert 變軌數學模型,給出了速度增量消耗與變軌時刻的關系,可用于粒子群算法的代價函數計算與DDPG 神經網絡的獎勵函數計算。

2)引入了在PSO 的基礎上結合CLPSO 中的優勝粒子跟隨機制ICLPSO,并使用一族典型GEO 航天器交會工況訓練DDPG 神經網絡,將DDPG 與ICLPSO 結合形成算法超參數可動態自適應調節的RLPSO。將PSO優化解作為參考基線引入訓練環境獎勵函數的設計中,避免智能體出現懶惰或刷分傾向,僅通過50 000 輪次訓練就取得了較好的應用效果。仿真結果表明,與PSO 和CLPSO 相比,RLPSO在犧牲了不到1‰的優化精度的前提下大幅壓縮了迭代次數,節約了計算資源,優化結果能夠滿足實際工程需求,同時在大搜索空間下,RLPSO 仍然保持住了優化精度,相比PSO 和CLPSO 的優勢變得更加明顯,迭代次數的縮減帶來的低計算量或使得該算法應用于星上自主交會規劃成為可能。

3)本文算法除GEO 航天器交會Lambert 變軌策略優化問題外,在進行適應性修改后還可能應用于如多脈沖變軌策略優化等其他航天器決策優化問題,并亦可應用于除二體模型以外的軌道動力學模型,相比于二體模型,其他較高精度軌道動力學模型因迭代次數壓縮帶來的計算資源節約將更為明顯。未來可以聚焦于上述兩點對算法進行進一步的擴展應用。

猜你喜歡
變軌交會航天器
“織交會”打造大朗樣板
2022 年第二季度航天器發射統計
2019 年第二季度航天器發射統計
2019年,水交會來了!
2018 年第三季度航天器發射統計
2018年第二季度航天器發射統計
“朱諾”變軌時間將推至明年2月
立方體星交會對接和空間飛行演示
例析人造衛星的圓周運動及變軌問題
人造衛星變軌問題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合