?

基于視覺導航與強化學習的可重復使用火箭垂直降落控制策略研究

2023-06-25 10:36尹超
無線互聯科技 2023年7期
關鍵詞:控制策略

尹超

摘要:隨著商業航天在我國的快速發展,星鏈計劃體現的經濟和國防作用越來越明顯,可重復使用火箭垂直降落方式是商業航天中決定商業成功的關鍵因素之一??紤]到商業火箭在重復使用過程中具備抗干擾和低成本的特點,文章提出了采用純視覺與強化學習融合的方法。文章通過多角度視覺傳感融合實現火箭定位并強化學習所規劃的航路,確?;鸺诳煽仫w行能力范圍以內精準垂直降落在指定著陸區域。針對火箭垂直降落路徑規劃與控制精度的難點,文章提出了基于火箭動力學特性和飛行數據的動力學參數辨識方法,為提高火箭垂直降落運動軌跡預估精度提供有效手段。

關鍵詞:視覺導航;強化學習;系統辨識;控制策略

中圖分類號:TP273文獻標志碼:A0引言商業航天的星鏈所產生的經濟性和國防價值越來越受到世界各國的重視。美國太空探索公司(SpaceX)的星鏈在當前俄烏戰爭中所產生的效果得到了驗證。SpaceX公司的垂直起飛垂直降落技術是低成本、快速、可重復使用火箭的重要技術之一,在獵鷹系列火箭中成功應用。2016年4月8日,SpaceX公司獵鷹9號火箭第一級降落在無人船上;2017年6月25日,按預設航路降落在太平洋某處的浮動平臺上。2021年3月11日,SpaceX公司將五手助推器降落在無人船上。上述事例表明,可重復使用、低成本和高精度是垂直起飛垂直降落技術的重要特征。

對標垂直起飛垂直降落技術的低成本和高精度的技術要求,本文提出采用純視覺導航定位的方法,通過在火箭周向合理布置多顆攝像頭,確?;鸺诮咏憛^域時在各種姿態下都有至少3顆攝像頭同時觀察到著陸區域的標志,以實現純視覺導航定位。同時,本文提出通過強化學習的方法規劃出更加符合火箭飛行性并在飛行范圍內的著陸航路,以提高火箭垂直著陸的成功率[1]。

1數學建?;鸺艿街亓?、氣動力和氣動力距的共同作用。同時,火箭受到外界環境變化,例如風干擾等,產生各種不確定性。本文以設定的火箭著陸點為地理坐標系的原點,以“東北天”方向定義地理坐標系的X,Y,Z軸。

M×dv/dt=F=P+R+mg (1)

其中,m為火箭重量,單位kg;v為火箭速度矢量,單位m/s;F為火箭所受到的合力,包括火箭發動機推力、火箭收到的氣動力、重力等,單位為N。

dH/dt=M=Mp+Mr (2)

其中,H為動量距;M為火箭受到的合力距,包括推力產生的力矩、氣動力產生的力矩,單位為N·m。

2視覺導航為了實現垂直降落,火箭在下滑過程中逐漸由俯沖調整姿態到平飛并具有一定正向攻角,以降低下降速率。當進入著陸區域附近時,火箭需進一步調整姿態,使得火箭逐步調整為箭頭朝上的降落姿態,以利于垂直降落。因此,為了覆蓋上述運動過程,攝像頭的垂向視場設定為廣角100度,同時周向間隔40度布置1顆攝像頭,共計9顆,每顆周向視場設定為廣角80度。由此,在火箭降落全過程中至少3顆攝像頭可觀測到著陸區域視場[2]。由此,通過圖像拼接可構建火箭以第一俯視視角的360度環視對地全景視場,可確保在垂直降落過程中的任何時刻均可觀察到著陸區域內至少3個標志,以構建PnP視覺導航定位算法。PnP視覺導航定位求解屬于給定點的位姿估計。利用著陸區域內的n個空間相對位置已知的點作為控制點,由構建的全景觀察視場實時采集圖像,并根據攝像頭的內外參數求解。攝像頭內參數采用四參數模型,根據三角幾何原理得到攝像頭在世界坐標系中的位姿以及空間點在參考坐標系的位置。

3強化學習航路規控火箭垂直降落至指定區域的航路規劃與控制的目的在于:根據火箭當前位置、姿態等實時狀態,合理規劃出一條能夠滿足火箭當前所具備飛行能力的垂直著陸航路。所規劃的航路包含垂直著陸軌跡(速度方向)和姿態跟隨變化過程[3]。

航路規劃的控制點選擇為位置、速度和加速度相匹配的方法。航路規劃的控制點位置采取火箭當前位置分別與火箭對著陸區域特征點燈光的視覺定位的連線,按照與火箭當前位置由近及遠、從高到低均勻排列設置控制點位置??刂泣c的終點位于預設著陸點的正上方,高度在20 m左右??刂泣c的速度方向在連線方向的基礎上朝著著陸點方向調整,同時控制點的加速度方向朝著垂直方向調整,當控制點位于著陸點上方時,加速度方向垂直向下且加速度逐漸調整為0。在控制點初步確定后,采取B樣條曲線擬合的方式,實現航路規劃,即規劃的航路由B樣條基函數的組合獲得。由此獲得了一條根據火箭當前位置、姿態、速度等飛行狀態以及著陸區域等信息的規劃標稱航路。

強化學習的航路規劃框架包括火箭的動力學和運動學模型、火箭的發動機推力模型、火箭的導航模型、火箭的飛行控制規律模型,作為強化學習獎勵函數的航路規劃的優化規則,作為強化學習策略網絡的航路規劃策略以及強化學習航路規劃的樣本數據集和測試數據集。通過強化學習后的航路規劃策略,將被加載至火箭機載系統,作為火箭自主垂直著陸的實時航路規劃策略[4]。

本文采用低成本和無源的視覺導航定位方法?;鸺膶Ш侥P洼敵龌鸺斍暗南鄬τ诨鸺憛^域的位置、姿態等信息?;鸺娘w行控制規律模型是根據火箭當前的飛行狀態和規劃的航路點,計算出火箭姿態控制發動機所需偏轉的角度。

作為強化學習獎勵函數的航路規劃的優化規則是由能量、著陸精度、著陸姿態、著陸速度和加速度共同組成的最優化準則。能量最優化選擇為在火箭當前所具有的動能和勢能總和的前提下著陸控制所需能量做到最小化。著陸精度最優化原則為火箭著陸位置在預定的著陸區域以內,距離著陸中心點位置越近越好,同時著陸的軌跡盡可能不超過火箭當前所處的象限區域。著陸姿態的最優化原則為火箭著陸過程中的姿態一直處于可控范圍,著陸末段姿態盡可能保持垂直姿態。著陸速度和加速度的最優化原則為著陸過程中火箭的速度和加速度逐漸減小且處于可控范圍,同時在著陸末段逐漸減小為0,確保正常著陸。因此,強化學習的獎勵函數輸入為火箭的飛行狀態,包括位置、姿態、速度、加速度;輸出為航路規劃的獎勵數值,獎勵數值越大,表明航路規劃越有效[5]。

作為強化學習策略網絡的航路規劃策略是根據輸入的火箭當前狀態(位置、姿態、速度和加速度等)和著陸區域位置信息,在標稱控制點基礎上,通過深度網絡計算控制點序列及其火箭姿控發動機偏轉控制角度序列。強化學習航路規劃的樣本集是通過火箭飛行的實測數據和飛行模擬仿真的數據相結合的數據集[6]。

4基于火箭飛行動力學特性的系統參數辨識基于火箭飛行動力學特性的系統參數辨識方法如下所示。(1)建立火箭飛行動力學和運動學的狀態方程。系統辨識的狀態量選擇為火箭飛行的位移、速度、加速度、姿態角、姿態角速度、姿態角加速度以及火箭飛行所受合力與合力矩。(2)建立系統辨識的觀測方程。系統辨識的觀測量選擇火箭飛行的位移、速度、加速度、姿態角、姿態角速度、姿態角加速度。(3)確定系統辨識的待估參數。系統辨識的待估參數為火箭飛行動力學參數。(4)構建系統辨識的靈敏度方程。將火箭飛行動力學和運動學的狀態方程和觀測方程分別對待估參數求導數,得到系統辨識的靈敏度方程。(5)采用牛頓拉夫遜迭代算法,迭代計算出待估計參數的數值。

5研究驗證控制策略樣機通過使用某型可重復使用火箭的性能數據,得到火箭的數學模型??刂撇呗詷訖C通過飛行仿真構建樣本集進行強化學習??刂撇呗詷訖C經過強化學習的控制策略網絡可在各種飛行狀態下輸出航路規劃的控制點序列和姿態發動機偏轉控制角度序列??刂撇呗詷訖C通過飛行模擬火箭的最后垂直著陸階段,使用經過強化學習后的航路規劃和控制策略。通過規劃航路的性能分析,經強化學習的規劃航路可有效提升著陸精度和使得火箭垂直著陸的速度、加速度更接近于0,達到更好的效果。

6結語針對可重復使用火箭的垂直降落控制策略問題,本文首先采用了視覺導航定位的方法為火箭垂直著陸提供低成本且可靠的無源定位方法;再通過強化學習的方式提升了垂直著陸精度和有效提高抗干擾能力,具有一定的工程應用前景。

參考文獻

[1]LUIGI B,CLAUDIO M.自動化設備和機器人的軌跡規劃[M].段晉軍,梁兆東,趙鑫,等,譯.北京:電子工業出版社,2016.

[2]徐德,譚民,李原.機器人視覺測量與控制[M].北京:國防工業出版社,2011.

[3]何林坤,張冉,龔慶海.基于強化學習的可回收運載火箭著陸制導[J].空天防御,2021(4):21-26.

[4]DONALD E S,ARTHUR F B,EDWARD M G,et al.Automatic Ground Collision Avoidance System Design,Integration, & Flight Test[J].IEEE A&E System Magazine,2011(12):87-91.

[5]EDWARD M G,RUSSELL M T,SHAWN C W,et al.Automatic Ground Collision Avoidance System Design for Pre-Block 40 F-16 Configurations. Asia-Pacific International Symposium on Aerospace Technology[J].2012(9):32-36.

[6]VAN H H,GUEZ A,SILVER D.Deep Reinforcement Learning with Double Q-learning[J].Computer Science,2015(6):16-20.

(編輯 王永超)

Research on vertical landing control strategy of reusable rocket based on visual

navigation and reinforcement learningYin? Chao

(Shanghai Aviation Electric Co., Ltd., Shanghai 200030, China)Abstract:? With the rapid development of commercial aerospace in China, the economic and national defense role of the Star Chain program is becoming increasingly evident. The vertical landing method of reusable rockets is one of the key factors determining commercial success in commercial aerospace. Considering that commercial rockets have the characteristics of anti-interference and low cost in the process of repeated use, this paper proposes a fusion method of pure vision and reinforcement learning. Rocket positioning is achieved through multi-angle visual sensor fusion, and learning the planned route is enhanced to ensure that the rocket accurately and vertically lands in the designated landing area within the controllable flight capability range. Aiming at the difficulties in the planning and control accuracy of rocket vertical landing path, a dynamic parameter identification method based on rocket dynamic characteristics and flight data is proposed, which provides an effective means to improve the prediction accuracy of rocket vertical landing trajectory.

Key words: visual navigation; intensive learning; system identification; control strategy

猜你喜歡
控制策略
房建混凝土澆筑的監理控制策略
船舶再生能量LCL并網逆變自抗擾控制策略
工程造價控制策略
現代企業會計的內部控制策略探討
鋼鐵行業PM2.5控制策略分析
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
基于虛擬同步發電機原理的逆變器控制策略與仿真
一種改進的感應電機查表法弱磁控制策略
基于對等控制策略的微電網運行
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合