?

基于魯棒觀測器的深度強化學習垂直起降運載器姿態穩定研究

2024-03-05 10:22李彥鈴羅飛舟葛致磊
系統工程與電子技術 2024年3期
關鍵詞:魯棒觀測器角速度

李彥鈴, 羅飛舟, 葛致磊,*

(1. 西北工業大學航天學院, 陜西 西安 710072; 2. 中國運載火箭技術研究院, 北京 100076)

0 引 言

隨著人類對太空的不斷探索,對運載火箭技術的要求也逐步提高,迄今為止國內運載火箭型號幾乎只能單次使用,而垂直起降技術的發展為運載火箭重復使用開辟了一條新道路[1-2]。垂直起降運載器從提出伊始就受到各國航天機構及科研人員的高度重視,隨之多種垂直起降運載器應運而生,如ROOST/ROBOS[3]、Apollo Lunar Module[4]、DC-X/DC-XA[5]、RVT[6]、Falcon系列[7]等。

垂直起降運載器控制系統的設計是其飛行控制技術的核心,而姿態穩定是運載器平穩飛行的前提。根據當前的研究和工程實踐,穩定飛行器姿態控制是一個復雜而關鍵的問題,需要選擇合適的控制策略以實現期望的控制效果[8-9]?;?刂?、模型預測控制和魯棒控制等算法被廣泛應用于該領域,但存在對模型準確性和全面性的依賴問題[10-12]。一方面,如果模型表達不夠準確或參數無法精確表達,則這些控制方法可能無法獲得理想的效果;另一方面,過于復雜的模型也會增加控制器設計難度。因此,應在模型準確性和復雜度之間進行權衡并尋找最優解。雖然比例-積分-微分(proportional-integral-derivative, PID)控制仍是目前工程上主流控制算法之一,但其抗干擾能力和處理模型不確定性的能力相對較弱[13]。近年來,許多改進PID控制方法被提出,其中自適應模糊PID控制結合模糊控制和PID控制的優點,被廣泛應用于垂直起降無人機姿態控制[14-16]。

同時,長細比的增加降低了運載火箭彎曲模態的固有頻率,低階彈性振動容易與火箭本身的振動耦合,使控制更加困難,對于高階彈性振動可以設計陷波濾波器進行抑制,但是對于低模態的彈性振動,特別是振動頻率接近箭體的固有頻率時,彈性振動的抑制比較困難,因此目前低階彈性振動干擾下的箭體姿態穩定問題仍然是航空航天領域的難題[17]。

隨著信息技術的進一步發展,人工智能技術的飛速發展也切實影響到了傳統控制領域?;跈C器學習的智能飛行控制策略成為研究焦點[18]。即使對于不確定的非線性模型,智能控制算法也能實現良好的控制效果,這主要得益于深度神經網絡強大的非線性擬合能力[19]。但是通過神經網絡的實現行為克隆的方法有時效果會很差,這是由于網絡收集的數據和正確數據不匹配[20]。因此,為了克服監督學習方法的不足,研究人員提出了深度強化學習方法。在2005年,Waslander等人首次將強化學習算法應用在四旋翼模型飛行控制問題[21]。近些年來,深度強化學習已經被應用于無人機控制[22]、機器人控制[23]、自動駕駛[24]以及制導一體化[25]等領域,都取得了出色的效果。然而,上述研究都僅僅停留在仿真環境中,在真實環境和仿真環境之間存在著許多差異,將從仿真環境中學習到的飛機模型直接應用到實際的環境中會導致許多問題,如精度和穩定性下降,這才是研究的難點[26]。

本文主要研究運載器驗證機在垂直起降階段的俯仰通道的姿態穩定問題,該驗證機俯仰通道開環系統的截止頻率ωc=1.8 Hz,根據帶寬與截止頻率的關系可得系統帶寬ωb=1.6ωc=2.88 Hz,若是一階振動頻率和系統帶寬相差10倍以上,則完全沒有必要考慮一階振動的影響,使用頻率隔離法就能設計出滿意的控制器。然而,當振動頻率模態頻率略大于系統帶寬時,彈性振動很難與工作頻率分隔開,此時頻率隔離法不適用,需要研究其他策略[27-28]。經過辨識,本文的研究對象一階振動模態頻率為20.25 rad/s,二階振動模態頻率為180.88 rad/s,因此對一階振動模態抑制難以使用頻率隔離法。本文中,首先為了避免歐拉角奇異,以垂向地理坐標系作為慣性坐標系,建立動力學和運動學模型。其次,考慮垂直起降過程中的彈性振動、模型不確定性等干擾因素,設計基于魯棒觀測器的深度強化學習控制策略。設計魯棒觀測器對姿態變量與復雜的彈性振動進行重構,使得彈性振動變量轉換為易于控制的具有箭體姿態特征的附加姿態,并將帶有附加姿態的重構箭體姿態作為深度強化學習神經網絡的輸入,輸出最優控制力矩指令,以穩定垂直起降運載器驗證機在垂直起降過程中俯仰姿態角和彈性振動。本文從仿真和實物上驗證了面對包含彈性振動模型不確定性的復雜受控系統,相較于工程中應用廣泛的自適應模糊PID控制,本文設計的控制算法能夠更好地穩定火箭姿態。

1 模型建立

本文以實驗室一臺自制的運載火箭驗證機作為研究對象,該驗證機是大型運載火箭的合理微型化,如圖1(a)所示,同時為了模擬真實運載火箭在飛行過程中出現的彈性振動干擾,在驗證機上搭載了彈性艙段,細節如圖1(b)所示。

圖1 垂直起降運載器驗證機Fig.1 Vertical takeoff and landing vehicle validation machine

由于運載器在垂直起降飛行時姿態角的定義不同于常規飛行器,為了避免運載器在垂直起降過程中出現的歐拉角奇異問題,本文采用垂向地理坐標系(“天東北”,即UEN)作為火箭的慣性參考坐標系,如圖2所示。

圖2 垂向地理坐標系Fig.2 Vertical geographic coordinate system

(1)

為便于建立運載器垂直起降動力學模型,本文做出以下假設。

假設 1重力加速度不會隨著運載器飛行高度的變化而變化,忽略地球曲率。

假設 2運載器的構型和質量分布關于箭體縱軸對稱,所以慣性積Jxy=Jyz=Jxz=0[29]。

在上述假設成立的前提下,機體坐標系下繞運載器質心轉動的動力學方程如下所示:

(2)

式中:M=[Mx,My,MZ]T為運載器受到的合力矩,且M=Mc+Md,Mc=[Mcx,Mcy,Mcz]T是控制力矩,Md=[Mdx,Mdy,Mdz]T是總的干擾力矩,包括重力力矩、氣動力矩等干擾力矩。

本文研究俯仰通道的控制器的設計,彈性振動方程如下所示:

(3)

聯立式(1)~式(3),同時考慮到垂直起降飛行模式下的滾轉角非常小,俯仰角速度是影響θv的主要因素,故可得到運載器俯仰通道的動力學模型如下:

(4)

式中:qi為第i階彈性振動位移;ξi為第i階彈性振動的阻尼比;ωi為第i階彈性振動的振動頻率;D1i為第i階彈性振動和俯仰角的耦合系數;D2i為第i階彈性振動與控制力矩的耦合系數;Qiy是第i階彈性振動受到的廣義干擾力矩。dθv1可以看作俯仰通道的干擾量。

對式(4)兩邊求導可得

(5)

將式(2)中的第2式代入式(5)為

(6)

式中:m表示箭體彈性振動的階數。

式(6)進一步寫為

(7)

式中:

2 垂直起降姿態控制器設計

垂直起降運載器俯仰通道姿態控制器的設計分為兩個部分:第一部分是魯棒觀測器的設計,設計魯棒觀測器使得垂直起降過程中的低階彈性振動成為剛體姿態的附加姿態角,實現彈性振動的被動抑制;第二部分設計深度強化學習控制器,將魯棒觀測器輸出的帶有附加姿態的姿態角和姿態角速度作為輸入從而決策出控制指令,作用給環境。環境反饋給近端策略優化(proximal policy optimization, PPO)智能體下一時刻的狀態、獎勵信息以及結束信號,PPO智能體以最大化累計獎勵為目標,不斷優化深度神經網絡參數,實現運載器姿態穩定[30]。這里需要說明的是,此處的附加姿態角和附加姿態角速度是中間量,是魯棒觀測器重構受彈性振動干擾的姿態角和姿態角速度過程中得到的;而帶有附加姿態的俯仰角和俯仰角速度是魯棒觀測器的輸出量,即為重構后的姿態角和姿態角速度。

2.1 魯棒觀測器設計

首先設計魯棒觀測器,將運載器垂直起降過程中的干擾通過魯棒觀測器轉換為箭體姿態的附加姿態角和附加姿態角速度,此時魯棒觀測器的輸出是帶有附加姿態的俯仰角和俯仰角速度,即重構后的姿態角和姿態角速度,這樣可以使干擾對火箭姿態控制的影響大大減小。

考慮箭體控制中縱向通道姿態控制系統具有如下形式:

(8)

引入一個非奇異的變換T,使得

使用SPSS17.0軟件處理數據資料,計數數據對比采用x2檢驗,計量數據對比采用t檢驗,P<0.05有統計學意義。

(9)

則方程可轉化成

(10)

式中:z是變換后的狀態向量,由z1和輸出信號y構成,z1=-fθv。

根據參考文獻[17],針對變換后的動態方程設計觀測器如下:

(11)

(12)

(13)

可以得到誤差方程:

(14)

定理 1[32]當k1,k2,…,kn被正確選擇時,誤差運動是有限時間穩定收斂的。

當系統存在不確定性,即存在參數攝動和外干擾時,特別是當外干擾較大或變化較劇烈時,上述設計的變結構觀測控制量v存在較大的抖振,引入邊界層進行連續化,即:

式中:p1∈Rp×p是李亞普諾夫方程ATp1+p1A=-Q1的解,Q1是一個對稱正定的矩陣;η的取值要滿足誤差方程李亞普諾夫穩定性條件,Δ是邊界層。

2.2 深度強化學習控制器設計

(15)

式中:R(τ)表示每一個回合的累計獎勵;pθ(τ)為每一個回合發生的概率,θ是策略π的網絡參數,pθ(τ)為一個行動狀態序列τ的概率,可以進一步表示為

pθ(τ)=p(s1)pθ(a1|s1)p(s2|s1,a1)pθ(a2|s2)…

(16)

強化學習的目標函數就是最大化累計獎勵,即式(15)。

目標函數對網絡參數θ求偏導可得

(17)

(18)

深度強化學習是將深度學習和強化學習相結合,使算法同時具有深度學習強大的表述能力和強化學習卓越的自適應能力。PPO算法基本已經成為一種最流行的深度強化學習算法,在Open AI開源算法中,也將PPO作為基線算法。其采用Actor-Critic網絡結構,其中Actor網絡輸出動作,Critic網絡輸出狀態價值函數V(st)。

為了得到狀態的精確價值估計,PPO算法采用廣義優勢估計優化價值函數,如下所示:

(19)

式中:δt為時序差分,具體表達式為式(19)第2式;γ和λ是兩個重要的參數,γ決定了價值函數的最大值,λ用來平衡偏差和方差。同時,PPO為了提高訓練效果,避免策略梯度算法中采樣數據利用率低的缺點,引入了重要性采樣,智能體采用舊策略πθold與環境交互獲得訓練數據存入樣本池中更新策略πθ,則PPO算法的獎勵微分可以表示為

(20)

則似然函數可以表示為

(21)

但是要求兩個策略的分布不能差別太大,因此需要進行一定程度的剪切,最終得到的PPO算法:

(22)

式中:θ是策略π的網絡參數;ε是剪切比,與文獻[30]保持一致,本文中ε取0.2。

2.3 ROB-PPO控制器設計

圖3 基于魯棒觀測器的深度強化學習運載器垂直起降 姿態控制框圖Fig.3 Attitude control block diagram of deep reinforcement learning vehicle vertical takeoff and landing based on robust observer

算法 1 ROB-PPO算法流程偽代碼初始化動作網絡和評價網絡的偏差和權重初始目標網絡的偏差和權重For episode=1,2,…,M, do 初始化環境 魯棒觀測器重構姿態,智能體收到初始觀測狀態s1 For t=1,2,…,T, do 動作網絡根據s1選擇動作a1,返回給環境 環境對動作a1作出響應,魯棒觀測器重構姿態,智能體受到觀測狀態s2以及獎勵值r1 存儲(st,at,rt,st+1)至經驗池R 采樣Batchsize大小的數據量計算目標函數 更新θold←θ End forEnd for

獎勵函數作為指導智能體訓練的關鍵,其好壞決定了智能體能否達到理想的控制效果以及訓練速度,對于本文中對垂直起降運載器俯仰通道的控制,在不同的姿態角誤差條件下,獎勵函數設置為

3 仿真結果及分析

在本節,垂直起降運載器的仿真環境中,應用ROB-PPO的方法訓練一個深度強化學習智能體,一旦運載器在仿真環境中成功飛行,將訓練好的控制器實現到實物平臺上,以測試其在垂直起降運載器姿態控制中的穩定性。

3.1 仿真驗證

Actor網絡和Critic網絡均采用全連接結構,隱藏層激活函數采用 Relu 函數,Actor網絡均值激活函數采用tanh函數,方差激活函數為softmax函數。ROB-PPO算法的網絡結構和超參數如表1所示。

表1 ROB-PPO算法的網絡結構和超參數Table 1 Network structure and hyperparameters of ROB-PPO algorithm

訓練強化學習智能體1.2×106回合,得到的訓練過程中的平均獎勵變化曲線如圖4所示??梢钥闯?經過前2×104回合的探索之后,智能體學會了控制策略,之后的平均獎勵值一直收斂,說明智能體已經訓練完成。將訓練好的網絡模型保存,用于控制效果的測試。

圖4 ROB-PPO訓練平均獎勵Fig.4 Average reward for ROB-PPO training

圖5和圖6中初始姿態角在0 rad到1 rad之間任意取值的條件下,在上述訓練好的智能體控制下姿態角和姿態角速度的曲線。根據李雅普諾夫理論,神經網絡擬合的動力學系統是漸進收斂的[34]。圖5和圖6表明即使在初始狀態變化情況下,本文訓練的控制器均能保證姿態角和姿態角速度收斂到期望姿態,具有穩定性。

圖5 姿態角響應曲線Fig.5 Response curve of attitude angle

圖6 姿態角速度響應曲線Fig.6 Response curve of attitude angle regular

圖7~圖11給出了本文設計的基于魯棒觀測器的深度強化學習算法和文獻[16]提出的自適應模糊PID控制算法的對比圖。其中,圖7展示了ROB-PPO和自適應模糊PID控制作用下的舵偏角比較曲線,可以看出,與傳統自適應模糊PID控制相比,雖然在0.2 s時ROB-PPO的幅值超過了自適應模糊PID,但是在0.8 s就趨于收斂,而傳統自適應模糊PID在3 s才穩定,ROB-PPO相較于傳統自適應模糊PID控制算法收斂時間加快了2.2 s,可以看出本文設計的控制器在快速性方面表現出色。

圖7 舵偏角比較曲線Fig.7 Comparison curve of rudder deflection angle

圖8 俯仰姿態角對比曲線Fig.8 Contrast curve of pitching attitude angle

圖9 俯仰角速度比較曲線Fig.9 Pitch angle regular comparison curve

圖10 彈性振動位移對比圖Fig.10 Comparison of elastic vibration

圖11 彈性振動速率對比圖Fig.11 Comparison of rates of elastic vibration

圖8和圖9分別展示了ROB-PPO和自適應模糊PID控制作用下俯仰姿態角和角速度的對比曲線。

從圖8中可以看出,相較于自適應模糊PID,ROB-PPO算法的控制性能明顯提升,俯仰角幅值為0.1 rad,而傳統自適應模糊PID控制作用下的幅值達到了0.3 rad;同時,在本文設計的控制器作用下,俯仰角在0.8 s就收斂到平衡位置了。圖10和圖11分別展示了ROB-PPO和自適應模糊PID控制作用下一階彈性振動位移和一階彈性振動速度的對比曲線。

與之前的結論一致,ROB-PPO對彈性振動的抑制效果優于自適應模糊控制,相較于自適應模糊PID控制,彈性振動幅值相差無幾,但收斂時間縮短了1.3 s。ROB-PPO控制下的一階彈性振動位移和速度基本在1 s左右就趨于穩定,而自適應模糊PID控制下在2.3 s才逐漸穩定,體現出ROB-PPO算法具有更好的彈性振動抑制效果。

3.2 實驗驗證

為了驗證所訓練的模型在實物運載器姿態控制上的有效性,將訓練穩定的智能體搭載在實物平臺上,自制運載器從上而下主要分為油料艙、彈性艙、飛控艙以及發動機艙,油料艙主要為運載器提供燃料,彈性艙模擬彈性振動,飛控艙為運載器傳感器及飛控板提供安裝位置。其中,由激光雷達得到高度信息,由GPS得到位置信息,由三軸陀螺儀測量運載器的姿態信息。將ROB-PPO(PID)控制器輸出的控制力矩通過力矩分配算法得到舵偏角,再映射到與4臺渦噴發動機和4個舵機相連的飛控物理輸出口,并且將與發動機相連輸出口的PWM信號頻率調制為400 Hz,與舵機相連輸出口的PWM信號頻率調制為50 Hz。飛行過程如圖12所示。

圖12 垂直起降運載器飛行過程Fig.12 Flight process of vertical takeoff and landing vehicle

在飛行過程中,對運載器施加繩子的擾動作用以模擬飛行過程中受到的橫風亂流的干擾,并通過Pixhawk的日志記錄下運載器的角度信息和角速度信息如圖13和圖14所示。

圖14 飛行過程中俯仰角速度對比Fig.14 Comparison curve of pitch angle regular during flight

圖12展示了垂直起降運載器在現實環境下的飛行結果。圖13和圖14分別是飛控日志記錄的俯仰通道的姿態角和姿態角速度的對比曲線,根據飛行過程中垂直起降運載器的飛行狀態。對圖13和圖14中的曲線進行分析,在1~10 s,運載器接收到起飛指令準備起飛,剛開始飛行高度較低,運載器低速上升。在此過程中,主要是彈性振動的干擾作用,可以看出訓練的ROB-PPO智能體的控制效果良好。在11~16 s,隨著運載器高度的增加,外部陣風對運載器姿態的穩定起到主要干擾作用,同時外部陣風的干擾激起了彈性振動,在此期間擾動增大,因此圖13中的曲線呈現波動現象。但是,姿態控制作用下,運載器并沒有失穩,之后運載器逐漸下降,姿態角和姿態角速度重新恢復到穩定狀態直至著陸。同時可以看出,相較于自適應模糊PID控制,本文研究的ROB-PPO控制方法的效果更好,超調量較小,動態特性和穩態特性較好,說明本設計中的ROB-PPO控制器具有較強的魯棒性,運載器在垂直起降過程中可以克服一般陣風或者亂流的干擾。

4 結束語

本文中采用ROB-PPO算法設計垂直起降運載器俯仰通道的姿態控制器。仿真結果表明,在考慮彈性振動的條件下,本文設計的深度強化學習控制器的收斂速度和控制性能都優于目前常用的自適應模糊PID控制。設置隨機的初始條件訓練深度強化學習智能體以及魯棒觀測器對受到干擾的姿態角和姿態角速度的重構作用都是將仿真環境中訓練完成的智能體遷移到真實環境的關鍵。

盡管仿真以及實驗結果較好,但是還有很多方面可以優化。比如,觀測量和獎勵函數,增加飛行信息可以更加準確地描述環境,智能體對于不同的獎勵函數有不同的表現。目前已經完成了俯仰通道姿態控制器設計的仿真以及實驗驗證工作,下一步將考慮運載器在垂直起降過程中的位置控制,其中會涉及故障檢測、容錯控制。

此外,本文提出的ROB-PPO方法是基于定常模型的,但是可以通過一些方法拓展到時變模型:① 使用遞歸神經網絡(recurrent neural network, RNN):RNN具有記憶功能,能夠處理序列數據,并且可以將之前的信息傳遞到下一個時間步驟中。因此,使用RNN可以在一定程度上適應時變參數模型。② 訓練多個模型:在時變參數模型中,可以使用多個模型來表示不同的狀態。例如,可以訓練一個模型來表示正常工作狀態,另一個模型來表示故障狀態。然后,在實際控制過程中,根據當前狀態的特征選擇合適的模型進行控制。

猜你喜歡
魯棒觀測器角速度
基于學習的魯棒自適應評判控制研究進展
圓周運動角速度測量方法賞析
目標魯棒識別的抗旋轉HDO 局部特征描述
半捷聯雷達導引頭視線角速度提取
基于觀測器的列車網絡控制
基于非線性未知輸入觀測器的航天器故障診斷
基于Cauchy魯棒函數的UKF改進算法
基于構架點頭角速度的軌道垂向長波不平順在線檢測
基于干擾觀測器的PI控制單相逆變器
目標軌跡更新的點到點魯棒迭代學習控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合