?

基于數據驅動的彈性高超聲速飛行器控制方法*

2023-10-18 05:56何飛毅張莫楠黃子豪
飛控與探測 2023年3期
關鍵詞:控制參數超聲速飛行器

何飛毅,張莫楠,倪 昊,辛 穎,黃子豪

(1. 上海航天控制技術研究所·上?!?01109;2. 陸裝駐上海地區第三軍事代表室·上海 ·201109)

0 引 言

高超聲速飛行器采用基于乘波特性設計的升力體外形,在高超聲速條件下具有高升阻比、高操縱性的特點,展現出了極強的長航時跨域飛行、高速機動軌跡變更等優點,得到了各國的廣泛研究。高超聲速飛行器在飛行過程中,飛行包線跨域大,其氣動存在非線性強、不確定性大、耦合特征明顯等特點,特別是在大動壓飛行工況下表現出極強的靜不穩定性,容易造成參數較大攝動情況下的控制品質下降。另一方面,由于采用最優升阻比設計和輕質結構外形,飛行器一階、二階固有振動頻率低,發動機、制導飛控艙設備等彈上設備振動影響顯著,隨著飛行動壓增大,飛行器振動模態與剛體控制耦合明顯,進一步降低控制系統穩定裕度,嚴重時甚至使飛行器失穩。因此,如何在飛行器特性具有較大攝動時,高效實現大動壓、大靜不穩定下的剛體控制和彈性體抑制,對提高超聲速飛行器飛行控制品質具有重要意義。

傳統飛行控制系統設計一般基于精確的被控對象模型,通過離線設計的控制參數確保實際飛行過程中具有一定的穩定性和響應性能,例如LQR控制[1]、魯棒控制[2]、反步法控制[3]、滑??刂芠4]等,上述方法在面對高超聲速飛行器嚴酷的飛行環境時,往往難以適應飛行器復雜多變的強不確定性影響。因此,需要研究一種能夠根據飛行器輸入輸出響應信息,在線優化飛行控制性能的方法。針對上述問題,研究人員提出了一種融合動態規劃(Dynamic Programming,DP)、強化學習(Reinforcement Learning,RL)和函數近似的自適應動態規劃(Adaptive Dynamic Programming,ADP)方法[5]。該方法利用在線獲取的輸入輸出數據,采用近似函數估計來構造系統性能指標評價函數,然后依據貝爾曼動態規劃理論獲得近似最優的控制策略,其作為一種基于數據學習和優化的智能控制方法,在解決具有未知特性的復雜系統最優控制問題中具有極大潛力,目前已經得到國內外學者的廣泛研究[6]。

D Vrabie等提出了一種基于強化學習(Reinforcement Learning,RL)的連續系統控制的在線策略迭代方法,該方法不需要知道系統的動力學模型,僅僅通過對評價網絡和執行網絡的順序更新,實現了系統的在線優化[7-8]。在此基礎上,K Vamvoudakis等提出了評價網絡和執行網絡的同步更新策略,進而提高了控制性能在線優化的效率[9]。H Modares等為了進一步提高基于RL的自適應動態規劃對執行機構飽和的適應能力,并解決在線優化過程中持續激勵條件(Persistence of Excitation,PE)難以判別的問題,提出了一種基于積分強化學習和經驗回放機制的自適應動態規劃方法,不僅采用了當前的輸入輸出信息,還充分利用了歷史數據優化控制系統性能,并且在穩定系統上進行了驗證[10]。上述方法通過采集系統當前和過去的控制信號、狀態反饋信號等信息,通過求解評價網絡和執行網絡權函數的梯度實時更新控制權重,但是優化過程中對系統穩定的要求過于嚴格,一旦更新的權重使系統發散,特別是對于靜不穩定系統,往往難以獲得收斂且可靠的結果。Jiang Y等針對不確定連續系統提出了一種魯棒ADP控制方法(Robust Adaptive Dynamic Programming,RADP),該方法基于最優性原理利用當前和過去信息,將控制權重更新問題轉化為二次規劃問題求解,使每一次控制更新都能得到使系統穩定的解[11]。

在上述研究的基礎上,國內外學者也針對高超聲速飛行器對象,開展了自適應動態規劃方法的應用研究。郭建國等針對高超聲速飛行器的速度和高度自適應控制問題,結合反步法與積分強化學習(Integral Reinforcement Learning,IRL)方法設計了最優反饋學習控制律,并通過Lyapunov穩定性理論嚴格證明了跟蹤誤差的一致最終有界[12]。汪雨劼等針對臨近控制飛行器最優控制問題,將飛行器系統轉化為標稱跟蹤系統和誤差跟蹤系統,基于RADP方法對誤差跟蹤系統設計了姿態控制律,實現了氣動參數攝動情況下的近似最優跟蹤控制[13]。李旭針對天地往返飛行器再入段姿態控制問題,基于滑??刂坪虯DP方法設計了內外雙環控制器,并在外環引入ADP控制結構作為輔助控制[14]。

上述方法在一定程度上能夠解決高超聲速飛行器強不確定因素影響下的控制性能在線優化問題,但是,由于高超聲速飛行器過載跟蹤過程中獲取的狀態信息混雜了無法測量的振動和噪聲干擾,將影響在線數據的利用效率,難以得到滿意的控制參數優化結果。本文針對上述問題,首先對高超聲速飛行器剛體、彈性體耦合模型進行了分析和建模,然后基于RADP方法設計了過載跟蹤控制策略,在此基礎上,通過RADP和陷波濾波方法的結合,形成適用于彈性高超聲速飛行器的數據驅動自學習控制方法,最后通過仿真驗證方法的有效性。

1 高超聲速飛行器模型

1.1 剛體模型

飛行器縱向動力學模型如下

(1)

對上述縱向動力學模型進行小擾動線性化,可以得到如下控制模型

(2)

式中,a1~a5為動力系數。

1.2 彈性體模型

飛行器彈性振動模型可通過簡化的一維梁模型表示,彈性振動簡化動力學模型為

(3)

式中,qi為第i階振動廣義坐標,ζi為振動阻尼,ωi為振動頻率,D1i,D2i,D3i為對應狀態量的彈性振動動力系數。

由于傳感器安裝位置、線角耦合等因素影響,彈體振動會通過傳感器耦合到控制器中,進而產生高頻附加干擾信號,彈性振動對傳感器輸出的影響為

(4)

2 彈性高超聲速飛行器數據驅動自學習過載跟蹤控制方法

2.1 基本控制結構

結合高超聲速飛行器剛體和彈性體模型,且只考慮1階彈性振動,可以得到面向控制的小擾動線性化模型如下

(5)

式中

u=Gf(s)uc=Gf(s)KY

(6)

能夠控制系統跟蹤給定的期望指令。本文設計的目標則是在上述基本控制結構的基礎上,基于控制量和狀態量歷史數據,在不確定參數影響下在線優化控制增益K,并盡可能降低彈性振動帶來的影響。本文控制方案如圖1所示。

圖1 控制方案Fig.1 Control scheme

2.2 基于RADP的過載跟蹤控制

由文獻[15]可知,RADP主要考慮狀態反饋形式,當無彈性振動影響時,由于式(5)中矩陣C滿秩,因此可將其變為如下狀態空間模型

(7)

式中,A1=CAC-1,B1=CB。

通過在線求解最小化的二次型性能指標

(8)

進而實現反饋控制律u=KY的在線更新。

由于系統狀態矩陣A1和控制矩陣B1未知,因此無法采用傳統解Riccati方程的方法求解控制增益K。為了實現在線學習,將控制量變為如下形式

u=KY+e

(9)

式中,e為一個較小的探測信號,保證在線學習過程中系統滿足持續激勵條件進而有可行解。

此時,在初始控制u0作用下,系統變為如下形式

(10)

令每一次迭代過程中ui=u0+e-vi,則系統可寫為

(11)

考慮如下二次型Lyapunov函數

Vi=YTPY

(12)

當滿足下式時

(13)

(14)

且要求每個樣本區間[t,t+δt]內,均滿足式(13),則可得到如下Pi、ui+1的更新策略

YT(t+δt)PiY(t+δt)-YT(t)PiY(t)-

(15)

進一步得到

(16)

(17)

式中

因此通過最小二乘法求解式(17),可以實現Pi、Ki+1的在線更新。

考慮跟蹤過載指令Nyc,即令

uc=KY-KrNyc

(18)

使過載輸出誤差ΔNy=Ny-Nyc≈0。

根據閉環傳遞函數顯然可以得到

(19)

則式(11)變為

(20)

此時定義

(21)

(22)

即可實現滿足過載跟蹤需求下的Pi、ui+1在線更新。

2.3 基于陷波濾波器的RADP控制方法

當系統中存在如式(5)所示的振動影響時,由于實際飛行過程中振動狀態Q無法準確測量,且附加矩陣Cq存在較大的不確定性,將導致反饋控制律中存在難以區分的高頻振動干擾,如下所示

(23)

式中,Y=CX。使得式(21)中的u0、ui不再是純粹的剛體信號,而是包含了彈性振動干擾,且無法按照式(22)的方式轉化為探測噪聲,導致式(16)中等號左右兩邊均出現擾動,當彈性振動量級過大時,將直接影響Pi,Ki+1的求解精度,甚至得到錯誤的解。

因此本節通過結合陷波濾波器,在抑制彈性振動對穩定性影響的同時,提高振動影響下的控制參數在線更新效果。

為了便于分析,僅考慮1階彈性振動作用,采用的陷波濾波器形式如下

(24)

式中,ξ1,ξ2,w1,w2為對應的設計參數,通過合理的設計,可以在特定頻率對彈性振動實現一定幅值的衰減。

將其轉化為狀態空間形式有

(25)

(26)

將其轉化為式(7)所示的狀態空間形式有

(27)

進一步將式(27)按照式(17)策略求解,即可在振動影響下準確求解Pi,Ki+1。

3 仿真驗證

下面通過對比仿真驗證本文彈性高超聲速飛行器數據驅動自學習過載跟蹤控制方法的有效性。

式(5)中對象模型參數如下所示

Cq=

在仿真中,設計初始控制參數為K=[1.0,1.0,0.19],Q=diag[4,0,0],R=1。設計陷波濾波器參數為

探測信號e設置為

e=0.2sin(6t)+0.2sin(12t)+0.2sin(18t)

(28)

下面分別對采用初始控制參數、無彈性振動RADP方法、不加濾波器RADP方法、本文加濾波器后RADP方法進行仿真,控制參數在線優化結果如表1所示,控制參數迭代過程如圖2~圖4所示。

表1 控制參數在線優化結果Tab.1 Online optimization results

圖2 無彈性體RADP參數迭代結果Fig.2 Parameter iteration results of RADP without elastic vibration

圖3 不加濾波器RADP參數迭代結果Fig.3 Parameter iteration results of RADP without filter

圖4 加濾波器RADP參數迭代結果Fig.4 Parameter iteration results of RADP with filter

仿真對比曲線如圖5~圖7所示。

圖5 過載跟蹤曲線Fig.5 Overload tracking curve

圖6 角速度變化曲線Fig.6 Angular velocity variation curve

圖7 舵偏變化曲線Fig.7 Rudder deviation curve

從圖中可以看出,在初始控制參數的作用下,過載響應、角速度和舵偏出現較明顯的振蕩,過載跟蹤超調接近50%。仿真中在4s左右進行控制參數在線更新,參數迭代過程如圖2~圖4所示,更新后的控制參數如表1所示,當采用不加濾波器的RADP方法時,迭代參數不收斂,且更新后控制參數與解析解差異很大,表明RADP方法解算準確性明顯受到彈性振動影響,當采用本文加濾波器的RADP方法時,迭代參數迅速收斂,且更新后控制參數與解析解基本一致,表明本方法較好地隔離了彈性振動的影響,有效提高了控制參數在線優化的準確性。此外,本文所提方法有效提升了控制品質,并保證了過載響應對指令的穩定跟蹤。

4 結 論

針對彈性高超聲速飛行器過載跟蹤控制性能在線優化和振動影響下的控制參數準確更新問題,提出了一種基于數據驅動的彈性高超聲速飛行器過載跟蹤自學習控制方法。算法分析與實驗結果表明,在不依賴于準確模型參數的條件下,所提的方法能夠有效實現彈性振動干擾下的控制參數在線優化,并提高過載跟蹤控制品質。但本文僅是通過數字仿真完成了相關驗證工作,后續將通過半實物仿真進一步驗證算法的適應性。

猜你喜歡
控制參數超聲速飛行器
高超聲速出版工程
高超聲速飛行器
高超聲速飛行器滑??刂茀嫡ǚ椒ㄔO計*
Birkhoff系統穩定性的動力學控制1)
超聲速旅行
復雜飛行器的容錯控制
基于PI與準PR調節的并網逆變器控制參數設計
神秘的飛行器
高超聲速大博弈
一體化污泥干化焚燒裝置工藝控制參數的優化及運行
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合