?

高空直連試驗臺進氣壓力模擬系統DDPG前饋補償智能控制

2023-09-14 13:29齊義文姜渭宇
沈陽航空航天大學學報 2023年3期
關鍵詞:模擬系統總壓高空

齊義文,李 鑫,張 弛,姜渭宇

(1. 沈陽航空航天大學 自動化學院,沈陽 110136;2. 北京動力機械研究所 控制中心,北京 100074)

高空直連試驗臺(簡稱高空臺)作為發動機設計、定型、改進改型、故障再現與排除的關鍵試驗設備,模擬并為發動機提供工作包線內不同飛行環境的壓力、溫度[1]。其中,進氣壓力模擬系統作為關鍵設備之一,其控制品質的優劣直接決定試驗效果[2]。在高空臺直連試驗過程中,發動機起動、加減速等狀態所導致的流量瞬變問題對進氣壓力調節系統造成較大干擾,發動機流量在1~2 s 內變化范圍可達80%~100%,致使進氣壓力調節系統受到大幅值階躍干擾。如何消除此類擾動對系統的影響,是獲得快速、魯棒、高精度的穩/動態控制性能的關鍵[3]。而PID 控制、自抗擾控制、模糊控制等傳統控制方法存在響應速度較慢、魯棒性較弱等局限,難以達到理想的控制效能。因此,探索性能更優異、設計更簡便、響應速度更快的控制方法十分必要。強化學習方法作為人工智能技術研究熱點與前沿之一,具有不依賴模型、自學習、自更新等優點,可通過試錯方式不斷積累經驗,完善控制策略,是解決復雜系統控制設計難題的一種有效手段[4]。

強化學習在控制領域已有較多應用,Dorokhova 等[5]提出一種基于深度強化學習的電動汽車充電控制方法,解決了充電模式對電網的不良影響。Mahmoud 等[6]通過強化學習方法來調節分布式發電源的輸出電壓,該控制器引入值迭代算法,實現不同電力干擾下的魯棒控制。Gupta 等[7]提出一種基于深度強化學習的加熱控制器,提高智能建筑熱舒適度的同時最大限度地降低了能源成本。Pi等[8]提出一種基于強化學習的四旋翼控制策略,解決了陣風等外界干擾下的四旋翼定位難題。趙純等[9]提出一種深度Q-Learning 的交通信號燈配時優化方案,基于經驗回放機制,運用深度神經網絡進行訓練和輸出預測。李巖等[10]提出一種三流道自適應循環發動機的確定性策略梯度控制算法,通過在線優化壓比計劃,實現控制規律自主尋優。裴培等[11]提出一種深度強化學習理論的制導控制一體化算法,智能體根據導彈觀測量生成舵偏轉角控制指令準確攔截目標。張汲宇等[12]提出一種基于深度強化學習優化的智能分層控制器,智能體通過優化串級PI控制器獲得了更好的控制性能。

在高空臺進氣壓力模擬系統控制方面,張松等[13]提出一種復合控制技術,將PID 控制與模糊控制相結合,構成兼具兩者優點的壓力模擬控制系統。朱美印等[14]提出一種基于LMI極點配置的PI增益調度控制設計方法,根據線性模型推導了基于LMI 極點配置的PI 控制器設計方法。喬彥平等[15]提出一種遺傳算法優化的進氣壓力模擬系統,設計對應的適應度函數,實現了PID 參數的全局優化。周家林等[16]提出一種基于模糊自適應PID控制器的自動調壓技術,并對真實加減速過程中空氣流量的調節進行了仿真驗證。

盡管高空臺進氣壓力模擬系統的控制研究取得了一些進展,但多采用遺傳算法優化、PID 變參控制等方法,但強化學習方法在本領域的應用仍為空白。而基于強化學習的前饋補償方法具有不依賴模型的優點,對于強非線性、復雜程度高的進氣壓力模擬系統而言,可有效降低控制設計難度,提高系統抗干擾能力,其自學習、自更新特性可實現進氣壓力模擬系統的高性能控制。因此,結合PID控制,本文提出一種基于深度確定性策略梯度(deep de‐terministic policy gradient,DDPG)的前饋補償控制方法,通過DDPG 方法對高空臺進氣壓力模擬系統流量、壓力等擾動進行前饋補償控制,大大降低PID控制器負擔,并通過仿真驗證了所提出方法的快速性、準確性、穩定性和魯棒性。

1 高空臺進氣壓力模擬系統描述

本文考慮的高空臺進氣壓力模擬系統模型結構如圖1所示。

圖1 高空臺進氣壓力模擬系統結構圖

高空臺進氣壓力模擬系統主要包括:氣源總管、進氣流量調節閥門V1、進氣壓力調節閥門V6、旁路放氣調節閥門V4 和高空艙等部分。氣源總管為高空臺進氣壓力模擬系統提供恒定壓力和溫度的氣流,進氣流量調節閥門V1 主要調節進氣模擬系統的總流量,進氣壓力調節閥門V6 和旁路放氣調節閥門V4 主要調節進氣模擬系統中高空艙的進氣壓力。高空直連試驗過程中,閥門V1 根據高空艙內發動機流量需求來調整閥門開度,閥門V4 用于調節閥門V6 前壓力,將多余空氣外排,閥門V6 調節高空艙進氣壓力及內部發動機進氣流量。

高空臺進氣壓力模擬系統PID控制原理如圖2 所示,PID 控制器的輸入為高空艙進氣壓力誤差,輸出為閥門V6 開度(范圍為0~1),為降低控制系統負擔(減少控制器輸出自由度)的同時提高系統調壓范圍和性能,保持閥門V6與V4開度相加為1。

圖2 高空臺進氣壓力模擬系統PID控制原理圖

2 基于深度強化學習的高空臺進氣壓力模擬系統前饋補償控制設計

2.1 控制原理

前饋控制屬于一種開環調節方式,通過觀測擾動的變化,正確預測控制偏差,進而提前補償干擾,維持系統穩定輸出。而反饋控制利用誤差使控制器發揮作用,故其調節速度滯后于內/外部干擾作用。與反饋控制相比,前饋補償控制通過讀取干擾值并將其引入反饋調節,具有更快的調節速度,故前饋-反饋組合的控制方式可在減小誤差的基礎上,進一步提高系統抗擾能力。

基于DDPG 的前饋補償控制原理如圖3 所示,狀態空間是智能體感知進氣壓力(通過測量進氣總壓得到)模擬系統運行狀態的集合,包括進氣壓力的誤差、誤差微分、誤差積分等,獎勵函數輸入為進氣壓力誤差。DDPG智能體通過狀態空間感知系統特征,在不同狀態下,獎勵機制指導其做出最優決策,即智能體輸出前饋補償動作。DDPG智能體的前饋補償訓練過程與PID控制過程同步,當系統出現擾動(如進氣壓力擾動、發動機流量擾動等)時,在反饋控制器還未及時調整時,智能體便可根據系統當前狀態和擾動量進行前饋補償控制,即智能體輸出相應動作,并與PID 反饋控制器輸出相加得到最終的控制輸出(閥門開度),以達到更好的控制效能。

圖3 基于DDPG的前饋補償控制原理圖

2.2 控制器設計

DDPG是一種融合基于值與策略的強化學習算法,明顯不同于深度Q 網絡(deep Q ner‐work,DQN)算法,DDPG 算法可以處理連續動作[17]。DDPG算法將神經網絡與行動器—評價器(actor-critic,AC)框架相結合,AC 算法包含行動函數和評價函數,行動函數Actor 生成智能體agent 與環境交互的動作;評價函數Critic用于評價智能體agent 執行動作的優劣性。在DDPG 算法中,采用深度神經網絡近似行動函數和評價函數,共包括4 個神經網絡,其作用是:Actor估計網絡與環境交互;Critic估計網絡通過交互信息更新自身參數,并指導Actor 估計網絡更新;Actor 目標網絡與Critic 目標網絡預測下一時刻動作與動作價值函數。DDPG算法框架如圖4所示。

圖4 DDPG算法框架圖

基于DDPG 算法的前饋補償控制器設計包括如下3部分。

(1)狀態與動作參數選取

狀態是智能體感知環境的特征表達,是動作選擇的基礎。為降低神經網絡的擬合難度,狀態參數需直觀反映高空臺進氣壓力模擬系統的運行特征。此外,動作參數與狀態參數之間需具有明確對應關系,否則會增加網絡訓練難度,甚至無法收斂。本設計將可表征進氣壓力模擬系統運行特征的進氣總壓誤差、誤差積分、誤差微分、發動機流量、PID控制器輸出、DDPG 動作輸出作為狀態參數。在設計初期,考慮到系統進氣總壓誤差為主要性能指標,同時前饋控制器需具有擾動感知能力,故選取進氣總壓誤差、發動機流量作為控制器輸入的狀態參數;選取閥門V6 開度作為控制器輸出參數,且將閥門V4 與V6 聯合控制,即兩者開度之和恒定保持為1,其余閥門開度根據試驗過程所需設置為固定值。在網絡訓練時,通過給定不同目標進氣總壓指令來滿足高空艙對發動機不同運行狀態進氣總壓的需求。

在實際訓練過程中,由于PID 控制器的參與,即使智能體輸出動作維持不變,反饋控制器仍可減少進氣總壓誤差,此時智能體由于得到一定獎勵而陷入局部最優,無法達到較好的前饋補償控制效果。因此,對狀態和動作參數進行了再設計。為解決陷入局部最優問題,將PID 控制器輸出、DDPG 控制器輸出作為狀態參數,將動作輸出范圍限定為-0.3~0.3,對應閥門V6 開度為減小30°至增加30°;此外,為解決系統遲滯問題、提高智能體動作預測能力,將包含歷史數據的誤差積分和包含誤差趨勢的誤差微分作為狀態參數。據此,最終完成狀態與動作參數選取。

(2)獎勵函數設計

獎勵函數設計的合理性直接決定網絡能否收斂、收斂效果及控制精度。獎勵條件與控制目標還需具有確切關系,以起到對網絡訓練的有效指導作用。此處設計的獎勵函數由進氣總壓誤差決定,誤差絕對值越小,獎勵值越大。設計初期采用的獎勵函數如式(1)所示

式中:Pt_e為進氣總壓誤差;r為獎勵值。該分段獎勵函數的權重設計思路為:進氣總壓誤差越大,獎勵值越低(扣分越多),即進氣總壓誤差與所得獎勵成反比,且所能得到的最大獎勵為0,分段獎勵函數曲線如圖5所示。小穩態誤差下的獎勵值沒變化,故智能體無法進一步優化穩態誤差,無法滿足控制要求,原因為穩態誤差在1kPa 以內時,獎勵函數值不變。因此,對進氣總壓誤差與獎勵條件做了進一步設計,使得穩態誤差在1kPa 以內的獎勵函數仍與進氣總壓誤差成反比,如圖6所示,以達到高性能的控制目標,改進后的獎勵函數如式(2)所示

圖5 分段獎勵函數

圖6 改進后獎勵函數

最終,采用式(2)的獎勵函數,有效減小了穩態誤差,提高了控制精度。

(3)網絡設計與更新

本文設置Actor 網絡含有兩個隱藏層,激活函數為Relu 函數,層與層之間為全連接方式;Critic 網絡結構較為復雜,由狀態網絡和動作網絡經過相加層后,通過兩個隱藏層,激活函數為Relu 函數,其中,狀態網絡和動作網絡均含3個隱藏層。神經網絡結構如圖7所示。

圖7 神經網絡結構圖

1)Actor估計網絡設計

以高空臺進氣壓力模擬系統狀態參數s 作為Actor估計網絡輸入,輸出對應閥門開度aV6,更新進氣模擬系統狀態s'并得到獎勵r,動作aV6與狀態s的關系為

式中:aV6∈R 為閥門開度;ωea1∈Rn×m與ωea2∈Rm×l均為權重矩陣;bea∈Rm為偏置列向量;N∈R 為添加的高斯噪聲,且隨著網絡迭代次數增加,噪聲強度逐漸減弱,以此來解決訓練過程前、后期不同的探索與收斂需求。

2)Critic估計網絡設計

用Critic 估計網絡評價Actor 估計網絡在當前進氣壓力模擬系統狀態s 下輸出閥門開度動作aV6的優劣,以s 和aV6作為Critic 估計網絡輸入,輸出評價函數Qc(s,aV6)

式中:ωec1∈R(n+l)×m、ωec3~ωec5∈Rn×k、ωec6~ωec8∈Rl×j為權重矩陣;ωec2∈Rm為權重列向量;bec1∈Rn+l、bec2~bec3∈Rk、bec4~bec5∈Rj為偏置列向量。

3)Actor與Critic目標網絡設計

Actor 目標網絡、Critic 目標網絡分別與Actor 估計網絡、Critic 估計網絡初始參數及網絡結構完全一致。Actor 目標網絡以Actor 估計網絡作用后的進氣壓力模擬系統s'作為輸入,輸出新的閥門開度動作aV6′,Critic目標網絡以s'和aV6′作為輸入,輸出評價函數Qc(s′,aV6′)。

4)網絡更新

Critic 估計網絡的反向傳播誤差如式(5)所示

式中:q為采樣個數;yi為目標評價函數值,計算公式如式(6)所示

式中:ri為獎勵;γ 為折扣因子,取值范圍為0~1?;诖?,可得出Critic 估計網絡權重與偏置更新公式

式中:αec為Critic 估計網絡更新步長。為減小Critic 估計網絡的反向傳播誤差Jec,Actor 估計網絡需輸出使評價函數Qc(s,aV6)值更大的閥門開度動作aV6,Actor 估計網絡的反向傳播誤差如式(9)所示

基于此,可得出Actor 估計網絡權重與偏置更新公式,如式(10)和(11)所示

目標網絡與估計網絡具有不同的更新頻率,以減弱網絡間的耦合性。目標網絡以軟更新的方式更新權重與偏置,即每次只以較小幅度更新網絡參數。Critic目標網絡更新公式為

Actor目標網絡更新公式為

式(12)~(15)中:τ為0.1以下的更新系數。

以上為基于DDPG 算法的前饋補償控制器設計內容,具體的DDPG 前饋補償控制器學習訓練過程為:首先,選擇進氣壓力模擬系統狀態集合,用以表征系統運行狀態,且選取的狀態集合包括PID 控制器輸出信息。其次,構造前饋補償控制器輸出動作(閥門V6開度),特別地,將輸出動作與前饋系數相乘并與PID 控制器輸出相加作為新的閥門V6 開度,前饋系數用于限定前饋補償控制器輸出范圍,前饋系數取值為0~1。然后,設計深度神經網絡,并設定網絡收斂條件(獎勵達到的設定閾值),由經驗集合采樣(如圖4 所示)進行網絡更新,若達到收斂條件則停止網絡更新。最后,使用訓練完的神經網絡與PID 協同控制,實現基于DDPG 算法的高空直連試驗臺進氣壓力模擬系統前饋補償智能控制,控制方法流程如圖8 所示。

圖8 進氣壓力模擬系統DDPG前饋補償控制方法流程圖

3 仿真驗證與分析

對所設計的DDPG 前饋補償控制器進行仿真驗證,具體包括:進氣壓力擾動仿真驗證和發動機流量擾動仿真驗證。

進氣壓力擾動仿真包括階躍信號擾動、勻速斜坡信號擾動和加速信號擾動仿真。在階躍信號擾動仿真過程中,進氣總壓調節跨度達到130~190 kPa,發動機流量保持不變,流量均進行了歸一化處理,單位無量綱,如圖9~11 所示。3 次試驗的目標進氣總壓初始值分別為130 kPa、150 kPa 和170 kPa,第10 s 階躍上升20 kPa,第20 s 階躍下降20 kPa,由此驗證進氣壓力擾動下的控制設計性能。(與單純PID 控制器相比,本文所設計的DDPG 前饋補償控制器同PID 控制器聯合作用,實現了對進氣壓力的無超調控制,且調節時間更快(4s)。具體為,當目標壓力突變時,DDPG 前饋補償控制器分別在初始0 時刻、第10 s 和第20 s 輸出非零前饋補償量,以提前消除進氣總壓誤差。同時在PID 控制器的調節下,補償量逐漸穩定,且在勻速斜坡信號擾動和加速信號擾動仿真過程中,DDPG前饋補償控制器也表現出更優的控制性能,實現了進氣壓力擾動下的智能自學習前饋補償控制),如圖12、13所示。

圖9 壓力階躍信號擾動下仿真對比曲線(初始壓力為130 kPa)

圖10 壓力階躍擾信號動下仿真對比曲線(初始壓力為150 kPa)

圖11 壓力階躍信號擾動下仿真對比曲線(初始壓力為170 kPa)

圖12 壓力勻速斜坡信號擾動下仿真對比曲線

圖13 壓力加速信號擾動下仿真對比曲線

發動機流量擾動仿真包括階躍信號擾動、勻速斜坡信號擾動和加速信號擾動仿真。如圖14~16 所示。在階躍信號擾動仿真過程中,發動機流量跨度為0.375~1,流量均進行了歸一化處理,單位無量綱,3 次試驗的發動機流量初始值分別為0.375、0.625 和0.875,第10 s階躍上升0.125,第20 s 階躍下降至初始流量。目標進氣總壓保持150 kPa 不變,實際進氣總壓受發動機流量影響:當流量增大時,即高空艙進氣通道空氣被發動機抽吸,導致實際進氣總壓降低;當流量減小時,即高空艙進氣通道空氣流量高于發動機需求流量,導致實際進氣總壓升高。在發動機流量受擾情況下(與單純PID 控制器相比,本文所設計的DDPG 前饋補償控制器同PID 控制器聯合作用,實現了對進氣壓力的無超調控制,且調節時間更快(4 s)。具體為,當實際進氣總壓因發動機流量擾動而變化時,DDPG 前饋補償控制器分別在初始0時刻、第10 s 和第20 s 輸出非零前饋補償量(如圖14 所示),以提前消除進氣總壓誤差,同時在PID 控制器的調節下,補償量逐漸穩定,且在勻速斜坡信號擾動和加速信號擾動仿真過程中,DDPG 前饋補償控制器也表現出更優的控制性能,實現了發動機流量擾動下的智能、自學習、強抗擾前饋補償控制)如圖17、18所示。

圖14 發動機流量階躍信號擾動下仿真曲線(初始流量為0.375)

圖15 發動機流量階躍信號擾動下仿真曲線(初始流量為0.625)

圖16 發動機流量階躍信號擾動下仿真曲線(初始流量為0.875)

圖17 發動機流量勻速斜坡信號擾動下仿真對比曲線

圖18 發動機流量加速信號擾動下仿真對比曲線

綜上,在遭受進氣壓力和發動機流量的不同擾動下,所提出的基于深度強化學習的高空臺進氣壓力模擬系統前饋補償控制表現出更優的快速性、穩定性和魯棒性,實現了高性能、高精度的智能自學習控制。

4 結論

本文提出一種高空臺進氣壓力模擬系統DDPG前饋補償智能控制,得到如下結論:

(1)基于深度強化學習算法的前饋補償控制方法對于高空臺進氣壓力模擬系統這類結構復雜、耦合關聯程度高的非線性系統有較好控制效果,與單純PID控制器相比,本文所設計控制器在高空艙進氣壓力擾動和發動機流量擾動下,均實現了進氣壓力的無超調控制,且調節時間更短;

(2)選取表征高空臺進氣壓力模擬系統擾動變化的數據作為狀態參數,可有效提高前饋控制的擾動感知能力,如將進氣總壓誤差、發動機流量作為控制器輸入狀態參數;

(3)對智能體動作輸出進行范圍限定可有效解決PID控制器主導作用帶來的智能體陷入局部最優問題。

猜你喜歡
模擬系統總壓高空
總壓探針性能結構敏感性分析
高空走繩
可調式總壓耙設計及應用
亞聲速條件下總壓探針臨壁效應的數值研究
2 m超聲速風洞流場變速壓控制方法研究
高空纜車
不要高空拋物!
高空莫拋物
基于STM32單片機的微電網模擬系統設計
基于ARM和Zigbee 的變壓器試驗培訓模擬系統
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合