張皓涵,崔明月
(煙臺大學數學與信息科學學院,山東 煙臺 264005)
隨著汽車技術的不斷發展,對汽車的操縱穩定性、車內人員的舒適性和隔絕道路顛簸等起重要作用的懸架系統受到了極大的關注[1],相較于被動懸架和半主動懸架[2],主動懸架系統因其可通過設計控制器較好地改善乘坐舒適性和車輛的機動性被廣泛應用。隨著控制技術的發展,提出了許多不同的驅動器控制策略[3-6],如自適應控制、魯棒控制、模糊控制和智能控制等。然而多數文獻中均假設懸架系統具有線性動力學特性,事實上懸架彈簧和阻尼器具有非線性特性,對于非線性主動懸架,許多學者發展了諸如自適應、魯棒制和滑模等控制策略[7-9],使得系統達到跟蹤或鎮定。
眾所周知,懸架系統的作用不僅是要隔振,而且還要提高車輛性能。針對懸架系統的這一問題,人們提出了主動懸架最優控制方法[10],然而現有的最優控制策略[11-15]大多是針對具有線性動力學特性假設的懸架系統。對于非線性最優控制問題最大的挑戰是求解哈密頓-雅可比-貝爾曼(HJB)方程,然而求解HJB方程是非常困難甚至是不可能的,為了解決這一問題,貝爾曼在文獻[16]中提出一種動態規劃理論。文獻[17]利用神經網絡給出了HJB方程的近似解,文獻[18-19]中借助于強化學習算法,用Actor-Critic框架實現在線實時學習最優控制設計HJB方程的解,文獻[20]利用此方法解決無人船的最優跟蹤控制問題。受此啟發,本文研究了基于強化學習的非線性主動懸架系統的最優控制問題,主要工作如下:
(1) 最優性能指標直接影響車輛性能和乘客舒適性?;谒⒌姆蔷€性模型,綜合考慮車身加速度,懸架擾動度和輪胎的位移等因素給出了合理的代價函數,然后利用非線性最優控制理論設計了初始最優控制策略。
(2)針對最優控制中求解HJB方程的困難,借助于強化學習的Actor-Critic框架提出了一種新穎的在線實時學習HJB方程近似解的策略,同時為提高系統的魯棒性,在Actor-Critic更新率中增加了泄漏項。
(3)通過李雅普諾夫穩定性理論分析表明,所提策略使得主動懸架系統的位移終極有界,且邊界可以通過調節參數充分小從而實現實際穩定,同時使代價函數達到最優。
考慮如圖1所示的行駛在崎嶇路面上的1/4汽車主動懸架系統。車輪和車身的質量分別為Mc和Mb,位移分別為s1和s2。車輪與車身之間的控制器u,線性彈簧和非線性阻尼器是并聯的,其中彈簧系數為Ka,阻尼系數為Ca。車輪看作是彈簧系數為Kt的線性彈簧。s0為崎嶇路面對系統產生的干擾位移。
圖1 1/4汽車主動懸架模型
考慮以車輪和車身組成的質點系,選取(s1,s2)作為廣義坐標,則系統的總動能和總勢能分別為
(1)
(2)
其中,x=[x1,x2,x3,x4]T,C=[0,0,0,-Kt/Mc]T為路面輸入位移參數陣,
顯然f(x)滿足局部Lipschitz條件并且f(0)=0,即對于給定的M>0,存在LM>0 使得
‖f(x)‖≤LM‖x‖,?x∈ΩM,
(3)
其中ΩM={x∈4| ‖x‖≤M}。g是有界的,即‖g‖≤bg,其中
(4)
其中q4>0是加權系數。
令
(5)
(6)
控制目標:設計一個控制器使得系統狀態s1,s2能夠收斂到充分小的范圍內,并且系統的代價函數J達到最優,以保證車輛的舒適性和駕駛的安全性。
為了完成控制目標,需作如下假設:
假設1崎嶇路面對系統產生的干擾位移是有界的,即存在一個常數b>0,使得|s0|≤b。
下面將設計控制器u使J最小。最優代價函數:
(7)
根據最優控制原理[23],J*和最優控制u*滿足HJB方程
(8)
(9)
眾所周知HJB方程(8)求解非常困難,甚至是不可能的。為解決這一困難,下面將最優的代價函數J*由神經網絡逼近
J*(x)=W*Tφ(x)+ε*(x)=φT(x)W*+ε*(x),
(10)
其中,ε*為逼近誤差;W*∈N為理想的權重矢量,N為神經元數量;φ(x)=[φ1,φ2,…,φN]T為初值為零的基函數。則J*(x)關于x的梯度為
(11)
(12)
若用
(13)
(14)
由于理想的權重矢量W*實際是未知的,則估計式(13)不能用。下面將借助于Actor-Critic算法修正估計式(13),結構如圖2所示。
圖2 A-C算法結構
(1) Critic設計
用
(15)
(16)
作為H*的估計。注意到H*=0,考慮如下函數
(17)
(18)
其中Γc>0是一個正定矩陣。系數σ1在自適應律(18)中作為泄漏項出現。
(2)Actor設計
用
(19)
(20)
(21)
注2不同于文獻[18-20]中的算法,為了提高系統的魯棒性,在Actor-Critic更新率中增加了泄漏項(見式(18)和式(20)的最后一項)。
將式(19)代入式(2)得閉環系統為
(22)
(23)
(24)
為了便于穩定性分析,需對神經網絡逼近作如下假設。
假設2(1)W*有界,即存在一個常數ω>0,使得‖W*‖≤ω;
由式(8),(11)和(13)知HJB的估計誤差可表示為如下形式:
(25)
文獻[17]指出,隨著N的增加,εHJB均勻收斂于零。則對于固定的N,εHJB是有界的,即存在常數εmax>0,使得‖εHJB‖≤εmax,并且εmax會隨著N的增加而減少。
(26)
(27)
(3)存在一個緊集Ω,當初始狀態x(t0)∈Ω時,閉環系統(22)中的狀態x一致終極有界,從而主動懸架的狀態s1和s2局部一致終極有界,且終極邊界可通過調節參數充分小。
證明考慮李雅普諾夫函數
(28)
由式(23)知V的導數滿足
(29)
(30)
將式(23)和(30)代入式(29)得
(31)
(32)
由假設2和Young不等式知
(33)
將式(32)和(33)代入式(31)得
(34)
(35)
(36)
再結合式(28)可得
(37)
這使得式(26)成立。
由式(12),(19),(37)和假設2知
(38)
這使得式(27)成立。
由J*(x)的定義知其是正定且徑向無界的,則由文獻[24]中的引理4.3知,存在K∞類函數α1和α2,使得
α1(‖x‖)≤J*(x)≤α2(‖x‖)。
(39)
由式(10),(14)和(22)知J*(x)的導數滿足
(40)
由Q(x)的定義知
Q(x)≥q‖x‖2,
(41)
(42)
(43)
在緊集ΩM上,由式(3)和假設1,2可知
(44)
將式(41),(43)和(44)帶入式(40)可得
(45)
(46)
本文考慮了在崎嶇路面上的1/4汽車非線性主動懸架系統的最優控制問題。綜合考慮車身加速度, 懸架擾動度和輪胎的位移等因素給出了合理的代價函數,提出了一種新穎的基于強化學習的在線Actor-Critic迭代算法的最優控制策略,同時增加泄漏項提高系統的魯棒性。所提策略使得主動懸架系統的位移終極有界,同時使代價函數達到最優。
另外,為保證汽車舒適度和行駛的安全度,還需綜合考慮優化、安全和控制問題,并將結果應用到1/2懸架和全車懸架系統中。