?

自動駕駛路徑優化的RF-DDPG車輛控制算法研究

2024-03-09 04:53焦龍飛谷志茹舒小華王建斌
湖南工業大學學報 2024年1期
關鍵詞:控制算法軌跡車輛

焦龍飛,谷志茹,舒小華,袁 鵬,王建斌

(湖南工業大學 軌道交通學院,湖南 株洲 412007)

1 研究背景

目前,自動駕駛技術是人工智能領域的研究熱點之一,而路徑跟蹤控制是自動駕駛系統中的核心問題。路徑跟蹤控制的目標是讓車輛按照預定的路徑行駛,并且盡可能地接近預定運行軌跡。路徑跟蹤控制方法主要分為基于模型和基于非模型兩類。其中,基于模型的路徑跟蹤控制方法主要依賴于車輛的運動學和動力學模型,通過控制器輸出控制信號來控制車輛運動,常見的基于模型的控制方法包括比例-積分-微分控制(PID 控制)[1-5]、模糊控制[6-12]、模型預測控制(model predictive control,MPC)[13-19]等?;诜悄P偷穆窂礁櫩刂品椒▌t不需要準確的車輛模型,而是通過感知和決策模塊來實現控制,基于非模型的控制方法常見的是基于神經網絡的控制方法[20-23]等。

已有研究中,針對自動駕駛車輛在行使中對目標路徑跟蹤精度不高、魯棒性能較差等問題,研究者們從基于模型的算法中尋找解決方法。如文獻[3]提出了一種基于車輛運動學和動力學的模糊自適應PID控制方法,該方法根據預覽理論規劃下一個行駛路徑。其首先利用車輛質心與所需路徑預覽點之間的位置關系計算橫向偏差和航向偏差,然后利用模糊自適應PID 控制器對誤差的調整作用調整前輪角度。該方法雖然簡單易行,但是在高要求控制場合的適應性和控制精度有限。文獻[6]提出了一種基于動態雙點預瞄策略的橫縱向模糊控制方法,通過模糊控制來動態控制雙點預瞄距離,進而控制車輛跟蹤相應軌跡,但是模糊控制的效果受預瞄距離的改變影響較大。文獻[11]提出了一種基于橫向誤差和航向誤差的復合模糊控制方法,該方法通過指定相應的權重變量來調整兩個模糊控制器的輸出,采用積分補償解決傳統模糊控制穩態精度較低的問題。但是該方法在復雜道路中的路徑跟蹤精度較差。文獻[14]提出了一種采用線性時變模型預測控制進行車輛軌跡跟蹤的控制算法,相比于非線性控制,該方法具有全局最優解,且計算量更小。然而,該方法對車輛的建模要求較高,對非線性系統需要進行線性逼近,并且需要構造二次成本函數。同時,該方法對硬件存儲空間和計算能力的要求較高,需要適當考慮計算資源的限制。文獻[15]提出了建立模型預測控制和非線性動力學魯棒控制(MPC-NDRC)框架,以提高軌跡跟蹤性能。MPCNDRC框架分為兩個階段:一是構建預測模型控制器,防止在線計算復雜模型帶來的實時性能較差的問題;二是創建基于非線性動力學的魯棒控制器,確保軌跡跟蹤性能和控制器模型精度。雖然該控制算法能穩定地跟蹤路徑,但是系統過于復雜,穩定性能較差。文獻[20]采用了神經網絡和模糊控制相結合的方法,通過控制方向盤轉角來控制車輛的行駛方向,該方法的控制效果較為穩定,但是存在轉向控制不夠及時和跟蹤誤差較大等問題。

基于模型的控制算法在路徑跟蹤中需要依賴車輛模型,而車輛建模是一個復雜的過程,不僅需要考慮機械結構、動力學特性、控制策略等多方面因素的影響,還需要考慮各種不確定因素的影響,因此建模的難度較大?;诜悄P偷目刂扑惴?,如神經網絡控制,需要大量的車輛數據和環境數據進行神經網絡訓練,但是當前的技術條件很難保證環境數據的采集完整性。缺乏完整的環境數據會導致神經網絡學習到不準確的信息,從而使得跟蹤效果不佳。為了解決這個問題,科研工作者提出了有出色感知能力與決策能力的深度強化學習。深度強化學習方法是通過與環境不斷地交互試錯地學習,自主探索控制系統的最優行為。強化學習的算法包括SARSA[24](state action reward state action)、Q-learning[25]、DQN[26](deep Q-learning)、DDPG[27]等。SARSA 是先建立一個Q表格,并通過與環境的交互來更新Q 表格的狀態,然后根據Q 表格中的值采取動作,但是SARSA 只能針對一些簡單的游戲。Q-learning 與SARSA 類似,Q-learning 的不同點是在更新Q 表格時選擇不同的策略,但本質上還是以表格的形式,Q-learning 卻是通過Q表格來選擇最優。DQN是在Q-learning的基礎上,通過引入神經網絡代替Q 表格,從而節省了軟件空間,但是其不適用于連續空間。DDPG 是一種利于深度函數逼近的策略,它可以在高維度和連續空間中應用,而前3 種算法只適用于低維度、離散的行為空間中。但是在高維度、連續動作的自動駕駛中,DDPG的獎懲機制不能很好地設置。

綜合上述分析可知,無論是基于模型還是非模型的路徑跟蹤控制算法,在路徑跟蹤過程中的表現都有所不足,主要表現在:

1)基于模型的控制算法在路徑跟蹤過程中對模型的依賴程度比較高,但是車輛的建模比較困難,這會導致跟蹤精度不佳。

2)基于非模型的控制算法需要大量的車輛數據和環境數據以供神經網絡學習,而環境數據采集的完整性難以滿足,這導致跟蹤效果比較差。

針對以上路徑跟蹤控制算法存在的弊端,課題組提出一種RF-DDPG 路徑跟蹤控制算法,該算法既不依賴系統精準的數據模型,也不需要大量的環境數據,僅通過車輛與期望路徑的橫向偏差、車輛的橫向角速度等設計獎勵函數和自適應權重系數,實現自動駕駛車輛的路徑跟蹤控制。

2 強化學習模型

2.1 馬爾可夫決策過程

強化學習的本質是智能體與環境的交互過程,它可以被看作一個馬爾可夫決策過程(Markov decision process,MDP)。MDP 是一個跟時間相關的序列決策過程,下一時刻的狀態只取決于當前狀態和動作。MDP 定義了一個五元組(S,A,R,P,γ),其中:

S={s1,s2,s3,…},代表車輛的狀態;

A={a1,a2,a3,…},代表當前狀態下智能體所輸出的動作;

R={r1,r2,r3,…},代表當前狀態下所輸出動作的獎勵,具有滯后性;

P=p[st+1,rt|st,at],代表當前狀態下st輸出動作at轉移到下一個狀態st+1并拿到獎勵rt的概率函數;

γ為折扣因子,且γ∈[0,1]。

2.2 強化學習過程

強化學習過程示意圖如圖1所示。

圖1 強化學習過程示意圖Fig.1 Reinforcement learning process

在強化學習過程中,智能體在每個時間點根據當前的狀態參數S給出動作A,然后進入下一個環境狀態,給出反饋回報R。然后在記憶池里就會記錄一系列的數據(s1,a1,r1,s2,a2,r2,…,st,at,rt),并計算累計回報Gt,其計算式如下:

用π表示智能體的策略,根據當前的狀態s選擇輸出動作a的概率。

用價值函數Q表示當前狀態下s采取動作a的價值:

利用貝爾曼方程遞歸后的價值函數為

式(3)(4)中,E(x)為期望函數。

強化學習的核心任務,就是不斷地調整策略,以使得獎勵函數值最大化。在強化學習過程中,智能體通過獲取獎勵函數值最大化來更新策略,策略再給出下一步動作,并且拿到獎勵,以此循環,最終達到系統控制目標。

3 軌跡跟蹤控制算法

3.1 深度確定性策略梯度算法

DDPG 是一種基于確定性策略梯度的無模型算法,該算法基于Actor-Critic 框架,它可以被應用于連續行為空間中,它由Actor、Actor-target 和Critic、Critic-target 網絡構成。其中,Actor 網絡的作用是根據環境反饋的狀態S輸出動作A;Critic 網絡的作用是根據環境反饋的狀態S和Actor 對應的動作A輸出Q值;Actor-target 網絡和Critic-target 網絡的作用是提高網絡的穩定性。網絡首先固定自身的參數一段時間,然后通過復制Actor 網絡和Critic 網絡的參數來更新自己的參數,DDPG 的算法原理框圖如圖2所示。

圖2 DDPG 算法原理框圖Fig.2 DDPG algorithmblock diagram

Actor 網絡在狀態觀測量的基礎上,輸出對應的決策行為,并且將這些行為參數化為一個包含n維向量θ的策略π。

Actor 網絡以策略梯度方法為基礎進行更新,通過策略梯度改進策略。

在智能車輛軌跡跟蹤控制的學習過程中,Actor神經網絡的輸入是觀測到的環境狀態變量,如位置、角度、速度等,其輸出是根據策略做出的決策,如方向盤轉角和油門剎車等。與此同時,Critic 基于行為價值函數的方法,其輸入變量是狀態和行為,輸出變量是回報值。在學習過程中,Critic 用估計的價值函數作為更新Actor 函數的基準,同時評價Actor 的策略。Actor-Critic 方法的優點在于Critic 通過價值函數提供了更準確的評估,從而改進了Actor 策略,使其更加優化。此外,Actor-Critic 方法不僅可以使用Critic 更新Actor 策略,還可以使用Actor 更新Critic的價值函數,可以更好地評估行為價值。

在實踐中,使用如下貝爾曼方程更新Critic 的價值函數:

式中:α為學習率;

Q′為新的價值函數。

Actor 網絡更新參數θ采用鏈式求導得出。

Critic 網絡更新參數w取期望值和實際值的均方誤差,即

3.2 獎勵函數設計

獎勵函數的好壞是影響模型結果的關鍵因素。對于單一任務的智能體都有著明確的獎勵目標,故應做到讓獎勵值最大化。但是在處理復雜的自動駕駛任務中,很難單一明確獎勵目標,故本論文擬通過組合的方式來設計獎勵函數。

1)路徑跟蹤能力。本研究中,設計用車輛的質心位置yi與期望軌跡yj的橫向距離來描述車輛的跟蹤精度。

跟蹤精度誤差與允許誤差之比為Δ1,且

2)速度。R2=Vxcos(θ),其中Vxcos(θ)為車輛沿期望路徑方向的速度,在有限的時間和安全的情況下,希望快速完成駕駛任務。

3)車輛穩定性。車輛穩定性主要是由車輛的橫擺角速度和質心側偏角來體現。橫擺角速度常采取實際橫擺角速度ωp與期望橫擺角速度ωt的差值進行描述。

式中:

其中:ωd為橫擺角速度上限;

ωdes為穩態轉向下的橫擺角速度,且ωdes=Gωzss×δ,其中Gωzss為橫擺角速度的穩態增益;

δ為轉向盤的角度。

橫擺角速度誤差與期望角速度之比為Δ2,且

同樣,質心側偏角采取實際質心側偏角βp與期望質心側偏角βt的差進行描述。

式中:βd為質心側偏角上限;

βdes為穩態轉向下的質心側偏角,且βdes=Gβzss×δ,其中Gβzss為質心側偏角的穩態增益。

質心側偏角誤差與期望質心側偏角之比為Δ3,且

4)轉向平穩性。轉向的平穩性代表方向盤的震蕩程度,這里引入變異系數R5進行描述,且

式中:σ為方向盤轉角的標準差;

3.3 自適應權重設計

路徑跟蹤精度和車輛的穩定性能對自動駕駛路徑跟蹤控制的影響比較大。當兩者不能同時滿足時,要確定先處理差距大的那一個指標。本研究設計了自適應權重系數,當跟蹤精度誤差百分比大于穩定性誤差百分比時,跟蹤精度的獎勵函數權重就會加大,相反亦然。

跟蹤精度權重系數為

穩定性權重系數為

跟蹤精度權重系數和穩定性權重系數滿足如下表達式:

自動駕駛車輛在訓練過程中,會出現兩種情況:正常行駛和超出車道。正常行駛的獎勵函數已經設計完成,超出車道的情況在這里統一設置為0。則獎勵函數表達式如下:

4 仿真測試及驗證

為了評估本研究中所提出自動駕駛車輛控制方法的優劣,接下來將在apollo 仿真平臺上搭建模型,并且對智能車輛在軌跡跟蹤過程中采用基于RFDDPG 算法和基于原始的DDPG 算法進行仿真與分析。本文所提出的RF-DDPG 算法基于Actor-Critic網絡結構,其中Actor 網絡以策略梯度方法更新,根據策略的梯度將策略向更好的方向進行優化。Actor網絡的輸入為觀測量(位置、角度和速度等),輸出為控制信號(方向盤轉角和油門剎車)。Critic 網絡則基于行為價值函數,輸入變量為狀態和行為,輸出變量為回報值,用于評估策略的優劣。與傳統的DDPG 算法獎勵函數不同,本文的RF-DDPG 算法采用了一種新的獎勵函數,這一改進使得算法更加具有魯棒性和泛化能力。原始DDPG 算法和RF-DDPG算法的評價方式如圖3所示。

圖3 兩種算法的評價方式Fig.3 Evaluation method of the two algorithms

圖3a 是原始評價算法,可以看出,原始算法對智能車的評價方式只區分了未產生事故和產生事故,訓練出來的效果難以達到智能車輛對路徑跟蹤精度的要求。圖3b 是改進后的評價,利用組合方式設計獎勵函數,使得評價更加合理,訓練后的控制效果也更加精確。

算法改進前后自動駕駛車輛的航向角偏差曲線、橫擺角速度偏差曲線、質心側偏角差曲線,分別如圖4~6所示。

圖4 算法改進前后自動駕駛車輛的航向角偏差曲線Fig.4 Heading angle deviation curves of autonomous vehicles before and after an algorithm improvement

圖5 算法改進前后自動駕駛車輛的橫擺角速度偏差曲線Fig.5 Yaw rate deviation curves of the autonomous vehicle before and after an algorithm improvement

圖6 算法改進前后自動駕駛車輛的質心側偏角差曲線Fig.6 Centroid sideslip angle difference of autonomous vehicles before and after an algorithm improvement

從圖4~6 可以看出,采用RF-DDPG 控制算法的自動駕駛車輛在實驗過程中的穩定性能明顯比采用DDPG 算法車輛的穩定性能高,控制過程更加合理。這不僅驗證了本研究對于算法策略輸出的改進效果,也說明了本研究的改進方式在仿真環境中擁有良好的泛化性。

圖7 是采用RF-DDPG 算法與DDPG 算法的自動駕駛車輛的橫向誤差對比圖。

圖7 算法改進前后自動駕駛車輛的橫向誤差對比圖Fig.7 Lateral error comparison chart of autonomous vehicles before and after an algorithm improvement

由圖7所示采用RF-DDPG 算法與DDPG 算法的自動駕駛車輛的橫向誤差對比圖,同樣可以直觀地看出,RF-DDPG 控制算法在跟蹤精度性能方面表現為比DDPG 算法的跟蹤精度更高,控制過程更加合理。

表1 為采用DDPG 和RF-DDPG 控制算法的不同跟蹤控制值結果對比,由表1 中的數據可以得出,RF-DDPG 算法的跟蹤控制值均優于DDPG 算法的對應值。

表1 算法改進前后的跟蹤控制值對比Table 1 Comparison of tracking control values before and after an algorithm improvement

5 結語

本文以智能車輛為研究對象,采用基于強化學習的方法研究了車輛在跟蹤軌跡時的最優控制問題,提出了一種深度確定性策略梯度RF-DDPG 路徑跟蹤算法,旨在優化車輛的跟蹤精度和運行穩定性。該算法在深度強化學習DDPG 的基礎上,設計了智能車輛在軌跡跟蹤時的獎勵函數和自適應權重系數,從而優化了RF-DDPG 的參數??刂破饕攒囕v當前的位置、速度、跟蹤路徑信息和航向角為輸入,輸出轉向盤轉角和油門剎車。并在仿真平臺上測試了采用本文提出的算法和基于原始DDPG 算法的智能車輛軌跡跟蹤效果。仿真結果表明,相比于基于原始DDPG的強化學習方法,本文提出的基于RF-DDPG 的強化學習方法在跟蹤精度和控制效果方面有了顯著提高,并保證了車輛行駛過程的安全性和穩定性。

為進一步探究智能車輛軌跡跟蹤問題,課題組將繼續進行軌跡規劃研究,以期將跟蹤控制策略應用于所規劃的軌跡中,并對軌跡跟蹤策略進行仿真驗證。在此基礎上,進一步完善RF-DDPG 算法,提高其控制精度和魯棒性。本研究對于智能車輛的自主駕駛和智能交通系統的發展具有重要意義,有望為實現車輛安全行駛和交通流暢提供有效的技術支持。

猜你喜歡
控制算法軌跡車輛
軌跡
軌跡
軌跡
車輛
基于ARM+FPGA的模塊化同步控制算法研究
進化的軌跡(一)——進化,無盡的適應
冬天路滑 遠離車輛
車輛出沒,請注意
提高車輛響應的轉向輔助控制系統
一種優化的基于ARM Cortex-M3電池組均衡控制算法應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合