?

基于強化學習的城市場景多目標生態駕駛策略*

2023-11-09 03:56吳曉東劉永剛
汽車工程 2023年10期
關鍵詞:交通燈車速車輛

李 捷,吳曉東,許 敏,劉永剛

(1.上海交通大學機械與動力工程學院,上海 200240;2.重慶大學,機械傳動國家重點實驗室,重慶 400044)

前言

為提高電動汽車(electric vehicle,EV)的經濟性,除開發更先進的高效“三電”系統,改善車輛行駛行為以提高車輛經濟性的生態駕駛技術也受到了廣泛關注。傳統的生態駕駛策略是指駕駛員經過科學培訓習得的通過控制車輛行駛速度降低油耗的駕駛技能[1]。隨著智能網聯汽車(connected and automated vehicle,CAV)技術的發展,車輛可以通過V2X(vehicle-to-everything)通信接收周圍交通和道路地形信息[2]。CAV 不僅可以降低能源消耗,還可以給乘客提供良好的乘坐體驗(如保障駕駛安全,提高舒適性和通行效率)。因此,開發多目標生態駕駛策略來優化CAV的行駛行為是目前的研究熱點[3-4]。

已有的生態駕駛策略主要分為基于規則、基于優化和基于學習的3 類。典型的基于規則的生態駕駛策略是“脈沖-滑翔”策略[5-6]。理想情況下,該策略控制車輛勻加速至給定速度,然后保持勻速運行,最后勻減速運動至目的地,從而達到節省燃料消耗的目的。然而,在真實駕駛場景中,由于紅綠燈路口的隔斷以及其他車輛不確定行為的干擾(例如換道、超車、急停等),自車難以按照理想車速軌跡行駛。盡管該策略具有較好的實時性,但過度簡化了交通環境,沒有考慮交通環境中的復雜影響因素,難以在城市場景中實際應用。

基于優化的生態駕駛策略通常將生態駕駛問題建模為最優控制問題,然后通過動態規劃[7]、非線性規劃[8]、模型預測控制[9-10](model predictive control,MPC)等方法求解。然而,基于優化的生態駕駛策略需要建立一個能反映復雜的車輛動力系統與多變的城市交通環境特性的非線性模型。而該模型也必然包含多個狀態變量。雖然通過對車輛動力系統與交通環境進行精確建模能保證算法的優化效果,但是求解含有復雜非線性模型的最優控制問題需要消耗大量的計算資源,難以在算力有限的車載控制器(vehicle control unit,VCU)中實時應用。

深度強化學習(deep reinforcement learning,DRL)算法是一種基于數據驅動的機器學習方法,它不需要建立復雜的動力學控制模型,而是僅通過智能體(agent)與環境的交互來學習和優化控制策略。訓練好的DRL 智能體可以通過深度神經網絡(deep neural network,DNN)接收系統狀態信息,并快速計算出對應的控制動作[11]。相比于基于模型的優化控制方法,避免了對復雜動力學控制模型的依賴,可以有效降低控制策略的計算量,實現實時控制[12]。然而,DRL 算法在基于學習的生態駕駛策略上的應用仍存在著多種挑戰。與傳統RL算法相比,DRL算法依靠DNN 來近似最優值函數[13],避免了算法在多個狀態變量的復雜場景中陷入“維數災難”。但是,由于函數近似誤差的存在,DRL 算法也不可避免地引入了控制不穩定性[14]。因此,僅依賴于DRL 算法的生態駕駛策略難以在實際應用中充分保障車速規劃的安全性。此外,復雜交通場景下多目標生態駕駛問題的獎勵函數設計是一個棘手的問題,直接關系到DRL 算法訓練能否收斂。獎勵函數應能恰當地定義生態駕駛問題的優化目標,并準確地反映交通燈、前車、道路限速等交通影響因素。為了降低算法訓練收斂的難度,目前基于DRL 的生態駕駛策略的研究大都考慮單一的交通影響因素,與實際交通場景存在較大差異。

例如,Liu等[15]提出基于深度確定性策略梯度法的生態駕駛策略,可以快速求解多個信號燈路口之間的最優車速軌跡。然而該DRL 控制器沒有考慮安全跟車約束,只適用于單車行駛的理想狀況。Bai等[16]提出了一種結合安全決策規則與DRL 的混合生態駕駛策略框架,以改善復雜交通路口的車輛能源效率。然而該混合框架只通過決策管理器選擇傳統規則策略或DRL 策略控制車輛,并未把安全約束融入DRL 算法的設計中。張健等[17]提出一種基于離線DRL 的車輛交叉口生態駕駛控制策略,實現了能耗經濟性的提高。然而該方案忽略了DRL 算法控制不穩定所帶來的安全問題而且也未考慮跟車場景。

為了克服當前研究的不足,本文提出了一種新型基于DRL 的實時多目標生態駕駛策略,以有效應對復雜交通場景下的駕駛挑戰。本研究的貢獻如下:針對DRL 算法控制穩定性不足的問題,設計了面向實際應用的基于DRL 的生態駕駛策略的框架,通過安全速度建議模塊實現了對車速規劃的安全性保障;而為了使DRL 算法考慮多個交通影響因素并促進該多目標生態駕駛策略訓練收斂,提出了一種融合安全約束與塑形函數的多目標復合獎勵函數設計方案。最后,通過硬件在環(hardware-in-loop,HIL)實驗驗證了所提控制算法在真實的VCU 中實時應用的有效性。

1 問題描述

1.1 智能網聯汽車動力系統結構

本文的研究對象為一款基于純電動平臺的CAV。電機、主減速器和差速器依次組裝在該車的動力系統中。電機輸出轉矩與車輛加速度之間的關系可以表示為

式中:Ftra、τm、ifd、ηfd、ηdif與rwheel分別為車輪驅動力、電機轉矩、主減速比、主減速器效率、差速器效率與車輪半徑;aego、m、g、fr、α、CD、A、ρ、vego和Iequi分別為車輛加速度、車輛質量、重力加速度、滾動阻力系數、道路坡度、空氣阻力系數、迎風面積、空氣密度、自車車速與旋轉部件在車輪處的等效轉動慣量。針對純電動CAV 而言,控制策略通過控制電機輸出的驅動轉矩來調節車輛加速度,從而控制車輛實現目標車速。合理規劃車輛的行駛速度可以改善車輛的乘坐體驗。

1.2 智能網聯場景下的生態駕駛問題

如圖1 所示,當車輛在城市交通場景中行駛時,必須考慮前方紅綠燈路口、道路坡度、道路限速、前方車輛等多種交通要素的約束。

圖1 智能網聯場景示意圖

在智能網聯場景中,由于CAV 可以通過車載傳感器與V2X 通信獲取實時交通環境信息(例如:前車距離/車速信息、紅綠燈時間/相位信息、道路限速信息等)。因此,在智能網聯場景下,多目標生態駕駛問題可以表述為:利用獲取的交通環境信息,合理規劃CAV 的目標車速,并在滿足安全約束(遵守交通規則,避免碰撞)的前提下,實現電力消耗、乘坐舒適性和出行效率的協同優化。

式中:α1、α2與α3為各指標的權重系數;N、Pbat和ΔT分別為行程長度、電池功率和單位控制步長;Nred_light、Ncollision與vlimit分別為闖紅燈次數、碰撞次數與道路限速。

由于目前CAV 在實際道路上的滲透率較低,因此在研究場景中,假設其他車輛均為傳統的人工駕駛車輛。此外,為了簡化問題,本文只考慮影響自車縱向運動的相關因素,例如速度、加速度、交通信號燈和前車等,而不考慮車輛的橫向動作。

2 基于深度強化學習的生態駕駛策略

為了解決上述多目標生態駕駛問題,本文提出了一種基于DRL 的實時生態駕駛策略,策略框架如圖2 所示。DRL 算法根據收到的交通狀態與自車狀態信息,利用訓練好的DNN 計算車輛目標參考車速。同時,基于跟車安全模型與交通燈安全模型的安全速度建議模塊用于實時監控并修改DRL 智能體規劃的高風險動作,以保障駕駛安全。修改后的參考速度被發送給底層動力系統中的車速跟蹤控制器。然后,由車速跟蹤控制器利用參考車速與實際車速的誤差計算驅動電機輸出轉矩,以控制車輛跟蹤參考車速。所提生態駕駛策略的設計與實現細節詳細介紹如下。

圖2 基于深度強化學習的生態駕駛策略框架

2.1 基于馬爾可夫決策過程的生態駕駛問題

DRL方法通常將實際環境簡化為馬爾可夫決策過程(Markov decision process,MDP)[11]。即假設環境轉移到下一個狀態si+1的概率僅與上一個狀態si有關,與更早之前的狀態無關。在狀態si執行動作ai后,轉移到狀態si+1的概率可以定義為

式中:s′為下一個狀態;s和a為當前i時刻的狀態與動作。DRL 的動作可以由策略π決定。當策略π是確定策略時,當前狀態si下采取動作ai后的期望累積收益可以推導為

式中:期望累積獎勵Qπ(si,ai)也被稱為動作價值(或Q 值);γ∈[0,1]為折扣因子;T為有限MDP 的長度;rn(sn,an)為在狀態sn采取動作an后的獎勵值;E為狀態集合。對于MDP,式(5)可以轉化為如下遞歸關系:

DRL 算法的任務是找到一個最優的策略π*,使期望的累積獎勵Qπ(si,ai)最大化。對于本文研究的多目標生態駕駛問題而言,式(3)的目標函數也可被表述為遞歸形式:

式中:costins(i)表示考慮電耗、舒適性與行駛效率的瞬時成本。比較式(6)與式(7)可知,當DRL 的獎勵函數等于負的瞬時成本時,生態駕駛問題的目標函數可以轉化為基于MDP的DRL算法的價值函數。

式中:rele=-Pbat為電耗獎勵;rcon=-|aego|為舒適度獎勵;reff=-ΔT為通行效率獎勵。通過與環境交互,DRL 智能體可以迭代更新得到使累積獎勵函數Qπ(si,ai)最大化的最優策略π。該最優策略可以直接應用于車輛生態駕駛控制,實現車輛電耗、舒適性和出行效率的協同優化。

2.2 狀態空間與動作空間設計

如前文所述,生態駕駛策略需要在滿足安全出行的前提下,實現經濟性、舒適性和出行效率的協同優化。因此DRL 智能體的輸入信息應充分反映車輛動力系統狀態和交通環境狀態。本研究中,DRL智能體的狀態輸入由如下3部分組成。

(1)車輛狀態信息:參考車速vref、實際車速vego、電池SOC、電池內阻Rbat、電池開路電壓Ubat。

(2)前車信息:前車速度vpre、前車加速度apre、兩車距離dhead。

(3)道路信息和交通燈信息:自車行駛距離dego、道路坡度α、下一個交通燈路口距離dlight、交通燈剩余時間trem、交通燈相位。

在本文中交通燈剩余時間和交通燈相位被交通燈時間tlight所代替。它可以在降低輸入狀態維數的同時不丟失交通燈時間/相位信息。

式中Tred為紅燈相位持續時間(注:在本文中,黃燈相位也被納入紅燈總時間中)。根據上述分析,觀測狀態向量公式如下:

為了合理控制車輛速度變化,本文選取車輛加速度作為DRL 智能體的動作變量輸出。故DRL 智能體給出的自車參考速度可表示為

式中aDRL為DRL算法計算的車輛加速度。車輛加速度被限制為以避免產生不舒適的急加速/減速動作。

2.3 安全速度建議模塊設計

安全速度建議模塊由跟車安全模型和紅綠燈安全模型組成。

2.3.1 跟車安全模型

為避免與前車發生碰撞,車速上限表示為

式中vKrauss是基于Krauss 跟車模型[18-19]推導的最大安全跟車速度。

式中:amax是最大加速度;Δdhead=dhead-Dmin;Dmin與τ分別為最小車頭距與駕駛員反應時間。通過引入駕駛員反應時間,使得DRL 智能體可以學習類似于人類駕駛員的反應過程,從而提高乘客的接受度。

2.3.2 交通燈安全模型

如果車輛無法在綠色時間內通過交通路口,則車輛應及時停車避免闖紅燈。因此,最大安全速度可表示為

此外,本文還根據紅綠燈剩余時間tremain與離紅綠燈距離dlight定義了一個閾值速度vtho(i)。

當車輛處于交通燈區域且交通燈為綠色時,避免闖紅燈的安全參考速度上限可以表示為

當車輛處于交通燈區域且交通燈相位為黃色或紅色時,避免闖紅燈的安全參考速度上限可以表示為

根據式(12)、式(16)與式(17),基于跟車安全模型與交通燈安全模型的速度建議模塊計算的安全速度上限可以表示為

式中δcf與δtl為調整速度建議模塊安全閾值的比例因子。

此外,為了避免DRL 智能體規劃負參考車速的不合理情況,本文采用安全速度建議模塊進行修正。具體而言,當式(11)計算得出參考車速小于0 時,安全速度建議模塊將把輸出的安全參考車速設置為0。

因此,經過速度建議模塊對DRL 智能體規劃的高風險參考速度進行監控與修改后,發送給車速跟蹤控制器的安全參考車速可以表示為

2.4 融合安全約束與塑形函數的獎勵函數設計

為了使DRL 智能體學習一種既能滿足安全約束又能實現多目標協同優化的生態駕駛策略,本研究除了式(8)基于目標函數轉化的基礎多目標獎勵函數之外,還設計了式(20)安全約束獎勵。

式中:α4為權重系數;aref(i)為速度建議模塊修改后的加速度。

通過添加安全約束獎勵函數,將安全約束條件融入模型訓練中,可以使DRL 智能體在優化行駛車速時,避免輸出會導致速度建議模塊介入的高風險動作。

此外,在復雜交通場景中,多目標DRL 智能體的訓練難度較大[16]。為了克服這一問題,本文設計了一種可以提供先驗知識的塑形獎勵函數,以鼓勵DRL智能體產生安全高效的駕駛行為。該塑形獎勵函數根據基于勢能的塑形函數設計理論[20-21]開發,以確保添加塑形獎勵函數后的最優策略不變性。

式中:Ffollow、Flight與Feff分別為跟車塑形獎勵、交通燈塑形獎勵與通行效率塑形獎勵;γ∈[0,1]為折扣因子;Φfollow、Φlight與Φeff分別為跟車勢函數、交通燈勢函數和通行效率勢函數。如果勢函數的值較高,則表示當前環境所處狀態接近所期望的狀態。而當環境狀態偏離期望狀態時,勢函數的值會減小。本文中勢函數設計如下:

式中vadvisor(i)為根據交通燈時間/相位信息以及到交通燈距離信息計算的綠燈通行建議速度。

式中:n∈(0,1)為調節建議速度大小的權重;vlg_min與vlg_max為綠燈通行速度區間,計算方法如下。

如圖3所示,根據dlight與下一個綠色相位的起止時間可以計算出車輛在此綠色相位內勻速通過路口的速度區間[vlg_min,vlg_max]。如果在道路限速內無法通過路口,則選擇下一個周期的綠色相位作為目標相位重新計算[vlg_min,vlg_max]。

因此DRL智能體的總獎勵函數為

2.5 基于TD3的參考速度規劃算法實現

由于算法的狀態與動作變量都是連續變量,因此本文選擇適用于連續狀態與動作空間的雙延遲深度確定性策略梯度法(twin delayed deep deterministic policy gradient,TD3)來實現基于DRL的生態駕駛策略?;赥D3的生態駕駛智能體如圖4所示,包含一個Actor神經網絡μ(s|θμ)和兩個Critic神經網絡其中與為網絡各節點的權重與偏置參數。TD3算法是目前最先進的用于連續控制的DRL 算法之一,通過設計兩個Critic網絡減小了Critic網絡對動作價值函數的近似誤差[14]。

圖4 基于TD3的生態駕駛智能體實現

在每一控制步中,TD3 智能體根據式(10)觀測的狀態向量利用Actor 網絡計算動作ai。為了將智能體輸出的車輛加速度限制為[-3,3] m/s2,Actor 網絡的輸出層添加了一層雙曲正切函數層(tanh 層)。tanh 層使得Actor 網絡的輸出限制到[-1,1]之間,然后根據設定的實際車輛加速度范圍對其乘3 進行縮放。因此在訓練過程中TD3智能體規劃的車輛加速度可以表示為

式中:N為訓練過程中的高斯探索噪聲。

每一控制步的觀測狀態si、Actor 網絡計算的動作ai、采取動作ai后的下一步狀態si+1以及獎勵函數計算的相應獎勵值ri被組成一個數據元組(si,ai,ri,si+1)存入記憶緩沖區R中。在訓練過程中定期從R中隨機批采樣M組元組數據用于更新Actor與Critic網絡。

批采樣的每個數據元組的動作價值與時序-差分(temporal difference,TD)目標為

Critic 網絡參數更新可以通過最小化TD 誤差的平方實現[22]:

Actor 網絡的參數可以根據確定性策略梯度法更新[23]。

本文中所使用的TD3 智能體的超參數以及Actor 與Critic 網絡的結構如表1 所示。這些超參數和網絡結構是通過反復試錯調整而得到的。TD3智能體由Python 語言編程為庫函數,在算法訓練時通過s-function模塊在Simulink模型中調用。

表1 TD3智能體超參數與網絡結構

2.6 車速跟蹤控制器設計

為了控制CAV 跟蹤生態駕駛策略規劃的參考車速,本文設計了一個簡單而有效的基于比例-積分-微分(proportion integration differentiation,PID)的車速跟蹤控制器。底層車速跟蹤控制框架如圖5 所示,通過參考車速與反饋的實際車速之差計算驅動電機輸出轉矩。

圖5 底層車速跟蹤控制框架

式中:Kp、Ki與Kd分別為PID 控制器的比例、積分和微分增益;err為參考車速vref與車輛實際車速vego之差。

3 算法驗證

3.1 硬件在環實驗平臺設計

為了分析所提出的基于DRL 的生態駕駛策略性能,本文在HIL 平臺上對算法進行了實驗驗證。如圖6 所示,該HIL 平臺主要包括車輛仿真模塊、控制器模塊與虛擬場景模塊組成。各模塊之間通過CAN總線進行數據通信。

圖6 HIL實驗平臺原理圖

車輛仿真模塊由Speedgoat 公司開發的實時仿真器[24]實現。仿真器上運行的高精度車輛動力系統模型由美國阿貢國家實驗室研發的車輛動力系統建模軟件Autonomie[25]建立。該模型通過仿真器上位機編譯后下載入實時仿真器,在HIL實驗時啟動以模擬真實的車輛。仿真車輛的參數詳見表2。此外,仿真器上位機還用于實時監測CAN總線上的數據流。

表2 車輛動力系統參數

HIL 平臺的控制器模塊采用一款基于英飛凌車規級芯片TC275T 開發的VCU。生態駕駛策略在Simulink 中建模并編譯為.hex 文件后,通過刷寫工具刷寫到VCU中,在HIL實驗時實時控制車輛運動。

虛擬場景模塊負責模擬真實道路的復雜交通環境并在CAN 總線中實時廣播虛擬車輛感知的交通狀態信息。本文中虛擬交通場景仿真使用開源城市交通仿真軟件(simulation of urban mobility,SUMO)[26]來實現。SUMO 中搭載的城市交通仿真模型根據德國TAVF(test track for automated and connected driving)計劃[27]發布的漢堡市交通數據建立。如圖7所示,被控車輛在虛擬場景中的預期行駛路線全長約7 060 m,沿途限速為50 km/h,共經過27 個交通燈路口。

圖7 虛擬交通場景

3.2 算法迭代訓練結果

為了將所提基于DRL 的生態駕駛策略用于實時控制,首先需要將TD3 智能體訓練至累積獎勵值收斂到穩定狀態。本文中最大訓練輪次被設置為300輪,每輪訓練的車輛行駛里程被設置為3 500 m。訓練過程在一臺具有AMD 4800U 處理器的筆記本電腦上完成,總訓練時間為19.04 h。訓練過程的獎勵軌跡如圖8所示。

圖8 所提算法總獎勵曲線

由圖8 可見,在訓練過程的開始階段,由于網絡的訓練還不足,TD3 智能體傾向于充分探索整個環境,每個回合的累積獎勵雖然呈現上升趨勢但波動較大。隨著訓練輪次的增加,從第100 輪到150 輪,TD3 智能體逐漸意識到最優策略的存在,總獎勵開始穩步上升。當TD3 智能體訓練到150 輪之后,已經達到收斂狀態,累積獎勵軌跡相對穩定。但由于Actor 網絡計算的動作添加了高斯探索噪聲,累積獎勵值仍在一個小范圍內波動??偟膩碚f,隨著訓練輪次的增加,累積獎勵值呈現上升趨勢,表明本文設計的狀態空間、動作空間和復合獎勵函數可以使得DRL智能體學習最優策略。

離線訓練完成后,提取訓練過程收斂階段內單輪訓練累積獎勵值最高的Actor 網絡的節點權重和偏差值。在Simulink 中構建基于訓練后Actor 網絡與安全速度建議模塊的生態駕駛策略模型,編譯后下載入HIL實驗平臺的VCU中進行算法性能驗證。

3.3 算法性能對比分析

為了全面分析本文所提基于DRL 生態駕駛策略的優化性能,本文根據文獻[4]與文獻[28]中提到的智能駕駛員模型(intelligent driver model,IDM)設計了基于IDM的對比生態駕駛策略作為基準。由于經典IDM 模型僅適用于跟車任務[29],為了遵守交通燈規則,設計了基于IDM 的對比策略框架,如圖9 所示。該框架與所提基于DRL 的生態駕駛策略一致,只是將DRL智能體替換為IDM模型。

圖9 基于IDM的生態駕駛策略框架

對比策略中IDM模型計算的參考車速為

表3 實驗結果對比

圖10 兩種策略車輛行駛軌跡時空圖

圖11 虛擬交通場景中自車與前車的距離信息以及前車的車速信息

從圖10 中可以看出,兩種策略都能滿足交通燈規則的約束,沒有發生闖紅燈行為。此外,由于HIL平臺中基于SUMO 的虛擬交通場景可以動態模擬真實車輛的變道和超車行為,因此被控車輛前方的車輛是可以隨時發生變化的。即使在這樣具有挑戰性的場景中,如圖11 所示,被控車輛與前車之間的距離始終大于零,表明整個行程都沒有發生碰撞事件??梢哉f明本文所設計的考慮速度建議模塊的生態駕駛策略框架能夠有效地控制車輛在復雜城市交通環境中安全行駛。此外,表3 中所提策略控制的自車在實驗過程中與前車的最小距離比對比策略高10.41%,說明所提策略更加安全可靠。

關于乘坐舒適性,如圖12 所示,對比IDM 策略在加速度為-2、2 和0 m/s2附近的頻數高于所提策略。而所提策略加速度更集中于[-1,1] m/s2的加速度區間。這是因為式(8)所提策略的獎勵函數考慮了加速度獎勵項,因此所提策略更傾向于采取較小的加速度,以較為溫和的方式控制車輛加速/減速至目標車速。相比之下,對比IDM策略則更加激進,先通過較大的加速度調整車速,再勻速行駛。兩種策略的加速度量化的對比如表3 所示,所提策略的加速度絕對值平均數小于對比IDM 策略。因此,所提出的策略比對比IDM策略更舒適。

圖12 兩種策略的車速軌跡與加速度分布

在經濟性方面,由于式(8)所提策略的獎勵函數包括電池能耗項,基于IDM 的生態駕駛策略通過訓練學到了優化車速以提高電能使用效率。從圖13電機功率損失分布圖以及表3 的電機損失電能項可以發現,所提策略的電機功率損失小于對比IDM 策略的電機功率損失。因此,如表3 中的電池電耗項所示,與對比IDM策略相比,所提策略的用電量降低了10.94 %,證明了所提策略具有良好的能耗經濟性。

圖13 兩種策略的電機機械功率與電機功率損失分布

最后,在行駛效率方面,雖然表3 所示所提策略的總行駛時間與基于IDM的策略總行駛時間大致相同,但相較于對比IDM 策略,所提策略減少了83.38%的紅燈停車等待時間。這一點也可以從圖10 的示例段(a)、(b)、(c)和(d)中看出,所提策略相對于對比IDM 策略在交通燈路口停車次數更少,整個行程更加通暢。因此,所提策略的綜合駕駛體驗比對比IDM策略更好。

為了充分展現本文所提DRL 策略的有效性和實用性,選擇了圖10 中仿真時間范圍為250-350 s的示例段(a)對所提策略展開了具體案例分析。此外,由于V2X 通信在實際應用中必然存在時延問題,進行了不同傳輸時延場景下的HIL 實驗驗證。結果表明,當時延小于500 ms 時,時延對控制算法性能的影響不大;而當時延大于500 ms 后,需要補償傳輸時滯以克服對算法安全性帶來的負面影響。

4 結論

本文提出了一種改善復雜城市場景下純電動CAV乘坐體驗的多目標生態駕駛策略。通過設計包含安全速度建議模塊的生態駕駛策略框架,保證了被控車輛的安全性;并通過設計融合安全約束與塑形函數的多目標復合獎勵函數實現了經濟性、舒適性和出行效率的協同優化。在基于虛擬交通場景的HIL 平臺下的實驗結果表明,所提策略可以在確保駕駛安全的前提下,實時協同優化車輛的能耗經濟性、舒適性和通行效率。與基于IDM對比策略相比,所提策略的電耗降低了10.9 %,證明了所提方法的有效性。為了更好地優化CAV 的駕駛行為,未來的研究可以進一步完善該策略,并將其應用于更廣泛的交通場景中。此外,也可以探索更多的DRL 模型,以更好地提高汽車的行駛效率和安全性。

猜你喜歡
交通燈車速車輛
基于單片機的交通燈控制系統設計
車輛
2012款奔馳R300車修改最高車速限制
一直飄紅的交通燈
冬天路滑 遠離車輛
基于單片機的LED模擬交通燈設計
提高車輛響應的轉向輔助控制系統
北京現代途勝車車速表不工作
兩車直角碰撞車速計算方法及應用
基于protues仿真的交通燈即時控制的一種實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合