基于持續強化學習的自動駕駛賽車決策算法研究①

2024-02-13 12:25牛京玉胡瑜李瑋韓銀和

高技術通訊 2024年1期

牛京玉胡瑜李瑋韓銀和

(?中國科學院計算技術研究所智能計算機研究中心北京100190)

(??中國科學院大學北京100049)

自動駕駛賽車挑戰賽[1-4]的興起反映出自動駕駛賽車已成為當下促進高速自動駕駛技術發展的一個研究熱點。最近的研究進展表明,深度強化學習(deep reinforcement learning,DRL)[5]是解決自動駕駛賽車決策問題的一個潛力研究方向[6-7]。DRL 通過試錯方式自主學習最優駕駛策略,令賽車在動力學模型固定的道路上實現累計獎勵的最大化。這里的動力學模型由道路形狀以及摩擦系數、滾動阻力系數、粗糙度等路面物理參數信息共同描述。動力學模型不同的道路被視為不同任務。當道路的形狀或路面參數發生變化時,傳統DRL 策略會在繼續學習新任務時遺忘舊任務,即發生災難性遺忘,從而無法應對道路多變的實際賽車需求,比如拉力賽[8]。為此,針對賽道涵蓋多種道路形狀和材質的情況,本文開展面向多任務的持續強化學習[2-10](continual reinforcement learning,CRL)自動駕駛賽車決策算法研究。

CRL 的核心定義是策略在不斷學習新任務的過程中不遺忘舊任務知識,即無災難性遺忘。其還有2 個進階能力:積極前向遷移和后向遷移。前者指策略利用舊任務知識幫助新任務更快或更好收斂的能力。后者指策略利用新任務知識反過來幫助提高舊任務表現的能力?？梢?無災難性遺忘就是積極后向遷移的下限。

現有相關CRL 工作可分為3 類:經驗回放方法[11-17]、參數獨立方法[18-19]和權重正則化方法[20-23]。然而,前2 類方法是通過持續保存舊任務數據或擴張策略網絡規模來實現CRL,存在數據存儲壓力大、可擴展性差的缺點,難以滿足復雜自動駕駛任務的長期決策需求。第3 類權重正則化方法計算策略網絡權重對各個舊任務的重要性,并限制對舊任務重要的權重在新任務學習期間的更新。該類方法能在無需存儲舊任務數據或擴張網絡規模的條件下令強化學習(reinforcement learning,RL)策略避免災難性遺忘,可滿足自動駕駛應用需求。但權重正則化方法對所有舊任務施加了無差別的權重約束,忽略了任務之間的相似性關系,導致其持續學習能力受限。另外,這些方法還存在2 點不足:未充分利用RL 的優化要素來提升持續學習效果,以及未應用于復雜的高速駕駛任務中。

為克服上述缺點,本文提出一種融入任務相似性的兩階段CRL 算法框架。其中包含4 個主要創新點。(1)算法第1 訓練階段提出了一種無監督的任務特征提取方法。該方法包含1 個特征提取器和1個動力學權重生成器。兩者的聯合訓練可獲取描述任務動力學特征的低維向量。這些任務特征用于計算任務相似性關系。(2)算法第2 階段提出了一種融入任務相似性的權重正則化方法。該方法利用任務相似性關系來自適應地調節策略網絡權重的更新約束。當新舊任務相似性低時,加強限制對舊任務重要的部分權重發生變化。反之,減弱對權重更新的限制,以提供任務間進行知識遷移的機會,獲得進階CRL 能力。(3)算法第2 階段還設計了一個適用于持續學習的RL 獎勵函數,促使策略向著共同提高新任務和舊任務性能的方向優化。(4)本文利用賽車仿真平臺設置了一系列測試實驗,定義了一套評估CRL 方法的性能指標。實驗結果表明,在不存儲舊任務數據且不擴張策略網絡規模的條件下,本文算法能獲得比所有基準CRL 方法更亮眼的成績。

1 相關工作

持續學習已經在監督學習領域,尤其是在圖像分類任務中獲得了較深入的研究[24-26]。最近,RL中的持續學習問題[9-10]也受到了越來越多的關注。相關CRL 方法主要可分為經驗回放方法、參數獨立方法和權重正則化方法。

經驗回放方法實現CRL 能力的思路是存儲舊任務數據,并用其與新任務數據一起優化策略。其中一部分方法關注如何在維持無災難性遺忘的同時緩解數據存儲壓力,比如利用不同數據抽樣方法精簡存儲[11-13]或學習數據生成模型[14-15]。該類別中的另一部分方法關注如何獲取進階CRL 能力。比如梯度情景記憶(gradient episodic memory,GEM)方法[16]和平均梯度情景記憶(averaged GEM,A-GEM)方法[17]約束策略在新任務上的梯度更新方向與在舊任務上的梯度方向間夾角不超過90 °,從而與新任務相似的舊任務能在新任務學習中獲得積極的后向遷移。但隨著任務數的增加,這類方法的數據存儲壓力加劇,不適合自動駕駛賽車應用的長期決策需求。

參數獨立方法保留舊任務知識的思路是為每個任務擴展一部分獨立的策略網絡分支,其代表性方法是漸進神經網絡(progressive neural networks,PNN)[18-19]。除了避免災難性遺忘問題外,該方法還具備積極的前向遷移能力。其得益于PNN 中從舊任務網絡到新任務網絡的橫向連接,令策略有選擇地從相似舊任務網絡中獲取促進新任務收斂的有用知識。但策略網絡分支彼此獨立一方面導致無法發展后向遷移能力,另一方面導致網絡規模隨著任務數的增加而不斷擴張,可擴展性差。該方法同樣不滿足自動駕駛賽車的應用需求。

權重正則化方法的思路是計算策略網絡權重對每個舊任務的重要性,并在新任務訓練時限制對舊任務重要的部分策略權重更新。其代表性方法是利用Fisher 信息矩陣估計重要性的可塑權重鞏固(elastic weight consolidation,EWC)[20-21]。在線可塑權重鞏固(online EWC)方法[22-23]降低了EWC 方法的計算成本。漸近壓縮(progress &compress,P&C)方法[23]結合PNN、online EWC 和知識蒸餾思想提出一種可擴展策略。這類方法既無需存儲舊任務數據也無需擴張網絡規模,該優勢使其適用于自動駕駛賽車的應用需求。但由于權重正則化方法對所有舊任務的無差別約束,這類方法僅局限于解決無災難性遺忘問題。將權重正則化方法和可獲取部分進階CRL 能力的GEM、A-GEM 和PNN 方法相比較可以發現:可獲得部分進階CRL 能力的3 個方法的共性在于均隱含考慮了新舊任務間的關系。因此,本文提出一種融入任務相似性的權重正則化方法。該方法利用任務相似性對不同舊任務的約束力度進行自適應調節,從而實現積極前向和后向遷移能力。為計算任務相似性,本文提出一種特征提取方法來獲取描述每個任務動力學特征的低維向量。此外,本文還設計了一個適應CRL 的獎勵函數,以進一步發掘RL 優化范式下的持續學習能力。上述3 項創新設計共同構成了本文滿足自動駕駛賽車需求的CRL 算法。

2 方法介紹

2.1 問題定義

本文旨在提出CRL 算法解決傳統RL 策略面對道路變化時的災難性遺忘問題。每段動力學表現不同的道路被看作一個獨立任務。賽車在每個任務上的RL 決策過程均為一個由元組(S,A,P,r,γ) 表示的馬爾科夫決策過程。其中,S是狀態空間,A是動作空間,P是描述任務動力學的狀態轉移函數,r是引導RL 優化方向的獎勵函數,γ是折扣因子。不同任務具有相同的狀態空間、動作空間和折扣因子。任務間的差異體現在狀態轉移函數和獎勵函數隨任務變化。設i∈{1,2,…,T} 是任務標識,t是時間步,狀態轉移函數和獎勵函數分別表達為Pi(st+1|st,at)和。第t時間步時,賽車狀態st∈S是一個29 維多傳感信息向量,包括賽車和道路軸線的夾角及距離、三維速度信息、賽車與道路邊緣的19 維測距信息、4 個輪速轉速和發動機轉速。賽車動作at∈A表達為由轉向、加速度組成的二維向量。

2.2 算法概述

當賽車遇到一個新任務i時,圖1 展示了本文提出CRL 算法的2 個訓練過程。第1 訓練階段旨在提取可描述當前任務動力學的低維特征向量featurei。該任務特征的提取利用了一個編碼器E和一個權重生成器Gdyn的聯合訓練結構實現,過程詳見2.3 節。學到的新任務特征被用于計算新任務與前i -1 個舊任務之間的相似性關系。第2 訓練階段旨在向著既學習新任務又不遺忘所有舊任務知識的方向優化當前策略。策略的CRL 能力由融入任務相似性的權重正則化方法以及鼓勵持續學習的RL 獎勵函數共同實現,詳見2.4 節的介紹。

圖1 本文兩階段CRL 算法的訓練過程總覽圖

2.3 第1 訓練階段:提取任務特征

本文算法的第1 訓練階段展示在圖1(a)中。首先,算法通過隨機駕駛起點和控制動作的方式收集新任務環境i中的軌跡數據。這些數據包含了車輛和任務i道路之間的動力學關系。然后,從軌跡數據集中取時間間隔為k的數據喂進特征提取器中輸出特征向量,即再將featurei作為任務i的動力學權重生成器的唯一輸入,獲得一組網絡權重,即這些網絡權重可導入不可學習的動力學模型中,并根據當前狀態和當前動作預測智能體在當前任務i中獲得的下一時間步狀態,即本文采用一個動力學權重生成網絡而不是動力學模型來輔助訓練特征提取器的原因是:生成器把任務特征當作唯一輸入,而動力學模型只將任務特征作為部分輸入,前者能提供比后者更強有力的訓練約束。

(1) 網絡結構設計。以軌跡數據為輸入的特征提取器采用了長短期記憶(long short-term memory,LSTM)結構[27],這是一種適合處理時序信息的循環神經網絡。又因為軌跡數據中包含的狀態信息有位姿、速度等非圖像數據,所以動力學權重生成模型網絡和動力學模型均采用全連接網絡實現。通常,應對復雜控制的動力學模型包含多個神經網絡層,且每層需要數百個神經元來獲取足夠的表達能力。大量模型權重直接從權重生成器輸出會引發生成器網絡規模和計算壓力過大的問題。為了避免該問題,本文受文獻[28]啟發,設計了一個可利用少量網絡參數實現復雜動力學的權重生成器結構。

(2)第1 訓練階段的損失函數。權重生成器的訓練目標是從特征提取器輸出的任務特征中獲得一組精準的動力學模型權重。這促使特征提取器聚焦軌跡數據中的車輛-道路動力學信息。因此,特征提取器和權重發生器的網絡通過最小化動力學損失函數優化。該損失函數計算了下一時間步狀態真值和由動力學模型計算的下一時刻狀態預測值之間的加權均方誤差,如式(1)所示。

其中,M是每次訓練采樣數據的批尺寸(batch size),N是每個狀態中包含的傳感器類別個數,不同傳感器信息的均方誤差具有不同的加權參數bn,和分別代表著真實狀態和預測狀態中的第n個傳感器信息。

此外,特征提取器E的優化還需要一項額外的損失函數LE來確保featurei對任務i來說是唯一的,如式(2)所示。

其中,每次針對任務i的訓練需要采樣2 個批尺寸均為M的軌跡數據批,為保證M/2 為整數,M設為偶數;和分別表示來自這2 個軌跡數據批中的第m個數據;q∈{1,2} 代表著這2 個軌跡數據批中的第q批數據。該損失函數約束了特征提取器從不同軌跡數據批中學到相同的任務特征。

2.4 第2 訓練階段:策略持續學習

圖1(b)描述了本文算法的第2 訓練階段。本階段對RL 優化損失進行了2 項持續學習設計。這里采用基于最大熵原理的軟演員-評論家(soft actor critic,SAC)算法[29-30]作為本文的RL 實現基礎。SAC 算法在最大化折扣獎勵期望的同時最大化策略的熵H,如式(3)所示,令策略具備適應環境變化的魯棒性。

其中,γ是折扣因子,π?是學到的最優策略,重放緩沖器D用于存放賽車與當前環境的交互數據(st,at,st+1,rt),E(st,at)～D是求期望符號,α是影響最優策略隨機性的溫度因子。

在具體實現上述目標函數時,SAC 算法采用演員-評論家(actor-critic)結構,包括1 個策略網絡(policy network)和2 個Q 值網絡(Q-value function)。策略網絡是根據當前狀態st生成當前動作at的演員,即at=π(st)。2 個Q 值網絡Q1(st,at)和Q2(st,at) 是評估生成策略質量的評論家。Q 值網絡先利用累計折扣獎勵值進行訓練,再來指導策略網絡的優化。由于SAC 算法有2 個Q 值函數,每次網絡更新均采用兩者的最小值參與計算。這種雙值函數做法[31]緩解了由值函數過度估計偏見導致的策略性能下降。

需要注意的是,現有CRL 策略輸入往往包含當前狀態st和任務標識i的嵌入向量(embedding vector)2 部分信息。本文將任務特征featurei代替現有方法中使用的任務嵌入向量,即和

(1) 融入任務相似性的權重正則化損失。當學完任務i -1 后獲得的最優策略遇到新任務i時,先從本文算法第1 訓練階段獲得任務特征featurei。接著,該特征向量參與到策略網絡πi在新任務i上的優化過程中。策略網絡的損失函數如下所示。

其中,Ltaski代表原始SAC 策略損失項,如式(5)所示。其具體的推導細節可參考文獻[30]。

式(5)中的Lregz是本文設計的融入任務相似性的權重正則化項,其表達如式(6)所示。

其中,超參數λ用于平衡Ltaski和Lregz對策略優化的影響程度;Simi c∈[-1,1] 表示新任務特征向量featurei和某一舊任務特征向量featurec(c∈{1,…,i-1}) 間的相似性;Fc指Fisher 信息矩陣,由剛學習完舊任務c時的策略對每個網絡權重計算梯度的平方得到[20],用于表達策略網絡中的每個權重對舊任務的重要性;θπi是任務i學習期間的策略網絡權重;是學完任務i -1 時的最優策略權重。本文采用的相似性量度是廣泛用于計算向量相似性關系的夾角余弦值。

權重正則化損失項Lregz受啟發于online EWC方法[22-23]中將舊任務似然估計的高斯近似在網絡最新的最大后驗參數處重定位的做法。這意味著策略在持續學習中只需保留最近一次的最優策略權重以及不同舊任務Fisher 信息的累加結果。但online EWC 只使用一個固定的降權參數來折算所有舊任務的Fisher 信息和,這使策略更傾向于逐漸遺忘遠離新任務的舊任務。與此不同,本文將任務相似性和舊任務的Fisher 信息相結合,令其成為新任務學習期間對策略網絡權重更新幅度的自適應控制器。

(2) 鼓勵持續學習的獎勵函數。獎勵函數會直接影響Q 值函數是否能公正地評價當前RL 策略,對策略的后續收斂起到重要的指導作用。面對新任務i時,每一時間步t的獎勵函數包含2 項內容:針對新任務i的獎勵項和針對所有舊任務的獎勵項,如式(7)所示,κnew和κold是2 個經驗參數。

為了計算式(7),這里定義一個可評估策略在單個任務上表現好壞的函數freward(st,at,st+1),如式(8)所示,該公式在文獻[32]中被提出。

其中,Δlt表示賽車在時間步t和t+1 之間行駛的距離;ψt+1是st+1中賽車航向和道路軸線間的夾角;Δdist+1是st+1中車輛位置和道路軸線的間距。

再將獲得的總獎勵代入到2 個Q 值網絡的損失函數中,如式(10)所示。

式中y通過式(11)來表達。

式中,α是SAC 算法的溫度因子;是對應2 個Q 值網絡的目標網絡(target network),用于穩定Q 值網絡訓練,如式(12)所示。

其中,縮放因子σ∈[0,1],和θQiz分別表示Q值函數和對應的目標函數的網絡權重。

在完成每次策略和Q 值網絡訓練時,溫度因子α通過最小化式(13)來調節,H0為目標熵預設值。

最后,本文算法的偽代碼總結如算法1 所示。

3 實驗設置及結果分析

3.1 實驗設置

本文利用3D 逼真賽車仿真平臺(TORCS)[33]設計了一系列測試實驗。TORCS 賽車仿真平臺提供了具有多種道路形狀和表面材質的道路選項。本文利用5 個各具特色的TORCS 道路場景參與實驗,設計了2 條不同的任務序列,如表1 和圖2 所示。相較于道路1 和2,道路3、4 和5 難度更大。尤其是道路4和5,兩者單獨利用傳統RL訓練時,均無法像其他3 條道路一樣在有限訓練回合內收斂。因此,任務序列1 反映了一個從易到難的持續學習過程,任務序列2 則是一個從難到易的持續學習過程。

表1 所選道路的特征描述

圖2 參與本文實驗的TORCS 道路環境及任務序列展示

(1)基準方法。本文選擇現有3 類CRL 方法中具有代表性的方法作為測試基準。經驗回放基準方法采用選擇性經驗回放(selective experience replay,SER)方法[11]、多時間尺度經驗回放(multi-timescale replay,MTR)方法[13]以及A-GEM 方法[17]。參數獨立基準方法采用PNN 方法[18-19]。權重正則化基準方法采用EWC 方法[20]、online EWC (后續簡稱為OEWC)方法[22-23]和P&C 方法[23]。此外,本文還設計了一個精調(fine tuning,FT)基準方法,用于展示無持續學習設計的RL 算法在順序學習多任務時的表現。在FT 方法中,每個新任務的訓練利用前一個任務的最優策略初始化網絡,再遵循原始SAC 算法更新。為保證比較的公平性,所有方法采用相同的策略網絡結構且均以SAC 算法為CRL 的實現基礎?；鶞史椒ㄖ休斎氩呗缘娜蝿諛俗R嵌入向量維度與本文算法中代替嵌入向量輸入策略的任務特征維度相同。

(2)消融實驗。首先,討論第1 訓練階段中任務特征維度Dim值和動力學權重生成網絡的小矩陣參數U值的不同對動力學預測效果的影響。接著,檢驗第2 訓練階段中兩項持續學習設計的貢獻。該階段的消融實驗利用被命名為Oldr 和SimEWC的2 個方法進行性能分析。其中,Oldr 方法指本文算法去掉權重正則化損失、保留鼓勵持續學習的獎勵函數。SimEWC 方法指本文算法保留權重正則化損失、去掉鼓勵持續學習的獎勵函數。

(3)本文算法實現細節。特征提取器的LSTM網絡有2 層且每層100 個神經元,其輸入τk的時間間隔k為4,輸出的任務特征維度Dim為10。動力學權重生成網絡的U值為32,對應不可學習的動力學模型是一個2 層且每層256 個神經元的全連接網絡。第1 訓練階段采用Adam 優化器[34],動力學損失Ldyn學習率為0.001 0,特征提取器的額外損失LE學習率為0.005 0。SAC 策略網絡和評論家網絡均采用尺寸為(400,300) 的兩層全連接網絡以及學習率設為0.000 1 的Adam 優化器。折扣因子γ和縮放因子σ分別取0.990 和0.995。獎勵函數的κnew和κold均取0.5。目標熵預設值H0為動作維度的負值。最大訓練回合數和每一個回合的最大步數分別是3 000和2 000。本文中所有運算均通過NVIDIA GTX 1080Ti GPU 實現。

3.2 評價指標定義

本文定義了一系列評價CRL 方法的性能指標。

(1)成功率:在100 次測試回合中,最終策略通過全部任務的回合數占比。該值越高,算法越好。

(2)平均性能(average performance,AP):如式(14)所示,Y表示總任務數,apY,y是最終策略在任務y(y≤Y) 上的性能表現。本文針對自動駕駛賽車問題的性能表現具體分為駕駛速度和穩定性兩部分。評估速度時,apY,y是計算πY在任務y上所有成功測試回合的平均速度,越大越好。評估穩定性時,apY,y是計算πY在任務y上所有成功測試回合的平均車輛-道路軸線夾角絕對值,越小越好。若策略無法在一個任務上駕駛成功,根據仿真平臺設置,ap的速度和穩定性部分被分別賦值為0 km·h-1和21°。

(3)后向遷移(backward transfer,BWT):如式(15)所示,apy,y表示剛學完任務y時的策略πy在該任務上的性能表現。該指標評估了策略在學習新任務后對舊任務性能的影響。積極的BWT 結果表達為速度部分大于0,且越大越好;穩定性部分小于0,且越小越好。明顯消極的BWT 結果表示災難性遺忘。

(4)前向遷移(forward transfer,FWT):如式(16)所示,ap1,y是只學習一個任務y時的策略性能。該指標評估了策略的舊任務知識對新任務學習產生的影響。積極的FWT 結果表達為速度部分大于0,且越大越好;穩定性部分小于0,且越小越好。

(5)歸一化策略容量(normalized policy capacity,NPC):最終策略與學習首個任務時策略在網絡容量方面的比值,NPC≥1。該值越大,網絡擴張越快。

(6)歸一化重放緩沖器(normalized replay buffer,NRB):CRL 方法與傳統RL 方法在重放緩沖器尺寸方面的比值,NRB≥1。該值越大,數據需求越大。

(7)單步平均獎勵:策略先根據式(8)計算針對單一任務的每回合獎勵總和,再除以回合的總步數。

(8)精度的相對倍數變化(relative fold change in accuracy,RFCA):該指標用于分析算法第1 訓練階段的消融實驗結果。如式(17)所示。RFCA 結果越高,說明對Dim或U候選值的選擇越合適。

3.3 與基準方法的對比結果

表2 和3 分別展示了2 個任務序列中本文算法和基準方法的測試結果。圖3 和4 分別細致展示了2個任務序列中不同方法在各個任務訓練期間的單步平均獎勵變化。圖3 中,由于每個任務具有2 000個訓練回合,因此整個持續學習過程一共有10 000個回合。圖中平行于縱坐標的4 條虛線代表任務的切換。圖中沿著縱坐標標注的“任務1”至“任務5”記錄了各個任務在整個策略學習期間分別作為新任務和舊任務時的性能表現。所有基準方法在學習第一個任務期間沒有區別,因此用一條命名為“Allbaselines”的獎勵曲線統一表示。為了清晰展示多種方法的獎勵曲線變化趨勢,該圖只在任務1的訓練階段展示出獎勵曲線的置信區間,即All Baseline 曲線和本文算法曲線的陰影區域。當一個任務是新任務時,所有方法的獎勵曲線記錄了起始2 000 個訓練回合的全部獎勵數據。當該任務變成舊任務時,改為每間隔200 個訓練回合測試并記錄此時刻的舊任務獎勵。后續獎勵曲線變化圖與該圖的設置保持一致。根據這些圖表內容,本節從以下5 個不同角度進行性能分析。

表2 任務序列1 中本文算法和基準方法的性能比較

圖3 本文算法和基準方法在任務序列1 中的整個持續學習過程的獎勵變化曲線

圖4 本文算法和基準方法在任務序列2 中的整個持續學習過程的獎勵變化曲線

(1)FT 方法在2 個任務序列上成功率均為零,且FWT 和BWT 結果均明顯消極。這驗證了傳統RL 策略在面對多任務時普遍存在的災難性遺忘問題,其凸顯了CRL 研究的必要性。

(2)圖3 和4 中,本文算法在策略訓練第一個任務時的獎勵曲線比基準方法具有更窄的置信區間,即訓練波動更小。由于此時訓練不涉及任何舊任務,該對比結果體現了本文采用的任務特征方式比基準方法中普遍使用的嵌入向量方式提供了更豐富的任務信息,令策略收斂過程更平穩。

(3)本文算法在2 個任務序列中均收獲了較好的成績。在成功率方面,本文算法的結果高于所有基準方法。在駕駛性能方面,本文算法在既不存儲舊任務數據又不擴張網絡的情況下,同時滿足了所有CRL能力。這是其他基準方法未能做到的。從表2 和表3中可以看出:PNN 在AP 和FWT 指標上的表現是基準CRL 方法中最好的;A-GEM 方法的BWT 結果是基準CRL 方法中最好的。然而,PNN 方法的NPC=5,即策略網絡隨著任務增加而擴張。AGEM 方法的NRB=2,即需要額外的舊任務數據存儲。本文方法能在NPC 和NRB 結果均保持最低的情況下,在任務序列1 中獲得與PNN 方法最接近的平均速度;并在AP 和FWT 結果的穩定性部分以及BWT 結果的速度部分,比所有基準方法表現更好。在任務序列2 中,本文算法在AP 和FWT 結果的速度部分以及全部BWT 結果上均表現最佳。

表3 任務序列2 中本文算法和基準方法的性能比較

(4)與同屬于權重正則化類別的EWC、OEWC 和P&C 方法相比,本文算法能在任務序列1 的所有指標上均獲得最好結果,在任務序列2 的AP 的平均速度結果、BWT 結果和FWT 的平均速度上均表現最好。結合上述第3 點分析可得,本文提出的融入任務相似性的權重正則化方法和鼓勵舊任務性能不下降的獎勵函數兩項設計,確實能幫助策略發揮出更佳的CRL性能。同類方法中,P&C 方法表現最差,因為其利用知識蒸餾的模型壓縮思想來實現策略網絡的不擴張,以部分性能的下降為代價。

(5)對比2 個任務序列中同一方法性能可知,任務排序的不同會導致最終策略的收斂差異。在任務序列1 中,排在前面的任務令策略先掌握到速度較高、能應對相對單一道路特征的先驗知識。與之相反,策略從任務序列2 中學到速度較低、可對應相對復雜道路特征的先驗知識。任務序列1 中策略在面對道路特征更加復雜的后續任務時,更傾向獲得比任務序列2 中策略具有更高駕駛速度的收斂點。

3.4 消融實驗

下面將分析本文算法在2 個訓練階段的創新點。

(1) 第1 訓練階段。本階段負責提取可描述車輛-道路動力學關系的任務特征,其中起到重要作用的2 個超參數是任務特征維度Dim值和動力學權重生成器的小矩陣參數U值。圖5 和圖6 分別展示了2個超參數的不同數值選擇對動力學預測效果的影響。實驗結果表明,盡管隨著Dim值或U值取值的增大,動力學預測的精度有所提升,但其精度的提升速度遠遜于訓練次數的增加速度。因此,兩圖中的RFCA 折線都呈現出先升后降的趨勢。本文選擇兩折線的頂點Dim=10和U=32 作為兩者的最佳選擇。

圖5 不同特征維度Dim 對動力學預測效果的影響

圖6 不同動力學權重生成器參數U 對動力學預測效果的影響

(2) 第2 訓練階段。本階段具有融入任務相似性的權重正則化策略損失和鼓勵持續學習的RL獎勵函數兩項創新設計,分別通過SimEWC 和Oldr 方法實現。表4 和5 分別展示了這2 個方法的測試結果。

表4 對應本文算法第2 階段的2 個創新點的Oldr 和SimEWC 方法在任務序列1 中的性能展示

首先,將表4、5 分別與展示基準方法性能的表2、3 進行對比。對比結果表明,在2 個任務序列中2 項創新設計均對本文算法的性能提升做出了積極貢獻,且兩者的結合具有協同作用。從SimEWC 方法與EWC、OEWC 基準方法的性能對比可知,SimEWC 方法在2 個任務序列中的FWT 和BWT 結果均比EWC和OEWC 方法更積極。這充分體現了任務相似性的融入對提升傳統權重正則化方法在進階CRL 能力方面的幫助,使其不再局限于僅僅解決災難性遺忘問題。

其次,表4 與表5 中相同方法的對比展示了Oldr和SimEWC 方法在任務序列1 上均獲得了比在任務序列2 上更高的平均速度、FWT 結果以及稍低的成功率。這些結果與3.2 節的第5 點分析吻合,即策略在不同任務排序下的收斂存在差異。SimEWC 方法在2 個任務序列間的平均速度變化幅度比Oldr 方法小84%,其平均穩定性變化幅度比Oldr 方法小92%?？梢?SimEWC 方法對任務排序變化的敏感程度比Oldr 方法低。再對比這2 個方法的BWT 結果發現,Oldr 方法在2 個任務序列中的BWT 速度部分結果比SimEWC 方法表現更好,而BWT 穩定性部分結果是SimEWC 方法比Oldr 方法表現更好。這些結果一方面展現了Oldr 方法對持續學習的有效性,另一方面也說明了直接對策略網絡權重進行自適應正則化的SimEWC 方法在實現CRL 能力方面比Oldr 方法發揮更穩定。而利用舊任務性能升降作為獎懲信號引導CRL 優化的Oldr 方法更適于搭配其他持續學習約束一起使用,可促進策略在滿足持續學習需要的同時達到更好的收斂點。

表5 對應本文算法第2 階段的2 個創新點的Oldr 和SimEWC 方法在任務序列2 中的性能展示

最后,本文利用圖7 和圖8 分別展示了本文算法、Oldr 以及SimEWC 方法在2 個任務序列中的整個策略訓練過程。圖9 可視化了道路特征間的相似性關系,用于配合SimEWC 訓練曲線來共同分析任務相似性對權重正則化損失創新設計的作用。

圖7 本文算法、Oldr 和SimEWC 方法在任務序列1 中的整個持續學習過程的獎勵變化曲線

圖8 本文算法、Oldr 和SimEWC 方法在任務序列2 中的整個持續學習過程的獎勵變化曲線

圖9 不同道路特征之間的相似性可視化展示

當遇到與舊任務相似性低的新任務時,策略的更新過程側重保持已有知識不被遺忘。從圖9 中可以看出,道路1 和2、道路1 和5 以及道路2 和5 之間的相似性得分最低。道路1 和2、道路1 和5 之間的低相似性可以對應到圖7 中SimEWC 方法的任務1 獎勵曲線在任務2、任務5的學習期間只是努力保持不下降。道路2 和5 之間低相似性可對應到圖7 中SimEWC 方法的任務2 獎勵曲線從任務4 到任務5學習期間的明顯回落趨勢。上述情況也同樣體現在圖8 中SimEWC 方法的任務3 獎勵曲線在任務4 的學習期間、任務4 獎勵曲線在任務5 的學習期間。

當遇到與舊任務相似度高的新任務時,策略的更新過程追求在學習新任務的同時也提升了舊任務的駕駛性能。從圖9 中可以看到,道路1、3 及4 這三者間的特征相似性是最高的。其可對應到圖7 中Sim-EWC 方法的任務1 獎勵曲線在任務3、4 的學習期間有明顯上升趨勢。與此相同的積極后向遷移表現也出現在圖8 中SimEWC 方法的任務1 獎勵曲線在任務2 和5 的學習期間。

4 結論

本文提出了一個融入任務相似性的CRL 算法來應對自動駕駛賽車在多變道路上的持續決策問題。該算法包括動力學特征提取方法、融入任務相似性的權重正則化方法以及維護舊任務性能不下降的獎勵函數3 項設計。從而,在無需存儲舊任務數據且無需擴展策略網絡規模的前提下,該方法顯著提高了持續決策算法的前向和后向遷移能力。這是現有方法無法做到的。仿真實驗結果表明,本文算法在解決CRL問題上比其他基準方法具有更優越的綜合表現。在本文工作基礎上,未來工作將進一步研究如何避免由任務排序變化引起的策略收斂差異問題。