基于優先采樣模型的離線強化學習

2024-02-03 10:41程玉虎王雪松

自動化學報 2024年1期

顧揚程玉虎王雪松

由于兼具了強化學習優良的決策能力以及深度學習強大的表征能力和泛化性能,深度強化學習已成為解決復雜環境下感知決策問題的一個可行方案[1].近年來,深度強化學習已經在機器人控制[2]、電力系統優化[3]、網絡安全[4]、視頻游戲[5-6]、醫療健康[7]、自動駕駛[8-9]等領域取得了成功應用.

隨著深度強化學習理論和方法的發展,學者們嘗試開發智能體去處理一些數據采集困難,對硬件設備安全構成威脅的學習任務[10].2020 年之前,參考機器學習中批量學習的方法,學者們提出了一種無需進行探索、經驗緩存固定的深度強化學習,并命名為批強化學習[11].2020 年后,隨著批強化學習熱度的提升,Levine 等[10]將此類算法重新命名為離線強化學習.離線強化學習有著行為策略下固定大小的經驗緩存,可以避免在線探索帶來的環境噪聲和危險行為[12].一方面,離線強化學習可以從在線強化學習的經典算法中汲取靈感[13],有較長遠的發展前景.另一方面,離線強化學習中,大部分算法通過引入模仿學習[14]來減小分布偏移,降低了強化學習與其他機器學習方法之間的壁壘.但一個值得關注的問題是: 習得策略下,智能體對離線經驗緩存分布之外的(Out-of-distribution,OOD)狀態評估會包含誤差,從而表現并不理想.

針對這一問題,研究者們提出了許多解決方案.Fujimoto 等[15]率先提出了第一個能夠從任意批數據(離線數據)中學習而無需探索的批約束深度Q學習(Batch-constrained deep Q-learning,BCQ).BCQ 采用Q 學習技術,在選取最大化Q 值對應的動作時,希望只考慮實際出現在離線數據集中的狀態-動作對,而不考慮分布外的動作.為此,Kumar等[16]利用變分自編碼器來生成與離線數據集分布相近的動作,并結合一個擾動網絡模型對生成的動作進行調優,從而使動作具有多樣性.測試階段,在生成的動作空間中選擇使Q 值最大的那些動作.由于BCQ 不涉及對未知狀態-動作對的考慮,因此不會在策略與值函數上引入額外的偏差,同時,動作與值函數分開學習,也避免了誤差累積.然而,Kumar 等[16]指出: 由于BCQ 對策略施加的約束較強,因此當離線數據集質量較差時,BCQ 只能有限地改善策略性能.進一步,Kumar 等[16]分析了分布偏移導致的自舉誤差,提出了使用兩個獨立值函數結構的自舉誤差累積消減算法(Bootstrapping error accumulation reduction,BEAR),利用支持集匹配的思想來防止自舉誤差累積.此外,BEAR 通過約束當前策略與行為策略之間的最大均值差異(Maximum mean discrepancy,MMD)[17]來使習得策略盡可能接近行為策略以緩解分布偏移問題.然而,由于需要計算MMD 距離,BEAR 的計算代價較大.Jaques 等[18]通過減小習得策略和行為策略之間的KL 散度,使學習到的策略逼近行為策略.與之類似,Maran 等[19]使用Wasserstein 距離來描述策略間差異,將減小策略分布間的Wasserstein 距離作為正則化項添加到優化目標中.為評估不同行為策略正則化項的重要性,Wu 等[20]引入一個通用的算法框架,稱為行為正則化Actor-Critic.該框架涵蓋了BCQ、BEAR 等,同時提供了多種實際選擇方案,使研究人員能夠以模塊化的方式比較不同變體的性能.進一步,Wu 等[20]提出兩類正則化方法:BRAC-v 與BRAC-p,前者是對值函數進行正則化,后者則是對策略進行正則化.值得注意的是,值函數正則化雖然可以提高OOD 狀態評估的準確程度,但也會在值函數更新過程中增加噪聲,使習得策略難以收斂.策略正則化雖然能有效降低分布偏移且提高習得策略的穩定性,但會增大習得策略陷入局部最優的概率.

上述離線強化學習方法都傾向于通過降低分布偏移來提高習得策略的質量,但忽視了離線數據集質量對離線強化學習性能的影響.類似的,在在線強化學習方法中,經驗的好壞對智能體的訓練起到非常重要的作用.因此,如何讓智能體高效地選擇樣本也是提高強化學習算法性能的一個有效措施.Schaul 等[21]在在線強化學習(深度Q 網絡)中采用了優先經驗回放技術,主要思路為: 通過時序差分(Temporal difference,TD)誤差估計經驗池(經驗緩存區)中樣本的重要程度并賦予樣本不同的優先級,使那些在訓練過程中對智能體更加重要的樣本更容易被選擇.Horgan 等[22]在優先經驗回放技術的基礎上提出了分布式經驗池的思想,進一步提升了強化學習智能體在復雜環境中的表現.

離線經驗緩存的質量主要會通過以下兩個方面來影響離線強化學習的訓練: 1) 行為策略下生成的離線經驗緩存中會包含折扣回報低于平均水平的失誤經驗,這些經驗所占比例往往不高.因此,訓練過程中智能體容易忽視失誤經驗,無法在對應的場景下做出最優的行為.2) 離線經驗緩存中的樣本根據其是否有利于策略優化可以分為正樣本與負樣本,負樣本更多的存在于失誤經驗集合中,過多采樣負樣本進行訓練會導致習得策略的質量不理想.于是,參考在線強化學習采用的優先經驗回放技術,離線強化學習也需要通過優化采樣模型來改善強化學習智能體的訓練效果,從而提高習得策略的質量.為此,本文提出兩種離線優先采樣模型: 1) 基于時序差分誤差的采樣模型,可以提高值函數的估計精度,有效地應對可能出現的OOD 狀態.2) 基于鞅的采樣模型,可以對經驗數據進行篩選,使智能體自主地優先學習對策略優化有利的正樣本.進一步,將這兩種采樣模型與BCQ 相結合,提出基于時序差分誤差的優先BCQ (TD-PBCQ)和基于鞅的優先BCQ (M-PBCQ).D4RL 和Torcs 數據集上的實驗結果表明: 1) TD-PBCQ 適用于行為策略基本收斂,且離線經驗緩存中包含少量失誤經驗的離線強化學習任務.2) M-PBCQ 適用于離線經驗緩存中包含較多失誤經驗的離線強化學習任務.

1 批約束深度Q 學習

為提高離策略深度強化學習算法在離線強化學習場景下的工作效果,Fujimoto 等[15]通過構建編碼器網絡和擾動網絡來生成更好的策略,提出了批約束深度Q 學習.在BCQ 中,編碼器網絡和擾動網絡輸出的動作可表示為狀態到動作的映射μBCQ:

通過變分自編碼器V AEω和擾動網絡ξ?,BCQ可以在不與環境進行交互的限制條件下,遍歷到一個受限域區間內的多個動作,因此BCQ 有概率學習到比行為策略更好的策略.在值函數更新部分,BCQ 使用了兩個Q 值網絡Q θ1和Q θ2來降低過估計誤差,其目標值的計算方法為:

其中,λ為在區間 (0,1) 取值的參數,可以通過選擇不同的λ來調節未來時間步不確定性給值函數更新帶來的影響.當 Φ=0 且n=1 時,BCQ 會退化為行為克隆算法,機械地學習所有離線經驗數據.當Φ趨向于動作的上下限且n →∞時,BCQ 等價于在線Q 學習,會產生較大的外推誤差.BCQ 通過在線強化學習使值函數估計逼近最優值函數,通過行為克隆算法減小測試時OOD 狀態出現的概率.

BCQ 算法定義了外推誤差,主要用于描述強化學習算法由于經驗數據不足導致的估計誤差.在離線強化學習場景下應用離策略算法,離線值函數和在線值函數Qπ之間的差異為:

其中,P π(s) 為策略π下遍歷到狀態s的概率.

2 基于時序差分誤差的采樣模型

假設離線經驗緩存為B,其中包含的樣本數為M,對應的行為策略為πB.行為克隆(Behavior clone,BC)可以高效地學習B中狀態到動作的映射,但B中經驗數據相關性較高,BC 的訓練很容易過擬合,因此訓練得到的策略魯棒性很差.與行為克隆算法相比,離線強化學習算法的樣本效率雖然不高,但會根據經驗數據學習狀態值等指標來評價狀態和動作的好壞.這些指標可以幫助智能體在訪問OOD狀態時做出合理的動作,因此離線深度強化學習習得策略的魯棒性更高.但是,離線深度強化學習仍面臨著這樣一個問題: 經驗數據分布不理想會導致學習過程中產生累積誤差.

假設離線數據集中存在兩類狀態s+和s-,其中狀態s-對應的經驗即為失誤經驗.離線經驗緩存B中s+被采樣的概率越大,意味著s+有更高的概率被采樣,由s+計算得到的損失會主導模型的訓練,離線強化學習算法對s+的狀態值的估計越準確.如果s-被采樣的概率很小,由失誤經驗計算得到的梯度很容易被忽略,進而導致智能體無法在狀態s-做出正確的行為.因此,增強對狀態s-的學習有利于逼近真實的策略評價指標.

對于優先經驗回放(Prioritized experience replay,PER)來說,樣本的采樣概率定義為[21]:

其中,υ為對應的經驗數據,p(υ) 為經驗數據υ對應的優先級.o為指數參數,用于決定優先級使用的程度.如果取o=0,則采樣模型在B中均勻采樣.我們考慮將優先經驗回放引入離線強化學習算法中,并命名為基于時序差分誤差的采樣模型.

在基于時序差分誤差的采樣模型中,p(υ)=|δυ|+σ,σ為優先級修正系數,用來避免優先級為0 的經驗被采樣的概率為0.如果使用一步更新的Q 學習算法,則B中經驗數據υ對應的TD 誤差δυ為:

由于離線經驗緩存的數據分布是固定的,離線經驗優先級的計算比在線場景下的確定性更強.離線訓練中,PER 會使智能體更多地關注失誤經驗,減少信息的浪費.然而,如果失誤經驗中包含較多的負樣本,PER 反而會增大負樣本的采樣概率,阻礙策略的優化.

3 基于鞅的采樣模型

3.1 基于鞅的經驗數據評估

鞅論是現代概率論的一個重要內容,也是隨機過程和數理統計研究的重要工具.實際上,在強化學習算法的發展過程中,鞅論和強化學習之間一直存在著很深的聯系,很多鞅論的方法被用于理論證明強化學習算法的有效性.例如,Mandl[23]找到了有限控制Markov 過程中存在的鞅過程.Hernández-Lerma 和Ozak[24]研究了離散Markov 過程,并給出了策略優化的等價命題,其中研究的很多值迭代過程與鞅有關.Even-Dar 和Mansour[25]使用Azuma 不等式來約束鞅的變化偏差,估計值函數在某更新步完成優化的概率,進而估計策略優化所需的時間.Hu 等[26]使用杜布分解來簡化下鞅過程,使得復雜系統更容易被智能體學習.Chow 等[27]利用上鞅收斂性來確保Lyapunov 函數的收斂,并用于求解約束MDP 問題.為此,本文嘗試通過分析采樣數據對應的軌跡是否為下鞅來推斷經驗數據是否有利于策略優化.

進一步,可以得出

由此可以得出: 如果 E [r(st+1)|st]=r(st),則有 E [V(st+1)|st]=V(st).

通過定理1 可以看出: 如果回報函數為鞅,即E[r(st+1)|st]=r(st),說明經驗對應的路徑和值函數更新過程都為鞅.由停時定理和鞅的一致收斂性可知,對任意停時T＜∞,總有 E [VT]=E[V0].也就是說,此時無論訓練多少步,值函數的期望都不會發生變化.當且僅當 E [V(st+1)|st]＞V(st) 時,值函數更新才滿足強化學習的策略優化條件.于是,可以通過估計 E [V(st+1)|st] 與V(st) 之間的大小差異來評估經驗數據對策略優化的有利程度.

為了更好地解釋鞅與策略優化之間的關系,以格子世界環境為例加以闡述.如圖1(a)所示環境示意圖,智能體從O出發,到達目標G終止一個情節.如圖1(b)所示最優值函數熱圖,由于到達G點情節被終止,因此G點的狀態值并不會迭代更新,導致其數值較小.本次實驗使用基于線性函數逼近的Q 學習在迷宮中訓練300 個迭代步,每隔50 次迭代繪制一張值函數熱圖.共進行了兩個批次的訓練,值函數迭代更新過程如圖2 所示.圖2 中,相比于訓練批次2,訓練批次1 的值函數明顯更趨近于最優值函數.于是,可以得出如下觀點:

圖1 格子世界實驗圖 Fig.1 Experimental diagram of grid-world

圖2 值函數更新熱圖Fig.2 Heatmap of value function updating

1) 圖2 中每一個像素點s的亮度用于描述對應狀態值V(s) 的大小.如果熱圖中像素點s′比s的亮度高,則說明V(s′)＞V(s).

2) 值函數的更新會按照被訪問的先后順序s →s′,從亮點逐級反向傳播,即有效的值函數更新從滿足 E [V(s′)|s]＞V(s) 的狀態s開始.如圖2 所示,批次1 中滿足 E [V(s′)|s]＞V(s) 的狀態數量明顯高于批次2 中的狀態數量.因此,經驗緩存中,滿足 E [V(s′)|s]＞V(s) 的經驗數據占比越高,越有利于值函數的學習.

3) 如圖2(b)所示,前150 次迭代沒有亮點出現,值函數熱圖維持不變.因此,如果狀態值滿足E[V(s′)|s]≤V(s),值函數優化效率很低.150 次迭代后,批次2 的熱圖中雖然出現了亮點,但亮度十分有限.說明訓練批次2 的經驗緩存中,滿足E[V(s′)|s]≤V(s)的經驗數據占比較高,從而會產生累積誤差,不利于值函數的學習.

綜上所述,我們認為經驗緩存中包含越多符合E[V(s′)|s]＞V(s)的經驗數據越有利于值函數和策略的優化,這一觀點在離線強化學習場景中同樣適用.

3.2 基于鞅的采樣模型

由于負樣本會一直存在于離線經驗緩存B中,其對習得策略的不良影響會隨著重復采樣而增強.于是,為減少對負樣本的采樣頻率,提出基于鞅的采樣模型.設策略π下狀態-動作對 (s,a) 被采樣的概率為由于強化學習會貪心地選擇動作,因此狀態s下選擇不同動作的概率差異一般會較大,可以得到推論1.

推論 1.在離線強化學習場景下,均勻采樣學習得到的策略有概率不為離線經驗中的最優策略.

推論1 說明: 離線經驗緩存中如果折扣回報低的經驗數據占比很高,則離線強化學習算法就有高概率陷入局部最優.

根據第3.1 節的描述可知,如果 (s,a,r,s′) 對應的軌跡為下鞅,則認為 (s,a,r,s′) 更有利于策略的優化.如果 (s,a,r,s′) 對應的軌跡為鞅或上鞅,則頻繁地采樣 (s,a,r,s′) 以更新網絡參數反而會出現如圖2(b)一樣的誤差累積狀況,從而阻礙值函數的優化.為此,可以考慮基于 E [V(st+1)|st] 與V(st)之間的數值差異來設計一種樣本評估方法,得到下述推論.

推論 2.經驗數據有利于值函數優化的程度與鞅差 E [V(s′)|s]-V(s) 正相關.

證明.設在第k個迭代步,值函數優化的幅度為 ΔVk:=Vk+1(s)-Vk(s),使用期望狀態值來計算目標值,則有:

由于同一狀態下即時回報r(s) 是一個常數,且γ大于 0,因此得到:

如果 ΔVk很大,則說明當前的狀態值過于低估了數據 (s,a,r,s′),優先學習這個數據可以讓值函數找到優化的方向,并可在此基礎上更準確地判斷其他數據的 ΔV,使得整個策略向著一個好的方向發展.反之,如果 ΔVk很小,則說明數據(s,a,r,s′)所在的過程更可能是上鞅,此時狀態值會隨更新迭代變小或維持原樣,不利于策略的優化.

推論2 表明在值函數的優化過程中,應當著重學習 E [V(s′)|s]-V(s) 數值較高的數據 (s,a,r,s′),并降低對數值過低數據的采樣頻率.在實際訓練過程中,鑒于增加額外的網絡用于學習 E [V(s′)|s] 和V(s)會比較耗時,此處考慮使用一種近似的簡便計算方法來求取基于鞅的優先級.

推論 3.對于數據基于鞅的優先級為:

證明.對于離線強化學習來說,其狀態值迭代公式為:

對應地,有利于值函數優化的程度可以表征為:

其中,β=1/(1-γ) 為大于0、小于1 的常數,離線經驗數據對訓練的有利程度與EB[V(s′)]/βr(s,a)的大小正相關.當值函數估計存在誤差時,EB[V(s′)]/β-r(s,a)的值會很小,使得優先級差異不大,難以區分.可以進一步推導出:

因此,推論3 成立.

綜上所述,基于鞅的采樣模型使用基于鞅的優先級來決定數據υ被采樣的概率:

其中,σ為優先級修正系數,用于避免樣本的采樣概率完全為0.

4 基于離線優先采樣模型的BCQ

將基于時序差分誤差的采樣模型和基于鞅的采樣模型分別與BCQ 相結合,得到兩種離線強化學習方法: TD-PBCQ 和M-PBCQ.為表述方便,算法1 給出BCQ 的偽代碼.

算法 1.BCQ

4.1 基于TD 誤差的優先批約束Q 學習

TD-PBCQ 通過變分自編碼器生成n個動作,并根據這些動作進行目標值的計算和網絡的優化.考慮到目標值中會包含一定的擾動,優先級δ改寫為:

將BCQ 偽代碼中的步驟1)、2)、3)替換為算法2 中的步驟,即可得到TD-PBCQ 的偽代碼.

算法 2.TD-PBCQ

4.2 基于鞅的優先批約束Q 學習

由式(12)可以看出,基于鞅的采樣模型需要計算 E [V(s′)].由于擾動網絡會生成置信區間內的n個動作,如果使用貪心策略,則可以認為E[V(s′)]=因此,將這些狀態-動作對應的Q值取平均作為期望狀態值E[V(s′)],使得對基于鞅的優先級評估更加保守.為此,基于鞅的優先級可改寫為:

將BCQ 偽代碼中的步驟1)、2)、3)替換為算法3 中的步驟,即可得到M-PBCQ 的偽代碼.

算法 3.M-PBCQ

1) 計算重要性采樣權重: M-PBCQ 不計算重要性采樣權重

2) 更新優先級: 根據式(18)計算優先級uj,根據式(16)更新經驗數據的優先級

3) 累積Q 值網絡參數變化 Δθ和擾動網絡參數變化 Δ?:

累積Q 值網絡參數變化

累積擾動網絡參數變化

5 實驗結果與分析

首先,將TD-PBCQ、M-PBCQ 和BCQ 在D4RL提供的公用離線數據集上,針對Ant、HalfCheetah、Hopper、Walker2d 等任務在中等(medium)和專家(expert)數據集上進行實驗.然后,將TD-PBCQ、M-PBCQ 和BCQ 在Torcs 任務的離線經驗緩存上進行實驗.實驗中,具體的參數設置如表1 所示.

表1 參數設置Table 1 Parameter settings

5.1 medium 經驗數據

當離線數據集中的經驗數據為medium 等級時,TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務上取得的回報曲線如圖3 所示,其中實線為平均回報曲線,陰影區域為平均獎勵的標準差.圖4 給出了medium 離線數據集中各路徑所對應總回報的統計直方圖.由圖3、4 可以得出如下結論:

圖3 平均回報曲線對比(medium 經驗數據)Fig.3 Comparison of average reward curves(medium experience data)

圖4 回報的統計直方圖(medium 經驗數據)Fig.4 Statistical histogram of reward(medium experience data)

1) 在Ant、HalfCheetah 和Walker2d 中TDPBCQ 取得了最高的回報.這是由于: Ant、HalfCheetah 和Walker2d 任務中medium 離線經驗數據的回報統計直方圖是右偏的,且最高峰在最右側.此種情況下,TD-PBCQ 通過降低時序差分誤差,得到了更準確的值函數;BCQ 和M-PBCQ 均是更傾向于最優路徑的學習,值函數估計誤差的累積使得其最終性能不如TD-PBCQ.也就是說,如果策略沒有收斂,且離線經驗都分布在緩存中最優路徑周圍,TD-PBCQ 可以取得更好的實驗效果.

2) 在Hopper 任務中,M-PBCQ 的平均回報收斂到1 600 以上,而BCQ 和TD-PBCQ 的平均回報均在1 600 以下.由圖4(c)可以看出,與其他3 個任務不同,Hopper 任務中medium 離線經驗緩存中的路徑總回報大都分布在1 100～1 600 的中等水平區間內.因此,Hopper 任務中medium 的離線經驗緩存中有較多負樣本,導致BCQ 和TD-PBCQ陷入局部最優.但是,M-PBCQ 能夠減弱負樣本對策略優化的負面影響,使得習得策略明顯優于離線經驗緩存中的平均水平.

3) 在所有4 個測試任務上,TD-PBCQ 和MPBCQ 的平均回報曲線都要高于BCQ.這是由于:medium 策略并不是最優策略,如果使用均勻采樣,正、負樣本有相同的概率被選擇,因此BCQ 的性能被抑制.也就是說,改變采樣模型可以有效降低離線強化學習中的誤差累積,提高算法的學習性能.

5.2 expert 經驗數據

expert 策略等價于最優策略,收集得到的經驗數據集也基本上都分布在最優路徑的周圍.當離線數據集中的經驗數據為expert 等級時,TD-PBCQ、M-PBCQ 和BCQ 在D4RL 任務上取得的回報曲線如圖5 所示.圖6 給出了expert 離線數據集中各路徑所對應總回報的統計直方圖.由圖5、6 可以看出:

圖5 平均回報曲線對比(expert 經驗數據)Fig.5 Comparison of average reward curves(expert experience data)

圖6 回報的統計直方圖(expert 經驗數據)Fig.6 Statistical histogram of reward(expert experience data)

1) TD-PBCQ 在Ant 和Hopper 任務上取得了最高的回報.這是由于: Ant 和Hopper 任務中expert 離線經驗數據的回報統計直方圖是右偏的且最高的峰在最右側.另外,這兩個任務中的expert行為策略并沒有完全收斂,都有一定概率訪問遠離主要路徑的經驗數據.在此類離線強化學習任務中,TD-PBCQ 有效減小了值估計誤差,因此取得了最好的實驗效果.

2) 如果策略完全收斂到最優策略,TD-PBCQ的訓練會過擬合,影響實驗效果.從圖6(b)可以看出,HalfCheetah 任務中回報統計直方圖左側的數據非常少.TD-PBCQ 由于過度采樣左側的數據導致值函數的訓練過擬合,算法性能受到抑制,最終表現不如BCQ.

3) 從圖6(d)可以看出,Walker2d 任務中的離線經驗數據基本都分布在最優路徑上.BCQ、TDPBCQ 和M-PBCQ 的平均回報曲線較為相似,最后都取得了超過4 500 的平均回報.這是因為在經過多次迭代后,BCQ 和TD-PBCQ 的采樣模型均為均勻采樣,抑制了回報的上升趨勢.然而,M-PBCQ 可以一直降低對負樣本的采樣頻率,因而以較小的優勢強于BCQ 和TD-PBCQ.

5.3 自動駕駛離線數據

Torcs 是一款開源3D 賽車模擬游戲,其賽道較長、路況復雜且沒有公開的經驗數據集.在實驗過程中,使用中等行為策略收集了平均回報為7 820的離線數據.表2 和圖7 給出了BCQ、TD-PBCQ和M-PBCQ 在Torcs 任務上的實驗結果,可以得出:

表2 Torcs 任務上平均回報對比Table 2 Comparison of average reward on Torcs task

圖7 平均回報曲線對比(Torcs)Fig.7 Comparison of average reward curves (Torcs)

1) 如圖7 所示,50 000 步之前,TD-PBCQ 學習到了優于BCQ 的策略.然而,TD-PBCQ 習得策略的穩定性并不高.在93 000 個訓練步后,隨著TD誤差的降低,基于TD 誤差的采樣模型會退化為均勻采樣.因此,負樣本對算法訓練的不良影響逐漸變強,使得習得策略發生了退化.

2) 相比于TD-PBCQ 和BCQ,M-PBCQ 的習得策略有著明顯的優勢,這是因為離線優先采樣模型可以降低負樣本對訓練的影響,使智能體學習到更好的策略.另一方面,與基于TD 誤差的采樣模型不同,基于鞅的采樣模型不會退化為均勻采樣,一些不利于策略優化的經驗數據在整個訓練過程中被采樣的頻率都會受到限制,因此M-PBCQ 的穩定性更好.

6 總結

強化學習通過智能體與環境在線交互來學習最優策略,近年來已成為求解復雜環境下感知決策問題的重要手段.然而,在線收集數據的方式可能會引發安全、時間或成本等問題,極大限制了強化學習在實際中的應用.幸運的是,離線強化學習能夠僅從歷史經驗數據中學習策略,而無需與環境產生交互,這種數據驅動的方式為實現通用人工智能提供了新契機.然而,離線數據集的質量將影響算法的學習性能,想要從離線數據集中學到一個好的策略并非易事.為此,本文圍繞如何從離線數據集中高效地選擇有價值的樣本展開研究,利用時序差分誤差和鞅來構造樣本優先級,提出兩種離線優先采樣模型: 基于時序差分誤差的采樣模型和基于鞅的采樣模型.在智能體訓練過程中,這兩種采樣模型可以有針對性地選擇經驗數據,引導值函數估計和策略優化.進一步,將所提兩種采樣模型與BCQ 相結合,提出基于時序差分誤差的優先BCQ 和基于鞅的優先BCQ.需要指出的是,所提離線優先采樣模型具有通用性,可以方便地與其他離線強化學習方法相結合.