面向稀疏獎勵的機器人操作技能學習

2024-03-07 08:14吳培良毛秉毅陳雯柏高國偉

控制理論與應用 2024年1期

吳培良張彥毛秉毅陳雯柏高國偉

(1.燕山大學信息科學與工程學院,河北秦皇島 066004;2.河北省計算機虛擬技術與系統集成重點實驗室,河北秦皇島 066004;3.北京信息科技大學自動化學院,北京 100192)

1 引言

強化學習與深度學習結合的研究已取得很大的進展,并被成功應用于諸如自動駕駛、游戲對戰等領域以解決端到端的決策問題.在機器人操作技能學習領域中,深度強化學習被用于訓練機器人打棒球[1]、開門[2]、抓取與放置物體[3]等.對于強化學習來說,智能體通過獎勵來優化自己的決策[4],然而在較為復雜的機器人操作技能學習問題中,智能體難以獲得正向獎勵,稀疏的獎勵信號會導致訓練緩慢甚至失敗[5],這種問題被稱為稀疏獎勵問題.

針對稀疏獎勵問題的研究,根據是否需要引入外部信息可以劃分為兩類,即需要外部信息引導的方法和無需外部信息引導的方法.其中,需要外部信息引導的方法主要應用于特定的強化學習任務,由于相關知識的引入,該類算法具有實現簡單、學習速度快的特點,主要方法包括: 獎勵塑性[6]增加附加獎勵函數來協助智能體完成目標任務;模仿學習[7]使用現有經驗數據進行監督學習,減少了智能體探索環境和學習技能的時間;課程學習[8]將任務分解為不同難度的任務,逐步將學到的策略遷移到難度更高的任務中,降低了智能體在復雜任務中探索的難度.無需外部信息引導的方法一般較為復雜,主要通過挖掘模型或數據的潛在能力來解決稀疏獎勵問題,具有較強的普適性,主要方法包括:事后經驗回放(hindsight experience replay,HER)[9]用智能體實現的狀態來代替訓練的期望目標,通過構建虛擬的成功經驗來豐富經驗池數據,達到加速訓練的效果;好奇心驅動[10]引入信息論來推導獎勵并建立與好奇心的聯系,引導智能體更高效地探索環境;分層強化學習[11]將復雜的強化學習任務分解為不同的子任務來降低任務的復雜度.其中HER算法因無需外部信息引導,魯棒性強等特點成為解決稀疏獎勵問題的主流方法,然而,由于確定性方法的脆弱性,HER通常面臨欠穩定性和收斂慢的雙重挑戰,這會顯著影響最終性能.

近年來,信息熵思想逐漸被應用于強化學習領域.Pitis等[12]將最大熵用于解決多目標強化學習任務,Eysenbach和Levine[13]證明了最大熵可以解決魯棒性強化學習任務,Duan等[14]用最大熵解決值估計錯誤.在HER算法的基礎上,He等[15]結合最大熵概率推理模型,提出軟更新事后經驗回放(soft HER,SHER)算法以提高算法的穩定性,SHER由溫度參數來調節熵在優化目標中的重要程度,但仍存在網絡冗余、需人為設置溫度參數等問題.

在強化學習任務中,會隨機從經驗池中抽取批量經驗數據來訓練算法模型,這樣做的目的是為了消除訓練數據之間的相關性,然而數據之間的價值并不相同,為了提高數據的利用效率,優先經驗回放方法通過計算時序差分誤差來確定數據被抽取的優先級,但存在優先級計算復雜、需額外維護的數據結構等問題.在事后經驗回放思想中,本文可以將經驗數據簡單分為采樣數據與構建的虛擬數據,并根據兩種數據的價值來調節二者被抽取的比例.

元學習又稱學會學習,通過數據驅動的方式利用以往的經驗來學習一些任務級別的信息[16],可以用于優化超參數,在已有“知識”的基礎上快速學習設置超參數直至適合新任務.因此,本文在SHER中引入自適應和元學習經驗回放分割思想,提出了基于雙經驗池的自適應軟更新事后經驗回放(double experience replay buffer adaptive soft,DAS-HER)算法,將其應用于稀疏獎勵下的機器人操作技能學習問題,并在2個環境的8個任務中進行了實驗驗證.

2 DAS-HER

2.1 多目標強化學習

通用值函數逼近器(universal value function approximators,UVFA)[17]通過引入目標的概念,定義了關于目標g和狀態s的廣義值函數Vg(s),表達了局部目標的獎勵,使機器人能夠在一個強化學習環境下實現多個任務的訓練.令G為所有目標可能的空間,通常需要不同的獎勵函數和最優值函數去完成各種任務方案,UVFA提出將狀態s∈S和目標g∈G整合為高維狀態(s,g),價值函數V(s)與Q(s,a)則被表示為V(s,g)與Q(s,a,g),其中a表示動作.每一個目標g ∈G都對應一個獎勵函數r.在整個回合中目標是固定值,在每一步中,智能體獲得當前狀態,通過策略π:S×G →A選擇動作,獲得環境反饋的獎勵rt=r(st,at,g)及st+1,如此重復直至回合結束.在策略π下,Q函數不僅僅取決于狀態和動作,還取決于目標,可被表示為Qπ(st,at,g)=E[Rt|st,at,g].

2.2 軟更新事后經驗回放(SHER)

在UVFA框架下,多目標強化學習優化的目標函數可以表示為

其中?為策略π的參數.策略函數的梯度更新依賴于可變性的獎勵,但在稀疏獎勵環境下,智能體很難通過隨機探索達到目標狀態,無法收集到足夠多可變性信息使訓練收斂.為解決這一問題,HER算法通過轉換采樣獲得的經驗數據(st,at,st+1,rt,g)中的g,將其更新為未來時刻已達到的目標g′=sk,k≥t,重新計算獲得的新獎勵=r(st,at,g′),得到虛擬的經驗數據(st,at,st+1).HER使得智能體可以獲得足夠多可變性的獎勵信號來學習,做到從失敗的經驗中學到知識,從而有效解決了稀疏獎勵訓練難收斂的問題,并顯著提高了樣本采樣效率.

在復雜的多任務強化學習環境中,使用HER算法訓練的智能體在不同回合之間經常會陷入波動.為了提高HER算法的穩定性,SHER算法將其與最大熵概率推理模型結合,在原強化學習優化目標的基礎上增加了熵項

通過溫度參數α來決定熵在優化目標中的重要性,實現了更先進、更穩定的性能.但在使用SHER算法進行訓練前,需要人為探索最優的溫度參數以達到最優的訓練效果.

2.3 自適應軟更新事后經驗回放

在自適應軟更新事后經驗回放(adaptive SHER,AS-HER)中,為了適應高維和連續的狀態空間,使用函數逼近來求解動作價值函數Qsoft和策略函數π,參數分別表示為θ和?,通過采樣數據對動作價值Qsoft網絡Qθ(st,at,g)和策略網絡π?(st,g)進行梯度更新優化,其中策略π被建模為高斯模型,通過策略網絡給出均值與方差.

在多目標強化學習中,整個回合的目標g是固定的.根據文獻[15],在該前提下,可得貝爾曼方程為

SHER算法通過一個深度網絡模型來近似逼近狀態價值函數V(s,g).一般的強化學習框架中,狀態價值函數V被表示為動作價值函數Q的期望,因此,在最大熵模型下可以使用下式來近似估計V(st,g):

為最小化貝爾曼殘差,Qsoft網絡的損失函數被定義為Qsoft網絡對動作價值函數的估計與式(3)計算的價值之間的均方誤差,該誤差也被稱為單步時序差分誤差,如下式所示:

其中:D為重放經驗緩沖池,用來存放采樣得到的數據五元組(st∥g,at,rt,st+1∥g);θ′為目標Qsoft網絡參數,結構與Qsoft網絡參數θ一致,并定期通過參數θ進行更新,這樣做的目的是基于價值(value based,VB)的方法,貪婪地更新值函數會帶來過估計問題,增加目標Qsoft網絡可以減少目標值與當前值的相關性.結合式(4)通過梯度下降對參數θ進行優化,即

對于策略網絡π,本文希望動作價值函數越大的動作被選擇的概率也越大,指數函數則可以很好滿足該要求.因此策略π選擇動作的概率可以被表示為如下的指數函數:

KL散度可以用來衡量兩個概率分布之間的相似性,因此本文希望上式中策略π(at|st,g)與exp(×Qsoft(st,at,g))之間的KL散度足夠小,其中KL散度定義為

故將策略網絡的損失函數定義為二者的KL散度,即

同時在動作中加入高斯噪聲,通過神經網絡?輸出期望μ與方差σ,令網絡的輸出為εt,可得到at為

故式(8)中策略網絡的目標可改寫為

使用π?隱式定義f?,得到?的梯度優化公式為

在SHER算法中,溫度參數α為是固定的,α的值會影響到算法的效率,但確定最合適的α值并非易事,不同的強化學習環境及相同任務的不同時期,最佳α值并不相同.本文希望制定一個最大熵學習目標來動態調整α值,當策略探索到未知的狀態時,智能體無法得知最優動作,這時應增大α值使智能體更有探索性,當策略基本確定時,應減小α值以減少探索,為此需要一個具有最大期望獎勵且滿足最小期望熵約束的隨機策略,在文獻[18]中,作者提出溫度參數的最優解可以由下式求解:

通過函數近似和隨機梯度下降的方法近似求解式(12),溫度參數α的損失函數可表示為

對于連續狀態空間的任務,無法簡單的使用式(4)估計狀態價值函數V(st,g),為此本文提出了一種精簡值函數計算方法.使策略函數π選擇每個動作的概率滿足正態分布a ～N(μ,σ2),選擇動作的期望值為μ,同理結合式(7)可以得到

式(4)可通過式(15)計算,即

為進一步減少過估計問題帶來的影響,本文分別采用參數為θ1,θ2的兩個Qsoft網絡,對應的目標Qsoft網絡參數為,.在對式(5)和式(8)進行實現時,本文使用2個Qsoft網絡輸出價值較小的一個,并獨立對其進行訓練和優化.

2.4 基于元學習的經驗回放分割

對于自適應軟更新經驗回放算法,可以將經驗池中的數據劃分為真實的采樣數據和構建的虛擬數據兩部分.面對獎勵稀疏的強化學習任務,當智能體很難通過真實采樣獲得正向獎勵時,采樣得到的數據樣本價值低,隨著網絡性能的提升,采樣數據的價值也會得到提高.為了能夠在經驗回放時靈活地控制真實與虛擬數據之間的比例,本文提出了一種經驗回放分割方法,將經驗池分割為采樣經驗池D1與虛擬經驗池D2兩部分,分別用來存儲真實的采樣數據和構建的虛擬數據,假設每次采用Nbatch組數據作為訓練樣本訓練網絡,則從經驗池D1,D2中分別隨機抽取(1-δ)×Nbatch和δ×Nbatch組數據,其中參數δ取值在0到1之間.經驗回放分割方法不僅打破了經驗數據之間的相關性,使得網絡在訓練中更加穩定,同時還可以保證每次小批量訓練時中真實的采樣數據與構建的虛擬數據同時存在.

為了不需人為設置參數δ,且能適應任務的不同階段,可以利用已有知識通過元學習思想學習參數δ使其適應不同任務.在自適應軟更新經驗回放算法中,收益與策略網絡的損失是體現算法表現和策略網絡的優化程度的重要指標,也是寶貴的已有知識,為此本文設計了一個深度神經網絡對參數δ進行學習,其中網絡的輸入為收益和策略網絡損失,為了最大化獎勵,將網絡的損失定義為-(δ×r).

完整的DAS-HER算法如算法1所示,智能體執行采樣策略選擇的動作來收集經驗數據,并分別將采樣數據和虛擬數據存儲到不同的經驗池中,通過元學習思想學習比例參數,并根據學得的比例從兩個經驗池中抽取數據交替對函數逼近器進行隨機梯度下降.從失敗的經驗中學習,從而有效解決了稀疏獎勵訓練不收斂問題,并顯著提高了樣本采樣效率.

DAS-HER算法在SHER的基礎上精簡了狀態價值函數,并新增了較為簡單的超參數網絡,由于算法涉及的深度模型較為簡單,以Mujoco仿真環境下經典的Fetch,Hand操作技能學習任務為例,3至4層全連接層便可完成任務.因此DAS-HER算法模型的參數數量相較其他算法變化不大,且與任務環境的維度有關.總之,DAS-HER算法的參數量和計算復雜度均與ASHER算法、SHER算法和HER算法持平.

表1 雙經驗池自適應軟更新事后經驗回放算法Table 1 Double experience buffer adaptive soft hindsight experience replay algorithm

3 基于AS-HER的機器人操作技能學習

3.1 Fetch和Hand環境的強化學習表示

智能體通過AS-HER 算法進行操作技能學習前,首先要把智能體從環境中分離出來,并將機器人及目標物體的信息符號化為強化環境的狀態、目標與動作,常見的機器人操作技能學習Fetch與Hand環境可以符號化表示為

1)Fetch環境: 狀態集合S包含抓手與目標物體的坐標位置、抓手的移動速度等信息,維度為25維;目標集合G為目標位置的三維坐標矢量,符號化表示為G={Xobj,Yobj,Zobj};動作集合A為四維矢量來表示機械臂抓手的三維坐標矢量及抓手狀態(打開或關閉),可符號化表示為A={Xobj,Yobj,Zobj,grip}.

2)Hand環境: 狀態集合S包含機器手24個關節的坐標位置與速度等信息,共61維;目標集合G為目標位置的三維坐標矢量與四維旋轉角度;動作集合A為20個非耦合關節的絕對位置.

3.2 基于DAS-HER的機器人操作技能學習

將DAS-HER算法應用到機器人操作技能學習,首先需要構建機器人操作技能學習的強化學習環境,并初始化采樣經驗池D1、虛擬經驗池D2、溫度參數α、策略網絡?、Qsoft網絡θi,i=1,2及超參數網絡.策略網絡輸入層結點個數為狀態和目標的維度之和,輸出層共兩個結點,輸出策略高斯分布的期望與方差;兩個Qsoft網絡結構相同,輸入層結點個數為狀態、目標和動作的維度之和,輸出層僅有一個結點,用來輸出動作價值;超參數網絡輸入層的兩個結點用來輸入獎勵與動作網絡的損失,輸出層輸出數據為參數δ的值.各網絡的結構如圖1所示.

圖1 網絡結構圖Fig.1 Network structure

同時還需制定一套選擇動作的策略用來采集訓練數據,AS-HER作為一種異步策略算法,學習過程中優化的策略與采集樣本時選擇動作的行為策略可以是不同的策略.在對數據進行采樣時,為了讓智能體更加全面地探索環境,在式(12)的基礎上,每次選擇動作時以概率ρ隨機在動作集合A中選擇一個動作

上述準備工作完成后,便可對訓練所需要的數據進行采樣.回合開始時,隨機初始化機器人環境及需要完成的目標g,通過傳感器獲取環境狀態st并根據式(16)選擇動作at,環境反饋獎勵值rt及新的狀態st+1等信息,將經驗數據(st∥g,at,rt,st+1∥g)保存至回合經驗緩存區,獎勵函數被定義為二元函數,即

如此重復,直至智能體完成目標或執行步數超過閾值.回合結束后從緩沖區選取經驗數據(st∥g,at,rt,st+1∥g),使用本回合后序的n(n≥1)個狀態替換目標g并重新計算收益,構造出虛擬數據(st∥g′,at,r′t,st+1∥g′),最后將真實數據保存到經驗池D1,構建數據保存到經驗池D2中.

網絡訓練階段,首先,從經驗池D1,D2中隨機讀取(1-δ)×Nbatch和δ×Nbatch組數據,然后兩個Qsoft網絡獨立計算動作價值函數,選取價值較小的結果通過式(5)和式(10)計算出策略網絡與Qsoft網絡的損失,并通過式(13)對溫度參數進行更新,其次,結合元學習思想,利用策略網絡損失和獎勵學習超參數δ,超參數網絡的損失設置為-(δ×r),最后對Qsoft目標網絡進行更新,更新公式如下:

完整的基于DAS-HER的機器人操作技能學習系統如圖2所示.

圖2 基于DAS-HER的機器人操作技能學習系統Fig.2 Robot manipulation skills learning system based on DAS-HER

4 實驗

為評估DAS-HER 算法的性能,與HER,SHER 以及僅用本文自適應思想的AS-HER 算法進行對比實驗.為了體現算法的泛化性,選擇的任務為Mujoco模擬機器人環境下的Fetch任務與Hand任務,其中獎勵策略采用二進制稀疏獎勵,成功時獎勵為0,其他情況獎勵為-1,實驗配置如表1所示.

表1 實驗配置Table 1 Experimental configuration

4.1 Fetch環境及結果分析

首先,本文選擇了Mujoco 環境下的Fetch 機械臂,該機械臂共有7個自由度,并有一個兩指抓手.使用Fetch機械臂對以下4個任務進行了實驗:

1)FetchReach: 尋找任務,機械臂要將抓手移動到目標位置.

2)FetchPush: 推動任務,機械臂要將桌子上的方塊推動到目標位置,在任務過程中機械臂抓手被鎖住不進行抓取操作.

3)FetchSlide: 滑動任務,機械臂要用不同的力氣去擊打桌子上的球體使其滑動,并在摩擦力的作用下最終停在目標位置.

4)FetchPickAndPlace: 抓取與放置任務,機械臂學習靠近桌子上的方塊并用抓手將其抓起,然后將方塊移動到目標位置,該任務中的目標位置是在空中.

在以上4個操作技能任務中,方塊或球體每回合的初始位置與目標位置均是隨機生成的,因此可以作為多目標強化學習的實驗環境,具體實驗環境如圖3所示.

圖3 Fetch實驗環境Fig.3 Fetch experiment environment

在文獻[15]中,作者指出在該實驗環境下,當溫度參數α固定為0.05時SHER算法在任務中效果表現最佳,因此,SHER算法的實驗結果均是在α=0.05情況下所得.具體實驗結果如圖4所示.

圖4 Fetch環境下實驗結果Fig.4 Experimental results in Fetch environment

在Fetch環境下的4個機械臂任務中,AS-HER算法的性能均優于SHE和SHER算法.訓練前期經過相同的迭代次數,AS-HER相對其他算法能夠取得更高的成功率.訓練后期由于FetchSlide任務的未知性,3種算法的成功率均無法收斂到100%且會出現震蕩,另外3個任務AS-HER可以通過較少的迭代次數使成功率收斂到100%.DAS-HER算法在AS-HER 的基礎上引入經驗回放分割思想,可以更好地發揮訓練數據的價值,因此在4個任務中訓練效率均優于AS-HER算法.實驗結果證明了自適應溫度參數及基于元學習的經驗回放分割思想的有效性.

4.2 Hand環境及結果分析

其次選擇更加復雜的Hand擬人機器手,該機器手共有24個自由度,其中有20個關節可以自由控制,其余為耦合關節.使用Hand對以下4個任務進行訓練:

1)HandReach: 手指捏合任務,訓練機器手控制大拇指和另一根手指在手掌上的目標位置接觸.

2)HandManipulateBlock: 控制方塊任務,訓練機器手控制一個方塊并將其移動到目標位置和方向.

3)HandManipulateEgg: 控制球體任務,訓練機器手控制一個橢球并將其移動到目標位置和方向.

4)HandManipulatePen: 控制筆任務,訓練機器手控制一支筆并將其移動到目標位置和方向.

在以上4個任務中,每回合目標物體的位置和方向同樣是隨機生成的,具體實驗環境如圖5所示.

圖5 Hand實驗環境Fig.5 Hand experiment environment

與Fetch環境相同,SHER算法的實驗結果均是在α=0.05情況下所得,具體實驗結果如圖6所示.

圖6 Hand環境下實驗結果Fig.6 Experimental results in Hand environment

實驗結果表明,AS-HER算法及DAS-HER算法在Hand環境下不僅擁有更高的訓練效率,在最終成功率的表現上也優于其他算法.為驗證算法在復雜任務中的有效性,本文統計了Hand環境下各算法的最終平均成功率,結果表明AS-HER及DAS-HER算法在復雜環境下表現更佳,如表2所示.

表2 Hand環境下平均成功率Table 2 Average success rate in Hand environment

當策略網絡無法給出明確的動作時,AS-HER會增大溫度參數α,使智能體有更強的探索性以提高探索到更優的動作的可能,當訓練逐漸趨于穩定時ASHER算法會減小溫度參數α,以削弱智能體的探索性.因此,AS-HER算法無論是在Fetch環境還是Hand環境中,表現都好于SHER 和HER 算法.DAS-HER在ASHER算法的基礎上引入了基于元學習的經驗回放分割,動態調整訓練樣本中采樣數據與構建數據之間的比例,提高了訓練樣本的總體價值,使得DAS-HER算法的性能更加優秀.

4.3 精簡值函數分析

式(15)提出了一種精簡值函數計算方法來求解狀態價值函數V(st,g),替代SHER中的V網絡以提高算法訓練效率.為驗證這一改動不會影響算法訓練收斂的速度,將AS-HER算法中的α固定為0.05,與SHER算法保持一致,在Fetch環境下進行了對比實驗.實驗結果證明使用式(15)可以在不影響算法收斂速度的情況下提高算法的效率,結果如圖7所示.

圖7 α=0.05條件下實驗結果Fig.7 Experimental results when α=0.05

4.4 算法復雜度分析

為評估各算法的計算復雜度,本文實驗記錄了Fetch環境下各算法完成50輪次迭代訓練所需要的時間,實驗結果如表3所示.

表3 完成訓練所需時間Table 3 Time required to complete training

AS-HER算法在SHER算法的基礎上引入了自適應溫度參數,并精簡了狀態價值函數的計算方法,實驗結果表明AS-HER算法與SHER算法相比有更低的計算復雜度,高于結構簡單的HER算法.DAS-HER算法的超參數網絡較為簡單,因此算法整體的復雜度略高于AS-HER算法,低于SHER算法.

為評估算法總體性能,本文記錄了Fetch環境下各算法達到特定成功率所需要的時間,其中因Slide任務難度較大,4種算法的最終成功率只能收斂至60%,本次實驗記錄了該任務下的30%和60%兩種情況,實驗結果如表4所示.

表4 達到特定成功率所需時間Table 4 Time required to achieve a specific success rate

實驗結果表明,到達相同的成功率,DAS-HER算法所用時間最短,AS-HER算法次之.雖然DAS-HER算法計算復雜度高于HER,AS-HER算法,但出色的性能使其需要的迭代次數更少,因此所用總時間更短.

5 結論

由于機器人操作技能學習問題的稀疏獎勵性質,傳統深度強化學習算法在求解時效率低下.本文在SHER中,引入自適應和雙經驗池元學習思想,提出了一種基于雙經驗池的自適應軟更新事后經驗回放算法,并將其應用于機器人操作技能學習.

目前關于機器人操作技能學習的研究,其驗證實驗大部分都是在Mujoco下的Fetch和Hand環境下進行,本文針對這兩個不同環境下的8個任務進行了對比實驗,表明本文算法較其他算法性能更優,一定程度上驗證了算法的泛化性.下一步工作將聚焦在實物實驗環境中,進一步驗證算法的泛化性.