?

基于注意力的多智能體深度強化學習導航研究

2021-05-16 02:04王倩
科學與信息化 2021年12期
關鍵詞:注意力人群機器人

王倩

四川大學 電子信息學院 四川 成都 610065

引言

隨著人工智能技術的迅速發展,機器人從孤立的環境擴展到與人類共享的社會空間。傳統的機器人導航方法通常將移動代理視為靜態障礙物或通過一步一步前瞻[1]對其做出反應,從而導致短視、不安全和不自然的行為。

避障問題實際上可理解為一個決策問題--根據機器人的輸入信息,確定下一時刻應該執行何種動作。而強化學習則是根據獎勵函數來進行工作,即根據機器人輸入動作得到反饋從而決定下一時刻應該采取何種動作,是一種狀態信息到生成動作的一種映射的算法,因此在避障問題中自然引入了強化學習。先前的研究人員提出了許多解決避障導航問題的方法。在2011年提出ORCA算法[2],該算法考慮了一種受加速度約束的避撞方法,首先討論了單個智能體在移動障礙物之間的避障導航情況,接著討論了多個移動機器人在同一個空間內導航時互相避撞的情況。

移動機器人導航在擁擠的行人環境中有許多重要的應用。在這些人群密集的場景中,安全高效地引導機器人是一個至關重要但仍然具有挑戰性的問題。早期的工作將預測和規劃分為兩步,試圖在預測其他人的未來軌跡后確定一條安全的路徑。

因此,本文在強化學習框架中用一種自我注意力機制來聚集機器人和人的交互特征,這種自我注意力機制可以推斷機器人的鄰近人類相對于其未來運動的相對重要性。實驗表明,本文的方法可以預測人群動態,并在時間有效的路徑中導航。

1 注意力機制

注意力機制[3]已經成為各種任務中的序列建模和轉導模型的一個組成部分,允許對智能體之間的依賴關系進行建模,而不考慮它們在輸入或輸出序列中的距離。然而,在除了少數情況之外的所有情況下,這種注意機制都與循環網絡一起使用。有人提出將所有人類的狀態按遠近機器人順序輸入LSTM[4]。然而,最接近的鄰居具有最強影響力的潛在假設并不總是正確的。這說明了這個臨近智能體可能如何影響機器人到達目的地。利用自我注意機制,通過觀察序列中的其他項目來獲得序列中某個項目的注意力,我們提出了一個社交注意力模塊,在數據中學習每個鄰居的相對重要程度和人群對機器人的影響。

本文設計一個社會注意力集中模塊,在一個深度強化學習框架中對群體合作行為進行編碼,引入并注意力得分α機制。

在本文中,我們考慮一個機器人穿過人群到達目標的導航任務。

2 獎勵函數設計

強化學習算法利用該回報來重新修訂策略,再重新與環境產生交互,不斷反復鞏固最終得到能夠完成任務的最佳策略。因此,獎勵函數在強化學習中至關重要,下面對獎勵函數進行設計。

在仿真場景中,機器人需要繞過人群到達目標。當機器人與目標之間距離為時,說明機器人已經成功到達了目標,應該給機器人一個最大的獎勵,同時結束該回合的任務。當機器人和人之間的距離小于等于時,說明機器人和人發生碰撞,這是便應該給予一個負的獎勵,并且結束該回合任務,重新開始探索。

3 實驗仿真

實際場景中機器人的導航任務需要避開人群到達設定目標,因此本文考慮一個導航任務,其中一個機器人通過一群人向一個目標移動,機器人與附近人的狀態局部可知,每個人與附近人之間的信息也是局部可知的,機器人已知目標位置信息,機器人在一定時間內避開人群到達本文所規定的目標,如果仿真過程中發生機器人與人相碰撞或者在規定時間內沒有到達目標則視為這次導航任務失?。?/p>

讓本文算法與LSRM_RL避障算法在該場景中進行實現,實驗結果如下:

圖1 機器人獲得的獎勵

如圖1所示,本文的注意力算法在仿真過程中,整體效果要遠遠優于LSTM_RL避障算法,注意力算法收斂速度更快。

4 結束語

本文提出了一種基于注意力機制的避障算法,在此基礎上對智能體的獎勵函數、仿真場景進行了實驗設計,對比了LSTM_RL避障算法,相對LSTM_RL避障算法,本文提出的基于注意力機制的避障算法收斂速度更快、獎勵更高、機器人到達目標的時間更短,實驗效果更好。

猜你喜歡
注意力人群機器人
讓注意力“飛”回來
糖尿病早預防、早控制
如何培養一年級學生的注意力
我走進人群
財富焦慮人群
A Beautiful Way Of Looking At Things
機器人來幫你
認識機器人
機器人來啦
秘書緣何成為『高危人群』
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合