?

基于投影獎勵機制的多機器人協同編隊與避障

2024-02-18 13:46沙灜
應用科學學報 2024年1期
關鍵詞:編隊障礙物協同

葛 星,秦 麗,沙灜

1.華中農業大學信息學院,湖北 武漢 430070

2.湖北省農業大數據工程技術研究中心,湖北 武漢 430070

將簡單機器人組成模塊化的多機器人系統以探索未知環境,并將其應用于重復性、危險性領域已成為研究熱點[1]。其中多機器人的協同編隊與避障任務是完成各項任務的基礎[2]。

根據通信方式的不同,傳統的多機器人編隊方式可以分為集中式和分布式兩種[3]。集中式架構依靠主控單元獲取所有機器人的狀態信息后發布運動指令。文獻[4] 在集中式體系結構中引入圖結構,將機器人看作圖中的頂點,通過邊的關系運算得出多機系統中所有機器人的位置信息。集中架構形成的編隊穩定性較好,但對主控單元的依賴性太強,一旦主控單元出錯,則多機編隊會潰散。另外集中式方式要求主控單元具備較高的計算力,若計算力不足也會出現編隊系統效率低下的問題。因此文獻[5] 提出了一種新的分布式體系結構。在分布式體系結構下,編隊系統內各機器人間可互相通信,共享鄰居機器人的速度和位置信息,并基于此來決定自身的策略選擇。分布式結構不受主控單元的影響,且對各機器人的計算力要求不高。但由于機器人的位置變化較快,各機器人因受通信延遲的影響而無法及時接收到其他機器人的位置信息,容易造成編隊混亂。為此研究人員提出了分層體系結構[6],設置主控單元負責統籌全局信息,各機器人通過互相通信和主控單元信息共同確定自身運動?;谝陨? 種通信方式衍生出多種控制方法,如跟隨領航法[7]、虛擬結構法[8]、基于行為法[9]、人工勢場法[10]、遺傳算法[11]等。

隨著強化學習[12]和深度學習[13]的不斷發展,深度強化學習技術在多機器人領域應用越來越廣泛。從分布式體系結構出發,文獻[14] 實現了基于深度強化學習多機器人協同避碰策略,但由于深度強化學習需要處理大量數據,對機器人的配置要求較高,因此大多適用于大型機器人。綜合考慮機器人性能及成本等因素,分層式體系結構更為適用。相較于傳統方法,基于分層式的深度強化學習方法提高了機器人感知外界環境的能力[15],仿真環境下訓練的模型可以遷移到其他多種未知環境,且具備更強的適應性與可探索性。多機器人中包含自身位置、速度、傳感器、其他機器人以及障礙物等多種信息,當深度強化學習技術應用于該任務時,如何從多機器人系統中提取有效信息來定義當前的狀態就成了基礎。在狀態定義的基礎上設計高效的獎賞機制,實現狀態與動作之間的映射關系是深度強化學習的關鍵[16]。聚焦于此,文獻[17] 將深度強化學習方法與跟隨領航方法相結合,利用機器人與目標位置的距離實現狀態與動作之間的映射,但由于編隊設置了中心點作為基準,對其中的跟隨機器人和領航機器人的狀態定義進行了區分,僅領航者使用深度強化學習方法完成自身決策,而跟隨者依賴于領航者的決策采用了傳統的速度控制方法,因此編隊系統中心化程度較高,魯棒性較低。

基于深度強化學習實現多機器人協同編隊與避障任務中各機器人策略選擇的關鍵問題在于:1)狀態表征是深度強化學習方法的基礎,多機器人系統內包含位置、速度、傳感器等多種狀態信息,且處于動態變化中,如何精確定義各機器人當前狀態是首先要面臨的問題;2)如何設計更為高效的獎勵機制,準確定義狀態與動作之間的映射關系;3)如何通過深度強化學習方法實現多機器人系統內各機器人自主決策,實現去中心化的多機器人系統。

針對以上問題,本文提出了一種基于投影獎勵機制的多機器人協同編隊與避障(projected reward for multi-robot formation and obstacle avoidance,PRMFO)模型。設計了統一狀態表征方法,將機器人狀態分為可觀測狀態和預測狀態;在統一狀態表征基礎上設計矢量化的投影獎勵機制判斷當前動作的優劣;最后通過自主決策層為各機器人獨立決策提供方法,并基于機器人操作系統(robot operating system,ROS)進行仿真實驗,結果表明PRMFO 方法在單機器人平均回報值、成功率以及時間指標上分別提高42%、8%、9%,多機器人編隊誤差控制于0~0.06 范圍內,實現了較高精度的多機器人編隊。

1 理論基礎

當深度強化學習技術應用于多機器人系統時,首先要解決的是以適當的數據形式表征當前環境狀態,例如機器人自身狀態、多機器人編隊信息、機器人與障礙物以及機器人間的碰撞信息等。根據各機器人間有無信息交互,狀態表征方法有所不同。在無信息交互的情況下,文獻[18] 從圖像角度出發,獲取多機器人系統所處環境的圖像,得到柵格化的環境狀態,其中每格代表一個像素點,用像素信息作為當前價值評估的狀態表征。此種表征方法雖較精準,但圖像處理維度過高,計算量太大。

文獻[19] 針對該問題,將每個機器人的狀態信息分為自身的狀態信息和其他信息,其他信息包括環境信息和多機器人系統中其他機器人信息,將其中的不變特征按一定順序提取,再根據值函數選擇最優動作指引其到達目標位置,避免每個機器人與環境中障礙物或其他機器人發生碰撞。為了進一步將其他機器人與環境中障礙物統一化處理,文獻[14] 提出傳感器級分散式碰撞策略,通過機載傳感器獲取原始數據,將傳感器數據和其他機器人位置信息統一定義為障礙物信息,并將其映射為無碰撞的動作指令,從而學習到最優策略。為了減少各機器人的計算壓力,文獻[20] 開發了一個完全分散的避碰框架,每個機器人的導航策略均以自身機載傳感器收集的測距數據作為輸入,輸出相應的速度命令,而在編隊系統內不進行任何通信。

以上無信息交互的深度強化學習方法大多采用圖像信息或機器人傳感器信息來表征當前機器人狀態或環境狀態,在避障方面效果較好,但由于機器人間缺少交互,協同能力較差。為了增強多機器人系統的協同能力,文獻[21] 通過增加機器人間的信息交互,將編隊系統內除自身外其他機器人看作動態障礙物,各機器人發送自身位置和速度,并將其作為狀態信息,采用速度障礙法預測碰撞區域,進而選擇最優動作,完成路徑規劃。此種方法加強了機器人間的信息交流,達到了協同避碰的效果,但在移動過程中仍將其他機器人看作障礙物,并未涉及路徑規劃過程中的協同編隊任務。為此,文獻[22] 引入跟隨領航法形成協同編隊,同時采用深度強化學習的方法融合傳感器數據進行編隊避障,但針對領航者和跟隨者的表征方法進行了區分,且跟隨者完全依賴于領航者的策略選擇,若領航者發生碰撞或計算錯誤,則編隊失敗。因此如何統籌處理多機器人系統內各機器人信息、傳感器信息以及環境信息并準確定義機器人當前狀態亟待解決。

獎賞函數實現了狀態與動作之間的映射,是指導機器人學習的關鍵。在狀態定義的基礎上,制定高效的獎賞機制是關鍵。早期研究主要設置離散化獎勵指導機器人躲避障礙物并抵達目標位置。文獻[23] 根據機器人與障礙物的距離范圍給予負獎勵值,使得機器人具備避障能力。文獻[24] 通過設定不同狀態下的獎賞值,鼓勵其不斷完成目標任務。此種方法實現起來簡單有效,但對于距離范圍的設定和給定獎勵數值的大小較為敏感且缺乏相應的規則。

為了解決上述問題,文獻[25] 直接將機器人與障礙物的距離設置為獎勵值,形成連續化獎勵。為了進一步擴大機器人執行動作的獎懲差距,文獻[26] 引入獎勵參數,優化連續性獎懲函數,鼓勵機器人更接近目標位置,并使其躲避環境中的障礙物。以上基于距離的方法較為直觀,但不足在于:該方法的表現效果與環境大小和機器人動作的距離大小息息相關;獎賞參數的設定同樣缺乏相應的規則。

2 PRMFO 模型

PRMFO 模型框架如圖1 所示,包括以下3 部分:統一狀態表征、投影獎勵機制和自主決策層。在當前多機器人系統內編隊信息、各機器人位置信息、速度信息以及雷達信息的基礎上,統一狀態表征將各機器人狀態分為可觀測狀態和預測狀態;投影獎勵機制根據機器人實際狀態變化與預測狀態變化之間的差異衡量當前動作的效果;最后通過自主決策層各機器人判斷自身狀態下的最優動作,完成決策過程,從而實現多機器人自主決策的協同編隊任務。

圖1 PRMFO 模型框架圖Figure 1 Framework of PRMFO

在多機器人協同任務中,若將所有機器人的狀態組合成狀態向量會使深度強化學習的過程計算量過大,且收斂速度過慢[27]。為了實現多機器人與復雜環境交互過程的一致性,PRMFO 設計了統一的狀態表征方法,將機器人狀態分為可觀測狀態和預測狀態,其中可觀測狀態包括t和t+1 時刻各機器人自身狀態與目標狀態的相對關系、各機器人速度信息以及雷達信息;預測狀態為t時刻預估機器人t+1 時刻與目標狀態之間的相對關系、速度信息??捎^測狀態和預測狀態統籌處理機器人自身信息、環境信息、編隊信息以及雷達信息,為多機器人系統提供了統一的狀態度量。

為了進一步加大各狀態下不同動作的獎懲力度,為狀態動作之間的映射關系提供更為準確的衡量方法,PRMFO 在統一狀態表征方法的基礎上,設計了投影獎勵機制,將傳統基于標量的獎勵過程矢量化。具體實現過程是:將機器人動作前后實際狀態變化的表征向量投影到預估機器人狀態變化的表征向量上,得到的投影向量用以衡量當前動作實際產生的作用效果與預期產生的變化之間的差距。因此投影獎勵機制旨在將機器人實際狀態變化與預估狀態變化向量化,進而為函數獎勵機制提供了矢量化方法。

為了解決多機器人協同編隊中的過度中心化問題,設計了自主決策層。自主決策層融合了統一狀態表征與投影獎勵機制,以軟演員評論家(soft actor-critic,SAC)算法為基線方法,實現編隊系統內各機器人獨立決策,從而實現去中心化的多機器人協同編隊。

2.1 統一狀態表征

現有的跟隨領航者方法與深度強化學習相結合的方法應用于編隊協同的編隊任務時,僅領航者采用深度強化學習方法進行目標導航,跟隨者采用速度控制方法與領航者保持相對位置關系[22]。使用此種方法的主要原因在于,若跟隨者機器人參與目標導航任務,則需將各機器人的狀態與動作組合起來拼接為狀態向量與動作向量,維度過高,訓練效率低下。為此,本文提出適用于多機器人系統中各機器人的統一狀態表征方法,實現各機器人針對自身狀態的自主策略選擇。

采用單元機器人turtlebot3 系統,結構如圖2 所示。機器人在二維平面中運動。機器人頂部中心位置設置激光雷達掃描儀,掃描半徑為[0.15 m,3.50 m],掃描范圍為360°。機器人在t時刻的位置信息用pposition(t)=[xt,yt] 來表示,機器人在t時刻的速度表示為vt=[v,w],其中v表示線速度,ω表示角速度。因此機器人的速度向量vt可以表征為

圖2 機器人模型圖Figure 2 Robot model diagram

式中:vx為機器人在該時刻X軸方向的速度大??;vy為機器人在該時刻Y軸方向的速度大??;φ為機器人在該時刻的角速度大小。

PRMFO 將狀態分為可觀測狀態和預測狀態。設編隊參數Fformation=(f0,f1,f2,···,fn),其中f0=(x0,y0) 為目標位置;fi=(Δxi,Δyi),i∈[1,n) 為多機器人協同編隊內部的相對位置關系;n為機器人數目。將多機器人系統中各機器人的狀態表征統一化,具體表示為

2.2 投影獎勵機制

獎勵機制是指導機器人策略選擇的關鍵。傳統的獎勵機制依據機器人自身所處位置與目標位置之間的標量距離來定義反饋獎賞,但由于機器人同時存在角速度和線速度,在角度和距離兩個方面均存在變化。所以PRMFO 設計了投影獎勵機制,從兩個維度上將該獎勵過程矢量化,提供了更為精確的獎賞機制。

將傳統標量方法的獎勵機制轉化為矢量投影的過程,具體實現如圖3 所示,主要通過統一狀態中的可觀測狀態和預測狀態獲取當前時刻的獎賞值。Rrobot(t)代表機器人的初始位置,為預測到達的位置,Rrobot(t+1)為機器人實際下一時刻位置。Ggoal(t)=(Δxt,Δyt) 和Ggoal(t+1)=(Δxt+1,Δyt+1) 分別為t時刻和t+1 時刻機器人與目標位置之間相對位置的向量表示,分別為藍色向量和黃色向量。為在t時刻預估機器人下一時刻與目標位置之間相對位置的向量表示,為綠色向量。以上表示均由統一狀態表征得到,據此得到該動作的實際狀態變化與預估的狀態變化,在圖3 中分別為黑色向量和紫色向量。公式為

圖3 投影獎勵機制Figure 3 Projected reward mechanism

式中:Δpposition(t)代表了機器人采取動作前后的變化情況,可以用來表征該狀態下某動作的作用效果;則代表預估機器人在當前狀態下采用最優動作的狀態變化情況??梢妼嶋H狀態變化與預估狀態變化之間的差異程度即為當前動作與最優動作之間的區別。采用向量投影的方法將Δpposition(t)投影到方向上,得到向量,在圖3 中由橙色向量表示,并將其作為t時刻采取動作得到的獎勵值,公式為

因此得到機器人各時刻獎賞值為

式中:α和β用以表征兩部分獎賞值的權重。本文給予避障部分獎賞值更大的權重,即在協同編隊中優先考慮避障問題,保證機器人安全。

2.3 自主決策層

自主決策層旨在為多機器人系統中各機器人獨立完成自身策略選擇提供方法。SAC 網絡算法[28]是一種穩定高效的深度強化學習算法,適用于機器人與環境交互的實驗要求。本文將統一狀態表征與投影獎勵機制融入SAC 算法中,設計了自主決策層,進而實現去中心化的多機器人協同編隊與避障模型PRMFO。

——日前,德國《法蘭克福匯報》網站以此為題報道稱,中國年輕男性很難找到生活伴侶,主要原因是女性在擇偶過程中首先要看的是男性的經濟條件和職業

統一狀態表征是PRME 模型應用于多機器人協同編隊與避障任務的基礎,各機器人自身均搭載SAC 網絡,其輸入與輸出如圖4 所示,各機器人獲取當前編隊信息,通過當前編隊信息和自身位置信息得到自身與目標的相對位置關系,將雷達數據、相對位置以及速度等狀態信息傳入SAC 網絡進行決策,輸出該狀態下應采取的最優線速度與角速度。

圖4 SAC 網絡輸入與輸出示意圖Figure 4 Schematic diagram of SAC network input and output

在統一狀態表征的基礎上,根據機器人同質動力學原理,一臺機器人訓練的模型可以部署到相同結構的其他機器人上,各機器人均通過自身搭載的網絡選擇最優策略。在該過程中給予避障任務更高的優先級,即在躲避障礙物的前提下考慮編隊協同任務。如圖5 所示,以三角形隊形為例,灰色框線為多機器人系統初始位置,紅色框線為多機器人系統目標位置。在機器人前往目標位置的過程中,存在如灰色圓形所示障礙物,若其中某機器人遇到障礙物,則該機器人可躲避障礙物暫時脫離原隊形抵達目標位置。

圖5 多機器人協同編隊示意圖Figure 5 Schematic diagram of multi-robot cooperative formation

最優策略π:→a,指在不同狀態下選取當前的最優動作,從而在無碰撞的情況下保持指定隊形前往目標位置。各狀態下的最優動作取決于動作的獎賞值r。最優策略的形成需綜合考慮避障與目標位置,即

式(7) 為SAC 的優化目標函數,即在最大化回報值的同時最大化策略的熵。式(8) 為該任務的約束條件,分別表示多機器人滿足協同編隊要求和避障要求,即在雷達檢測數據的安全范圍內,各機器人保持編隊要求抵達目標位置。在滿足約束的基礎上獲取最優策略完成協同編隊與避障任務并抵達目標位置。

3 仿真實驗與結果分析

本文基于ROS 建立不同環境,進行仿真實驗。網絡模型采用Pytorch[29]實現,處理器為Intel?Xeon(R) Silver 4214R CPU@2.40 GHz × 48,顯卡為llvmpipe (LLVM 12.0.0,256 bits)/llvmpipe (LLVM 12.0.0,256 bits),RAM 大小是31.0 GB。

3.1 單機器人仿真實驗

3.1.1 評價指標和對比實驗

模型訓練參數如表1 所示,為了驗證PRMFO 方法的優越性,將所提模型與基礎SAC 網絡算法進行對比。在環境配置相同的情況下,通過平均回報值、成功率、時間3 個指標進行實驗對比。

表1 訓練參數Table 1 Training parameters

1)平均回報值 當前訓練回合內的平均獎賞值,即累積獎賞值/回合數;

2)成功率 將相同訓練時間的模型置于仿真環境中測試其在相同步數下成功到達目標位置的次數。本文在當前環境中測試機器人100 回合內到達目標位置的次數,以成功次數/回合數表示成功率;

3)時間 在100 回合內,機器人平均每次到達目標位置所用的步數。所用步數越少,耗費時間就越短,效率也就越高。

使用Gazebo 創建10 m×10 m 多障礙物環境,如圖6 所示。其中長方體和圓柱體為隨機分布的障礙物,移動機器人模型為Turtlebot3 系列移動機器人。機器人初始位置為中心位置(0,0),雷達安全距離設置為0.2 m。為了增強模型的泛化能力,提高機器人對外界環境的感知能力,在當前環境的非障礙物區域隨機初始化目標位置,機器人到達該目標位置后無需返回初始位置,即規劃路徑至下一目標位置。

圖6 仿真場景圖Figure 6 Simulation scenery diagram

機器人根據指定參數進行訓練,訓練過程中平均回報值如圖7 所示。訓練初期機器人通過與環境交互收集信息,動作選擇隨機性較高,平均回報值存在一定的波動,模型達到一定訓練次數后,平均回報值不斷上升且上升幅度逐漸縮小直至趨于穩定。由圖7 可以看出:初期PRMFO 算法較SAC 算法的每輪平均回報值波動較小,處于穩步上升的狀態,且上升速度較快。

圖7 每回合內平均回報值Figure 7 Averaged returns within each epoch

為了進一步驗證PRMFO 算法的優越性,在每回合內平均回報值的基礎上取每步的平均回報值進行比較,如圖8 所示,PRMFO 算法呈現出穩步上升的趨勢,在訓練步數達到1 200時,平均每步回報值位于2.0 附近。而基礎SAC 算法初期穩定性較差,且最終收斂于1.0 附近。因此從每回合的平均回報值與平均每步的回報值指標看,PRMFO 算法均取得更優的效果。兩種算法的實驗結果對比如表2 所示,由實驗數據可知PRMFO 算法在平均回報值、成功率以及時間指標上均優于SAC 算法。

表2 實驗結果對比Table 2 Comparison of experimental results

3.1.2 泛化性分析

將PRMFO 模型置于圖6 仿真環境中,隨機初始化目標位置,使用Rviz 工具繪制路徑規劃的軌跡圖。圖9 為路徑規劃俯視圖,機器人初始位置為(0,0),目標位置為(4,0),機器人自主決策到達該目標位置后,在(4,0) 隨機初始化目標位置為(3,-4),進而到達該目標位置。機器人可以在當前環境內到達任意非障礙物位置。

圖9 路徑規劃圖Figure 9 Path planning diagram

在驗證當前方法可行性的基礎上對其泛化能力進行測試。改變當前環境,構建仿真環境如圖10 所示。將在圖6 仿真環境中訓練好的模型遷移到當前環境中,測試該模型的泛化能力。為了進一步驗證當前方法在其他復雜環境下的泛化能力,將機器人置于如圖10 所示仿真環境Env1 中,機器人需在狹窄空間中穿過障礙物抵達目標位置。機器人的初始位置為(0,0),目標位置為(5,0),兩點之間的路徑規劃效果如圖11 所示。

圖10 環境仿真圖Figure 10 Environment simulation diagram

圖11 在狹窄環境中的路徑規劃圖Figure 11 Path planning diagram in narrow environment

為了進一步驗證在無障礙物環境Env2 中的導航能力,機器人的初始位置為(0,0),目標位置為(3,4),兩點之間的路徑規劃如圖12 所示。由此可見PRMFO 在多障礙物、狹窄空間以及無障礙物環境中都具備很好的路徑規劃能力,驗證了該模型的泛化能力。對比在狹窄環境中PRMFO 模型與基礎SAC 模型的效果,如表3 所示,PRMFO 模型到達目標位置及避障能力均優于基礎SAC。

表3 泛化實驗結果對比Table 3 Comparison of generalization experimental results

圖12 在無障礙物環境中的路徑規劃圖Figure 12 Path planning diagram in accessible environment

3.2 多機器人協同編隊仿真實驗

多機器人協同編隊與避障任務需要綜合考慮機器人間的約束問題與各機器人自身的避障問題。根據多機器人同質動力學原則,各機器人可共享網絡參數訓練。在保證安全的前提下形成編隊,即在多機器人協同編隊與避障任務過程中允許部分機器人優先考慮躲避障礙物任務,多機器人系統靈活性較高。

以“一”字型編隊為例,在無障礙物環境中設定編隊參數f0=(4,0),f1=(0,-1),其中f0=(4,0) 為目標位置,f1=(0,-1) 為兩機器人相對位置關系,移動軌跡如圖13 所示,其中紅色線代表機器人F0,藍色線代表機器人F1。F0初始位置為(0,0),F1初始位置為(0,-1),可見兩機器人保持穩定的編隊參數并到達了目標位置。

圖13 “一”字型編隊機器人移動軌跡Figure 13 Robot movement trajectory with “one-line” formation

在以“一”字型編隊抵達目標位置的過程中產生的誤差如圖14 所示。實際運動過程中兩機器人間的相對位置與目標編隊參數的距離差在(-0.02,0.04) 范圍內,且在運動初期與目標編隊參數幾乎完全相符。由于PRMFO 具備指引機器人到達目標位置的能力,因此在多機器人中表現出較高的編隊精準度。

圖14 “一”字型編隊誤差Figure 14 “One-line” formation error

在無障礙物環境中測試三角形編隊,以F0、F1、F2為例,設置編隊參數為f0=(3,-2),f1=(-1,-1),f2=(-1,1)。如圖15 所示,f0=(3,-2) 為目標位置,f1=(-1,-1),f2=(-1,1) 為機器人間的相對位置關系。機器人移動軌跡如圖15 所示,其中紅色線代表機器人F0,藍色線代表機器人F1,黑色線代表機器人F2。F0初始位置為(0,0),F1初始位置為(-1,-1),F2初始位置為(-1,1),可見3 個機器人保持編隊到達目標位置。

圖15 三角形編隊機器人移動軌跡Figure 15 Robot movement trajectory with triangle formation

在以三角形編隊抵達目標位置的過程中產生的編隊誤差如圖16 所示。實際運動過程中以F0為三角形頂點為例,F1、F2分別與F0之間的相對位置關系與目標編隊參數之間的距離差分別處于(-0.04,0.04) 和(-0.06,0.05) 范圍內。因此PRMFO 在三角形隊形中也具備較高的編隊精度。

圖16 三角形編隊誤差Figure 16 Triangle formation error

為了驗證模型在有障礙物環境中的協同效果,設置編隊參數f0=(-4,2),f1=(0,-1),其中f0=(-4,2) 為目標位置,f1=(0,-1) 為兩機器人間相對位置關系。將F0與F1兩機器人置于圖6 仿真仿真環境中,兩機器人移動軌跡如圖17 所示,紅色線為F0,藍色線為F1。在(-1,1.5) 附近區域,為了躲避障礙物,隊形發生了變化。機器人通過障礙物后,依據編隊要求抵達目標位置,完成多機器人協同編隊與避障任務。

圖17 有障礙物環境多機器人移動軌跡Figure 17 Robot movement trajectory with obstacle environment

因此該模型在有障礙物環境與無障礙物環境中均具備一定的多機器人協同編隊與避障能力,且各機器人自主決策,實現了去中心化編隊,提高了多機器人系統的魯棒性。

4 結語

深度強化學習方法與跟隨領航法相結合應用于多機器人協同編隊與避障任務中實現了未知環境中的多機協作,但其受領航者機器人決策的影響較大。針對該問題,本文提出了一種基于投影獎勵機制的多機器人協同編隊與避障模型,為多機器人系統提供了統一的狀態表征方法;設計了基于投影的獎賞機制,并以SAC 網絡為基礎,實現了去中心化的多機器人協同編隊。通過仿真實驗驗證了PRMFO 方法在平均獎賞值、成功率以及時間指標的優越性,及其在不同環境的泛化能力,顯示出該方法能夠實現去中心化編隊。

下一步可針對PRMFO 模型中的網絡部分進行優化,提升算法性能,使機器人在更加復雜環境中完成協同編隊任務。

猜你喜歡
編隊障礙物協同
2023年1月25日,美軍一次演習期間,空軍正在進行編隊飛行
蜀道難:車與路的協同進化
高低翻越
SelTrac?CBTC系統中非通信障礙物的設計和處理
“四化”協同才有出路
基于事件驅動的多飛行器編隊協同控制
三醫聯動 協同創新
基于預測控制的無人機編隊內部避碰
多彈編隊飛行控制技術研究
協同進化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合