基于拍賣多智能體深度確定性策略梯度的多無人車分散策略研究

2024-01-27 06:56郭宏達婁靜濤楊珍珍徐友春

電子與信息學報 2024年1期

郭宏達婁靜濤楊珍珍徐友春

(陸軍軍事交通學院天津 300161)

1 引言

多無人地面車輛(Multiple Unmanned Ground Vehicles, Multi-UGVs，下文簡稱多無人車)具有容錯性強、自適應好、載荷豐富等諸多優勢，適合復雜環境中執行各種任務，目前在運輸[1]、救援[2]、勘察[3]、作戰[4]等多領域中發揮著越來越重要的作用。分散作為多無人車的具體應用，現也逐步在日常軍事作戰中推廣，如遇敵情分散隱蔽、同時到達各點完成既定任務等等。

多無人車分散問題本質上是一種軌跡規劃問題，其目的是使無人車在沒有預先分配分散點的情況下，自主分配分散點，按照規劃的軌跡行駛到所分配的分散點。解決多無人車分散問題的方法較多，現主流是使用常規方法，將分散問題分解為多個階段，再逐一解決，以達到分散的目的。王平等人[5]提出了一種基于蜂群與A*混合算法的3維多智能體規劃方法，避障性能大幅度提高，整體路徑更為優化，并滿足同時到達、時序到達等要求，但其只適用于智能體規模較小的情況，且算法相對復雜。董程博等人[6]提出一種多目標點同時到達約束下的規劃設計方法，由匈牙利算法實現最優目標分配，防撞算法給出速度分段矩陣，不僅解決了現有等長軌跡規劃法導致的跟蹤軌跡復雜性問題，也優化了同時到達多目標點的時間，但算法是時間連續的，目前在工程上不能實現，可用性不強。趙明明等人[7]將拍賣算法和區間一致性算法相結合，提出不確定信息下多智能體同時到達的控制方法，實現到達多目標的時間上趨于一致，但其對通信要求較高，適用性不強。

近年來機器學習發展尤為迅速，為解決多無人車分散問題提供了一個比較新的解決思路。機器學習不僅保留了常規算法的優勢，還可實現參數無需調整、自適應的目標[8]，其中，深度強化學習以易擴展、效率高的絕對優勢，成為完成分散任務的首選。DDPG(Deep Deterministic Policy Gradient)算法[9]適用于連續狀態-動作空間，能夠在復雜環境根據自身狀態輸出連續動作。作為DDPG在多智能體方向的擴展MADDPG算法[10]，最初在多無人機領域應用較多[11,12]，近期也開始運用于無人車領域[2]。MADDPG采用“集中式訓練，分布式執行”的框架，應用于多智能體的協同圍捕、競爭等場景，解決了不穩定環境中路徑規劃的問題。在智能體數量較少的情況下，算法的規劃效果比較好，但當數量多、動作復雜時，算法的收斂速度明顯下降，精度不高的缺陷也逐漸被放大，而且隨著集群體量的增大，算法的適用能力下降。另外MADDPG存在訓練時間較長，獎勵函數對迭代結果影響大，算法整體效率不高等不足。

本文針對多無人車路徑規劃過程中訓練時效性及獎勵函數存在的問題，提出了一種基于拍賣多智能體深度確定性策略梯度(AUction Multi-Agent Deep Deterministic Policy Gradient, AU-MADDPG)

算法，以解決多無人車分散問題。算法主要基于MADDPG現有框架，在迭代過程中，每次從環境調取狀態信息時，采用拍賣算法對分散點進行分配，確保過程中總路徑保持最短；整體優化獎勵函數，按照回合是否結束將訓練劃分兩個階段，定義不同的獎勵函數，防止重復計算已到達分散點無人車的獎勵，降低獎勵函數的冗余值，大幅提升最優路徑規劃的概率。

2 問題描述與建模

本文的目標為在多無人車運行環境下，利用各車狀態及環境信息(車速、障礙等)直接控制無人車動作(加速度、轉向)，并平穩、快速地到達各分散點。

2.1 多無人車分散問題描述

多無人車分散場景為：多輛無人車呈固定隊形分布在含有規則或不規則障礙的戰場環境中，當發生空襲或其他襲擊時，為保證裝備有生力量，各無人車需要通過協同，完全自主并迅速地駛向各隱蔽分散點。

圖1表示3輛無人車分散到3個分散點的示意圖。黑色表示戰場環境中規則、不規則的正障礙、負障礙，紫色為各分散點。

圖1 多無人車分散場景示意圖

多無人車分散成功的條件是：(1)無人車中心與分散點中心距離小于固定值?(? ＞0)，則認為無人車到達分散點；(2)每輛無人車均到達一個分散點；(3)每個分散點上最多有一輛無人車。

在分散過程中還需要滿足以下約束要求：(1)無人車行駛過程中不與其他無人車以及障礙物發生碰撞；(2)分散任務在固定時間內完成，并且盡可能總時間最短。

2.2 無人車模型構建

為了簡化多無人車運動規劃問題，本文將運動環境設置在2維空間中。在同構多無人車系統中，每輛車運動學參數均相同。對無人車進行運動學建模時，單個無人車遵循車輛運動學模型。

無人車模型參數有：無人車在坐標系中的位置(x,y)、航向角(φ)、速度(u)，輸入為加速度(a)、角速度(ω)。各值約定以及模型的定義如圖2所示。

圖2 無人車運動學模型

無人車i看作為一個半徑為ri的圓形智能體，目標是一個半徑為rk圓形分散點，Dik是無人車i與其目標之間的距離。無人車j看作與無人車i運動學相同的智能體，半徑是rj，與無人車i的距離為Dij。無人車i的位置為Pi=[xi,yi]，速度為ui，角速度為ωi，航向角為φi(表示速度與x軸正方向的夾角)，目標速度角為αi(表示以無人車i為原點，無人車i到其目標的方向為正建立極坐標系時，i速度方向與極坐標正方向夾角)，無人車i的通信距離Lci(通信范圍在以其中心為圓心，半徑為Lci的圓內)。在通信范圍內，無人車i可以獲取有關其他無人車和障礙物的信息，將通信范圍內其他無人車和障礙物的集合(i的觀測值)作為環境信息。無人車i的運動模型可表示為

設下一時刻無人車i的位置為，航向角為，航向角速度為，移動時間間隔為 Δt，則無人車i在下一時刻的狀態為

無人車在行駛過程中受到的運動學約束為

其中，ωmin為順時針最大角速度，ωmin＜0；ωmax為逆時針最大角速度，ωmax＞0。amin為倒車最大加速度，amin＜0；amax為前進最大加速度，amax＞0。

另外，由于無人車機械因素，運動過程中還需滿足

Δφmin為順時針運動的最大角度，Δφmin＜0； Δφmax為逆時針運動的最大角度，Δφmax＞0 。Δumin為倒車最大速度，Δumin＜0 ；Δumax為前進最大速度，Δumax＞0。

2.3 分散模型構建

2.3.1 狀態空間構建

對于無人車i，狀態空間是局部環境的觀測信息，狀態空間是否完備直接影響著算法能否收斂。根據多無人車分散的特點，無人車i狀態空間由自身信息sAi和環境信息sEi組成。

建立極坐標系時，將無人車i視為原點，其與目標之間的方向視為正方向。自身信息sAi包含無人車i距離分散點相對位置、無人車i半徑、目標速度角、速度、航向角以及分散點半徑。無人車自身信息表示為sAi=(Dik,ri,αi,ui,φi,rk)。

環境信息sEi包含無人車i與相鄰無人車j之間的距離，無人車j的速度、航向角以及半徑。如果無人車i的通信范圍內沒有其他無人車，則Dij=0,uj=0,φj=0。表示為sEi=(Dij,uj,φj,rj)。

綜上，無人車i狀態空間設計為：si=(sAi,sEi)。分散模型的狀態空間S表示為S={s1,s2,...,sN},N為無人車數量。

2.3.2 動作空間構建

無人車的運動由加速度和航向角速度決定。為了更為精確地表示無人車加速度和航向角速度，本文基于勢場理論，利用無人車與分散點之間的引力、無人車之間的斥力，分析整體受力情況，進而計算出無人車的加速度和航向角速度。動作空間具體表示過程如下：

(1)計算無人車i在位置[xi,yi]、時間t處的合力。若[xgi,ygi]為無人車i的目標位置，則標準化引力分量表達式為

相鄰無人車j對無人車i的標準化斥力的分量可表示為

因此，無人車i的合力表示為

其中Ni表示無人車i的相鄰無人車集合，σij是碰撞參數，表示每個相鄰無人車或障礙對無人車i排斥的影響程度，取值范圍為[0,1]。

(2)根據合力計算加速度ai、航向角速度ωi其中，ka為加速度控制參數，kω為航向角速度控制參數，ψi為的方向角，ψ=，為ψi在[xi,yi]位置對時間的導數值。綜上，無人車i的動作空間設定為acti=(ai,ωi)。

2.3.3 目標函數構建

確定了狀態空間和動作空間，下面就需要對多無人車分散這個過程進行建模。

多無人車分散的目的是有效地將無人車規劃到分散點，同時避開復雜環境中的障礙物及其他無人車。對于所有無人車，分散模型目標函數為

目標函數表示無人車最終到達對應的分散點，所有無人車行駛總路徑最小時的策略，π表示所有無人車的策略集，Li為無人車i行駛的路徑長度。約束條件如式(10)所示，Pki為無人車i(i=0,1,...,n)所到達的分散點，ε ＞0為預定義的距離參數，默認無人車與分散點距離不大于ε時，分散成功；另外，還需滿足防碰撞約束，也就是在任何時候無人車i與無人車(或障礙物)j距離大于兩車(或車與障礙物)的半徑和。

根據目標函數(9)及約束條件(10)，將多無人車分散問題轉化成了最優策略π的求解問題?；贛ADDPG深度強化學習算法框架，策略πμ需滿足的條件為

對于n個無人車，μ={μ1,μ2,...,μn}是多無人車路徑規劃的確定性策略集分別為策略網絡參數集和價值網絡參數集，θμ′和?Q′分別是目標策略網絡參數集和目標價值網絡參數集。

對于無人車i，策略網絡參數通過最小化成本函數來更新，成本如式(12)所示，其中acti和是無人車i在當前和下一個時刻的動作，是多無人車在當前和下一時刻的聯合空間，Ri是無人車i的即時獎勵，和分別是無人車i的價值函數和目標價值函數，γ是折扣因子。無人車i的價值網絡參數通過梯度下降進行更新，計算公式為

其中，μi為策略網絡，D是經驗回放池，包括DA和DE，元素是(s,s′,a1,...,an,R1,...,Rn)。在DE中，無人車i的動作由策略網絡獲得，記為acti=μi(si)；而在DA中，將無人車i規劃到對應分散點，動作表示為acti=(ai,ωi)。

3 多無人車分散算法設計

多無人車分散任務要求將系統內有序排列或雜亂無章的無人車以最短總路徑運行到達各分散點，并確保在行駛過程中不與任何障礙物及其他無人車發生碰撞。

現階段多無人車分散所使用的MADDPG算法存在耗時大、易陷入局部最優的問題，主要原因是在訓練時各車先隨機到達分散點，總路徑未必最短，最后導致訓練和執行過程中的耗時明顯增加。另外MADDPG對多無人車分散過程中的獎勵函數考慮并不全面，使得最后得到的路徑并非全局最優。本文從這兩個問題入手，提出了AU-MADDPG算法，在訓練過程中，首先對分散點進行分配，確?？偮窂阶疃?；設置獎勵函數時，不僅考慮對碰撞的懲罰，還考慮與目標點距離，與規劃路徑距離等諸多因素，利用貢獻率將各因素合理分配，最后達到最優規劃的目的。

3.1 分散點分配

分散點分配是將各分散點分配給各無人車，確保每個分散點最多有1臺無人車，并且每個無人車均有1個分散點。分散點分配是無人車分散任務的基礎，其決定著能否實現總路徑最短，達到分散任務的要求。本文主要基于拍賣算法[13]，每臺無人車投標競拍對各分散點的最短行駛距離，系統按照總路徑最短原則為各車指定分散點，最終完成分散任務[14]。

拍賣方法主要分為3個過程：分散點拍賣、各無人車競拍和分散點分配。

分散點拍賣：系統將需要分散的各分散點拍賣出去。

無人車競拍：作為投標方的各無人車按照自身到各分散點的距離競拍適合自己的目標點。

分散點分配：系統根據最終的投標結果將各分散點分配給指定無人車，為路徑規劃提供參考。

從各車投標分散點的路徑矩陣L出發，經過多次迭代可求解出完成無人車分散最短總路徑的分散點分配矩陣F。拍賣算法求解流程為

(1) 系統拍賣各個分散點；

(2) 各無人車作為投標方通過計算得到距離各分散點的距離l，生成路徑矩陣L

(3) 系統比較L中的元素，選出數值最大的元素，并將其置為0；

(4) 經過置0后，若L為對角矩陣，轉到步驟(5)；若L中的某一行或者某一列有且僅有1個非零的元素，那么系統就將該元素所在的行與列其他所有元素的值都置為0；然后轉到步驟(3)；

(5) 系統按照得到的距離矩陣L，將分配矩陣F對應L中非零元素位置的值設為1，其他元素對應值設為0，可得出最終分散點優化分配矩陣F

3.2 獎勵函數優化

路徑規劃根據各車的位置及分散點，設計出適合的路徑，為各無人車的控制模塊提供參考。獎勵函數是深度強化學習最為重要的組成模塊，直接影響著多無人車規劃問題的結果。MADDPG算法只是將是否到達目標點和是否碰撞納入獎勵函數范圍，對運行過程考慮得并不充分。本節主要是對獎勵函數進行優化，將多種約束進行有效整合，使規劃的路徑最優。

從流程角度看，可以將獎勵函數分為兩個階段，回合結束階段以及無人車行駛階段。

階段1。在回合結束階段(若無人車到達分散點或與障礙物、其他無人車碰撞時，回合結束)，令和分別表示無人車i到達其目標和發生碰撞時的獎勵函數，具體設置如下

階段2。當無人車i在行駛過程中還未到達目標或沒有碰撞時，本文設置4個非稀疏獎勵函數來表示即時獎勵，具體表達式為

3.3 分散算法流程設計

AU-MADDPG算法由4個網絡構成，actor網絡與目標actor網絡輸出動作，critic網絡與目標critic網絡估計動作Q值，經驗回放池存儲探索數據，獎勵函數輸出動作獎勵。本文以單無人車為底層，采用集中式訓練、分布式執行的算法訓練框架，基于AU-MADDPG算法，解決多無人車分散問題。

訓練以及測試流程框架如圖3所示。訓練過程中，多無人車與環境進行交互，得到經驗并存入經驗回放池。達到最小片段后，每次取出最小片段的經驗值，更新actor網絡、critic網絡及對應的目標網絡的參數。測試過程中，將無人車部署在環境中隨機位置，調用已訓練的網絡，對多無人車分散的訓練效果進行驗證。

綜上對傳統算法的改進，基于AU-MADDPG算法的流程圖如圖4所示。

圖4 多無人車分散算法流程圖

4 仿真實驗與分析

為驗證提出的AU-MADDPG算法，本節以3輛無人車為例進行多無人車分散策略研究?；谒崴惴ㄓ柧毟骶W絡，分析方法的有效性，并分別與其它深度強化學習算法以及常規算法作對比，驗證所提算法的優越性。

4.1 訓練環境及參數設置

深度強化學習中訓練的第1步往往是不可預測的，對于無人車平臺來說危險隱患較大，因此好的仿真環境對于無人車實驗平臺的安全性非常重要。無人車在仿真程度高且體系完整的環境中訓練也可以顯著增強其在真實實驗中的有效性。

本文采用的仿真環境為Open AI的多智能體強化學習環境(Open AI Multiagent Particle Environment, MPE)。多智能體強化學習環境，簡稱小球環境，主要用于MADDPG等深度強化學習算法的訓練[10]。在ROS中，無人駕駛功能由多個包協同完成：通過接收到感知信息以及其他車的狀態信息，得到最優路徑，利用模型預測控制算法對無人車的加速度、方向盤轉角進行控制。該自動駕駛功能已經在實驗中進行充分測試，與仿真環境中的響應完全相同，從而證明了模型的有效性。

算法在Python 3.5中編譯，使用Open AI gym 0.10.5、tensorflow1.8.0和numpy 1.14.5生成、訓練神經網絡。測試使用的ROS版本只兼容Python2，要使算法在ROS環境中生效，需要通過Rospy庫與ROS通信(訂閱和發布主題)。仿真環境如圖5所示。在ROS中搭建該環境的主要優點是便于直接將算法移植到無人車平臺(無人車平臺也基于ROS)，防止由于編譯環境的不同使運行結果產生偏差。

圖5 訓練環境

AU-MADDPG算法在MPE環境中進行訓練，策略網絡、價值網絡和對應的目標神經網絡均有2個隱藏層，每個隱藏層單元數為64。訓練環境集成在ubuntu 16.04系統中，硬件為16 GB RAM和2.3 GHz處理器(i7-11800H CPU, RTX3060 GPU)。訓練過程中實時記錄每次迭代的獎勵值、耗時以及規劃出的總路徑等，并與MADQN算法、傳統MADDPG算法進行對比。仿真中算法訓練迭代次數為105，各超參數設置如表1所示。

表1 AU-MADDPG算法參數設置

深度強化學習不需要額外的數據集，這是與其他機器學習相比最為突出的優勢，因此受到了越來越廣泛的關注。深度強化學習的衡量標準主要有兩個：一是獎勵曲線的變化情況。相同的迭代次數，若獎勵曲線能更快地趨于平穩，則說明有更快的收斂速度。二是訓練后無人車的表現情況。訓練一定次數后多無人車的表現越好(如獎勵值越高、總路徑越短等等)，訓練的效果也就越好。實驗中具體比較獎勵曲線和各無人車的獎勵值、規劃時間、總路徑等參數。

4.2 有效性分析

為驗證算法的有效性，分別基于AU-MADDPG算法、傳統MADDPG算法、多智能體深度Q學習(MADQN[15])進行路徑規劃仿真實驗，分散示意圖如圖6所示。圖6(a)、圖6(b)為無障礙環境；圖6(c)為越野環境，黑色為不規則障礙物；圖6(d)為城市環境，黑色表示規則建筑物。為了驗證算法的適用性，確保無人車在環境中任何狀態下均能非常好地進行路徑規劃、完成分散任務，在每一次訓練和測試開始時，無人車和分散點均處于隨機位置。為了降低訓練和測試的偶然性，仿真中采用多次迭代的方法(無障礙環境、越野環境、城市環境各訓練105次，測試100次)，將結果進行統計對比，驗證所提出方法的有效性。運行后各車軌跡如圖7所示。

圖6 分散環境示意圖

圖7 不同算法下多無人車分散軌跡

圖7可以很直觀地看出，MADQN算法規劃的路徑較為曲折，拐點較多，初始點到分散點間的路徑未達到最短。主要原因為算法基于的DQN只有1個Q網絡，每次選擇最大Q值對應的動作，未對動作進行評價，導致總的路徑不一定為最優。傳統MADDPG算法規劃的路徑大部分為直線，但路徑多有交叉，且所有無人車路徑總長度未達到最短。由于算法架構中包含兩個actor網絡和兩個critic網絡，每次actor輸出動作后，critic均會做出評價，保證了輸出結果最優，因此規劃的路徑大多為直線；算法中分散點分配是隨機的，故所有無人車路徑總長度未必最短。AU-MADDPG算法規劃的路徑均為直線，并且規劃的總路徑最短。原因有二：一是基于拍賣算法，每次規劃均對分散點進行分配，確?？偮窂阶顑?；二是優化了獎勵函數，確保獎勵函數最大時得到的路徑為最優。

圖8為3種深度強化學習算法隨訓練迭代次數的增加，獎勵值變化的對比圖。獎勵值較高，則算法在當前狀態下選擇較優加速度及航向角速度的概率值就越大。從圖中可以看出：(1)AU-MADDPG算法平均獎勵值明顯高于其它兩種算法，這是由于采用了綜合獎勵函數，算法能夠有效避免陷入局部最優。(2)AU-MADDPG算法收斂速度比傳統MADDPG算法、MADQN算法更快，大約在4 000次左右便可趨于平穩，傳統算法要在10 000次后趨于平穩，而且隨著迭代次數的增加，平均獎勵函數仍在緩慢上升，MADQN算法在35 000次迭代后才趨于平穩，但獎勵函數值波動比較大。MADDPG框架中存在4個網絡對動作進行預測和評估，提高了輸出動作的準確性，而MADQN只有1個Q網絡進行預測，存在過估計問題，因此MADQN波動較大；而在AUMADDPG算法中，每次迭代時均對分散點進行了分配，減少了傳統算法對分散點探索的過程，因此所提出的算法平均獎勵較為平穩，而傳統算法則為緩慢上升。

圖8 算法平均獎勵

4.3 性能對比分析

4.3.1 與深度強化學習算法性能對比

表2為3種算法在訓練后分別測試100次的路徑長度統計。由表可知，MADQN算法在路徑總長度、最長路徑和最短路徑上均遠大于其他兩種算法，可見MADQN算法在最優規劃上明顯不足。AUMADDPG算法的最長路徑、最短路徑稍大于傳統MADDPG算法，主要是因為每次迭代的初始位置是隨機的，AU-MADDPG算法所對應的最長、最短最優路徑有可能會大于傳統MADDPG算法，但差距不會過大。在無障礙環境中，AU-MADDPG算法在測試100次后路徑的總長度比傳統算法少了34.959，縮短了14.5%，其他兩種環境與無障礙環境情況相似，足可證明AU-MADDPG算法的最短路徑規劃上優于傳統算法。

表2 測試100次路徑長度對比

表3分別為3種算法訓練過程中前40 000次、測試100次的耗時，圖9、圖10分別為在無障礙環境中隨訓練、測試次數的增加，算法耗時累計的情況，其他兩種環境與該兩圖相似，本文不再表述。不管是訓練過程中，還是在測試過程中，MADQN算法的耗時均遠大于傳統MADDPG算法、AUMADDPG算法，主要是因為MADQN適用于離散空間，而對于多智能體深度強化學習環境的連續空間，運用MADQN算法時需要對環境進行離散化，致使消耗了一定的時間。表3中后兩種算法訓練、測試過程中消耗時間相差不多，AU-MADDPG算法由于框架中引入拍賣算法，每次訓練、測試時都可實現最優規劃，使路徑長度短于傳統MADDPG算法，在一定速度情況下，訓練耗時減少3.96%，測試耗時減少1.82%。

表3 算法耗時對比

圖9 訓練過程中耗時

圖10 測試過程中耗時

4.3.2 與傳統算法單方面優化性能對比

AU-MADDPG算法相比于傳統MADDPG算法主要在兩方面進行了改進--引入拍賣算法和優化獎勵函數。為了進一步驗證所提出算法的具體影響因素，將MADDPG算法分別只引入拍賣算法和只優化獎勵函數，并在無障礙環境中進行105次訓練、100次測試，結果如表4所示。

表4 MADDPG單方面優化性能

在無障礙環境中，表4中的性能分別與表2、表3以及圖8中的MADDPG、AU-MADDPG算法作對比，可以明顯看出：MADDPG單方面優化的各項性能結果均在MADDPG與AU-MADDPG之間，(1)在訓練耗時和測試耗時方面，兩種優化方面都有一定程度的縮短，而優化獎勵函數與AU-MADDPG算法結果較為接近，表明耗時方面，優化獎勵函數起到了主導作用；(2)路徑總長度方面，引入拍賣算法與本文所提出的算法相差較小，表明此時拍賣算法起到了主導作用；(3)平均獎勵方面，優化獎勵函數較引入拍賣算法提高了18.85%，與AUMADDPG算法持平，此時起到了主導作用。

4.3.3 與常規算法性能對比

本文提出的算法在性能上不僅優于一般的深度強化學習方法，相較于常規算法也有非常大的提升。近年來，利用遺傳算法解決多無人車路徑規劃問題的研究越來深入[16,17]。本文在圖6(c)地圖中使用遺傳算法對多無人車分散進行路徑規劃，所規劃的路徑如圖11所示。

圖11 基于遺傳算法的多無人車分散路徑

圖11與圖7(c)越野環境進行比較，可明顯看出，不管是單車路徑長度，還是所有車路徑的總長度，AU-MADDPG算法均短于遺傳算法。另外，從表5測試100次的結果與表2、表3中越野環境測試數據對比來看，AU-MADDPG算法的耗時僅為遺傳算法的1/10，而總路徑長度較遺傳算法縮短了47.95%，充分體現了AU-MADDPG算法的優越性。

表5 遺傳算法測試結果

5 結束語

本文提出了AU-MADDPG算法，目的是基于深度強化學習，根據已定義的獎勵函數計算出所有無人車的加速度及航向角速度，并擬合最優規劃路徑，解決多無人車分散問題。

(1)在單車模型的基礎上構建多無人車分散模型，結合深度強化學習算法，借助無人車與分散點間的引力、多無人車間的斥力計算出各無人車動作。

(2)算法將傳統MADDPG進行優化，引入拍賣算法，在訓練和測試的每次迭代之前將分散點分配，提高算法訓練及測試速度；將多個約束考慮到獎勵函數之中，把多約束問題轉化為獎勵函數設計問題，提高了最優規劃概率。

(3)通過仿真實驗對提出的算法進行時效性和有效性驗證，并與傳統MADDPG、MADQN及遺傳算法進行比較。實驗結果表明所提出的算法(a)規劃路徑的總長度大幅度縮短，且降低了行駛過程中發生碰撞的概率；(b)訓練、測試耗時明顯縮短，訓練效率提升較大；(c)平均獎勵值進一步增大，提高了最優規劃的概率，且不易陷入局部最優。

綜上，所提出的算法在訓練耗時、平均獎勵以及最短路徑上具有絕對的優勢，效果明顯優于其它算法，更適合解決多無人車分散問題，可作為此類問題的通用解決方案。

本文在訓練及測試算法時，只利用了仿真環境，還未應用于實車。當然，在實車應用上，有許多條件與仿真存在一定的差異，如車輛模型的擬合度、通信延遲等等，此將作為下一步研究的重點方向。