?

內河無人船的自主路徑規劃模型研究

2023-05-12 00:47張慶年吳績偉
關鍵詞:步數障礙物無人

楊 嬌 張慶年 楊 杰 吳績偉 凌 強

(武漢理工大學交通與物流工程學院1) 武漢 430063) (武漢理工大學信息工程學院2) 武漢 430070) (上海國際港務(集團)股份有限公司3) 上海 200135)

0 引 言

自主路徑規劃技術是提高無人船自主決策能力的關鍵技術之一[1].常被分為局部及全局的路徑規劃,前者主要規劃無人船與動態障礙物會遇時的避讓路徑,對模型的實效性、安全性要求更高;后者則主要避開靜止障礙物等,對路徑的經濟性、安全性要求較高.

近年來,深度強化學習(deep reinforcement learning,DRL)逐漸成為駕駛決策新的研究方向,克服了通常智能算法需要樣本數據的缺點,與傳統路徑規劃相比,有更大的連續動作輸出及較小的決策誤差.Chen等[2]基于Q-learning的無人船路徑規劃方法,其可學習動作獎勵并獲得最佳動作策略.Shen等[3]提出了一種基于Dueling DQN算法的多船自動避碰方法,結合船舶機動性、船員經驗和避碰規則來驗證無人船的路徑規劃和避碰能力.Wang等[4]結合DDPG算法提出了一種USV航向跟蹤控制方案,取得了良好的實驗效果.Zhao等[5]采用近端策略優化(PPO)算法,結合船舶運動模型和導航規則,提出了多船的無人船舶自主避碰模型.能獲得多艘船舶的時間效率和無碰撞路徑,對未知的復雜環境具有良好的適應性.

這些經典的DRL方法中,DQN和Q-learning算法[6]均難以實現高維的連續動作.PPO算法采樣效率較低,需要在每次梯度更新時采集新樣本.而DDPG算法可解決連續狀態行文空間下的DRL問題,結合了DQN算法具有經驗回放池和目標網絡的優點,但對超參數較敏感,最終策略次優甚至不能收斂[7].雙延遲深度確定性策略梯度(twin-delayed deep deterministic policy gradient,TD3)算法針對深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法的缺點做出三個關鍵性的優化,這使TD3算法的性能遠遠超過DDPG,故本文預先建立基于TD3的無人船自主路徑規劃模型.

1 船舶運動模型

采用地理坐標系和船體坐標系兩個坐標系來描述船舶的運動.圖1為船舶平面運動坐標系示意圖,O0X0Y0為平面的上地理坐標系,OXY是平面上的船體坐標系.

圖1 船舶平面運動坐標系示意圖

在圖1中,兩個坐標系之間的坐標轉換為

(1)

船舶運動方程為

(2)

式中:(x0,y0,ψ)為無人船在地球坐標系的位置和航向;(u,v,r)為在船體坐標系下無人船的前向速度、橫向速度及航向角速度.模型中考慮到船舶的操作性能時,可設置不同的參數訓練模型.

響應模型中視船舶為動態系統,將船舶的各個部分視為一體,借助控制理論對船舶的運動進行分析.系統輸出的首向角等與輸入的舵角等參數之間存在動態響應關系.表達式為

TP+r=Kδ

式中:T為船舶追隨性指數;P為r的一階導數;K為船舶回旋性指數;r為旋回角加速度.K、T的計算見文獻[8].

2 模型構建

2.1 TD3算法

圖2 基于TD3算法的無人船自主路徑規劃過程示意圖

步驟1初始化價值網絡Qθ1,Qθ2和策略網絡πφ的參數θ1,θ2,φ.

步驟3初始化經驗池R.

步驟4對每個周期episode,初始化狀態s,循環以下步驟.

①根據當前狀態st,選擇動作并加入噪聲:a~π(s|φ)+ε,ε~N(0,σ);

②執行動作at,得到獎勵rt和新狀態st+1;元組形式保存(st,at,rt,st+1)到R中;

③從R中隨機選取m個樣本;

④通過價值目標網絡計算動作的期望回報:

c>0

⑥每隔d步,通過確定性策略梯度更新策略網絡參數:

⑧結束此循環.

步驟5直到無人船到達終點狀態或周期數達到設計值.

2.2 環境建模

在全局路徑規劃時,環境中的靜止障礙物是已知的.為提高算法的效率,對不同的靜止障礙物(含:礁石、水深不足、紊亂流態區、不可航區等)進行統一的簡化處理.文中視任意不規則靜止障礙物為多邊形,然后計算任意兩點的距離,見圖3.取最大值為直徑dm,取這兩點的中點為圓心Om畫圓.當無人船與Om的距離DOm≤min(1.5L,1.25L+dm)時(L:船長),則表示存在碰撞風險,環境將給予無人船懲罰.無人船通過與環境的不斷交互,最終學會避開靜止障礙物.

圖3 靜止障礙物處理示意圖

2.3 模型結構設計

2.3.1模型結構

圖4為基于TD3算法的無人船路徑規劃模型結構.模型通過獲取的環境信息及船舶狀態數據作為AC框架的輸入狀態.通過從經驗池中隨機抽取數據進行重復訓練及學習,輸出最優動作策略.無人船可在船舶動作控制器的幫助下避開障礙物并到達終點.

圖4 基于TD3算法的無人船路徑規劃模型結構

2.3.2AC網絡結構設計

Actor網絡和Critic網絡的輸入參數為船舶狀態數據,圖5為AC框架的具體網絡結構.

圖5 AC框架的網絡結構

TD3算法的六個神經網絡中,Critic網絡與Target Critic網絡結構相同,Actor網絡與Actor目標網絡結構相同.其中,都包含了兩個隱含層,且隱含層中均采用激活函數ReLU來控制輸出范圍.Actor網絡中神經元的數量分別為300和600.Actor網絡以船舶初始狀態st作為輸入,通過隱藏層后在網絡的最后一層使用Tanh控制輸出動作值范圍[-1,1].Critic網絡隱藏層神經元的數量均為200,在輸出最終動作值Q時,不再用激活函數來控制網絡輸出結果范圍.Actor網絡輸出動作的評價值稱為Q值,用于評估Actor網絡的輸出動作.與Actor網絡的輸入參數不同,Critic網絡以船舶初始狀態st和Actor網絡的輸出動作at作為輸入參數.

2.3.3狀態空間設計

假設本研究中所需的狀態信息均可由GPS、AIS、雷達等設備獲取.將狀態s定義為Agent在給定的單位時間步長t內所接收的環境信息.狀態空間為s(x0,y0,V,ψ,xm,ym),其中,(x0,y0)為無人船的位置;V為航速;ψ為航向;(xm,ym)為障礙物圓心Om的位置.

2.3.4動作空間設計

無人船的行動策略主要包括行動控制及行動探索策略.在動作控制策略方面,Actor網絡的輸出動作之一用于指示轉向aφ,Tanh激活函數用于控制輸出范圍,其值的范圍為[-1,1],右邊+左-.考慮船舶操縱性能約束,設Dmax表示單位時間t內的最大偏轉角,取值范圍為[0°,35°],Δφ表示船舶實際航向偏差值.計算公式為

Δφ=Tanh(aφ)Dmax

(3)

另一個輸出動作是船速變量aV,Vmax是船舶速度變化的最大值,取值范圍[-10,10]kn,增正減負.ΔV為船速的實際變化.計算公式為

ΔV=Tanh(av)Vmax

(4)

在動作探索策略方面,在輸出動作中加入隨機噪聲以使無人船探索到更好的動作.定義隨機噪聲為

μ′(st)=μ(st)+Nt

(5)

式中:μ′為探索策略;Nt為添加的隨機噪聲.

采用Ornstein-Uhlenbeck (OU)方法作為無人船動作策略的隨機噪聲,它在連續動作空間有很好的效果,具體定義為

dxt=λ(μ-xt)+?dWt

(6)

式中:λ為變量逼近平均值的速度;μ為動作均值;?為隨機過程的波動程度;Wt為Wiener過程.

2.3.5獎勵函數設計

獎勵函數是環境評估無人船動作優劣的反饋,正值為獎勵,負值為懲罰.基于良好駕駛經驗增加障礙物虛擬區以引導無人船可規劃安全路徑,當船舶與障礙物的距離DOo=max(1.5L,1.25L+dm)時設置障礙物區域,否則無.方法與對靜止障礙物的處理方法相同.當船舶進入障礙區,環境就會對其進行懲罰.船離障礙物越近懲罰越大,反之越小.同時采用目標吸引策略,獎勵與相鄰時間船舶與目標的距離呈正相關.獎勵函數設計為

(7)

式中:dt-goal為當前時間t時船舶與目標點的距離;dt′-goal為前一時刻t′時船舶與目標點的距離;dt-obs為當前時間t船舶與障礙物的危險距離;Dg-min為船舶到達目標點的最小閾值;Do-min為船舶與障礙物的最小危險距離閾值.訓練時,當船舶到達目標范圍時,即dt-goal

3 模型訓練仿真

3.1 模型訓練過程

Actor網絡和Critic網絡都使用Adam網絡優化器,其余參數見表1.控制變量對不同方法進行訓練,獲得訓練步數、獎勵和平均獎勵.

表1 TD3算法用于路徑規劃時的參數

圖6為無人船自主路徑規劃過程中TD3與DDPG兩種算法每輪的訓練步驟.由圖6可知:TD3在約90輪時模型的訓練步數達到最大,說明模型觸發了訓練的終止條件,沒有實現路徑規劃或落入局部障礙區.從第95輪到第145輪,每輪的訓練步數開始減少,平均訓練步數維持在50步,表明無人船學習到越來越多的行動策略,自主規劃完整路徑.大約在第170輪之后,模型的訓練步數保持在每輪45步以下,說明無人船已經充分學習到最優動作策略,沒有碰撞風險.在第300輪附近,由于算法的探索性策略,訓練步數增加,使得無人船嘗試隨機動作.而DDPG算法在170輪之后,模型的訓練步數在100步左右.

圖6 每輪步數

每輪累積獎勵越大,學習效果越好.圖7為模型每輪的累積獎勵.在前60輪中,模型每輪的獎勵較低,并且處理了波動狀態,這表明無人船沒有找到正確的路徑,正在不斷嘗試新的行動策略.在第80輪左右,模型的獎勵開始增加,表明找到了通往目標點的路徑.第145輪之后,模型每輪的累積獎勵趨于最大值,說明無人船已經找到了最優的行動策略.與圖6相比,每輪累積獎勵的趨勢與每輪步數的變化一致.

圖7 每輪累積獎勵值

平均獎勵反映了學習過程的效果,也更直接地觀察了獎勵的變化程度.圖8為模型每150輪的平均獎勵.

圖8 每輪平均獎勵

由圖8可見:平均獎勵值的總體趨勢是增加的.大約在第15輪,平均獎勵的增長速度開始放緩,然后逐漸趨于平穩.在第140輪之后,平均獎勵趨于穩定,然后保持在一個較大的值,這表明該模型已經找到了此時的最優動作策略.

3.2 自主路徑規劃的改進模型

APF是一種虛擬引力場和斥力場的方法,目標點在虛擬環境中產生引力勢場,障礙物在虛擬環境中產生斥力勢場,引力場和斥力場疊加得到總場強.物體利用引力場接近目標點,利用斥力場避開障礙物,為

U(s)=Ua(s)+Ur(s)

(8)

式中:Ua(s)為s點引力場勢能值;Ur(s)為s點斥力場勢能值;U(s)為s點的勢能.Ua(s)為

(9)

其中:ka為引力場的比例因子;ρg(s)為點s與目標的最小距離.

Ur(s)為

(10)

其中:kr為斥力場的比例因子;ρob(s)為點s到障礙物的最小距離,即ρob(s)為障礙物影響系數.

在無人船的路徑規劃問題中,獎勵函數的稀疏性導致初始學習效率低和多次迭代等.因此,根據目標點和障礙點的位置信息構建APF.此時,勢場中每個狀態的勢場值代表該狀態si的最大累積獎勵R(si),關系式為

R(si)=|U(si)|

(11)

式中:U(si)為在虛擬勢場環境中狀態si的勢場值;R(si)為在狀態si下采取最優行動時的最大累積獎勵.基于APF-TD3的自主路徑規劃方法步驟如下.

步驟1根據虛擬環境中的目標點和障礙物構建勢場,建立以目標點為中心的重力勢場.

步驟2根據式 (11) 定義勢能場中的勢能值U(si)為狀態si下的最大累積回報R(si).

步驟3船舶從起點開始探索環境,選擇當前狀態si下的動作.環境狀態更新為狀態st+1,并得即時獎勵值r.

步驟4根據狀態值函數更新Q值:Q(si,a)=r+γR(si+1).隨后,更新在線Critic網絡.

步驟5觀察船舶是否到達目標點或達到設定的最大學習次數.如果兩者滿足其中一個,則本輪學習結束,開始下一次迭代.否則,返回步驟3.

當目標點位置加入重力場后,無人船更快到達目標點,動作策略的選擇也更加穩定.基于APF-TD3的路徑規劃實驗參數與3.1中的TD3算法參數相同.APF參數設置如下:ka=1.6,kr=1.2,ρ0=3.0.

圖9為每輪步數.由圖9可知:基于APF-TD3的每輪訓練步數在第76輪開始下降并收斂,并且在后續的訓練過程中波動,這是由算法的動作探索策略引起的.圖10為每一輪的獎勵值.基于APF-TD3的每輪的獎勵值從訓練到76輪開始增加,然后逐漸達到最大值,說明此時找到了更好的動作策略.圖11為每輪的平均獎勵值,基于APF-TD3的在第76輪開始時迅速增加然后穩定在最大值.

圖9 每輪步數

圖10 每輪累積獎勵值

圖11 每輪平均獎勵

基于APF-TD3的每輪步數在第76輪左右開始減少.通過縱向對比兩種方法,可以發現基于APF-DDPG的路徑規劃方法到達目標點的輪數更少,收斂速度更快,穩定性優于TD3算法.

基于APF-TD3的每輪獎勵在第76輪開始增加并更快地達到最大獎勵值.而基于TD3的在第80輪左右,模型的獎勵才開始增加;在第145輪之后,模型每輪的累積獎勵趨于最大值,無人船找到最優的行動策略.

基于APF-TD3的平均獎勵在第76輪增加并更快地達到最大平均獎勵值,比其他算法收斂得更快.實驗過程的縱向比較表明,APF-TD3以最少的時間實現了最大的平均獎勵,并且始終保持幾乎不變.

3.3 路徑規劃模型仿真

3.3.1順直河段

從船舶航行角度而言,順直河段的航行條件是最佳的.此時航道寬度大、水深也大,可發充分發揮船舶的效率,所以在可保證安全時盡量提高航速.在此任務中,使用APF-TD3算法訓練Agent避開靜止障礙物并規劃最佳路徑.令點(50,400)為無人船的初始位置坐標,船長為100 m,航向為90°,航速為17 kn,令點(1 800,400)為目的地位置坐標.其中,最左邊原點為起點,最右邊原點為目標點,灰色實心圓表示障礙物,淺色虛線為水域主流線,箭頭為船舶,深色虛線為規劃的路徑.仿真結果見圖12.

圖12 順直河段仿真圖

由圖12可知:改進的模型在順直河段中可以規劃處光滑、安全、經濟的航行路徑.

3.3.2彎曲河段

彎曲河段航道受限、水深分布不均勻、流態紊亂,對船舶航行安全不利.同理,令點 (150,50)為無人船的起始位置,點(1 800,50)為目的地位置,航向為0°,航速為14 kn,其余保持不變進行仿真.仿真結果見圖13.

圖13 彎曲河段仿真圖

由圖13可知:規劃得到的路徑是以安全為前提的最小曲度的,同樣,航線光滑度較好,經濟性也明顯.

3.3.3架橋河段

船舶通過橋區時,應提高航速以抑制與橋墩非正交的主流,避免船位偏移.起點為 (50,400),終點為(2 800,400),初始航速為15 kn,其他保持不變.仿真結果見圖14.

圖14 彎曲河段仿真圖

由圖14可知:規劃得到的路徑平滑,且在過橋時,提高了航速.同時,也充分的利用主流航行.

4 結 論

1) 量化內河良好駕駛經驗,將其用于無人船全局自主路徑規劃模型中;其次歷史經驗數據的充分利用,也提高了算法的效率與準確率.

2) 基于APF-TD3算法的無人船路徑規劃模型可在已知環境中采取最佳、合理的行動,模型收斂快,精度高,規劃的路徑平滑無冗余.其成功完成內河無人船的全局路徑規劃任務,實現無人船端到端的學習方法.

3) 通過改進的無人船全局路徑規劃模型規劃出的路徑,可用于無人船的避碰研究中,作為避碰前后的航路,引導無人船避碰決策.

猜你喜歡
步數障礙物無人
楚國的探索之旅
高低翻越
SelTrac?CBTC系統中非通信障礙物的設計和處理
無人戰士無人車
反擊無人機
微信運動步數識人指南
國人運動偏愛健走
詩到無人愛處工
無人超市會流行起來嗎?
土釘墻在近障礙物的地下車行通道工程中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合