?

基于知識學習的行人軌跡預測方法綜述

2024-01-04 23:58王雨露張龑彭乾
湖北大學學報(自然科學版) 2024年1期
關鍵詞:行人軌跡神經網絡

王雨露,張龑,彭乾

(湖北大學計算機與信息工程學院, 湖北 武漢 430062)

0 引言

隨著深度學習的不斷發展,計算機擴展了人類的視覺,如在自動駕駛汽車、服務機器人、智能交通、智慧校園等領域,行人安全成為研究熱點。例如,在湖邊,如果監控系統可以預測湖邊行人的軌跡,那么就能對行人落水提出預警,保證湖邊游玩行人的安全。因此,預測行人軌跡對于包括自動駕駛和監控系統在內的多種應用至關重要。在非自動駕駛中,經驗豐富的駕駛員會根據周圍環境預測車輛和行人的行為[1],而學者們就需要根據這種人類的自我意識來設計自動駕駛系統,在自動駕駛中,對行人軌跡的準確預測使控制器能夠在對抗性環境中提前規劃車輛的運動,例如,它是防撞系統或緊急制動系統[2-4]的關鍵部件;在監控系統中,預測行人軌跡對于幫助識別異?;顒右仓陵P重要[5-7]。目前,國內外對行人軌跡預測的研究日益增多,因此就有必要對該領域的相關技術和文獻進行總結。

本文的組織結構如下:第1部分介紹了行人軌跡預測的發展,并給出了軌跡預測的問題描述;第2部分分類列舉了目前的軌跡預測方法,并對比了優缺點;第3部分介紹了軌跡預測方法中使用的數據集,并在其數據集中對某些算法進行分析和對比;第4部分闡述了行人軌跡預測方法未來的研究方向,并總結全文。

1 相關工作

1.1 行人軌跡預測介紹行人軌跡預測是在給定的場景中,通過利用一段行人運動的歷史視頻和場景信息來建立模型,讓機器學習從行人行為、行人交互、周圍環境的影響等方面生成一些規則[8],來預測未來一段時間內行人的運動軌跡,即預測行人在未來固定時刻的位置坐標[9]。行人軌跡預測其實是預測任務中的一種。

預測任務分為短期預測和長期預測[10,11],短期預測側重于短期動作視頻,這些視頻通常持續幾秒鐘,僅根據歷史時空序列數據預測下一時刻的觀測值;長期預測則是通過當前觀察到的人類行為推斷出未來的行動,即根據歷史時空序列數據預測接下來一段連續時間的觀測值,旨在對動作轉換進行建模,即給定一個動作視頻A,其中A可以是完整的或不完整的動作執行,目標是推斷下一個動作B。預測任務按照建模方式分為基于傳統參數模型的預測方法、基于傳統機器學習模型的預測方法和基于深度學習模型的預測方法,基于以上三種方法包括的主要模型如圖1所示,而本文中主要介紹的是基于深度學習模型的預測方法中的循環神經網絡、長短期記憶網絡和圖神經網絡。

圖1 預測方法

1.2 行人軌跡預測問題描述行人軌跡預測問題在實際方法中主要分為兩種[12],一種是在傳統模型中經常用到的建模方式,即依據行人當時的方向速度,預測下一時刻該行人的方向速度,并在此基礎上計算之后的坐標位置;另一種是將該類任務可以轉化為時間序列預測問題,行人軌跡被映射成一組坐標點,行人過去時間的坐標位置為當前時刻的輸入,輸出為預測的未來一段時間的行人坐標。此類問題是通過海量的歷史數據來挖掘移動目標的行為特征,結合目標的當前位置,預判目標的運動趨勢。

在行人軌跡預測任務中雖然選擇建模方式并不困難,但是由于行人運動中,行人的軌跡受到多種因素的影響導致軌跡難以精準預測,影響因素主要包括以下幾點:

第一,行人周圍的物體可能會影響行人的運動軌跡,影響運動軌跡的物體可能為樹木或道路等物理障礙物,也可能為車輛和其他行人在內的移動物體。依據Moussaid等[13]的研究,傾向于結伴而行的行人超過3/5,行人之間的互動主要是由常識和社會習俗驅動的。因此,這種人與人之間的交互是非常抽象的,在算法中往往很難表現出精確的建模。

第二,行人的運動軌跡非常多變,以至于幾乎不可能準確地預測行人未來的行走軌跡,因為行人的目的地和預期路徑是未知的,所以針對每一條軌跡,都會有多條可能的未來軌跡,即軌跡預測是一個多模態問題[14]。

因此,行人軌跡的隨機性、個體之間的復雜交互以及場景的復雜性使軌跡預測問題充滿挑戰[9],并且這幾個影響因素之間也是相互作用、影響的。這也是軌跡預測任務從統計模型向深度學習模型轉變的重要原因。

2 行人軌跡預測的技術分類

自20世紀90年代以來,行人軌跡預測問題逐漸被重視,基于統計模型的預測方法開始被提出,但是這些模型缺乏統一的評價指標,并且數據集的質量也參差不齊,因此該類模型很少被使用。但是隨著人工智能的興起,機器學習尤其是深度學習逐漸被應用到軌跡預測中。軌跡預測任務大致可以分為三類,即特征因素、建模方法、預測方法。特征因素一般包括行人的軌跡特征和運動學特征、環境信息等;建模方法一般分為基于統計模型的方法和基于知識學習的方法兩大類;預測方法包括單軌跡預測、多軌跡預測等(見圖1)。本研究將從建模方法作為模型分類依據,對行人軌跡預測技術進行分類總結,如圖2所示。

圖2 行人軌跡預測分類

2.1 基于統計模型的預測方法在基于統計模型的方法中,較早被應用在軌跡預測任務中的是的基于運動學的方法,主要通過概率統計模型來反映個體的運動特點,之后,這種模型通常會根據行人的行走速度、當前位置等行為特點建立模型,并將其與貝葉斯濾波器(Bayesian filtering)、馬爾科夫網絡(Markov nets)和貝葉斯網絡(Bayesian network)相結合。Helbing等[15]在1995年提出社會力模型(social force model,SFM模型),該模型結合了行人流的一些特性,依據人與人的交互作用建立了行人的模型,將社會力模型擴展為行人路徑選擇模型。之后,Rinke等[16]在社會力模型的基礎上提出一種基于社會力模型的多層次道路使用者運動及其相互作用表示方法,通過先確定行人運動目標點,然后利用拉格朗日多項式依次估計其他軌跡,最后運用基于社會力模型進行軌跡選擇,生成預測軌跡。而Pavlovic等在2011年[17]基于馬爾科夫鏈提出切換線性動力學系統(switched linear dynamical system,SLDS)模型[18],該模型以馬爾科夫鏈為基礎,能夠在不同的線性運動學模型間進行轉換,并能對真實環境中的非線性行人運動進行預測。但是,由于基于該模型的提取的特征信息不能很好地支撐狀態轉換,并且為了滿足更復雜的運動模型測試的精度要求,需要構建更大的運動獲取行人運動數據。之后,Kooij等于2014年[19]建立了基于上下文的動態貝葉斯網絡(dynamic bayesian network,DBN)模型用于行人路徑預測,該模型將情境信息(即行人頭部方向、情況緊迫性和周圍環境)與 SLDS模型相結合,預測精確度相對于SLDS模型得到了提高。Alahi等同年提出SAM模型[20],該模型通過提取行人間的相對位置來顯示行人的社交特性。該模型首先進行OD先驗,然后將人群中個體軌跡連接起來獲取參與者之間的關系。而與SAM模型同的是 Yi等[21]提出將靜止人群作為主要部分的行人行為模型,通過對固定人群和行人之間的相互作用的推斷,使用人類屬性來改善人群中的預測,通過場景能量圖的深淺,表示行人間交互性的強弱。

但是,基于統計模型的預測方法在進行預測推理時需要進行大量的計算,而且不能提取目標物體的基本運動類型(例如轉身)以及場景中其他物體的信息??偠灾?基于統計模型的預測方法雖然在一些研究成果,然而,由于基于運動學方法的局限性以及信息無法完全提取等問題,使得預測結果與現實有較大的偏差,使得傳統的方法很難準確地預測出復雜場景中的行人的軌跡。

2.2 基于知識學習的預測方法近年來,隨著深度學習的興起,神經網絡在圖像分類、行人識別等領域取得了不錯的效果[22],在此基礎上,提出了一系列的時序數據處理模型,以知識學習為基礎的方法得到了廣泛的應用,并且它們比以前的方法具有更好的預測性能。遞歸神經網絡最早被運用到行人軌跡任務中,之后研究學者又將注意力機制與遞歸神經網絡結合用于研究行人軌跡預測任務;后來,隨著生成對抗網絡與圖神經網絡的興起,遞歸神經網絡與生成對抗網絡兩者的結合、圖神經網絡與注意力機制結合也是行人軌跡預測任務中一個新的研究趨勢;而近兩年,Transformer架構的提出,也逐漸被研究學者考慮引用到行人軌跡預測任務中。因此,下面將從遞歸神經網絡、生成對抗網絡、圖神經網絡三個方向介紹行人軌跡預測方法,而Transformer因目前使用的較少,因此暫時先不介紹基于Transformer的行人軌跡預測方法。

2.2.1 基于遞歸神經網絡的方法 由于行人軌跡預測問題本質上是一個動態的時間序列處理與預測問題,而遞歸神經網絡可以有效反映個體的時序特征,因此遞歸神經網絡成為近年來軌跡預測的重要方向,而其中的長短記憶網絡(LSTM)運用最為廣泛(其結構如圖3所示),如Social-LSTM模型、SS-LSTM模型。其中,Social-LSTM模型[23]是首個使用深度學習來預測行人軌跡的算法,模型架構如圖4所示,而SS-LSTM模型[24]是在Social-LSTM模型的基礎上使用三種不同的LSTM來捕獲人、社會和場景尺度信息,提高了行人軌跡的預測精度。在行人軌跡任務中,由于行人軌跡會受到其他行人以及物體的影響,可能會改變或限制行人的活動,因此關注這些場景因素也是十分必要的,一些研究學者就將注意力機制與遞歸神經網絡結合,增強了行人之間的交互,提高了軌跡預測的準確率,如CGNS模型、MRGL模型?;谶f歸神經網絡方法的具體描述如表1所示。

表1 基于遞歸神經網絡的方法

圖3 長短記憶網絡結構圖

圖4 Social-LSTM模型架構圖

綜上,基于遞歸神經網絡模型的預測方法雖然在軌跡預測的精度上得到了提高,但是也存在參數效率低、訓練成本高等缺點。

2.2.2 基于生成對抗網絡的方法 生成對抗網絡是是一種通過將無監督問題視為有監督問題,并同時使用生成模型和判別模型來自動訓練生成模型的架構,因此為了提高軌跡預測的準確率,有學者采用生對抗網絡的方法為行人生成未來軌跡。在這些對抗性訓練框架中,有兩個矩陣:一個生成未來表示的生成網絡和一個鑒別器,其目的是區分預測的表示或其時間一致性[27-28],以及通過生成二進制分類分數來指示預測是真的還是假的實際地面實況數據。生成對抗網絡原理如圖5所示。Gupta等在Social-LSTM模型的基礎上提出Social-GAN[29]模型,加入生成對抗網絡預測多模態軌跡,模型架構如圖6所示。

圖5 生成對抗網絡原理圖

圖6 Social-GAN模型架構圖

Sadeghian A等提出Sophie[30]模型,該模型結合行人之間的社交使用場景上下文信息,引入注意力機制并與基于LSTM自動編碼器的生成對抗網絡相結合,來預測每個行人的未來路徑。Kosaraju等提出Social-BiGAT模型[31],通過將圖注意力機制和生成對抗網絡結合,不僅可以為給定的行人生成多個軌跡,還以多模式的方式為多個行人生成軌跡。李文禮等提出SAN-GAN模型[32],該模型基于視野域模塊捕捉行人視野域動態變化,對所有行人建立扇形視野域并篩選有效信息,可以有效預測行人在復雜環境中進行交互的未來路徑。吳家皋等提出的SRA-SIGAN模型[33],首先使用SR-LSTM獲取運動意圖信息,使得社會交互模塊能夠表達目標與相鄰行人之間的位置和運動信息,然后引入速度注意力機制模塊處理行人之間的交互,最后由GAN預測未來的軌跡。余力等提出的MAGAM模型[34]利用LSTM對每個行人的歷史軌跡序列進行建模,然后引入了融合位置信息的多頭注意力機制,來刻畫同一空間中目標行人在多個影響因素下對周圍行人的關注。張睿等提出的基于生成對抗網絡的可解釋模型[35]在GAN的框架下,引入物理注意力機制和社會注意力機制,使得模型能夠預測出物理限制和社會行為規范的多條未來軌跡?;谶f歸神經網絡方法的具體描述如表2所示。

表2 基于生成對抗網絡的方法

生成對抗網絡通過生成器和判別器之間的訓練雖然可以提高軌跡預測的準確率,但是基于GAN的模型也同時容易出現收斂速度慢、模式崩塌、過生成等問題。

2.2.3 基于圖神經網絡的方法 圖神經網絡是一類處理圖域信息的深度學習模型,而在行人交互場景中存在著豐富的圖信息,因此研究學者也開始將圖神經網絡運用到行人軌跡預測任務中。在處理時空信息時,基于遞歸神經網絡模型采用的是聚合操作,而圖神經網絡是利用圖的各結點間的信息傳輸所獲取的相關信息,從而對圖中各結點的狀態進行更新,從而得到較強的預測能力。Mohamed等提出用于人類軌跡預測的社會時空圖卷積神經網絡模型Social-STGCNN[36],該模型以時間卷積網絡作為序列解碼器,將行人交互建模為圖,然后解碼圖卷積網絡輸出的信息生成行人軌跡,模型架構如圖7所示。與Social-STGCNN模型類似的還有AVGCN模型[37],該模型利用基于人類注意力的圖卷積網絡(GCN)進行軌跡預測,并且該模型還利用變分軌跡預測的方法考慮了行人軌跡的隨機性。Li等基于Social-STGCNN模型提出Attention-GCNN模型[38],將注意力機制與圖神經網絡結合起來,通過設置邊的權重來提取行人之間的交互信息,從而預測行人軌跡。Ivanovic等提出Trajectron++[39-40],該模型是一種模塊化的圖結構的循環模型,同時結合智能體的動態和異構數據(例如語義地圖等),生成行人未來軌跡的分布。Wang等提出的Graph TCN模型[41]將空間相互作用建模為社會圖,并通過改進的時間卷積網絡捕捉時空相互作用。Shi等提出SGCN模型[42],使用稀疏有向空間圖和稀疏有向時間圖來預測行人的軌跡。Rainbow等在Social-STGCNN模型上提出Semantics-STGCNN模型[43],該模型不同類型的道路使用者之間隱含的相關性引入圖卷積神經網路中,可以更好地預測個體軌跡,并可用于用于多類軌跡預測。之后,Li等又提出Multiclass-SGCN模型[44],該模型是一種基于稀疏圖卷積網絡的多類軌跡預測方法,引入行人速度和行人標簽信息,并根據交互得分自適應地決定行人的空間和時間連接,提供了更現實和合理的軌跡預測?;趫D神經網絡方法的具體描述如表3所示。

表3 基于圖神經網絡的方法

圖7 Social-STGCNN模型架構圖

近幾年基于圖神經網絡廣泛被用于軌跡預測,也取得了亮眼的成績,并且也逐漸將注意力機制、生成對抗網絡多種方法與圖神經網絡進行結合,但是現在的大多數算法考慮到的因素單一,沒有考慮到行人運動過程中的深層運動特性以及與其類型運動個體之間的相互作用,如行人運動速度、行人運動方向、汽車運動速度等,而這些信息卻更符合真實場景中的行人運動狀態,更具有應用價值。隨著圖網絡技術的發展和成熟,圖神經網絡在軌跡預測任務中的應用將是非常有前途的。

3 數據集及性能指標

3.1 數據集在行人軌跡預測任務中,涉及數據集主要有以下幾種:ETH[45]、UCY[46]、SDD[47]、 Town Center[48]、Edinburgh[49]、Interaction[50]、Grand Central[51]、 ActEV/VIRAT。數據集詳情如表4所示。

表4 數據集詳情

3.2 評價指標行人軌跡預測任務主要有兩個評價指標:平均位移誤差(ADE)和最終位移誤差(FDE).平均位移誤差是測量軌跡的平均預測性能,最終位移誤差僅考慮軌跡端點的預測精度,兩個評價指標的公式如下:

3.3 算法性能比較在行人軌跡任務中,由于ETH和UCY數據集是廣泛被使用的數據集,因此本文中只比較基于深度學習的各個模型在這兩個數據集上的性能,比較結果如表5所示。

表5 性能比較

從表2的數據可知,基于遞歸神經網絡的方法(Social-LSTM、SS-LSTM)的預測精確度要低于基于生成對抗網絡和基于圖神經網絡的方法。而且隨著將注意力機制與圖神經網絡結合,基于兩種技術結合的方法(Attention-GCNN、Trajectron、Trajectron++、Graph TCN)的預測精度相對于只使用圖神經網絡方法的預測效果更好,其中,Graph TCN方法比Social-STGCNN方法的預測準確率提高了大約50%。因此,隨著圖網絡技術的發展和成熟,使用注意力機制和圖神經網絡結合的方法可以更精確的預測行人未來的路徑。

4 結語

本研究對近些年來行人軌跡預測任務進行研究,從軌跡預測問題的實質和挑戰為出發點,對目前行人軌跡預測方法進行分類,并且總結了不同模型的優缺點。通過研究行人軌跡預測任務的發展方向可以發現,基于深度學習的軌跡預測模型要優于基于統計學模型的方法,并且多種方法結合的模型的預測精度以及效率要高于基于單一方法的預測模型。但是,由于實際場景復雜多變,當前的軌跡預測模型在實際場景應用中還存在許多不足,因此未來行人軌跡預測任務的研究可以從以下幾個方面展開。

1)融合其他場景因素對行人軌跡預測任務所產生的影響。在現有的模型中,并未考慮到場景因素對行人軌跡變化的影響,例如道路狀況、靜動態障礙物等,因此在模型中有效地融合場景因素是十分有必要的。

2)考慮不同視角下的數據集?,F在方法中使用的數據集大部分都是俯瞰視角下產生的數據,而使用俯瞰視角數據的應用只是實際應用中的一部分,因此獲取行人的平視及第一人稱視角等不同視角的數據是之后值得研究的方向。

3)融合行人本身的主觀意圖。行人本身的主觀意圖對于該行人未來的軌跡起著重要的作用,例如行人的姿勢和方向決定了該行人是否會突然轉彎、停止,因此融入行人的主觀意圖也是行人軌跡預測任務的研究熱點。

猜你喜歡
行人軌跡神經網絡
毒舌出沒,行人避讓
軌跡
軌跡
神經網絡抑制無線通信干擾探究
路不為尋找者而設
軌跡
進化的軌跡(一)——進化,無盡的適應
我是行人
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合