?

基于深度學習的智能車輛軌跡預測綜述*

2024-02-20 11:12楊榮淼張國宗
汽車文摘 2024年2期
關鍵詞:注意力軌跡卷積

楊榮淼 張國宗

(1.重慶交通大學機電與車輛工程學院,重慶 400074;2.四川輕化工大學機械工程學院,宜賓 643022)

0 引言

計算機視覺、傳感器信號處理、硬件設計等領域的最新技術進展,使自動駕駛技術從“可能”、“可行”發展到“商用”狀態。然而,自動駕駛車輛應對復雜行駛場景和緊急交通任務的能力仍存在局限性[1]。因此,提高自動駕駛汽車智能系統的性能非常重要。預測智能體(Agent)未來時刻的位置并根據預測結果做出合理的規劃是自動駕駛車輛和高級監控系統(包括智能交通或者智能城市)的關鍵任務。理解交通智能體的行為是智能系統與人類共存和互動的一項關鍵技能,其中涉及表征、感知和運動分析等方面,而預測在運動分析中起著重要的作用。預測車輛運動主要面臨3個重要挑戰:

(1)在復雜的多車行駛場景下,車輛的運動狀態會受其他車輛影響;

(2)車輛運動呈現多模態特征,即給定相同的車輛運動歷史,會輸出多個不同的合理軌跡;

(3)在缺失道路幾何形狀和交通規則約束的情況下,特定場景訓練的模型泛化性較差。

本文針對復雜行車場景中車輛軌跡預測問題,綜述了近幾年的研究成果,并根據輸入表示、軌跡輸出類型、預測方法進行綜述與分析,基于分析結果總結智能車輛軌跡預測領域發展現狀,并對未來趨勢進行展望。

1 智能車輛軌跡預測算法綜述

由于深度學習的方法能高效地提取時間與空間交互關系并能更好地進行長時域預測[2],現有研究方法主要是基于深度學習的方法來解決軌跡預測問題。因此,本文綜述了近幾年基于深度學習的車輛軌跡預測研究成果,從輸入表示、輸出類型和預測方法方面進行總結及探討。

1.1 輸入表示

常用的軌跡預測算法的輸入表示見表1。

表1 軌跡預測算法的輸入表示

1.1.1 車輛運動狀態

傳統基于模型驅動的軌跡預測方法常以速度、加速度等作為輸入構建車輛運動學或動力學模型來實現單一車輛短時域的軌跡預測。Abbas 等[3]使用5 種卡爾曼濾波模型對車輛的5種運動狀態進行預測,但該方法僅限于短時域預測,并難以考慮周圍車輛的影響。文獻[4]用車輛的橫縱向位置坐標、速度和航向角的軌跡歷史序列預測車輛的機動行為,但忽略了車輛間的交互感知。文獻[5]指出受車輛傳感器限制和障礙物遮擋,車輛不能有效地獲取周圍車輛的運動狀態,使用單一車輛的運動狀態信息作為輸入的深度學習模型進行軌跡預測。為了研究車輛間相互作用關系,學者們在軌跡預測研究中輸入目標車輛與周圍車輛的運動狀態信息。在文獻[6-7]中將車輛和鄰近車輛的運動狀態歷史作為輸入來預測車輛未來的軌跡,研究表明車輛在合理感知范圍內能準確地獲取周圍車輛的運動狀態信息。

1.1.2 地圖表示

考慮環境條件和交通因素能夠更好地預測車輛的運動狀態,學者們將高清(High Definition,HD)地圖信息和車輛軌跡信息融合來精確預測車輛運動狀態。高清地圖主要有2 種表示方法,包括柵格化地圖和矢量化地圖,如圖1 所示。

圖1 地圖表示方法[11]

柵格化地圖將高清地圖簡化為鳥瞰圖(Bird's Eye View, BEV)。該方法將駕駛場景中動態交通參與者和靜態環境等因素表示為多邊形和線條集合,并保留交通參與者的形狀、位置和道路信息集合。文獻[8]使用CoverNet 來提取柵格化地圖的語義特征。文獻[9]使用卷積神經網絡(Convolutional Neural Network,CNN)在柵格化地圖中提取車輛的運動狀態特征和交互表示。柵格化的方法可解釋性好,語義信息豐富全面,可融入更多的地圖信息(紅綠燈),但該方法感受野受限,柵格化處理過程中會丟失信息,連續的卷積計算效率較低。

柵格化表示交互作用局限,為了更好地構建車輛間、車輛與地圖間的相互作用關系,一些學者將交通參與者和靜態環境表征為矢量化圖結構。文獻[10]認為矢量化地圖能夠更好地用于軌跡預測。文獻[11]將駕駛場景中動靜態對象及交互關系表征為節點和折線進行交互。文獻[12]使用矢量化地圖來表征車輛與對應的車道信息。文獻[13]使用矢量化的方法構造了復雜的車輛、拓撲結構和車道的相互依賴關系。矢量化地圖具有較強的交互關系建模能力,高效的圖數據結構有更少的模型參數,但存在一定信息損失。

1.1.3 其他方法

在一些研究方法中,將原始數據輸入到軌跡預測模型中,輸入數據包含了所有周圍環境的可用信息,但輸入數據量較大,需要更多的計算負載。為了緩解計算負載,可使用不同任務共享計算資源。文獻[14]以數據驅動的方法實現自動駕駛系統中目標檢測、跟蹤和預測。文獻[15]利用激光雷達數據作為輸入,使用同樣的方法來完成任務功能。該模型使用了簡化的BEV 處理,同時將3D 點云數據輸入到深度模型中。

1.2 輸出類型

預測模型的軌跡生成方法主要分為機動意圖、單模態以及多模態3個類型,如表2所示。

表2 軌跡預測算法的輸出類型

1.2.1 機動意圖

機動意圖可以是預測模型的最終輸出,也可以是預測模型的一個輸出分支(通過預測車輛機動意圖來協助軌跡預測)。劉志強等[16]使用基于隱馬爾可夫和支持向量機的方法來識別駕駛意圖。Ding等[17]使用意圖預測模型預測高速場景下車輛的變道和保持車道行為。季學武等[18]利用長短期記憶網絡(Long Short Term Memory,LSTM)識別駕駛意圖后進行車輛軌跡預測,如圖2所示。但基于機動意圖的方法存在意圖識別誤差,會導致預測結果偏差過大,甚至造成車輛駕駛安全事故。

圖2 機動意圖及軌跡預測的網絡結構[18]

1.2.2 單模態

預測模型輸出單個或多個交通參與者的未來軌跡。文獻[19-20]采用隨每個時間步產生對應位置的軌跡生成方法。文獻[21]使用深度學習的方法學習3次多項式的3個參數表示未來的軌跡。文獻[22]解碼模塊生成每個時間步對應位置的二元高斯分布的均值、標準差和相關系數,并討論了單模態的軌跡生成方法收斂趨于所有模態的平均值,該方法表示復雜的車輛運動狀態比較局限。

1.2.3 多模態

多模態預測方法是指在預測車輛未來運動軌跡時,考慮到車輛可能存在不同的運動模式,并預測每種模式下的軌跡。為了更好地獲取預測軌跡,Guptade 等[23]提出一種生成對抗網絡,通過學習鑒別器來區分預測軌跡是否正確,即設計一種對抗損失函數來判定預測的好壞,如圖3 所示。Kingma等[24]提出了條件變分自動編碼器,采用神經網絡參數化對變分推理中的分布,提高了模型的生成能力?;谏蓪咕W絡和條件變分自編器的方法采用隱式分布建模而難以訓練,基于歸一化流模型能夠顯示學習參數分布,該方法可以通過可逆變換將復雜的分布變換為易處理的形式。Bhattacharyya等[25]通過基于Haar小波軌跡塊自回歸該模型進行拆分耦合學習預測分布。Zhao等[26]使用基于預測終點條件的錨點方法,該方法通過采樣車道中心線的位置來預測車輛的終點位置,但應考慮障礙物導致無法到達終點的情況,如圖4所示。Chai等[9]使用原軌跡條件的錨點方法,該方法對軌跡集中進行聚類分析來獲得多模態未來分布,但應對復雜的場景時該方法比較局限。Li等[27]使用基于網格的方法,搜索具有topK個累積對數概率的軌跡?;诰W格的方法可以高度兼容具有高級訓練策略的場景,并且適應于長時域預測,其缺點是需要大量卷積計算和對地圖分辨率要求較高。Deo等[6]使用雙變量高斯表示輸出,在每個時間步的位置生成雙變量高斯分布,通過負對數似然損失函數來獲取最高可能性的預測分布。

圖3 生成對抗網絡結構[23]

圖4 運用錨點的多模態方法[26]

1.3 預測方法

將現有研究所使用的預測模型分為遞歸神經網絡(Recurrent Neural Network,RNN)、卷積神經網絡(Convolutional Neural Network,CNN)、遞歸和卷積神經混合網絡(RNN&CNN)、圖神經網絡(Graph Neural Network,GNN)和注意力機制(Attention),如表3 所示。

表3 車輛軌跡預測算法

1.3.1 遞歸神經網絡

RNN 在應對時序問題時展現出強大的信息處理能力和深度表征能力,因此越來越多的學者使用遞歸神經網絡來處理時間序列問題[18]。RNN 存儲了當前時間步的歷史信息,其輸出由隱狀態和輸入共同決定。其模型的參數量不會隨時間步的增加而增加,但時間步過長,其梯度存在“梯度消失”和“梯度爆炸”的問題。在軌跡預測中常采用LSTM和門控循環單元(Gated Recurrent Unit,GRU)解決這一問題。同時,GRU 相比LSTM 結構較簡化,計算速度更快,適用于數據量較小的任務[28]。根據現有RNN 的軌跡預測研究,可分為單RNN 和多RNN 模型。

單RNN 模型常適用于基于機動和單模態的軌跡預測模型或者其他輔助模型,來實現更復雜的任務,例如車輛交互感知。文獻[4]將LSTM作為序列分類器來預測車輛的機動類型。Altché等[19]將車輛歷史運動狀態序列輸入單層LSTM 來預測高速場景車輛的軌跡。為了預測基于機動的軌跡,Ding 等[20]采用LSTM編碼器對車輛運動狀態信息編碼來預測車輛的機動,并且結合地圖信息預測軌跡。

多RNN 結構常適用于解決預測問題。Xin 等[5]使用2組LSTM搭建模型,一個LSTM預測車輛未來的目標車道,同時,結合目標車輛的運動狀態和預測的目標車輛結果預測車輛未來的軌跡。Dai等[7]也采用2組LSTM 實現車輛的軌跡預測,一組用于目標車輛與所有周圍車輛的單個軌跡序列編碼,另一組用于目標車輛與周圍車輛的相互作用關系的交互建模。Ding等[17]利用GRU 編碼器來構建目標車輛與周圍車輛之間的相互作用關系,并預測車輛在長時域內的意圖,如圖5所示。

1.3.2 卷積神經網絡

隨著CNN在計算機視覺等領域快速發展,學者們也將CNN 用于解決軌跡預測問題。卷積神經網絡組成包括卷積層、激活函數、池化層及全連接層。Nikhil等[29]認為車輛軌跡序列具有強時間空間連續性,使用CNN 優于RNN 預測軌跡,其使用卷積層和全連接層實現了車輛未來軌跡的預測。Song等[30]使用一維時間卷積將車輛運動狀態序列嵌入到高維向量進行數據提取。然而,現有軌跡預測研究方法中,CNN 常被用于提取鳥瞰圖的特征。Phan-Minh等[31]根據車輛運動狀態(速度、加速度和橫擺角速度)生成軌跡集,并結合CNN處理的柵格圖像,將發生概率最高的軌跡作為車輛未來的軌跡,如圖6所示。Luo等[14]使用三維卷積在時間維上對體素化激光雷達數據的4D表示提取時間特征,然后使用二維卷積提取空間特征。最后通過2 個分支,分別輸出當前和未來幀的被檢測對象的標記框。

圖6 運用CNN的網絡結構[31]

1.3.3 卷積和循環神經網絡

卷積和循環神經網絡混合的方法使用RNN 在時間序列信息中提取時間特征,并且使用CNN提取空間特征。因此,學者們使用CNN 和RNN 混合的方法挖掘車輛運動狀態的時間和空間的特征。Alahi等[32]將LSTM和全連接池化層結合,將空間范圍內LSTM的特征池化到以目標車輛為中心的網格。Deo等[33]認為卷積池化層相比全連接池化層能更好地提取空間特征,其在合理感知范圍內給每輛車一個LSTM編碼器提取車輛的時序特征,然后饋送到卷積池化層中提取局部空間交互特征,進而輸入到基于機動的LSTM 解碼器來輸出車輛未來的軌跡分布。Schreiber等[34]使用CNN提取簡化鳥瞰圖中車輛在不同時間步的周圍環境特征,然后輸入到基于編碼-解碼框架的LSTM提取輸入數據的時間特征,進而將解碼器輸出饋入到反CNN來生成輸出圖像,這些圖像表示車輛的周圍環境在未來的演變。Lee 等[35]使用基于編碼-解碼的GRU 生成軌跡分布,并輸入到解碼器GRU中進行細化和排序。同時,后一個模塊還接收使用CNN 提取的場景特征。Zhu 等[36]使用基于CNN、GRU 和LSTM 混合網絡,該方法由3部分組成:基于池化和GRU混合網絡提取全局時空交互特征、基于CNN網絡提取環境特征以及基于編碼-解碼的LSTM預測網絡。

1.3.4 注意力機制

注意力機制能在復雜的數據中快速高效地關注到高價值信息。隨著注意力機制在視覺、自然語言處理等領域快速發展及應用,學者們將注意力機制用來解決軌跡預測問題。在視覺處理中,現有的注意力機制主要分為通道域注意力、空間域注意力及混合域注意力。在自然語言處理中,注意力機制主要包含自注意力和多頭注意力。文獻[37]使用基于多頭注意力機制賦予車道和車輛注意力權重,并輸出未來軌跡的分布。Messaoud 等[38]賦予場景中每輛車一個LSTM編碼器,并利用多頭注意力池來挖掘車輛之間的相互作用關系。Lin 等[39]將注意力和LSTM 編碼器結合來提取車輛運動狀態的時間序列特征,并賦予每個時間步注意力權重。同時,利用注意力機制挖掘空間特征,并賦予周圍車輛空間交互注意力權重,提高了模型的可解釋性。Vaswani 等[40]提出了Transformer 模型,該模型使用了單頭注意力機制和多頭注意力機制搭建來完成序列機器翻譯任務。該方法可以并行計算序列數據,RNN 會受序列計算的約束。Zhao 等[41]使用基于通道-空間注意力機制的方法,利用通道注意力機制在輸入數據的通道維度上表征車輛間的全局交互,并利用Transformer 提取空間特征并輸出車輛未來的軌跡預測,分析了通道和空間注意力串并行結構和模型在不同交互場景密度預測的性能,如圖7所示?,F有研究中使用Transformer 將交通參與者與環境之間進行交互性建模。Liu 等[42]使用Transformer 將環境信息融合到軌跡序列來預測未來軌跡。由此可見,基于Transformer模型在處理時間序列數據方面具有優勢。

圖7 通道注意力和Transformer結合的網絡結構[41]

1.3.5 圖神經網絡

圖神經網絡在軌跡預測研究中將駕駛場景中的交通參與者表示為一個節點,將交通參與者間的關系表示為一條邊,所有的點和邊集合形成一個圖。圖神經網絡與現有研究中RNN 和CNN 的方法相比,能夠提取非歐幾里得空間數據特征。在復雜的駕駛場景中,每個場景都可以視作一個不規則的圖,每個圖的節點由交通參與者的運動狀態特征表示或者靜態環境信息表示。每個圖的節點間存在相互關聯的邊,能夠用來表示場景中交通參與者的相互依賴關系。因此,圖神經網絡適用于解決基于交互的車輛軌跡預測問題。

圖卷積網絡(Graph Convolutional Network, GCN)將傳統的CNN擴展到圖數據卷積處理,能夠將圖中的節點特征構成的鄰域結構映射獲取數據特征信息。Li等[43]提出了一種基于GCN和LSTM混合網絡的軌跡預測模型,用幾個圖卷積塊編碼輸入軌跡數據和基于編碼-解碼的LSTM 模型輸出車輛未來的軌跡預測。在駕駛場景中考慮車輛間的距離來定義交互關系,該方法相比CNN 和RNN 的軌跡預測有較大的改進,但缺乏泛化性。使用固定圖和動態圖優化了原有方法預測不同類型的交通參與者的軌跡[44]。同時,由于GCN模型存在一個典型問題—過平滑,可使用跳過連接(類似殘差連接)來緩解這個問題,最后將LSTM 替換成GRU來預測車輛未來的軌跡。

為了考慮交通參與者的機動,一些學者采用基于譜聚類的圖卷積網絡。Chandra 等[45]提出一種基于譜聚類GCN的車輛軌跡預測方法,該方法可以提取交通參與者的低級信息(未來軌跡)和高級信息(交通參與者行為機動),其使用2 層基于GCN 和LSTM 混合網絡,分別用來預測交通參與者的空間坐標和建模交通參與者的空間交互來預測其超速等行為,但其使用單一行為特征進行預測導致模型的泛化性差和計算量過大。Zhao等[46]使用基于頻譜GCN預測軌跡,該方法考慮了周圍車輛的交互能夠共享場景內所有車輛的狀態信息,符合車輛間社會交互。

使用GNN 表示矢量化地圖。Ziegler 等[10]率先將矢量化地圖應用于軌跡預測,將車輛及車道進行地圖拓撲來提取出未來沿車道的軌跡,但其忽略了車輛間交互。Gao 等[11]使用層次圖神經網絡VectorNet,該方法首先利用向量表示交通參與者以及靜態環境的空間局域性,同時建模所有對象的高階相互作用。Liang等[12]使用基于CNN和GCN混合網絡,該方法使用CNN提取車輛特征并用GCN 提取矢量地圖中車道特征來預測軌跡,如圖8所示。

圖8 運用GCN的網絡結構[12]

一些研究也使用其他圖神經網絡來實現軌跡預測。圖注意力網絡(Graph Attention Network,GAT)通過注意力機制對鄰接節點進行聚合來對不同鄰接節點的自適應校核,該方法能夠提高圖神經網絡特征提取能力[47]。Huang等[48]使用圖注意力網絡預測軌跡,該方法利用LSTM編碼器編碼交通參與者的運動狀態信息,然后將編碼信息輸入到GAT塊計算每個交通參與者的注意力權重。最后,該模型使用LSTM 解碼器來生成預測軌跡。圖神經網絡根據邊的方向性可以劃分為有向圖和無向圖。Zhang等[49]使用社會圖網絡軌跡預測。該方法根據實時位置和速度方向動態構建有向圖來有效地獲取交通參與者的運動狀態。使用基于社會圖和LSTM 構成的網絡表示社會交互,利用時間隨機方法序列學習社會交互不確定性形成先驗模型,對先驗模型進行采樣,使用LSTM解碼器來預測軌跡。Salzmann等[50]提出圖結構遞歸網絡來生成動態可行的未來軌跡,該方法使用有向時空圖表示駕駛場景,并緊密地集成到車輛規劃控制系統。

2 結束語

為使智能車輛在復雜的交通場景下安全高效地行駛,智能車輛需要能夠自主準確地理解交通參與者的相互作用關系和預測其運動狀態。傳統的預測方法已經無法滿足自動駕駛系統對場景的復雜性和車輛行為多樣性的需求。本文綜述近幾年智能車輛的軌跡預測研究方法,通過輸入表示、輸出類型和預測方法進行分析,對本文的總結及展望如下。

(1)目前大部分預測模型將交通參與者的運動狀態和靜態環境嵌入,然后使用深度學習等方法對車輛間、車輛與道路間的交互建模,進而利用多模態軌跡生成方法產生車輛未來的軌跡。相比傳統預測方法,深度學習方法能更好地建模時空特征聯合交互以及解決長時域預測的問題。

(2)車輛軌跡預測的嵌入方式主要采用柵格化和矢量化。柵格化方法可解釋性好,語義信息豐富全面,但感受野受限,存在信息丟失以及連續的卷積計算效率較低。矢量化方法具有較強的交互關系建模能力,高效的圖數據結構有更少的模型參數,但存在一定信息損失。針對輸入表示的問題也需要提出更好的方法。

(3)車輛預測軌跡生成方法可以分為3種類型:機動意圖、單模態和多模態。機動意圖產生車輛行為意圖來協助預測,但存在意圖識別誤差,會導致軌跡預測偏差過大。單模態輸出單個或多個交通參與者的未來軌跡,但表示復雜的車輛運動狀態局限較大以及輸出單一可能軌跡會忽略未來的真實軌跡。多模態將輸出軌跡表示在合理的軌跡集中,能更好地生成未來可能的軌跡。多模態也是軌跡預測領域未來主要研究方向。

(4)目前大多數預測方法只考慮車輛的運動狀態和環境結構,交通規則可以重塑車輛在駕駛場景中的軌跡,但是很少被作為輸入。車輛其他視覺和聽覺數據也可以用來預測車輛的軌跡。大部分預測方案僅限于特定的行車場景(十字路口),其方案存在局限性。

猜你喜歡
注意力軌跡卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
軌跡
軌跡
從濾波器理解卷積
軌跡
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
進化的軌跡(一)——進化,無盡的適應
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合