?

車載視角下基于視覺信息的前車行為識別

2024-01-13 13:04劉延偉黃志明高博麟陳嘉星劉家熙
汽車安全與節能學報 2023年6期
關鍵詞:車載卷積車輛

劉延偉,黃志明,,高博麟,鐘 薇,陳嘉星,劉家熙

(1. 廣東工業大學 機電工程學院,廣州510006,中國;2. 清華大學,汽車安全與節能國家重點實驗室,北京100084,中國;3. 國家智能網聯汽車創新中心,北京100084,中國)

自動駕駛汽車涉及的關鍵技術包括感知認知、決策規劃和控制執行等環節。其中,實現對前方車輛的行為識別是自動駕駛環境感知認知的重要內容,也是自動駕駛決策控制的重要基礎。

當前關于車輛行為識別研究的主要路徑為:通過感知前方車輛目標的時空位置,將感知數據投影于鳥瞰視角(bird's eye view,BEV)下,基于大地坐標系下的歷史軌跡信息對前車進行行為識別,進而開展自車后續的決策規劃控制。然而,在將目標的感知數據轉化為大地坐標系下的歷史軌跡過程中,容易引入不容忽視的誤差造成數據質量下降。因此直接利用車載視角下的視頻信息進行行為識別,將省去目標軌跡在大地坐標系下的轉換環節,改善坐標轉換過程中數據質量下降以及車輛行為識別的實時性問題,更有利于自動駕駛后續的決策規劃控制。因而開發車載視角下基于視頻信息的車輛行為識別具有重要意義。

目前,在車輛行為識別領域,眾多學者已經進行一系列的研究,主要可分為傳統的機器學習和深度學習2 類。其中,基于傳統的機器學習方法有:隱Markov 模型(hidden Markov model,HMM)、 支持向量機(support vector machine,SVM)、Bayes 網絡(Bayesian network,BN)等。王相海等[1]對交通視頻車輛軌跡時序特征下的車輛行駛狀態,提出一種基于HMM 的車輛行駛狀態實時判別方法,通過實時獲取車輛行駛軌跡與相應模型的匹配,從而實現對車輛行駛狀態的實時判別。還有其他學者對HMM 進行了改進,有“層次HMM”(hierarchical HMM, HHMM)[2]、HMM-SVM[3]等模型,進一步提高了識別精度,但現有基于HMM 的車輛行為識別方法大多假設車輛未來的狀態獨立于一切過去的狀態,忽略了上下文特征信息之間的關聯性,在車輛行為識別方面面臨瓶頸。黃慧玲等[4]提出了一種基于梯度方向直方圖特征和支持向量機的車輛行為識別方法,以識別前方車輛的行為,并結合Kalman 濾波進行車輛跟蹤。黨彤[5]基于節點序優化建立了多特征Bayes 行為分類模型,計算不同以頻繁變道、違章變道等為代表的車輛異常行為概率。

近年來,深度學習在各個領域都取得了長足的進步,解決了許多傳統方法無法解決的難題。衛星等[6]提出一種基于長短時記憶網絡(long short term memory,LSTM)的車輛行為動態識別深度學習算法,引入雙卷積網絡并行對視頻圖像幀的進行特征提取,利用LSTM 網絡對提取出的特征信息進行序列建模,最后輸出的預測得分來判斷出車輛行為類別。季學武等[7]設計了一種基于長短時記憶網絡的駕駛意圖識別模塊及車輛軌跡預測模塊,利用Softmax 函數計算出駕駛意圖分別為向左換道、直線行駛、向右換道的概率。蔡英鳳等[8]提出了一種SLSTMAT(Social-LSTMAttention)算法,創新性地引入目標車輛社交特征并通過卷積神經網絡(convolutional neural networks,CNN)提取,建立了基于深度學習的車輛行為識別模型,應用注意力機制來捕捉行為時窗中的多時步信息,實現了周邊車輛行為準確識別。除LSTM 網絡外, MOU Luntian等[9]基于時空卷積神經網絡(spatial CNN,SCNN)模型,提出了一種對小樣本數據集具有較高魯棒性的車輛行為結構分析模型,利用遷移學習來學習得到一個視覺特征提取器,利用金字塔架構和再加權,使DNN 模型能夠更好地處理結構化標簽中的細粒度信息。

但是,上述的車輛行為方法大多基于鳥瞰視角下(BEV)的歷史軌跡進行行為識別,所用數據主要來源于無人機視角采集到車輛歷史軌跡信息,或者路口高位定點的路測設備采集的道路交通數據(如HighD[10]、NGSIM、Mirror-Traffic 數據集),這不利于基于自車坐標系下本車后續的決策規劃控制,且上述方法大多需要在車輛的完整行為結束后才能進行識別。而目前公開的車載視角下的車輛數據集,仍主要用于目標檢測、語義分割等其它任務(如KITTI[11]、BDD100K[12]、DAIR-V2X 數據集),缺乏對行為信息的標注,這極大地限制了車載視角下的行為識別的研究。

不同于以往車輛行為識別方法主要基于BEV 視角下的車輛歷史自然軌跡信息做行為識別研究,本文提出了一種車載視角下的基于視頻的前車行為識別方法。針對缺乏車輛行為數據集的問題,提出了一種基于車載視頻信息的車輛行為數據集標注方法,構建了智能車車載視角下的行為識別數據集。搭建了以SlowFast 網絡為主體的行為識別算法模型,在行為識別算法網絡中引入非局部(non-local)操作模塊、用焦點損失(focal loss)函數來替換原有的交叉熵損失函數,以便提高行為認知算法的識別精度。

1 模型理論基礎

1.1 SlowFast 模型思想

基于視頻的車載視角下的行為識別屬于視頻理解任務中的時空動作檢測,時空動作檢測不僅需要識別出行為動作出現的區間和對應的類別,還要在視頻幀中定位出車輛目標的邊界框。

SlowFast 網絡是由Facebook FAIR 何愷明團隊[13]提出的用于視頻識別的高效網絡,該網絡通過2 條路徑以不同的幀率(快和慢)進行視頻識別,其中:

1) 慢速路徑,以低幀率運行,刷新速度較慢,用于捕捉圖像或稀疏幀提供空間語義信息,約占整體計算量的80%;

2) 快速路徑,以高幀率運行,以較好的時間分辨率捕捉時間運動信息。

通過降低通道數量,快速路徑分支可以變成輕量的網絡,僅占整體計算量的20%,同時也能夠學到視頻中有用的時域信息。具體的SlowFast 網絡結構如圖1所示,其中:C為通道數量,H為高,W為寬。

圖1 SlowFast 網絡模型結構圖

慢速路徑可以是任意在視頻片段上做時空卷積的模型。慢速路徑在對視頻幀進行采樣時,時間步長τ較大,設慢速路徑采樣的幀數是T,則輸入到模型中的視頻片段長度為

快速路徑的時間步長τ/α較小,其中,α表示是慢速路徑和快速路徑之間幀率比,取值大于1。由于快慢速路徑對同一個視頻上進行操作,因此快速路徑采樣到的幀數為αT??焖俾窂绞且粋€與慢速路徑相似的卷積網絡,但通道數只有慢速路徑的β倍,其中β<1 。

SlowFast 通過多次的橫向連接來融合雙流分支的特征信息。最后, 將2 條路徑的輸出進行全局平均池化,以池化后的慢速路徑特征向量最后一維與快速路徑特征向量的第一維前后拼接在一起后作為全連接分類器層的輸入。

1.2 3D 卷積

在二維卷積神經網絡(CNN)中,卷積操作應用于2D 的特征圖,僅能從空間維度計算特征,如圖2 所示。而當進行時空卷積時,其卷積操作方式見圖3,模型的輸入是多個連續幀組成的視頻片段,通過運用3D 卷積核進行操作,卷積層中的特征圖都會與上一層中的多個相鄰幀相連,從而可以捕獲運動信息。

圖2 二維卷積操作示意圖

圖3 三維卷積操作示意圖

由于3D 卷積比2D 卷積多了一個時間維度,純3D卷積網絡(C3D)參數更多,更難以訓練。且從頭訓練純3D 卷積網絡,不能很好利用已經成功預訓練好的圖像分類模型。Carreira 等[14]提出I3D 模型,與C3D 不同,I3D 中的3D 網絡由圖像分類的2D 網絡“膨脹”(inflate)得來(即由二維的卷積核復制三份堆疊形成三維的卷積核),從而可以充分利用已有的圖像分類模型,I3D 的性能全面超越C3D,自此由2D 網絡“膨脹”而來的3D卷積網絡逐漸成為主流。

2 數據集

數據集推動車輛行為認知視覺任務的發展,要實現智能車車載視角下的行為識別的首要任務就是構建車載視角下車輛行為時空標注的數據集。

2.1 標注方法

2.1.1 車輛行為分析

通過觀察大量的真實交通環境場景,本文遵循3個原則來定義數據集的行為標簽:一般性、原子性和相關性。其中:一般性指的是需要標注車輛在日常行駛場景中的一般動作,而不是特定環境中的特定活動;原子性指的是車輛行為動作類別需要具有清晰的視覺特征,每個行為類別之間應該相互獨立;相關性指前方車輛所發生行為會為自車的決策規劃造成一定的影響。最終本文定義出來5 類行為進行標注:左變道、右變道、左轉彎、右轉彎、橫行穿越。

2.1.2數據來源

本研究所使用的數據來源于車載智能攝像頭采集的真實交通場景數據。這些數據是從廣東和福建省內多個城市采集的,包含了不同的天氣狀況(晴天、陰天和雨天)以及在不同時間(白天和夜間)下的情況。采集場景涵蓋了典型的高速路況和城市路況等交通場景。共采集了1 244 個時長為3 min 的高清視頻,幀率為30 s-1,總計數據量達62.2 h。為了便于后續的分析和處理,從原始視頻中截取了車輛行為片段,并將每個片段的時長統一為15 s,共450 幀。

2.1.3 標注規則

對有行為發生的關鍵幀,以3幀/s的頻率進行標注,如圖4 所示。

圖4 關鍵幀標注示意圖

以變道行為為例,從變道壓線前的車身姿態發生明顯變化處前約0.5 s 處開始標注,完成變道后不壓線且車身位于同一車道內以車身姿態回正后0.5 s 作為結束標注的時刻。標注范圍為本車道、相鄰、相隔車道正前方第一排完整、無遮擋且能持續完整行為過程的車輛目標。標注內容包括圖像幀中的車輛邊界框、行為類別、車輛ID,前后關鍵幀的車輛目標需要進行跟蹤匹配。車輛目標檢測框貼合度為3 像素,檢測框的準確率為98%的框準。需要標注的詳細信息(視頻名字2501、車輛ID 為1)如表1 所示,(X1,Y1)表示邊界框的左上角,(X2,Y2)表示邊界框的右下角。

表1 標注信息示例

2.2 數據集特征

2.2.1 數據集統計分析

基于車載視角的車輛行為數據集經過標注,共包含3 110 個15 s 的車輛行為視頻片段,72 435 張關鍵圖像幀,行為標注量達6 239 個,車輛邊界框標注共100 463 個。各類別標注數量分布如圖5 所示。

圖5 數據集行為類別數量統計

車輛行為數據集訓練、測試集在車輛行為視頻片段級別被劃分,因此一個15 s 的車輛行為視頻片段中的所有行為只會出現在訓練集或測試集中,3 110 個車輛行為視頻片段分為2 488 個訓練、622 個測試,訓練集和測試集大致為4:1。

2.2.2 數據集特點

1) 多目標標注。當一個視頻里有多個車輛目標同時執行不同的行為時,每個行為都會進行標注,這使得數據集的復雜度增加。

2) 只對關鍵幀進行標注。同一車輛行為在車輛行駛過程中會持續數秒時間,只對關鍵幀進行標注既保證了行為的連貫性,也大大減少了標注的工作量,提高了標注效率,降低標注成本。

3) 標注內容豐富。不同于基于圖片的車輛目標檢測數據集,車載視角下車輛行為識別數據集的標注基于時空信息進行,一個完整的行為需要在多幀關鍵幀上進行聯合標注,覆蓋從行為開始時刻到結束時刻的所有關鍵幀;同時需要標注車輛的ID,以便在前后多幀中進行匹配跟蹤。

3 車載視角行為識別算法

3.1 車輛行為識別算法框架

車輛行為識別算法框架如圖6 所示。將車輛行為視頻解幀為視頻幀序列,依據SlowFast 行為識別模型參數選取快、慢速路徑的關鍵幀,然后使用時空卷積模型提取視頻序列的時空特征,將快慢速路徑的時空特征經過全局平均池化后進行融合拼接,作為全連接層的輸入,最終得到視頻中車輛的行為識別結果。

圖6 車載視角行為識別算法框架

3.2 SlowFast 網絡參數設計

SlowFast 模型的思想是通用的,可以靈活使用不同主干網絡進行實現。表2 所示是本文SlowFast 的網絡結構設計,采用“膨脹”而來的3D ResNet-50[15]作為主干網絡。

表2 SlowFast 網絡參數設計

3D ResNet 是一種深度神經網絡架構,3D ResNet直接采用2D ResNet 的網絡架構設計,通過用3D 卷積層代替2D 卷積層來擴展ResNet 塊,3D 卷積層可以從輸入視頻中捕獲空間和時間特征。內核的維度由{T×S2,C}表示,T表示幀數量、S2表示特征圖尺寸、C表示通道數。此處速度比例是α=8,通道比例是β=1/8,時間步長τ=16,即輸入連續的64 幀的視頻片段,慢速路徑采樣4 幀關鍵幀,快速路徑采樣32幀關鍵幀。

3.3 損失函數設計

在時空行為檢測行為分類任務中,通常采用的是交叉熵損失(cross entropy loss)作為多標簽分類的損失函數,交叉熵損失函數表示為

式中,pt是模型給出的預測概率。但交叉熵損失函數沒有考慮車輛行為識別數據集類別樣本不均衡的問題,直接運用原始的交叉熵損失函數,負樣本所占比例會非常大,成為主導梯度的優化方向,從而導致模型訓練的準確率較低。

焦點損失函數Focal Loss[16]在交叉熵損失函數的基礎上引入加權因子θ,可以在訓練中讓小數量的目標類別增大權重,讓大數量的目標類別減小權重;通過引入γ聚焦參數,讓分類錯誤的樣本增加權重,從而使模型在訓練時更專注于困難分類的類別樣本,在整體上提高行為識別算法的識別準確率。Focal Loss 的函數表達式為

式中:θ是加權因子,其取值范圍在0~1,θ和(1-θ)是別用于控制正負樣本的比例;γ是聚焦參數,其取值范圍為[0, +∞),γ越大,對易分類樣本的懲罰力度就越大。

3.4 Non-local 模塊設計

為了提高模型對視頻長距離時空依賴性信息的提取能力,提高識別的準確率,在網絡模型結構中引入Non-local[17]自注意力機制模塊。

在深度學習網絡中,卷積操作和循環神經元操作都是在本地局部操作,是一個建立處理局部范圍信息的過程,通常需要堆疊許多層才能完成長距離的時空依賴關系的建模,然而過多的層數會帶來計算效率低、優化困難的缺點。而Non-local 模塊把非局部感受野的信息提取操作做成一個簡單且通用的神經網絡模塊。它的提出是基于計算機視覺中的非局部均值方法,非局部操作可以將輸入特征所有位置的信息進行加權求和,這些位置可以是基于空間域、時間域、甚至是頻域,可以快速捕獲長距離的時空依賴關系,這方便了端到端的視頻分析。Non-local 操作的定義為

式中:i是輸出位置的索引,j是需要枚舉的所有可能位置。f作為計算i和j相關因子的函數,g作為輸入信號的表征。響應通過C(x)進行了歸一化。因此,Nonlocal 操作可以將所有位置考慮到,獲取長程依賴,并應用在各個尺寸的輸入上,輸出相同的尺寸。

結合Non-local 的公式,可以將Non-local 模塊的形式定義為

式中:xi是輸入,zi是輸出,Wz是權重參數,yi是nonlocal 計算公式,Non-local 操作可以很好地使用矩陣進行計算。

4 實驗及結果分析

4.1 實驗環境配置

車載視角下的行為識別算法基于Python3 語言開發,實驗使用的云服務器基于Ubuntu 20.04 操作系統。硬件環境CPU 為Intel(R) Xeon(R) Platinum 8358P CPU@ 2.60 GHz;GPU 配備的是2 塊GeForce RTX 3 090,顯存24 GB。軟件環境使用的深度學習框架是Pytorch 1.10.0,CUDA 10.3。

4.2 實驗內容與訓練

為了驗證本文提出的車載視角下行為識別算法的有效性,從以下3 個方面開展網絡模型對比實驗:

1) 與原SlowFast 模型對比,使用焦點損失函數替換原有的交叉熵損失函數前后,模型的識別效果。

2) 對比Non-local 模塊加入SlowFast 網絡前后,模型的識別效果。

3) 對比損失函數重新設計、加入Non-local 模塊前后,模型的整體識別效果。

本文的模型訓練采用隨機梯度下降優化方法(stochastic gradient descent, SGD)來優化網絡模型中的參數,數據集訓練輪數(epoch)設置為50,動量參數(momentum)取值為0.9,批量大小(batch size)設為8,權重衰減(weight decay)設置為10-5,學習率初始化設置為0.015,輸入到網絡模型中的每個關鍵幀都降采樣到224×224 大小。

4.3 車輛行為識別結果分析

本實驗將車輛行為數據集劃分為訓練集和測試集,大致為4:1。將劃分出來的訓練集用于訓練模型,將訓練好的模型在測試集上進行測試,識別測試集視頻中的車輛行為。具體的測試集各類別統計數量見圖7。

圖7 測試集行為類別數量統計

本文采用總體準確率-Accuracy (被識別為正確的行為個數,占測試集的總行為數的比例)、精確率-Precision(被識別為正確的某類行為個數,占算法判定為該類行為個數的比例)、召回率-Recall(識別正確的某類行為個數占測試集中該類行為標注個數的比例)作為評價指標。

車輛行為識別算法在測試集上的結果如表3 所示。

表3 總體正確率-行為識別結果

從表3 可知:引入Non-local 模塊和使用焦點損失函數替換原有的交叉熵損失函數,能有效提高模型對各車輛行為類別的精確率和召回率。綜合考慮各車輛行為類別的精確率和召回率在方案4 的行為識別算法模型中的表現,左變道行為識別效果較好,精確率和召回率都超過了78%;右變道行為識別精確率77.44%,召回率70.23%,橫行穿越行為精確率70.80%,召回率超過65%;上述3 種行為識別效果表現均高于左、右轉彎行為。

其可能存在的原因:1) 左右轉彎行為持續時長通常大于變道、橫行行為;2) 轉彎行為前半段車輛視覺特征與變道行為有一定的相似性,后半段車輛視覺特征與橫行穿越行為有一定的相似性,導致行為識別模型容易將轉彎誤判為其他3 類行為,從而降低轉彎行為準確率。

通過更改交叉熵損失函數為焦點損失函數,方案2 相較于方案1 總體準確率提高了11.6%;通過添加Non-local 模塊提高模型對長距離時空依賴性信息提取能力,方案3 相較于方案1 提高了14.96%;通過比較方案2 和方案3,方案3 的行為總體準確率比方案2 高3.36%,說明提高模型的時空信息提取比增大對困難類別行為的識別權重更為有效。通過同時融合Non-local模塊和焦點損失函數,行為識別算法模型識別的總體準確率得到進一步的提升,相較于SlowFast 原模型總體準確率提高了20.56%,達到68.12%。

5 結 論

本文提出了一種車載視角下的基于視覺信息的前方車輛行為識別方法,根據前方車輛行為特點,提出了基于車載視頻信息的車輛行為數據集標注方法;設計了以SlowFast 網絡為主體的行為識別算法模型,實現了車載視角下基于視覺信息的前方車輛行為識別。且在SlowFast 原模型的基礎上,做了以下2 點改進:

1) 為了解決數據集類別數量不均衡的問題,使用焦點損失函數替換原有的交叉熵損失函數;

2) 引入Non-local 模塊提高了模型對視頻長距離時空依賴信息的提取,使模型能夠捕捉視頻中不同位置和時間的相關特征,增強模型對視頻動態變化的理解和判斷能力。

同時運用這2 點改進了原SlowFast 模型,改進后的模型總體準確率提高了20.56%,達到68.12%。研究工作對包括自動駕駛領域、智能交通系統、駕駛員行為分析等方面具有較為廣泛借鑒意義。

本文的行為識別算法模型對左、右轉彎行為的識別準確率還較低。今后工作研究的重點一是繼續擴充車輛行為識別數據集,平衡數據集中各類行為標簽的數量;二是提升左右轉彎行為的準確率,從整體上提高行為識別算法的實用性。

猜你喜歡
車載卷積車輛
基于3D-Winograd的快速卷積算法設計及FPGA實現
高速磁浮車載運行控制系統綜述
從濾波器理解卷積
車輛
基于傅里葉域卷積表示的目標跟蹤算法
智能互聯勢不可擋 車載存儲需求爆發
冬天路滑 遠離車輛
提高車輛響應的轉向輔助控制系統
基于ZVS-PWM的車載隔離DC-DC的研究
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合