?

基于立體R-CNN的自動駕駛中的路障識別與定位

2024-04-24 14:04劉啟盧林朱兆旻
時代汽車 2024年8期
關鍵詞:自動駕駛深度學習

劉啟 盧林 朱兆旻

摘 要:基于深度學習的自動駕駛技術是目前最為先進和主流的自動駕駛技術之一,它通過應用深度學習算法來實現對駕駛場景的感知、路徑規劃、行為決策和運動控制,極大地提高了自動駕駛汽車的安全性和可靠性。文章提出了一種新型的立體區域卷積神經網絡模型對自動駕駛中的路障的識別與定位進行研究。結果顯示,文章提出的方法在圖像識別精度和速度上要優于Mono3D和VeloFCN等其它模型。

關鍵詞:深度學習 R-CNN 自動駕駛 路障識別與定位

1 引言

如同互聯網工業革命,汽車的駕駛模式也正在經歷著一場變革,駕駛方式由傳統的人工操作向無人化方向演進。早在上世紀80年代美國國防高級研究計劃部署 (DARPA)就提出了自動駕駛的概念[1]。國內以百度為首的公司和高校也在蓬勃發展著自動駕駛[2]。自動駕駛具有非常大的發展前景和意義,它可以增強道路安全,緩解交通擁堵,提高車輛通行效率,還可以緩解停車難的問題,縮短消費者停車和取車的時間,另外它還能減少空氣污染,改善環境質量。美國機動工程師協會(SAE)對自動駕駛做了0-5級分級[3]。由于四級及以上對環境感知的準確性和精確性要求很高,甚至超出了人類的認知水平,所以還需要做更大的努力去發展自動駕駛技術。自動駕駛包括環境感知、智能決策和控制執行三個階段,其中環境感知是最基礎的部分。無人駕駛中感知部分的主要功能涉及計算機視覺領域研究的相關問題,適合采用CNN(Conventional neutral network,卷積神經網絡)[4]技術。

由于計算機軟硬件技術在近幾年得到了巨大的發展,因此自動駕駛中的路障識別與定位問題的解決也有了很大的進展。從最開始的端到端[5]的檢測方法到后來的兩階段檢測方法再到現在的一階段檢測方法,隨著計算機網絡速度和算力的提高,實驗所達到的路障識別速度和精度越來越好。但相對于自動駕駛所要達到的實時速度和超高的精度來說,未來還有很大的發展空間。本文主要工作是針對自動駕駛中路障的識別與定位進行研究,擴展了RGB[6]等人提出的R-CNN(Region Conventional neural network)和faster R-CNN模型,提出了立體區域卷積神經網絡(Stereo R-CNN)模型,其不僅可以用來識別自動駕駛中的障礙物,還可以進一步定位障礙物的位置。

2 CNN介紹

卷積神經網絡(Conventional neural network, CNN)是一種適合使用在連續值輸入信號上的深度學習模型,主要仿造生物的神經元機制設計。在2012年CNN一舉打破了ImageNet這個圖像識別競賽的記錄后,計算機視覺領域發生了天翻地覆的變化,各種視覺任務都放棄了傳統的方法,啟用CNN構建新的模型。經典CNN的模型結構如圖1所示:

這個卷積神經網絡有11層,從輸入端開始分別為輸入層和歸一化層,接著是5個卷積層,然后連接著3個全連接層,最后是輸出層。在5個卷積層中,前三層中采用2×2步長和5×5內核的卷積層,在后兩層中采用3×3為內核大小的無步長卷積層,即strides=1。在CNN模型基礎上,多個網絡模型相繼被提出,并且應用于在自動駕駛技術中的圖像識別與分割模塊,如區域卷積神經網絡(R-CNN)、Fast R-CNN、Faster R-CNN等。

3 立體區域卷積神經網絡(Stereo R-CNN)

卷積神經網絡在自動駕駛中將道路中的障礙物簡化成2D目標并做出識別。本節將采用立體區域卷積神經網絡模型,其不僅對3D障礙物做識別還會進一步定位。首先,使用權重共享的殘差網絡(ResNet-101)和特征金字塔網絡(FPN)作為骨干網絡,提取左右圖像的一致特征。其次,將特征輸入連接到立體區域候選網絡(Stereo RPN)中,計算IOU (Intersection over Union, 交并比)值。數據集分為正負標簽。經過立體RPN之后,得到相應的左右提案對。將RoI Align[7]分別應用于金字塔級別的左右特征圖。左和右RoI特征被連接并饋送到兩個連續的全連接層,以提取語義信息。經過ROI Align之后,添加另外兩個分支,一個用來執行關鍵點的預測,一個用來回歸精確的2D框,兩個分支的輸出形成用于3D框估計的稀疏約束。立體區域卷積神經網絡模型的網絡結構如圖2所示:

在自動駕駛中,車輛對周圍環境的感知是非常重要的。激光雷達能提供高精度的3D點云,但密集的3D信息就需要借助于雙目或多目攝像頭來獲取。本文接下來用雙目攝像頭驗證立體圖片和位置的對應關系。按照相機標定得到內外參數和單應矩陣;根據標定的結果對原始圖像進行矯正,矯正后的兩張圖像位于統一平面且互相平行,然后對矯正后的圖像進行像素點的匹配,最后根據匹配結果計算每個像素的深度,從而獲得深度圖。把同一場景在左右視圖上對應的像點匹配起來,得到視圖差,根據公式計算出深度信息,進一步精確3D障礙物的位置。雙目攝像頭實物圖及矯正后的示例圖如圖3所示:

雙目攝像頭的測距原理如圖4所示:

假設兩個攝像頭間距為,空間中一點到兩個攝像頭所成圖像上的偏移為,為視差,即從間隔一定距離的兩個點上觀察同一個目標所產生的方向差異。攝像頭的焦距為,根據相似三角形原理:

可以看出視差與三維空間上的點到投影中心平面的距離成反比;距離平面越近的目標,視差越大;距離平面越遠的目標,視差越小。因此,只要知道三位空間中某一點的視差,就可以知道該點的深度信息。本實驗使用了雙目攝像頭做了圖片定位的驗證,其中雙目攝像頭的標定、矯正和匹配主要是在amcap和VS2019上進行。

4 實驗結果與分析

本實驗硬件環境的處理器為Inter(R) Core(TM) i5-9400 CPU @2.90GHz、24GB內存和RTX3090顯卡。使用的是公開的KITTI數據集[8],KITTI數據集是由KIT和TTIC在2012年開始的一個合作項目,其網址為http://www.cvlibs.net/datasets/kitti/。數據集包括真實室外場景下的RGB雙目圖 像和雷達點云數據,其中有7481對訓練圖像對和7518對測試圖像對。我們用搭建好的網絡來測試公開數據集KITTI。本實驗所用的是3D數據集,因此需要激光雷達數據、圖像數據、標注數據以及標定校準數據。模型檢測結果如圖5所示。

圖片左邊從上到下分別是左圖像、右圖像、右邊是鳥瞰圖。使用鳥瞰圖平均精度(APbv)和三維空間平均精度(AP3d)來評估3D檢測和定位性能,結果如表1所示:

從表中可以看出,stereo R-CNN的精度優于Mono3D和VeloFCN模型。本實驗還測試了Stereo R-CNN模型的檢測性能與其它模型的對比,實驗結果如表2所示:

由表可知,Stereo R-CNN模型檢測速度優于CNN等模型。

通過表1和表2的結果,可以發現本文提出的方法在圖像識別精度和速度上要優于Mono3D和VeloFCN等其它模型,更適合運用于自動駕駛中。

5 結語

為了實現自動駕駛中的障礙物的識別與定位,本文提出了一種立體區域卷積神經網絡模型來進行實驗與驗證。實驗結果表明立體區域卷積神經網絡具有超高的識別精度與速度,優于Mono3D和VeloFCN等其它模型,適合運用于自動駕駛中。在今后的研究中,會進一步將立體區域卷積神經網絡和YOLOv7結合起來,做出更加快速和精準的障礙物的識別與定位。

基金項目:廣西省自然科學基金項目(2021GXNSFAA220048)。

參考文獻:

[1]Badue C, Guidolini R, Carneiro R V, et al. Self-driving cars: A survey[J]. Expert Systems with Applications, 2020: 113816.

[2]任柯燕,谷美穎,袁正謙,袁帥.自動駕駛3D目標檢測研究綜述[J/OL].控制與決策:1-24[2022-10-18].DOI:10.13195/j.kzyjc.2022.0618.

[3]石娟,田曉笛,王建培.自動駕駛分級方法及測試技術[J].汽車工程師,2018(09):18-21.

[4]Wanli Ye,Wei Jiang,Zheng Tong,Dongdong Yuan & Jingjing Xiao. Convolutional neural network for pothole detection in asphalt pavement,Road Materials and Pavement Design,(2021)22:1,42-58.

[5]BOJARSKI M,DEL TESTA D,DWORAKOW-SKI D,et al. End to End Learning for Self-Driving Cars[M/OL]. arXiv,2016[2022-08-11].

[6]LI P L,CHEN X Z,SHEN S J.Stereo R-CNN based 3D object detection for autonomous driving [C]. IEEE International Conference on Computer Vision and Pattern recognition. Piscataway: IEEE,2019:7636-7644.

[7]K. He,G. Gkioxari,P. Dollar,and R. Girshick. Mask R-CNN[C]. IEEE International Conference on Computer Vision (ICCV),2017,pages 2980–2988.

[8]Andreas Geiger,Philip Lenz,Christoph Stiller and Raquel Urtasun,Vision meets Robotics ;The KITTI Dataset. International Journal of Robotics Research (IJRR),2013.

猜你喜歡
自動駕駛深度學習
汽車自動駕駛的發展
LTE—V車路通信技術淺析與探討
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
特斯拉默默更改了官網上“自動駕駛”的說明
基于深度卷積網絡的人臉年齡分析算法與實現
特斯拉中國官網不再提“自動駕駛”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合