?

自動泊車多任務輕量化感知模型研究

2024-04-18 03:17李景俊黃輝翁茂楠
汽車科技 2024年2期
關鍵詞:深度學習

李景俊 黃輝 翁茂楠

摘? 要:隨著深度學習模型的發展,越來越多的模型用于各個行業,包括自動駕駛行業,但同時也面臨著輕量化感知模型以及產品落地的挑戰。然而在自動駕駛泊車感知中,常常受到光照、陰影等環境變化的影響,對空車位檢測和可行使區域的識別是很大的難題。本文的算法通過車身左側、右側、前側、后側等四個車載180度廣角魚眼攝像頭實時獲取視頻流,先將采集到的圖像利用卷積神經網絡對車輛所處區域周邊各車位的狀態、車輛可行駛的區域進行計算推理,然后對模型推理結果進行解析與融合。利用一個輕量級網絡解決自動泊車過程中進行車位的感知和路面可行駛區域的感知,實驗結果表明,幀率可達到19FPS,模型推理幀率可達到29FPS,單車位角中心點定位世界坐標系下平均誤差為2.65cm,空車位檢測成功率90%以上,滿足實際應用對實時性、準確性、魯棒性的要求。

關鍵詞:自動泊車;深度學習;空車位檢測;可行使區域檢測

中圖分類號:TM911.42? ? ?文獻標識碼:A? ? 文章編號:1005-2550(2024)02-0021-07

Research on Automatic Parking Multi-task Lightweight Perception Model

LI Jing-jun, Huang Hui, Weng Mao-nan

(Advanced Technology Department, Automotive Research & Development Center, Guangzhou Automobile Group Co., Ltd., Guangzhou 510614, China)

Abstract: With the development of deep learning models, more and more models are used in various industries, including the autonomous driving industry, but at the same time, they also face the challenges of lightweight perception models and product implementation. However, in the perception of autonomous parking, it is often affected by environmental changes such as lighting and shadows, and it is a great problem to detect empty parking spaces and identify the driving area. The algorithm in this paper obtains the video stream in real time through four 180-degree wide-angle fisheye cameras on the left side, right side, front side, and rear side of the vehicle, and first uses the convolutional neural network to calculate and reason the status of each parking space around the vehicle area and the area where the vehicle can drive, and then parses and fuses the model reasoning results. Using a lightweight network to solve the perception of parking spaces and the perception of road drivable areas in the process of automatic parking, the experimental results show that the frame rate can reach 19FPS, the model reasoning frame rate can reach 29FPS, the average error of single parking corner center point positioning world coordinate system is 2.65cm, and the success rate of empty parking space detection is more than 90%, which meets the requirements of real-time, accuracy and robustness in practical applications.

Key Words: Automatic Parking; Deep Learning; Detection Of Empty Parking Spaces; Area Detection Can Be Exercised

引? ? 言

各個行業都廣泛地應用深度學習算法。尤其最近比較火熱的自動駕駛賽道,深度學習算法被廣泛使用。在自動泊車應用場景就是一個很好的例子。車位檢測和可行使區域檢測就是自動泊車技術中的基礎。當前技術路線,車位檢測算法主要可分為基于超聲波雷達、基于高精度定位、基于計算機視覺等三種車位定位方式?;诔暡ɡ走_的車位定位算法中利用超聲波雷達對周圍環境(車輛、障礙物等)進行感知,但超聲波雷達無法對車位線進行檢測,只能夠規劃出可行駛或無障礙區域的大致范圍,無法對車位的具體邊界、姿態進行精確感知;基于高精度定位的車位檢測算法需要提前實現對停車區域的整體改造;基于深度學習的車位定位算法通過環視攝像頭進行實時圖像采集,對圖像中的車位進行提取,并結合對周圍環境的感知結果確定目標空車位,具有無附加成本、應用場景廣泛、精度較高等優點。同時,基于深度學習的語義分割方法不易受道路是否結構化影響,且不易受光照、陰影等環境因素影響,具有較好的實時性與準確性。

本文的算法通過車身左側、右側、前側、后側等四個車載180度廣角魚眼攝像頭實時獲取視頻流,先將采集到的圖像利用卷積神經網絡對車輛所處區域周邊各車位的狀態、車輛可行駛的區域進行計算推理,然后對模型推理結果進行解析與融合。利用一個輕量級網絡解決自動泊車過程中車位的感知和路面可行駛區域的感知,滿足工程應用對準確性、魯棒性、實時性的要求。

1? ? 自動泊車技術介紹

(1)深度學習與卷積神經網絡

深度學習是學習樣本數據的內在規律和表示層次。深度學習的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。而卷積神經網絡是一類包含卷積計算且具有深度結構的前饋神經網絡,是深度學習的代表算法之一。卷積神經網絡具有表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類。

(2)環境感知

環境感知處于智能駕駛車輛與外界環境信息交互的關鍵位置,其關鍵在于使智能駕駛車輛更好地模擬人類駕駛員的感知能力,從而理解自身和周邊的駕駛態勢。攝像頭、雷達、定位導航系統等為智能駕駛車輛提供了海量的周邊環境及自身狀態數據。環境感知需要遵循近目標優先、大尺度優先、動目標優先、差異性優先等原則,采用相關感知技術對環境信息進行選擇性處理。

(3)目標車位與車位角中心點

一個目標車位常由4個車位角組成。按照車位的排列方式,可將車位類型分為垂直車位、平行車位、斜列車位等車位類型;按照車位線的劃線方式,可將車位線的劃線方式分為封閉型、半封閉型、開放型等劃線方式。車位角中心點定義為兩條相交車位線的重疊區域所對應四邊形對角線的相交點。

(4)語義分割

語義分割是計算機視覺中的基本任務。在宏觀意義上來說,語義分割是為場景理解鋪平了道路的一種高層任務。在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,語義的可解釋性即分類類別在真實世界中是有意義的。給出一張街景圖像,通過基于深度學習的語義分割模型識別后能夠生成可以劃分不同區域的圖,人、車、路將分別被賦予紅、藍、紫色的標簽。

(5)車輛可行駛區域識別

車輛的可行駛區域包括了結構化路面、半結構化路面、非結構化路面??尚旭倕^域的檢測主要是為自動駕駛提供路徑規劃輔助,可以實現整個的路面檢測,也可以只提取出部分的道路信息。

2? ? 關鍵算法

2.1? ?車位檢測算法

車位檢測是自動泊車技術中的基礎。當前車位檢測算法主要可分為基于超聲波雷達、基于高精度定位、基于計算機視覺等三種車位定位方式?;诔暡ɡ走_的車位定位算法中利用超聲波雷達對周圍環境(車輛、障礙物等)進行感知,但超聲波雷達無法對車位線進行檢測,只能夠規劃出可行駛或無障礙區域的大致范圍,無法對車位的具體邊界、姿態進行精確感知;基于高精度定位的車位檢測算法需要提前實現對停車區域的整體改造;基于計算機視覺的車位定位算法通過環視攝像頭進行實時圖像采集,對圖像中的車位進行提取,并結合對周圍環境的感知結果確定目標空車位,具有無附加成本、應用場景廣泛、精度較高等優點。

2.2? ?可行使區域檢測算法

可行駛區域識別主要是為自動駕駛提供路徑規劃輔助,可以實現整個的路面檢測。從當前的論文、專利來看,不同場景中使用的方法有相同的地方,基本可分為有基于路面顏色、基于紋理特征、基于深度學習的語義分割等方式來獲取路面的基本結構特征?;诼访骖伾目尚旭倕^域識別方法當在路面區域內車輛較少,前景與背景之間分割效果較好,其局限性在于當前景的物體太多且顏色分布范圍太廣時,前景和背景分割成兩個部分難度較大,且基于顏色的方法容易受到光照、陰影等環境變化影響;基于紋理特征的方法可提取出路面邊緣的方向,同時具有尺度不變性,但在非結構化道路上,很難提取規則化的道路邊緣特征,且夜間的識別效果較差;基于深度學習的語義分割方法不易受道路是否結構化影響,且不易受光照、陰影等環境因素影響,具有較好的實時性與準確性。

3? ? 算法流程

本算法的技術方案主要可以分為圖像獲取與預處理、模型實時推理、推理結果解析與融合等三個步驟,研發流程圖如技術方案流程圖1所示。其為本文中技術方案主要組成,圖2為對應的技術實現。

3.1? ?圖像的實時獲取與預處理

因在自動泊車過程中需要標定攝像頭的內部參數和外部參數用于目標車位定位結果從圖像坐標系到世界坐標系的轉化,且位于車身各側的攝像頭安裝高度、角度存在差異,所以需要分別對各路車載攝像頭進行內部參數和外部參數的標定。因為魚眼圖像具有較廣的視野,所以在本算法中并不利用攝像頭的內部參數和外部參數對采集到的魚眼圖像進行畸變矯正以及全景圖像的拼接。通過分別安裝在車輛前側、后側、左側、右側的180度廣角魚眼攝像頭獲取4路視頻流,對各路圖像的大小進行歸一化操作,所有圖像大小均從1280×720縮放至640×360。

3.2? ? 卷積神經網絡的設計與訓練

本文設計了基于深度學習的卷積神經網絡模型結構用于實現對攝像頭視野范圍內的車位檢測和可行駛區域識別,模型結構圖如圖3所示,模型的整體結構可以分為共用層、車位檢測分支層、可行駛區域識別分支層等3個子部分組成。模型的輸入為尺度為640×480的3通道RGB圖像;模型有兩個輸出,一個用于輸出車位檢測的模型推理結果,另一個用于輸出可行駛區域識別的模型推理結果。

(1)共用層結構設計

兩個推理任務共用前20層共用層,前20層卷積層由2個10層的分支并聯構成,前一個分支中的卷積核均采用3×3的卷積核,后一個分支中的卷積均采用空洞尺度為5的3×3的卷積核,2個分支給后續的推理帶來了不同的感受野,能夠使提取出的更加豐富的特征,且每個卷積層后均使用修正線性單元激活函數Relu,在每個分支第2、4、6、8個卷積后使用下采樣層,最后將兩個分支的推理結果進行拼接;

(2)車位檢測分支結構設計

車位檢測分支層由4層卷積層構成,每層卷積層均采用3×3的卷積核,且每個卷積層后均使用修正線性單元激活函數Relu,最終輸出的車位識別模型推理結果的尺度為40×30×6,可表示為:

輸出結果將原始圖像分為30行40列的等大小矩形塊,原始圖像中第i行j列的矩形塊對應的預測結果為車位識別模型推理結果的第i行j列的6位輸出:(cre1, x1, y1, cre2, x2, y2),其中cre1、cre2分別表示該矩形塊中含有車位角中心點、空車位中心點的概率,x1、y1、x2、y2分別表示就當前塊而言歸一化后的車位角中心點橫坐標、車位角中心點縱坐標、空車位中心點橫坐標、空車位中心點縱坐標。

(3)可行駛區域識分支結構設計

可行駛區域識別分支層含有9層卷積層構成,每個卷積層后均使用修正線性單元激活函數Relu,在該部分的第2、4、6、8個卷積后增加上采樣層,每個上采樣層后分別拼接共用層中兩個分支對應的第6、4、2個卷積層后的下采樣層的推理結果,最終輸出尺度的長、寬均會恢復至原始輸入圖像尺度的二分之一,將共用層的淺層推理結果傳入可行駛區域識別分支層中的結構設計方式能夠提高可行駛區域識別推理結果的精確度,獲得更加精細的可行駛區域識別結果。

3.3? ? 深度學習模型多路圖像推理結果解析與融合

在上一階段中,利用深度學習模型對輸入的圖像進行計算推理,得到模型輸出的車位檢測結果和可行駛區域識別結果,模型的輸出結果存在大量的冗余信息,需通過解析算法從模型推理結果中提取出有用的結構化信息用于后續操作。模型的輸出信息是尺度為40×30×6的車位檢測推理結果和320×240×1的可行駛區域識別推理結果。

在車位檢測分支推理結果中,每張圖片對應40×30個檢測框,每個檢測框推理出6維的預測信息(cre1, x1, y1, cre2, x2, y2)。假定當前判定塊為第i行第j列的矩形塊,當前塊的可信度cre1i,j若滿足cre1i, j>0.9, 則判定當前塊中含有車位角中心點,否則不含有。同理,若滿足cre2i,j>0.9,則判定當前塊中含有空車位中心點,否則不含有。由于預測的坐標值x1、y1、x2、y2為就當前塊而言經歸一化處理后的坐標值,則在解析階段需要將坐標值轉換為對應的圖像坐標系下的坐標值,轉化公式為式2和式3:

其中,x和y為轉換前矩形塊內的橫、縱坐標值,x'和y'為轉換后圖像坐標系下的橫、縱坐標值,w和h為輸入圖像的寬和高,i和j分別對應當前塊的行號和列號。將轉化得到的車位角中心點坐標和空車位中心點坐標分別以(x,y,cre)的形式存放至Setcorner,cam和Setplace,cam中。其中,cam表示攝像頭標號,取值為front、back 、left、right,分別對應前側、后側、左側、右側攝像頭;x、y分別為對應圖像坐標系的坐標值;cre為當前點的可信度,cre介于0至1之間,越接近1代表該點的可信度越高。經解析后的車位檢測分支推理結果可視化如圖4和圖5所示,圖中紅色叉代表車位角中心點,紅色叉旁對應紅色數字代表對應車位角中心點識別結果的可信度cre,圖中黃色線代表識別的空車位區域。圖7為將圖8的可視化結果疊加至原始采集圖像上的可視化效果圖。

在可行駛區域分支推理結果中,推理結果的尺度為320×240×1,長、寬均為模型輸入圖片尺寸大小的二分之一。首先將可行駛區域分支推理結果進行上采樣操作,即將長、寬均擴大1倍,則可以得到與輸入圖像相同大小的推理結果,推理結果的每個像素點表示對應原始圖像像素點處為可行駛區域的可行度cred,該值介于0至1之間,cred越大表示當前像素點為可行駛區域的可能性越大。在本算法中將滿足cred>0.9的像素點判定為可行駛。模型推理的可行駛區域識別結果解析后的可視化效果如圖6和圖7所示,綠色區域為識別的可行駛區域,黑色區域為識別的不可行駛區域。圖7為將6的可視化結果疊加至原始采集圖像上的可視化效果圖。

如圖4和圖6所示,已經將模型的推理結果去冗余解析為規則化的車位角中心點坐標、車位角中心點坐標、可行駛區域識別結果。由于相鄰攝像頭的視野范圍存在一定得重疊,所以現實中的一個車位角至多同時出現在2個相鄰攝像頭的視野范圍內。那么,在同一時刻的4路圖像識別結果中可能出現相同車位角的不同攝像頭識別結果。在本論文的算法中分別將Setcorner,cam和Setplace,cam的識別結構映射車輛坐標系下,當前車輛坐標系的原點選取為車輛后軸中心在地面方向的投影點,x軸方向選取為車輛后軸中心向前軸中心方向,y軸與x軸垂直水平向右,坐標的單位為厘米,映射后的坐標集分別為Set'corner,cam和Set'place,cam。根據攝像頭安裝位置關系,前側攝像頭與右側攝像頭之間、右側攝像頭與后側攝像頭、后側攝像頭與左側攝像頭之間、左側攝像頭與前側攝像頭之間存在重疊區域,則分別在對應的2個坐標集中判定是否存在相同車位角中心點的不同識別結果,兩點之間是否相同的判定依據為公式4:

其中x1、x2分別表示兩個預測點的橫坐標,y1和y2分別表示兩個預測點的縱坐標;thresh為距離閾值,在本論文的算法中thresh取值為5。當判定兩個點為同一車位角中心點時,則需要對兩個預測點的精確度進行度量,選取可信度更大的坐標值作為當前車位角中心的坐標值,并加入至最終的車位角中心點檢測結果集Setcorner中。按照同樣的策略生成空車位中心點檢測結果集Setplace。

同理,可行駛區域的識別結果中相鄰攝像頭之間也存在視野的重疊區域,由于不同攝像頭安裝的視角存在差異,相鄰攝像頭的重疊區域的識別結果可能存在差異。在視野的重疊區域中,當前像素點在任一攝像頭采集圖像中判定為可行駛區域的可信度cred>0.9時,則判定當前像素點為可行駛區域。最終生成的可行駛區域俯視圖如圖8所示。并將車位檢測的結果集Setcorner和Setplace映射至可行駛區域俯視圖上,生成最終的車位檢測可視化結果,如圖9所示:

3.4? ?卷積神經網絡的設計與訓練

用于計算機視覺的目標檢測模型結構繁多,如Faster R-CNN、SSD、YOLO系列等,模型與模型之間在準確性、實時性、魯棒性上存在一定的差異。由于車載硬件平臺對自動泊車系統中空車位檢測算法算力要求的限制,無法直接采用已開源的深度學習模型結構,需要對模型結構的深度和寬度進行一定的裁剪、優化,并對模型的輸入圖像尺寸進行評估選定。本論文提出了一種輕量化的深度學習卷積神經網絡模型結構,如圖2所示。該模型的整體結構可以分為共用層、車位檢測分支層、可行駛區域識別分支層等3個子部分組成。模型的輸入為尺度為640×480的3通道RGB圖像;模型有兩個輸出,一個用于輸出車位檢測的模型推理結果,另一個用于輸出可行駛區域識別的模型推理結果。一個模型結構能夠同時完成自動泊車過程中基于視覺的車位感知和可行駛區域感知,并且能夠滿足工程應用對準確性、實時性、魯棒性的要求。

4? ? 仿真驗證

測試采用電動車作為線控平臺車,車周安裝4個180度720p環視攝像頭,運行計算器采用筆記本電腦,通過視頻采集卡讀取4路攝像頭信息運行處理后再通過USB-CAN卡控制車輛。

實車測試整體運行通過四個攝像頭采集圖像信息,并且傳遞給實驗電腦,實驗電腦運行多任務輕量級感知模型,輸出車位角信息和可行使區域信息,并且以100ms為周期進行動態規劃路徑,可以滿足實時性要求,整個泊車過程運轉流暢舒適,很好的完成了整個泊車。如圖12,實測垂直車位、平行車位及斜列車位均可自適應并較好完成泊車。單車位角中心點定位世界坐標系下平均誤差為2.65cm,空車位檢測成功率93%以上,驗證了以上方法可以在實際工程應用的可行性。

實測垂直車位、平行車位以及側方位均可以自適應并較好泊車,測試結果如表1表2所示,泊入成功率95%以上,空車位識別93%以上,優于行業內的量產產品。

5? ? 結論

本文中算法使用的數據集包含15k張樣本,數據集樣本涵蓋包含露天停車場、地下停車場等場景。經測試,本算法(包含圖像預處理、模型推理、后處理解析融合)幀率可達到18FPS,模型推理幀率可達到30FPS,單車位角中心點定位世界坐標系下平均誤差為2.5cm,空車位檢測成功率90%以上,滿足實際應用對實時性、準確性、魯棒性的要求。

參考文獻:

[1]https://robotcar-dataset.robots.ox.ac.uk/.

[2]Joseph Redmon, Santosh Divvala, Ross Girshick. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEEConference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016.

[3]Redmon J , Farhadi A. [IEEE 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Honolulu, HI (2017.7.21-2017.7.26)]2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)- YOLO9000: Better, Faster, Stronger[J]. 2017:6517-6525.

[4]Redmon J , Farhadi A . YOLOv3: An Incremental Improvement[J]. 2018.

[5]Gordon D, Kembhavi A , Rastegari M , et al. IQA: Visual Question Answering in Interactive Environments[J]. 2017.

[6]Chen, Liang-Chieh, Papandreou, George, Kokkinos, Iasonas, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 40(4):834-848.

[7]Chen L C, Papandreou G, Schroff F, et al. Rethinking Atrous Convolution for Semantic Image Segmentation [J]. 2017.

[8]Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[J]. 2018.

[9]Chollet, Fran?ois. Xception: Deep Learning with Depthwise Separable Convolutions[J].2017.

[10]Badrinarayanan, Vijay, Kendall, Alex, Cipolla, Roberto. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Scene Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence:1-1.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
利用網絡技術促進學生深度學習的幾大策略
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合