?

空間通道雙重注意力道路場景語義分割

2023-03-16 12:54王小玉林鵬
哈爾濱理工大學學報 2023年5期
關鍵詞:注意力機制無人駕駛深度學習

王小玉 林鵬

摘? 要:無人駕駛領域的一個重要問題就是在低功耗移動電子設備上怎樣運行實時高精度語義分割模型。由于現有語義分割算法參數量過多、內存占用巨大導致很難滿足無人駕駛等現實應用的問題,并且在影響語義分割模型的精度和推理速度的眾多因素中, 空間信息和上下文特征尤為重要,并且很難同時兼顧。針對該問題提出采用不完整的 ResNet18 作為骨干網絡,ResNet18 是一個輕量級的模型,參數量較少,占用內存不大;同時采用雙邊語義分割模型的技術,在兩條路徑上添加通道空間雙重注意力機制,來獲取更多的上下文信息和空間信息的想法。另外還采用了精煉上下文信息的注意力優化模塊,和融合兩條路徑輸出的融合模塊,添加的模塊對于參數量和內存的影響很小, 可以即插即用。以 Cityscapes 和 CamVid 為數據集。在Citycapes 上, mIoU 達到77.3%;在 CamVid 上,mIoU 達到66.5%。輸入圖像分辨率為1024×2048時,推理時間為37.9ms。

關鍵詞:無人駕駛;實時語義分割;深度學習;注意力機制;深度可分離卷積

DOI:10.15938/j.jhust.2023.05.013

中圖分類號: TP391.41

文獻標志碼: A

文章編號: 1007-2683(2023)05-0103-07

Semantic Segmentation of Unmanned Driving Scene

Based on Spatial Channel Dual Attention

WANG Xiaoyu,? LIN Peng

(Harbin University of Scienceand Technology,Computer Scienceand Technology,Harbin 150080,China)

Abstract:An important issue in the field of unmanned driving is how to run real-time high-precision semantic segmentation models on low-power mobile electronic devices. Existing semantic segmentation algorithms have too many parameters and huge memory usage, which makes it difficult to meet the problems of real-world applications such as unmanned driving. However, among the many factors that affect the accuracy and speed of the semantic segmentation model, spatial information and contextual features are particularly important, and it is difficult to take into account both. In response to this problem, it is proposed to use the incomplete ResNet18 as the backbone network, design a bilateral semantic segmentation model, and add a channel space dual attention model to the two paths to obtain more contextual and spatial information. In addition, the attention optimization module that refines the context information and the fusion module that integrates the output of the two paths are also used. Take Cityscapes and CamVid as data sets. On Citycapes, mIoU reached 77.3%; on CamVid, mIoU reached 66.5%.When the input image resolution is 1024×2048, the segmentation speed is 37.9 ms.

Keywords:driverless technology; real-time semantic segmentation; deep learning; attention mechanism; depth separable convolution

收稿日期: 2022-04-04

基金項目: 國家自然科學基金(61772160);黑龍江省教育廳科學技術研究項目(12541177).

作者簡介:

林? 鵬(1997—),男,碩士研究生.

通信作者:

王小玉(1971—),女,教授,碩士研究生導師, E-mail:wangxiaoyu@hrbust.edu.cn.

0? 引? 言

隨著人工智能與汽車交通的結合, “自動駕駛” 熱潮被掀起,如何準確、快速地檢測路況、路標等信息成為目前研究的熱點目標[1]。許多研究人員逐漸將注意力轉向了對道路場景的理解。主要領域之一是道路場景的語義分割[2]。

基于深度學習的圖像語義分割作為計算機視覺中的一項基本任務,旨在估計給定輸入圖像中所有像素的類別標簽,并呈現出不同顏色區域掩模的分割結果。

2014年,文[2]提出的全卷積神經網絡(FCN),被譽為深度卷積神經網絡的奠基之作,標志著分割領域正式進入全新的發展時期。與之前所有圖像語義分割算法最大的不同在于,FCN 用卷積層代替分類模型中全部的全連接層,學習像素到像素的映射。并且,提出了在上采樣階段聯合不同池化層的結果,來優化最終輸出的方法[2]。目前很多的優秀的基于深度學習的圖像語義分割算法都是基于 FCN 的思想實現的[3]。2015 年, 劍橋大學在 FCN 的基礎上,實現了突破,提出了 SegNet 模型[3]。從那時起,更多的語義分割算法被開發出來,并且分割的準確性一直在提高,如deeplab 系列[4],多路級聯模型(refinenet)[4]和 PSPNet 等[5]。

近年來,深度學習在圖像語義分割方面有了很大的進步。在自動駕駛等領域有著很大的應用潛力。但是算法模型大多關注對圖像分割準確率的提升,其計算成本和內存占用較高,模型的實時性得不到保證[6]。在許多實際應用中,對于模型的實時性也有很高的要求。根據這一需求,目前最常用的 ENet,MobileNet 系列也隨即被提出[7]。實時進行語義信息分割技術逐漸分化一個新的領域。

在實時語義分割的任務中,為了提高推理速度,有的模型采取縮小圖片尺寸的操作,有的采取刪減特征圖通道的操作,但是這些操作都會丟失一些空間信息[7]。這是因為初始圖像經歷了多次卷積和池化,最終導致初始圖片被模型加載后,特征圖的分辨率由大變小。對于分割任務來說,獲取豐富的上下文信息和空間信息、高分辨率的特征、深層特征的語義信息,可以更好地提高模型的分割精度[8]。

近年來,在實時語義信息分割算法中,雙邊分割網絡算法(BiSeNet)在語義分割任務上獲得了矚目的成績[9]。本文在 BiSeNet 的基礎上,上下文路徑以輕量化模型 ResNet18 作為骨干網絡。引入兩個空間通道

雙重注意力機制CBAMT和CSSE模塊。通過在上下文路徑的輕量型特征提取網絡引入 CBAMT 模塊,從空間和通道兩個維度來判斷應該學習什么特征[10]。然后使用注意力優化模塊(ARM),強化對輕量型特征提取模型不同階段的特征學習[11]。通過在空間路徑引入CSSE 模塊獲取更多的空間特征,并且可以利用深度可分離卷積減少參數量。最后使用特征融合模塊(FFM) 將兩條路徑的輸出進行融合。

1? 本文算法

BiSeNet其結構如圖1所示,雙邊分割網絡設計有2條支路結構:空間支路和上下文支路??臻g支路解決空間信息的缺失;上下文支路解決感受野小的問題,獲取豐富的上下文信息[12]。兩條路徑采取的方法分別為:在空間支路中,輸入的圖像經過三層由大卷積核組成的卷積層的卷積,將輸入圖像壓縮成原圖尺寸 1/8 的特征圖,這樣就保留豐富的空間信息。并且這些卷積層的卷積核都是小步長的,經過這些卷積層的學習,最終可以生成高分辨率的特征[13];在上下文支路中,將全局平均池化添加到支路中,獲取最大的感受野。并且還添加注意力機制來指導特征學習。

1.1? 基于空間和通道的雙重注意力機制單元

文[3]提出一種輕量的空間通道雙重注意力機制 CBAM,

可以在通道和空間維度上進行注意力關注[14]。CBAM 由兩個單獨的子模塊組成,分別是通道注意力模塊(CAM)和空間注意力模塊(SAM)。前者是關注于通道,后者是關注于空間。這樣的優點是不僅可以很好地的控制模型的參數量,并且能夠將其加入到當前已有的模型結構中??傊?,CBAM 是一種隨插隨用的模塊。

1.1.1? CAM

對輸入的特征圖 G(H×W×C)分別進行基于寬高的整體最大池化和平均整體池化,得到兩張 1×1×C特征的圖像。 然后將它們發送到一個雙層神經網絡(MLP),這個雙層神經網絡是共用的[15]。第一層神經元個數為C/r(r為減少率),激活函數為Relu; 第二層神經元個數為 C。 然后將MLP 輸出的特征相加并由 sigmoid 激活。生成最終的通道注意特征圖 M_c。最后,用乘法將 M_c 和輸入特征圖 G 相乘。生成的特征圖即為空間注意力機制模塊需要的輸入特征圖G′。

1.1.2? SAM

SAM將 G′作為輸入特征圖。首先進行以通道為基礎的最大全局池化和平均全局池化。然后將兩個特征圖H×W×1拼接操作,即通道拼接。經過 7×7 卷積,降維為一個通道,即H×W×1。隨后由 sigmoid函數生成特征圖G″。最后將 G″和 G′進行乘法操作,生成最后的特征圖。

1.2? 改進的空間支路

為了使語義分割模型有更好的分割效果,可以通過將低級的空間特征和龐大的深層語義信息相結合來提高模型的分割精度[15]。本文提出的空間路徑是由 3 個卷積組成。第一層包括一個步長為 2 的卷積,剩下兩層是步長為 1 的深度可分離卷積[15]。然后是批標準化(BN) ,和以線性整流函數(ReLU) 作為激活函數。此外本文還在空間路徑上添加通道空間模塊(CSSE)。具體算法如下:特征圖 H×W×C 經過全局平均池化,得到特征圖 1×1×C。然后經過兩個 1×1×1 的卷積處理,最終得到一個 C 維向量。 然后用 sigmoid 歸一化函數得到對應的 mask,最后乘以通道分組得到信息校準后的 M′特征圖。sSE 模塊類似于 SAM。具體過程是直接在特征 M′(H×W×C)上使用 1×1×1,將特征圖 M′卷積成為 H×W×1 的特征圖。然后用 sigmoid 進行激活得到空間特征圖。最后應用它直接對原始特征圖完成空間信息的校準。CSSE 模塊是將 cCE模塊和 sSE 模塊以串聯的方式連接,并且通過實驗證明,

組成的 CSSE 對模型的分割效果的也有提升。CSSE結構如圖2所示。

1.3? 改進的上下文支路

在原始模型中,為了可以有更大的感受野和更多的語義信息, BiSeNet 設計了 Context path[15]。并且使用 Xception 作為特征提取的骨干網絡[16]。Xception 可以快速縮小特征圖以獲得大感受野,來編碼高級語義上下文信息[16]。本文提出的改進的上下文路徑使用輕量級模型 ResNet18 作為特征提取骨干網絡,并且在路徑中額外添加了 CBAMT 模塊。

本文的特征提取的骨干網絡是由4個block 組成,每個 block 由兩個 3×3 的卷積和 BN 層,以及 relu 組成。此外,本文提出的 CBAMT 模塊是基于文[6]中提出的一種 triplet attention 方法。該方法使用三重分支結構來捕獲維度交互,從而計算注意力的權重,實現通道和空間的交互[16]。

本文提出的改進后的 CBAMT 模塊,采用了 triplet attention(三重分支)的思想,三重分支結構 3 個并行分支分支組成,其中兩個分支主要負責維度 C 與維度 H 或 W之間的交互[17]。最后一個分支類似于 SAM,用于構建空間感知模塊[17]。最后,將所有分支的輸出進行平均水平聚合。

CBAMT將 CAM 模塊的輸出特征圖 F′利用兩個平行的包含 Z 池化層,用于維度交互的分支,將維度 C 與維度 H 或 W 的維度進行交互,將兩個輸出結果相加得到特征圖F″。然后使用特征圖 F″作為 SAM 的輸入以得到最終特征。

Z池化層的作用是將維度 H 和 W 的張量減少到 2 維,并將該維度的平均池化特征和最大池化特征聯系起來,這使得該層在減少其深度的同時保持真實張量的豐富表示,這有利于后續計算[18]。最后,改進的上下文路徑中保留了全局平局池化結構,這樣可以為模型提供全局上下文信息,更好地增強模型分割效果。CBAMT 模塊結構如圖3,改進后的整體網絡模型如圖 4 所示,以及 Z-pool 計算:

Mc(F)=σ((AvgPool(F),MaxPool(F))(1)

式中:F為輸入特征圖;σ為 sigmoid 激活函數;AvgPool和MaxPool分別表示全局平均池化和全局最大池化,f7x7表示卷積操作時,卷積核大小為7。

1.4? 特征融合模塊(FFM)

特征融合模塊的功能是把來自空間支路的特征和上下文支路的特征融合[18]。之所以需要 FFM 來融合兩者,是由于前者是低層次的特征,后者是高層次的特征[18]。具體流程:將來自空間支路和上下文支路的特征進行向量拼接的操作,得到特征圖 H,然后對特征圖 H 進行全局平局池化,得到 1×1×C 向量。最后通過類似 SENet 中的通道權重相乘,對特征圖 H 重新進行加權,得到最后的特征圖 H′。圖5顯示了該模塊的結構。

1.5? 注意力優化模塊(ARM)

原始模型還針對上下文路徑設計了 ARM,如圖6所示。首先為了獲得整體上下文語境信息,使用全局平局池化。來幫助模型學習特征,來強化特征提取網絡不同階段的特征學習。此外還可以簡單地完成整體上下文語境信息的集成。并且不必利用上采樣,計算成本可以忽略不計。

1.6? 注意力優化模塊(ARM)

上下文路徑中添加了兩個輔助損失函數來更好地監督輸出。主損失函數和輔助損失函數都使用 Softmax函數為式(2)[19]。輔助損失函數監督模型的訓練,主損失函數監督整個 BiSeNet 的輸出(Lp)。添加兩個特殊的輔助損失函數監督 Context Path 的輸出(Li)借助參數 α 以平衡主損失函數與輔助損失函數的權重,如式(3):

Loss=1n∑ili=1n∑ilogepi∑iepi(2)

L(X|W)=lp(X:W)+α∑Kili(Xi:W)(3)

其中:lp為主要的 loss;li為輔助的 loss;Xi為ResNet第 i 個階段的輸出特征;

K=3,ɑ為1。在訓練過程中,只使用了輔助 loss 進行訓練。

2? 實驗結果與分析

2.1? 數據集

本文使用兩個數據集,均是城市道路場景數據集,分別為 Cityscapes 數據集和 CamVid 數據集。這兩個數據集是道路場景語義分割中最常用來進行模型評估的數據集[19]。CamVid 數據集有 11 個類別;而 Cityscapes 包含兩類,一類是 5000 張帶有高質量像素級標簽的精細圖像,一類是 20000張帶有粗糙標簽的附加圖,本實驗使用的是Cityscapes 中 5000 個高質量像素級標簽的精細圖像進行實驗。最后從速度即推理時間以及精度兩個方面與Baseline 模型進行對比,分析模型的分割性能,并且通過可視化結果展示模型的分割性能。

2.2? 參數設置

本文實驗環境為 Win10 操作系統,Nvidia RTX 1080Ti 6GB,Python3.9編譯環境,Pytorch1.9 框架。具體參數為“bitchsize=8,momentum =0.9,weightdecay=5×10-4。采用“poly”學習率,power=0.9。本文采取隨機梯度下降優化算法(SGD)進行模型訓練,并使用“poly”學習策略,其公式為:

η=η*(1-itermax_iter)power(4)

其中:初始學習率為 2.5×10-2。iter 是當前的迭代次數; max_iter 是總迭代次數[19] 。設置為1000(即產生1000個 epoch)。功率值固定為 0.9;主要和次要損失平衡參數設置為 1。

2.3? 消融實驗

本文還做了在相同條件下CBAMT 和 CSSE 這兩個模塊對模型性能的提升的有效性試驗結果見表 1。從表1可以看出,CBAMT 和 CSSE兩個模塊均可以提高模型分割精度,而且CBAMT 的提升效果要優于CSSE。

2.4? 算法整體性能分析與比較

本文使用的Baseline模型是個人實現的ResNet18版本的BiSeNet模型。

2.4.1? 分割精度

模型性能采用平均交并比(mIOU)來衡量,計算公式為

mIoU=1k+1∑ki=0pii∑kj=0pij+∑kj=0pji-pii(5)

本文算法與其他算法的分割結果的對比如表2所示。由表 2 可見,本文模型的精度與原BiSeNet 對比,在Cityscapes和 CamVid 上分割精度度提高了1.6%和 1.1%。

2.4.2? 推理速度

在測試速度實驗中,Baseline模型在Cityscapes上的推理時間為21.5ms,在CamVid上的推理時間為35.5ms,結果如表3所示。

本文模型在Cityscapes上的推理時間為37.9ms,在CamVid上的推理時間為24.5ms,證明本文網絡本文網絡充分滿足實時語義分割的要求。

總之,從速度和精度兩個方面綜合分析,本文提出的模型在Cityscapes和Camvid數據集上,比BiSeNet(Res18)在推理速度與分割精度之間實現了更好的平衡,與ENet相比,在精度得到了顯著提升,其次與目前常見的MobileNet1相比,推理時間接近,精度方面有所提升。但是MobileNet1采用分組卷積,同時模型也沒有考慮到空間信息,而且模型層數還是較多,而且對硬件要求,比如GPU較高。而且由于分組卷積,導致在多次重復實驗中,偶爾會出現分割效果很差的情況,通過查看文獻得知,可能與分組卷積會導致模型學廢,后續會對這方面繼續研究。

2.4.3? 可視化結果

本文提出的模型在CamVid上的分割效果以及與Baseline模型的比較如圖7所示。首先,前三列圖像分別是初始圖、標簽圖和模型的分割效果圖。從前三者可以看出,改進后的模型有著很好的分割性能。另外該模型對不同物體的分割效果是有所區別的。其中較大物體的分割效果較好,基本可以準確識別其類別,例如樹木。相反,對于很小的物體的分割結果存在一些問題。比如存在部分細小物體沒有識別等問題。另外模型同樣存在當前大多數實時分割模型對沒有標記的物體分割非?;靵y的通病。通過觀察本文模型與Baseline模型的實際分割效果圖(即最后一列圖像)的對比,可以看出改進后的語義分割模型的的分割效果優于基礎模型。

2? 結? 論

本文對語義分割算法的準確度和實時性表現進行深入分析,提出了一種空間通道雙重注意力道路場景分割模型。在保證分割準確度的同時兼顧模型的實時性。上下文路徑的 CBAMT 模塊可以獲取更多重要的上下文特征信息, 空間路徑的 CSSE獲取了更豐富的空間信息。實驗證明,本文提出的模型在精度和速度的平衡性優于原 BiSeNet 模型。所構建的注意力機制以及輕量級模型對于其他研究者具有參考意義。由于本文算法僅對道路場景數據集進行深入測試,對于其他類別缺乏針對性,在后續研究中,會考慮結合具體圖像分割目標進行模型設計,進一步提升模型的實用性能,并且對實際的目標進行研究和測試。

參 考 文 獻:

[1]? JIA Gengyun, ZHAO Haiying, LIU Feiduo, et al. Graph-Based Image Segmentation Algorithm Based on Superpixels[J]. Journal of Beijing University of Posts and Telecommunications, 2018, 41(3): 46.

[2]? 黃福蓉.用于實時道路場景的語義分割算法CBR-ENet[J].中國電子科學研究院學報,2021,16(3):27.

HUANG Furong. Semantic Segmentation Algorithm CBR-ENet for Real-time Road Scenes[J]. Journal of China Academy of Electronic Sciences, 2021,16(3):277.

[3]? CANAYAZ M. C+EffxNet: A Novel Hybrid Approach for COVID-19 Diagnosis on CT Images Based on CBAM and EfficientNet[J]. Chaos, Solitons & Fractals, 2021, 151: 111310.

[4]? 祖宏亮. 基于模糊聚類的圖像分割算法研究[D].哈爾濱:哈爾濱理工大學,2020.

[5]? 呂沛清. 基于改進U-Net的肝臟CT圖像自動分割方法研究[D].哈爾濱:哈爾濱理工學報.2022:

[6]? TANG X, TU W, LI K, et al. DFFNet: an IoT-perceptive Dual Feature Fusion Network for General Real-time Semantic Segmentation[J]. Information Sciences, 2021, 565: 326.

[7]? ZHANG R X, ZHANG L M. Panoramic Visual Perception and Identification of Architectural Cityscape Elements in a Virtual-reality Environment[J]. Future Generation Computer Systems, 2021, 118: 107.

[8]? A Method to Identify How Librarians Adopt a Technology Innovation, CBAM (Concern Based Adoption Model)[J]. Journal of the Korean Society for Library and Information Science,2016,50(3):

[9]? 張立國,程瑤,金梅,等.基于改進BiSeNet的室內場景語義分割方法[J].計量學報,2021,42(4):515.

ZHANG Liguo, CHENG Yao, JIN Mei, et al. Semantic Segmentation Method of Indoor Scene Based on Improved BiSeNet[J].Acta Metrology,2021,42(4):515.

[10]高翔,李春庚,安居白.基于注意力和多標簽分類的圖像實時語義分割[J].計算機輔助設計與圖形學學報,2021,33(1):59.

GAO Xiang, LI Chungeng, An Jubai. Real-time Semantic Segmentation of Images Based on Attention and Multi-label Classification [J]. Journal of Computer-Aided Design and Graphics, 2021,33(1):59.

[11]YIN J, GUO L, JIANG W, et al. Shuffle Net-inspired Lightweight Neural Network Design for Automatic Modulation Classification Methods in Ubiquitous IoT Cyber-physical Systems[J]. Computer Communications, 2021, 176: 249.

[12]RNZ M, AGAPITO L. Co-fusion: Real-time Segmentation, Tracking and Fusion of Multiple Objects[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2017: 4471.

[13]CHEN Y C, LAI K T, LIU D, et al. Tagnet: Triplet-attention Graph Networks for Hashtag Recommendation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 32(3): 1148.

[14]任天賜,黃向生,丁偉利,等.全局雙邊網絡的語義分割算法[J].計算機科學,2020,47(S1):161.

REN Tianci, HUANG Xiangsheng, DING Weili, et al. Semantic Segmentation Algorithm for Global Bilateral Networks[J]. Computer Science, 2020, 47(S1): 161.

[15]LI J, LIN Y, LIU R, et al. RSCA: Real-time Segmentation-based Context-aware Scene Text Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 2349.

[16]SAFAE El Houfi, AICHA Majda. Efficient Use of Recent Progresses for Real-time Semantic Segmentation[J]. Machine Vision and Applications,2020,31(6):45.

[17]MARTIN F. Grace, PING Juliann. Driverless Technologies and Their Effects on Insurers and the State: An Initial Assessment[J]. Risk Management and Insurance Review,2018,21(3):1.

[18]WEI W, ZHOU B, POAP D, et al. A Regional Adaptive Variational PDE Model for Computed Tomography Image Reconstruction[J]. Pattern Recognition, 2019, 92: 64.

[19]FAN Borui, WU Wei. Sufficient Context for Real-Time Semantic Segmentation[J]. Journal of Physics: Conference Series,2021,1754(1):012230.

(編輯:溫澤宇)

猜你喜歡
注意力機制無人駕駛深度學習
我們村的無人駕駛公交
無人駕駛車輛
無人駕駛公園
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合