?

基于雙分支多尺度特征融合的道路場景語義分割

2024-01-29 10:47肖哲璇
寧夏師范學院學報 2024年1期
關鍵詞:分支注意力語義

肖哲璇,陳 輝,王 碩

(安徽理工大學 計算機科學與工程學院,安徽 淮南 232001)

圖像語義分割作為計算機視覺領域的重要研究內容之一,其主要任務是為輸入圖像中的每個像素分配與其相對應的類別標簽,從而實現一個類似密集預測問題.現階段基于深度學習的語義分割網絡模型已經得到了廣泛應用,尤其是在自動駕駛、遙感影像、無人機著陸系統等場景發揮著重要作用.在自動駕駛應用場景中,語義分割成為道路場景信息處理的關鍵技術之一,而隨著卷積神經網絡的不斷發展,一些基于全卷積神經網絡的分割模型[1-3]能夠實現較高的分割性能,但在實時應用場景中,由于移動設備數量、空間容量和推理速度等有限,對語義分割算法提出了更高的要求[4-5],因此設計一個輕量且高效的實時語義分割網絡模型已成為當前研究的熱點.

針對該問題,近年已提出很多實時語義分割網絡模型,這些網絡使用了輕量級架構以平衡語義分割的準確性和實時性,主要分為編碼器-解碼器結構[6-7]和雙分支結構[8-10].編碼器可以由高效的骨干網絡組成,也可以是從頭訓練的高效變體,例如CHEN等[11]提出的Deeplabv3+中使用Xception網絡和空洞卷積金字塔模塊作為編碼器,以聚合不同區域的上下文信息.LEDNet[12]在編碼器部分使用了ResNet作為骨干網絡,并且在每個殘差塊中使用了信道分離和混洗,而在解碼器部分則通過使用注意金字塔網絡以進一步減少網絡的參數.在ROMERA等[13]提出的ERFNet中,其編碼器使用了深度可分離卷積層,分解后的卷積層將一般的3×3卷積用3×1和1×3卷積進行替換,以減少網絡中的參數量,并且該網絡在殘差分解塊中交錯使用了空洞卷積,以獲取更豐富的特征信息.FANet[14]引入了非局部上下文聚合的快速注意模塊,并且在網絡的中間特征階段應用額外的空間降維,從而有效地降低了計算成本,同時增強模型的空間細節,在速度和準確性之間實現較好的平衡.SFNet[15]通過將FAM模塊插入特征金字塔,與鄰級別的特征圖形成一個特征金字塔對齊網絡,用于更為快速準確的場景分析.

雖然編碼器-解碼器結構能夠有效降低網絡模型的參數量,但在處理分辨率較高的輸入特征圖時,由于重復下采樣過程中有部分信息丟失,且無法通過上采樣完全恢復,從而導致語義分割結果的準確性降低.因此,引入雙分支網絡結構緩解該問題.在雙分支網絡結構中,為了降低網絡的計算成本,通常在深層路徑中對低分辨率特征圖進行全局上下文捕捉,在淺層路徑中對高分辨率特征圖提取豐富的空間細節作為補充,然后將2個分支進行壓縮合并以獲取最終的分割結果.BiseNets[8-9]作為典型的雙分支結構模型,提出了一種包含空間路徑和上下文路徑的雙邊分割結構,并且使用基于注意力的融合模塊對不同分支的輸出特征進行融合,以獲取豐富的特征信息.Fast-SCNN[10]中的2個分支先共享下采樣模塊以確保低級特征共享的有效性和高效實施,并通過簡單地融合不同分支的特征以確保有效性,同時該網絡利用卷積和池化操作作為編碼器以提取深度卷積網絡特征,然后從低分辨率特征上恢復空間信息.但是雙分支結構會增加網絡的參數量,并且會在淺層分支結構中引入噪聲.針對這一問題,研究表明使用注意力機制[16-17]可以通過對圖像像素給予不同權重,從而細化特征信息以提高網絡的處理能力,提高目標的分割精度.例如空間通道注意力機制模塊CBAM[16],將通道注意力和空間注意力進行混合,并通過卷積操作獲取圖像中感興趣區域的信息及其位置信息.

盡管上述方法在測試中取得了不錯的結果,但是在分割精度、模型大小和推理速度的平衡上仍有較大的改進空間.因此,本文提出了一種輕量級雙分支語義分割算法(Lightweight Dual-branch Network,LDBNet).該算法首先通過殘差塊進行下采樣,然后分成2個不同分辨率的分支,在不同分支中分別加入注意力機制以對空間和語義信息進行提取,且在2個分支之間建立多次連接以實現信息融合,最后在上采樣前引入設計的特征融合模塊,以增加重要區域空間細節的權重,進一步強化了網絡的學習能力.實驗結果表明,LDBNet在實時語義分割網絡的各項指標上取得了較好的平衡.

1 網絡模型

1.1 整體框架

本文提出的網絡模型整體結構如圖1所示.該網絡以ResNet18作為網絡模型基礎,主要由殘差基礎塊(Basicblock)、切分金字塔瓶頸塊(Pyramid Split Attention Bottleneck,PSABottleneck)、殘差空洞金字塔模塊(Residual Atrous Pyramid Pooling,RAPP)和多尺度特征融合模塊 (Multi-scale Future Fusion Module,MFFM)構成.

圖1 LDBNet整體結構

LDBNet的整體網絡結構為雙分支結構,該模型首先將ResNet18中的7×7卷積換成2個步長為2的3×3卷積作為網絡的輸入,并下采樣至原圖像分辨率的1/8,然后分成高分辨率分支和低分辨率分支分別對輸入特征圖進行特征提取.在低分辨率分支中,模型通過殘差塊連續下采樣至原始圖像的1/32,然后通過RAPP模塊對輸入特征圖進行上下文語義的信息提取;而在高分辨率分支中,為了盡可能滿足推理速度和模型尺寸的要求,模型通過將殘差塊中的3×3卷積的步長設置為1以保持1/8分辨率,并且在該分支的尾部添加一個將切分金字塔注意力模塊和瓶頸塊相結合的切分金字塔瓶頸塊,在擴展輸出維度的同時能夠獲取更加豐富的通道和空間信息.為了使模型在空間位置信息上能夠進行更好的定位,并結合模型對分割實時性的要求,該模型在2個分支輸出不同的特征圖后,將不同特征圖通過特征融合模塊進行信息整合,可以在增加較小計算量的同時增強對位置信息的關注,并對通道間的特征信息進行提取,之后再進行1/8上采樣,得到原圖像大小的分割圖.

為了能夠增強對不同尺度信息的提取并且充分融合不同尺度特征的空間信息和語義信息,模型的2個分支在不同階段進行多個雙側特征融合[18],使不同尺度特征更加細化,從而優化了分割效果.不同分支之間的融合過程具體操作可以用公式(1)表示:

(1)

其中,XHi和XLi分別代表第i個高分辨率特征圖和低分辨率特征圖,R表示ReLU函數,B表示雙線性插值法,C1×1表示1×1卷積,C3×3表示3×3卷積.

1.2 殘差空洞金字塔模塊

在城市道路場景中,不同對象的尺度差異較大,如何獲取并整合更有效的上下文信息也是該場景語義分割的關鍵.針對該問題,本模型通過進行多尺度特征提取的方法,在低分辨率分支上進行語義信息的提取和融合,提升分割結果的準確性.考慮到對模型實時性的要求,殘差空洞金字塔模塊(RAPP)通過使用多個空洞卷積進行多尺度的特征提取,目的是在不增加參數量的情況下擴大感受野,從而更好地捕獲多尺度的特征信息,在低分辨率分支中能夠獲取更高級別的特征信息,其整體結構如圖2所示.

圖2 RAPP模塊

該模塊從上到下使用1×1卷積層和采樣率依次為3、6和9的空洞卷積進行相應層次的特征提取,然后與全局平均池化分支進行連接,最后將連接后的輸出特征與1×1卷積后的原始特征進行點態求和.但是考慮到只單一地融合所有多尺度上下文信息是不夠的,受到Res2Net[19]的啟發,使用多個3×3卷積以層次殘差的方式,在每次特征連接時將不同尺度的上下文信息進行融合,雖然該模塊用較復雜的融合策略進行上下文信息提取,但是由于其輸入特征圖的分辨率為原圖像分辨率的1/32,所以該模塊對推理速度的影響較小,其操作可用公式表示為

(2)

其中,x表示輸入圖像,yi表示第i個尺度的輸出,C1×1表示1×1卷積,C3×3表示3×3卷積,AC3×3表示3×3空洞卷積,U表示上采樣,Pg表示全局平均池化.

1.3 PSABottleneck模塊

PSABottleneck模塊在網絡結構中位于高分辨率分支的最后一個模塊,其主要構成是將瓶頸塊中的3×3卷積替換成切分金字塔注意力[20](PSA)模塊,以實現通道和空間維度上的特征提取.其結構如圖3所示.

圖3 PSABottleneck結構

PSA注意力機制首先通過SPC模塊,在通道維度上對特征圖進行多尺度特征提取,然后通過SE權重模塊獲取每組通道的權重值,并利用Softmax函數進行歸一化和加權操作,最后輸出一個具有豐富特征信息的細化特征圖,其結構如圖4所示.

圖4 PSA模塊

PSA注意力機制能夠有效獲取跨通道信息,因此通過使用PSA注意力機制可以將多尺度空間信息和跨通道注意力集成到每個特征組中,更好地實現局部和全局通道注意力之間的信息交互.

1.4 多尺度特征融合模塊

為了將不同分支得到的特征信息進行整合,本文算法根據文獻[8]設計了一個新的特征融合模塊,將空間信息和上下文語義信息進行融合,其結構如圖5所示.

圖5 多尺度特征融合模塊

圖中空間分支和語義分支分別代表網絡結構中高分辨率分支和低分辨率分支所得的特征圖,該模塊首先將空間分支特征進行連續下采樣操作并與語義分支特征進行合并,同時引入協同注意力[21](Coordinate Attention,CA)模塊對空間分支特征進行處理,然后將1/32特征圖進行上采樣操作并與經過注意力模塊處理后的特征圖合并,最后再與初始空間分支特征圖進行逐點相乘操作.該模塊通過不同尺度的特征融合實現在較小參數量的情況下,有效地恢復了空間細節信息,其中協同注意力模塊的結構如圖6所示.

圖6 協同注意力模塊

CA模塊在通道注意力中嵌入了坐標位置信息,主要過程分為2步:坐標信息嵌入和坐標注意力生成.為了獲得精確位置信息的遠程空間依賴,CA模塊先通過2個平均池化操作對全局池化進行分解,然后對這2個包含方向的通道進行編碼處理,將輸出的特征圖進行拼接、卷積和激活函數操作,可以得到同時具有水平和垂直方向空間信息的特征圖,之后將輸出沿著空間維度分成2個獨立的張量,并分別進行卷積和激活函數操作,使其通道數與輸入特征圖的通道數一致,最后將輸出結果作為注意力權重與特征圖相乘,得到最終輸出.綜上所述,該模塊能更準確地定位感興趣區域對象的位置,增強了聚焦特征的能力,從而幫助整個模型對不同區域進行更好的識別.

2 實驗分析

2.1 數據集及實驗設置

本文用于實驗的數據集為Cityscapes[22]數據集和CamVid[23]數據集.Cityscapes數據集是一個較為常用的城市街景語義分割數據集之一,該數據集采自50個不同城市的街道場景,包含5000張精細標記圖片,其中包括2975張精細注釋圖像、500張驗證圖像和1525張測試圖像,除此之外,還包含約20000張粗略標記圖片,可以用作模型的預訓練,且圖像分辨率為1024×2048.數據集中精細標注的圖片有34種類別,其中有19種用于語義分割,其他類別被設置為不感興趣類別.在本文實驗中的訓練階段,將圖像的分辨率隨機裁剪為1024×1024.CamVid數據集是從視頻序列中提取的高分辨率圖像,由701張精準標注圖像組成,其中包括367張訓練圖像、101張驗證圖像以及 233張測試圖像,且圖像分辨率為720×960,使用11種常用類別對分割精度進行評估.與Cityscapes數據集相比,該數據集的圖像增加了目標的數量和異質性.本文實驗所用的CPU是24核Intel(R) Xeon(R) Gold 5320 CPU @ 2.20 GHz,內存為64 GB,GPU型號為RTX A4000,顯存大小為16 GB,選用的是PyTorch框架,并使用Python3.8進行編程.

對于街道場景語義分割網絡模型,通常使用評價指標mIoU、模型參數量和推理速度分別體現模型的分割精度、空間復雜度和實時性,其中mIoU表示所有語義分割類別真實值和類別預測值的交集與并集比的平均值,其公式可以表示為

(3)

其中,pii為正確分類的像素數量,pij代表實際類別為i、預測類別為j的像素數,pji代表實際類別為j、預測類別為i的像素數,n為像素分類的類別總數.

2.2 網絡模型性能對比

本節基于Cityscapes數據集和CamVid數據集,將LDBNet與現有的輕量級語義分割算法在浮點運算數(GFLOPs)、參數量(Parameters)、分割精度(mIoU)、運行速度(Speed)等方面進行比較,其結果如表1和表2所示.

表1 不同語義分割算法在Cityscapes數據集上的結果對比

表2 不同語義分割算法在CamVid數據集上的結果對比

從表中分割結果的定量分析可以看出,不同的輕量級模型在性能方面各有優勢,當輸入圖像的分辨率為1024×2048時,LDBNet在Cityscapes測試集上以56 fps的運行速度達到76.8%mIoU.而同樣以ResNet18作為主干網絡的BiseNetv1[8],其分割精度相較于之前的算法有了較大的提升,但是其模型參數量也達到49 M.而BiseNetv2[9]模型計算所需的浮點操作數更大,計算復雜度更高,推理速度也稍慢,相比較而言,LDBNet能更好地平衡模型復雜度和準確度之間的關系.表中ENet模型參數量最小,僅有36萬參數,但是其mIoU值比LDBNet的低了18.2%.而相比表中mIoU值最高的Hyperseg-S模型,雖然LDBNet的mIoU值與其相比低了1.5%,但是在模型參數量和運算速度上有較大的提升.對于DABNet模型,雖然其運行速度達到106 fps,但是其mIoU值相較于LDBNet的低了5.6%,這也說明LDBNet在參數量、運行速度和準確度上實現了較好的平衡.

在CamVid數據集中,由于模型處理圖像的分辨率降低至720×960,所以模型的運行速度得到了較大提升,僅次于BiseNetv1.但是LDBNet的mIoU值比BiseNetv1的高了4.9%,并且參數量也比BiseNetv1低.而與BiseNetv2相比,雖然其mIoU值低了1.9%,但是LDBNet的運行速度提升了23 fps,所以相較于表中的大多數網絡模型而言,LDBNet能夠以較快的運行速度達到更高的分割精度.

為了直觀地展示本文所提網絡模型的分割效果,本文將與其他模型的分割結果進行可視化對比,并選擇部分分割結果,如圖7所示.從對比圖中可以看出,在第一個場景中,在綠化帶被陰影遮擋的情況下,本文所提算法相較于其他算法能夠進行更好的分割,能夠有效地減少客觀環境對分割結果的影響.在第二個場景中,本文所提算法在較遠處路口橫向馬路的識別中具有較好的性能,而其他算法沒有明顯的效果.在第三個場景中,除了在對陰影遮擋部分的處理優于其他算法外,本文算法對不連續遮擋物的分割效果也較為清晰,如右側人行道被警示柱遮擋的摩托車.從第四個場景可以看出,本文算法對不同類別的邊緣分割較為準確,如左側的路標和人行道的邊緣分割效果較其他幾種算法更為明顯.從圖6的整體結果可以看出,算法對輪廓較為清晰且對沒有被遮擋的物體進行分割時,其分割效果都較準確,但是對于復雜場景、有遮擋目標及小目標的分割,本文算法較其他方法,能夠進行更加有效地處理,且更加注重對高級特征語義信息的多尺度特征提取,這增強了網絡對復雜場景和遮擋目標的有效分割,但由于空間信息是在1/8分辨率下進行提取的,也會對分割結果產生影響,導致部分類別的分割結果較為模糊.

Input image Ground truth DABNet DFANet LDBNet(Ours)

2.3 網絡模塊性能分析

為了驗證本文RAPP模塊的有效性,將其與Deeplabv3+[11]中的空洞卷積金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊進行比較,結果如表3所示,其中Type表示消融實驗中的不同方案.實驗結果表明,加入RAPP模塊的mIoU值比加入ASPP模塊的mIoU值上升了1.1%,并且只略微增加了模型的參數量.除此之外,對RAPP模塊的下采樣率進行實驗以驗證其有效性,使用不同的采樣率幾乎對模型參數量和運行速度沒有影響,但是在整體網絡框架中,采樣率rate=3、6和9時的mIoU值達到了最高,所以在本文所提算法中,RAPP模塊在平衡分割精度、運行速度和模型大小方面優于其他選擇.

表3 RAPP模塊在Cityscapes數據集上的消融實驗

為了驗證特征融合模塊MFFM的有效性,對該模塊中的融合方式和所加入的注意力模塊進行消融實驗,結果如表4所示.

表4 MFFM模塊的消融實驗結果

從表中可以看出,當把CA注意力模塊換成其他注意力模塊時,mIoU值都比原模型分割略低一些.而將不同融合方式進行替換,使用原模型中融合方式的mIoU值最大,由此可以看出MFFM中的注意力模塊和融合方式在選擇上達到了最優效果.

本文在Cityscapes數據集和CamVid數據集上對相對應的模塊進行了消融實驗,以驗證本方法中各個模塊在道路場景數據集上的有效性,結果如表5所示.

表5 不同模塊的消融實驗結果

本文以沒有加入任何模塊的網絡模型作為基礎網絡進行實驗,然后分別加入RAPP模塊、PSA模塊和MFFM模塊進行數據對比.從表中可以看出,加入每個模塊后,其mIoU值與基礎網絡相比都有所提升,且在最后達到了最大值.由此可以看出,所提出模型中的各個模塊都具有一定的適用性和互補性,能夠有效地提高分割性能.

為了更直觀地感受各模塊對分割效果的影響,本文選取在Cityscapes驗證集中的部分可視化分割結果對各模塊進行定性分析,其結果如圖8所示.

Input image Truth Baseline Baseline+RAPP Baseline+RAPP+PSA LDBNet

在場景一中,加入RAPP模塊后的模型優化了基礎模型的分割效果,其中對人行道的分割較為明顯,增強了對輸入圖像上下文信息的提取.在場景二中,加入PSA模塊后的模型在復雜場景處的分割效果更好,可以看出其能夠有效地增加模型的抗干擾能力.從場景三可以看出,加入MFFM模塊后的模型對于遠距離小目標的分割效果以及不同類型對象的邊緣分割有較為明顯的提升.根據消融實驗的對比結果,網絡模型中的各個模塊都能夠有效地解決場景語義分割問題,增加了模型對于不同場景的分割精度,具有一定的有效性.

3 結論

針對實時場景中對實時語義分割模型的要求,本文提出了一種輕量級的實時語義分割網絡模型LDBNet.該算法的整體網絡結構為雙分支結構,并且在高分辨率分支和低分辨率分支中分別加入PSABottleneck模塊和RAPP模塊以對通道與空間特征信息進行提取,并在最后加入MFFM模塊以優化不同分支之間的特征融合.在Cityscape數據集上的實驗結果表明,LDBNet能夠以56 fps的運行速度達到76.8%的mIoU,且參數量僅有5.02 M,而在CamVid數據集中,該模型以147 fps的運行速度達到70.5%的mIoU.從消融實驗的結果可以看出,各個模塊都具有較優的性能,從而能夠更好地平衡模型復雜度、準確度和推理速度之間的關系.

猜你喜歡
分支注意力語義
讓注意力“飛”回來
語言與語義
巧分支與枝
一類擬齊次多項式中心的極限環分支
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
生成分支q-矩陣的零流出性
碩果累累
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合