?

基于可分離殘差網絡的車輛圖像語義分割算法

2024-03-01 04:04譚???/span>趙志誠謝新林張大珩
太原科技大學學報 2024年1期
關鍵詞:特征提取殘差語義

譚???趙志誠,謝新林,張大珩

(1.太原科技大學 電子信息工程學院,太原 030024;2.先進控制與裝備智能化山西省重點實驗室,太原 030024)

圖像語義分割在人臉識別、圖像檢索、物體檢測等視覺任務中有著重要的作用[1-2],通過對圖像進行分割,提取語義信息,從而進一步理解圖像的內容,再以此為基礎應用到實際生活中。然而,實現更高精度的圖像語義分割仍存在很多的問題[3-4],深度學習能提取到傳統方法提取不到的抽象特征,對復雜場景有很好的解析能力,因此結合深度學習解決復雜交通場景中語義分割問題具有現實的意義[5-6]。

2015年,由Jonathan Long等人提出以卷積神經網絡(Convolutional Neural Network,CNN)[7]為基礎的全卷積神經網絡(Fully Convolutional Networks,FCN)[8],該網絡利用VGG-16網絡作為主網絡,將網絡的全連接層替換為卷積層,利用轉置卷積進行上采樣操作恢復特征圖的尺寸,首次實現了端到端的圖像像素級別的語義分割。但FCN網絡利用一系列的卷積操作、池化操作對輸入圖像進行下采樣操作,導致預測特征圖的分辨率大大降低且分割邊緣模糊。He等人于2016年提出殘差學習網絡架構,該網絡主要由殘差塊堆疊而成的。殘差學習網絡架構的提出,可以解決由神經網絡層數加深引起的梯度消失、梯度爆炸等問題[9-11]。

基于此,本文在全卷積FCN深度神經網絡模型的基礎上,提出了一種基于可分離卷積殘差網絡、融合深層跳躍連接的車輛圖像語義分割方法。首先利用一系列的可分離卷積殘差網絡塊取代FCN網絡中的VGG-16網絡,降低網絡結構的復雜性,得到更高的網絡分割精度;其次,融合更深層次的跳躍連接將深層的語義特征信息與淺層的細節特征信息相結合,最后采用網絡分支丟棄的訓練方法對網絡進行訓練,實現更高精度的車輛語義分割。該方法在下采樣階段提高了網絡特征提取的能力,在上采樣階段加強了不同特征信息的融合,產生更準確分割結果。

1 Resnet殘差網絡塊

為解決由網絡深度引起的梯度消失、梯度爆炸問題,本文引入了殘差學習(Residual Learning).深度殘差網絡由一系列的殘差塊構建而成的,將傳統神經網絡的學習過程視作一個恒等映射(Identity Mapping)的過程,將原輸出函數H(x)=x映射到函數H(x)=F(x)+x,其中x為輸入,F(x)為原函數的輸出,H(x)為映射函數的輸出。殘差網絡結構通過殘差學習,把一個恒等映射的過程轉化為擬合殘差函數的過程,最終的擬合結果是使殘差F(x)趨向于0.

深度殘差網絡可直接將輸入參數連接到輸出位置,有效地減少網絡的參數計算量,同時緩解了梯度消失等問題,具體的殘差塊結構如圖1所示。

圖1 殘差網絡塊

2 可分離卷積殘差網絡

可分離卷積包括空間可分離卷積(Spatially Separable Convolutions)和深度可分離卷積(depthwise separable convolution).其中,空間可分離卷積就是對高度、寬度兩個維度進行分離,即將n*n的卷積分為1*n與n*1兩部分??煞蛛x卷積的具體結構如圖2所示,原卷積方法通過對輸入圖像進行3*3的卷積操作,利用可分離卷積將原卷積過程分為兩步,首先對輸入圖像進行一個1*3的卷積操作,在其基礎上再進行3*1的卷積操作。利用可分離卷積可以降低整體網絡結構的復雜性,提高網絡的整體運行速度。本文提出的可分離卷積殘差網絡塊,通過利用可分離卷積1*3與3*1卷積層取代原殘差塊的3*3卷積層,具體的網絡結構如圖3所示。

圖2 可分離卷積結構

圖3 可分離殘差網絡塊

圖4 可分離殘差下采樣網絡

3 融合跳躍連接的可分離卷積殘差網絡

跳躍連接能夠將深層的語義特征信息與淺層的細節特征信息相融合,實現更高精度的分割結果,考慮到原FCN網絡通過一系列的卷積與池化操作進行特征提取,在提取過程中,底層網絡易丟失部分細節信息,導致整體分割中感知細節部分的能力大大減弱,于是在Layer1塊開始進行特征融合。目的在于彌補部分細節信息丟失對分割精度的影響,同時提高了網絡對細節部分的感知能力。

融合跳躍連接的可分離卷積殘差網絡,其中可分離卷積殘差網絡用于圖像的特征提取,該網絡輸入大小為352×480的三維數組,第一個Layer1卷積塊為單獨的一個卷積層操作,由64個大小為7×7,步長S為2的卷積核卷積,輸出的特征圖尺寸為原輸入的1/2,大小為176×240,卷積之后進行批量歸一化(BatchNormalization)處理以及Relu函數激活以及最大池化下采樣操作,池化窗口為3×3,步長為2,接著是基于可分離卷積殘差網絡塊的卷積操作,可分離卷積殘差模塊包括Conv x_1[1×3]、Conv x_2[3×1],Conv x_3[1×3],Conv x_4[1×3]四個可分離卷積層以及殘差網絡的跳躍連接結構。其中Layer2包括3個可分離卷積殘差塊,輸出的特征圖尺寸為原輸入的1/4,Layer3包括8個可分離卷積殘差塊,輸出的特征圖尺寸為原輸入的1/8,Layer4包括36個可分離卷積殘差塊,輸出的特征圖尺寸為原輸入的1/16,Layer5包括3個可分離卷積殘差塊,經過多次卷積操作,Layer5輸出的特征圖大小為11×15,為原圖大小的1/32,同時減低圖像的分辨率。

為了使輸出的圖像與原圖像尺寸大小相同,本文利用跳躍連接的方法,將Layer5輸出的特征圖X5進行2倍反卷積操作,將其大小恢復至22×30,與Layer4輸出的特征圖X4進行疊加,再對其進行2倍反卷積操作,將其大小恢復至44×60,與Layer3輸出的特征圖X3進行疊加,再對其進行2倍反卷積操作,將其大小恢復88×120,與Layer2輸出的特征圖X2進行疊加,再進行2倍反卷積操作,將圖像恢復至176×240,與Layer1輸出的特征圖進行疊加,最后進行2倍反卷積操作,得到與輸入相同尺寸的圖像,通過多層跳躍連接,將高層的語義信息與淺層的特征信息相結合,減少了由上采樣操作所帶來的部分損失特征,提高了網絡的分割精度。

4 實驗

4.1 實驗設計

針對本文提出的網絡模型進行實驗,本實驗基于Pytorch 1.7.1學習框架,在Ubuntu 16.04系統下進行實驗,使用的GPU為GeForce RTX 2080 Ti,Python版本為3.8,具體實驗環境配置如表1所示。

表1 實驗環境配置

為驗證本文改進網絡的有效性,在交通場景數據集Camvid上進行了訓練以及測試,Camvid數據集,是目前常用的交通場景數據集之一。其中主要包括701張的逐像素語義分割的圖像、高分辨率的彩色視頻圖像等內容,原數據庫提供了32個類別語義標簽,將每個像素點與每類語義分類一一對應,本實驗選取其中的車輛、道路以及背景3類作為本實驗的分割類別,該數據集主要包括701張圖片,421張訓練圖像,168張測試圖像,112張驗證圖像,其中標簽由每個像素標記類別的類分割。

在實驗中,對訓練的圖像進行預處理操作,原圖像的尺寸為720×960,考慮到GPU硬件原因,對其進行中心裁剪,縮小為352×480,為了解決優化問題,采用隨機梯度下降法SGD進行優化,將訓練批次Batchsize設置為4,初始學習率設置為0.000 1,每經過10次迭代后,對應的學習率減半。

在圖像語義分割中,通常采用像素的平均交并比(Mean intersection over union,Miou)、平均像素準確率(Mean Pixel Accuracy,MPA)、像素準確率(Pixel Accuracy,PA)作為圖像語義分割結果的評價指標。其中,Miou是度量準確率的常用指標;PA是正確分類的像素點與像素點總和的比值;MPA是對像素準確率的改進。具體公式見式(1)、式(2)、式(3).

(1)

(2)

(3)

式中:k為圖像的總類別數(不包括背景類);Pii為真像素類別為i被預測為像素為i的數量,被對分成類別i的像素數量;Pij為真實像素類別為i被預測為像素為j的數量,被錯分成類別j的像素數量。

4.2 實驗結果分析

為了得到車輛分割較好結果的網絡,本文進行了不同深度的可分離卷積殘差特征提取網絡的替換、不同的特征融合方法以及訓練參數相關的實驗,具體的實驗結果如下:

(1)利用可分離卷積殘差網絡替換原FCN的VGG特征提取網絡,得到如下測試結果,具體如表2所示,從表2可以看出,相比于FCN網絡,本文所提出的改進網絡在PA、Miou、MPA上分別提升了2.4%、7.4%、1.4%.

表2 改進網絡與FCN在Camvid上的結果對比

(2)驗證不同深度的可分離卷積殘差網絡對測試結果的影響。通過改變可分離卷積殘差塊的個數,提升整體網絡的深度,可以有效地提高網絡的分割精度,其中SResnet_2352表示Layer2層到Layer5層分別由2個、3個、5個、2個可分離卷積殘差塊組成,以此類推SResnet_38363表示Layer2層到Layer5層分別由3個、8個、36個、3個可分離卷積殘差塊組成。

從表3可以看出,通過不斷增加殘差塊的數目,網絡的整體分割精度出現了提升,但考慮網絡模型太深可能出現的過擬合現象以及顯存有限的原因,本文選SResnet_38363網絡作為圖像語義分割的骨干特征提取網絡。

表3 不同深度的網絡在Camvid上的結果對比

(3)在一定范圍內,隨著Batchsize的增加,網絡的訓練速度加快,當Batchsize增大到一定范圍時,網絡的最終收斂精度陷入不同的局部極值,導致網絡的分割精度降低。不同Batchsize下的網絡測試結果如表4所示,可以看出,隨著批量大小的增加,對網絡整體分割性能在取值為4時達到峰值,網絡的Miou達到82.92%,MPA為97.02%,PA為85.91%,故將訓練批次的大小設置為4.

表4 不同訓練批次大小對應的測試結果

(4)本文首先對圖像中各目標的邊緣輪廓進行訓練;其次,在此基礎上對各目標的細節特征進行訓練由于底層Layer1與Layer2塊提取到更多的是圖像的表面信息,而高層的Layer3、Layer4、Layer5塊提取到更多的是圖像的語義信息,所以先對輸出融合特征圖X2與X1進行訓練,再對所有的特征圖進行訓練。

新訓練方法更強調對小目標的細節特征訓練,可有效地提高網絡整體的分割精度。驗證不同訓練方法下的測試結果,具體如表5所示。從表5可以看出,新訓練方法的平均交并比較原訓練方法提高了1.33%.

表5 不同訓練方法的測試結果對比

本文選取了部分測試圖像的分割結果進行分析,如圖5所示,為部分測試集的圖像在數據集Camvid的分割預測結果。其中,第一列為測試集部分原始輸入圖像,第二列為測試集原圖所對應的標簽,第三列為FCN網絡的分割預測結果圖,第四列為改進網絡SResnet輸出的語義分割結果圖。

圖5 在數據集Camvid下的預測結果

由圖5可以看出,本文所提出的改進方法較原FCN網絡相比,可以得到更加準確、分割精度更高的小目標車輛,如第一張、第三張、第五張圖像,改進網絡的車輛整體分割內容更加完整,整體的識別區域更加清楚。第四張、第五張車輛的分割邊緣輪廓更精細準確,說明改進方法明顯地提升了車輛等小目標的識別精度,對車輛等小目標物體具有更好的識別準確性,整體上提高了網絡的預測分割精度。

5 結束語

本文提出一種基于可分離卷積殘差網絡、融合更底層特征的跳躍連接的車輛場景圖像語義分割方法,能夠提高車輛等小尺度目標的感知能力。首先利用可分離卷積殘差網絡取代原FCN網絡中的VGG-16網絡對圖像進行特征提取,以獲得過更全面的圖像細節特征信息,再在Layer1與Layer2融合跳躍連接實現圖片像素級別的語義分割。通過Camvid數據集上的實驗表明,本文所改進的網絡模型提高了圖像的特征提取能力,在上采樣過程中綜合地考慮了各像素之間的關系,融合了更底層的細節特征信息,可以有效地提高車輛等小目標物體的邊緣分割精度。

猜你喜歡
特征提取殘差語義
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學習的自適應無人機目標跟蹤算法
語言與語義
基于遞歸殘差網絡的圖像超分辨率重建
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
“上”與“下”語義的不對稱性及其認知闡釋
平穩自相關過程的殘差累積和控制圖
認知范疇模糊與語義模糊
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合