?

基于DCF-DeepLab 網絡的圖像語義分割研究

2023-10-31 09:38蔡江海黃成泉楊貴燕羅森艷王順霞周麗華
智能計算機與應用 2023年10期
關鍵詞:池化空洞特征提取

蔡江海, 黃成泉, 楊貴燕, 羅森艷, 王順霞, 周麗華

(1 貴州民族大學 數據科學與信息工程學院, 貴陽 550025; 2 貴州民族大學 工程技術人才實踐訓練中心, 貴陽 550025)

0 引 言

隨著計算機視覺技術的飛速發展,圖像語義分割已成為該領域研究的熱點之一。 基于深度學習的語義分割方法相較于傳統圖像處理方法,性能得到了極大的提升,被廣泛應用于自動駕駛、醫學圖像處理、人臉識別等領域。 Long 等[1]提出的全卷積網絡(FCN)是一種端到端的語義分割網絡,可以有效應用于圖像語義分割研究。 然而,連續的池化和下采樣操作容易引起淺層語義信息丟失,進而導致小目標信息丟失和邊界分割模糊。 Ronneberger 等[2]提出了Unet 語義分割模型,該模型引入編碼器-解碼器結構,利用上采樣和下采樣過程進行跳躍連接,實現了更高精確的分割。 Fu 等[3]提出了引入空間注意力和通道注意力的分割網絡DANet,有效提升了模型的性能。 后續,相關研究者又陸續提出了更好的兼顧精度和速度的圖像語義分割模型,如HMANet[4]、STLNet[5]等。 Chen 等[6]在DeepLabv1基礎上提出了DeepLabv2,并引入ASPP (Atrous Spatial Pyramid Pooling)模塊實現多尺度的特征提取。 之后又相繼提出了基于 ASPP 模塊的DeepLabv3 和采用編碼器-解碼器結構的DeepLabv3+,實現了更好的圖像語義分割。

到目前為止,DeepLab 系列都是在降采樣8 倍尺度上進行預測的,邊界分割效果不甚理想。DeepLabv3 網絡并沒有包含過多的淺層特征,不僅在語義信息和位置信息的平衡上存在連續池化和下采樣導致的小目標信息丟失的問題,并且由于該網絡是通過多層卷積疊加而成的,存在訓練時效長、目標邊界分割粗糙等問題。 為此,Zhu 等[7]通過注意力式可分離卷積的編碼器-解碼器結構,在多尺度特征上有效均衡了訓練效率和分割精度。 Wang等[8]利用基于注意力機制的優勢,較好地克服了因下采樣導致的淺層細節信息丟失的問題,但模型參數量大,訓練時效長,實用性較低。

針對以上問題,本文提出了融合多模塊的DCF-DeepLab(Double Cross-attention Fusion DeepLab)語義分割網絡。 首先,設計了基于雙注意力交叉融合的特 征 融 合 DAFM (Double Attention Fusion Moudle)模塊,以融合淺層特征彌補深層特征的不足,并將其應用于主干特征提取網絡的2、4、8 倍下采樣的特征圖上,充分提取小目標特征信息,實現特征圖跨模塊的融合;其次,在主干特征提取部分引入輕量級網絡MobileNetV3-Large,加速整體網絡的訓練速率;最后,通過嵌入DAFM 模塊、注意力模塊和串聯結構得到MA-ASPP(Multiple Attention ASPP)模塊,實現多尺度信息編碼,增強圖像目標邊緣的細節特征提取能力。 DCF-DeepLab 語義分割網絡從整體上精細了語義分割結果,提升了語義分割性能。

1 DCF-DeepLab 網絡

1.1 DeepLabv3 網絡

DeepLabv3 網絡主要由兩部分組成:

(1)在編碼端使用Resnet101[9]殘差網絡模型作為基本特征提取的主干網絡,得到有效特征圖,再利用ASPP 模塊(由1 個1×1 卷積、1 個全局池化層以及3 個不同空洞率的空洞卷積共同組成)進一步提取特征得到多尺度特征圖;

(2)在解碼端將多尺度特征圖進行拼接和1×1的卷積操作得到特征圖(該特征圖與基本特征提取主干網絡下采樣得到的特征圖的通道數相同),最后通過上采樣,將所得特征圖還原回與原始圖像大小相同的尺寸,得到語義分割的結果。 DeepLabv3整體結構如圖1 所示。

圖1 DeepLabv3 整體結構Fig.1 Overall structure of DeepLabv3

1.2 MobileNetV3_large 網絡

為了使DCF-DeepLab 網絡高效地訓練出預期的結果,提升網絡訓練參數的速度,解決因訓練時間過長可能導致目標分割結果不佳的問題。 本文采用具有高效且網絡參數量、運算量小的MobileNetV3_large 作為本文網絡在編碼端的主干特征提取網絡。MobileNetV3_Large 網絡結構見表1。

表1 MobileNetV3_Large 網絡結構Tab.1 Structure of MobileNetV3_Large network

在MobileNetV3_large 網絡結構中,“Input”表示輸入當前層特征矩陣的尺寸;“Operator”表示輸入特征矩陣在本層中進行的操作,主要由普通二維卷積操作、多個倒殘差模塊(bneck)操作以及池化操作組成,其中“NBN”表示不包含BN 層;“Exp size”表示利用1×1 的卷積核擴展后的通道數;“#out”表示輸出特征矩陣的通道數,其中k表示類別數量;“SE”表示通道注意力機制;“NL” 表示激活函數,其中“HS”為H-Swish 激活函數、“RE”為RELU 激活函數;“s” 表示步距。

1.3 注意力模塊

在計算機視覺領域,通道注意力機制[10]被廣泛應用于各類研究。 SENet(Squeeze-and-Excitation Network)模塊針對不同語義信息的屬性特征,在通道上實現了更好的信息獲取和分割效果。 SENet 模塊結構如圖2 所示。

圖2 SENet 模塊結構Fig.2 Structure of SENet module

在全局平均池化中將全局空間信息轉換成通道統計信息,并執行壓縮操作得到空間特征壓縮量。假設輸入特征統計量U ={u1,u2,…,uk,…,uα-1,uα},其中特征通道量uk∈RH×W,輸出特征統計量經過全局平均池化得到,其中第k個元素值為

為了利用壓縮操作中聚合的信息,完全捕獲依賴通道的信息,執行激活操作。 實現上,通過引入全連接層對輸出特征統計量Z進行通道依賴關系編碼,學習通道之間的非線性交互作用,并結合Sigmoid 函數進行通道賦權,獲取通道注意力信息[11]。 最后,將得到的權重系數應用于輸入特征中,得到通道注意力的輸出其計算關系為

其中,σ(·) 為Sigmoid 激活函數,Pfcl為全連接層參數。

CBAM(Convolutional Block Attention Module)模塊分別在通道和空間維度上進行注意力操作,以獲得全面的注意力信息,引導模型進行權重分配和信息指引。 CBAM 模塊結構如圖3 所示。

圖3 CBAM 模塊結構Fig.3 Structure of CBAM module

假設F∈?H×W×C表示輸入的特征圖,Mc∈?1×1×C表示一維的通道注意力,Ms∈?H×W×1表示二維的空間注意力。 經過CBAM 模塊依次推導出通道注意力和空間注意力的映射,計算過程如下:

式(3)中,將原始特征圖F與其經過通道注意力模塊操作后的結果進行元素相乘得到F′; 式(4)中,將輸出F′與經過空間注意力模塊做特征提取后的結果進行元素相乘,得到最終的輸出結果F″。

為了提高通道注意力模塊中網絡的表征能力,首先,對輸入的特征進行最大池化操作(MaxPool)和平均池化操作(AvgPool)聚合特征圖的空間信息;其次,將池化后的特征信息輸入到共享全連接層中以生成通道注意力圖[12],其中共享全連接層由具有隱藏層的多層感知器(MLP)組成,并將輸出的特征進行相加融合;最后,利用Sigmoid 函數進行激活操作,得到輸入特征層中每一個通道的權重值。 通道注意力模塊結構如圖4 所示。

圖4 通道注意力模塊結構Fig.4 Structure of channel attention module

假設F∈?H×W×C表示輸入的特征圖,其經過通道注意力模塊的計算過程為

式中:σ(·) 表示Sigmoid 激活函數,FMLP表示全連接層,W0∈?C/r×C,W1∈?c×c/r, 其中r為縮減比率,Fcmax、Fcavg分別表示最大池化特征和平均池化特征,MLP 權重W0、W1對于兩個輸入都是共享的。

在空間注意力模塊中,為了計算空間關注度并聚合空間特征信息[13],在通道軸上應用平均池化操作和最大池化操作,并將其連接起來生成有效的特征描述,再利用通道數為1 的卷積核進行降維,最后利用Sigmoid 函數進行激活操作,獲得輸入特征層的每一個特征點的權重值。 空間注意力模塊結構如圖5 所示。

圖5 空間注意力模塊結構Fig.5 Structure of spatial attention module

空間注意力模塊的計算過程為

式中:σ(·) 表示sigmoid 激活函數,f表示濾波器的卷積運算,Fsmax、Fsavg分別表示最大池化特征和平均池化特征。

1.4 DAFM 模塊

SENet 模塊給每個特征通道上的信號都賦予了一定的權重,對特征通道上的背景信息和前景目標信息有了更明確的選擇,強化了感興趣的特征,增強了特征通道下特定語義的響應能力。 CBAM 模塊在通道和空間維度上對不同位置元素間的關系進行建模,其兼顧通道注意力和空間注意力的優勢,獲得更可靠的權重信息,增強了模型的表征能力。

計算機視覺領域常用的特征融合方式,是在同一張特征圖上分別進行兩種注意力機制操作,并進行結果的融合[14],其主要不同之處在于特征融合方式。 考慮到語義分割任務中對圖像分辨率的影響,通常情況下,分辨率低的深層特征圖采取通道注意力操作,其關注點放在相關的特征通道上;分辨率高的淺層特征圖采取空間注意力操作,提取特征圖中關于空間位置的關鍵信息。 因此,本文綜合注意力機制對不同分辨率的深淺層特征圖提取特征的優勢,通過嵌入SENet 和CBAM 模塊,得到有效融合淺層空間細節信息和深層高級語義線索的DAFM 模塊,如圖6 所示。

圖6 DAFM 模塊結構Fig.6 Structure of DAFM module

假設:在DAFM 模塊中,輸入的低分辨率深層特征圖為ULR,尺寸大小為H1× W1;高分辨率淺層特征圖的輸入為UHR,尺寸大小為H ×W。 首先,根據公式(7),將ULR進行上采樣操作得到U′LR使得尺寸大小與UHR相同,均為H × W。

式中:FUP(·) 表示采用雙線性插值方法的上采樣操作,其次,對UHR進行CBAM 注意力操作,得到。 并根據公式(2),對U′LR通過SENet 注意力操作得到權重Ws,其計算公式為

再將權重Ws與U′CHR相乘,即根據公式(9),得到:

最后,將與UHR相加,并進行1×1 的卷積核降維操作,得到最終的輸出特征圖,即

式中:c表示1×1 卷積操作。

在DAFM 模塊中,淺層特征圖和深層特征圖為DAFM 模塊的輸入,深層特征圖經過上采樣完成,并經過SENet 注意力模塊處理后,與經過CBAM 注意力模塊處理后的淺層特征圖進行像素級的相乘操作,最后經過相加以及1×1 卷積降維操作,得到最終融合后的輸出特征圖。

1.5 MA-ASPP 模塊

DeepLabv3 網絡中的ASPP 模塊是由1 個1×1卷積、1 個全局平均池化層和不同空洞率的空洞卷積[15]簡單拼接而成的,存在易失去圖像中被忽略的小尺度目標信息的問題,進而降低特征提取能力,導致分割精度不高。 因此,在空洞率不變的前提下,提取目標多尺度信息并獲得足夠大的感受野變得尤為重要。

針對存在的問題,對ASPP 模塊進行了一系列的改進。 首先,受DenseASPP[16]網絡結構的啟發,將3 個不同空洞率的空洞卷積由簡單的堆疊變為密集連接的形式,即在原有3 個空洞卷積并行的基礎上增加了串聯結構,將空洞率較小的空洞卷積輸出和主干網絡的輸出級聯,再依次送入空洞率較大的空洞卷積中。 由逐級遞增的并行操作,實現更密集化的像素級采樣,增強提取細節特征的能力;其次,對于另外兩個分支的卷積和全局平均池化操作,通過嵌入CBAM 模塊以獲取更多淺層特征的細節信息;最后,將融合5 個分支后的特征信息輸送到DAFM 模塊中,加強對重要目標信息和細節信息的選擇性注意,并結合1×1 卷積操作,構成了具有強大特征提取能力的像素級MA-ASPP 模塊。 MAASPP 模塊結構如圖7 所示。

圖7 MA-ASPP 模塊結構Fig.7 Structure of MA-ASPP module

MA-ASPP 模塊中的3 個空洞卷積分支以密集連接的方式組織,其中任意一層的空洞卷積層輸出可表示為

式中:k表示卷積核的大小,rn表示第n層的空洞率,[…]表示拼接操作,[yn-1,yn-2, …,y0]表示將所有前一層的輸出拼接起來形成的輸出。

密集連接的方式不僅可以獲得更密集的像素級采樣,還可以提供更大的感受野[17],其計算過程如下:

式中:RFn表示第n層感受野大小,kn表示第n層卷積核大小,Sn表示前n層的總步長,Sn表示當前層步長。

由于所采取的空洞卷積步長為1,因此Sn的值恒等于1,有:

在DeepLabv3 網絡的ASPP 模塊中,采取空洞卷積rates ={6,12,18} 并聯連接方式的最大感受野大小為

通過疊加空洞卷積,采取串聯并行的連接方式,其所能獲得的最大感受野大小為

因此,可以計算出DA-ASPP 模塊采取rates ={6,12,18} 的空洞卷積所對應的RFmax大小為

通過計算,由式(14)和式(16)已知,DA-ASPP模塊中的RFmax值明顯大于ASPP 模塊中的RFmax值。 DA-ASPP 模塊通過逐層連接實現信息共享,不同空洞率的空洞卷積相互補充,使其細節信息更加豐富,并增大了感受野的范圍,有利于增強特征提取能力。

1.6 DCF-DeepLab 網絡結構

本文將主干特征提取網絡MobilenetV3_Large中2、4、8 倍下采樣獲得的淺層特征圖與DAFM 模塊連接,并與后續通過多個模塊獲得的深層特征圖進行融合。 DCF-DeepLab 整體網絡結構如圖8所示。

圖8 DCF-DeepLab 整體網絡結構Fig.8 Overall network structure of DCF-DeepLab

2 實驗

2.1 實驗環境與數據集

本文各項實驗均在GPU 上完成,軟硬件環境配置說明見表2。

表2 實驗環境配置Tab.2 Experimental environment configuration

本文在公開的PASCAL VOC 2012 數據集上進行了一系列的實驗,以驗證DCF-DeepLab 網絡的有效性。 PASCAL VOC 2012 數據集包括人物、動物、室內外場景、交通工具等20 個具體前景類別,外加背景共21 類。 分別采用訓練集上1 464 張訓練圖像、驗證集上1 449 張驗證圖像以及測試集上449張圖像進行網絡的性能評估。 為了加速實驗結果的收斂性,在訓練階段采用了基于COCO 數據集(COCO 數據集是提供80 個目標類別、91 個材料類別的大型常用數據集)訓練得到的預訓練權重,且訓練時只針對和PASCAL VOC 2012 相同的類別進行訓練。

2.2 訓練細節及參數設置

本文采用了在COCO 數據集上預先訓練得到的預訓練模型MobileNetV3_Large 和ResNet_50 的模型權重,分別對網絡DCF-DeepLab 和DeepLabv3 進行初始化,以加速收斂。

訓練參數設置如下:圖像預處理過程中隨機水平翻轉概率為0.5,圖像訓練塊大小為480×480 像素,在驗證階段采取的大小為520×520 像素;批量大小設置為6,初始學習率為0.001,動量設置為0.9,權重衰減為10-4,模型訓練的迭代次數為500 次。

采用Poly 學習率策略[7], 其作為一種指數變換的策略,具體計算公式如下:

式中:lr表示初始學習率,iter表示當前迭代步數,max_iter表示最大迭代步數,power取0.9。

啟用混合精度訓練,以減少顯存占用,加快網絡訓練速度。 使用交叉熵損失函數[18]計算主輸出上的損失,并結合使用全卷積網絡分割頭輔助訓練[19],得到的網絡總輸出損失為主輸出和輔助分類器上的損失加權代數和,比率為2 ∶1。

2.3 消融實驗

為了驗證DAFM 模塊、MA-ASPP 模塊和特征融合模塊對網絡性能的影響,設置了一系列相關的消融實驗。 所有實驗均在PASCAL VOC 2012 數據集上進行,以語義分割中常用的標準度量平均交并比(MIoU) 作為衡量評估指標,定義為真實值和預測值的交集和并集之比,其計算公式如下:

式中:N表示前景目標類別個數,Pij表示真實值i被預測為j的數量。

2.3.1 DAFM 模塊

為了驗證本文所提出的DAFM 模塊對網絡性能的影響,通過與SENet 模塊和CBAM 模塊基于DeepLabv3 進行對比實驗,實驗結果見表3。

表3 注意力機制對模型性能的影響Tab.3 Effect of attentional mechanism on model performance

從表2 可看出,SENet 模塊和CBAM 模塊均可提升網絡整體的分割性能,MIoU值較原始網絡分別提高了0.4%和0.6%。 DAFM 模塊結合了兩者的優勢,分割性能效果最好,MIoU值達到75.1%。 因此,本文考慮選取多個DAFM 模塊作為網絡解碼部分的主體框架,以使網絡達到更好的特征表達效果。

2.3.2 MA-ASPP 模塊

實驗采用DeepLabv3 作為基準模型,對ASPP模塊、MA-ASPP 模塊以及DAFM 模塊進行組合實驗,以驗證MA-ASPP 模塊的有效性。 實驗結果見表4。

表4 不同模塊組合對模型性能的影響Tab.4 Effect of different modules on model performance

從表4 可看出,對比ASPP 模塊,MA-ASPP 模塊和DAFM 模塊均可提升網絡整體的分割性能,MIoU值分別提高了0.9%和0.7%。 而將MA-ASPP模塊和DAFM 模塊同時組合進網絡,融合淺層特征和深層特征,提取出了更多關鍵的目標特征信息,網絡效果提升顯著,MIoU值達到74.1%。 因此,本文最終選擇將MA-ASPP 模塊和DAFM 模塊同時組合進網絡。

2.3.3 特征融合模塊

在編碼端使用不同尺度采樣所得的特征圖對網絡解碼端DAFM 模塊特征提取效果有不同程度的影響,本實驗在DAFM 模塊和MA-ASPP 模塊的基礎上,對DAFM 模塊結合主干特征提取網絡不同下采樣率所得特征圖的網絡整體組合效果進行實驗。實驗結果見表5。

表5 不同尺度特征圖對模型性能的影響Tab.5 Effect of different feature scales on model performance

從表5 可看出,在DeepLabv3 的基礎上,對主干特征提取網絡采取不同尺度的下采樣,均可提升網絡性能,其中使用MR(2,4,8)對DeepLabv3 的分割效果最優,達到72.8%。 在結合DAFM 模塊和MAASPP 模塊的基礎上,當對主干網絡使用MR(2,4)下采樣特征圖進行組合時,MIoU值為75.3%;當使用MR(2,8)下采樣特征圖進行組合時,MIoU值為75.5%;當使用MR(2,4,8)下采樣特征圖輸入DAFM 模塊時,網絡的整體性能最佳,MIoU值達到75.8%。 因此,本文還基于多尺度下采樣倍率MR(2,4,8)結合DAFM 模塊來改進原始網絡,實現了更密集化的像素級采樣,使得DCF-DeepLab 網絡具有更好的分割性能。

2.4 實驗結果分析

DeepLabv3 與 DCF - DeepLab 在 PASCAL VOC2012 驗證集上包括背景的21 個類別的測試結果見表6。 從表中可看出,相比于基礎語義分割網絡DeepLabv3 在PASCAL VOC2012 驗證集上的測試結果,基于DAFM 模塊的DCF-DeepLab 在其中18 個類別上的檢測精度都有所提升,尤其在自行車、瓶子、沙發這3 個類別上檢測精度提高了2% ~4%。 總體上,MIoU值由69.7%提高到70.6%,提升了0.9%。

表6 不同類別檢測性能對比Tab.6 Comparison of detection performance on different categories

為了進一步驗證本文提出的DCF-DeepLab 網絡的有效性,在PASCAL VOC 2012 數據集上將DCF-DeepLab 網絡與其它經典語義分割網絡的實驗對比結果見表7。

表7 不同網絡模型測試結果對比Tab.7 Test results of different network models

從表7 可看出,DCF-DeepLab 在融合多尺度語義信息的基礎上,MIoU達到75.8%,優于其他以VGGNet 和ResNet50 為主干特征提取網絡的語義分割模型。 同時,DCF-DeepLab 在模型參數量和分割時間上取得了較好的平衡,其模型參數量大小為48.9 MB,每張分割時間為0.123 s,明顯優于對比網絡。 DCF-DeepLab 和DeepLabv3 在PASCAL VOC 2012 數據集上的部分可視化結果如圖9 所示。

圖9 部分可視化結果圖Fig.9 Visualizations of several prediction results

從圖9 可見,DCF-DeepLab 的分割性能整體上優于DeepLabv3,尤其對精細的小目標進行分割時,其能夠更好地捕捉小尺度細節語義特征,使目標邊緣分割更加精細、光滑且完整。 如:可視化結果中飛機的輪子和綿羊腳部位的輪廓分割等,較好地改善了DeepLabv3 分割目標時存在的圖像邊界響應丟失及遠距離小目標信息和目標邊緣分割粗糙的問題。

3 結束語

本文針對DeepLabv3 中存在的圖像小目標信息易丟失等問題,提出了基于注意力機制的DAFM 模塊,融合淺層特征彌補深層特征的不足,實現特征圖跨模塊的融合。 同時,為了減少訓練時長,在主干特征提取網絡部分引入輕量級網絡MobileNetV3_Large。 針對目標邊界分割粗糙等問題,通過引入注意力模塊和串聯結構改進ASPP 模塊,以增強局部特征提取的連貫性,進而從整體上提升語義分割性能。

消融實驗表明,DAFM 模塊和MA-ASPP 模塊對原始網絡的語義分割性能有一定程度的提升;對比實驗表明,DCF-DeepLab 網絡在參數量大小和分割效率等方面都取得了一定成效,驗證了本文設計網絡的有效性。

在后續的研究中考慮將網絡的小目標分割特性拓展到其他領域(如:苗族服飾圖像分割、醫學圖像分割、建筑物裂縫等工程問題),以提高網絡的泛化性。

猜你喜歡
池化空洞特征提取
面向神經網絡池化層的靈活高效硬件設計
基于Sobel算子的池化算法設計
卷積神經網絡中的自適應加權池化
基于卷積神經網絡和池化算法的表情識別研究
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
空洞的眼神
用事實說話勝過空洞的說教——以教育類報道為例
基于MED和循環域解調的多故障特征提取
臭氧層空洞也是幫兇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合