?

基于邊界輔助的弱監督語義分割網絡

2024-03-05 02:54楊大偉遲津生毛琳
計算機應用研究 2024年2期

楊大偉 遲津生 毛琳

收稿日期:2023-06-27;修回日期:2023-08-14? 基金項目:國家自然科學基金資助項目(61673084);遼寧省自然科學基金資助項目(20170540192,20180550866,2020-MZLH-24)

作者簡介:楊大偉,男,黑龍江哈爾濱人,副教授,碩導,博士,主要研究方向為計算機視覺圖像處理技術;遲津生,男(通信作者),吉林通化人,碩士研究生,主要研究方向為深度學習圖像處理與弱監督語義分割(1152844110@qq.com);毛琳,女,吉林吉林人,副教授,碩導,博士,主要研究方向為機器視覺目標跟蹤、多傳感器信息融合.

摘? 要:由于弱監督語義分割任務中種子區域的隨機生長機制,導致弱監督語義分割網絡經常出現錯分割和漏分割的問題,為此,提出一種基于邊界輔助的弱監督語義分割網絡。該網絡利用邊界信息和語義信息,為種子區域的生長提供參考,使種子區域可以自然生長至目標邊界,并在目標被遮擋或重疊時正確區分目標類別,生成可以覆蓋更完整目標的偽像素掩碼。以此偽像素掩碼作為監督信息訓練分割網絡,可以改善弱監督語義分割網絡由于偽像素掩碼無法準確覆蓋目標區域導致的錯分割和漏分割問題,提升弱監督語義分割網絡精度。在通用數據集PASCAL VOC 2012驗證集和測試集上對該網絡進行評估,mIoU分別達到71.7%和73.2%。實驗結果表明,其網絡性能優于當前大多數圖像級弱監督語義分割方法。

關鍵詞:弱監督學習; 語義分割; 種子區域; 偽像素掩碼

中圖分類號:TP391.41??? 文獻標志碼:A

文章編號:1001-3695(2024)02-046-0623-06

doi:10.19734/j.issn.1001-3695.2023.06.0265

Weakly supervised semantic segmentation networkbased on boundary assistance

Yang Dawei, Chi Jinsheng, Mao Lin

(College of Mechanical & Electronic Engineering, Dalian Minzu University, Dalian Liaoning 116600, China)

Abstract:Due to the random growth mechanism of the seed region in the weakly supervised semantic segmentation task, the weakly supervised semantic segmentation network often suffers from wrong segmentation and missed segmentation problems. To address the above problems, this paper proposed a boundary-assisted weakly supervised semantic segmentation network. The network provided a reference for the growth of seed regions by utilizing boundary information and semantic information, so that the seed regions could naturally grow to the target boundary and correctly differentiated the target categories when the non-target object blocked or overlapped the target, and generated pseudo-pixel masks that could cover a more complete target. This paper used the pseudo-pixel mask as the supervisory information to train the segmentation network, which could improve the problem of missegmentation and omission by the pseudo-pixel mask that couldnt cover the target region accurately, and improved the accuracy of the weakly supervised semantic segmentation network. It evaluated the network on the generalized dataset PASCAL VOC 2012 validation and test sets, and the mIoU reaches 71.7% and 73.2%, respectively. The experimental results show that the performance of the proposed network outperforms most of the current weakly-supervised semantic segmentation methods at the image level.

Key words:weakly supervised learning; semantic segmentation; seed area; pseudo pixel mask

0? 引言

圖像級弱監督語義分割(weakly-supervised semantic segmentation,WSSS)是指僅需要指出圖像中的目標類別,就能夠實現前背景拆分的圖像分割方法[1~5]。由于類激活映射(class activation map,CAM)可以關注到圖像中對分類貢獻度高的區域,然后利用像素之間的關系生成種子區域,所以目前大多數弱監督語義分割方法都將CAM作為生成種子區域的核心算法[4,6,7]。弱監督語義分割的流程是將CAM生成的偽像素掩碼作為監督信息訓練網絡,從而得到最終的分割結果,故偽像素掩碼的質量直接決定了最終分割結果的好壞。偽像素掩碼是由種子區域生長而來,但這種生長機制具有隨機性,在生長過程中缺乏必要的參考信息進行約束。此外,CAM通過全局平均池化操作獲取類別激活的特征圖,這會導致損失像素級別的準確性,并且CAM在訓練過程中并未使用像素級別的標注信息,很難定位物體的邊界和局部細節,因此經種子區域生成的偽像素掩碼會出現缺失部分目標或者溢出目標邊界的問題,導致其無法完整覆蓋目標類的整個語義區域,出現錯分割或漏分割的問題,從而影響最終的分割性能。

在最近的研究中,針對CAM通常無法覆蓋到目標類的整個語義區域的問題,通常將CAM作為一種初始定位技術,然后再通過其他方法對其進行改進。比如改進CAM的疊加方式以提高它的初始定位能力,Sun等人[8]使用類激活圖之間的關系,通過擦除像素的方法抑制圖像中的噪聲,可以使生成的偽像素掩碼更好地表達物體的形狀,改善種子區域隨機生長導致無法完整覆蓋目標區域的問題。Zhang等人[9]通過使用特征映射和CAM之間的對象區域關系增強上下文,從而使網絡獲得更多與目標相關的信息,使生成的偽像素掩碼可以覆蓋更多的目標區域。但是這些方法無法確定目標物體的精確邊界,經常會出現目標邊界與目標區域不匹配的問題。Jo等人[10]提出了一種利用語義一致性的特征消除偽像素中偏見對象的無監督技術,通過將對象和背景進行分離,從而得到質量更高的偽像素掩碼,以提高弱監督語義分割的分割性能。Han等人[11]使用一種基于紋元森林和顯著性先驗的方法,將圖像的標注問題轉換為能量最小化求解問題,僅使用單幅圖像的顯著性信息也可以得到較好的分割結果。白雪飛等人[12]使用圖像顯著性映射和背景迭代產生種子區域,再將其與分類網絡生成的類激活映射圖結合,獲取覆蓋更多目標區域的偽像素掩碼,提升分割性能。Cermelli等人[13]通過設計一種新的損失函數,使用蒸餾學習的方式,防止網絡對背景的偏向預測,對部分注釋進行建模,從而改善分割性能。除了利用顯著圖的方式改進偽像素掩碼的質量,也有一些方法通過利用邊界信息,使種子區域可以自然生長至目標邊界,從而覆蓋更多的目標區域[14,15]。

針對種子區域隨機生長機制導致偽像素掩碼無法完整覆蓋目標區域的問題,本文提出一種基于邊界輔助的弱監督語義分割網絡(weakly supervised semantic segmentation network based on boundary assistance,BAS-Net)。該方法通過融合邊界信息和語義信息,使種子區域可以在正確的目標類區域中自然地生長至目標邊界,覆蓋更完整的目標類語義區域,達到提升分割性能的效果。

1? 基于邊界輔助的弱監督語義分割網絡

1.1? 問題分析

目前主流的弱監督語義分割大多是基于兩階段的方法:首先通過分類網絡得到一個種子區域,再利用種子區域生長得到偽像素掩碼,最后利用偽像素掩碼作為監督信息訓練分割網絡,故偽像素掩碼的好壞直接決定了分割網絡的性能。偽像素掩碼是在CAM生成種子區域的基礎上,利用像素之間的關系而生成,與CAM具有相同的性質。而CAM只關注影響分類結果的區域,無法關注目標類的完整語義區域,這就導致了偽像素掩碼與真值目標區域存在差異。造成此問題的根本原因在于種子區域的生長具有方向隨機性,缺乏必要的約束限制,故以這種生長方式無法生長出覆蓋完整目標區域的偽像素掩碼,會影響最終的分割性能。由此,本文提出一種基于邊界輔助的弱監督語義分割網絡。首先通過邊界信息給種子區域的生長提供參考,使其可以自然地生長至目標邊界。盡管網絡利用邊界信息作為參考,使種子區域生成的偽像素掩碼可以較完整地覆蓋目標區域,但圖像中存在目標被遮擋或重疊的情況時,網絡很難正確區分物體的類別,導致種子區域生長至目標區域外或提前停止生長,造成錯分割和漏分割的問題。針對上述問題,本文提出了一個語義感知分支,通過語義信息使網絡可以更好地區分目標類別,改善當目標被遮擋或重疊時網絡無法區分目標類別的問題。

具體地,本文提出的基于邊界輔助的弱監督語義分割網絡包含了邊界檢測分支和語義感知分支。通過設計的語義感知分支學習圖像中不同類別的語義信息,將圖像像素分配給相應的類別。該模型可以關注到圖像中每個像素點的類別預測,能夠捕捉目標物體的整體形狀和分布,并且可以在只有圖像級標簽的情況下進行訓練。使用該模型,可使不同類別的目標之間差異更明顯,網絡可以準確捕捉物體的類別并且獲得語義上下文,通過上下文分析改善當出現目標重疊或部分遮擋的情況時無法準確分割的問題;通過設計的邊界檢測分支獲取目標的邊界信息,更準確地分割出目標邊界,使種子區域自然地生長至目標邊界,從而達到偽像素掩碼覆蓋準確的目標區域的目的。通過使用兩個模型,可改善弱監督語義分割的網絡性能。

1.2? 邊界檢測分支

為了得到邊界信息,BAS-Net通過探索多尺度時間域和頻率域的邊界信息,并利用兩個域的邊界信息為種子區域的生長提供多重約束。本文的邊界檢測分支(boundary detection branching,BDB)結構如圖1所示。

在時間域上,首先堆疊不同數量的內核大小為3×3的卷積層,在每次堆疊之后,利用1×1的卷積層將其連接起來,同時對該部分的輸出進行上采樣操作,再進行批處理歸一化,將不同尺度的邊界特征融合起來,得到最終的結果YC。這種方法無須預先訓練數據,通過融合不同尺度的邊界特征,可以得到更多的邊界信息。但由于進行了多次卷積,每個卷積層都會丟失一些邊緣特征,只通過卷積的方式獲取邊界特征是不夠的。所以,本文使用頻率的方式獲取邊界特征,并與時間域上得到的邊界信息進行融合,利用不同域的邊界信息達到多重約束的目的。

在頻率域上,本文設計了一種獲取頻率域邊界的網絡。具體地,采用八度卷積的方式獲取輸入圖像的高頻特征,過程如下:

YHp,q=YH→Hp,q+YL→Hp,q=∑i,j∈NkWH→Hi+k-12,j+k-12TXHp+i,q+j+∑i,j∈NkWL→Hi+k-12,j+k-12TXL(p2」+i,(q2」+j)(1)

其中:X代表輸入特征;Y代表輸出特征;W代表卷積核;上標H屬于高頻部分;上標L屬于低頻部分;Nk={(i,j):i={-k-12,…,k-12},j={-k-12,…,k-12}};」操作的含義是向下取整;(p,q)指特征圖上的位置。獲取不同尺度的高頻信息,再利用雙線性插值進行上采樣調整尺寸,最后進行特征合并,從而得到頻率域邊界特征XC。

利用concat特征融合方式將頻率域邊界XC和時間域邊界YC融合到一起,并通過sigmoid激活函數得到邊界圖,過程為

ZConcat=∑Cxc=1XC1c+∑Cyc=1YC1c(2)

其中:特征圖的通道數為Cx+Cy;表示卷積操作;1c表示一個1×1×c的張量。由此利用時間域和頻率域得到了包含邊界信息的邊界圖,為偽像素掩碼提供了合理約束。在不同域上的邊界可視化對比如圖2所示。

通過觀察圖2(b)可以明顯發現,時間域邊界由于多層卷積的緣故會丟失部分目標邊界信息,如圖2(b)第四行,椅子下半部分的邊界明顯丟失。此外,如圖2(a)第一行,當圖像內存在多個物體時,時間域邊界并不能探索到某些小尺寸物體的邊界,而頻率域邊界可以探索到圖像內不同尺寸大小物體的邊界。故本文的邊界檢測分支通過融合兩域的邊界特征,使時頻邊界可以包含更多的邊界信息,并且可以探索到圖像內不同尺寸物體的邊界,生成的邊界圖可以較好地保持目標邊界的完整性和準確性。本文采用時間域邊界和頻率域邊界多重約束種子區域的生長過程,使生成的偽像素掩碼可以更好地覆蓋目標區域,以提升弱監督語義分割的性能。

1.3? 語義感知分支

近年來,注意力機制在語義分割任務中被廣泛使用[16~18]。但是大多數方法都只是使用了骨干網中單階段的信息,并沒有使用如空間信息等其他階段的信息。但是高級語義信息和低級邊界信息都在分割任務中起著至關重要的作用。為了解決該問題,本文設計的語義感知分支(semantic-aware branching,SAB),使用雙向空間注意力(bi-directional spatial attention,BSA)和通道注意力(channel attention,CA)結合的方式,結合了高級階段和低級階段的信息,突出每個通道的重要性,從而提供了辨別力更高的語義信息。語義感知分支整體結構如圖3所示。

語義感知分支主要通過編碼通道和空間注意力的方式提高對特征提取的能力,該分支主要由通道注意力模塊CA和雙向空間注意力模塊BSA組成。在進行語義信息的提取時,盡管淺層特征會包含更豐富的空間信息,但是無論是深層特征還是淺層特征,都會保留關鍵的位置信息,所以為了捕獲到具有長距離的位置關系,本文使用BSA,將輸入特征分化成垂直方向和水平方向,達到同時利用深層和淺層的目的。

具體地,首先對深層特征進行上采樣,以達到和淺層特征分辨率一致的目的;再將其通過一組分組卷積(3×1和1×3卷積)的特征與CA得到的特征逐像素相乘;由于BSA模塊會輸出兩個不同的空間注意力圖,所以將此結果與BSA生成的兩個注意力圖分別逐像素相乘再相加到一起,得到注意力加強的高分辨率特征圖;最后再將其與分組卷積后的結果相加,從而編碼特征圖中的每個通道,達到提供更具辨別力語義信息的目的。

1.4? 網絡整體結構

本文網絡基于原始的CAM,并添加邊界信息和語義信息作為參考,使網絡在目標被遮擋或重疊時可以正確區分目標類別,也可以自然地生長至目標邊界,以達到準確分割的目的。網絡整體結構如圖4所示。

首先經過分類網絡獲取每個類的類別得分SC,再利用類別得分推導出種子區域Mc,公式如下:

SC=∑kwck∑x,yfk(x,y)=∑x,y∑kwck fk(x,y)(3)

Mc(x,y)=∑kwck fk(x,y)(4)

其中:fk(x,y)代表激活單元k在最后一個卷積層的空間位置(x,y);輸入圖像執行全局平均池化的結果為Fk=∑x,yfk(x,y);對于一個給定的類c,∑kwckFk為softmax的輸入,wck是c類別對應的權重。

得到初始的種子區域后,在種子區域生長的過程中,利用邊界信息對其進行像素點的相似度約束。給定一個以像素i為中心,大小為w的滑動窗口,Nci表示c類別的像素在窗口中的數量,則每個類別在窗口中的比例為Sci。

Sci=Nciw×w(5)

其中:像素需滿足以下兩個條件即可被認定為邊界。首先,在窗口中要有足夠多的相同類別像素;其次,窗口中前景區域和背景區域的面積大小需要足夠接近。因此判別像素i是否為邊界的計算如下:

BSymbolYCpi=0? if min{max Sci,S0i}>2θscaleand |max Sci-S0i|≥2θdiff

1? if min{max Sci,S0i}>2θscale and |max Sci-S0i|<2θdiff(6)

其中:BSymbolYCpi=1代表邊界像素;B∧i=0代表目標區域內部像素。在種子區域進行生長的過程中,對所生長后的像素進行權重分配的操作,使受到約束后的種子區域生長成的偽像素掩碼可以覆蓋更多目標類的語義區域,包含更豐富的語義信息。

設BSymbolYCpi=0的像素點為I,種子區域的質心為Pk,其計算公式為

Pk=∑iF*I∑iI(7)

則由種子區域生成偽像素掩碼的過程為

M~k(j)=ReLU(F(j)·Pk‖F(j)‖·‖Pk‖)(8)

1.5? 損失函數

在圖像級弱監督語義分割中,為了使模型學習圖像中不同類別的語義信息,并將像素點分配給相應的類別,本文使用多標簽分類損失函數指導模型對圖像進行分類預測,并根據預測結果生成初步的語義分割結果。該損失函數如式(9)所示。

Lcls(mD0,z)=-1C∑Cc=1zc log2(11+e-mD0)+(1-zc) log2(e-mD01+e-mD0)(9)

其中:mD0是模型預測向量;z是真值標簽的二進制向量;C={c0,c1,…,cN}表示包含背景類的類別數。

由于在訓練階段,邊界、前景和背景像素存在顯著差異,為了解決該問題,本文將訓練數據分為邊界像素、前景像素和背景像素三部分。分別計算各個部分的交叉熵,并聚合成最終的邊界損失函數:

LB=-∑i∈bryWilog2(Pi)|bry|-12(∑i∈clog2(1-Pi)|c|+∑i∈bglog2(1-Pi)|bg|)(10)

通過設計的邊界損失函數可以使模型更準確地捕捉到目標邊界,從而提高分割的精度和準確性。

2? 實驗及結果分析

2.1? 數據集

本文算法在 Pascal VOC 2012 進行了實驗,僅使用了其中的圖像級標簽用于訓練。Pascal VOC 2012 包括了20個前景類別和1個背景類別。每張圖片可能包括多個標簽類別。使用從語義邊界數據集(semantic boundaries dataset,SBD)收集的擴展數據集,其中有10 582張訓練圖片、1 449張驗證圖片,以及1 456張測試圖片。為評價分割結果的準確性,以平均交并比(mean intersection over union,mIoU)作為圖像語義分割評價指標,mIoU越大表示像素預測值與真實值的交集越大,分類預測結果越準確。mIoU的計算過程為

mIoU=1α+1∑αi=0pii∑αi=0pij+∑αi=0pji-pij(11)

其中:(α+1)表示類別數目;i表示真實類別;j表示預測類別;pij表示像素值真實為i類但被預測為j類;pii表示像素值真實值預測為i類;pji表示將像素預測j預測為真實值i。

2.2? 實驗細節

硬件配置為NVIDIA GeForce RTX 3090顯卡, Intel CoreTM i7-12700k處理器,在Windows 10操作系統中,編程環境為Python 3.6,采用PyTorch 1.12.0深度學習框架進行訓練和測試網絡模型。在PASCAL VOC 2012數據集下,將批尺寸設置為4,學習率設為0.000 001,epoch設為3,滑動窗口w的大小設置為13,θscale設置為0.35,θdiff設置為0.10,時間域的卷積內核大小為3×3,步長設置為2,并在最后使用條件隨機場(conditional random fields,CRF)來細化結果。

2.3? 消融實驗

為了驗證本文網絡的有效性,進行了多項實驗,通過比較mIoU的值來驗證本文網絡的效果。本節所有的實驗均在同一硬件配置和參數下進行。

本文網絡使用VGG16分類網絡產生初始化種子區域,并使用本文BAS-Net生成的偽像素掩碼來訓練以ResNet50為骨干網絡的弱監督語義分割網絡。其中,BAS-Net包含了邊界信息和語義信息,邊界信息包括時間域邊界和頻率域邊界,為了驗證邊界檢測分支中每個域邊界對實驗結果的影響,在保持同一實驗條件下,通過添加和減少某一模塊進行對比實驗,結果如表1所示。

通過觀察表1的結果可以看出,當只引入時間域邊界時,mIoU從50.0%變為59.3%,提升了9.3%;只引入頻率域邊界時,mIoU從50.0%變為63.1%。這兩組實驗數據證明了本文提出的使用邊界作為參考的有效性。當進一步將時間域邊界和頻率域邊界融合進行邊界輔助參考后,mIoU提升到了67.2%,這驗證了本文提出的邊界檢測分支提高弱監督語義分割性能的可行性。

由于本文使用的頻率域邊界是采用八度卷積的方式進行,為方便記錄,將八度卷積的不同方式按照定義1命名。

定義1? 在本文中,根據八度卷積的運算過程,將經一層八度卷積處理后的高頻特征命名為OCTH,低頻特征命名為OCTL;連續兩層八度卷積處理后的特征根據不同的通道命名為OCTHH、OCTHL、OCTLL、OCTLH;多層八度卷積的頻率特征命名同上。

為探索在不同頻率特征和邊界之間的關系,本文構造三層八度卷積,以不同的級聯方式獲取不同頻率的特征,并以不同頻率的特征對其分別進行分割網絡的訓練。在同樣的環境配置下將分割網絡在PASCAL VOC 2012驗證集上進行測試,測試結果如表2所示。

表2中,將只引入時間域邊界而不結合頻率域邊界的分割網絡測試結果作為基準,與使用不同級聯方式的八度卷積獲取頻率信息的分割網絡測試結果相比,發現OCTHHL級聯方式的效果最好,包含了更多準確的邊界信息;但OCTHHH效果一般,這是因為高頻特征不僅包含邊界信息,同樣還有噪聲。根據實驗結果可知,OCTHHL更能有效提升最終的分割性能。所以本文提出的頻率域邊界采用OCTHHL的級聯方式。

在確定邊界檢測分支可以提高弱監督語義分割網絡的網絡性能后,在同一實驗條件下,通過添加或去除語義感知模塊進行實驗對比,結果如表3所示。

通過對比表3中的mIoU數值可知,當僅使用最原始的CAM生成偽像素掩碼時,mIoU為53%,當給網絡中添加邊界信息時,mIoU達到67.2%,證明本文所提邊界檢測分支的有效性;當給網絡中僅添加語義感知分支時,mIoU值達到了66.1%,相較原網絡提升了13.1%,證明了本文所提邊界檢測分支的有效性;當同時使用邊界檢測分支和語義感知分支時,mIoU達到了73.2%,這證明了本文方法的有效性。實驗表明,在弱監督語義分割中,語義信息和邊界信息可以提高網絡的分割性能。

為了更直觀地觀察到某模塊對網絡性能的影響,添加或移除某模塊的分割結果對比如圖5所示。

通過觀察圖5(a)(b)可以看出,當男孩和沙發重疊,并且男孩遮擋后方的奶瓶時,原始的分割結果不僅不能完整分割沙發區域以及缺少部分男孩的分割結果,出現漏分割,還出現將沙發、奶瓶以及手機錯分割為人的情況。通過觀察圖5(c)可以發現,經過語義感知分支SAM處理后,網絡可以正確地將沙發、手機以及奶瓶分類,改善了目標被遮擋或者重疊時出現的錯分割情況,但沙發仍然未被正確分割,存在漏分割的問題。通過觀察圖5(d)可以發現,經過邊界檢測分支BDM的分割,原本未被分割的沙發部分以及男孩的腳部分被正確分割,改善了漏分割的情況,但是仍存在將沙發、奶瓶以及手機誤認為男孩的錯分割情況。觀察圖5(e)可以發現,經過本文提出的計劃注意力處理后的分割結果,既可以正確區分目標類別,分割結果也可以相對正確地覆蓋目標區域,解決了目標遮擋或重疊時錯分割和漏分割的問題。

2.4? 算法性能分析

為了驗證本文算法的有效性,在語義分割常用的PASCAL VOC 2012數據集上對本文算法進行測試。最終在PASCAL VOC 2012數據集的測試集和驗證集,mIoU分別達到了72.1%和73.2%,證明了本文方法的有效性,在該數據集上的可視化結果如圖6所示。

觀察圖6(a)(b)第一行可以明顯發現,原始的CAM無法區分原圖中的火車、鐵路以及火車的影子,出現錯分割的問題;再觀察圖6(a)(c)第一行可以發現,經極化注意力處理后的語義分割網絡可以較好地將像素進行分類,并且結果與真值較為接近。觀察圖6(a)(b)第二行可以發現,CAM無法區分飛機的梯子和飛機本身,和真值有較大差異,最終出現錯分割的問題;再觀察圖6(a)(c)第二行可以發現,經計劃注意力處理后的分割結果可以較好地區分屬于飛機的像素,改善了錯分割的情況。觀察圖6(a)(b)第三行,當樹枝遮擋鳥時,CAM會錯將樹枝誤認為鳥,同時也無法準確分割鳥的全身,和真值有較大差異,出現錯分割和漏分割的情況;再觀察圖6(a)(c)第三行可以發現,經計劃注意力處理后的分割結果不僅使鳥漏分割的部分得以正確分割,也解決了當目標被遮擋時出現的錯分割問題,改善了弱監督語義分割網絡的性能,證明了本文方法的可行性。

在同樣的實驗條件配置下, 將本文方法與前沿的弱監督語義分割方法在PASCAL VOC 2012驗證集與測試集上進行對比,結果如表4所示。本文提出的基于邊界輔助的弱監督語義分割網絡,不僅使用語義信息更好地區分目標類的像素類別,也使用邊界信息讓種子區域可以自然地生長至目標邊界,進而提升分割性能。與使用點、涂鴉、邊框和像素級標簽這類監督信息更強的方法相比,本文方法縮小了它們之間的性能差距。

除了在PASVOC CAL 2012數據集進行驗證外,也在Cityscapes數據集上對本文方法進行對比驗證。Cityscapes數據集包含了交通場景中不同季節的街景圖片,共5 000張精細標注的圖像、2 000張粗略標注的圖像以及30類標注物體,其中19類用于語義分割任務。本文使用3 000張訓練集圖片訓練網絡,500張驗證集圖片進行驗證。在訓練階段使用隨機尺寸裁剪和隨機亮度變換的方式進行數據增強操作,并在相同的實驗條件配置下,與近幾年主流的弱監督語義分割算法進行對比,對比結果如表5所示。

通過對比表5結果,證明了本文算法相對于其他網絡具有更好的分割效果。此外,為了驗證本文算法對每一類物體的分割效果,也在Cityscapes數據集的驗證集上針對每一類物體的mIoU值進行對比,對比結果如表6所示。

由于本文提出了語義感知模塊和邊界檢測模塊,本文方法針對較小的柵欄、細長的電桿等小目標可以保留大量的細節信息,使網絡對小目標的分割更為準確。同時,由于引入邊界信息,針對卡車、火車、建筑、公共汽車等相對較大目標可以更好地獲取目標的邊緣信息,使網絡有較好的分割效果。

在Cityscapes數據集的驗證結果對比如圖7所示,其中圖7(a)為原圖,圖7(b)~(e)分別為CAM、SAN、MTL以及DCNN方法的分割結果,圖7(f)為本文分割結果。

通過觀察圖7可以發現,本文提出的網絡可以有效地保留空間信息,分割效果相對其他方法更為完整,如圖7(c)第一、四行,圖7(d)第二、三行所示,物體內部混淆的問題也得到改善。本文方法之所以取得了更優的實驗性能,得益于采用邊界信息和語義信息的方式,不僅使網絡更好地區分目標類別,也讓種子區域自然地生長至目標邊界。這種方法在不添加任何額外標注信息的前提下,使種子區域的生長得到了合理的約束,使其生成的偽像素掩碼可以更好地覆蓋目標區域,解決了偽像素掩碼缺失和溢出目標邊界的問題。以這種高質量的偽像素掩碼訓練分割網絡,可以生成更精準的分割結果。除了在Cityscapes數據集上進行實驗結果對比外,本文網絡也在數據集PASCAL VOC 2012上進行測試,分割結果和真值對比如圖8所示。

3? 結束語

本文提出了一種基于邊界輔助的弱監督語義分割網絡,使用語義信息使網絡可以更好地區分目標類別,再以邊界約束種子區域的生長過程,使其可以生成覆蓋更完整目標區域的偽像素掩碼。PASCAL VOC 2012驗證集和測試集上的實驗效果證明了本文方法的有效性,本文方法的性能超越了大多數弱監督語義分割方法。未來還將繼續探索使用邊界約束弱監督語義分割的方法,開發端到端的弱監督語義分割框架,充分利用邊界信息和語義信息解決弱監督語義分割邊界對象不匹配,類與背景共生、類間共生的問題,提升弱監督語義分割性能。

參考文獻:

[1]Wu Yushuang, Cai Shengcai, Yan Zizheng, et al. PointMatch: a consistency training framework for weakly supervised semantic segmentation of 3D point clouds[EB/OL]. (2022-06-21). https://arxiv.org/abs/2202.10705.

[2]Zhang Binfeng, Xiao Jimin, Wei Yunchao, et al. Credible dual-expert learning for weakly supervised semantic segmentation[J]. International Journal of Computer Vision, 2023,131(8): 1892-1908.

[3]Wang Yuchao, Wang Haochen, Shen Yujun, et al. Semi-supervised semantic segmentation using unreliable pseudo-labels[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 4238-4247.

[4]Zhou Tianfei, Zhang Meijie, Zhao Fang, et al. Regional semantic contrast and aggregation for weakly supervised semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 4289-4299.

[5]Zhang Zhe, Wang Bilin, Yu Zhezhou, et al. Attention guided enhancement network for weakly supervised semantic segmentation[J]. Chinese Journal of Electronics, 2023,32(4): 896-907.

[6]劉臘梅, 宗佳旭, 肖振久, 等. 流形正則化的交叉一致性語義分割算法[J]. 中國圖象圖形學報, 2022,27(12): 3542-3552. (Liu Lamei, Zong Jiaxu, Xiao Zhenjiu, et al. Cross-consistent semantic segmentation algorithm for manifold regularization[J]. Journal of Image and Graphics, 2022,27(12): 3542-3552.)

[7]繆佩翰, 包翠竹, 高佳, 等. 雙域級聯決策和協作標注自提升的魯棒弱監督語義分割[J]. 計算機輔助設計與圖形學學報, 2022,34(4): 605-613. (Miu Peihan, Bao Cuizhu, Gao Jia, et al. Robust and weakly supervised semantic segmentation with dual-domain cascade decision-making and collaborative annotation self-promotion[J]. Journal of Computer-Aided Design & Computer Graphics, 2022,34(4): 605-613.)

[8]Sun Kunyang, Shi Haoqing, Zhang Zhengming, et al. ECS-Net: improving weakly supervised semantic segmentation by using connections between class activation maps[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 7263-7272.

[9]Zhang Fei, Gu Chaochen, Zhang Chenyue, et al. Complementary patch for weakly supervised semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 7222-7231.

[10]Jo S, Yu I J, Kim K. Mars: model-agnostic biased object removal without additional supervision for weakly-supervised semantic segmentation[EB/OL]. (2023-04-19). https://arxiv.org/abs/2304.09913.

[11]Han Zheng, Xiao Zhitao. Weakly supervised semantic segmentation based on semantic text on forest and saliency prior[J]. Journal of Electronics & Information Technology, 2018,40(3): 610-617.

[12]白雪飛, 李文靜, 王文劍. 基于顯著性背景引導的弱監督語義分割網絡[J]. 模式識別與人工智能, 2021,34(9): 824-835. (Bai Xuefei, Li Wenjing, Wang Wenjian. Salienly background guided network,for weak-supervised semantic segmentation[J].Pattern Re-cognition and Artificial Intelligence, 2021,34(9): 824-835.)

[13]Cermelli F, Mancini M, Buló S R, et al. Modeling the background for incremental and weakly-supervised semantic segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,44(12): 10099-10113.

[14]Makkar N, Yang H L. Entropy and boundary based adversarial lear-ning for large scale unsupervised domain adaptation[C]//Proc of IEEE International Geoscience and Remote Sensing Symposium. Piscataway, NJ: IEEE Press, 2020: 589-592.

[15]欒曉梅, 劉恩海, 武鵬飛, 等. 基于邊緣增強的遙感圖像弱監督語義分割方法[J]. 計算機工程與應用, 2022,58(20): 188-196. (Luan Xiaomei, Liu Enhai, Wu Pengfei, et al. Remote sensing image weak supervised semantic segmentation method based on edge enhancement[J]. Computer Engineering and Applications, 2022,58(20): 188-196.)

[16]Wang Yude, Zhang Jie, Kan Meina, et al. Self-supervised equivariant attention mechanism for weakly supervised semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 12272-12281.

[17]Ruan Hongjia, Song Huiui, Liu Bo, et al. Intellectual property protection for deep semantic segmentation models[J]. Frontiers of Computer Science: Selected Publications from Chinese Universities, 2023,17(1): 9.

[18]Kuang Sheng, Woodruff H C, Granzier R, et al. MSCDA: multi-level semantic-guided contrast improves unsupervised domain adaptation for breast MRI segmentation in small datasets[EB/OL]. (2023-06-08). https://arxiv.org/abs/2301.02554.

[19]Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully con-nected CRFs[J]. Computer Science, 2014,4: 357-361.

[20]Bearman A, Russakovsky O, Ferrari V, et al. Whats the point: semantic segmentation with point supervision[C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2016: 549-565.

[21]Lin Di, Dai Jifeng, Jia Jiaya, et al. ScribbleSup: scribble-supervised convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 3159-3167.

[22]Khoreva A, Benenson R, Hosang J, et al. Simple does it: weakly supervised instance and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1665-1674.

[23]Jonnarth A, Felsberg M, Zhang Yushan. Activation-based sampling for pixel-to image-level aggregation in weakly-supervised segmentation[EB/OL]. (2022-03-23). https://arxiv.org/abs/2203.12459v1.

[24]Liu Yang, Zhang Ersi, Xu Lulu, et al. Mixed-UNet: refined class activation mapping for weakly-supervised semantic segmentation with multi-scale inference[EB/OL]. (2022-05-06). https://arxiv.org/abs/2205.04227.

[25]Cao Zhiyuan, Gao Yufei, Zhang Jiacai. Scale-aware attention network for weakly supervised semantic segmentation[J]. Neurocomputing, 2022, 492: 34-49.

[26]Xie Xuanhua, Fan Huijie, Yu Zhencheng, et al. Weakly-supervised medical image segmentation based on multi-task learning[C]//Proc of International Conference on Intelligent Robotics and Applications. Cham: Springer, 2022: 395-404.

[27]Al-Huda Z, Peng Bo, Algburi R N A, et al. Weakly supervised pavement crack semantic segmentation based on multi-scale object localization and incremental annotation refinement[J]. Applied Intelligence, 2023,53(11): 14527-14546.

[28]Strudel R, Laptev I, Schmid C. Weakly-supervised segmentation of referring expressions[EB/OL]. (2022-05-12). https://arxiv.org/abs/2205.04725.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合