?

基于合成圖像的語義分割任務域適應算法研究?

2024-01-23 13:38徐淑怡
計算機與數字工程 2023年10期
關鍵詞:標簽語義像素

徐淑怡

(南京理工大學計算機科學與工程學院 南京 210018)

1 引言

1.1 研究背景

深度卷積神經網絡(DCNN)使計算機視覺領域發生了革命性的變化[1],在諸如圖像分類,語義分割,目標檢測等多種任務中實現了超高性能[2~5]。這種強勁的表現可歸因于目前數量龐大的有標簽訓練數據集。但對于語義分割任務來說,在數據注釋方面需要大量人力物力以獲得密集的像素級標簽。從CITYSCAPES 數據集獲取單個圖像的逐像素標簽的注釋就需要約1h,難度也很高。在數據收集方面,雖然自然圖像更容易獲得,但在一些領域,例如醫學成像,收集數據和請專家精確標記這些數據都非常昂貴。

解決上述問題的一種方法是利用生成的數據參與訓練。然而,由于數據集之間存在域位移,因此在合成數據上訓練的模型在真實數據集上往往表現不佳。域適應就是解決該域位移問題的一類技術。因此,本文重點是研究用于語義分割的領域自適應算法。這類問題最普遍也最有難度的一種情況是,沒有來自目標域的標簽可用。這類技術通常被稱為無監督域適應。

1.2 研究現狀

全卷積神經網絡(FCN)的發展[4]見證著域適應研究重點從各種距離度量及其變體[6]轉移到以端到端方式學習域不變特征。傳統方法在分類問題上取得了成功,然而它們的性能改進無法很好地為語義分割問題所用。這促使我們開發適合于語義分割的域適應技術。

我們專注于對抗性方法。Revgrad[7]通過在特征空間中應用對抗性損失來完成域自適應,而PixelDA[8]和CoGAN[9]在像素空間中進行操作。雖然這些技術適用于分類任務,但很少有針對語義分割任務的方法。目前來說,文獻[10]和文獻[11]提出解決這一問題較好的兩種方法。FCN in the wild[10]提出了兩種對齊策略:1)全局對齊,它是文獻[7]對分割問題提出的域對抗訓練的擴展;2)局部對齊,將其定義為類別特定統計多實例學習問題。另一邊,文獻[11]提出了課程式學習方法,首先學習估計地標超像素上的圖像和局部分布的全局標簽分布的簡單任務。然后訓練分割網絡,使得目標標簽分布遵循這些推斷的標簽屬性。

2 網絡模型原理與實現

我們提出一種方法,該方法采用生成模型來對齊特征空間中的源和目標分布。首先通過使用L1和對抗性損失的組合訓練重建模塊,將使用DCNN獲得的中間特征表示投影到圖像空間。然后,通過強制網絡學習特征來強制域對齊約束,使得源特征在傳遞到重建模塊時產生類似目標的圖像,反之亦然。這是通過采用一系列對抗性損失來實現的。隨著訓練的進行,生成質量逐漸提高,同時,特征變得更加領域不變。

2.1 模型設計

令X?RL×W×C為任意輸入圖像(帶有C通道),Y?RL×W是相應的標簽圖。給定輸入X,我們將CNN 的輸出表示為,其中NC是類的數量。是表示CNN 輸出的像素位置(i,j)處的類概率分布的向量。源(s)或目標(t)域由上標表示,例如Xs或Xt。

2.2 處理源和目標數據

給定源圖像和標簽對{Xs,Ys}作為輸入,首先使用F 網絡提取特征表示。分類器C 將嵌入F(Xs)作為輸入,并生成圖像大小的標簽映射。生成器G重建以嵌入為條件的源輸入Xs。在圖像生成工作之后,我們沒有明確地將生成器輸入與隨機噪聲向量連接,而是在整個G網絡中使用丟失層。如圖1所示,D執行兩個任務:1)將真實源輸入和生成的源圖像區分為源—真或源—偽;2)產生生成的源圖像的像素標簽圖。

圖1 網絡模型流程圖

給定目標輸入Xt,生成器網絡G 將來自F 的目標嵌入作為輸入并重建目標圖像。與之前的情況類似,訓練D以區分真實目標數據(目標—真)和從G 生成的目標圖像(目標—假)。與前一種情況不同,D 僅執行單個任務,將目標輸入分類為目標—真實或目標—偽造。由于目標數據在訓練期間沒有任何標簽,因此當給定目標輸入時,分類網絡C不活動。

2.3 迭代優化

首先描述方法中使用的各種損失。用于訓練模型的不同對抗性損失如表1 所示。除了這些對抗性損失之外,我們還使用以下損失:1)Lseg和Laux像素級的交叉熵損失在分割網絡中使用,例如FCN。2)輸入和重建圖像之間的損失Lrec-L1。

表1 各類損失

3 實驗結果與分析

3.1 數據集介紹

SYNTHIA 是具有精確像素級語義注釋的虛擬城市渲染照片真實幀的大型數據集。我們使用SYNTHIA-RAND-CITYSCAPES 子集,其中包含9400個帶有注釋的圖像。

使用CITYSCAPES 作為我們的真實數據集。該數據集包含從德國和鄰國50 個城市的移動車輛中收集的城市街道圖像。該數據集帶有5000 個帶注釋的圖像。在本文所有實驗中,使用標記的SYNTHIA 數據集作為源域,并將未標記的CITYSCAPES 訓練集作為我們的目標域。將來自CITYSCAPES 的val 集的500 個圖像指定為我們的測試集。

3.2 實驗架構和實施細節

在我們所有的實驗中,使用FCN-8 作為我們的基礎網絡。使用在Imagenet 上訓練的VGG-16模型的權重來初始化該網絡的權重。圖像被調整大小并裁剪為1024×512。我們使用Adam solver 訓練我們的模型進行了100,000 次迭代,批量大小為1。F 和C 網絡的學習率為10-5,G 和D 網絡的學習率為2×10-4。

3.3 實驗結果

為了確保實驗結果的公平性,我們遵循了先前工作(文獻[10~11])所指定的:選擇SYNTHIA 和CITYSCAPES 之間的16 個常用類作為我們的標簽。對應于其他類的預測被視為屬于void類,而不在訓練期間反向傳播。

表2 展示了我們的方法與文獻[10]和文獻[11]相比的表現。對于無域適應情況的僅源模型,即僅用源域數據進行訓練,本文方法實現了26.9的mIOU。僅目標域模型表示使用CITYSCAPES 訓練集(監督訓練)訓練的模型獲得的性能,以它作為域適應性能的粗略上界。我們的方法達到了36.2 的mIOU,將基線提高了9.3個點,與其他方法相比,貢獻了更高的性能提升。

表2 SYNTHIA →CITYSCAPES

4 結語

本文的研究重點是探討一種適用于語義分割任務的域適應算法,以最大限度地克服語義分割任務中合成圖像和真實場景圖像之間的域間隙。我們提出一種聯合對抗方法,它使用生成器鑒別器對將目標分布的信息傳遞給特征提取網絡。用此方法在大規模數據集上實驗并與其他方法對比,實驗結果表明了我們的方法優于現有方法,且兼具通用性和可擴展性。

猜你喜歡
標簽語義像素
趙運哲作品
像素前線之“幻影”2000
語言與語義
“像素”仙人掌
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
“上”與“下”語義的不對稱性及其認知闡釋
標簽化傷害了誰
高像素不是全部
基于多進制查詢樹的多標簽識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合