?

基于UPS策略自我訓練的半監督語義分割

2024-04-14 02:12李雨杭朱小東楊高明
現代信息科技 2024年2期

李雨杭 朱小東 楊高明

DOI:10.19850/j.cnki.2096-4706.2024.02.001

收稿日期:2023-10-27

基金項目:安徽高校自然科學研究項目(KJ2017A084);安徽省自然科學基金面上項目(1808085MF179)

摘? 要:為提高半監督語義分割的效果,文章提出一種損失歸一化技術結合UPS策略的半監督語義分割網絡SPNS。利用損失歸一化技術緩解標準損失函數的自我訓練不穩定問題;UPS策略是結合不確定性估計和消極學習的技術,通過計算輸出值的不確定性作為另一種閾值,用以挑選可靠的偽標簽,最后利用生成的偽標簽和標記數據完成半監督語義分割任務。SPNS方法在PASCAL·VOC數據集上相對于只使用標記數據訓練有著+2.06的效果提升,與其他方法相比也有一定提升。

關鍵詞:半監督;語義分割;自我訓練;UPS;消極學習

中圖分類號:TP391? ? 文獻標志碼:A? ? 文章編號:2096-4706(2024)02-0001-04

Semi-supervised Semantic Segmentation Based on UPS Strategy Self Training

LI Yuhang, ZHU Xiaodong, YANG Gaoming

(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)

Abstract: To improve the effectiveness of semi-supervised semantic segmentation, this paper proposes a semi-supervised semantic segmentation network SPNS that combines loss normalization technology with UPS strategy. Using loss normalization techniques to alleviate the instability of self training in standard loss functions; the UPS strategy is a technique that combines uncertainty estimation and passive learning, by calculating the incompleteness of the output value as another threshold, reliable pseudo labels are selected, and finally the semi-supervised semantic segmentation task is completed using the generated pseudo labels and labeled data. The SPNS method has +2.06 improvement compared to training with only labeled data on the PASCAL · VOC dataset, and also has some improvement compared to other methods.

Keywords: semi-supervised; semantic segmentation; self training; UPS; negative learning

0? 引? 言

語義分割,即從集合中分配標簽圖片的每個像素類別,是計算機視覺任務中最具挑戰性的任務之一?,F有的基于卷積神經網絡的全監督分割方法[1]很大程度上得益于帶標注數據集規模的快速增長,但數據集規??焖僭鲩L的同時也給數據標注帶來了極大的壓力。以語義分割任務為例,如果在語義分割公開數據集PASCAL VOC2012[2]上標注一張圖像的像素級標簽需要4分鐘時間,則標注PASCAL VOC 2012上整個擴展訓練集(10 528張圖像)的時間會長達一個月,同時獲取這些數據的成本急劇上升。

監督學習的替代方法是無監督學習,即利用大量的未標記數據,但是無監督學習的方法缺乏類的概念,只是試圖識別一致的區域或區域的邊界。半監督學習介于有監督和無監督之間,即給出的數據一部分是標記數據。半監督學習用來識別一些特定的隱藏結構,在某些情況下,未標簽數據x的p(x)可以支持分類帶有y標簽的p ( y | x)。為了解決數據難獲得或標注時間過長的問題,一些半監督的方法成為新的選擇[3-10]。

一致性正則化方法的本質就是使用數據增強策略。目前對圖像常見的數據增強方法除了為圖像添加高斯噪聲擾動、圖像色彩抖動、隨機尺度裁剪等基本方法外,還有CutMix[9]、GAN等方法。一致性正則法在目前的半監督學習領域占據主導地位,但是這類技術的驚艷表現是建立在大量的先導工作的基礎上的,對于特定數據集的分類任務,往往需要事先花很長的時間去搜索最合適的數據增強策略,如果缺乏十分有效的數據增強策略,就會導致缺乏泛化能力。

還有一種典型的方法是為沒有標注釋的像素分配偽標簽(Pseudo-Labe)。具體來說,給定一張未標記的圖像,現有的[3,4,6,7]借用在標記數據上訓練的模型的預測,并使用逐像素預測作為“ground-truth”,進而提升監督模型。自我訓練[7]也可以叫作自我學習,也是使用這種方法。自我訓練主要以經過有標簽數據訓練出來的模型有極大可能性是正確的為前提。用標簽數據訓練一個教師模型,再使用教師模型生成的偽標簽和有標簽數據訓練最終的模型。但是這種打偽標簽法存在一個問題:即無論樣本被貼上的偽標簽正確與否,這些標簽都需要有很高的置信度。如果大量的無標簽樣本被貼上錯誤的標簽并用作訓練,將導致訓練集中存在大量的噪聲樣本,從而嚴重影響模型的性能。SPNS方法使用UPS策略的自我訓練和語義分割網絡結合,能夠在一定程度上降低偽標簽的錯誤率。

1? 本文方法介紹

1.1? 方法概述

給定一個標記集? 和一個更大的未標記數據集 ,本文的目標是通過大量未標記的數據和較小的標記數據來完成半監督語義分割任務。使用自我訓練的打偽標簽方法時,常常因為貼上錯誤的標簽造成噪聲樣本,而迭代過程會大量增加噪聲樣本數量;同時使用標準損失函數的自我訓練在迭代過程中,加入偽標簽訓練學生模型時可能會出現訓練崩潰、無法收斂的情況。

結合兼顧Positive & Negative Pseudo Label的打偽標簽法和UPS的自我訓練框架,并結合不確定性估計(Uncertainty estimation)和消極學習(Negative learning),減少貼錯標簽情況的同時,挑選出可靠的偽標簽。圖1給出了使用UPS策略自我訓練的模型圖。它遵循自我訓練框架,具有兩個框架相同的模型,分別命名為教師和學生。1)在標記數據上訓練教師模型。2)教師模型在未標記的數據上生成偽標簽,并使用UPS策略挑選偽標簽。3)使用打上偽標簽的數據和有標注數據一起訓練模型(重新隨機初始化),然后跳至步驟2)繼續執行,直到循環迭代到最大迭代次數。

使用標準損失函數的自我訓練可能是不穩定的,為解決這個問題,本文使用一種損失歸一化技術α[7]:

(1)

其中Lh,Lp,, 分別為真實標簽損失、偽標簽損失和各自損失的滑動平均值。

1.2? 兼顧Positive & Negative Pseudo Label的打偽標簽法

傳統的偽標簽方法,通常設定一個閾值,當模型預測樣本屬于某類的概率超過閾值時,給樣本貼上相應的偽標簽并用于訓練;或者,直接選取模型預測的最大概率所在的類作為偽標簽,其公式如下:

(2)

其中? 為樣本x(i)關于第c類的偽標簽, 為模型輸出的第c類的概率,γ為閾值。若偽標簽的值域為{0,1},則該標簽指示了樣本屬于或不屬于第c類即傳統C分類問題中的one-hot label形式,即可轉換為由該類標簽組成的1×c維的標簽:(i) = [,… ,… ]c。令? 指示樣本x(i)的偽標簽是否被用作訓練模型,g(i) = [,…,?{0,1}c,用卡閾值的方法生成Positive Pseudo Label(偽標簽指示樣本屬于某類),當然也可以用類似的方法生成Negative Pseudo Label(偽標簽指示樣本不屬于某類)其計算公式為:

(3)

其中,τp和τn分別為Positive、Negative Pseudo Label的選取閾值(τp≥τn),這樣就得到了Negative Pseudo Labe。對于單標簽分類任務來說,仿照只有Positive Pseudo Label時的交叉熵損失,可得到Negative Pseudo Labe的損失函數:

(4)

其中s(i)為樣本的偽標簽數目, =? 為模型的原始輸出概率;進一步融合Positive、Negative Pseudo Label的損失函數即可用于多分類任務:

(5)

1.3? UPS(基于不確定性的偽標簽選擇法)

為了減少訓練中存在的噪聲樣本,校正網絡模型的輸出。計算輸出值的不確定出值的不確定性[9]作為另一種置信度,和Softmax層輸出的概率聯合挑選可靠的偽標簽樣本。

使用網絡模型預測的不確定性用作模型輸出的校正,需要分析網絡校正與模型對個體樣本輸出不確定性的關系。ECE(Expected Calibration Error)是一種衡量網絡校正的常用指標:

(6)

數據集D被等分成L份,Il為第l份中的樣本。每份的校正偏差的均值,即可得到ECE的值。在參照MC dropout計算出網絡的不確定性之后。即可得出:打上標簽時模型的不確定性越低,網絡校正的誤差越小,也就是說可以計算模型對每個樣本輸出的不確定性,來判斷該樣本的偽標簽是否可靠。由此可仿照式(3)得到:

(7)

其中u(p)為預測結果p的不確定性估計值,kp、kn為不確定性的閾值。

1.4? SPNS方法

本文提出的SPNS方法由使用UPS策略的自我訓練框架和語義分割網絡組成,其網絡框架如圖2所示。

圖2? SPNS整體框架

其中標記數據的損失函數Lh為:

(8)

未標記數據損失函數Lp為公式(5),預標簽的損失函數為公式(1)中的 。公式(8)(5)(1)中的? 均為指示樣本x(i)的偽標簽是否被用作訓練模型。

2? 實驗設置與對比分析

2.1? 實驗設置

PASCAL VOC 2012數據集具有20個對象的語義類別和1個背景類別,非常適合完成語義分割任務。其訓練集和驗證集分別包括1 464和1 449張圖像。使用SBD作為具有9 118個額外訓練圖像的增強集。由于SBD數據集是粗注釋,所以PseudoSeg[6]僅將標準的1 464張圖像作為整個標記集,在經典集(1 464個候選標記圖像)和擴展集(10 582個候選標記圖像)上評估本文的方法。Cityscapes 是一個專為理解城市場景設計而設計的數據集,由2 975張帶有精細標注掩碼的訓練圖像和500張驗證圖像組成。對于每個數據集,我們將1/2、1/4、1/8、1/16分區協議下SPNS與其他方法進行比較。

網絡結構本文采用具有EfficientNet-B7和EfficientNet-L2主干模型的NAS-FPN[1]模型架構。SPNS采用的NAS-FPN模型使用7次重復的深度可分離卷積,P3到P7使用特征金字塔,并將所有特征級別上采樣到P2,然后通過求和操作將特征合并。在特征合并后應用3層3×3卷積層再附加1×1的卷積層,以進行21類的預測。EfficientNet-B7的學習率設置為0.08,Efficient-L2d的學習率為0.2,batch size為256,權重衰減為1×10-5。所有模型都使用余弦學習率衰減計劃進行訓練,并使用同步批量標準化。對于自我訓練EfficientNet-B7 batch size為512,EfficientNet-L2為256。其他超參數遵循監督訓練中的超參數。此外,使用0.5的硬分數閾值來生成分割掩碼。并將分數較小的像素設置為忽略標簽。最后,我們應用具有(0.5、0.75、1、1.25、1.5、1.75)尺度的多尺度推理增強來計算偽標記的分割掩碼。

評價指標采用MIoU(Mean of Intersection Over Union )作為度量評估這些裁剪的圖像。

在不同分區協議下經典PASCAL VOC 2012 驗證集上與其他先進方法進行比較。被標記的圖像從VOC訓練集中選擇,該訓練集包含1 464個樣本。分數表示百分比用于訓練的標記數據,然后是實際的圖像數量。來自SBD的所有圖像都被視為未標記數據?!癘nlySup”代表不使用任何未標記數據訓練。

2.2? 與現有方法的比較

將提出的SPNS方法和最近的半監督語義分割方法MT[4]、CutMix[5]、MixMatch[10]、GAN進行比較。所有方法都配備相同的網絡架構(EfficientNet-B7、EfficientNet-L2作為主干)。經典的PASCAL VOC 2012數據集與擴展的PASCAL數據集僅在訓練集存在差異,驗證集是相同的1 449張圖像。如表1所示,在1/16、1/8、1/4、1/2分區協議下,本文方法與OnlySup相比表現分別提高了17.01%、13.33%、5.03%、3.07%;與PseudoSeg相比,分別提高了5.77%、1.65%、1.62%、2.33%。

表2是本文所提SPNS方法與其他方法在不同協議下PASCAL擴展集上的比較,所有標記圖像都是從PASCAL擴展集中選擇的。OnlySup代表不使用任何未標記數據情況下進行監督訓練。

在PASCAL擴展集上,SPNS方法均優于其他的方法,如表2,與基線模型OnlySup(僅使用監督數據訓練)相比,在1/16、1/8、1/4、1/2分區協議實現了4.68%、2.66%、2.16%、2.47%的改進;特別是在1/16和1/8分區協議下,SPNS方法的表現優于MixMatch 2.4%和1.8%。

表3是SPNS方法與其他方法在不同協議下Cityscapes數據集上的比較,OnlySup代表不使用任何未標記數據情況下進行監督訓練。

表3是在Cityscapes數據集上的比較結果。SPNS方法在1/16、1/8、1/4、1/2分區協議優于基線模型7.29%、8.06%、3.61%、3.23%;特別是優于MixMatch的方法2.4%、1.8%、0.68%、1.03%。

3? 結? 論

本文設計了一種損失歸一化技術結合UPS策略的半監督語義分割網絡:SPNS。利用兼顧Negative Learning技術的自我訓練生成偽標簽,同時使用一種歸一化技術解決訓練過程中學生模型崩潰的問題,再使用結合不確定性估計和UPS策略,計算輸出值的不確定性作為另外一種置信度閾值,和softmax輸出概率一起挑選可靠偽標簽,減少噪聲樣本,以解決大量噪聲樣本的問題,以提高半監督語義分割的效果。與全監督方法相比,SPNS的方法訓練耗時較多,這是半監督學習任務的常見缺點,由于極度缺乏標簽,半監督學習框架通常需要付出時間代價才能獲得更高的準確性。

參考文獻:

[1] GHIASI G,LIN T Y,LE QV. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:7029-7038.

[2] EVERINGHAM M,G00L L,WILLIAMS C K.L,et al. The Pascal Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88(2):303-338.

[3] RIZVE M N,DUARTE K,RAWAT Y S,et al. In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label Selection Framework for Semi-Supervised Learning [J/OL].arXiv:2101.06329 [cs.LG].[2023-08-28].https://arxiv.org/abs/2101.06329.

[4] TARVAINEN A,VALPOLA H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results [J/OL].arXiv:1703.01780 [cs.NE].[2023-08-28].https://arxiv.org/abs/1703.01780.

[5] YUN S,HAN D,OH S J,et al. Cutmix: Regu- larization strategy to train strong classifiers with localizable features [J/OL].arXiv:1905.04899 [cs.CV].[2023-08-29].https://arxiv.org/abs/1905.04899v1.

[6] ZOU Y L,ZHANG Z Z,ZHANG H,et al. Pseudoseg: Designing Pseudo Labels for Semantic Segmentation [EB/OL].[2023-08-28].https://www.xueshufan.com/publication/3118629228.

[7] SOULY N,SPAMPINATO C,SHAH M. Semi Supervised Semantic Segmentation Using Generative Adversarial Network [C]//2017 IEEE international conference on computer vision.Venice:IEEE,2017:5689-5697.

[8] ZOPH B,GHIASI G,LIN T Y,et al. Rethinking Pre-training and Self-training [J/OL].[2023-08-29].https://arxiv.org/abs/2006.06882v1.

[9] KIM Y,YIM J,YUN J,et al. Nlnl: Negative Learning for Noisy Labels [C]//2019 IEEE/CVF international conference on computer vision.Seoul:IEEE,2019:101-110.

[10] Berthelot D,Carlini N,Goodfellow L,et al. Mixmatch:A holistic approach to semi-supervised learning [C]//NIPS'19: Proceedings of the 33rd International Conference on Neural Information Processing Systems.Vancouver:Curran Associates Inc.,2019:5049–5059.

作者簡介:李雨杭(1998—),男,漢族,安徽蚌埠人,碩士研究生在讀,主要研究方向:半監督語義分割;通訊作者:朱小東(1980—),男,漢族,安徽淮南人,講師,博士,主要研究方向:模式分類、圖像分割。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合