?

基于邊緣增強和特征融合的偽裝目標分割

2024-01-31 06:13李明巖吳川朱明
液晶與顯示 2024年1期
關鍵詞:尺度邊緣損失

李明巖, 吳川*, 朱明

(1.中國科學院 長春光學精密機械與物理研究所, 吉林 長春 130033;2.中國科學院大學, 北京 100049)

1 引言

偽裝原本是指動物用來隱藏自己或欺騙其他動物的一種方法,而偽裝能力通常會影響這些動物的生存概率。隨著仿生學技術的發展,偽裝技術也常被人類應用于某些場合,例如現代軍隊所使用的迷彩。與顯著目標檢測(Salient Object Detection, SOD)相比,偽裝目標通常與背景具有高度相似性,因此偽裝目標檢測(Camouflage Object Detection, COD)更加具有難度。

傳統的方法主要關注圖像的底層特征(如顏色、紋理、梯度等)來評估物體與背景的差異,基于三維凸度[1]、灰度共生矩陣[2]、Canny邊緣檢測器[3]、光流[4]等方法進行偽裝目標檢測。這些方法往往只考慮圖像的一部分特征,難以適用于所有場景。近年來,深度學習的方法在許多領域展現出優異的性能,為一些傳統方法難以處理的問題提供了新的解決方案[5]。在圖像領域,通過卷積神經網絡(Convolution Neural Network,CNN)提取出的深度特征的表示能力要遠強于圖像的底層特征,因此,研究人員開始嘗試用深度學習的方法來解決偽裝目標分割的問題。Le等人建立了一個新的偽裝圖像數據集用于基準測試,并提出了一個端到端網絡,其中包括一個分割分支和另一個分類分支。分類分支用于預測圖像包含偽裝對象的概率,隨后用于增強分割分支中的分割性能[6]。Fan等人提出了SINet模型,該模型包含兩個模塊:搜索模塊定位偽裝目標,識別模塊精確檢測偽裝目標,同時建立了首個大規模偽裝目標數據集[7]。Mei等人在偽裝目標分割任務中引入了干擾的概念,開發了一種新的干擾識別和去除的干擾挖掘方法,幫助對偽裝目標的準確檢測[8]。Zhai等人將特征映射解耦為兩個特定的任務:一個用于粗略地定位對象,另一個用于準確地預測邊緣細節,并通過圖迭代推理它們的高階關系[9]。Li等人提出聯合訓練SOD和COD任務,利用相互矛盾的信息同時提高兩個任務的表現[10]。

以上模型在多個偽裝目標數據集上已經取得了較好的效果,但仍存在一些問題:模型的全局建模能力不足,在存在多個偽裝目標且與背景高度相似時,模型容易出現漏檢和誤檢的問題。其次,這些模型舍棄了較低層次的特征,而較深層次的特征在進行數次下采樣后分辨率迅速下降,雖然減少了計算量,但同時也丟失了大量的邊緣等細節信息,這也導致了模型的精度下降。最后,這些模型大多使用了極其復雜的特征融合策略,大幅提高了模型的復雜度與推理時間。

針對以上問題,本文提出了一種基于邊緣增強和多級特征融合的偽裝目標分割模型。首先,選擇ResNet-50作為骨干網絡,提取多級深度特征。其次,設計了一個邊緣提取模塊,選擇融合細節信息豐富的兩個較低層級特征,通過網絡的不斷學習,得到精確的邊緣先驗。同時,通過引入多尺度特征增強模塊和跨層級特征聚合模塊,分別在層內和層間增強特征表示,彌補多尺度表征能力不足的問題。之后,設計了一種簡單但有效的層間注意力模塊,利用相鄰層的差異性,有選擇地篩選出各層級間有用的信息,在保持層內語義完整的同時濾除背景噪聲,再與邊緣先驗引導結合,輸出精確的預測圖。最后,為了增強網絡的學習能力,本文采用加權二元交叉熵損失與加權IOU(Intersection-Over-Union)損失兩部分作為損失函數,對3個不同尺度的輸出預測同時進行深度監督;采用單獨的加權二元交叉熵損失對邊緣預測圖進行監督,邊緣的真值可以使用Canny邊緣檢測方法從標注圖中得到。本文方法在4個偽裝目標公開數據集CHAMELEON[11]、CAMO[6]、COD10K[7]、NC4K[12]上與先進的方法進行對比實驗。實驗結果表明,本文方法在所有數據集的4個常用的評價指標上均優于其他方法,同時能夠滿足實時性的需要,表明本文方法在偽裝目標分割任務上具有優異的性能。

2 本文方法

如圖1所示。對于一幅輸入圖像I∈RH×W×3(其中H為圖像高,W為圖像寬,通道數為3),采用ResNet-50作為特征提取網絡[13],獲得不同尺度的特征fi,i∈{1,2,3,4,5}。首先,使用一個邊緣提取模塊來顯式地建模邊緣特征,以此指導網絡學習并提升檢測性能。然后,將獲得的多級特征通過多尺度特征增強模塊(Multi-scale Feature Enhanced Module, MFEM)篩選出更具辨識度的特征。增強后的特征圖每3個層級為1組,同時輸入到跨層級特征聚合模塊(Cross-level Fusion Module, CFM),有選擇地結合不同尺度下的有效特征。通過注意力模塊給有價值的信息以更高的權重。最后與邊緣信息加以結合,得到最終的偽裝目標分割預測圖。

圖1 網絡結構圖Fig.1 Network structure diagram

2.1 邊緣提取模塊

早期的一些相關工作[14-15]已經證實了邊緣信息有助于提升計算機視覺任務的性能。在偽裝目標分割任務中,由于目標與背景的高度相似性,難以清晰地辨別偽裝對象與周圍環境之間的邊界?,F有的研究表明[16],通常只有低級特征保留了大量的邊緣細節信息,而在經過多個下采樣操作后,細節信息會丟失。因此,本文設計了一個邊緣提取模塊,如圖1所示。自ResNet-50中提取出最低兩層的特征分別經過兩個包含3×3卷積、批歸一化(Batch Normalization, BN)及ReLU激活函數的卷積組,用來保證兩組特征的通道數一致。然后通過逐元素相乘的方式得到融合的特征表示。將融合后的特征分別與卷積后的特征相加,用來抑制背景噪聲和增強感興趣區域。增強后的特征再次分別輸入兩個卷積組,通過拼接和一組1×1卷積進行降維,得到全局邊緣引導特征圖fe。最后,將邊緣特征圖通過雙線性上采樣的方式恢復到與原圖相同的尺寸,用來監督學習邊緣表示。目標邊緣的真值圖可以通過對二值標注圖進行Canny邊緣檢測得到。

2.2 多尺度特征增強模塊

偽裝目標通常具有較大的尺度范圍。每個單獨的卷積層只能處理一種特定的尺度,為了從單個層級獲取多尺度信息以表征尺度的變化,受Inception-V3[17]啟發,設計了一個多尺度特征融合模塊(MFEM),如圖2所示。對于每個輸入的特征fi,每個MFEM包含4個并聯的殘差支路和一個主路。在每個殘差支路中,首先使用一個1×1卷積將特征的通道數降為64。接下來的兩層分別為(2i-1)×1和1×(2i-1)大小的卷積核,i∈{1,2,3,4}。這兩層卷積的串聯等效于兩個(2i-1)×(2i-1)大小的卷積核的串聯,在不影響模塊表征能力的同時能夠減少計算的損耗。在支路的最后是一個膨脹率為(2i-1),i∈{2,3,4}的3×3卷積層,增大感受野以捕捉細粒度特征。最后,將4個支路的特征拼接在一起并通過卷積來保證通道數一致,拼接后的特征與主路相加后,通過ReLU函數來獲得輸出特征

圖2 多尺度特征增強模塊Fig.2 Multi-scale feature enhanced module

2.3 跨層級特征聚合模塊

在跨層級特征融合的過程中,如何有效地保持層內語義的一致性及利用層間的相關性是構建偽裝目標分割網絡的關鍵。為此,本文提出了一個跨層級特征聚合模塊(CFM),如圖3所示。給定一組特征fi-1,fi,fi+1,i∈{2,3,4},首先將較高層的特征fi+1與中間層特征fi分別經過一個卷積組后進行逐元素相乘,其中fi+1在卷積前進行一次雙線性上采樣操作以保證維度大小相同。將聚合后的特征再次進行上采樣與卷積操作并與較低層特征相乘,得到i∈{2,3,4}。之后,將初步融合后的特征由較高層到較低層逐級進行拼接操作。最后,將拼接后的特征矩陣分別經過一個3×3大小的卷積組和一個1×1大小的卷積核,將通道數減少為原始通道數,得到最后的輸出特征ffusei,i∈{2,3,4}。整個過程定義如式(1)~式(5)所示:

圖3 跨層級特征聚合模塊Fig.3 Cross-level fusion module

其中:Conv↑(· )表示一個2倍的雙線性上采樣接一個包含3×3卷積、批歸一化和ReLU函數的卷積組,Cat(· )表示對括號內的兩個元素進行拼接操作,Conv1(· )是一個單獨的1×1卷積核。接著,將輸出特征傳入注意力模塊進行篩選。

2.4 注意力模塊

通過簡單的拼接或相加的方式融合的特征往往是復雜且低效的,大量的噪聲及低置信度的信息混雜在一起會對網絡的學習造成巨大的困難。為此,設計了一個簡單的注意力模塊,對CFM融合后的特征進一步結合并篩選,模塊結構圖見圖4。首先將兩組相鄰層級的特征fi,fi+1,i∈{2,3}進行卷積處理,再分別通過一個1×1卷積將通道維度由C降為1。即:

圖4 層間注意力模塊Fig.4 Cross-layer attention module

其中:h、w分別表示特征的高度、寬度兩個維度的大小,c為通道數。將處理后的矩陣拼接并在通道維度上進行Softmax函數計算,可以得到兩個不同的權重矩陣將兩個權重矩陣分別與對應的特征圖相乘,可以得到:

f(x,y)表示該特征矩陣上對應于(x,y)位置的元素。其中,ω值越大,表示該位置的信息越應該被保留,反之則被舍去。最后,將兩個特征相加,并經過卷積平滑操作,得到最終的輸出結果:

采用這種注意力機制可以有效地篩選出各級特征中更有效的信息,抑制噪聲,增強不同尺度特征的表示能力。需要注意的是,由于f4是由較高3個層的特征聚合得到,在卷積的過程中已經被過濾掉了大量的細節和噪聲信息,因此將f4不經過注意力機制篩選而直接輸出,即:

最后,將p2、p3、p4分別與全局邊緣引導fe拼接,經過1×1卷積降維后,上采樣回原圖尺寸,得到最終的預測圖P2、P3、P4。其中P2作為最終的預測結果用來評估網絡性能。

2.5 損失函數

在偽裝目標分割過程中,使用了加權二元交叉熵損失[18](weighted binary cross entropy loss,wBCE)及加權交并比損失[18](weighted intersection-over-union loss, wIOU)兩部分作為損失函數。加權二元交叉熵函數的公式如式(11)所示:

其中:yi是二元標簽0或1,zi為輸出屬于yi標簽的概率,wi為權重向量。加權交并比損失的公式如式(12)所示:

其中:P為預測值,G為真實標注值。兩種損失函數分別計算全局損失和像素級損失。與標準的損失函數不同,加權損失更側重于給較難的像素更大的權重,而不是給每個像素相同的權重。

基于上述分析,使用聯合損失函數對P2、P3、P43個預測圖及邊緣預測圖fe進行深度監督。整體的損失函數可以表示為:

其中:Eg表示邊緣標注值,可以通過對二元標注圖進行Canny邊緣檢測得到。pg表示二元標注圖。沒有對邊緣使用LwIOU損失函數監督是因為邊緣預測圖的前景區域與背景區域差別過大,可能導致損失函數下降不穩定。λ1和λ2用來平衡兩個不同損失函數對整體損失的貢獻,其中λ1設置為5,λ2設置為1。

3 實驗與分析

3.1 數據集

我們在4個通用的偽裝目標標準數據集上進行實驗:CHAMELEON[11]是一個小樣本的偽裝目標數據集,其中包含76張圖像,每張圖像至少有一個偽裝目標;CAMO[6]包含1 000張用于訓練的圖像和250張用于測試的圖像,數據集涵蓋了大量自然及人工場景下的偽裝目標;COD10K[7]是迄今為止最大的基準數據集,它包含5個大類和69個子類,共有3 040張訓練圖像和2 026張測試圖像;NC4K[12]是規模最大的偽裝目標測試數據集,包含4 121張圖像,可用來評估模型的泛化能力。仿照之前的工作[7],本文將CAMO的訓練集和COD10K的訓練集結合,作為完整的訓練數據集(其中包含4 040張圖片),并在余下的數據集上測試模型的性能。

3.2 評價指標

本文使用了4個廣泛使用的評價指標:結構性度量(Sα)[19]、E指標(E?)[20]、帶權重的F指標[21]及平均絕對誤差(MAE)[22]。

結構性度量(Sα)評估預測結果及標注圖像之間的區域級和對象級結構相似性,如式(16)所示:

其中,So和Sr分別表示對象級和區域級的結構相似性。根據其他研究中的經驗[19],這里的α設置為0.5。

E指標(E?)使用一個矩陣(?FM)聯合計算圖像級的統計信息和像素級的匹配信息,可以同時衡量預測的整體完整性和局部精確性,如式(17)所示:

其中:w表示圖像寬度,h表示圖像寬。

帶權重的F指標定義一個加權精度(Pw)和加權召回率(Rw)來衡量預測的準確性和完整性:

其中,β2是一個平衡系數,根據其他研究中的經驗[21],β2設置為0.3。

平均絕對誤差(MAE)用來衡量預測結果與標注圖像之間的像素級差異,其被廣泛應用于各類分割任務:

為了進行公平的對比,我們使用相同的代碼,對不同數據集的4種評價指標進行計算。

3.3 實驗細節

本文模型基于Pytorch框架構建,在NVIDIA GeForce RTX 2080TiGPU上進行所有實驗。使用在ImageNet上預訓練的權重文件初始化ResNet-50骨干網絡的參數,其他參數由網絡默認生成。在訓練之前,所有訓練圖像及標注圖像均被調整為352×352大小,并且不使用任何數據增強策略。批量大小設置為8并在訓練過程中使用了Adam優化器,初始的學習率設置為1e-4,并且每30次迭代后,學習率除以10,網絡共訓練60輪,大約需要5.5 h。在測試過程中,測試圖像同樣被調整為352×352大小,隨后輸入網絡。預測圖通過雙線性上采樣操作縮放到原始大小以評估結果。

3.4 實驗結果及對比

將本文方法與現有的11種COD方法進行比較,包括BASNet[23]、EGNet[24]、CPD[16]、F3Net[18]、PraNet[25]、SINet[7]、PFNet[8]、C2FNet[26]、SINetV2[27]、LSR[12]、UGTR[28]。為了公平比較,我們直接使用作者在網絡上開源的預測圖,用相同的公式進行評估。如果缺少預測圖,則使用作者提供的預訓練完成的模型生成預測圖。本文總結了在4個數據集上不同基線模型的定量結果。從表1可以看出,本文方法在不同的數據集上都優于其他模型。

表1 不同模型在4個數據集(CHAMELEON,CAMO-test,COD10k-test,NC4K)上對4種評價指標的定量結果Tab.1 Quantitative results of different models for four evaluation metrics on four dataset(CHAMELEON,CAMO-test,COD10k-test,NC4K)

為了進行更廣泛的對比,本文使用在目標檢測領域的YOLOv5模型進行分割對比實驗。在訓練開始前,所有圖片參照官方代碼庫(https://github.com/ultralytics/yolov5)的設置被重新調整為640×640大小,其他參數使用默認設置。實驗選取與本文方法參數量相近的YOLOv5m-seg模型(22.67M)與性能最優的YOLOv5x-seg模型,結果見表1。本文方法在模型大小相近的情況下性能遠遠領先YOLOv5m-seg模型,與YOLOv5x-seg模型相比有著巨大的優勢。

圖5展示了本文方法與其他模型的視覺對比結果??梢钥闯?,在不同的具有挑戰性的場景下(第1~2行大尺寸偽裝目標,第3~4行小偽裝目標,第5~6行模糊邊緣),本文方法都能產生優于其他模型的預測圖。在目標被部分遮擋的情況下(第7行),該方法也能準確定位目標區域并產生精確的邊緣細節。因此,本文方法相比于其他方法在偽裝目標分割任務中具有更優秀的性能。另外,本文提供了本文方法與其他11種模型的P-R曲線和F曲線,如圖6所示。

圖5 本文方法與其他方法的視覺對比Fig.5 Vision comparison of our method with other methods

圖6 10種不同方法在4個基準數據集上的P-R曲線和F曲線,本文方法為紅色實線。P-R曲線越接近右上角,F曲線越接近坐標系上部,表示模型的性能越好。Fig.6 P-R curves and F-measure curves of 10 different methods on four benchmark datasets. Our method is shown with a solid red line. The closer the P-R curve is to the upper right corner and the higher the F-measure curve is, the better the performance of the model is.

本文方法與其他方法在模型復雜度、參數量和實時性上也進行了對比。所有算法在相同的硬件環境下(RTX2080Ti顯卡)進行實驗。其中浮點運算次數(Floating Point Operations,FLOPs)可用來衡量算法復雜度,為21.26G;模型參數量(Parameters,Params)為29.47M;FPS(Frame Per Second)為44.2。為了公平比較,所有模型均使用352×352的圖片計算。如表2所示,本文方法在提升準確性的同時也保證了實時性能。

表2 不同模型的速度和模型復雜度分析Tab.2 Speed and model complexity analysis on multiple models

3.5 消融實驗

為了驗證每個模塊的有效性,本文設計了一系列消融實驗,對邊緣提取模塊、多級特征增強模塊(MFEM)、跨層級特征聚合模塊(CFM)、注意力模塊等逐步解耦,以驗證其有效性,實驗結果見表3。為了驗證損失函數及對應的超參數對網絡性能的影響,本文對一系列不同的超參數設置進行了定量評價。

表3 不同模塊的有效性分析Tab.3 Effectiveness analysis of different modules

基線模型選擇一個類似U-net[29]結構的分割網絡,編碼器部分為ResNet-50網絡,解碼器逐級上采樣并與較淺層特征結合,逐漸恢復到原尺寸。從表3可以看出,不同的模塊對模型的性能提升都有貢獻:在U-net架構基礎上加入多尺度特征增強模塊和跨層級特征聚合模塊后,模型的4個評價指標、MAE分別提升了4.8%、3.5%、15.7%、11.1%,證明模型的層內和層間多尺度特征表達能力有了一定加強;在此基礎上加入邊緣提取模塊,4個指標進一步提升了1.6%、1.8%、4.2%、10%,說明邊緣先驗信息在該分割任務中做出了重要的貢獻;在加入注意力模塊后分別提升了0.006、0.018、0.007,MAE指標則下降了0.002。

圖7為逐步解耦各個子模塊后的可視化效果對比。從圖7(d)可以看出,在去除了邊緣提取模塊后,預測結果的邊界存在大量的冗余,一些較復雜的邊緣結構難以被清晰地分割,說明邊緣提取模塊對目標邊界像素的提純至關重要。多尺度的特征更有利于定位復雜場景下的偽裝物體,在分別去掉多尺度特征增強模塊(圖7(e))和跨層級特征聚合模塊(圖7(f))后,模型不能準確地找到目標所在的位置,出現了目標區域模糊不清、目標結構被錯判和偽裝區域連通性的問題。從圖7(c)和圖7(g)可以看出,注意力模塊對融合后的特征進一步去噪,使網絡更關注于預測目標區域,對背景區域進行抑制,目標細節更明顯,置信度較低的噪聲干擾被去除。

圖7 去除不同模塊的視覺比較Fig.7 Vision comparison of removed different modules

為了分析聯合損失函數各參數對網絡的影響,按照不同的比例設置兩部分損失函數的超參數(其中λ1為邊緣損失Ledge的比重,λ2為預測損失Lpred的比重),進行對比實驗。根據表4,模型在給邊緣損失較大權重時表現更好,在λ1=5、λ2=1時效果最好。這表明在網絡不變的情況下,準確的邊緣先驗能夠極大地提升網絡的有效性。

表4 兩種損失函數的比重對網絡性能的影響Tab.4 Effect of the proportion of the two loss functions on network performance

4 結論

本文提出了一種基于邊緣增強和特征融合的偽裝目標分割網絡。首先設計了一種邊緣提取模塊,有效利用低級特征,產生精確的邊緣先驗。其次,采用多尺度特征增強模塊和跨層級特征融合模塊,分別提取層內和層間的有效多尺度信息。之后,設計了一種簡單有效的層間注意力模塊,對充分融合的特征進行再次篩選,去除冗余的背景噪聲干擾。最后,將各層預測與邊緣先驗結合,生成最后的預測圖,并采用聯合損失函數對不同尺度的預測圖進行聯合監督。本文方法在4個偽裝目標基準數據集上進行實驗,在4種不同的評價指標上都優于其他方法。在視覺對比中,本文方法分割出的預測圖能夠更好地識別復雜場景下的偽裝物體,更好地保留了目標輪廓,細節信息更清晰。因此,本文方法對偽裝目標分割有更好的效果。

猜你喜歡
尺度邊緣損失
胖胖損失了多少元
財產的五大尺度和五重應對
玉米抽穗前倒伏怎么辦?怎么減少損失?
一張圖看懂邊緣計算
宇宙的尺度
一般自由碰撞的最大動能損失
損失
9
室外雕塑的尺度
在邊緣尋找自我
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合