內容自適應超像素分割網絡?

2024-01-23 13:38黃睿徐斌

計算機與數字工程 2023年10期

黃睿徐斌

（中國石油大學（華東）計算機科學與技術學院青島 266580）

1 引言

超像素分割是一種將圖像分割成在顏色和其他低級特征上具有可比性的圖像部分的技術。與像素相比，超像素可以更有效地表示圖像信息。這種簡潔的形式可以大大提高視覺相關算法的計算效率［1～3］。超像素分割通常用于執行圖像處理之前的預處理步驟。在密集分割領域結合超像素可以在檢測對象邊界的同時減少處理時間和內存消耗。在與圖相關的領域中緊湊和規則的超像素可以產生更好的結果。因此，超像素性能的三個關鍵標準：1）粘附邊界的能力，也稱準確度；2）規則與緊湊性；3）計算速度。

由于采樣設備的采樣精度不斷提高，高分辨率圖像變得越來越普遍，對高精度圖像的計算機視覺應用的需求也在增加。超像素作為一種有效地最小化圖像基元數量以供未來處理的方法，已廣泛應用于計算機視覺的各個領域，例如語義分割［4］、目標檢測［5］、顯著目標檢測［1，6～7］和光流估計［8～10］。

超像素分割通常是先將圖像劃分為網格單元，然后估計每個像素和其附近網格單元的隸屬度，然后對它們進行分組。傳統的超像素生成方法通常采用手工特征、基于聚類或基于圖的算法來估計像素與其相鄰像素之間的相關性［11～15］，但這些方法存在需要手工設計特征的缺點，并且難以集成到其他可訓練的深度框架中。受深度神經網絡在許多計算機問題上的成功啟發，研究人員最近嘗試將深度學習方法應用于超像素分割。U-net 架構被AINet［16］，SCN［17］和SSN［18］等流行解決方案用于預測像素與周圍九個單元之間的相關概率，以了解每個像素與周圍網格單元之間的相關性從而分配像素。因為可以更好地提取特征，這些基于深度網絡的方法具有良好的性能。

超像素的特征包括顏色、梯度、紋理、空間、平滑度和尺寸，其中顏色、梯度和紋理特征常用于實現準確性，而空間、平滑度和尺寸特征常用于管理緊湊性。當超像素的邊界趨向于粘附物體的輪廓時，超像素的形狀往往是不規則的，這導致超像素的精度和緊湊性之間存在一些相互干擾。但是，當緊湊性約束太強時，超像素粘附輪廓的能力就會受到損害。在這種情況下追求更高的邊界粘附性會導致圖像中顏色一致、紋理豐富的部分出現不規則的超像素，例如天空、草原、地面，但這種粘附性毫無意義。追求更高緊湊性時，由于過于緊湊，導致某些信息丟失，或者單個超像素區域包含多個具有不同語義的像素，影響后續任務。這種情況的根本原因在于在這些超像素方法中，基于顏色、梯度和紋理信息的準確性與基于空間、平滑度和尺寸的緊湊性之間的增強相互平衡。此外，由于生成超像素的約束條件作用于所有像素，因此在準確性和緊湊性之間總是存在實質性的權衡。

本文提出了一個內容自適應超像素分割網絡來處理這個權衡問題。通過邊緣檢測技術將圖像劃分為邊界和非邊界區域，對圖像像素動態應用不同的邊界粘附和緊密度權重，在邊界區域中形成具有高邊界粘附性的超像素，而在非邊界區域中產生具有高緊湊性的超像素。

在BSDS500［19］和NYUv2［20］數據集上進行定量和定性實驗，結果表明該方法優于當前的超像素分割方法。

2 相關工作

2.1 超像素分割

Ren 和Malik［21］在2003 年提出了超像素分割，從那時起它越來越受歡迎?；趫D的方法和基于聚類的方法是傳統超像素算法的兩種類型。為了構建圖結構，基于圖的算法將臨近像素之間的連接強度視為圖的邊。在這種情況下，超像素分割可以被認為是一個圖分割問題，如FH［22］和ERS［14］算法。另一方面，基于聚類的算法使用傳統的聚類技術，如K 均值聚類，計算錨像素與其臨近像素之間的連接性，常見的算法有SLIC［11］、LSC［13］、Manifold-SLIC［15］和SNIC［12］。近年來，深度學習技術的出現鼓勵研究人員嘗試使用深度網絡來了解每個像素在其周圍網格單元中的隸屬度。Jampani等［18］使用傳統的SLIC 方法創建了第一個可微分的深度網絡。Yang 等［17］使用FCN 框架進一步簡化了超像素生成框架，實現了超像素端到端的創建。Wang等［16］在此基礎上進一步提出了一個AI 模塊來提高超像素的精度。

作為弱標簽或先驗知識的一種形式，預先計算的超像素分割有助于眾多下游任務的實現。通過將超像素集成到深度學習管道中作為指導，可以更好地保留一些重要的圖像屬性［23-27］，例如邊界信息。Kwaj等［2］使用超像素分割執行區域池化，提高了池化特征的語義緊湊性。Chen 等［28］使用超像素作為偽標簽，通過在圖像中定位額外的語義邊界來改進圖片分割。除了幫助圖像分割或特征池化之外，超像素還提供了一種靈活的圖像數據編碼方式。He 等［1］使用超像素將二維視覺模式轉換為一維序列表示，從而允許深度網絡研究圖像的遠程上下文以進行顯著性檢測。Liu等［29］創建的框架學習不同超像素的相似性，然后基于學習到的超像素相似性合并元素以構建不同的紋理分割區域。

2.2 內容自適應超像素

為了克服超像素精度和緊湊性之間的沖突，Ye 等［30］使用了一種兩階段分水嶺方法。首先在第一階段生成具有高邊界粘附性的超像素。此時超像素精度高，但緊湊性低。之后使用梯度、顏色和紋理過濾器來尋找內容無意義的區域，即遠離圖像邊界的有著相似內容的區域，僅根據空間屬性重新標記這些區域的邊界像素。在第二階段中根據新標記在內容無意義的區域重新創建緊湊度高的超像素。最終，內容有意義區域中的超像素邊界始終與目標的輪廓相關聯，而內容無意義區域中的超像素邊界變得緊湊且規則。盡管內容自適應超像素解決了準確性和緊湊性之間的相互約束問題，但兩階段分水嶺技術仍然需要手工設計特征，并且難以融入深度網絡。

2.3 邊緣檢測

邊緣檢測的目的是從自然圖像中提取目標的邊界和邊緣，同時保留圖像的主要內容并忽略意外特征，這對于圖像分割和目標檢測等高級視覺任務至關重要。He 等［31］提出了BDCN 網絡，它是一種用于邊緣檢測的雙向級聯網絡。大體思路是假設真值等于每個尺度的特征圖之和，從真值中減去其他特征圖可以近似作為當前特征圖的監督信息。研究結果表明，對不同特征圖的不同尺寸監督可以顯著提高邊緣質量。

3 方法

在本節中，將介紹提出的內容自適應超像素分割網絡。在3.1 節，解釋了在規則網格上直接預測超像素的方法，在3.2 節討論了網絡設計和基本損失函數，最后在3.3節，介紹了內容自適應模塊。

3.1 在規則網格中學習超像素

為了分割H×W大小的圖像I，一種流行的超像素分割技術是采用大小為h×w的規則網格，并將每個網格單元視為初始超像素，或稱為超像素的種子。通過找到一個映射G將每個像素p=(u,v)分配給超像素S=(i,j)。從數學的角度，可以將這個映射寫為：如果第(u,v)個像素屬于第(i,j)個超像素，Gs(p)=Gi,j(u,v)=1，否則為0。

實際上，由于像素在分配超像素時只考慮周邊的超像素，將每個像素與每個超像素進行比較沒有意義且計算成本很高。因此，將特定像素p的搜索限制在相鄰網格單元的集合Np中，其中|Np|=9。如圖1 所示，對于紅色框中的每個像素p，只考慮綠色框中的9個網格單元進行分配。

圖1 對于紅框中的每個像素p，只考慮綠框中的9個網格單元進行分配

本文中將使用深度神經網絡學習這種映射。不使用映射G，而是使用軟關聯Q??H×W×|Np|來創建可微的目標函數。qs(p)表示一個像素p被分配給它周圍的每個超像素s?Np的概率，其中。最終每個像素被分配給概率最高的網格單元，得到超像素s*=arg maxsqs(p)。

3.2 網絡設計和基礎損失函數

如圖2 所示，本文采用帶有跳層連接的編碼器-解碼器結構來預測超像素關聯映射Q，并使用內容自適應模塊生成緊湊性因子以引導損失函數進行反向傳播，最后生成內容自適應像素-超像素關聯映射。

圖2 內容自適應超像素網絡框架

對輸入圖像I進行卷積以獲得像素嵌入E??H×W×D，然后將其提供給編碼器模塊以生成被稱為超像素嵌入的特征圖C??h×w×D′，超像素嵌入對網格單元的特征進行了精確編碼，其中h=H/S，w=W/S，S是超像素采樣間隔。像素p的像素嵌入為ep??D。使用兩個3×3 卷積運算對超像素嵌入C進行擴展，生成植入過程所需的特征圖，然后將超像素嵌入提供給解碼器模塊以重新組裝成像素嵌入E′。AI 模塊接收超像素嵌入C′和重構像素嵌入E′，并將超像素嵌入植入到像素嵌入中。具體來說，對于像素p從左到右，從上到下選擇其9 個相鄰超像素嵌入，使用3×3 卷積自適應展開，并在像素周圍直接植入適當的超像素嵌入，其中w和b是卷積的權重和偏差。使用式（1）和式（2），遍歷E中的所有像素嵌入以創建新的像素嵌入。最后，使用softmax生成像素-超像素關聯映射Q。

f(p)表示希望超像素保留的像素屬性，例如顏色、紋理和其他特征，而l(p)=[x,y] 表示像素p的圖像坐標。給定關聯映射Q的任何超像素的中心cs=(us,ls)可以如下所示計算，其中us是屬性向量，ls是位置向量。

對于任何像素p，其重構的屬性和坐標為

重構損失如下：

其中，CE是交叉熵距離度量，S是超像素采用間隔，m是平衡這兩項的權重。

圍繞像素嵌入圖E的邊界對一系列指定大?。ㄈ?×5）的補丁B??K×K×D進行采樣，幫助網絡適當地分配邊界周圍的像素。為了簡化任務，補丁B僅覆蓋來自兩個語義區域的像素，即B={f1,…,fm,g1,…,gn}，其中f,g??D，m+n=K2。然后使用分類方法將來自同一類別的特征更緊密地結合在一起，同時保持有著不同標簽的嵌入分開?；诜诸惖膿p失通過將特征均勻地分為兩組來提高對不同語義特征的識別：

其中μf1是f1的平均表示，函數sim(?,?)是兩個向量的相似性度量：

考慮到所有采樣的補丁Bs，邊界感知損失為

3.3 內容自適應模塊

盡管可以通過修改權重m的值來改變網絡生成的超像素的準確性和緊湊性之間的比率，但這種調整會對全局產生影響。過高的權重會使生成的超像素難以匹配圖像的邊界，導致每個超像素中具有多個不同的語義信息。另一方面，權重過小會在遠離邊界的區域產生非常不均勻和不緊湊的超像素，即使它們具有相似的特性，也會降低超像素的便利性和結構。通過一個緊湊性因子來動態改變損失函數中的緊密度權重，以使網絡能夠根據圖片內容自適應地權衡準確度和緊密度的權重。

預期生成的超像素將表現出良好的邊界粘附性，即在圖像邊界附近具有很高的精度，而由于遠離邊界的內部區域的圖像特征相似，因此生成規則且緊湊的超像素以保留圖像的空間信息?；谶@個概念將圖像分為兩組：邊界區域和非邊界區域，并為每個區域分配不同的緊湊性因子。為了提取圖片的區域劃分，應用邊緣檢測技術來處理輸入圖像，得到圖像的邊緣特征圖M??H×W。由于需要使用特征圖作為動態權重來指導準確性和緊湊性，對生成的邊緣特征圖進行標準化操作。此外，為了保證邊界區域依舊考慮一定的緊湊性，非邊界區域依舊考慮一定的精度，對動態權重的上下限進行了一定的限制。最后計算出權重因子，其中表示每個像素p的權重（在本文中

在本文中使用邊緣檢測網絡BDCN 來獲取邊緣特征圖M。

結合內容自適應模塊的重建損失函數為

網絡的總體損失函數為

4 實驗及結果分析

4.1 數據集

為了測試方法的有效性，本文在兩個公共基線BSDS500［19］和NYUv2［20］上進行了試驗。BSDS00 數據集共有500張圖像，圖像的尺寸為321×481像素或481×321 像素。因為其具有由各種不同專家標記的多個語義標簽，可以在這些圖像上進行語義分割和邊緣檢測。為了進行公平的比較，本文遵循過去的研究方法［16～18，32］并將每個標注視為不同的樣本。NYUv2數據集是一個室內場景理解數據集，包含1449 張帶有對象實例標簽的圖像。Stutz 等［33］刪除了邊界周圍未標記的區域，并對大小為608×448像素的400 張測試照片的子集進行了超像素評估，以評估超像素方法。在BSDS500 數據集上，根據Yang［17］和Wang［16］的建議運行典型的訓練和測試工作流程。在BSDS500 上訓練的模型直接應用于NYUv2 數據集，并在400 個測試數據上展示結果以評估模型的泛化能力。

4.2 實驗細節

隨機裁剪的208×208 像素大小的圖像用作訓練階段的輸入，網絡使用Adam 優化器［34］進行4k 次迭代，批量大小為16。最初學習率設置為8e-5，經過2k 次迭代后變為原來的一半。由于采樣間隔設置為16，編碼器組件執行四次卷積和池化過程以產生13×13×256 大小的超像素嵌入。解碼器組件使用四個卷積和反卷積過程生成形狀為208×208×16 大小的像素嵌入。超像素嵌入經過兩次卷積壓縮，然后作為13×13×16 大小的特征圖發送到AI 模塊。像素嵌入受到補丁大小為5 的邊界感知損失的影響。然后將兩個卷積層結合起來預測關聯圖Q，其形狀為208×208×9。Wang的方法［16］要求首先使用第一項LCA訓練網絡進行3k 次迭代，然后使用邊界感知損失LB對其進行1k次迭代微調。對于位置重建損失，m設置為0.003/16，對于內容自適應特征，設置為[0.3,0.8]。本文使用Yang［17］相同的方法在測試階段產生不同數量的超像素。

與各種超像素方法進行性能比較，包括SLIC［11］、ETPS［35］、ERS［14］、SEEDS［36］等經典方法，以及SCN［17］和AINet［16］等深度學習方法。使用OpenCV 實現SLIC 和SEEDS。對于其他技術，則使用其作者推薦的設置和官方的實現方法。

4.3 評價指標

為了分析超像素的性能，本文采用了四個突出的指標：可達到的分割精度（ASA）、邊界召回（BR）、邊界精度（BP）和緊湊性（CO）。ASA 分數是指超像素標簽分割性能的上限，而BR和BP分數與超像素模型識別語義邊界的能力有關。通過將每個超像素的面積與具有相同周長的圓的面積進行比較，可以確定超像素的緊密度（CO）。超像素分割性能越好，這些指標的值就越高。在Stutz［33］等的文章中，對這些指標進行了更詳細的描述和分析。

4.4 結果分析

在BSDS500 和NYUv2 測試集上的定量比較結果如圖3～8所示。通過使用深度卷積網絡，CANet、SCN和AINet方法可以勝過標準的超像素算法。當超像素數量最少時，本文提出的CANet具有更高的ASA分數和略低的CO分數。隨著超像素數量的增加，ASA分數略微下降，但CO分數卻得到了顯著改善。因為當超像素太少時，使邊緣粘附更重要。當超像素數量較多時，每個超像素的像素較少，兩個超像素被邊界分隔的可能性較小，緊湊性更為重要。因此，這種變化符合預期。在BSDS500數據集上，CANet 可以顯著優于標準方法，如圖3～5 所示。在BR-BP得分上，CANet也可以超過深度網絡方法SCN 和AINet。適應NYUv2 測試集時的性能見圖6～8。

圖3 數據集BSDS500上的ASA分數比較

圖4 數據集BSDS500上的BR-BP分數比較

圖5 數據集BSDS500上的CO分數比較

圖6 數據集NYUv2上的ASA分數比較

圖7 數據集NYUv2上的BR-BP分數比較

圖8 數據集NYUv2上的CO分數比較

可以看到CANet 也有更好的泛化能力。三種最新方法在數據集BSDS500 和NYUv2 上的定性結果如圖9和圖10所示。相較而言，顯示的結果確保了非邊界區域的良好邊界粘附性和更高的緊湊性。該方法的優越性在視覺上得到了證明。

圖9 數據集BSDS500上的超像素分割結果

圖10 數據集NYUv2上的超像素分割結果

4.5 推理速度

除了性能之外，推理速度也是一個需要考慮的重要因素。使用BSDS500 數據集研究了三種基于深度學習的方法的推理效率。本文只計算網絡推理和后處理過程的時間，以確保比較的公平。所有方法都在同一個工作站上運行，該工作站有一個NVidia GTX TITAN X GPU和一個Intel E5 CPU。三種基于深度學習的方法CANet、AINet 和SCN 的時間成本如圖11 所示。由于SCN 方法具有簡單的架構，因此它是解決推理問題的最有效方法。由于在AINet 中添加了更多的層和進程，推理速度比SCN略慢。CANet介于二者之間。

圖11 三種基于深度學習的方法的平均時間成本

5 結語

本文提出了一個內容自適應超像素分割網絡，可用于生成粘附邊界的超像素，并且在遠離邊界的區域中保持緊湊性，從而降低精度-緊湊性之間的權衡。在兩個廣泛使用的基準上的實驗表明，該方法具有出色的性能和效率，以及高度的泛化性。