?

基于上下文信息增強的雞蛋沙殼區域實例分割研究

2023-10-23 04:59王魯馬志東唐輝蔡馨燕郭旭超
關鍵詞:掩膜實例類別

王魯,馬志東,唐輝,蔡馨燕,郭旭超

基于上下文信息增強的雞蛋沙殼區域實例分割研究

王魯1,馬志東1,唐輝2*,蔡馨燕3*,郭旭超1

1. 山東農業大學信息科學與工程學院, 山東 泰安 271018 2. 山東農業大學動物科技學院, 山東 泰安 271018 3. 山東省科學技術情報研究院, 山東 濟南 250101

為解決現有分割網絡中小面積區域像素表達能力差、區域上下文信息類別被混淆、區域分布不規則等導致的雞蛋沙殼區域分割性能不佳的問題,本文以此類雞蛋圖像為研究對象,提出了一種基于上下文信息的雞蛋沙殼區域實例分割方法(Global-Local Contexts based Instance Segmentation Model for Egg Sand-shell Region, GL-ISR)。首先,對沙殼區域特征進行全局(Global Context Information Module, GCIM)和局部(Local Context Information Module, LCIM)上下文信息建模,前者利用金字塔池化對特征圖進行多尺度上下文加權聚合以收集不同像素區域的上下文信息,后者則通過構建Label Map與Label Prior Layer監督上下文依賴類別以區分上下文信息來源;其次,將兩部分上下文與原特征圖進行聚合,以增強沙殼區域特征表達能力,從而提高模型的分割性能。為驗證所提模型的有效性,本文在包含3類區域、7160幅沙殼蛋圖像的自標注數據集上進行了實驗。結果表明,GL-ISR在IoU閾值為0.5和0.75情況下分別取得70.02%和44.16%的最優mAP值,在IoU閾值介于0.5至0.95之間取得最優平均mAP值48.22%,顯著優于其他模型。具體地,GL-ISR的在光滑區域、面狀沙殼和點狀沙殼上分別取得85.16%、46.39%和41.17%的像素精準度,即使在分割難度較大的點狀沙殼區域上,該模型的像素精準度仍保持在40%以上。因此,上述實驗結果表明了GL-ISR模型在雞蛋沙殼區域分割方面的有效性,可為沙殼蛋品質改良提供理論基礎。

沙殼性狀; 圖像分割; 信息識別

雞蛋作為一種日常消費品,蛋殼質量關系著雞蛋在運輸過程中破損率,直接影響著生產者的經濟效益?;\養條件下蛋殼破損率達5%-10%[1],蛋殼破損造成養禽業經濟損失每年高達5億元以上[2]。其中,沙殼蛋比正常雞蛋有更低的蛋殼厚度和硬度,同條件下更易破損。因此,針對沙殼區域的有效分割對統計沙殼區域和評價及改良雞蛋品質有著重要意義。沙殼區域僅憑人工統計,誤差大且費時費力。傳統圖像分割方法如基于閾值、基于區域和基于邊緣檢測的方法對沙殼區域進行分割時存在難以設定閾值,區域劃分困難和邊緣分界不明顯等問題,分割方法適用性差。

近年來,隨著深度學習技術的發展,卷積神經網絡(Convolutional Neural Network,CNN)在實例分割任務上不斷深入應用。He K等[3]提出的Mask R-CNN基于雙階目標檢測,在Faster R-CNN的基礎上添加全卷積分支,連接掩膜學習和檢測框學習,在COCO數據集上取得了37.1%的AP值;Liu S等[4]提出的PANet在特征金字塔網絡(FPN)的基礎上增加了反饋通路,引入自適應池對不同層級進行特征融合;Chen X等[5]提出的TensorMask使用密集滑動窗口檢測框和像素分類來預測實例以減少對跨區域實例掩膜的損失,在COCO數據集上取得了37.3%的AP值;Bolya D等[6]提出的YOLACT將實例分割劃分為候選框定位分類和實例掩膜生成兩個并行的子任務以加速分割網絡計算過程。Bai M等[7]提出的DWT利用一個全卷積網絡學習分水嶺變換后的能量級數,根據級數劃分區域生成實例掩膜;Liu S等[8]提出的SGN使用3個子網絡分別用來生成像素聚類、形成連通域、對連通域進行組合生成實例掩膜;Wang X等[9]提出的SOLO利用分類思想處理聚類問題,將語義類別信息的網格進行分類,使用非極大抑制(Non-Maximum Suppression,NMS)獲得實例掩膜,在COCO數據集上取得了40.4%的AP值。雖然CNN在實例分割工作上取得了顯著效果,但未考慮小面積像素區域上下文信息與位置信息。

Transformer結構的Self-attention機制[10]為計算機視覺問題提供了新的解決思路。其中,Vision Transformer(Vi-T)[11]將圖像矩陣分解為多patch序列,對每個patch進行嵌入編碼,提高了網絡獲取長距離語義依賴信息的能力;DETR[12]結合可學習序列與transformer結構,以端到端的方式提高了小目標分割檢測性能;SETR[13]以seq2seq角度看待分割問題,提出了可替代FCN結構Encoder-Decoder模型;SOTR[14]提出了CNN+Transformer的結構,不局限檢測框進行實例對象分割,提高了對無規則邊界實例前景信息的獲取能力。Transformer在計算機視覺問題上的表現說明了上下文信息在提高像素特征表達能力上的有效性。

雞蛋沙殼區域顏色與背景差異較小,沙殼區域分布無規則且區域邊界與光滑區域分界不明顯,沙殼區域間的像素面積差異較大。上述實例分割方法的基準測試集由行人、車輛等像素表達能力強的實例組成,但對沙殼蛋數據集的分割性能較差,而且目前針對雞蛋沙殼區域實例分割的研究較少,因此,為解決雞蛋沙殼區域難被分割的問題,本文提出了一種基于上下文信息的實例分割方法GL-ISR,該算法基于全局和局部上下文信息,融合了沙殼區域間的像素關聯信息和上下文類別信息,以實現對沙殼區域的準確分割。

1 沙殼蛋數據采集與處理

1.1 圖像采集

沙殼蛋是一種由于鈣化顆粒的沉積在蛋殼表面導致蛋殼強度變差的雞蛋缺陷的雞蛋缺陷,因鈣化顆粒呈沙狀附著蛋殼表面而得名。鈣化顆粒,也即沙殼因常分布于蛋殼尖端、鈍端,以及蛋殼赤道帶,所以本文對沙殼蛋圖像的采集方法如下:使用采集設備Canon RF F4L,焦距固定為75 mm,相機感光度為ISO150,拍攝距離固定為20 cm。本文從赤道面固定角度(0°、120°、240°)、鈍端和尖端等多個角度分別拍攝3、1和1張圖像。共得到7160幅沙殼雞蛋原始圖像,部分沙殼區域相關表征示例如表1所示。

1.2 像素類別劃分

本文在領域專家指導下以沙殼區域像素面積為劃分標準,將像素類別劃分為光滑面(edge),點狀沙殼(blog_point),面狀沙殼(blog_area)。使用軟件Labelme進行數據集自標注,生成對應真值標簽Ground Truth;為減少圖像背景信息對沙殼區域的干擾,將雞蛋區域外的背景像素標注為_ignore_類別;為界定蛋殼邊緣并確定合法掩膜,將平滑區域標注為Edge類;對標注前的圖像邊緣進行填充,數據集大小為7160張,圖像大小為512×512,訓練集,驗證集及測試集的劃分比例為6:2:2,各部分圖像數目分別為4296張,1432張和1432張。

1.3 特征分析

如表1所示,沙殼蛋圖像數據集包括赤道面、鈍端和尖端的沙殼區域,與通用分割數據集相比:(1)沙殼區域與背景的差異性較弱,待分割實例區域的特征表達受到干擾,容易導致特定區域分割結果的不一致性;(2)沙殼區域分布無明顯規律性,區域像素特征與位置信息的對應關系不明確,無法通過確定位置對區域特征進行差異化計算;(3)不同類型沙殼的像素面積占比差異較大,一方面,這導致像素面積占比小的點狀沙殼區域特征表達能力較其他類型區域受限;另一方面,該類區域更容易受來自其他類型區域上下文的影響,致使區域特征信息無法正確表達。

表1 沙殼區域視覺及掩膜表征

2 GL-ISR網絡

針對沙殼區域的視覺特征的特點,本文提出一種基于全局-局部上下文聚合的實例分割模型,其整體架構如圖1所示,包括特征提取模塊,上下文聚合模塊和掩膜計算模塊。其中,特征提取模塊由預訓練空洞卷積策略的殘差網絡組成;上下文聚合模塊將上下文區分為全局及局部上下文,全局上下文代表全圖中所有區域的上下文信息,局部上下文代表同一類像素的上下文信息,圖2為以Edge類為例的上下文信息的聚合示意圖;掩膜生成模塊基于SOLOv2動態頭結構。其中,上下文聚合模塊是本文研究重點。

圖1 GL-ISR網絡結構

圖2 上下文信息聚合

2.1 全局上下文模塊

由于沙殼區域邊界不明顯且區域面積及區域分布無明顯規律,沙殼區域特征與背景特征差異較小,不同面積沙殼區域特征表達能力差異較大,存在部分沙殼區域易被錯誤分割的問題。為解決上述問題,本文以金字塔池化層(Pyramid Pooling Layer)[15,16]為基礎,構建全局上下文收集模塊(GCIM),對不同感受野的全局信息和語義依賴信息進行收集,以增強沙殼區域特征豐富度,提高沙殼區域特征在網絡中的表達能力。

沙殼蛋圖像經過預訓練空洞卷積策略[17]的殘差網絡被映射到非線性空間得特征圖,其形狀為0×0×0,0為像素特征維度,0與0為原圖長寬的1/8[18]。如圖3所示,GCIM使用金字塔結構對特征圖進行分級池化,各級池化結構為自適應平均池化(AdaptiveAvgPool),使用4層結構[19]獲取不同尺度下的信息。其中,1×1核對進行全局池化以在全圖范圍收集信息,其余層級依次用2×2,3×3,5×5池化核在3個不同尺度收集信息。為保持全局在局部位置上權重不變性,在金字塔各級池化核后使用1×1卷積層降維,當金字塔層級為時,該層表征維數降低為現有通道數的1/[19]。第級金字塔池化表征F的計算如式(1)所示。

式中,為卷積函數。

圖3 全局上下文信息模塊流程圖

圖4 GCIM網絡結構圖

該模塊通過金字塔池化捕獲全局信息,能夠在一定程度上提高沙殼區域特征信息在深度網絡中的表達能力[20],但并未考慮區域相鄰像素的影響[21]。因此,如圖4所示,本節通過構建像素關聯度權重計算模塊學習相鄰像素依賴信息,從而進一步提高沙殼區域特征的表達能力。第層級加權特征矩陣F的計算如公式(2)所示。

其中矩陣R為關聯度權重計算的輸入矩陣,其形狀為0×,=0×0,矩陣S為第層級像素關聯度權重矩陣,其由R計算生成,形狀為×,RS的計算公式如(3)、(4)所示。

S存儲了第層表征的空間關聯度信息,其每一行元素的數值和為1,逐位置權重計算如式(5)所示。

式(5)中,S表示第層級表征中位置與之間的關聯度,其值越大,則對應位置的特征信息越相近。如式(6)所示,對F進行逐層聚合生成全局上下文F。

2.2 局部上下文模塊

由于不同類型沙殼區域像素面差別較大,導致點狀與面狀沙殼存在上下文類別混淆問題,小面積的點狀沙殼區域更易受到面積大的其他語義類型區域的干擾,獲取到更多非本類型上下文信息,這會對小面積沙殼區域特征的表達產生類別信息干擾。為解決小面積沙殼區域受干擾而產生錯誤表達的問題,本文構建局部上下文模塊(LCIM)區分上下文依賴來源,增強小面積沙殼區域特征在確定類別信息下的表達能力。LCIM由類別映射矩陣計算層和上下文信息類別監督層組成。

2.2.1 類別映射矩陣計算考慮到真值標簽Ground Truth像素級類別信息豐富且區域間類別差異明顯,因此,本節對真值標簽計算編碼生成類別映射矩陣以監督上下文信息類型。

類別映射矩陣Label Map(以下簡稱)為形狀×的矩陣,其中,=0×0,被用于存儲像素類別信息,被用以區分類間和類內上下文,其含義為:的第行數值代表第位置與其他位置的類別所屬關系,對于任意[,],若其值為1,則表示第位置與第位置同屬一類,若其值為0,則兩位置非屬一類。由真值標簽生成類別映射矩陣的過程如圖5所示。

圖5 Ground Truth到 Label Map的計算

類別映射矩陣計算流程如下,首先對真值標簽下采樣,生成形狀為0×0的矩陣,后進行One-Hot編碼得到G,形狀為0×0×,為像素類別數目,由于本文劃分沙殼區域的類別數為3,故=3。類別映射矩陣的計算如式(7)所示。

2.2.2 上下文的收集與監督由于對上下文進行類別監督前需先在全局范圍內收集上下文依賴信息,因此本節首先對依賴信息進行收集,其過程如圖6所示。

圖6 Context Information收集流程

Fig.6 The collection process of context information

如圖6,特征圖經三個并行1x1卷積降維,獲得矩陣1,2與3,其形狀均為1×0×0。1、2與3進行形狀變換分別獲得1k、2k與3k,其形狀分別為×1、1×和1×,其中,=0×0。由此計算關聯度權重,計算公式與逐位置關聯度權重計算如(8)、(9)所示。

式(9)中,S[i,j]為位置對位置特征表達的影響權重,對3k進行如式(10)加權計算得全局范圍的上下文依賴矩陣。

僅以像素關聯度和語義距離作為聚合依據,其未對不同像素類型區域的上下文進行區分,不同沙殼區域間的類別混淆問題會導致小面積沙殼更易從大面積沙殼區域獲得上下文信息,小面積沙殼區域像素類別信息也由此錯誤表達。因此,本節構建上下文類別監督層Label Prior Layer解決中的類別混淆問題,其計算流程如圖7所示。先經1×1卷積層,Batch Norm及Sigmoid層處理得到類別映射預矩陣Label Prior Map (以下簡稱),其形狀為(0×0)×(0×0),也即×,其計算如式(11)所示。

式中,為卷積函數,為Sigmoid函數。

圖7 Label Prior Layer計算流程

由圖7可知,上下文類別監督層使用對進行監督以區分上下文類別,由的含義可知該監督過程是二分類任務,因此可得基于二分類的監督損失函數如式(12)所示。

式中,p與n分別為與中的任一單位置元素。但根據的定義,中每行元素為某一位置與全圖位置的關聯信息,若僅使用式(12)對監督上下文類型會導致對關聯元素監督的缺失。因此,在式(12)的基礎上加入對中行級元素損失的計算,計算過程如下所示。

式(13)到(16)分別對中第行元素計算類內預測值、真實類內率、類間預測值及真實類間率。由此,對中行級元素和局部上下文監督損失函數分別為式(17)、(18)所示。

式(18)中,Loss代表單一位置下交叉熵函數,Loss代表全局行級元素監督函數,其權重λλ值均為1。由與CIM計算類內上下文C和類間上下文C,計算公式分別如(19)、(20)所示。

式(20)中,為與同形狀的單位矩陣。將類內和類間上下文融合生成局部上下文信息矩陣。

將特征圖,全局上下文及局部上下文融合得到最終增強的特征圖。

2.3 掩膜生成

掩膜生成模塊的作用為由圖像特征信息生成預測掩膜,其結構參考SOLOv2的動態頭結構(dynamic head)[28],其結構如圖8所示,該結構將掩膜預測分為掩膜核預測與掩膜特征學習兩個分支任務,其中,前者對通過標準化坐標進行卷積以預測核權重;后者則用于學習區域掩膜特征。

掩膜核預測分支的輸入為F,其形狀2×0×0,C為聚合后特征矩陣的通道數,F經Reshape后改形狀為××2,然后使用4層卷積層,最后使用3×3×卷積層生成卷積核,其尺寸為××。其中,為圖像劃分的網格數目,對其中任意一個網格,核分支預測維結果輸出以表示區域卷積核權重[28]。的對應關系為:對1×1×2卷積核,=2;對5×5×2的卷積核,=252。

掩膜特征學習分支使用特征金字塔網絡結構,在金字塔網絡的P2-P5階段重復使用3×3卷積層[28],GroupNorm,ReLU及雙線性上采樣層,4個階段歸一化到八分之一尺度下合并,各階段計算公式為式(23)。該分支學習的掩膜特征F經1×1卷積層、GroupNorm及ReLU層計算生成,分支計算過程如式(24)所示。

最終的實例掩膜由[i,j]與F進行卷積后經過非極大抑制(NMS)生成,如式(25)所示。

2.4 損失函數設計

損失函數如式(26),其中,Loss為LCIM中的上下文信息類別監督損失;Loss直接使用DICE Loss;Loss為輔助損失函數,網絡在空洞卷積后加入Aux層計算Aux損失,Aux層及Aux損失計算如式(29)、(30)所示。

式(27)中的為DICE系數,其定義如式(30)所示,式中(i,j)與(i,j)分別為預測掩膜和真實掩膜在(i,j)位置的像素值。式(26)中的權重為:λ=1,λ=1,λ=0.4。

(29)

3 實驗與模型評估

3.1 模型性能評估指標

模型使用平均精度(Average Precision, AP),平均精度均值(mean Average Precision, mAP),像素精準度(Pixel Accuracy, PA)評估指標檢驗模型性能。AP為具體類別樣本的Percision-Recall曲線與橫軸積分結果,其中正負樣本的確定依賴于分割區域交并比閾值(IoU)。因此,在不同閾值下可細化為如下評價指標AP0.5與mAP0.5,AP0.75與mAP0.75及AP0.5:0.95與mAP0.5:0.95。其中,AP0.5:0.95與mAP0.5:0.95的含義為閾值遞增過程中(0.5到0.95,遞增步長為0.05)具體類別下AP加和均值和所有類別下mAP加和均值。本節在IoU=0.5下計算PA與mPA值。

3.2 實驗環境與參數設置

本文所提模型采用Pytorch框架實現,操作系統:Ubuntu 18.04,硬件環境:CPU為i7-12700K,內存為32GB,圖形處理器為RTX3090 24GB。初始訓練輪數epoch設置為180,batch size設置為16,初始學習率0設為0.01,訓練優化策略為Adam +learning rate decay,學習率更新策略為式(31),學習率更新率設置為0.9。為解決訓練數據中的類別不平衡問題,網絡對訓練集數據進行全類擴充采樣,讀取數據時在原有訓練數據基礎上對圖像進行隨機縮放,縮放比例包括{0.5;1.0;1.5;1.75;2.0},縮放后通過填充裁剪,將圖像尺寸統一為512×512。

式中,Num表示當前迭代次數,Num表示總迭代次數,每迭代50次對學習率進行更新1次。

3.3 實驗結果與分析

3.3.1 模型總體性能分析本文模型與其他主流模型對比,其實驗結果分別如表4所示。本節將GL-ISR與PANet、FCIS、Mask R-CNN、SOLOv2、ISTR等模型進行對比分析。由表4可知,本文方法在mAP0.5:0.95較PANet、FCIS、Mask R-CNN、SOLOv2、ISTR分別提升了11.29,10.50,10.05,18.11,6.09個百分點。對比結果最優的mAP0.5,本文方法相比PANet、FCIS、Mask R-CNN、SOLOv2、ISTR分別提升了15.09,18.89,21.3,13.47,9.00個百分點。與當前主流實例分割模型的性能對比分析,可以充分說明本文方法GL-ISR能夠有效對雞蛋沙殼區域進行實例分割。

由圖9、10可知,針對較易分割的光滑區域,Mask R-CNN與SOLOv2均存在邊界的錯誤分割,而對分割難度較大的點狀沙殼區域,相較于本文方法,Mask R-CNN、SOLOv2及ISTR的結果中誤檢、漏檢的情況較多,進一步說明了本文所提模型能夠對光滑區域,點狀及面狀沙殼進行有效分割。

表4 不同模型的分割結果對比

圖9 不同模型在測試集上的分割掩膜結果

圖10 不同模型在測試集上的分割可視化結果

3.3.2 在各類區域性能分析為進一步說明GL-ISR對沙殼區域分割的有效性,本節統計了各模型在不同類別沙殼區域的像素精準度(PA)以及各類別下的平均精度,其結果分別如表5、表6所示。

由表5可知,本文所提模型在光滑區域、點狀沙殼、面狀沙殼三類沙殼區域上均取得最優像素精準度85.16%、41.17%和46.39%,相較于最優對比模型ISTR分別高出10.67、5.12及4.25個百分點,這是因為GL-ISR對上下文類別的監督在一定程度上緩解了上下文混淆問題,增強區域上下文的類別確定性。具體地,以分割難度較大的點狀沙殼為例,Mask R-CNN,SOLOv2和本文方法分別取得了17.11%,18.34%和41.17%的像素精準度,本文方法在點狀沙殼上較兩者分別提高了24.06和22.82個百分點,這表明GL-ISR使用全局與局部上下文增強點狀沙殼區域表達能力的有效性。

表5 不同模型在測試集各類區域的像素精準度(PA)

為檢驗GL-ISR在不同IoU閾值下的分割性能,本節使用多閾值AP值對不同模型在各類沙殼區域分割性能進行評價。由表6可知,GL-ISR在光滑區域、點狀沙殼及面狀沙殼分別取得了88.12%,51.12%和70.82%的AP0.5值,相較次優對比模型ISTR在各類的AP0.5值分別提升了9.49%,8.61%和8.90%。在提高閾值后,本文方法在各類上仍然取得了60.17%,30.67%及41.55%的最優AP0.75值和63.71%,40.74和40.21的最優AP0.5:0.95值。進一步說明GL-ISR針對各類沙殼分割的有效性。

表6 不同模型在測試集各類區域上平均準確率(AP)

3.3.3 消融實驗 為驗證各部分模塊對分割性能提升的有效性,本節對GL-ISR進行消融實驗,使用不同類別的像素精準度(IoU閾值為0.5)和mAP0.5指標評價模型性能。消融實驗結果如表7所示。

針對結構(2)、(3),(3)在(2)的基礎上增加了像素關聯度加權操作,在mAP0.5上提升2.98個百分點,在光滑區域,點狀沙殼及面狀沙殼的像素精準度上分別提高了11.25、4.97和3.08個百分點,這說明了像素關聯度信息的加入對分割性能的提升作用。針對結構(1)、(4),(4)在(1)上增加了對上下文類別的監督,在光滑區域,點狀沙殼及面狀沙殼的像素精準度上分別提高了6.03、7.96和7.10個百分點,對點狀沙殼區域的分割準度的提升較為明顯,這驗證了減少上下文混淆對分割性能的提升作用。表7結果進一步說明了GL-ISR各模塊的對沙殼區域分割提升的有效性。

表7 消融實驗結果

4 結論

本文針對沙殼蛋的沙殼區域像素面積小,區域像素特征在分割網絡表達能力弱,從而導致沙殼區域分割精度不高的問題,構建了聚合全局和局部上下文信息的實例分割模型GL-ISR,并通過對損失函數和學習率函數的設計提高模型分割精度。本文模型遵循“增強-分割”模式聚合全局和局部上下文以增強沙殼區域的特征表達能力,網絡整體結構為特征提取層,上下文聚合層及掩膜計算層。其中,特征提取層使用空洞策略下的預訓練殘差網絡;在上下文聚合層中,全局上下文模塊使用金字塔池化與像素關聯度加權計算以聚合全局上下文,局部上下文模塊使用真值標簽二值化與類別映射監督層區分上下文類別來源以聚合局部上下文信息,將上下文信息與特征圖進行聚合作為增強結果;掩膜計算層使用動態頭結構(Dynamic Head)對沙殼區域進行預測。實驗表明,GL-ISR相較其他模型取得了最優mAP值和像素精準度,充分說明了其在雞蛋沙殼區域分割方面上的優越性。在未來工作,考慮將GL-ISR應用到其他領域數據,進一步驗證該模型的泛化能力。此外,考慮將Transformer結構引入到上下文聚合和掩膜計算過程中以進一步提高模型性能。

[1] 胡建平.降低破蛋率和減少鮮蛋失重的有效措施[J].養禽與禽病防治,2005(7):19

[2] 宋慧芝,王俊,葉均安.雞蛋蛋殼受載特性的有限元研究[J].浙江大學學報(農業與生命科學版),2006(3):350-354

[3] He K, Gkioxari G, Dollár P,. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017:2961-2969

[4] Liu S, Qi L, Qin H,. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018:8759-8768

[5] Chen X, Girshick R, He K,. Tensormask: A foundation for dense object segmentation[C]//Proceedings of the IEEE/CVF international conference on computer vision, 2019:2061-2069

[6] Bolya D, Zhou C, Xiao F,. Yolact: Real-time instance segmentation[C]//Proceedings of the IEEE/CVF international conference on computer vision, 2019: 9157-9166

[7] Bai M, Urtasun R. Deep watershed transform for instance segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017:5221-5229

[8] Liu S, Jia J, Fidler S,. Sgn: Sequential grouping networks for instance segmentation[C]//Proceedings of the IEEE international conference on computer vision, 2017:3496-3504

[9] Wang X, Kong T, Shen C,. Solo: Segmenting objects by locations[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII 16. Springer International Publishing, 2020: 649-665

[10] Vaswani A, Shazeer N, Parmar N,. Attention is all you need [C]//31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.

[11] Dosovitskiy A, Beyer L, Kolesnikov A,. An image is worth 16x16 words: Transformers for image recognition at scale [J]. arXiv preprint arXiv:2010, 2020:11929

[12] Zhu X, Su W, Lu L,. Deformable detr: Deformable transformers for end-to-end object detection [J]. arXiv preprint arXiv:2010, 2020:04159

[13] Zheng S, Lu J, Zhao H,. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021:6881-6890

[14] Guo R, Niu D, Qu L,. Sotr: Segmenting objects with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021:7157-7166

[15] Chen LC, Papandreou G, Kokkinos I,. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. 2016-06-02[2023-07-06]. https://arxiv.org/pdf/1412.7062.pdf

[16] Zhao H, Zhang Y, Liu S,Psanet: Point-wise spatial attention network for scene parsing[C]. Proceedings of the European conference on computer vision (ECCV), 2018:267-283

[17] Chen LC, Papandreou G, Kokkinos I,. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018,40(4):834-848

[18] Chen LC, Papandreou G, Schroff F,. Rethinking atrous convolution for semantic image segmentation [EB]. arXiv, 2017:1-5

[19] Zhao H, Shi J, Qi X,. Pyramid scene parsing network [C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2017:2881-2890

[20] Chen LC, Yang Y, Wang J,. Attention to scale: Scale-aware semantic image segmentation [C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016

[21] Chen LC, Zhu YU, Papandreou G,. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. European Conference on Computer Vision (ECCV), 2018:801-818

[22] Cholet F. Xception:deep learning with depthwise separable convolutions [C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017:1800-1807

[23] Jin Z, Liu B, Chu Q,. ISNet: Integrate image-level and semantic-level context for semantic segmentation [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021:7189-7198

[24] Ding H, Jiang X, Shuai B,. Context contrasted feature and gated multi-scale aggregation for scene segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:2393-2402

[25] Fu J, Liu J, Tian H,. Dual attention network for scene segmentation [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:3146-3154

[26] Zhao H, Zhang Y, Liu S,. Psanet: Point-wise spatial attention network for scene parsing [C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018:267-283

[27] Yuan Y, Chen X, Chen X,. Segmentation transformer: Object-contextual representations for semantic segmentation [J]. arXiv preprint arXiv:1909.11065, 2019

[28] Wang X, Zhang R, Kong T,. Solov2: Dynamic and fast instance segmentation [J]. Advances in Neural Information Processing Systems, 2020,33:17721-17732

Research on Instance Segmentation of Egg Sand-shell Region Based on Contextual Information

WANG Lu1, MA Zhi-dong1, TANG Hui2*, CAI Xin-yan3*, GUO Xu-chao1

1.271018,2.271018,3.250100,

To address the challenges of poor pixel representation in small-area regions, confusion of region context information categories, and irregular distribution of regions in existing segmentation networks leading to suboptimal performance in eggshell region segmentation, this study focuses on such egg images and proposes a context-based instance segmentation method for egg sand-shell regions, named Global-Local Contexts based Instance Segmentation Model for Egg Sand-shell Region (GL-ISR).The approach begins by globally (Global Context Information Module, GCIM) and locally (Local Context Information Module, LCIM) modeling features of the sand-shell region. The former employs pyramid pooling to aggregate multi-scale context information from the feature map, collecting context information for different pixel regions. The latter supervises context-dependent categories by constructing a Label Map and Label Prior Layer to differentiate the sources of context information. Subsequently, the two context parts are aggregated with the original feature map to enhance the feature representation capability of the sand-shell region, thereby improving the model's segmentation performance.To validate the effectiveness of the proposed model, experiments were conducted on a self-labeled dataset containing three classes of regions and 7160 images of eggshell eggs. Results demonstrate that GL-ISR achieves optimal mAP values of 70.02% and 44.16% at IoU thresholds of 0.5 and 0.75, respectively. The optimal average mAP value of 48.22% is obtained at IoU thresholds between 0.5 and 0.95, significantly outperforming other models. Specifically, GL-ISR achieves pixel accuracy of 85.16%, 46.39%, and 41.17% on smooth regions, surface sand-shell, and point-like sand-shell, respectively. Even in the challenging area of point-like sand-shell segmentation, the model's pixel accuracy remains above 40%.Experimental results demonstrate the effectiveness of the GL-ISR in egg-shell segmentation, providing a theoretical foundation for improving the quality of sand-shell eggs.

Sand-shell Trait; image segmentation; information recognition

TP751

A

1000-2324(2023)04-0477-13

10.3969/j.issn.1000-2324.2023.04.001

2023-01-23

2023-04-05

山東省重點研發項目(2022LZGCQY016)

王魯(1981-),男,博士,教授,主要從事計算機視覺、機器學習、智慧農業等方面的研究. E-mail:wangl@sdau.edu.cn

通訊作者:Authors for correspondence. E-mail:tanghui@sdau.edu.cn; 191523972@qq.com

猜你喜歡
掩膜實例類別
利用掩膜和單應矩陣提高LK光流追蹤效果
一種結合圖像分割掩膜邊緣優化的B-PointRend網絡方法
光纖激光掩膜微細電解復合加工裝置研發
多層陰影掩膜結構及其制造和使用方法
服務類別
論類別股東會
完形填空Ⅱ
完形填空Ⅰ
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合