?

基于ASPP-SOLOv2 的復雜場景下透明玻璃儀器實例分割

2023-02-24 03:06葛建統祝模芮冉進業
高?;瘜W工程學報 2023年6期
關鍵詞:掩膜實例類別

葛建統, 楊 鑫, 祝模芮, 冉進業, 翟 持, 張 浩

(1. 重慶理工大學 化學化工學院, 重慶 400054; 2. 布達佩斯技術與經濟大學 電氣工程與信息學院,布達佩斯 1111; 3. 西南大學 計算機信息與科學學院, 重慶 400715; 4. 昆明理工大學 化學工程學院,云南 昆明 650500; 5. 西南大學 化學化工學院, 重慶 400715)

1 前 言

全自動化學實驗設備不僅避免重復勞動、操作失誤和實驗事故,而且能夠嘗試高危、高毒等極端條件實驗。當前已存在較多自主化學實驗設備[1]或者利用圖像分析技術對系統內部進行特性判別[2-3]與流型辨識[4]來輔助實驗。準確識別并操作玻璃儀器是化學機器人視覺系統必須解決的任務[5-6]。

由于實驗室儀器繁多且排列緊密,識別對象高度重疊,遮擋導致的非自然物體邊界和物體真實輪廓在語義上難以區別,進一步加大了實驗室透明儀器實例分割的難度。作為物體檢測和語義分割的有機結合,基于掩膜區域的卷積網絡(Mask R-CNN)[7]、混合底層和高層信息的方法(BlendMask)[8]、搜索識別網絡(SINet)[5]和一種動態快速實例分割2.0 版(SOLOv2)[9]方法等模型利用卷積核自動提取目標圖像特征,在實例分割領域很成功,但通用的模型直接用于玻璃儀器實例分割效果尚有較大提升空間。針對透明目標的檢測,部分研究[10-12]利用深度相機和超聲波傳感器等多傳感器融合經典視覺輔助系統獲取透明目標光學與深度信號。Xu 等[13]利用光場線性、遮擋檢測和幾何關系信息從四維光場圖像中分割出透明物體;Chen 等[14]利用多尺度編解碼器網絡和殘差網絡同時獲取任意背景圖像中透明物體的輪廓掩膜、顏色衰減掩模和折射流場;Xie 等[15-16]通過融合淺層特征和高級特征獲取邊界線索改進透明目標語義分割準確率,可準確識別其透明物體分割數據集(Trans10K)中94.14% 的目標;Zhang 等[17-18]針對生活場景的透明物體進行語義分割,在Trans10K 數據集的平均交并比達到75.14%。然而,上述模型的訓練數據集容量小、背景語義不合理且目標相對獨立:Xu 等[13]的數據集僅包含49 張圖片和7 種物品;Chen 等[14]的數據集包含876 張真實圖像和178 000 張合成圖像,背景和目標物體不夠自然;目前Trans10K 由11 類真實家庭場景的圖像組成,包含10 428 張圖片。針對化學實驗室場景實例分割,Eppel 等[19]建立了包含2 187 張圖片的化學實驗室數據集并進行語義和實例分割任務,平均交并比達到0.80。然而,該數據集未能對透明容器進行細分且背景簡單,不能滿足實驗室自主化設備的視覺系統要求。

為實現復雜場景下透明玻璃儀器實例分割,本研究建立了包含1 548 張復雜場景圖像的實例級標注數據。SOLOv2 在COCO 數據集可以18 幀·s-1的速度實現38.8% 的掩模分割精度,在顯著目標的實例分割任務中具備較好的實時檢測性能,但在復雜場景下無法完整地定位透明目標,故以具備出色實時檢測性能的SOLOv2[9]方法為基礎,提出了基于空洞空間金字塔池化的分割模型(ASPP-SOLOv2),提高對密集重疊透明物體的實例分割精度。該模型利用空洞空間金字塔池化(ASPP)[20]與特征金字塔輸出的特征部分進行自下而上融合后增強多尺度信息[21-22],可以改善透明儀器的幾何、邊緣等淺層信息和高層語義的表示能力,最終提升模型在復雜場景下對目標的分割能力。

2 復雜背景化學實驗透明玻璃儀器數據集

由于當前公開數據集規模小、類別少且缺少實例標注,本研究依據微軟公開的數據集(COCO)[23]的相關標準采集某大學化學類實驗室工作場景圖片,使用Labelme 軟件進行完全標注,形成了1 548 張帶有實例標注的化學類透明儀器數據集(CTG)。CTG 數據集地址:https://github.com/Pau0031/Chemical-Transparent-Apparatus-Research。該數據集包含三頸燒瓶、上嘴抽濾瓶、圓底燒瓶、容量瓶、樣品瓶、離心管、塑料吸管、比色管、量筒、錐形瓶、廣口瓶、燒杯、螺紋試劑瓶和鹽水瓶共14 類,分別統計分辨率、實例大小比例和類別分布,并與Eppel 的數據集(Vector-LabPics)[19]中的透明容器進行比較,如圖1 所示,圖1(a)為類別對比;圖1(b)為圖像分辨率分布,px 為像素單位;圖1(c)為實例占全圖比例分布;圖1(d)為單幅圖像實例個數分布。

圖1 CTG 數據集與vector-LabPics 數據集特征對比圖Fig.1 Comparison of features between CTG dataset and vector-LabPics dataset

由于實驗室性質限制,CTG 數據集中錐形瓶和容量瓶數目遠多于其他實例。數據集的分辨率、實例大小比例和實例類別數量分布統計如下:

1、分辨率:高分辨率圖像能夠提供更多邊界細節[24],圖1(b)中CTG 數據集圖像最大高度為4 060像素,最小為150 像素;最大寬度為2 905 像素,最小寬度為150 像素,其中包括大量的1 080 像素分辨率圖像。與Vector-LabPics 數據集相比,CTG 數據集分辨率分布更為集中,原始圖像特征方差更小。圖像分布在不同的高寬比(h/w)之間,1 020 張圖像集中在高寬比為(0.70,1.10)區間上,占總體比例較大,只有4 張圖像在高寬比為(1.90,2.30)的區間上。

2、實例大小比例:為實現復雜場景下透明玻璃儀器實例分割,本研究所建CTG 數據集實例大小比例與Vector-LabPics 數據集較為一致。歸一化后實例大小分布[25](基于800 像素×800 像素的分辨率)見圖1(c),整個數據集中目標占整圖的比例在0.01%~71.00%。其中像素區域小于322的實例有242 個,占比3.97%。像素區域介于322~962的實例有1 585 個,占比26.01%。像素區域大于962的實例有4 266個,占比70.02%。單幅圖像平均實例個數為3.94,是Vector-LabPics 數據集平均實例個數的2.01 倍,單幅最高實例個數達到54,場景復雜度大幅提高,如圖1(d)。從圖中看出CTA 數據集與Vector-LabPics數據集有相似的分布范圍。

3、實例類別數量:CTG 數據集中的實例共有6 093 個,且與Vector-LabPics 數據集的透明容器部分實例類別進行比較,如圖1(a)。實例類別有4 個與Vector-LabPics 數據集相同。由于Vector-LabPics 數據集中燒瓶、容器和罐子等存在多目標交叉標注、多種不同類型的目標標注為1 類等問題,為了滿足應用需求,在CTG 數據集新增10 個類別,使之更加接近實際實驗室場景。

3 算法介紹

3.1 SOLOv2

動態快速實例分割(SOLO)[9]通過完整實例標注的有監督學習,引入實例類別概念對目標按位置進行分割,擺脫對邊界框的精確檢測和像素的分組處理。SOLOv2 在SOLO 模型的基礎上引入掩膜學習和掩膜非最大抑制,大幅度提高了模型的推理速度?;跈z測框的兩階段模型分割效果依賴于候選檢測框的生成,這會影響模型的推理速度。相比兩階段模型,單階段模型SOLOv2 在推理過程中免去了感興趣區域的生成和目標框的回歸,并優化后處理算法降低計算量以滿足實時檢測的需要,直接將輸入圖像映射到所需的實例類別和掩膜,該方法在COCO 數據集上以18 幀·s-1的速度實現38.8% 的掩模分割精度。所以本工作以SOLOv2 算法為基礎,實現對化學類透明玻璃儀器的識別。

3.2 空洞空間金字塔池化

空洞空間金字塔池化在金字塔池化模塊引入空洞卷積,采取并聯式的空洞卷積彌補局部信息的丟失并獲取遠距離像素信息,捕捉多尺度上下文信息,即特征圖上每個像素取值不僅考慮前一個卷積層上對應位置的參數,同時鄰近像素的取值也會影響當前層該位置上的參數權重,提高復雜場景中重疊目標分割精度。通過具有不同感受野的多個并行空洞卷積層的計算,提取密集的特征映射并實現多尺度信息融合,有利于學習復雜場景中重疊目標之間的區別,網絡結構如圖2 所示。

圖2 空洞空間金字塔池化模塊Fig.2 Schematic diagram of Atrous Spatial Pyramid Pooling Modules

3.3 ASPP-SOLOv2 模型結構

基于上述單階段實例分割模型和空洞卷積的優點,本研究在SOLOv2 的骨干網絡結構中引入ASPP 分支,并以自下而上的路徑聚合方式進行合理的特征融合,提出ASPP-SOLOv2 模型來提高對密集重疊透明儀器的分割能力。該模型輸入圖像經過骨干網絡和特征金字塔(FPN)提取特征信息,同時在骨干網絡1/16 階段,通過ASPP 在分辨率較大且圖像邊界細節信息充足階段擴大感受野,提取多尺度信息。該信息與FPN 前4 層輸出結果進行特征融合,經過3×3 卷積、批歸一化和最大池化后輸出的5 個不同尺寸的特征圖,最終輸入掩膜預測分支和類別預測分支產生實例結果,并用非極大值抑制方法篩選結果。

其中,骨干網絡使用變體殘差網絡(Res2Net)加強細粒度特征的提取。通過引入ASPP 分支并將其結果上采樣4 倍后,與FPN 輸出的最底層特征圖進行維度疊加。借鑒路徑聚合網絡[21]的設計理念,為了更好地結合淺層特征和高層語義特征,將疊加后的特征圖經過1×1 卷積降維后,與更深層特征進行維度疊加和特征融合,如圖3 所示。這樣可以使模型更準確地表示透明儀器的多尺度復雜特征,有利于下一階段的預測輸出。掩膜預測分支取FPN 前4 層特征進行卷積,分為掩膜特征分支和卷積核學習分支,通過產生相同數量的特征圖和卷積核,將二者相乘得到實例掩膜預測結果。同時,對FPN 輸出中最高分辨率和最低分辨率特征圖分別進行2 倍雙線性插值下采樣和上采樣后,由實例類別預測分支產生實例類別。根據實例中心在網格的位置映射實例掩膜結果和實例類別之間對應的關系,最終輸出實例預測結果。

圖3 ASPP-SOLOv2 結構示意圖Fig.3 Schematic diagram of the framework of ASPP-SOLOv2

3.4 損失函數

模型損失函數L由分類損失Losscate和掩膜損失Lossmask構成,見式(1):

其中,分類損失Losscate為焦點損失函數[22],見式(2);掩膜損失Lossmask見式(3);超參數λ為掩膜損失權重,設置為3,與原始方法保持一致。

式中:Labels 為真實標簽;σ(p)為預測類別經過激活函數計算后的結果;超參數α和γ分別默認為0.25和2.0。

式中:I為布爾型變量,i= [k/S];j=kmodS;k為正樣本的全局序號;i為該樣本所處的通道號;j為該樣本在該通道的網格單元位置;S為網格單元數;Npos為正樣本數;p和q分別為預測掩膜和真實掩膜;如果pi,j> 0,則I為1,否則為0;[ ]表示取整運算,mod 為取余數運算。

LossDice(p,q)是用于評估2 個樣本相似性的度量函數,如式(4)所示:

式中:p(x,y)和q(x,y)分別為p和q中位于(x,y)處的像素值。

4 透明玻璃儀器的實例分割預測

4.1 評價指標

本研究采用基于交并比(IoU)的平均精確率(AP)和平均召回率(AR)評估模型性能。計算公式如式(5)~(7)所示。

式中:NTP為被正確檢測出來的正樣本數量;NFP為誤檢數量;NFN為漏檢數量;N為類別數;APav為多類別AP 均值。

依據COCO 數據集標準,定義像素區域小于322的目標為小目標,介于322~962的目標為中型目標,大于962的目標為大型目標。精確率AP 為召回率曲線與坐標軸所圍成的面積,面積越大模型性能越好。APav也是衡量模型性能優劣最重要的一個性能評估指標。本研究選取交并比IoU 閾值為0.50 和0.75 時得到的平均精度AP0.50和AP0.75,以及IoU 閾值介于0.50~0.95 時得到的平均精度APav衡量模型分割的效果,對分割精度依次表示為APS、APM、APL。平均召回率AR 表示對正樣本預測正確的數量與所有預測為正樣本數量的比值在所有類別的均值,可用于衡量模型的性能。

4.2 訓練策略

為了驗證方法有效性,論文訓練集包括1 393 張圖像,測試集為155 張。本工作硬件環境為NVIDIA- GeForce RTX 3060-12GB,AMD Ryzen 9 3950X 16-Core Processor 3.50 GHz,內存64.0 GB。軟件環境為Paddlepaddle。訓練批量設置為2;初始學習率為10-3,在第18 階段降至10-4,第33 階段降至10-5,第44 階段為10-6;空洞空間金字塔池化模塊的各層空洞設為[1,6,12,18]。在預處理階段,使用隨機分辨率縮放策略將輸入圖像縮放至640~800 像素。本研究使用COCO 數據集上ResNet50、ResNet101、Res2Net50 網絡權重作為預訓練參數。

4.3 實驗結果

基于本工作提出的數據集,同時訓練了不同規格的SOLOv2、BlendMask 和Mask R-CNN,最終均達到收斂,模型結果見表1。相比于Mask R-CNN 對化學實驗透明玻璃容器的先檢測再分割,SOLOv2 在目標物體局部區域的分割相對精細。采用Res2Net50 FPN 主干網絡的SOLOv2 比主干網絡為ResNet50 FPN 的SOLOv2 模型在APav和AP0.75更為優秀,平均精度達到67.3%,比后者高7.1%。其主要原因為Res2Net50 利用層次殘差連接方式替換通用的3×3 卷積核,可以在更細粒度級別上表達多尺度特征,經過特征融合提高網絡復雜度和性能。隨著網絡深度的增加,SOLOv2(ResNet101_FPN)的平均精度達到75.2%,比SOLOv2(Res2Net50_FPN)的平均精度高了7.9%。由于BlendMask 不僅融合了FPN 的高低層信息,還利用該結果與有效的邊界框預測結果產生感興趣區域,將具有不同注意力權重的特征信息進行疊加,生成實例預測區域,對小目標的分割精度更為有利。為了在邊界細節信息豐富且分辨率較大的圖像提取特征,在Res2Net50 的1/16 大小的特征圖上使用ASPP 模塊提取多尺度信息,通過自底向上的方式獲取底層的定位信號,增強整個特征層次結構,ASPP-SOLOv2 實例分割APav上可達76.0%,比SOLOv2(ResNet101_FPN)高出 0.8%,網絡的整體參數降低了 6.8 MB。用 ResNet101_FPN 作為ASPP-SOLOv2 的Backbone 后APav為75.8%,參數量為82.6 MB,其參數量比以Res2Net50_FPN 作為Backbone 的ASPP-SOLOv2 增加20.8 MB。雖然骨干網絡的深度可以影響圖像的基礎特征提取的效果,但是對這些特征的合理加工和利用是下一步定位和分割的關鍵。故ASPP-SOLOv2 在引入ASPP 模塊后,通過自下而上融合手段增強多尺度信息,在骨干網絡卷積層數較少的情況下,彌補對透明物體的特征提取能力不足。這表明在縱向卷積層數較少的情況下,原始方法對透明物體的檢測能力不足,但是通過側邊連接方式來增強特征是可行的,之后可以探索更好的方案。

表1 實例分割對比結果Table 1 Comparison of mask AP in instance segmentation with different net-structures

模型預測可視化結果如圖4 所示,SOLOv2(ResNet50_FPN)和SOLOv2(Res2Net50_FPN)不能精確分割錐形瓶和燒杯重疊區域,在實例像素的分配上存在誤差,然而主干網絡為ResNet101_FPN 的SOLOv2模型可實現精確分割且產生正確邊界框。得益于根據實例位置和大小為實例中每個像素分配類別的設計理念,ASPP-SOLOv2 在近距離檢測和分割玻璃儀器方面,明顯比Mask R-CNN 更具優勢,如圖5 所示。故ASPP-SOLOv2 比Mask R-CNN 的平均分割精度高5.5%,略高于BlendMask,總體上分割精度較高。

圖4 不同骨干網絡下SOLOv2 的分割結果Fig.4 Segmentation results of SOLOv2 under different backbone conditions

圖5 實例分割結果可視化結果對比Fig.5 Comparison of instance segmentation visual results

4.4 消融實驗

為研究ASPP 模塊及其位置對模型實例分割效果的影響,本研究進行了如下消融實驗:刪除ASPP 模塊,保留路徑聚合并將FPN 輸出的1/4 階段時的特征圖通道數由3×3 卷積調整為原來的2 倍;使用ASPP對骨干網絡中C1、C2、C3 和C4 特征進行計算(C1、C2、C3 和C4 分別表示相較于原圖像尺寸1/4、1/8、1/16 和1/32 的輸出階段,見圖3),比較ASPP 對不同階段的特征提取對ASPP-SOLOv2 的影響,結果見表2。

表2 ASPP 模塊應用于模型不同階段的效果對比Table 2 Effects of applying ASPP modules at different model stages

從表中可以看出,去掉ASPP 模塊后,模型平均分割精度為62.0%,相比ASPP-SOLOv2(76.0%)性能降低18.42%,是因為該方案仍然保留了后續的自下而上的側向連接和下采樣,對FPN 的輸出結果進一步融合,意圖向深層傳遞淺層位置信息,性能下降5.3%。結果表明,缺少ASPP 分支提取的特征,對FPN輸出的多尺度特征進行反復融合,反而會使模型的性能下降。實驗表明該模塊的加入可大幅度提高對透明玻璃儀器的分割精度。隨著ASPP 模塊加入位置的后移,模型AP0.5和AP0.75呈現余弦波動趨勢并于C3 階段達到頂點,其主要原因是圖像尺寸在卷積過程中不斷縮小,產生高級語義信息的同時丟失大量的淺層信息,兩類信息對實例分割精度的影響在C3 階段形成最佳組合,如圖6 所示。

圖6 不同階段下,ASPP 輸出結果的特征可視化Fig.6 Feature visualization of ASPP output under different stages

5 結 論

為實現復雜場景下透明玻璃儀器的實例分割,本研究提供了包含1 548 張化學實驗室內日常拍攝的透明玻璃儀器實例級別標注的數據集,利用空洞空間金字塔池化強化SOLOv2 模型對透明儀器多尺度特征的提取,改善密集重疊情況下的特征表示,提高目標分割精度。 提出的ASPP-SOLOv2 模型的APav達到76.0%,AP0.5為90.5%,AP0.75為83.2%,相比于SOLOv2(Res2Net50_FPN)分別高出8.7%、4.3% 和11.0%。由于對小目標檢測不佳,未來將考慮采用注意力機制解決遠景小目標分割不準確的問題。

猜你喜歡
掩膜實例類別
利用掩膜和單應矩陣提高LK光流追蹤效果
一種結合圖像分割掩膜邊緣優化的B-PointRend網絡方法
光纖激光掩膜微細電解復合加工裝置研發
多層陰影掩膜結構及其制造和使用方法
服務類別
論類別股東會
完形填空Ⅱ
完形填空Ⅰ
中醫類別全科醫師培養模式的探討
聚合酶鏈式反應快速鑒別5種常見肉類別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合