?

改進SSD的服裝圖像識別方法

2022-02-16 06:33楚雅璐顧梅花
紡織高?;A科學學報 2022年4期
關鍵詞:圖像識別卷積服裝

楚雅璐,顧梅花,劉 杰,崔 琳

(西安工程大學 電子信息學院,陜西 西安 710048)

0 引 言

服裝圖像識別是服裝圖像分析和處理的重要基礎步驟[1],為后續的服裝語義分析[2]、服裝姿態估計[3]等問題研究提供了技術保障。在計算機視覺和模式識別相關領域中,服裝圖像分析與識別技術是最近非?;钴S的研究課題,其在服裝圖像檢索[4]、搭配推薦[5]以及行人描述[6]等領域都有著重要應用。然而,復雜場景下因為人體坐姿、站姿以及運動狀態的變化,存在不同程度的服裝形變問題,在一定程度上增加了服裝圖像識別的難度。

在早期服裝圖像識別研究中,采用數字圖像處理和模式識別技術提取服裝特征。對于全局特征,常用的方法有傅里葉描述子[7]、幾何不變距[8]、灰度共生矩陣(GLCM)[9]等,此類方法容易受到環境的干擾。對于局部特征,常用的方法有尺度不變特征變換(SIFT)[10]、加速魯棒特征(SURF)[11]和方向梯度直方圖(HOG)[12]等,此類方法只適合于對圖像進行匹配、檢索,對圖像理解則不太適合。近年來,出現了大量基于深度學習的圖像識別方法,典型算法有R-CNN[13]、YOLO系列[14-15]、GoogleNet[16]、ResNet[17]、Fast R-CNN[18]、SSD[19]、Mask R-CNN[20]、Faster R-CNN[21]等,此類方法提取的圖像特征魯棒性更強,泛化能力更好。研究者也已將深度學習方法應用于服裝圖像識別任務中,典型算法有:Fashion Net[22]、Match R-CNN[23]等,此類方法可以分階段完成服裝圖像分割、識別、檢索等任務,但對服裝圖像識別沒有針對性,服裝易變形,識別準確率偏低,并沒有針對形變服裝圖像識別給出解決方案。

SSD算法因其通過提取不同尺度的特征圖進行目標識別,采用不同尺度的先驗框提升算法對不同尺度目標的識別能力而得到廣泛應用。因此本文將SSD算法應用于服裝圖像識別任務中,通過大量實驗發現算法對形變服裝的識別準確率偏低,在復雜場景下,服裝著裝在人體上容易發生形變,會出現漏檢或識別錯誤的現象。針對上述問題,本文提出了一種基于改進SSD的服裝圖像識別方法,首先采用空間變換網絡進行數據增強,接著采用可變形卷積提取更豐富的服裝特征信息,最后通過幾何信息融合網絡進行特征融合,旨在提升算法對形變服裝的識別精度。

1 方法概述

改進SSD的服裝圖像識別方法網絡結構如圖1所示。

圖1 改進SSD的服裝圖像識別方法網絡結構圖

首先輸入服裝圖像,經過卷積神經網絡對其進行特征提取,采用空間變換網絡對服裝圖像特征進行數據增強,通過對Conv3_x特征層進行仿射變換,得到適合于形變服裝的特征圖,以增強其空間不變性,減少數據變形的偏差;然后采用可變形卷積來改進Conv4_x特征層的標準卷積,采用偏移方法使特征抽取過程聚焦于有效信息區域,對偏移修正后的區域分配不同權重,實現更加準確的特征提??;最后通過幾何信息融合網絡,將Conv3_x和Conv4_x兩個特征層進行特征融合,獲得更多的幾何細粒度特征信息,采用更多的淺層幾何特征信息進行預測,提高網絡對服裝圖像幾何信息的表達能力,從而提升模型對形變服裝圖像的識別準確度。

2 優化方法

2.1 基于空間變換網絡的數據增強優化

為了改善SSD對服裝圖像特征區分能力不強而造成其對形變服裝識別不敏感的問題,采用空間變換網絡[24]對服裝圖像特征進行數據增強,提高其數據質量,通過仿射變換增強其空間不變性,減少數據變形的偏差。并對SSD的Conv3_x,Conv4_x,Conv5_x網絡層采用空間變換網絡進行實驗,結果表明,將空間變換網絡設計在Conv3_x處網絡識別精度最高。

空間變換網絡結構如圖2所示,將服裝特征圖U輸入到空間變換網絡,首先由定位網絡采用3×3的卷積操作提取特征,進而通過隱藏層預測出2×3維的仿射變換參數θ,學習仿射變換矩陣Aθ;隨后由網格生成器利用規則的空間網格G和Aθ創建與輸出圖像中的每個像素相對應的采樣網格Tθ(G),根據θ得到變換前后像素點坐標的對應關系,如式(1):

圖2 空間變換網絡結構

(1)

(2)

2.2 基于可變形卷積的特征提取優化

為了改善傳統卷積核對形變服裝圖像描述不足的問題,在Conv4_x特征層對空間變換網絡增強后的服裝圖像特征采用可變形卷積替換傳統卷積核的方式進行優化??勺冃尉矸e[25]在傳統卷積的基礎上增加了調整卷積核的方向向量,使卷積核的形態更貼近特征物,可根據識別目標的復雜空間結構而改變,提高輸出特征對目標旋轉變換的敏感性。

可變形卷積操作過程如圖3所示,首先利用3×3的傳統卷積核提取輸入圖像的特征圖,作為可變形卷積操作的輸入,對特征圖再施加一個3×3的卷積層,獲得與輸入特征圖相同尺寸的偏差尺寸,生成通道維度為2N的原始輸出特征和偏移特征,做加權和得到可變形卷積的變形偏移量,用帶偏移的采樣來代替原來的固定位置采樣,然后通過將每個像素的相鄰相似結構信息壓縮到固定網格中,生成可變形特征圖像。卷積操作后提取的服裝圖像特征信息能夠更好的表征形變服裝,對于形變服裝圖像的幾何形體有更好的適應性。

圖3 可變形卷積操作過程

2.3 基于幾何信息融合的特征融合優化

為了能夠融合更多形變服裝的特征信息,在SSD模型的基礎上增加了幾何信息融合[26]模塊,通過將優化后的Conv4_x深層次的語義信息與Conv3_x淺層次的語義信息相結合,使更多的淺層幾何特征信息用于預測,提高網絡對服裝圖像幾何信息的表達能力。

幾何信息融合模塊如圖4所示。該模塊在Conv3_x特征層后采用2×2的卷積核進行下采樣,使下采樣后的特征層與Conv4_x特征層為相同尺寸512×512,然后分別對每個特征層連接3×3的卷積核與歸一化層,最后分別對兩個特征層進行融合,作為SSD網絡中的一個預測通道,并與其他輸出特征進行多尺度預測輸出。

圖4 幾何信息融合模塊

3 實驗結果與分析

實驗平臺采用PyTorch深度學習框架,操作系統為Ubuntu16.04,CPU為Inter Core i5-9400F,GPU為RTX2070 s。本文實驗提取DeepFashion2中的形變服裝制作成子數據集,其中訓練集圖片30 000張,測試集圖片1 000張。模型訓練迭代100次,前50次迭代batch_size為8,后50次迭代batch_size為4。

為更好地評估本文算法的性能,選擇精確率、召回率、準確率以及平均精度均值作為評價指標,用來評價模型的識別精度。精確率(Precision記為P)表示算法對服裝圖像正確識別結果占所有識別結果的比例,定義為式(3);召回率(Recall記為R)表示所有被正確識別的服裝圖像與真實服裝圖像標注的比值,定義為式(4);準確率(Accuracy記為A),是指服裝圖像識別結果正確的比例,定義為式(5);平均精度均值(Mean Average Precision,mAP)表示該模型對服裝數據集中所有類別圖像的識別準確度。將模型對所有樣本的預測和值依據置信度大小排序,并逐個繪制Precision-Recall曲線(即P-R曲線),平均精確度(Average Precision,AP)就是某一類別P-R曲線下的面積,在計算過程中對所有類別的AP取平均得到mAP,定義為式(6)。

(3)

(4)

(5)

(6)

式中:TP為正樣本識別為正;TN為負樣本識別為負;FN為正樣本識別為負;FP為負樣本識別為正;k為當前類別的序號,且k∈(1,2,…,N);N為總類別數;APk是第k個類別的AP值。

3.1 消融實驗

采用DeepFashion2數據集中的形變服裝子數據集對SSD算法及其不同改進方法進行測試。消融實驗結果如表1所示,其中S-SSD表示SSD網絡進行空間變換優化后的模型;D-SSD表示SSD網絡采用可變形卷積優化后的模型;SD-SSD表示對SSD網絡采用空間變換網絡以及可變形卷積優化的模型;本文方法表示對SD-SSD網絡進行淺層特征幾何信息融合后的模型,通過mAP值評價模型的識別精度。從表1可看出,各種改進方法都能顯著提升模型的識別精度,本文方法取得了最高的mAP值,比SSD原模型提高了3.63%。

表 1 消融實驗結果

采用熱力圖分析法[27]驗證不同改進方法的有效性。不同改進方法可視化生成的熱力圖如圖5所示,可以看出,由于坐姿狀態導致連衣裙發生形變,圖5(b)SSD網絡熱力圖中的鮮亮區域主要集中在形變連衣裙上半身;圖5(c)D-SSD網絡熱力圖中的鮮亮區域主要集中在連衣裙上半身以及少部分下半身;圖5(d)S-SSD網絡熱力圖中的鮮亮區域主要集中在連衣裙的下半身并且上半身有少部分鮮亮;圖5(e)SD-SSD網絡熱力圖中的鮮亮區域主要集中在連衣裙的大部分,但是鮮亮的部分較為分散;圖5(f)本文方法熱力圖中的鮮亮區域覆蓋了連衣裙,并且比較集中。采用不同改進方法都可以不同程度地增強模型對形變服裝的幾何特征提取能力,而將三種改進方法綜合而成的本文方法可以更好地表征形變服裝圖像,減少服裝形變的影響。

(a)原圖 (b)SSD (c)D-SSD

3.2 定性評估

為評估本文方法對形變服裝圖像識別的有效性,在形變服裝子數據集上進行定性分析。將本文方法與SSD算法對不同程度形變服裝圖像的識別效果進行比較,結果如圖6所示。

(a)樣例1 (b)樣例2 (c)樣例3

可以看出,圖6(a)中由于坐姿,外套發生形變,SSD算法將其錯誤地識別為短袖上衣;圖6(b)中由于躺姿,連衣裙發生部分形變,SSD算法將連衣裙上半身錯誤地識別為背心;圖6(c)中由于坐姿,短裙平鋪發生嚴重形變,SSD算法沒有識別到短裙。結果表明,本文方法對不同形變程度的服裝都能準確識別。

本文方法與SSD算法對形變服裝識別置信度比較如圖7所示。

(a)樣例4 (b)樣例5 (c)樣例6

可以看出,圖7(a)中的連衣裙由于坐姿發生形變,SSD算法對連衣裙的識別結果置信度為0.87,本文方法識別結果置信度為0.98,置信度提升了0.11;圖7(b)中的短裙由于坐姿發生形變,SSD算法對短裙識別結果的置信度為0.74,本文方法識別結果置信度為0.95,提升了0.21;圖7(c)中的連衣裙由于坐姿發生嚴重形變,SSD算法對連衣裙的識別結果置信度為0.77,本文方法識別結果置信度為0.91,提升了0.14。結果表明,與原SSD算法相比,本文方法對不同程度形變服裝圖像的識別均能取得更高的置信度,對形變服裝的識別更具有魯棒性。

3.3 定量評估

為進一步評估本文所提改進方法的性能,利用DeepFashion2數據集中豐富的標注樣本,在形變服裝子數據集上,對SSD原模型與各種改進方法進行定量分析,其識別精度比較如表2所示。結果表明,各種改進方法對各種不同形變服裝的識別精度都有明顯提升,其中通過空間變換網絡優化后的S-SSD網絡比SSD算法的mAP提升了1.34%;通過采用可變形卷積優化后的D-SSD網絡比SSD算法的mAP提升了1.9%;通過采用空間變換網絡以及可變形卷積優化后的SD-SSD網絡比SSD算法的mAP提升了2.75%。與SSD算法相比,本文方法對形變服裝的識別精度提升最顯著,其平均mAP值提升了3.63%,對形變短袖上衣的識別精度mAP提升高達7.88%。

表 2 SSD原模型與各種改進方法對形變服裝識別精度比較

將本文方法與其他模型(YOLOv4[15]、GoogleNet[16]、ResNet-50[17]、Fast-RCNN[18]、SSD[19])對形變服裝的識別精度進行比較,結果如表3所示??梢钥闯?,相比于其他模型,本文方法對不同種類形變服裝圖像的識別精度最高,其平均mAP提升最高可達16.51%。

表 3 本文方法與其他模型對形變服裝的識別精度比較

4 結 語

本文提出一種改進SSD的服裝圖像識別方法,以改善形變對服裝圖像識別的影響。采用空間變換網絡對服裝圖像特征進行數據增強,使網絡具有空間不變性;采用可變形卷積提取更豐富的服裝特征信息,提高網絡對于形變服裝的適應性;通過幾何信息融合網絡獲得更多的幾何細粒度特征信息,提高網絡對幾何信息的表達能力。實驗結果表明,本文所提方法能顯著提升對形變服裝圖像識別的準確度。

猜你喜歡
圖像識別卷積服裝
讓人心碎的服裝
基于3D-Winograd的快速卷積算法設計及FPGA實現
卷積神經網絡的分析與設計
基于Resnet-50的貓狗圖像識別
高速公路圖像識別技術應用探討
從濾波器理解卷積
圖像識別在物聯網上的應用
圖像識別在水質檢測中的應用
基于傅里葉域卷積表示的目標跟蹤算法
現在可以入手的mina風高性價比服裝
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合