基于VGGNet-16的滿族服飾識別研究

2024-03-15 07:43金丹,鄒珍

紡織科技進展 2024年2期

金丹,鄒珍

(1.沈陽市輕工藝術學校服裝系,沈陽 110031;2.杭州鴻盛啟科技有限公司,杭州 311199)

滿族作為我國人口最多的五大少數民族之一,具有悠久的歷史與豐富的文化,而滿族服飾更是我國的文化遺產之一,以其獨特的款式與精巧的紋絡設計著稱,是游牧民族在我國發展歷程中最為重要的利益文化,并且深受國內外服飾研究人員的青睞,對中華服飾文化的研究有著舉足輕重的意義。伴隨著影視產業的不斷發展,越來越多的清宮劇與古裝劇將滿族旗袍應用其中,提高了觀眾對滿族旗袍服飾的認知興趣。但是大多影視劇制作者并沒有完全掌握滿族傳統服飾蘊含的深刻內涵,影響了觀眾對滿族服飾的認知結果,使得滿族旗袍服飾這一物質文化形態長期處于被曲解的狀態中。為解決這一困擾,有必要提高人們對滿族服飾紋絡的細節認知。

旗袍因地域、風俗習慣的差異形成了不同的樣式,包括海派式、棉式、傳統式和現代式,因制作工藝流程的發展而各具不同的歷史特點。戲劇行業一直沿用“寧穿破,不穿錯”的原則,旗裝戲中的滿族旗袍,因受戲劇服飾制度的限定而保持著長久不變的樣式,特征鮮明且恒定。雖然歷盡年歲更迭,但是始終沒有過多的變化,保持了滿族服飾的原始特征。

針對滿族服飾文化的發展現狀,為更好地將這一文化形態持續、永久地傳承下去,避免傳統文化的消亡,以青衣服飾特征為研究標準,結合虛擬技術,將滿族服飾同神經網絡技術相互結合,讓現代人充分地了解與感悟傳統滿族服飾的真正內涵;采用VGGNet-16模型對滿族服飾進行識別,增強高精確度與有效的紋絡提取與識別,促進人們對滿族服飾紋絡的了解與認知。

為高效識別滿族服飾的關鍵特征[1],向忠等[2]采用Canny邊緣檢測、HSV 顏色空間對印花織物輪廓及顏色特征進行提取,通過決策樹分類器識別,準確率達到65%;Zhang等[3]運用二值蒙版投影對著裝圖像進行粗糙形狀描述,以獲取服裝的顏色直方圖及HOG特征,最后通過決策樹分類服裝;夏帆等[4]根據服裝輪廓的幾何特征,將輪廓曲線的曲率極值點作為特征向量,結合支持向量機進行分類。上述研究方法依賴高質量的輸入圖像,特征提取過程需要人為設定?；诰矸e神經網絡的特征提取和分類識別則提供了新的研究方法,減少了人為干預,在精確程度及分類效率上有大幅度提升[5]。Dong等[6]在VGGNet中引入“空間金字塔”池化策略,提高了不同大小及比例的輸入圖像下服飾的識別精度,準確率達到98.7%;吳歡等[7]運用Caffe Net模型對服飾廓形分類,識別服裝整體及細節特征。但上述方法都只對單一屬性分類識別,不能較好地描述青衣服飾的整體特點,使得識別結果的精確度下降,且沒有對分類結果一致化處理,導致識別準確率降低、效率差等。

為解決上述問題,采用卷積神經網絡識別服飾。首先對圖像預處理,去除冗余點,提取訓練集;然后由VGGNet-16構建模型,提取特征值,實現特征識別;最后進行仿真試驗,確保算法的可行性。

1 滿族服飾特征

滿族作為一個游牧民族,長期與牛、羊、馬等動物相處,使得這些游牧動物成為了滿族人民賴以生存與發展的自然事物之一。因此,滿族人民的重要習俗是每年都要祭奠狗神、馬神等動物神靈。這種習俗在滿族服飾中則體現在紋絡中的動物圖案上,包括鹿、牛、金魚、蜜蜂、蝴蝶、龍、龜等。人們通過這些動物的生活習性與面部表情完成紋絡圖案的繪制與刻畫,進一步形成了具有極佳裝飾性的服飾紋絡。

游牧民族同樣對植物具有極大的依賴性,因此,傳統的滿族人民會將植物圖案裁剪成各種動物形狀,并將它們連綴在一起,得到薩滿服飾圖案。常見的服飾植物包括藤草、毛草、羊草。最初的服飾圖案是動植物的本身形狀,之后逐漸演變為其中的某一個部分,最后通過一個抽象圖案完成動植物的靈魂表達。如牛頭代表牛,鹿角代表鹿,翅膀代表鳥,樹皮代表樹,尤其是樺樹皮,其顏色潔白且層多,每層象征一片天,樺樹皮被視為最高的白云山,并且逐漸演化為一種對白色的崇尚。常見的動植物紋樣,如圖1所示。

圖1 動植物紋樣

除去動植物對滿族文化的深刻影響,滿族人民同樣使用諧音詞匯來代表滿族傳統紋樣,寓意吉祥平安。依據事物讀音而創造的服飾紋樣包括白鶴、白頭、葫蘆、葡萄、蓮子、蓮花、猴子、馬、鯉魚、蝙蝠、花生、喜鵲、蜘蛛等,每一種圖案都有其獨特的象征意義。比如白鶴——百年好合,隱喻長壽;白頭——白頭偕老,隱喻婚姻美滿幸福;葫蘆——福祿雙全,隱喻生活幸福富裕;蓮子——憐子,隱喻可愛有出息的子孫;猴子、馬的組合紋樣——馬上封侯,隱喻榮華富貴;鯉魚——鯉魚躍龍門,隱喻功成名就、一舉成名;蝙蝠——得來偏福,隱喻幸福常在;花生——花著生,隱喻兒女雙全、子祠興旺;喜鵲、梅花的組合紋樣——喜上眉梢,隱喻好事常伴;蜘蛛——諧音知足,隱喻知足常樂。常見的諧音詞匯紋樣如圖2所示。

圖2 諧音詞匯紋樣

2 滿族服飾的識別

2.1 圖像預處理

采集谷歌搜索的滿族服飾,進行二值化處理,得到滿族服飾及其近似矩陣信息,去冗余處理,得到沒有大量0元素或殘缺元素的矩陣。將壓縮后的矩陣信息進行數據集的構建,獲取初始訓練集Train,通過卷積神經網絡模型預處理訓練集Train,得到粗粒度預測集合Test,并編號標記。圖像像素去冗余的操作流程,如圖3所示。

圖3 去冗余流程

2.2 VGGNet-16模型的構建

針對滿族服飾中特征信息的復雜性與多樣性,采用VGGNet-16結構[8-9]來實現對服飾特征的識別,主要優勢[10]如下。

(1)使用大量的小型濾波器,包括3×3和1×1大小的濾波器,且步幅均為1,簡化了操作流程。

(2)最大池化層的濾波器均為2×2,步幅為2,能夠得到更高精確度的識別效果。

(3)將大型濾波器分解為幾個小型濾波器的疊加,然后再將疊加后的特征圖像池化,確保整體與局部的良好連接。

(4)卷積層的結構相同,均先卷積,后對每個特征圖最大池化,便于使用者的理解與使用。

(5)網絡結構簡單,深度較深,最佳的網絡深度卷積層數達到了16層或19層,雖然比之前的卷積神經網絡模型要深,但是能夠有效提高分類處理結果。

優化VGGNet-16 模型來設計特征識別,由文獻[11]、[12]得知,VGG16性能最優,其框架結構如圖4所示。

圖4 VGG16結構圖

由圖4可知,VGG16結構包括卷積層、Re Lu層、maxpool層、全連接層和soft max層,卷積核步長為1,padding為1,maxpool為2,步長為2。選用具有最少參數的3×3 卷積核且連續堆疊3 個,結構如圖5 所示。

圖5 網絡模型

為提高識別性能,保留原始紋理,凸顯識別特征,選用Max Pooling來完成特征的提取與更新。最大池化過程如圖6所示。

圖6 最大池化采樣流程

采用最大池化的優勢如下。

(1)降維,壓縮冗余,簡化網絡復雜度。

(2)非線性處理,支持全部細節處理。

(3)擴大感知野。

為消除局部與細節偏差,提高識別與分類精度,對主要特征進行描述,完成優化,實現特征提取。

2.3 特征提取

為快速識別特征,全連接層使用Dr opout隨機失活神經元來減少過擬合。具體結構如圖7所示。

圖7 特征提取結構

由圖7可知,第一層和第三層采用1×1卷積核連接神經層,第二層采用3×3 卷積核提取特征。由于Re Lu激活層易致冗余,因此由Max Pooling完成二次采樣,采用Soft Max回歸層輸出滿族服飾類別,提高算法準確率。

針對上述算法的優化,主要步驟如下。

第一步:假設θ=θk,求J(θ)在θk的倒數?J(θk);

第二步:改變θ且按照梯度下降的方向減少J(θ),計算公式有:

式中:α表示梯度負方向的搜索步長,將θk+1迭代賦值給θk,重復第一步與第二步,得到最優值θk+1,每層提取單一特征,回歸層能提取到全部特征,完成滿族服飾的識別。

2.4 服飾識別

網絡模型的參數,見表1。

表1 網絡模型參數

特征識別的主要步驟如下。

第一步:定義網絡的參數,包括圖像的高度、寬度,分類的類別等。

第二步:構建優化后的VGGNet-16框架,由Tensor Flow 框架創建卷積層與Maxpool層。在第二和第三卷積層中,采用3×3卷積核且每個卷積層使用Re-Lu激活函數。

第三步:展平處理矩陣,得到6×6×128的一維向量。

第四步:在Tensor Flow 中使用Dr opout函數,按比例隨機失活神經元,防止過擬合。優化使用的參數是0.2,即失活的比例為20%。

第五步:在全連接層使用Re Lu 激活函數,使用Soft Max將輸出轉化成概率分布。

然后,調整訓練模型,優化訓練參數,具體步驟如下。

第一步:定義訓練集的長度、大小與方向。

第二步:優化設計VGGNet-16模型,在同一層將某些神經元之間的連接權重共享,同時保存模型權重。

第三步:輸入訓練圖像圖片的寬、高、batch_size、訓練迭代次數等參數。將batch_size定義為32,迭代次數定義為10。

第四步:對每批圖像訓練的數目及其模式進行設計,采用的分類方式為Categorical。

第五步:分類器Yi和Wa對應1和0。將key和Value翻轉,旨在通過索引獲取相應服飾的類別。

第六步:定義驗證集的圖像生成器,將shuffle設置為False。

第七步:實例化識別網絡。

滿族服飾識別模型中采用Ada m 優化器來設置初始學習率為0.000 5,通過監控驗證集的損失率,保存訓練模型中識別效果最好的權重值,以完成訓練參數的優化。

最后,對滿族服飾圖像的數據進行采集并且完成識別處理,步驟如下。

第一步:輸入需要識別的圖片參數。

第二步:擴充圖片的維度,讀取其batch值。

第三步:實例化網絡結構。

通過以上步驟,完成了服飾的讀取和分類識別,返回概率最大值的類型,讀取民族分類與識別。

2.5 實際應用

在谷歌搜索引擎中搜索“滿族服飾”,通過粗粒度的搜索詞查詢,能夠得到滿族服飾及與之近似的服飾,得到的搜索結果如圖8所示。

圖8 搜索到的滿族服飾信息

為減少近似滿族服飾對滿族傳統服飾的影響,選擇以青衣為代表的滿族服飾,通過圖像預處理,將青衣滿族服飾細粒度提取出來,得到的預處理結果如圖9所示。

圖9 預處理后的滿族服飾

將上述滿族青衣服飾提取出來后,依據特征紋絡,對其花紋及細節進行提取,得到服飾的局部特征與細節內容;基于VGG16結構的滿族服飾識別算法,依據服飾的花紋細節,提取出滿族青衣服飾的主要特征信息,如圖10所示。

圖10 服飾特征

在完成服飾紋絡及細節的識別與提取后,針對不同的服飾環境,進一步擴展其紋絡的整體花紋,并將整幅圖片進行重新展示,以準確識別滿族青衣服飾,如圖11所示。

圖11 滿族青衣服飾

依據最終的識別效果,提高人們對滿族服飾文化內涵的了解與認知。

3 識別效果分析

3.1 試驗環境

處理器:Intel(R)Core i7-6700 CPU 3.40 GHz;

顯卡:NVIDIA GeForce GTX 1080;

顯存:16 GB;

內存:32 GB;

操作系統:Linux Ubuntu 14.04;

軟件平臺:Anaconda Pyt hon 3.6;

卷積神經網絡框架:Tensor Flow 1.0.0;

圖像處理庫:Open CV 3,PIL(Python Imaging Library)。

數據集采用谷歌搜索的滿族服飾,由于粗略的搜索條件,導致數據集中包括漢族、藏族、蒙古族、朝鮮族、滿族(假定為10 000幅)、羌族、佤族、白族、壯族、維族、苗族等共計12 000幅圖像。

3.2 評價方法

試驗在Tensor Flow 2.1.0[13]上實現,最大迭代次數為500,學習率為0.000 1,參數初始值服從均值為0的高斯分布。算法精準度(Precision)和召回率(Recall)在多分類模型中很難評價模型,而平均精度(Average Precision,AP)綜合精準度和召回率,平均精度值(Mean Average Precision,MAP)是AP 求均得到的,提高了對模型評價的準確度。

精準度的計算公式如下:

式中:NTP為被判定為正確的目標個數;NFP是被判定為錯誤的目標個數。

召回率一般指的是某類目標對應的識別率,其計算公式如下:

式中:NFN為漏檢的個數。

MAP的定義如下:

式中:QR是數據集R的總類數;q為數據集的類數。MAP值越大,分類效果越好。

3.3 識別效果

12 000幅圖片預處理得到11 000幅滿族及其相近服飾。為驗證算法的精確度,將算法同基于閾值分割的服飾識別算法[14]與基于改進Dense Net-BC 的少數民族服飾識別算法[15]進行對比。

以迭代次數為橫坐標,對算法的特征精確度進行測試,得到的測試結果如圖12所示。由圖12可知,隨著迭代次數的增加,算法精確度均隨之上升,并且上升趨勢優于其他2個算法,且最終穩定值高于其他算法,算法較于基于閾值分割的服飾識別算法,精確度提高6.35%,而較于基于改進的Dense Net-BC 的少數民族服飾識別算法,則提高7.18%。這是因為文獻[14]對卷積神經網絡與Alex Net網絡進行的優化,能獲取較好的識別精確度,但是沒有改進損失函數,隨著迭代次數的增加,損失程度會相應疊加;而文獻[15]采用改進的Dense Net-BC模型,但對注意力機制改進時沒有對細節特征進行識別。

圖12 精確度測試結果

對比MAP數值的結果,如圖13所示。由圖13可知,隨著迭代次數的增加,MAP 數值均隨之上升且趨于穩定,算法較于基于閾值分割的服飾識別算法提高了6.71%,而較于基于改進Dense Net-BC 民族服飾識別算法提高了6.50%。這是因為文獻[14]與[15]的算法均沒有對分類識別效果進行優化處理,所以算法優于其他2個算法。

圖13 MAP數值對比

綜上所述,算法的識別精確度高于其他算法,并且識別結果更優。

4 結束語

優化設計了VGGNet-16模型,在此基礎上完成對青衣特征的分類與識別。首先,采集谷歌搜索的滿族服飾,去除冗余零元素;其次,優化設計模型結構,全連接層使用Dropout隨機失活神經元來減少過擬合,對訓練模型進行卷積處理,優化參數;最后,對主要特征進行分類與識別。通過試驗驗證,優化后的VGGNet-16模型能夠高效率、高精確地識別滿族服飾,并且能夠推廣使用。