?

融合PVT多級特征的口罩人臉識別研究

2024-03-28 13:31冉瑞生高天宇房斌
關鍵詞:特征融合

冉瑞生 高天宇 房斌

摘要:呼吸系統疾病的流行使口罩扮演著重要角色,這給人臉識別算法帶來了新的挑戰。受到多尺度特征融合模型的啟發,提出一種基于金字塔視覺Transformer (Pyramid Vision Transformer, PVT)的提取口罩人臉特征的模型。該模型引入自注意力機制來提取豐富的人臉信息,通過融合PVT多個層級的特征向量,來實現對口罩人臉的多尺度關注,相較于傳統特征融合模型,具有更高的識別精度和更少的參數量。此外,模型采用Sub-center ArcFace損失函數來提升魯棒性。模型在大規模模擬口罩人臉數據集上進行訓練,并分別在普通人臉、模擬口罩人臉和真實口罩人臉數據集上進行了測試和評估。實驗結果表明,所提出的方法與其他主流方法相比,具有較高的識別精度,是一種有效的口罩人臉識別方法。

關鍵詞:口罩人臉識別;Transformer;自注意力機制;特征融合

中圖分類號:TP391.41文獻標志碼:A文獻標識碼

Research on masked face recognition by fusing multi-level features of PVT

RAN? Ruisheng1,GAO? Tianyu1,FANG? Bin2

(1 College of Computer and Information Science, Chongqing Normal University,Chongqing 401331, China;

2 College of Computer Science, Chongqing University,Chongqing 400044, China)

Abstract:? The prevalence of respiratory diseases has made masks play an important role, which has brought new challenges to face recognition algorithms. Inspired by the multi-scale feature fusion model, a Pyramid Vision Transformer (PVT) based face mask feature extraction model is proposed. The model introduces self-attention mechanism to extract rich face information, and realizes multi-scale attention to mask faces by fusing multi-level feature vectors of PVT. Compared with traditional feature fusion model, the model has higher recognition accuracy and fewer parameters. In addition, the model adopts Sub-center ArcFace loss function to improve robustness. The model was trained on a large scale simulated mask face dataset, and tested and evaluated on ordinary face, simulated mask face and real mask face dataset respectively. The experimental results show that the proposed method has higher recognition accuracy than other mainstream methods, and is an effective mask face recognition method.

Key words: masked face recognition;Transformer;self-attention;feature fusion

近年來,隨著人工智能技術的不斷發展,人臉識別技術已經被廣泛應用于各個領域。然而,在當前全球呼吸系統疾病流行的背景下,佩戴口罩已成為一種必要的防護措施[1]??谡謱θ四樀恼趽踅o人臉識別技術帶來了新的挑戰,成為降低準確率的主要原因之一。因此探索一種提取人臉魯棒性特征的方法具有重要意義。當前,已經有部分口罩人臉識別算法被提出,例如,Mandal等[2]利用Resnet-50模型,對未佩戴口罩人臉數據進行訓練后再遷移到口罩人臉數據,旨在通過對未佩戴口罩的人臉數據進行訓練,實現對口罩人臉的識別。姜紹忠等[3]提出一種CNN與Transformer相結合的混合模型,在人工合成的口罩人臉數據集上進行訓練,所訓練的模型能同時處理戴口罩和不戴口罩的人臉識別任務,但該方法缺乏對真實口罩人臉的驗證。Li等[4]提出一種基于裁剪和注意力機制的口罩人臉識別方法,該方法通過對人臉圖像進行裁剪,以此來移除受損區域或降低遮罩區域的權重,并結合注意力機制來關注眼睛周圍區域。這種方法能夠更加有效地捕捉人臉的局部特征信息,從而提高模型的識別準確率。然而,該方法會降低無口罩人臉識別的準確率。Qian等[5]提出了一種方法,將ArcFace損失函數和pairwise loss結合起來,以增強遮擋人臉識別任務的性能。該方法旨在提高同一類別內樣本的相似度,同時增加不同類別之間的差異性,從而提高遮擋人臉識別的準確性。

這些方法雖然能實現口罩人臉識別,但還是存在一些問題。首先,現有的大部分方式通過單一尺度特征進行預測,這樣可能會忽略一些其他尺度的特征,例如,對于人臉而言,同時考慮眼睛大小和整個人臉輪廓的多尺度特征對于全面捕捉人臉特征至關重要。其次,當前的主流特征融合方法主要集中在特征圖的整合上,這可能會增加計算負擔。

針對以上問題,本文提出一種融合PVT各尺度特征的口罩人臉表征方法,該方法可同時用于佩戴口罩和不佩戴口罩的人臉識別場景。主干網絡使用基于MSA (Multi-head Self-Attention)改進的PVT (Pyramid Vision Transformer)提取人臉的多尺度特征。在每個尺度階段都使用1個cls (class token)向量來存儲該尺度的人臉特征,并通過融合各尺度的cls以使得提取的特征更加豐富。最后,使用Sub-center ArcFace損失函數來進一步提高模型的魯棒性。該方法使用多個數據集進行驗證,涵蓋了多種人臉場景。實驗結果表明,本文方法能有效提高口罩人臉識別的準確率,同時特征融合的計算量也相對較低。

1 資料與方法

本文提出了融合PVT多級特征的口罩人臉識別模型,命名為PVTFace。

設輸入圖像為三通道(RGB)彩色圖像,圖像尺寸為112×112。PVTFace模型首先將圖像分割為196個不重疊的圖像塊,每個圖像塊會被轉換為向量形式,得到Patch Embedding,然后拼接cls向量并添加位置信息,cls用以存儲圖像特征,方便后續階段的計算。隨后將Patch Embedding輸入到多個堆疊的Transformer Encoder中進行計算得到相應的特征圖,Transformer Encoder中的注意力機制使用MSA[6]。特征圖再輸入到下一個Stage進行采樣。完成各Stage采樣后,再將各Stage的cls進行融合。最終,將融合后的圖像特征送入Sub-center ArcFace損失函數進行計算。

PVTFace網絡結構如圖1所示,接下來將對所改進的模塊進行詳細闡述。

1.1 注意力機制

Spatial-Reduction Attention (SRA)[7]是PVT中提出的一種注意力機制,相較于MSA,SRA通過對鍵矩陣K和值矩陣V進行空間上的下采樣,以達到降低計算復雜度的目的,SRA與MSA的結構對比如圖2所示。

然而,在口罩人臉識別的場景下,使用SRA對人臉圖像進行下采樣可能會導致忽略一些重要的特征。因為口罩遮蓋了部分面部特征,如嘴巴、鼻子,所以降低空間分辨率可能會造成信息的丟失。在這種情況下,使用SRA可能會降低對于口罩人臉的識別準確性。

Self-Attention可以在輸入序列中建立長依賴關系,且能對輸入序列中的所有位置進行關注,從而能夠捕捉全局的語義信息。在人臉識別任務中,由于人臉圖像中的各個部分之間存在較強的相關性。

Self-Attention可以有效地將這些關系建模,提高人臉識別的準確率。并且Self-Attention對于輸入序列的變化(例如旋轉、縮放、遮擋等)具有很強的適應性,因此可以提高模型的魯棒性。其公式表述為:

Attention(Q,K,V)=softmaxQKTdkV。(1)

其中, Q, K, V分別為查詢、鍵、值,它們由神經網絡訓練得到。

傳統的Transformer使用基于Self-Attention機制的MSA。MSA是Self-Attention的擴展形式,它通過使用多個注意力頭來提供多個視角的關注能力。每個注意力頭可以專注于不同的特征子空間或關系,從而捕捉到輸入序列的不同方面和語義信息。通過融合多個頭的結果,MSA能夠提供更全面和豐富的表示,進而增強模型對輸入序列的建模能力。因此,本文使用MSA作為注意力模塊,以便更好地捕捉序列的多樣性特征和語義信息。

1.2 特征融合

以往的基于深度學習的人臉識別模型都過于注重深層次特征,即只使用網絡的最后一層特征作為身份特征,這樣可能會忽略淺層次的人臉特征[8]。在此基礎上,本文提出一種基于PVT的人臉識別架構,通過融合各層次的特征來提取人臉的魯棒性特征。

在每個Stage中,輸入數據首先計算得到Patch Embedding,隨后通過concat方式拼接1個cls向量用于存儲該Stage的特征信息,再輸入到多個堆疊的Transformer Encoder中進行計算,4個階段的cls維度分別為1×64,1×128,1×320,1×512。再將各Stage中的cls維度全部映射為1×512,這樣做的目的是為了保證各個Stage的特征信息可以得到充分的利用,并且各個特征具有相同的維度,便于后續的特征融合和計算,過程如圖1所示。將各Stage的cls進行concat拼接得到維度為4×512的cls token,具體的特征融合過程可以表示為:

cls1:dim1×64→dim1×512,

cls2:dim1×128→dim1×512,

cls3:dim1×256→dim1×512,

cls4:dim1×512。

cls token=cls1+cls2+cls3+cls4,

cls token:dim4×512→dim1×512。(2)

式中,dim表示cls的維度,→表示維度映射變化。隨后將拼接得到的cls token的維度由4×512映射為1×512,這樣就使得PVTFace計算出的圖像表征與原始PVT計算出的圖像表征具有相同特征維度,卻又包含了更加豐富的表征信息。

1.3 Sub-center ArcFace損失函數

目前主流的深度人臉識別方法,如CosFace[9]、ArcFace[10]在無約束的人臉識別中取得了顯著的成功。然而這些方法通常只為每個類別設置一個中心,這種設計在受到噪聲和變化的影響時可能會導致較差的魯棒性。Sub-center ArcFace[11]為每個類別引入了K個子中心,訓練樣本只需要接近K個正向子中心中的任何一個。這樣的設計可以更好地處理真實世界中的噪聲和變化,提高模型的穩健性。

Sub-center ArcFace具體實現方式是,為每個身份設置1個K,并根據嵌入特征xi∈R512×1和所有子中心W∈RN×K×512進行歸一化處理,通過矩陣相乘計算得到子類的相似得分S∈RN×K,然后對子類相似度得分進行最大池化以得到類的相似度評分S′∈RN×1。Sub-center ArcFace損失函數可以表述為:

ArcFacesubcenter=-logescos(θi,yi+m)escos(θi,yi+m)+∑Nj=1,j≠yiescosθi,j。(3)

其中,θi,j=arccosmaxkWTjkxi,k∈{1,…,K}。

2 結果與分析

本文實驗在Linux環境下進行,使用的GPU為單個NVIDIA A100 PCIe,批量大小為128,總epoch為20,優化器為AdamW,初始學習率為3×10-4。本節將介紹本文所使用的數據集及相關處理,并通過分析實驗結果來驗證本文所提方法的有效性。

2.1 數據集

MS-Celeb-1M[12]是微軟公司于2016年發布的一個大規模人臉數據集,其中包含400萬張照片和79 057個人物的標簽信息。本文首先對MS-Celeb-1M數據集進行清洗,再使用開源工具MaskTheFace[13]來對該數據集中的人臉生成虛擬口罩,得到MS-Celeb-1M_masked,并以此作為訓練集。

本文使用了多個測試集,分別為LFW[14],LFW_masked,SLLFW[15],SLLFW_masked,CPLFW[16]和RMFD (Real-World Masked Face Dataset )[17]。其中LFW是由美國馬薩諸塞州立大學阿默斯特分校計算機視覺實驗室整理完成的數據庫,包含13 233張照片和5 749個人物的標簽信息;LFW_masked是使用MaskTheFace對LFW人臉進行掩碼處理后生成的口罩測試集。SLLFW數據集是基于LFW實現,它構建了一組相似但非同一人的人臉對,該數據集旨在考察算法對于相似人臉的區分能力,提供更接近真實場景中的人臉驗證情況。SLLFW_masked是MaskTheFace對SLLFW人臉進行掩碼處理得到的口罩數據集。CPLFW數據集是在LFW基礎上進行擴充,包含了多個姿態的人臉圖像,如正臉、側臉等,目的是提供更具挑戰性的人臉驗證場景。RMFD是武漢大學國家多媒體軟件技術研究中心開放的真實口罩人臉數據集,涵蓋了525人的5 000張口罩人臉圖像。部分數據集圖像如圖3所示,這些數據集包括正常人臉、模擬口罩人臉和真實口罩人臉數據,同時考慮了人臉姿態等多種場景,可更全面地評估模型的識別性能。

2.2 實驗與分析

2.2.1 實驗與分析

本文通過與Resnet-50[18],Resnet-50f,GhostNet[19],MobileFaceNet[20],ViT[21]以及PVT等模型進行對比,其中,ViT和PVT是基于Transformer實現的模型。Resnet-50f是基于Resnet-50實現特征融合模型,用于與基于PVT特征融合的PVTFace進行比較。以上與PVTFace對比的方法全部使用CosFace作為損失函數。評估結果如表1所示,PVTFace在各測試集上的識別準確率均明顯高于其他模型。這表明PVTFace在僅能提取少量特征的情況下進行訓練就能兼顧戴口罩、不戴口罩、多姿態以及相似人臉區分等復雜情況。

值得注意的是,ViT雖然在處理自然圖像等領域表現優異,但其只關注深層次特征,在處理面部遮擋等復雜場景下存在局限性,因為其缺乏空間信息的連續性和不變性,難以充分捕捉面部的細節特征。而金字塔模型(PVTFace和Resnet-50f)可以使用不同的感受野來捕捉不同尺度的信息,包括全局尺度和局部尺度。在全局尺度上,模型可以識別人臉的大體特征,如整體輪廓和人臉區域的大小和形狀。在局部尺度上,模型可以更加精細地識別人臉的細節特征,如眼睛、額頭等部位。

為了更進一步評估模型的整體性能水平,本文以LFW數據集測試結果為基礎繪制了上述各方法的ROC曲線進行對比分析。如圖4所示,縱軸代表真陽性率(TPR),橫軸代表假陽性率(FPR)。以ROC曲線下方的面積(AUC)來評價方法的優劣,由此可見,PVTFace的識別效果遠高于其他方法。

圖5為本次實驗7種模型在測試集LFW的準確率折線圖,其中,基于特征融合實現的方法(如PVTFace, Resnet-50f)的識別準確率明顯高于其他方法。PVTFace迭代四輪以后就能達到最佳效果。

表2展示了PVT使用不同特征融合方式識別準確率,各模型除了特征融合方式以外其他條件均一致。其中,cls_add表示使用add相加的方式將各Stage的cls向量相加;AFF表示使用基于注意力實現特征融合的AFF (Attentional Feature Fusion)[22],將不同尺度的特征圖進行融合;FPT表示使用FPT? ?(Feature Pyramid Transformer)[23]所提出的特征增強方式對各尺度的特征圖進行融合與增強;cls_concat是本文所使用的特征融合方式,將各Stage的cls向量通過concat方式拼接。實驗結果表明,cls_add方式在LFW_masked數據集的識別率略高于本文方法,但在其他數據集上的驗證并不如本文方法。AFF方式在RMFD數據集的驗證中取得了最佳結果,但由于其使用特征圖融合的方式,參數量是本文方法的2倍多,提升效果卻并不高。FPT方式也會產生較多模型參數,且效果不佳。

針對Sub-center ArcFace損失函數中子中心數量(K)對提取口罩人臉特征的影響,本文分別對K取值1、3、5在口罩人臉數據集上進行實驗,結果如表3所示。觀察發現,當K取值3時,在3個數據集中均取得了最優效果。這表明針對口罩人臉數據集,適當放寬數據的類內約束可以提高模型的魯棒性。

2.2.2 Grad-CAM可視化

為了更加直觀的分析實驗結果,本文使用Grad-CAM[24]生成類熱力圖,以此來可視化Resnet-50,ViT,PVT,Resnet-50f和PVTFace的注意力分布。如圖6,圖中顏色越深代表此處模型權重越高,即模型更加關注該區域。PVTFace各層關注點為面部輪廓、額頭以及眼睛區域,將各層特征進行融合以后基本可以得到除口罩以外的所有面部區域。Resnet-50f各層關注重點集中在額頭區域,而忽略了眼睛部位和面部輪廓的信息。其他模型都只關注了局部面部信息,這也是這些方法準確率低的重要原因。

2.2.3 模型參數量與計算量分析

表4展示了Resnet-50,ViT,PVT,Resnet-50f和PVTFace的參數量(Params)和計算量(MACs)。其中,Resnet-50f具有較多的參數量,這是因為在進行特征融合時它融合了整個特征圖,而PVTFace僅融合了cls向量,從而大大減少了模型的參數量。

另外,ViT是基于自注意力機制的柱狀結構,因此導致其計算量較大。相比之下,PVTFace相對于PVT僅增加了少量的模型參數和計算量,卻取得了顯著的識別效果,這表明所增加的參數量和計算量是值得的。此外,PVTFace的參數量和計算量都小于Resnet-50模型,突顯了所提出模型的優越性。

2.3 消融實驗

本節通過在各測試集上進行消融實驗來驗證該方法的有效性,實驗結果如表5所示。表5的第一列為模型名稱,其中“+”表示在上一個模型基礎上進行的改進?!?MSA”表示將基準模型(PVT)的注意力機制由SRA改為基于自注意力機制的MSA;“+Sub-center”表示在上一個模型的基礎上,將損失函數替換為Sub-center ArcFace;“+Feature Fusion”表示在上一個模型的基礎上,將各層特征進行融合。通過這些消融實驗,證實了每個改進對模型性能的影響,并展示了提出方法的有效性。

根據實驗結果,可以發現在使用MSA和Sub-center ArcFace損失函數后,模型的識別準確率有了顯著提升。而在進行特征融合后,模型的識別率進一步提高。這表明所引入的MSA、Sub-center ArcFace損失函數以及特征融合操作對提升模型性能起到了積極的作用。

3 結論

針對口罩人臉識別問題,本文提出融合PVT多級特征的模型。將PVT的SRA替換為基于自注意力機制的MSA以提取更豐富的人臉特征,并通過特征融合使模型集中關注未被口罩遮擋的人臉區域。為了減少模型的參數量和運算量,本文提出了一種融合各Stage的cls向量的特征融合方法。最后,本文采用Sub-center ArcFace作為損失

[7] WANG W H, XIE E Z, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]∥2021 IEEE/CVF International Conference on Computer Vision(ICCV), 2021: 568-578.

[8] ZHANG J W, YAN X D, CHENG Z L, et al. A face recognition algorithm based on feature fusion[J]. Concurrency and Computation: Practice and Experience, 2022, 34(14): e5748.

[9] WANG H, WANG Y T, ZHOU Z, et al. Cosface: Large margin cosine loss for deep face recognition[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 5265-5274.

[10] DENG J K, GUO J, YANG J, et al. Arcface: Additive angular margin loss for deep face recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 4690-4699.

[11] DENG J K, GUO J, LIU T L, et al. Sub-center arcface: Boosting face recognition by large-scale noisy web faces[C]∥European Conference on Computer Vision,2020: 741-757.

[12] GUO Y D, ZHANG L, HU Y X, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition[C]∥European Conference on Computer Vision, 2016: 87-102.

[13] ANWAR A, RAYCHOWDHURY A. Masked face recognition for secure authentication[J].arXiv: 2008.11104, 2020.

[14] HUANG G B, MATTAR M, BERG T L, et al. Labeled faces in the wild: A database forstudying face recognition in unconstrained environments[C]∥Workshop on Faces in ′Real-Life′ Images: Detection, Alignment, and Recognition, 2008.

[15] DENG W H, HU J N, ZHANG N H, et al. Fine-grained face verification: FGLFW database, baselines, and human-DCMN partnership[J]. Pattern Recognition, 2017, 66: 63-73.

[16] ZHENG T, DENG W. Cross-pose lfw: A database for studying cross-pose face recognition in unconstrained environments[R]. Beijing University of Posts and Telecommunications, Tech. Rep, 2018, 5(7).

[17] WANG Z Y, WANG G C, HUANG B J,? et al. Masked face recognition dataset and application[J].arXiv: 2003.09093, 2020.

[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 770-778.

[19] HAN K, WANG Y H, TIAN Q, et al. Ghostnet: More features from cheap operations[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2020: 1577-1586.

[20] CHEN S, LIU Y, GAO X, et al. MobileFaceNets: Efficient CNNs for accurate real-time face verification on mobile devices[C]∥Chinese Conference on Biometric Recognition, 2018: 428-438.

[21] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv: 2010.11929, 2020.

[22] DAI Y M, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]∥2021 IEEE Winter Conference on Applications of Computer Vision(WACV), 2021: 3560-3569.

[23] ZHANG D, ZHANG H, TANG J, et al. Feature pyramid transformer[C]∥European Conference on Computer Vision, 2020: 323-339.

[24] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]∥Proceedings of the IEEE Conference on Computer Vision, 2017: 618-626.

(責任編輯:編輯郭蕓婕)

猜你喜歡
特征融合
多特征融合的粒子濾波紅外單目標跟蹤
基于稀疏表示與特征融合的人臉識別方法
一種“客觀度量”和“深度學習”共同驅動的立體匹配方法
多特征融合的紋理圖像分類研究
語譜圖傅里葉變換的二字漢語詞匯語音識別
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
基于SIFT特征的港口內艦船檢測方法
融合整體與局部特征的車輛型號識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合