?

嵌入混合注意力機制的Swin Transformer人臉表情識別

2024-05-03 09:43王坤俠余萬成胡玉霞
關鍵詞:遷移學習注意力機制

王坤俠 余萬成 胡玉霞

摘要 人臉表情識別是心理學領域的一個重要研究方向,可應用于交通、醫療、安全和刑事調查等領域。針對卷積神經網絡(CNN)在提取人臉表情全局特征的局限性,提出了一種嵌入混合注意力機制的Swin Transformer人臉表情識別方法,以Swin Transformer為主干網絡,在模型Stage3的融合層(Patch Merging)中嵌入了混合注意力模塊,該方法能夠有效提取人臉面部表情的全局特征和局部特征。首先,層次化的Swin Transformer模型可有效獲取深層全局特征信息。其次,嵌入的混合注意力模塊結合了通道和空間注意力機制,在通道維度和空間維度上進行特征提取,從而讓模型能夠更好地提取局部位置的特征信息。同時,采用遷移學習方法對模型網絡權重進行初始化,進而提高模型的精度和泛化能力。所提方法在FER2013、RAF-DB和JAFFE這3個公共數據集上分別達到了73.63%、87.01%和98.28%的識別準確率,取得了較好的識別效果。

關鍵詞 表情識別;Transformer;注意力機制;遷移學習

Facial expression recognition in Swin Transformer byembedding hybrid attention mechanism

Abstract Facial expression recognition is an important research domain in psychology that can be applied to many fields such as transportation, medical care, security, and criminal investigation. Given the limitations of convolutional neural networks (CNN) in extracting global features of facial expressions, this paper proposes a Swin Transformer method embedded with a hybrid attention mechanism for facial expression recognition. Using the Swin Transformer as the backbone network, a hybrid attention module is embedded in the fusion layer (Patch Merging) in the model of Stage3, which can effectively extract global and local features from facial expressions.Firstly, the hierarchical Swin Transformer model can effectively obtain deep global features.Secondly, the embedded hybrid attention module combines channel and spatial attention mechanisms to extract features in the channel dimension and spatial dimension, which can attain better local features. At the same time, this article uses the transfer learning method to initialize the model network weights, thereby improving the recognition performance and generalization ability.The proposed method achieved recognition accuracies of 73.63%, 87.01%, and 98.28% on three public datasets (FER2013, RAF-DB, and JAFFE)respectively, achieving good recognition results.

Keywords expression recognition; Transformer; attention mechanism; transfer learning

人臉表情是人類傳遞情感和意圖最直接有效的方式之一。人臉表情識別(facial expression recognition, FER)可以通過機器分析識別人臉圖像中的不同表情種類[1]。在人臉表情識別過程中,特征提取尤為重要,一種好的特征提取方法將有效提高表情識別的準確率。在使用深度學習技術進行面部表情特征提取時,目前大多數研究工作傾向于使用卷積神經網絡(CNN)進行特征提?。?-4]。一些經典的CNN模型,例如ResNet[3]在圖像分類任務中取得了較好的效果。文獻[4]在ResNet基礎上提出了NA-Resnet模型,該模型利用NA模塊提取表面特征來輔助人臉表情識別。

卷積神經網絡具有共享卷積核和平移不變性等優點,但CNN模型對于全局上下文信息的建模能力相對較弱,不能很好地提取全局特征。Transformer[5]中的自注意力機制能有效獲取全局信息,并且可以通過多頭自注意力機制將所獲得的特征信息映射到多個空間,從而增強模型的全局感知能力。目前,研究人員已將Transformer廣泛應用在計算機視覺領域[6],并取得了較好的效果。在2020年,Google團隊提出的Vision Transformer(ViT)模型[7]在圖像分類領域取得了顯著的成果。ViT是一種基于Transformer架構的圖像分類模型,它將圖像分割成小的圖塊,然后通過將這些圖塊轉換為序列傳入Transformer中進行特征提取。然而ViT需要在大規模數據集上進行訓練,并需要更多的算力資源支持,為了解決ViT的訓練困難特性,PVT[8]、CvT[9]和Swin Transformer[10]等模型都采用了不同的優化策略。同時,許多研究人員也將Transformer成功應用于人臉表情識別,并取得了較好的效果。其中,文獻[11]介紹了PACVT人臉表情識別模型,該模型通過利用PAU模塊提取局部特征,同時采用Transformer提取全局特征, 最后將這2種特征進行融合, 用于人臉表情識別任務。 文獻[12]提出了FST-MWOS人臉表情識別模型,該模型以Swin Transformer為基礎,加入了多重權重優化機制,以提高模型識別精度。 文獻[13]將自監督學習與Vision Transformer進行聯合預訓練, 提出了SSF-ViT模型用于人臉表情識別。

此外,注意力機制能夠有效地提取局部特征信息。近年來,隨著注意力機制的流行,出現了多種類型的注意力機制[14],如空間注意力機制STN[15]、通道注意力機制ECA-Net[16]和混合注意力機制CBAM[17]等。其中,通道注意力機制ECA-Net致力于對通道維度特征進行自適應的重要性加權,以增強網絡對重要通道信息的關注,從而提高特征提取的能力??臻g注意力機制STN則專注于對特征圖的空間變換和注意力調整。通過對空間位置的顯式建模,STN可以對模型感興趣區域進行準確地提取和調整,從而增強對局部特征的提取能力?;旌献⒁饬δKCBAM結合了通道和空間注意力機制,使得模型網絡能夠同時在通道維度和空間維度上進行特征提取和加權。注意力網絡也在人臉表情識別得到應用,文獻[18]提出了空時注意力網絡用于表情識別。

為更有效地提取人臉表情特征,本文將Transformer與注意力機制相結合,提出了一種嵌入混合注意力機制的Swin Transformer人臉表情識別方法。該方法在Swin Transformer網絡基礎上進行了改進,在模型的內部Patch Merging層中嵌入了混合注意力模塊CBAM,并利用遷移學習的方法對權重進行初始化,以提高模型訓練的速度和人臉表情識別的準確度。

1 模型設計

1.1 Swin Transformer模型

經典的Transformer架構對N個token進行自注意力計算,模型的計算復雜度為O(N2),而Swin Transformer采用了一種分而治之的優化思想,將模型的計算復雜度降低為O(N)。因此,本文中選用了Swin Transformer作為人臉表情識別模型的骨干網絡。同時,層次化的Swin Transformer模型能夠從多種尺寸和維度的特征圖中提取特征信息,該模型主要由4個Stage組成,如圖1所示。在Swin Transformer模型中,主要由Patch Merging層和Swin Transformer Block串聯組成。Patch Merging層能夠根據設定的下采樣倍率對人臉表情特征圖進行下采樣操作,在該層中嵌入注意力模塊,可以有效地提取多維度的人臉表情特征信息。

在Swin Transformer Block中,核心部分包括窗口多頭自注意力(W-MSA)和移動窗口多頭自注意力(SW-MSA),具體結構如圖2所示。W-MSA能夠將自注意力的計算限制在窗口內,從而可以有效地降低模型內部的計算量,但這種方式會存在一個明顯的問題,窗口之間的連接缺失可能會導致全局信息的丟失,并限制模型對全局特征的建模能力。因此,在SW-MSA中引入了基于移動窗口機制的跨窗口操作,以增加窗口之間的信息交互。在窗口移位和分割之后,使用循環移位和反向循環移位處理窗口的數量增大和大小不一致問題。通過這種方法,可以實現相鄰窗口之間的信息交互,從而擴大模型的全局感受野,獲取圖像更高層的語義信息。這樣能夠更好地提取人臉表情的全局語義特征,使得模型在表情識別任務中能夠更加準確地識別不同的表情種類。

1.2 CBAM注意力機制

CBAM注意力機制能夠幫助模型更加關注人臉表情的重要特征信息,并忽略目標周圍的干擾因素,從而提高人臉表情識別模型的準確性。CBAM注意力模塊是一種混合型注意力機制,由2個獨立部分組成:通道注意力模塊和空間注意力模塊。通過引入通道和空間注意力機制,CBAM能夠自適應地調整不同通道和空間位置上的特征權重,使得模型能夠更好地捕捉和利用局部特征信息。相比于只有單通道注意力機制的SE-Net[19],CBAM能夠取得更好的識別效果,CBAM總體網絡框架如圖3所示。

通道注意力模塊首先對輸入的特征圖進行全局平均池化(AvgPool)和最大池化(MaxPool)操作,分別得到描述特征Fc_avg和Fc_max。然后,這2個特征經過共享多層感知機進行特征相加操作,并通過Sigmoid函數進行處理,得到Mc(F)。最后,將通道權重系數Mc(F)與輸入的特征圖F進行相乘,得到通道注意力特征圖F′。如式(5)、(6)所示。

空間注意力模塊再對輸入的特征圖F′進行平均池化和最大池化操作,分別得到描述特征Fs_avg和Fs_max。然后,將這2個特征進行橫向拼接聚合,傳入大小為7×7的卷積核進行操作(f 7×7)。接著,將得到的結果經過Sigmoid(σ)操作,得到Ms(F′)。最后,通過將空間權重系數Ms(F′)與輸入的特征圖F′進行相乘,得到混合注意力特征圖F″。如式(7)、(8)所示。

1.3 嵌入混合注意力機制的Swin Transformer模型

基于上述的Swin Transformer模型和CBAM混合注意力模塊,本文提出了嵌入混合注意力機制的Swin Transformer人臉表情識別模型。該模型以Swin Transformer作為骨干網絡,并嵌入了CBAM混合注意力模塊。具體結構如圖4所示。

在該模型中,先將人臉表情圖像通過Patch Partition層將圖像分割成多個Patch。然后,通過Stage1中的Liner Embedding層,將劃分好的Patch進行線性映射后傳入Swin Transformer Block中,以便更好地提取特征信息。特征提取完成后再輸入到下一個Stage。本文在Stage3中的Patch Merging層嵌入了混合注意力模塊CBAM,該模塊的嵌入能夠有效地提升模型對局部特征的捕捉能力,并且能夠抑制特征周圍不必要區域的影響,從而加強模型的感知能力并提高人臉表情識別的準確率。本文模型的主要思想是利用Transformer模型提取全局特征信息,并運用混合注意力機制獲取局部特征信息,進而在模型訓練中對全局特征和局部特征進行融合,以實現對人臉表情特征更精準的識別。

為了將Swin Transformer模型更好地應用于人臉表情分類任務,本文對模型結構進行了微調。在模型頂層中添加了LayerNorm層、自適應平均池化層、全連接層和Softmax層。

2 實驗與結果分析

2.1 數據集介紹

為了驗證本文模型的有效性,我們選用了3個被廣泛應用的公共數據集和1個私有數據集作為實驗數據集。公共數據集包括FER2013數據集[20]、JAFFE數據集[21]和RAF-DB數據集[22]。其中,所選的數據集包含了自然環境下的人臉表情數據集和實驗室環境下的標準人臉表情數據集。圖5展示了這3個公共數據集中各類表情的部分圖像樣本。

1)FER2013數據集。該數據集樣本數量較大,包含真實人臉表情圖像和卡通人物表情圖像,具有豐富的樣本。該數據集共包含35 887張表情圖像。

2)JAFFE數據集。該數據集的圖像來源于實驗室環境中的10名日本女性,她們按照指示做出了多種不同種類的表情,所采集的表情圖像較為清晰,具有很高的識別率。該數據集共包含213張圖像,每個人展示7種表情。

3)RAF-DB數據集。該數據集共有29 672張人臉表情圖像,圖像質量相對較高,收集的人臉表情都來源于自然場景,因此表情更自然,更加接近真實人臉的表情。本文的實驗主要研究該數據集中的7類基本表情圖像。

2.2 實驗環境

本文實驗基于PyTorch 1.7.0框架進行訓練和測試。實驗環境如下:Ubuntu18.04,Cuda版本為11.0,顯卡為NVIDIA RTX 3080 Ti(12 GiB)。在實驗中,首先將人臉表情圖像的大小縮放到224×224,并進行數據增強操作,包括隨機旋轉、圖像對比度增強等。在訓練過程中,批量大小設為32,損失函數選用交叉熵損失函數,并使用AdamW優化器進行模型的反向傳播優化,同時設置權重衰減為5E-2,以幫助控制模型的復雜度并提高泛化性能。

2.3 評價標準

在圖像分類任務中,通常使用準確率、混淆矩陣和召回率等指標來評估分類模型的性能。對于本文的人臉表情識別任務,為了更好地評估模型和每個表情類別的識別精度,可以采用準確率和混淆矩陣作為評價標準,準確率(Accuracy,式中簡記RACC)的計算公式為

式中:NTP和NTN代表模型正確預測的正例和負例的樣本數量;NFP和NFN分別代表模型錯誤預測的正例和負例的樣本數量。通過混淆矩陣,可以更直觀地展示每個表情類別的預測結果?;煜仃囍械膶蔷€元素表示模型正確分類的樣本數量,即真正例NTP和真負例NTN。對角線上的值越高,說明模型的分類效果越好。而非對角線上的元素表示模型錯誤分類的樣本數量,即假正例NFP和假負例NFN。

2.4 CBAM嵌入位置驗證

為了驗證CBAM混合注意力模塊在不同Stage中對最終識別效果的影響,本文將CBAM模塊嵌入到Swin Transformer模型的不同Stage中,并進行對比實驗。由于不同Stage中的特征圖尺寸和維度不同,CBAM模塊所處理的特征圖信息也會有所差異,這可能就會對模型最終的識別效果產生影響。為了評估這種影響,本文在3個不同階段分別嵌入了CBAM模塊,以及在3個階段中都嵌入了CBAM模塊進行了對比實驗。實驗結果詳見表1。

在3個公共數據集(JAFFE、RAF-DB、FER-2013)和1個私有數據集上進行對比實驗的結果表明,將混合注意力模塊CBAM嵌入到Stage3中Patch Merging層所獲得的實驗效果最好,平均準確率達到了80.54%,模型的參數量為48.814×106。因此,本文選擇在Stage3中嵌入混合注意力模塊更具有一定的科學性及有效性。

2.5 消融實驗

為了驗證在模型中嵌入CBAM混合注意力模塊的有效性,本文進行了消融實驗,分別在JAFFE、RAF-DB、FER2013以及1個私有數據集上進行了實驗驗證,對比了有無嵌入混合注意力模塊對實驗結果的影響,具體實驗結果詳見表2。通過表2可以看出,嵌入混合注意力模塊的模型在3個公共數據集和1個私有數據集上的識別準確率均有所提升。

相較于未嵌入混合注意力模塊的情況,將CBAM混合注意力模塊嵌入Swin Transformer中,能夠有效提高模型對人臉表情的識別精度。圖6展示了在JAFFE數據集上,有無嵌入CBAM混合注意力模塊的混淆矩陣驗證結果。從圖6中能夠觀察到對于高興、厭惡和驚訝等表情類別,模型的識別準確率都有所提升。

同時,本文在數據集規模較大的FER2013數據集上進行了預訓練,并將訓練好的預訓練權重與在ImageNet數據集上的預訓練權重進行了對比。結果表明,不同的預訓練數據集會對模型的表情識別精度產生影響。在實驗過程中,我們發現使用FER2013數據集上的預訓練權重可以有效地提高模型對表情識別的準確率,具體實驗結果詳見表3。

2.6 方法比較

為了進一步驗證本文方法的有效性,與其他多種網絡模型進行了比較。表4展示了本文方法與其他模型在RAF-DB和FER2013數據集上的對比結果。在RAF-DB數據集上,本文方法與RAN[23]、Twins[24]、POSTER[25]和SPWFA-SE[26]等算法模型進行了比較;在FER2013數據集上,本文方法與MoEffNet[27]、Efficient-CapsNet[28]、Auto-FERNet[29]和Inception-V3[30]等模型進行了比較。通過實驗對比,本文方法在RAF-DB和FER2013這2個公共數據集上的準確率明顯優于表4中其他算法模型。

2.7 可視化實驗結果

為了更直觀地展示嵌入CBAM混合注意力模塊后的效果,本文采用了Grad-CAM[31]技術,用于生成分類網絡中最后一層的熱力圖。圖7展示了本文在7類不同表情上的熱力圖效果。熱力圖能夠驗證網絡對圖像區域的關注程度,顏色越鮮艷則意味著該區域的內容對于網絡的識別越重要。這些可視化實驗結果表明,嵌入CBAM混合注意力模塊后,模型能夠將注意力集中在表情特征的重點區域,從而更精準地識別人臉表情種類。

3 結語

針對人臉表情識別,本文提出了一種嵌入混合注意力機制的Swin Transformer人臉表情識別方法。該方法在模型的Patch Merging層中嵌入了CBAM混合注意力模塊,并通過遷移學習方法進行訓練。相較于傳統卷積神經網絡,Swin Transformer能夠更好地獲取圖像的全局語義信息。同時,CBAM模塊的嵌入能夠使模型更多地關注局部的重要表情特征信息,并抑制無用信息的干擾,將有限的計算資源聚焦分配給權重較大的重要區域,從而加快模型的收斂速度并提高表情識別性能。實驗結果表明,在模型的Stage3中嵌入CBAM混合注意力模塊能夠取得最佳效果。最后,本文所提出的方法在FER2013、RAF-DB和JAFFE數據集上分別獲得了73.63%、87.01%和98.28%的準確率。在之后的研究中,可以考慮采用更輕量級結構的Transformer模型,以解決模型過大和參數量過多等問題。

參考文獻

[1] 李珊,鄧偉洪.深度人臉表情識別研究進展[J].中國圖象圖形學報,2020,25(11):2306-2320.

LI S,DENG W H. Deep facial expression recognition: A survey[J].Journal of Image and Graphics,2020,25(11):2306-2320.

[2] ADYAPADY R R, ANNAPPA B. A comprehensive review of facial expression recognition techniques[J]. Multimedia Systems, 2023, 29(1): 73-103.

[3] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.

[4] QI Y F, ZHOU C Y, CHEN Y X. NA-Resnet: Neighbor Block and optimized attention module for global-local feature extraction in facial expression recognition[J].Multimedia Tools and Applications, 2023, 82(11): 16375-16393.

[5] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach:ACM, 2017: 6000-6010.

[6] MA T L, MAO M Y, ZHENG H H, et al. Oriented object detection with transformer[EB/OL].(2021-06-06)[2023-09-20].http:∥arxiv.org/abs/2106.03146.

[7] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL].(2021-06-03)[2023-09-20].http:∥arxiv.org/abs/2010.11929.

[8] WANG W H, XIE E Z, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 548-558.

[9] WU H P, XIAO B, CODELLA N, et al. CvT: Introducing convolutions to vision transformers[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.

[10]LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992-10002.

[11]LIU C, HIROTA K, DAI Y P. Patch attention convolutional vision transformer for facial expression recognition with occlusion[J]. Information Sciences, 2023, 619(C): 781-794.

[12]FENG H Q, HUANG? W K, ZHANG D H, et al. Fine-tuning swin transformer and multiple weights optimality-seeking for facial expression recognition[J]. IEEE Access, 2023, 11: 9995-10003.

[13]CHEN X C, ZHENG X W, SUN K, et al. Self-supervised vision transformer-based few-shot learning for facial expression recognition[J]. Information Sciences, 2023, 634(C): 206-226.

[14]祁宣豪,智敏.圖像處理中注意力機制綜述[J].計算機科學與探索,2024,18(2):345-362.

QI X H,ZHI M.Review of attention mechanisms in image processing[J].Journal of Frontiers of Computer Science and Technology,2024,18(2):345-362.

[15]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2. Montreal:ACM, 2015: 2017-2025.

[16]WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 11531-11539.

[17]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]∥ European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 3-19.

[18]馮曉毅,黃東,崔少星,等.基于空時注意力網絡的面部表情識別[J].西北大學學報(自然科學版),2020,50(3):319-327.

FENG X Y,HUANG D,CUI S X.Spatial-temporal attention network forfacial expression recognition[J].Journal of Northwest University(Natural Science Edition).2020,50(3):319-327.

[19]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.

[20]GOODFELLOW I J, ERHAN D, CARRIER P L, et al. Challenges in representation learning: A report on three machine learning contests[C]∥The 20th International Conference on Neural Information Processing. Daegu: Springer, 2013:117-124.

[21]LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with Gabor wavelets[C]∥Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition. Nara: IEEE, 2002: 200-205.

[22]LI S, DENG W H, DU J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2584-2593.

[23]WANG K, PENG X J, YANG J F, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Transactions on Image Processing, 2020, 29: 4057-4069.

[24]CHU X X, TIAN Z, WANG Y Q, et al. Twins: Revisiting the design of spatial attention in vision transformers[EB/OL].(2021-09-30)[2023-09-20].http:∥arxiv.org/abs/2104.13840.

[25]ZHENG C, MENDIETA M, CHEN C. POSTER: A pyramid cross-fusion transformer network for facial expression recognition[C]∥2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Paris:IEEE, 2023: 3138-3147.

[26]LI Y J, LU G M, LI J X, et al. Facial expression recognition in the wild using multi-level features and attention mechanisms[J]. IEEE Transactions on Affective Computing, 2023,14(1):451-462.

[27]SINGH R, SHARMA H, MEHTA N K, et al. Efficientnet for human fer using transfer learning[J].ICTACT Journal on Soft Computing, 2023,13(1): 2792-2797.

[28]WANG K X, HE R X, WANG S, et al. The Efficient-CapsNet model for facial expression recognition[J].Applied Intelligence, 2023,53(13): 16367-16380.

[29]LI S Q, LI W, WEN S P, et al. Auto-FERNet: A facial expression recognition network with architecture search[J]. IEEE Transactions on Network Science and Engineering, 2021, 8(3): 2213-2222.

[30]MEENA G, MOHBEY K K, KUMAR S. Sentiment analysis on images using convolutional neural networks based Inception-V3 transfer learning approach[J]. International Journal of Information Management Data Insights, 2023, 3(1): 100174.

[31]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]∥2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 618-626.

猜你喜歡
遷移學習注意力機制
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
遷移學習研究綜述
InsunKBQA:一個基于知識庫的問答系統
從認知角度探討大學英語網絡教學模式
奇異值分解與移移學習在電機故障診斷中的應用
一種基于遷移極速學習機的人體行為識別模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合