?

基于上下文感知空間坐標嵌入的時空圖卷積網絡

2023-04-08 16:15楊超丁文文鄧淦森
關鍵詞:手勢識別率骨架

楊超 丁文文 鄧淦森

摘要:

針對空間復雜的非歐幾里得結構,圖卷積網絡不易通過歐氏距離構造輸入圖的問題,提出了上下文感知空間坐標嵌入的時空圖卷積網絡(STE-STA)模型,將空間背景和相關性明確地結合到模型中,并基于地理空間輔助任務學習、語義空間嵌入和動態圖的時空注意力識別手勢。首先從手骨架構造一個完全連接圖,通過學習地理坐標的上下文感知向量編碼,以及自我注意機制對節點特征和邊緣進行自動學習;然后,與主任務并行預測數據中的空間自相關。實驗結果表明,在DHG-14/28數據集上,STE-STA模型識別率分別達到92.40%與87.85%,均高于目前最優模型;在SHREC′17數據集上,比時空圖卷積網絡(ST-GCN)分別高0.60%和0.10%。

關鍵詞:

語義空間嵌入;時空注意力;時空掩碼

中圖分類號:TP391.4???????? 文獻標志碼:A

手勢識別廣泛應用在人機交互、游戲和手語識別等非語言交流分析領域 [1-3],按輸入方式分為基于圖像和基于骨架的方法?;趫D像的方法使用RGB或RGB-D圖像作為輸入,通過提取圖像特征識別手勢[4];基于骨架的方法是通過一系列具有二維或三維坐標的手關節進行預測[5],在精確的關節坐標下,手勢識別更準確。由于深度相機的成本較低(如微軟Kinect或英特爾RealSense)和手部姿態估計上取得巨大進展,很容易獲得手部關節的精確坐標[6]。傳統基于骨骼的手勢識別方法的目的是設計功能強大的特征描述符來模擬手的動作,如利用連接關節的形狀描述符表示手骨骼的形狀[7]。在此基礎上,結合自邊緣、光流和陰影信息的多種信息源以整合多線索以跟蹤高自由度關節運動和模型細化[8],或在每一幀上通過一個改進的定向梯度直方圖(HOG)算法生成一個特征集,然后使用線性SVM識別手勢[9]。然而,這些手工制作特性的泛化能力有限。在最近的研究中,骨架圖和動力學的結合在人體行為識別上取得了突破。即給定一系列骨骼,以此定義一個時空圖,其中嵌入骨骼的結構和動力學,然后提取圖的特征表示來識別動作。如利用空間推理和時間棧學習(SR-TSL)的基于骨架的動作識別模型[10],亦可將圖神經網絡擴展到時空圖卷積網絡(ST-GCN)[11]。在此基礎上,提出一種新的聯合手勢識別和三維手姿態估計的協同學習網絡,該網絡利用聯合感知特征,增強相互學習,可以利用更有區別和代表性的關節運動信息,學習姿態和多階運動信息[12]。雙流模型是從每幀中利用多尺度特征學習每個流中所需的特性,捕獲原始點云中的幾何結構,獲得整個作用領域的活動圖以提升識別效果[13]。圖卷積網絡通過自適應學習人類動作動力學的空間特征,在骨架動作識別上取得了顯著的成績,然而該方法在人類行為的時間序列建模方面受到限制。為了在動作建模中充分考慮時間因素,確保信息完整,引入卷積層,利用跨時空圖卷積層,確??鐣r空依賴關系[14]。由于堆疊圖卷積對關鍵動作的長期依賴性效果較差,故引入基于骨架網絡的大核注意力算子(SLKA),可擴大感受野,提高信道適應性,并學習遠距離時間相關性[15]。上述研究具有固定結構的預定義圖來捕捉不同動作之間的動態方差,在實踐中產生了次優的性能。為提高模型識別率,本文提出上下文感知空間坐標嵌入的時空圖卷積網絡(STE-STA)模型,包含一個地理空間位置編碼器SE,在整個訓練過程中學習點坐標的上下文嵌入;利用時空位置嵌入,改進時間位置嵌入;引入一種新的時空掩模操作,直接應用于所有節點之間的比例點積矩陣。

3 結果與分析

為了證明模型的有效性,實驗在DHG-14/28數據集和SHREC′17數據集上開展,所用電腦為聯想拯救者R9000K,處理器為八核AMD Ryzen 9 5900HX,顯卡為NVIDIA GeForce RTX 3080。

3.1 DHG-14/28數據集和SHREC′17數據集

DHG-14/28數據集包含14個手勢序列,有兩種方式:使用1根手指和整只手。每個手勢由28個參與者以兩種方式執行1到10次,得到2 800個序列,根據手勢、使用的手指數量、表演者和試驗標記區分。序列的每幀包含1個深度圖像,在二維深度圖像空間和三維世界空間中22個關節的坐標形成1個完整的手骨架。使用英特爾RealSense短程深度相機收集數據集,以每秒30幀的速度拍攝深度圖像和手骨骼,樣本手勢的長度從20幀到50幀不等。

3.1.1 網絡訓練 STE-STA網絡是基于Pytorch平臺實現的,采用學習速率為0.001的Adam優化器訓練模型,批量大小為32,學習率為0.2,從每個視頻中均勻地采樣8幀作為輸入。為了公平比較,對數據擴展,包括縮放、位移、時間插值和添加噪聲,并且用第1幀的手掌位置減去每個骨架序列進行對齊。

3.1.2 模型評估 在DHG-14/28數據集上,通過留1個被試者交叉驗證策略評估模型,即對數據集中的每個受試者執行1次實驗。在每次實驗中,選擇1名受試者進行測試,其余19名受試者進行訓練。驗證在20個交叉驗證折疊中,14個手勢(沒有單指配置)或28個手勢(有單指配置)的平均精度。對于SHREC′17跟蹤數據集,使用了數據分割,并測試了14個和28個手勢的準確性。

將STE-STA模型分別與DHG-14/28數據集中較為先進模型進行比較,包括傳統的手工特征方法,基于深度學習的方法和基于圖的方法,結果見表1??梢钥闯?,STE-STA模型在14手勢和28手勢設置下都達到了最先進的性能,和ST-GCN 都優于其他沒有明確利用手的結構和動態的方法。

不同于DHG-14/28數據集,SHREC′17跟蹤數據集提供了帶有噪聲幀的原始捕獲的視頻序列,視頻由人類標記的開始和結束的手勢裁剪,更具挑戰性。表2可以看到,STE-STA模型在14個手勢設置下達到了較為先進的性能,并在28個手勢設置下獲得了與STA-Res-TCN 相當的性能,和ST-GCN 優于所有其他沒有明確利用手的結構和動力學的方法。

3.2 消融實驗

STE-STA模型由3個主要組成部分組成,包括全連接骨架圖結構(FSG)、時空注意模型(STA)和地理時空位置嵌入(STE),驗證這些組件有效性的實驗結果見表3。

(1)全連接圖結構的評價:FSG與稀疏骨架圖結構(SSG)進行了比較,空間邊是基于手關節的自然連接來定義的,而時間邊在連續幀之間連接相同的關節,模型明顯優于在SSG上訓練的模型。SSG對于某些手勢可能是次優的,而FSG對模型幾乎沒有什么約束,因此能夠學習特定于動作的圖結構。

(2)時空注意的評價:如果只應用一個對整個圖的注意模型,而不區分空間和時間域,則STA降級到GAT。通過將一個注意模型替換本文網絡中的空間和時間注意模型來實現GAT,并在模型的相同設置下對其訓練??梢杂^察到,基于STA的模型比基于GAT的模型具有更好的性能,這證明了STA的有效性。

(3)地理時空位置嵌入式結構的評價:通過訓練來驗證所提出STE-STA的有效性。上下文感知空間坐標嵌入的時空圖卷積網絡優于沒有STE的模型,這說明了由STE-STA編碼的身份和時間順序信息的重要性。

圖7顯示了STE-STA在DHG-14/28數據集上測試的混淆矩陣,能夠準確識別出手勢運動的14個行為類別中的大多數動作種類。圖8顯示了STE-STA在SHREC′17數據集上測試的混淆矩陣,能夠較為準確識別出手勢運動的14個行為類別中的大多數動作種類。

為驗證STE-STA模型對于輸入數據特征維數的相關性,將關節點特征經過GCN從3維提升到16維,32維,64維以及128維,表4結果顯示模型仍然具有比較出色的識別效果。STE-STA模型從根本上克服了網絡在空間和時間上對原始數據信息提取不充分,對模型識別率有一定的提升。

兩個數據集在不同特征維度下進行80次迭代,對比識別率隨著迭代次數的增加而變化情況,并利用Python對得到的相關數據進行繪制,結果如圖9、圖10所示??梢钥闯?,隨著迭代次數增加,識別率先增大后趨于平穩。DHG_14數據集在特征維度64維,識別率在第15次迭代以后趨于平穩,而特征維度過大或過小表現效果不佳,可能是提取信息量的不足或過飽和造成的。SHREC_14數據集不同的特征維度對識別率達到平穩的迭代次數有一定影響,并且在一定迭代次數之后,各個特征維度下的識別率差距不明顯,可能的原因是經過預處理的手勢,再次經過模型的提取信息量已經達到飽和。

對DHG-14/28數據集的手勢動作按照大拇指,二拇指,三拇指,四拇指,小拇指以及手掌心分塊,然后再對分塊關節信息聚合處理,并與STE-STA網絡做出對比(表5)??梢钥闯?,分塊在一定程度上不僅考慮關節點的信息,而且還考慮了每個手指與掌心的之間的相關性,補充了手骨架信息的缺失,進而提高手勢運動的識別率。

4 結論

STE-STA模型在DHG-14/28數據集和SHREC′17跟蹤數據集有不錯的識別效果,說明STE-STA對手勢動作識別的有效性。STE-STA在DHG-14/28數據集上識別率較高,而在SHREC′17跟蹤數據集表現得并不突出,可能是該數據集是由SHREC′17跟蹤數據集經過手勢分離預處理,得到的數據經過該模型,再次進行時空信息提取,存在冗余,使得模型對該數據集識別率不高。這也是模型的不足之處,未來期望該模型在數據處理過程中能夠對收集到的信息進行一定概率丟棄,避免出現信息雜糅或冗余現象。

參考文獻

[1]??滴?,祝凱,劉振宇,等.基于視頻的人體狀態快速識別方法研究[J].青島大學學報(自然科學版), 2021,34(1):40-45.

[2]許帥,姜俊厚,高偉,等.適用于移動設備的輕量化手勢識別算法[J].青島大學學報(自然科學版), 2022,35(2):51-56.

[3]張念凱,喬學軍,熱孜萬古麗·夏米西丁,等.基于全卷積自加權分類器的三維顱骨性別鑒定[J].青島大學學報(自然科學版),2022,35(3):9-15.

[4]LIU M M, ZHANG J. Gesture estimation for 3D martial arts based on neural network[J]. Displays, 2022, 72: 102138.

[5]CHEN H H, LI Y N, FANG H J, et al. Multi-scale attention 3D convolutional network for multimodal gesture recognition[J]. Sensors, 2022, 22(6): 2405.

[6]GAO Q, CHEN Y Q, JU Z J, et al. Dynamic hand gesture recognition based on 3D hand pose estimation for human-robot interaction[J]. IEEE Sensors Journal, 2021, 22(18): 17421-17430.

[7]De SMEDT Q, WANNOUS H, VANDEBORRE J P. Skeleton-based dynamic hand gesture recognition[C]// 29th IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, 2016: 1-9.

[8]LU S, METAXAS D, SAMARAS D, et al. Using multiple cues for hand tracking and model refinement[C]// Conference on Computer Vision and Pattern Recognition. Madison, 2003: 443-450.

[9]OHN-BAR E, TRIVEDI M. Joint angles similarities and HOG2 for action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, 2013: 465-470.

[10] SI C Y, JING Y, WANG W, et al. Skeleton-based action recognition with spatial reasoning and temporal stack learning[C]// 15th European Conference on Computer Vision(ECCV). Munich, 2018: 103-118.

[11] YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// AAAI Conference on Artificial Intelligence. New Orleans 2018: 7444-7452.

[12] YANG S Y, LIU J, LU S J, et al. Collaborative learning of gesture recognition and 3D hand pose estimation with multi-order feature analysis[C]// European Conference on Computer Vision. Glasgow, 2020: 769-786.

[13] BIGALKE A, HEINRICH M P. Fusingposture and position representations for point cloud-based hand gesture recognition[C]// 2021 International Conference on 3D Vision (3DV). London, 2021: 617-626.

[14] XIE Y L, ZHANG Y, REN F. Temporal-enhanced grap convolution network for skeleton-based action recognition[J]. IET Computer Vision, 2022, 16(3): 266-279.

[15] LIU Y A, ZHANG H, LI Y Q, et al. Skeleton-based human action recognition via large-kernel attention graph convolutional network[J]. IEEE Transactions on Visualization and Computer Graphics, 2023, 29(5): 2575-2585.

[16] CHEN X H, GUO H K, WANG G J, et al. Motion feature augmented recurrent neural network for skeleton-based dynamic hand gesture recognition[C]// 24th IEEE International Conference on Image Processing(ICIP). Beijing, 2017: 2881-2885.

[17] OREIFEJ O, LIU Z C. HON4D: Histogram of oriented 4d normal for activity recognition from depth sequences[C]// IEEE Conference on Computer Vision and Pattern Recognition. Portland, 2013: 716-723.

[18] DEVANNE M, WANNOUS H, BERRRTTI S, et al. 3-D human action recognition by shape analysis of motion trajectories on Riemannian manifold[J]. IEEE Transactions on Cybernetics,2014, 45(7): 1340-1352.

[19] BOULAHIS S Y, ANQUETIL E, MULTON F, et al. Dynamic hand gesture recognition based on 3D pattern assembled trajectories[C]// 7th International Conference on Image Processing Theory, Tools and Applications(IPTA). Hong Kong, 2017: 1-6.

Spatio-temporal Graph Convolutional Networks with

Context-aware Spatial Coordinate Embedding

YANG Chao, DINGWen-wen, DENG Gan-sen

(School of Mathematical Sciences,Huaibei Normal University,Huaibei 235000,China)

Abstract:

For the complex non-Euclidean structure of space, graph convolutional network is not easy to construct the input graph through Euclidean distance, a context-aware spatial coordinate embeddingSpatio-Temporal Graph Convolutional Network (STE-STA) model was proposed, which explicitly combines spatial context and correlation into the model, and based on geospatial auxiliary task learning, semantic spatial embedding and dynamic graph spatio-temporal attention gesture recognition. Firstly, a fully connected graph was constructed from the hand skeleton, and the node features and edges were automatically learned by learning the context-aware vector encoding of geographic coordinates and the self-attention mechanism. Then, the spatial autocorrelation in the data was predicted in parallel with the main task. The experimental results show that on the DHG-14/28 dataset, the recognition rate of the proposed algorithm reaches 92.40% and 87.85%, which are higher than the current optimal model. On the SHREC'17 dataset, it is 0.60% and 0.10% higher than Spatio-Temporal Graph Convolutional Network (ST-GCN).

Keywords:

semantic spatial embedding; temporal and spatial attention; space-time mask

收稿日期:2023-05-21

基金項目:

國家自然科學基金(批準號:62171342)資助;安徽省自然科學基金(批準號:1908085MF186)資助。

通信作者:

丁文文,女,博士,副教授,主要研究方向為人工智能,計算機視覺,圖像處理與模式識別。E-mail:dww2048@163.com

猜你喜歡
手勢識別率骨架
淺談管狀骨架噴涂方法
骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
挑戰!神秘手勢
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
V字手勢的由來
提升高速公路MTC二次抓拍車牌識別率方案研究
勝利的手勢
高速公路機電日常維護中車牌識別率分析系統的應用
內支撐骨架封抽技術在突出煤層瓦斯抽采中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合