?

基于圖卷積網絡的兒童坐姿檢測學習桌椅設計方法研究

2024-03-07 07:37張飛宇王張恒孫德林
家具與室內裝飾 2024年1期
關鍵詞:關節點坐姿識別率

■張飛宇,蘭 揚,朱 偉,宋 玲,王張恒,李 芳,孫德林

(1.中南林業科技大學材料科學與工程學院,湖南長沙 410004;2.中國人民大學信息學院,北京 100089;3.北京金隅天壇家具股份有限公司,北京 100010)

坐姿與健康有著緊密的關系,不良的坐姿會對兒童成長發育期的肌肉、脊柱及腰椎間盤等組織造成不同程度的生理壓力,長此以往極易引發脊柱畸形、駝背、頸椎病、近視眼等疾病。6-12歲的兒童正是身體生長發育的黃金時期,但在升學壓力日益激烈的大背景下,學生成了新時代的“久坐族”。這段時期的兒童骨骼肌肉與生理各項機能尚未發育完全,不良的坐姿會對兒童的健康產生極大的影響[1-4]。

■圖1 基于ST-GCN的兒童坐姿矯正家具方法流程圖

研究表明,外界的及時提醒或矯正可以有效幫助兒童養成良好的坐姿習慣[5-6]。運用機器視覺技術識別兒童姿態、幫助兒童實現健康的學習坐姿是一種可行的方式,可為智能趨勢下的兒童坐姿矯正家具設計提供有效支撐[7]。目前,坐姿檢測的研究方法主要有基于接觸式傳感器與基于計算機視覺圖像識別兩種。其中接觸式傳感器的坐姿檢測需要傳感器與人體直接接觸,不僅設備價格昂貴、采集過程繁雜,且靈敏度受環境因素影響較大降低,易出現信息誤差[8-10]。而基于計算機視覺圖像的識別技術具有較高的識別率和魯棒性,可擴展性高、信息豐富且更加靈活,更適合實際應用[11]。機器視覺技術可以利用人體姿態估計開源庫(OpenPose)和深度攝像機捕獲得實時骨架數據,進而獲取動態的人體關鍵節點。OpenPose的優勢在于它可以實時地估計人體姿態,即使在復雜的環境下也能夠保持準確性。郭園[12]等將OpenPose與Kinect V2傳感器相結合,精準捕捉了小學生動態學習坐姿中的身體關鍵指標,幫助判斷坐姿與桌椅的適應情況;魏華良[13]等使用連通域分析法,實現兒童不當坐姿行為的檢測和警報;任宏[14]等提出了以人體工學觀測方法作為坐姿行為健康判定模型,探究了不同桌面傾角對兒童脊椎健康的影響;鄭佳罄[15]等使用雙目攝像頭實時采集用戶圖像,利用簡化的OpenPose模型提取人體骨骼關鍵點并實時檢測。在上述研究中,大部分使用成本較高的Kinect傳感器,導致這種技術在兒童家具領域難以大規模應用。而利用普通攝像頭采集數據的,又因其算法或數理統計的方法的局限存在一定的誤差,導致結果精度也差強人意。

本研究從為兒童坐姿矯正學習桌椅的設計提供科學依據的角度出發,提出一種基于圖像識別的兒童坐姿矯正家具研究策略。將OpenPose與圖卷積神經網絡(spatial temporal graph convolutional networks, ST-GCN)相結合,其中,STGCN的核心是將GCN與時間卷積網絡(Temporal Convolutional Network,TCN)相融合,將圖卷積網絡擴展到時空圖模型,基于算法對動態人體骨骼序列進行建模,通過保留骨骼關節點之間在時間和空間維度上的相關性信息,使模型具有很強的學習能力和泛化能力[16-17]。以解決傳統物理矯正器給兒童帶來的束縛和圖像識別坐姿部分遮擋及復雜背景等問題,使識別系統擁有判斷兒童健康坐姿的能力,實現低成本、無需穿戴且實時的坐姿檢測。這可以進行及時坐姿勸導,為智能兒童坐姿矯正家具的設計提供支撐。

1 內容與方法

1.1 方法原理

基于ST-GCN的兒童坐姿矯正家具研究方法流程如圖1所示。首先,自主采集兒童坐姿行為并構建研究數據集,將數據集經過一系列預處理之后輸入到OpenPose人體2D姿態估計模型來提取目標的骨骼關節點作為運動特征信息;然后,將獲取的數據輸入到ST-GCN時空圖卷積網絡中識別兒童坐姿所屬類別,訓練SOFTMAX分類器來判斷兒童坐姿是否標準,并在識別到非正確坐姿時進行實時語音提醒;最后結合智能座椅對兒童坐姿進行提示或矯正等。在滿足坐姿識別率條件下,進一步分析在實際應用中的效果,并進行不斷地優化。

1.2 數據集構建及預處理

從湖南省砂子塘新世界小學自主采集兒童坐姿行為數據集,供模型訓練研究。數據集共1800段視頻樣本,包含正確坐姿和非正確坐姿,其中非正確坐姿為調研相關研究資料確認的七種兒童常見錯誤坐姿:趴寫、含筆、左手托腮、右手托腮、駝背、頭往左斜、頭往右斜,如圖2所示。為了更好地滿足后續模型提取目標骨骼關節點的需要,先對采集的視頻樣本進行預處理:將所有的視頻大小都裁剪為340×256的分辨率,并將視頻中包含人體的部分裁剪出來,獲得更穩定更好的關節點準確率。

1.3 基于OpenPose模型的兒童坐姿檢測

OpenPose是經典的基于深度學習的人體姿態估計模型,可以檢測圖像中單人或多人的人體動作[18]。通過提取視頻中人體骨骼關鍵點的位置坐標,將輸出的坐標信息作為動作識別算法的輸入,最終實現坐姿行為動作識別的功能,實現了實時檢測并保證了識別精度。由于在研究中足部關節點對最終的識別效果沒有顯著影響[19],故采用18個關節點的輸出形式。人體姿態骨架圖(Skeleton Graph)用圖形格式表示人的動作,如圖3所示。

使用OpenPose提取每段視頻數據中每幀的18個帶置信度的2D骨骼點(x,y,score),然后在時間和空間維度進行歸一化,也就是對每一個關節在幀序列中的位置坐標(x,y)和置信度歸一化到[0,1],最后生成json文件,添加對應的標簽,將數據集轉成圖神經網絡使用的格式,如圖4所示。

1.4 基于ST-GCN模型的兒童坐姿識別

CNN被廣泛應用于圖像分類、文本分類、半監督學習等深度學習任務中[20],為了采用ST-GCN模型提取兒童坐姿的嵌入特征,圖像經過OpenPose處理后,得到一系列關節點序列,可以構建人體關節點序列的時空圖結構,作為圖卷積網絡的輸入。

將上述骨骼關節點時空圖輸入STGCN模型后提取時空圖的高階特征圖,然后使用SoftMax分類器識別視頻中兒童坐姿的所屬類別。坐姿分類時采用top1準確率,此處模型輸出的是概率向量和對應的動作類別標簽,top1準確率表示概率向量中,最大概率的預測類別與真實類別一致則為正確,否則是預測錯誤。最后當模型識別出兒童坐姿為非正確坐姿時,調用第三方接口進行實時語音提醒,如圖5所示。

■圖5 基于圖表示學習的姿態估計架構示意圖

1.5 實驗參數設置

實驗平臺硬件環境配置如下:服務器操作系統Ubuntu 16.04;CPU:英特爾(Intel)12核至強ES-2680,主頻為2:40GHz;顯卡:4個英偉達(NVIDIA)TITAN V;軟件配置:CUDA版本10.0.130,cuDNN版本7.6.4。

ST-GCN模型的輸入是(N, C, T, V, M)的張量。首先將輸入BN層進行歸一化,接著通過9層ST-GCN單元,每個單元包含ResNet結構,經過每個單元后以0.5的概率隨機dropout特征,空間維度是關節的特征,開始是3,前三層關節的特征維度是64,中間三層特征維度128,最后三層特征維度256;第四、七層特征維度翻倍將stride設為2;最后使用SoftMax分類器。訓練時使用Glorot來初始化模型的參數,并且使用Adam優化器來訓練模型,批處理大小設置為16,學習率設為0.01,每經過10個epochs學習率自乘0.1。

1.6 評價指標

本文在節點分類任務上廣泛使用的Macro-F1和Micro-F1作為評估指標。對于兒童坐姿識別多分類實驗,分類算法的性能可以通過精確率(precision P)、準確率(accuracy,Acc)和召回率(recall,R)來評判,公式如(1)-(3)式所示:

首先,統計各個類別的真正例(TP)、假正例(FP)、假反例(FN)和真反例(TN),加和構成新的TP、FP、FN、TN;然后,計算micro-Precision和micro-Recall;最后,計算得到micro-F1。同理可得統計各個類別的TP、FP、FN、TN,分別計算各個類別的Precision和Recall,得到各個類別的F1值,然后取平均值得到macro-F1。

2 實驗結果及分析

2.1 實驗結果對比

為了驗證所提出的算法有效性,邀請10名6-12周歲的兒童進行準確性測試,對每位兒童的8種坐姿分別測試3次,共測試240次測試。將算法與base01 line進行了對比,結果如表1所示,可以發現引入ST-GCN模型后Macro-F1和Micro-F1評分分別提高了6.8%和7.4%。

表1 兒童數據集上實驗結果對比

將模型輸出的分類結果按照坐姿的不同類別進行拆分,如表2所示,本文方法識別率高且穩定性好,可以發現正確坐姿、右手托腮、頭往左斜、頭往右斜、趴寫這五種坐姿的識別率相對較高。而左手托腮、含筆、駝背這三種坐姿的識別率相對較低,一種原因是這三種坐姿的動作幅度較小,另一種原因是具有與其他類別相似的關節位置。鑒于OpenPose一共有兩種人體骨骼關節點的輸出方式,分別為18個關節點和25個關節點,兩者主要差別在于足部關節點的多少。而足部關節點的多少對最終的識別效果并沒有太大影響。因此,為提高其余三種坐姿識別率,本文采用18個關節點的輸出格式,當僅輸入上肢的關節點時,減少了冗余信息。

表2 兒童八種坐姿分類結果評價

圖6為實驗得到的混淆矩陣圖,其中橫行表示是數據樣本的真實標簽,豎列表示對應預測類別標簽的概率,對角線為各個類別樣本標簽預測正確的概率。從圖6中可以較為直觀地看出識別率較低的左手托腮、含筆、駝背這三種坐姿容易被錯誤識別成其他類別,因此該場景下需要提取更多的特征信息來進行更為準確的分類識別,上述數據集屬于自采數據,而為了完成兒童八種坐姿分類精準結果評估,在研究中增加了大量的動作種類和數據樣本來進一步完善,以上可以說明本研究提出的模型在目標坐姿具有相似動作的場景中識別準確度僅有較少影響。

2.2 實驗驗證

為了充分研究模型的穩定性,針對所提出的方法進行了關于參數敏感度的分析實驗,研究了節點嵌入維度、學習率和權重衰減三個參數對于坐姿識別準確性的影響,具體的參數選擇設置范圍如表3所示。

表3 參數敏感度實驗設置范圍

針對不同參數組合設置的實驗結果如圖7所示:發現本文提出模型的性能表現比較穩定,最終節點分類的得分只在1%~2%的范圍內波動。對于不同節點嵌入維度的設置,模型的性能呈現出在小范圍內先上升后下降的趨勢。因為模型需要一個合適的維度來編碼輸入時空圖上的結構信息,而更大的維度可能會引入額外的噪聲;經過多次實驗測試發現,節點嵌入維度按照不同模型層次進行組合時,比如前三層關節的特征維度設置64,中間三層特征維度設置128,最后三層特征維度設置256,模型的性能達到最佳。對于不同學習率和權重衰減的設置,模型的性能同樣呈現出小范圍先上升后下降的趨勢,最優的學習率和權重衰減參數設置值為0.01。

■圖8 學齡期兒童坐姿檢測識別最終效果圖

為了實現本文提出的智能兒童坐姿矯正學習桌椅設計研究的目的,進行健康坐姿行為的引導,進一步提高人機交互性,將上述模型部署到智能兒童座椅上,實驗結果如圖8所示。當識別到目標出現非正確坐姿時,將調用百度AI開放平臺的語音合成接口進行及時提醒,當系統連續3次檢測到同一不正確的坐姿時,將語音播報提醒用戶??紤]到實際工作學習中不宜過于頻繁地提醒用戶坐姿,系統每隔60s進行一次檢測,引導兒童調整坐姿。

3 結語

本研究針對學齡期兒童這類特殊人群的需求,基于圖卷積網絡搭建姿態估計和動作識別的混合模型,借助OpenPose提取人體骨骼關鍵點坐標并利用ST-GCN進行動作分類和識別,獲取兒童學習過程中的行為特征,對讀寫坐姿行為分類進行定義、訓練與驗證。通過建立學習坐姿數據集,有效識別出八種坐姿狀態,使得坐姿識別準確率和魯棒性得到大幅提升,并證實了對矯正兒童坐姿的有效性和可行性。實驗結果可為具有坐姿提示功能的兒童桌椅的設計提供參考,引導學生培養健康的坐姿習慣。

猜你喜歡
關節點坐姿識別率
基于深度學習和視覺檢測的地鐵違規行為預警系統研究與應用
關節點連接歷史圖與卷積神經網絡結合的雙人交互動作識別
坐姿好習慣
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
學生作業坐姿及臺燈控制器
基于坐姿感應的智能視力保護臺燈設計
提升高速公路MTC二次抓拍車牌識別率方案研究
搞好新形勢下軍營美術活動需把握的關節點
RGBD人體行為識別中的自適應特征選擇方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合