?

基于視覺人體姿態識別的人機交互機器人課程教學研究

2024-04-16 10:10李憲華徐玉杰朱延松
湖北第二師范學院學報 2024年2期
關鍵詞:關鍵點姿態人體

李憲華,徐玉杰,胡 坤,朱延松

(安徽理工大學 a.人工智能學院;b.機械工程學院,安徽 淮南 232001)

機器人是一種高度復雜的機械系統,它在人類控制下或能夠自主地執行任務。機器人的類型功能具有多樣性,從日常自動化作業到在人類難以企及的環境中執行復雜和危險的任務。機器人部署在制造業、醫療、農業等諸多行業。[1]經過精心設計,機器人的執行行動可有高精度、長時間持續運行和高效率的特性,從而協助增強人類的能力,拓展人類可以涵蓋的領域。在當今機器人教育領域,人們正在積極合作,共同打造一個綜合性的且涵蓋多學科的研究領域,試圖將理論基礎與實踐經驗結合起來,使學生具備更全面的知識技能。這涉及到機械工程、計算機科學、人工智能和控制系統等多個知識領域的交匯和融合,通過建立一個有凝聚力的機器人學學科,實現培養出既具有理論見解又具有實踐才能的畢業生的目標。

目前機器人教學尚存在一些障礙。其中一個關鍵的障礙是理論概念和機器人實操所需的實際技能之間的差距。學生在從理解抽象理論過渡到在現實場景中運用這些理論時,經常會遇到困難。這一差距顯示了將實踐練習、模擬和互動學習方法納入機器人課程的重要性。[2]此外,機器人技術快速發展也給課程開發帶來了挑戰。隨著機器人技術的發展,教育工作者必須不斷更新課程材料,以反映最新的趨勢和創新,他們需要在提供基礎知識和了解前沿發展之間取得平衡。

本文提出了一種以人體姿態檢測算法為基礎的人機交互教學方案。通過這種教學方法,提高學生的參與度,它可以彌合理論與實踐之間的鴻溝,鼓勵學生深入探究機器人學領域中人機交互的動態和不斷演化的模式。這一方法激發了學生對機器人技術的學術興趣,為他們在塑造科技和自動化領域未來的卓越表現做好了準備。

1 姿態檢測算法

本文所運用的人體姿態檢測算法屬于計算機視覺領域,它的主要目標是從圖像或者視頻流中精確檢測到人體關鍵點位置。目前這一技術在多個領域中發揮重要作用,徐廣等用人體姿態估計模型分析評估太極拳運動過程,改進現有運動問題、激發練習者的興趣,提升他們的體質健康。[3]Fu等人提出用人體姿態檢測算法解決各種場景下健身動作的識別問題,同時評估用戶的運動姿勢,提升用戶的運動訓練質量。[4]

人體姿態檢測算法根據所檢測的關鍵點維度分類,可以分為2D和3D檢測兩大類。2D姿態檢測專注于獲取圖像或者視頻流中的二維人體關鍵點坐標,而3D姿態的檢測則在2D姿態的基礎上增加了深度信息,進而獲取人體關節的三維關鍵點坐標。根據算法的檢測對象還可以分為單人姿態檢測與策略更加復雜的多人姿態檢測。根據算法策略又可以分為基于關鍵點檢測與基于關鍵點回歸兩類。[5]

在2D多人姿態檢測中,算法可以根據工作方式分為自上而下和自下而上兩大類。自上而下的方法首先檢圖像或者視頻中人體的存在和大致位置,這相當于目標檢測,一旦檢測到人體,算法將使用包圍框或者掩膜將檢測目標覆蓋,在此基礎上估計人體的關鍵點和具體姿態。在3D單人姿態檢測中,算法可分為單階段和兩階段兩種方法。單階段方法通常將人體姿態檢測視為一個端到端的任務,從輸入圖像中估計3D姿態信息直接回歸3D姿態;兩階段方法是指采用兩個獨立的模型或模塊,一個用于2D關鍵點檢測,另一個用于3D姿態估計。這種方法的基本思想是首先在輸入圖像中檢測2D關鍵點的位置,然后將這些2D關鍵點的信息用于估計3D姿態。如圖1所示為人體姿態檢測算法的分類。

圖1 人體姿態檢測算法的分類

在人機教學交互領域,滿足實時性要求是至關重要的。為實現這一目標,通常采用自下而上的人體姿態檢測算法,這些算法專注于直接檢測人體關鍵點,以便在多人場景中提供實時的學生與計算機之間的互動和反饋。不同類型的人體姿態檢測算法根據其在不同任務中對準確性和實時性的側重點及平衡而進行分類,提供了多種策略選擇。

2 獲取姿態數據

本文運用的人體姿態檢測算法是依靠訓練精心搭建的神經網絡模型來實現所要完成的目標任務,即檢測人體關鍵點。而模型的訓練離不開大規模人體姿態數據集。目前有許多可供模型訓練、驗證和測試的2D人體姿態數據集,且每張圖片都標注了豐富的信息,例如人體關鍵點的位置,關鍵點個數,是否存在關鍵點遮擋等。而大多數現有的3D人體姿勢數據集都是使用MoCap系統在實驗室環境中捕獲的,由于捕獲數據環境的背景,捕獲圖像的視點以及光照情況受到限制,會對模型的泛化性能造成一定的影響。

2.1 人體姿態數據集

MSCOCO數據集是微軟開發維護的大型圖像數據集,數據集標注類型對應任務包括物體檢測、關鍵點檢測、實例分割、stuff分割,全景分割人體關鍵點,人體密度檢測等。它包含對25萬個人體的關鍵點標注,提供的注釋呈現了二維人體的17關鍵點。如圖2所示,這些圖像說明了各種人體姿勢、不受約束的環境、不同的身體尺度和遮擋模式。MSCOCO系列中的大多數人都是中型和大型的。

圖2 MSCOCO數據集圖片展示

Human3.6 M數據集是目前最大的公開3D人體姿態估計數據集。它包含360萬張3D 人體姿態和對應圖像,涉及11名受試者(5名女性和6名男性),執行7項日?;顒?,例如吃飯、坐著、走路、打電話和拍照等。使用RGB攝像機從17個不同的視角拍攝視頻。2D姿勢可以通過使用已知的內在和外在相機參數投影來獲得,數據集標注的人體骨骼模型共有16個關鍵點。圖3顯示了Human3.6 M 數據采集過程。

圖3 Human3.6 M數據采集過程

2.2 采集設備MoCap系統

MoCap(Motion Capture)系統是一種用于捕捉和記錄三維運動的技術系統,能夠用于人體姿態數據的采集。[6]系統工作的時候,傳感器以特定頻率(fps 60-1000)定位空間中運動的反光點,并在時間軸上連續記錄下反光點3D坐標。在空間定位采集點坐標,理論上只要三個攝像頭同時捕獲到采集點即可,但常見MOCAP攝像頭數量組合為8,12,16,24,32。因為實際工作中情況會復雜一些,比如采集點在被動態連續追蹤過程中,會存在半遮擋或全遮擋的情況,攝像機數量的增加可以增大有效動作采集空間,提高動作數據質量。圖4所示是MoCap系統采集點坐標過程。

圖4 MoCap系統采集點坐標

3 數據預處理

3.1 去噪和平滑處理

數據平滑處理在模型訓練前是一個常見的數據預處理步驟,有助于提高數據的質量和穩定性,從而改善模型的性能和泛化能力。[7]一些平滑濾波器可以幫助模糊圖像,從而減少噪聲的影響。圖5中a圖所示是在圖像中添加噪聲點以模擬實際場景中的圖像干擾,圖5中b圖所示是圖像經過中值濾波處理后的結果,中值濾波是一種非線性濾波方法,它可以有效地去除圖像中的噪聲點,而又不損害圖像中的邊緣信息。

圖5 圖像去噪和平滑處理

3.2 對比度增強

在圖像獲取過程中,由于過曝、欠曝、遮光或者散射等原因,影響圖像的亮度和對比度,進而可能會影響網絡模型對于局部細節的捕捉提取,調整RGB圖像三通道的像素直方圖呈均勻分布,能夠顯著增強圖像的對比度,使細節更清晰可見。[8]它有助于將不同亮度級別的區域更好地分離開來,從而提高圖像質量。圖6中b圖所示是a圖上RGB圖像的像素直方圖,d圖是經過均衡處理后RGB圖像的像素分布直方圖,c圖是均衡處理后的圖像效果,由圖上對比可見,直方圖均衡處理后,圖像的對比度有了明顯提高。

圖6 圖像對比度增強

3.3 去除遮擋和背景

在一些特定任務中,為了使算法可以更容易地關注主要的對象部分,在將圖像數據喂入網絡前,去除目標對象以外的遮擋和背景減少干擾,這有助于提高計算機視覺系統的對象識別準確性。如圖7中a圖所示,在人臉識別、表情分析和面部檢測等應用中,可以使用膚色分割算法輔助識別圖像中的人臉區域,達到b圖的視覺效果,通過在圖像中檢測膚色區域,可以更容易地定位人臉。

圖7 去除圖像背景

4 姿態估計算法

在人機交互機器人課程教學中運用人體姿態檢測算法,為了方便搭建平臺,使用單個相機獲取視頻流,進行2D姿態估計,考慮到交互人員較多,故所選算法需要能夠進行多人姿態檢測,并且人機交互的實時性也十分重要,而自上而下的算法在多人檢測中需要先確定人物區域,然后在這些區域中進行關鍵點識別和拼接。這種方法需要更多地計算資源和時間,會對實時性產生一定影響。自下而上的姿態檢測算法通常相對于自上而下的方法在實時性方面更有優勢,因為它可以在不需要明確定位人物位置的情況下,直接從圖像中提取所有關鍵點信息。綜上所述我們選用Openpose,一種非常受歡迎的2D多人姿態檢測算法,它使用卷積神經網絡(CNN)來檢測人體的關鍵點。如圖8所示,在主干網絡提取淺層特征后,分別將提取到的特征流入兩條支路網絡中,進行多階段回歸關鍵點。每個階段結束,將兩條支路上的特征與淺層特征融合,以便提取更多潛在有用的特征信息。最后將輸出特征圖,映射到原圖尺寸大小,通過非極大值抑制的方法歸回關鍵點,再通過部分親和場計算有拼接關系的兩類關鍵點的拼接置信度,通過匈牙利算法完成關節點的配對拼接選擇,最終獲得完整的2D人體姿態骨架。[9]

圖8 Openpose網絡框架

5 人機交互教學

5.1 人體關節角度的獲取

模型訓練完成后,可在筆記本電腦上運行,圖像采集設備與電腦相連,將捕捉到的實時圖像畫面傳輸給訓練好的模型即可實時監測出人體關鍵點,以便進一步獲取相關數據。如圖9所示,人體姿態被相機采集獲取關鍵點,其中相機坐標系被設為固定坐標系,肩部被設為基坐標系,采集數據過程中,需要保持相機與人體正對,確保采集到所需的計算參數。首先,通過模型的實時監測,可以輸出肩部、肘部和腕部在圖像坐標系下的二維像素坐標,再結合捕獲圖像的尺寸大小推算人體上臂和前臂的實際長度,肩部坐標系下肘部的二維坐標值以及肘部坐標系下腕部的二維坐標值。根據這兩組坐標值和捕獲圖像的尺寸大小,計算出上臂和前臂的投影長度,根據所推算的肢體實際長度和投影長度,即可通過肩部坐標系和肘部坐標系還原肘部和腕部的第三維度坐標,最終根據已求得的信息計算出肩部外收、內展角度,肩部前屈、后伸角度以及肘部彎曲角度。

圖9 關節角度的獲取

5.2 人機交互的實現

模型的實時運行能夠實施檢測出人體運動的上述關節角度,通過TCP發送關節角信息到機械臂,完成對人體姿態的高度復現,從而實現人機交互。在學生與機器人互動的過程中,姿態數據被不斷地捕獲和分析,如圖10 所示,模型輸出的姿態信息被用于控制機器人的動作。[10]這種互動性的教學方法具有多方面的優勢。首先,它使學生能夠將抽象的理論知識轉化為具體的實際操作。透過實際操控機器人,學生得以親身體驗姿態和控制的概念,進一步加深對這些概念的重要性和應用的理解。

其次,互動性的提升使學生能夠實時觀察自身動作如何對機器人的行為產生影響。這種直觀的反饋機制激發了學生的學習興趣和積極性,因為他們能夠迅速察覺到自己的付出所帶來的效果。學生可以嘗試不同的姿態和控制方式,觀察機器人產生的不同反應,從而更深入地理解姿態和控制的概念。

最后,通過編寫代碼來實現不同的機器人行為,學生進一步鞏固了他們的編程和控制能力。他們可以編寫程序來指導機器人執行特定的任務或動作,這不僅提高了他們的計算機編程技能,還培養了解決實際問題的能力??偟牧鞒倘鐖D11所示。

圖11 人機交互總流程圖

通過參與項目設計和展示,學生將姿態識別技術應用于實際的機器人任務中,培養了他們的創造力和實際應用能力,使他們更具競爭力。虛擬人體姿態識別技術的引入還激發了多學科交叉的學習氛圍。學生不僅學習機器人學的原理,還能了解深度學習、傳感技術等多個領域的知識,拓展了他們的學科視野。

5.3 人機交互教學的優點

這種方法有助于促進實踐性教學與概念轉化的融合。通過利用深度攝像頭和傳感器捕獲學生的姿態數據,將那些抽象的理論概念轉變為具體的操作和實際體驗,從而實現了理論與實踐的緊密結合。這種實際操作有助于學生更深入地理解復雜的概念,并將課堂學習與實際應用相互融合。

人機交互互動性的增強能夠激發學生的積極性和興趣。學生通過自己的姿態變化實時影響機器人的動作,直觀地看到其動作如何對機器人產生影響。這種實時的視覺反饋激發了學生的好奇心,使他們更愿意參與課堂活動,提高了學習的主動性,且有利于強化學生的編程和控制能力。學生將自己編寫的控制代碼與實際目標動作進行比較,進一步強化了他們的編程和理解能力。這種對照的編碼練習不僅鞏固了理論知識,還提供了實際檢驗的機會,讓學生更加直觀地理解機械臂的控制。

基于視覺人體姿態識別技術的人機交互教學具備跨學科綜合能力培養的潛力。人機交互教學涉足多個學科領域,包括但不限于機器人學、人工智能、深度學習等。通過參與這種高度綜合性的學習,不僅有助于學生深刻理解特定領域的知識,還能夠培養其跨學科思維和綜合能力,為未來解決復雜問題做好充分準備。

6 結論

綜上所述,基于視覺人體姿態識別的人機交互教學不僅為機器人學教育帶來了創新,同時也為學生提供了理論與實踐相結合的學習方式。當前,國內教育體系相對滯后,適應技術變革能力有待提升。這表現在機器人領域的發展速度迅猛,但教材和課程往往滯后于最新進展,從而限制了學生對最新技術的熟練掌握上。此外,機器人教育過于偏重傳統工程技術,相對較少涵蓋人工智能等前沿領域。學生的跨學科背景和實踐經驗有限,這也影響了教育質量的提升。為了解決這些問題,需要加強教師的培訓,不斷更新教材,優化資源配置,并引入創新的教學方法和多元的評估手段,以更好地培養具備前沿知識和實踐能力的機器人人才。

猜你喜歡
關鍵點姿態人體
人體“修補匠”
聚焦金屬關鍵點
人體冷知識(一)
肉兔育肥抓好七個關鍵點
排便順暢,人體無毒一身輕
攀爬的姿態
全新一代宋的新姿態
跑與走的姿態
奇妙的人體止咳點
醫聯體要把握三個關鍵點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合