?

基于人物交互的學生課堂行為識別研究

2024-03-12 04:07周珍玉秦學蔡芳鄧霞
現代教育技術 2024年2期
關鍵詞:目標檢測

周珍玉 秦學 蔡芳 鄧霞

摘要:深度學習技術促進了學生課堂行為識別研究的發展,為精準刻畫學生的課堂學習行為提供了有效途徑。然而,該方法面臨真實課堂場景下目標多、行為特征復雜等困難,導致行為識別準確率不高?;诖?,文章提出了一種基于人物交互的學生課堂行為識別網絡,將交互對象作為重要特征引入課堂行為識別,首先將原網絡中的檢測模塊替換為YOLOv5s,然后引入歐氏距離減少冗余人-物節點關系,并設計新特征提取算法優化聽課這類無交互物品的學生行為識別,最后通過實驗驗證了此網絡有效性和準確性。文章通過研究,旨在為規?;n堂行為識別研究提供理論參考和實踐借鑒,進一步優化課堂教學效果的過程化評價,促進教學質量提升。

關鍵詞:目標檢測;學生行為識別;人物交互;圖卷積

【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2024)02—0053—09 【DOI】10.3969/j.issn.1009-8097.2024.02.006

課堂教學一直是教育研究的重點,對學生在課堂上的行為進行觀察識別及分析,能夠幫助教師精準掌握其整體學習狀態,從而提供有效干預和指導,改善學習效果,推動教學高質量發展。在課堂教學中,學生作為學習活動的主體,其課堂行為不僅與自身的學習成效密切相關,也是反映教師教學質量的重要參照。傳統的課堂行為識別主要通過人工方式開展,耗時且效率低[1],而隨著計算機視覺技術的發展,深度學習網絡憑借其能夠有效提取課堂視頻中的復雜特征,以及自動識別學生行為動作的優勢,為課堂行為識別提供了一種高效的方案。目前,基于深度學習的學生課堂行為識別處于前期研究階段,主要研究方法是通過面部表情、人體骨架及頭部和姿態估計來識別學生的課堂行為,這種方法雖然能識別學生行為,但缺點是對學生與周圍物品的交互關注不夠。而在真實的教室環境下,很多課堂行為還包含學生和周圍物品的交互,如看書、書寫、玩手機等,分析學生與周圍物品的交互關系,能夠為課堂行為識別提供更多有用的信息,有助于提升課堂行為識別的準確性。人物交互(Human-Object Interaction,HOI)檢測作為視覺關系中的子任務,旨在將場景中的對象與各種語義角色相關聯,從而更精細地了解當前的活動狀態[2],利用HOI技術分析人-物間的交互關系,能為行為識別提供更多有效信息。由此,本研究參考當前基于深度學習的課堂行為識別方法,引入人物交互技術,以看書、玩手機、聽課、書寫四種典型行為為例,分析學生與其周圍物品之間的交互關系,以期提升課堂行為識別的準確性,更好地幫助教師掌握學生的學習狀態,并進行精準的學習指導或干預,同時為智慧課堂的實施提供參考。

一 文獻綜述

當前,采用深度學習技術對教室監控視頻進行分析,以識別學生的課堂學習行為已成為新的研究熱點,并取得了一定的研究成果。例如,Li等[3]基于ESRGAN檢測網絡對課堂監控視頻進行處理,采用YOLOv5s識別出課堂監控圖像中學生玩手機、上課、睡覺等行為;Cao等[4]提出了基于MobileNetV2的改進輕量級網絡,采用C-反相殘差塊代替傳統模塊,提高了網絡的識別精度,同時識別出學生睡覺、書寫等課堂行為;Liu等[5]通過對YOLOv5s網絡中的BN層進行校正,增強了網絡的特征提取能力,有效識別出學生書寫、吃東西、聽課等行為;王澤杰等[6]則結合學生的人體骨架信息特征,識別學生玩手機、起立等典型的課堂行為。這些基于深度學習的學生行為研究方法,通常是直接提取圖像中學生的特征信息來進行行為分類,對特定實驗環境下典型課堂行為的識別效果較為理想,但實際教室場景普遍會受一些客觀因素的影響,包括學生遠近不一、動作較相似、存在遮擋等,這些客觀因素是通用教室監控視頻場景下進行行為識別的難點和挑戰。

大量研究表明,識別一個人的動作行為,不僅要檢測單個目標對象,還需要識別其與周圍物品的交互活動[7]。近年,部分研究人員致力于視覺關系檢測的研究,并取得了重大進展[8],發現相比于目標檢測、圖像分割、動作識別等傳統機器視覺任務,視覺關系檢測更關注對象對之間的語義關系。2015年,Chao等[9]提出用于人物交互的大型數據集HICO,使HOI檢測這一技術取得了重大發展。HOI檢測主要分為單階段和雙階段兩條技術路線:①單階段的HOI檢測直接檢測圖片中的交互行為,但其針對多目標識別時準確率較低。②雙階段的HOI檢測主要分為基于多流分支和基于圖卷積神經網絡兩大研究方向,其中基于多流分支的檢測方法將特征提取、空間關系等分支網絡結合構成多流分支。例如,Kolesnikov等[10]提出BAR-CNN網絡,借助鏈式規則分解概率網絡,對人與物的空間位置關系進行編碼;Wang等[11]提出的IPNet網絡用于預測人-物的交互點,并進行交互關系定位和分類。上述研究方法主要通過提取人與物的外觀特征和空間關系來推理交互關系,但對上下文特征缺乏重視,識別精度還有較大的提升潛力。鑒于此,Wang等[12]提出DCANet網絡,將全局上下文特征整合到人物交互檢測中,使網絡檢測的準確性得到了提升?;趫D卷積神經網絡的檢測方法為人物交互檢測提供了新的思路,該方法將圖神經網絡應用于HOI檢測,將人物間的交互關系構建成解析圖,并利用圖神經網絡捕獲更多上下文特征。借鑒該思想,Gao等[13]提出DRG網絡,利用抽象的空間語義來描述每一組人與物,并通過雙重關系圖聚合場景中的上下文信息。Ulutan等[14]提出的可視空間圖網絡(Visual-Spatial-Graph Network,VSGNet)通過構建人-物之間的交互關系圖,較好地表征了空間關系特征,對人-物交互識別精度有顯著提升??紤]到雙階段VSGNet網絡在識別精度及表征人-物空間關系等方面的優勢,本研究以VSGNet為基礎,提出基于人物交互的學生課堂行為識別網絡,優化和改進目標檢測模塊、人物交互關系構建等環節,從而實現課堂行為識別。

二 基于人物交互的學生課堂行為識別網絡設計與優化

VSGNet網絡由檢測和識別兩階段構成,檢測網絡采用Faster R-CNN檢測圖像中的目標,識別網絡則通過提取人-物對的視覺特征及空間配置信息,利用圖卷積來分析配對之間的結構連接,進而分析、識別人-物交互關系。本研究以VSGNet網絡作為基線,設計了基于人物交互的學生課堂行為識別網絡。同時,考慮到人物交互檢測方法在課堂行為識別中存在一些典型問題,如對筆、手機等小目標和多目標的漏檢和誤檢,對不存在交互物品行為的識別誤差等,本研究將原VSGNet的Faster R-CNN檢測模塊替換為YOLOv5s,并重新設計距離計算方法以減少無效的候選人-物交互關系,然后針對無交互物品行為識別需要改進視覺特征提取算法。

1 目標檢測網絡優化

YOLOv5s是由Ultralytics團隊提出的一種單階段網絡,與雙階段的Faster R-CNN網絡相比,其檢測速度更快[15]。此外,在檢測小目標時,YOLOv5s的檢測精度也超越了Faster R-CNN[16]。在本研究中,第一階段檢測網絡的輸出作為第二階段輸入,檢測階段網絡的準確性是正確識別學生行為的基礎和關鍵所在。因此,本研究嘗試將YOLOv5s網絡應用到教室場景,替換原VSGNet中的Faster R-CNN。

2 基于歐氏距離的交互關系篩選

教室場景下識別的學生課堂行為通常只與學生周圍的物品有關。如果以學生節點為中心,連接圖片中的所有物品節點,會導致節點間連接數量急劇上升,節點數增多,削弱與學生節點真正有關系的物品節點的重要程度,進而影響交互關系的判斷,不利于學生行為的識別。鑒于此,本研究利用歐氏距離對學生節點與物品節點之間的距離進行篩選和優化:取學生檢測框和物品檢測框的中心點作為端點,通過計算兩個端點之間的歐氏距離,縮小物品節點的選擇范圍。計算過程如下:假設學生檢測框坐標為(x1, y1, x2, y2),物品檢測框坐標為(x3, y3, x4, y4),那么學生與物品間的歐氏距離計算如公式(1)所示。

通過對視頻的統計和分析,輸入圖片中學生與桌面物品的歐氏距離與輸入圖片的高(H)的比值小于0.15。因此,將兩個檢測框中心點距離與H比值的閾值設定為0.15,舍棄比值超過0.15的物品節點。圖卷積分支可視化如圖1所示,圖中最大長方形表示整張圖片,中等長方形表示人的檢測框,小長方形表示物的檢測框,人與物檢測框間的直線表示交互關系。其中,圖1(a)表示原圖卷積分支,圖1(b)表示改進后的圖卷積分支。通過對比圖1(a)和圖1(b)可以發現,圖1(b)刪除了大量無效邊,能顯著提升人與真實存在交互關系物品的重要程度,從而提升行為識別準確率。

3 無交互物品行為特征融合算法設計

原VSGNet網絡使用圖卷積網絡來學習學生與周圍物品之間的交互關系,但視頻中“聽課”這一動作類別不存在交互物品,這導致網絡對該動作的識別不夠穩定。針對這一不足,本研究在原網絡中增加了一個無交互物品的行為識別模塊,通過視覺分支獲取學生檢測框中的特征向量和整張圖片中的上下文特征向量。但是原VSGNet視覺分支在提取無交互物的學生特征時存在兩個問題:因池化操作會造成部分特征信息丟失;采用的小卷積核對尺度較大的人物目標識別效果欠佳。鑒于此,本研究提出一個基于上下文的殘差模塊(記為CM_Resnet),由一個可分離大核卷積和一個殘差模塊串聯而成,在不顯著增加網絡復雜度的前提下捕獲更豐富的特征。

基于以上分析,本研究得到無交互物品的學生行為特征提取網絡,其結構如圖 2 所示。該 結構使用 YOLOv5s 網絡檢測出“學生”這一目標,并將對應的檢測框及相關信息輸入該網絡, 經過 ROI+Residual 操作后引入基于上下文的 CM_Resnet 模塊,接下來經過 GAP 處理,得到框 中強化后的學生目標的特征向量 以及整張圖片的特征向量,即上下文特征向量 。最后,將 、 相乘可得到該動作類別概率 。

綜上所述,基于人物交互的學生課堂行為識別網絡結構如圖3所示。首先,對教室監控視頻進行數據預處理,采用YOLOv5s網絡檢測出教室內學生、手機、書本、筆四種目標;然后將檢測結果以形如<學生,動作,物品>的三元組形式輸入識別網絡。識別網絡主要包括視覺、空間注意和圖卷積三個分支。視覺分支使用區域池化ROI提取特征,再經殘差塊Residual、全局平均池化GAP處理,輸出人、物的視覺特征向量。將上述特征向量連接并通過全連接層進行投影,最后得到人-物對的視覺特征向量,其計算如公式(2)所示。其中,Wvis表示投影矩陣,fh、fo、fc分別表示人、物、上下文背景的視覺特征向量。

空間注意分支利用人和物檢測框的位置信息,生成人-物對的空間關系特征向量aho。將aho與視覺特征向量拼接得到,其計算如公式(3)所示。經投影矩陣變換再由Sigmoid函數作用得到人-物對的交互得分iho以及動作類別概率。由于aho編碼了空間配置,因此aho也可用于輔助HOI分類,aho經投影矩陣變換得到動作類別概率。

圖卷積分支利用圖卷積神經網絡將人與物關系表征為圖結構,通過遍歷和更新圖中的節點,提取節點間交互關系的特征,可得圖卷積分支分類預測概率。最后,將三個分支的概率相乘,計算出最終預測的動作類別概率Ρho,其計算如公式(4)所示。

三 教室監控視頻場景下學生課堂行為識別的實驗與分析

1 實驗對象與環境

由于目前還沒有公開的真實教室場景下的學生行為數據集,因此本研究基于真實教室場景下的監控視頻進行數據集制作。課堂監控視頻來自研究團隊承擔課程的5個教室場景,分別是貴州省A大學的大數據專業2019級和2020級共兩個年級的4個教學班級、信管專業2021級的1個教學班級。實驗硬件環境為:CPU采用Intel(R)Core(TM)i7-10700KF,GPU采用NVIDIA GeForce RTX 2060。軟件環境為:操作系統采用Win10,Python版本為3.8.13,深度學習框架采用PyTorch 1.8.0。

2 數據集構建

該數據集來源于真實教學場景下的課堂監控視頻,本研究通過分析監控視頻,發現學生上課時的行為在連續時間內變化幅度較小,故以50幀一張的間隔抽取圖片,圖片的分辨率為1920×1080。本研究選取了5個不同教室的監控視頻進行圖片抽取,每張圖片包含10~15位學生,共計1963張圖片,學生實例16685個。本研究將得到的數據集分為訓練集和測試集兩部分,同時按照4:1的比例劃分,即訓練集1571張,測試集392張。通過分析目前現有的數據集,發現學生課堂行為主要集中在Look(看書)、Play(玩手機)、Listen(聽課)、Write(書寫),因此本研究主要這四種學生課堂行為進行研究。

3 實驗流程

本研究的實驗分為三個步驟:①分析課堂監控視頻抽取圖像幀,確定典型課堂行為,并完成行為標注。②將實驗數據集分為訓練集和測試集兩部分,同時按照4:1的比例劃分。③基于構建的數據集,對本研究提出的基于人物交互的學生課堂行為識別網絡(記為Our_method)進行訓練,依次驗證其整體性能及各優化改進模塊的有效性。

4 實驗結果與分析

為驗證基于人物交互的學生課堂行為識別網絡及其優化方案的可行性和有效性,本研究根據實驗流程展開多項驗證、消融和對比實驗。評價依據采用深度學習領域常用的關鍵性能指標:平均精度(mean Average Precisio,mAP)、精確率(Precision,P)、召回率(Recall,R)。

(1)基于人物交互的學生課堂行為識別網絡整體性能分析

基于構建的真實課堂場景學生行為數據集,各動作類別的平均準確率實驗結果如表1所示。從表1可以看出,Look、Play、Write三種課堂行為的精度均有提升(分別提升了2.56%、3.49%、2.55%),驗證了本研究對原網絡中圖卷積分支的物節點設置閾值進行篩選可提高網絡識別性能的結論。此外,改進后的網絡能識別出學生“聽課”這一課堂行為,證明了本研究對不存在交互物品的“聽課”動作進行重新規劃并計算其動作類別概率具有理論可行性。從實驗結果可得出,本研究改進方案是可行的,且達到了預期識別效果。

圖4則更為直觀地展示了該網絡的識別結果,可以看出,改進后的網絡能較準確地識別學生Look、Write、Play三種課堂行為。最后一幅圖片顯示,網絡也能成功識別“Listen”行為。

(2)改進目標檢測網絡的驗證結果分析

依據本研究的設計,將原網絡中的Faster R-CNN替換為YOLOv5s后,實驗結果如表2所示。表中的mAP、P、R分別提升了3.54%、2.6%、4.9%,平均檢測速度更是快了近2.93倍??梢?,針對實際教室場景中的多目標檢測更宜采用YOLOv5s網絡,其檢測效果如圖5所示。

(3)圖卷積改進模塊消融實驗分析

為進一步分析識別階段的兩處優化對行為識別網絡的性能提升,本研究設計了相應的消融實驗,其結果如表3所示。實驗數據表明,本研究提出的課堂行為識別網絡的識別精度明顯提升,其中mAP提升了3.85%,平均檢測時間下降了34.6%。在方案2中,縮短了物節點遍歷范圍后,平均檢測時間明顯縮短,提升了約1.53倍。從方案3的實驗結果可以看出,引入CM_Resnet模塊后,平均檢測時間增加了0.0064s,僅增加了2.73%,而精度提升了1.46%,進一步說明了CM_Resnet模塊能提取到更加豐富的特征,驗證了引入該模塊的理論可行性。

(4)不同網絡性能的對比實驗

為驗證本研究提出的整體改進網絡的可行性和通用性,本研究將整體改進后網絡與主流的DCANet、DRG、IPNet等人物交互識別網絡在教室監控視頻數據集上進行對比實驗,實驗結果如圖6所示。從圖6可知,DCANet網絡的識別表現較差,這是由于其對圖片中的目標特征提取不充分導致的;IPNet網絡主要通過計算人與物的檢測框之間的交互向量對行為進行分類,但將其應用于教室場景時,由于教室內目標與目標之間的間距較小,容易誤判;DRG網絡識別結果僅次于基線網絡VSGNet,與VSGNet不同的是,DRG只利用圖網絡,將人與物關系表示為對偶關系圖,導致圖中關系很密集,并且沒有考慮到人與物之間的空間關系。

此外,在本研究提出的網絡訓練前期即前40次迭代中,mAP沒有其他網絡高,這是因為網絡訓練前期學習到的特征還不充分,而經過40次迭代后,Our_method學習到足夠多的特征,mAP開始逐步提升并優于其他網絡??梢?,Our_method更適合用于教室場景下的學生課堂行為識別任務。

四 結語

本研究通過分析學生與周圍物品的交互關系,提出了一種基于人物交互的學生課堂行為識別網絡,利用學生與周圍物品的交互關系,重點對學生的四種典型課堂行為進行了識別,并經實驗驗證了本研究的有效性和可行性。但與此同時,本研究也還存在一些不足:①在學生課堂行為識別網絡的檢測階段,仍存在目標對象漏檢問題;②由于攝像頭位于教室前側方位,所拍攝的監控視頻存在較小的角度偏移,不利于特征提取,因此影響了目標檢測精度和人物關系篩選。后續研究將繼續改進檢測網絡,減少小目標物品的漏檢誤檢;擴充數據集,增加課堂場景及行為的多樣性,進一步提升網絡識別行為的準確率和實用性,以更好地推動規?;n堂行為分析,促進課堂教學改革與優化。

參考文獻

[1]徐家臻,鄧偉,魏艷濤.基于人體骨架信息提取的學生課堂行為自動識別[J].現代教育技術,2020,(5):108-113.

[2]Gao C, Zou Y, Huang J B. iCAN: Instance-centric attention network for human-object interaction detection[OL].

[3]Li L, Liu M, Sun L, et al. ET-YOLOv5s: Toward deep identification of students in-class behaviors[J]. IEEE ACCESS, 2022,10:44200-44211.

[4]Cao D, Liu J, Hao L, et al. Recognition of studentss behavior states in classroom based on improved mobile netV2 algorithm[J]. International Journal of Electrical Engineering & Education, 2023,60:2379-2396.

[5]Liu S, Zhang J, Su W. An improved method of identifying learners behaviors based on deep learning[J]. The Journal of Supercomputing, 2022,(10):12861-12872.

[6]王澤杰,沈超敏,趙春,等.融合人體姿態估計和目標檢測的學生課堂行為識別[J].華東師范大學學報(自然科學版),2022,(2):55-66.

[7]Siadari T S, Han M, Yoon H. Three-stream network with context convolution module for human-object interaction detection[J]. ETRI Journal, 2020,(2):230-238.

[8]Yu D, Xu Z, Fujita H. Bibliometric analysis on the evolution of applied intelligence[J]. Applied Intelligence, 2019,(2):449-462.

[9]Chao Y W, Wang Z, He Y, et al. HICO: A benchmark for recognizing human-object interactions in images[A]. 2015 IEEE International Conference on Computer Vision (ICCV)[C]. Santiago, Chile: IEEE, 2015:1017-1025.

[10]Kolesnikov A, Kuznetsova A, Lampert C, et al. Detecting visual relationships using box attention[A]. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)[C]. Seoul, Korea (South): IEEE, 2019:1749-1753.

[11]Wang T, Yang T, Danelljan M, et al. Learning human-object interaction detection using interaction points[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Seattle, WA, USA: IEEE, 2020:4115-4124.

[12]Wang T C, Anwer R M, Khan M H, et al. Deep contextual attention for human-object interaction detection[A]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV)[C]. Seoul, Korea (South): IEEE, 2019:5693-5701.

[13]Gao C, Xu J, Zou Y, et al. DRG: Dual relation graph for human-object interaction detection[A]. ECCV 2020: Computer Vision - ECCV 2020[C]. Cham: Springer, 2020:696-712.

[14]Ulutan O, Iftekhar A, Manjunath B S. VSGNet: Spatial attention network for detecting human object interactions using graph convolutions[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Seattle, WA, USA: IEEE, 2020:13614-13623.

[15]Li M L, Sun G B, Yu J X. A pedestrian detection network model based on improved YOLOv5[J]. Entropy, 2023,(2):381.

[16]楊睿寧,惠飛,金鑫,等.改進YOLOv5s的復雜交通場景路側目標檢測算法[J].計算機工程與應用,2023,(16):159-169.

Research on Classroom Behavior Recognition of Students Based on Human-object Interaction

Abstract: Deep learning technology promotes the development of research on students classroom behavior recognition, which provides an effective approach to accurately depict students classroom learning behaviors. However, the method faces many difficulties in real classroom scenarios, such as multiple targets and complex behavior characteristics, resulting in low accuracy of behavior recognition. Based on this, this paper proposed a classroom behavior recognition network for students based on human-object interaction, which incorporated interactive objects as key features into classroom behavior recognition. Firstly, the detection module in the original network was substituted with YOLOv5s. Secondly, the Euclidean distance was employed to reduce redundant human-object node relationships. Meanwhile, a new feature extraction algorithm was designed to optimize such behavior recognition of students listening without interactive objects. Finally, the effectiveness and accuracy of this model were verified through experiments. Through research, this paper was expected to provide theoretical reference and practical experience for the research on large-scale classroom behavior recognition, and further optimize the procedural evaluation of classroom teaching effects, therefore promoting the improvement of teaching quality.

Keywords: object detection; students behavior recognition; human-object interaction; graph convolutional

猜你喜歡
目標檢測
多視角目標檢測與跟蹤技術的研究與實現
視頻中目標檢測算法研究
行為識別中的人體運動目標檢測方法
移動機器人圖像目標識別
基于視頻監控的運動圖像檢測算法研究
基于背景建模法的運動目標檢測
基于P3電位的目標檢測研究
智能視頻技術在電力系統領域的應用
相關K分布雜波中擴展目標積累檢測性能分析
基于連通域標記的目標檢測算法設計與實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合