?

多模態數據融合:破解智能教育關鍵問題的核心驅動力

2022-03-27 10:28王一巖鄭永和
現代遠程教育研究 2022年2期
關鍵詞:學習投入人機交互

王一巖 鄭永和

摘要:多模態數據融合旨在利用不同模態數據之間的信息互補機制提升數據分析的準確性,實現對學習主體和學習情境的精準刻畫,進而還原教學過程全貌,挖掘深層次的教育規律,其已逐漸成為智能教育領域重要的技術方法和研究思想。智能教育領域常見的多模態數據類型包括外在行為表征數據、內在神經生理信息數據、人機交互數據以及學習情境感知數據。多模態數據的融合策略主要包括數據級融合、特征級融合和決策級融合,在數據分析的不同階段選取恰當的融合策略,可以提升數據分析的準確性。在智能教育領域,多模態數據融合主要應用在人機交互分析、學習者情緒識別、學習投入分析、學業表現預測、學習情境感知五個方面。充分發揮多模態數據在學習過程感知和建模中的核心作用,可以實現對學習過程的有效還原和對學習規律的科學解釋。多模態數據融合充分體現了基于數據密集型科學的教育科學研究范式變革,未來應著力于面向多元學習主體和學習情境的全時空多維度數據采集、基于多模態數據融合的學習者認知發展規律研究、基于多模態數據感知與融合的智能教育產品研發以及多模態數據采集的技術倫理問題等四個方面,構建智能時代教育科學研究的新樣態。

關鍵詞:多模態數據融合;智能教育;情緒識別;學習投入;情境感知;人機交互

中圖分類號:G434 ?文獻標識碼:A ? ?文章編號:1009-5195(2022)02-0093-10 ? doi10.3969/j.issn.1009-5195.2022.02.011

基金項目:國家重點研發計劃“文化科技與現代服務業”重點專項“面向終身學習的個性化‘數字教師’智能體技術研究與應用”子課題“面向終身學習的自適應教育關鍵技術”(2021YFF0901003)。

作者簡介:王一巖,博士研究生,北京師范大學教育學部(北京 100875);鄭永和(通訊作者),教授,博士生導師,北京師范大學科學教育研究院院長(北京 100875)。

物聯網、大數據、人工智能等新興技術與教育教學的深度融合推動了智能教育研究的實踐進程,逐漸勾勒出以學習主體和學習情境的數據化表征為依托、以數據密集型科學的研究思想為指導、以智能時代教育現象的解釋和教育規律的發現為目標的教育科學研究新樣態。在此背景下,多模態數據融合逐漸受到智能教育領域相關研究人員的重視,其作為一種新的技術手段和研究思想被應用于智能教育研究的諸多場景。研究者通過對學習者和學習情境多種模態數據的采集分析,以及利用多模態數據之間的信息互補來提升數據分析的準確性,還原教學過程全貌,探究深層次教育發展規律,以此推動智能時代的教育科學研究。那么,為什么要使用多模態數據?什么樣的數據能被稱為多模態數據?多模態數據之間怎樣融合?多模態數據在智能教育領域的應用場景有哪些?它能為智能教育研究的開展帶來怎樣的影響?本文通過對智能教育領域多模態數據融合的應用潛能、研究現狀和實踐進路的梳理,嘗試對以上問題進行解答,以期為后續相關研究的開展提供借鑒。

一、智能教育領域多模態數據融合的應用潛能

多模態數據融合是近年來智能教育領域關注的熱點話題,并逐漸成為智能教育領域重要的技術方法和研究思想。模態是一個橫跨自然科學和社會科學的概念,關于模態的解釋主要有查理斯的符號系統說和克瑞斯的交互方式說(王慧君等,2015)。前者認為模態是可以被具體的感知過程解釋的社會符號系統(Kress,2010),例如聲音、圖像、文字等;后者認為模態是人類通過感覺器官建立的與外部環境之間的交互方式,如視覺、聽覺、觸覺、嗅覺、味覺等。人工智能領域對于模態的解釋偏向于“機器對外界信息的感知模式或信息通道”(Lahat et al.,2015),認為“每一種信息的來源或者形式”都可以稱為一種模態,既包含信息的表征形態和感知通道,又包含基于多種感知設備的數據采集方式。例如:用于表征學習者情緒、專注度等特征的話語、表情、身體姿態等數據可以被視為多模態數據;用于表征構成完整教育情境的學習者、教師、教學資源、教學媒體、教學活動等數據也可以被視為多模態數據。

1.多模態數據融合是一種感知和理解世界的新視角

關于多模態數據融合的科學依據可以從以下幾個維度展開討論:第一,事物的存在方式是多模態的。從社會符號系統的角度看,任何事物的存在方式都可以用聲音、文字、圖像來表示,而綜合文本、語音、圖像等的多模態符號系統可以在更大程度上表征事物存在的基本樣態。比如要表示一幅圖畫,人們可以單純地將圖畫呈現給觀眾(圖像模態),也可以輔之以相應的文字對圖畫中的內容加以解釋(圖像+文本模態),還可以通過語音講解對圖畫的內容進行描述(圖像+文本+語音模態)。第二,人對世界的感知方式是多模態的。人對世界的感知主要通過視覺、聽覺、嗅覺、觸覺、味覺等感知通道來實現?!安煅杂^色”表達的就是聽人說話,不僅要“聽其言”,更要“觀其行”,只有調動多種感知通道,才能夠形成對事物存在方式的良好感知。第三,人工智能的學習是多模態的。人工智能是通過對外部信息的加工、處理和意義建構來模擬人類智能的技術,其核心研究領域中的自然語言處理、語音識別、計算機視覺分別是模擬人類對文本、語音和圖像數據的感知、加工和處理機制的智能計算邏輯。因此,要形成對事物存在方式的深度理解,只利用某一種模態的數據是遠遠不夠的,這就需要利用多模態數據融合的方法對不同模態數據表征的信息進行融合分析,以此形成對外界事物完整的意義建構(王一巖等,2021a)?;诖?,有學者認為多模態學習是未來人工智能發展的必然趨勢,關于多模態機器學習的相關研究也越來越受到人工智能領域相關學者的關注(Baltru?aitis et al.,2018)。

2.多模態數據融合是智能技術教育應用的關鍵落腳點

物聯網、大數據、人工智能等新興技術的發展為多模態數據的感知與融合提供了理論和技術支持,多模態數據融合也在一定程度上促進了相關領域的研究進程。多模態數據的感知與融合是智能技術教育應用的核心,能夠凝聚物聯網、人工智能、大數據等技術的核心效用,共同助力教育研究的數據化、科學化、智能化發展(鄭永和等,2021)。

(1)“多模態”之于物聯網教育應用

物聯網和智能感知技術的發展為多模態信息感知提供了底層技術支持。利用智能感知設備實現對事物存在狀態和運動方式的多通道智能感知,為多模態數據的采集提供底層硬件支持,在很大程度上實現了對學習者和學習情境的多元化數據表征。智能感知技術和物聯網技術在教育領域的應用包括:一是利用攝像機、眼動儀、腦電儀、皮膚電、智能手環等設備對學習者的外在行為和內在生理信息進行多通道的數據采集,并以此為依據對學習者的行為、情緒、專注度等狀況進行精準分析。二是利用溫度傳感器、光線傳感器、紅外感應器、攝像機等設備實現對課堂教學情境的全方位感知與智能分析,利用多模態數據實現對課堂教學情境的智能感知與融合計算。三是利用物聯網技術構建面向智慧校園的全方位監測體系,對學生的體育運動、身體健康、出行軌跡、食堂消費、課堂表現、學業成績等數據進行實時監測,實現面向學習者的多場景、多通道、多維度的數據采集,并以此為依據實現對學習者全方位的測評分析。

(2)“多模態”之于人工智能教育應用

多模態數據融合和人工智能教育應用之間的聯系較為緊密。一方面,以自然語言處理、計算機視覺、語音識別、生理信息識別為代表的人工智能前沿技術的快速發展為教育領域的多模態數據融合研究的開展奠定了基礎,多模態機器學習技術的成熟更是為多模態數據的融合提供了良好的技術解決方案。另一方面,以教育智能體、智能導學系統、教育機器人、自適應學習系統為代表的智能教育產品的設計與實現均需借助多模態數據感知與融合的方法實現機器與學習者之間的自然交互(王一巖等,2021b)。通過對學習者學業測評、心理測評、外在行為、生理信息等數據的融合分析,可以實現對學習者行為、情感、學習投入、學習動機等的精準測評,從而幫助機器更好地理解學習者的學習意圖,并為其提供適切性的學習支持服務。

(3)“多模態”之于大數據教育應用

多模態數據對于大數據教育應用的深入開展具有重要的導向作用。其一,多模態數據豐富了大數據的表征形態。多模態數據能夠從多個視角、多種形態、多個信息來源對事物的存在方式進行表征和計算,利用面向個體、群體、資源、環境的多源異構數據對真實的教育情境進行精準建模分析,在最大程度上還原教學生態系統的全貌。其二,多模態數據提升了大數據的價值密度。當前,大數據已被諸多領域關注,它在帶來真實、多樣、海量數據的同時,其相對較低的價值密度也引發了一定的詬病。多模態數據融合為該問題的解決提供了良好的理論和技術支持,它能夠借助智能感知技術對事物的存在方式進行多個維度的量化表征,從而利用不同模態數據之間的信息互補機制提升數據的價值密度。

二、多模態數據的類型和融合策略

1.多模態數據的類型

從智能教育領域多模態數據融合的研究現狀出發,本文在對相關研究成果進行系統分析的基礎上,將多模態數據融合中常見的數據類型概括為以下四種。

(1)外在行為表征數據

外在行為表征數據主要包括個體的話語、表情、手勢、身體姿態等言語行為和非言語行為數據。在真實的研究問題中常見的外在行為表征數據類型主要有以下兩種:一是基于文本、語音、視頻的多模態數據。在人工智能領域,多模態數據被定義為融合文本、語音、視頻的數據表征模式。利用自然語言處理、語音識別、計算機視覺等相關方法構建的多模態分析模型,可實現對研究對象的多元解釋。例如卡內基梅隆大學Zadeh等(2018)開展的多模態情感識別研究,通過對研究對象文本、語音和視頻數據的融合分析實現對個體情緒狀態的精準識別。二是基于面部表情和身體姿態的多模態數據。計算機視覺領域強調利用研究對象的面部表情(例如眼睛、嘴巴等表情特征)和身體姿態(例如頭部姿態等肢體特征)等多模態數據實現對其潛在狀態進行挖掘分析,如Ashwin等(2020)構建了基于在線學習和真實課堂環境下學生面部表情、手勢和身體姿態的多模態情感數據庫,利用多模態數據之間的信息互補機制對學習者的情緒狀態進行精準識別。

(2)內在神經生理信息數據

內在神經生理信息數據的采集建立在多模態生物識別技術基礎上。利用多種智能傳感設備,可對研究對象的呼吸、心跳、脈搏、眼動、皮膚電、腦電、血氧、激素分泌水平等生理信息數據進行采集和融合分析,并對其情感狀態、學習投入等特征進行識別。例如Verma等(2014)利用DEAP(Database for Emotion Analysis Using Physiological Signals)數據庫給出的腦電數據和外周生理數據(皮膚電反應、血壓、呼吸、皮膚溫度、肌電圖等)實現了基于多模態數據融合的情緒識別。與基于外在行為表征數據的測評方式相比,基于神經生理信息的多模態數據感知能夠克服研究對象主觀意識對外在行為表征的影響,從而更加客觀地反映研究對象的真實狀態,因此該類數據逐漸被廣泛應用于教育學、心理學、醫學等領域的研究。

(3)人機交互數據

基于人機交互的多模態數據主要關注學習者在操作人機交互設備過程中產生的點擊、指紋、觸覺、壓感、筆跡、手勢、文本輸入、語音交互、面部表情等數據。例如:Schrader等(2020)利用學習者在使用平板電腦過程中的筆壓力參數測量學生的愉悅感和沮喪感;Su等(2016)利用學習者的面部表情數據和文本輸入數據對學習者的情緒狀態和學習情境進行識別。隨著智能技術的發展和智能教育產品的成熟,人機協同學習將成為未來教育的重要組成部分。因此,利用多模態人機交互數據實現對學習過程的有效還原,將會成為未來智能教育領域的重要方向。

(4)學習情境感知數據

上述多模態數據大多針對個體在特定時空情境下單一特征的描述。然而,由于教育情境的復雜性,學者們研究的教育問題往往不僅需要針對學習者單一特征的測量,而且需要利用多源異構數據實現對完整教育情境的精準刻畫,從而實現對教學生態的完整表征(穆肅等,2021)。因此,對于學習情境信息的數據化表征是未來智能教育領域研究的重點,通過對構成教育情境的人、機、物、環境等要素的智能感知與精準測評,從數據感知層面對學習情境進行全方位的測評分析,實現對教育規律的深層次挖掘分析。學習情境感知數據主要包括教師的教學行為、教學風格、教學內容、教學資源、教學設備、教育服務、教學活動、教學環境以及學生的行為、認知、情感特征數據等(王一巖等,2021c)。例如Bao(2013)認為可以利用多模態傳感設備對個體在不同情境中的信息進行采集,實現對個體位置、活動、意圖、行為和交互的數據記錄與行為推斷,從而實現對個體特征的細致刻畫和對教育情境的精準感知。

2.多模態數據的融合策略

多模態數據融合旨在利用機器學習和深度學習的方法對不同模態的數據進行融合分析,從而利用不同模態數據之間的信息互補機制,提升數據分析的有效性。常見的多模態數據融合策略主要有三種:數據級融合、特征級融合和決策級融合。

(1)數據級融合

數據級融合也叫前期融合,是將多個模態的數據融合成一個單一的特征矩陣,然后輸入到機器學習的分類器中進行訓練。例如Gouizi等(2011)利用國際情感圖片系統提供的圖片來測驗被試的情感狀態,通過對肌電圖、呼吸量、皮膚溫度、皮膚電等數據的采集,利用數據級融合的策略將不同模態的數據拼接成一個完整的特征矩陣,然后輸入到支持向量機(Support Vector Machine,SVM)模型中對被試的6種基本情緒(喜悅、悲傷、恐懼、厭惡、中立和娛樂)進行分類,達到了85%的準確率。Lai等(2019)利用生理信息采集設備對學習者的皮膚電、腦電、心率、肌電圖數據進行采集,并將其存儲為相應的特征矩陣,再通過矩陣的變換將不同模態的數據拼接成一個特征矩陣,實現數據級的多模態融合,最后將處理后的特征矩陣輸入到基于SVM的情感分類模型中進行訓練,以此對學習者的情緒狀態進行識別。數據級融合的缺點在于原始數據通常包含大量的冗余信息,需要采用一定的特征提取方法對數據進行處理,這在一定程度上增加了數據處理的復雜性,且數據級融合無法充分發揮多個模態數據間的信息互補機制。

(2)特征級融合

特征級融合也叫中期融合,是指將不同的模態數據先轉化為高維特征表達,然后利用不同模態數據在高維空間上的共性特征選取適當的位置進行融合。常用的方法有基于簡單操作的方法、基于注意力的方法和基于張量融合的方法。其優勢在于能夠對每種模態的數據選用最合適的特征提取模型進行處理,盡可能地保留數據的原始信息,再在模型的中間層選取合適的位置進行特征融合,能夠充分實現不同模態數據之間的信息互補,且在操作層面具有較強的靈活性,因此特征級多模態數據融合策略逐漸被廣泛應用。例如Chen等(2019)利用特征級融合的方法實現了基于文本和語音數據的多模態情感識別。該研究團隊構建了基于神經網絡的文本情感特征提取模型和語音情感特征提取模型,分別對文本和語音數據進行處理,生成了一個文本情感特征向量和一個語音情感特征向量,最后利用基于注意力的方法將文本和語音數據的情感特征向量進行融合,以此對研究對象的情緒狀態進行識別。研究結果表明,基于特征級融合的方法能夠顯著提升多模態情緒識別的準確度。又如Majumder等(2018)提出了一種基于層次融合和上下文建模的多模態情感分析模型。他們先分別利用深度卷積神經網絡模型(DCNN)、OpenSMILE軟件、3D-CNN模型對文本、語音、視覺特征進行提取,然后利用門控循環神經網絡(Gated Recurrent Unit,GRU)對上下文進行建模,并分別構建了基于“文本—語音”“文本—視頻”“語音—視頻”的二維融合模型,再將從三個二維模型中提取到的特征進行融合,最終形成了一個三維特征矩陣用于對個體的情緒狀態檢測。研究結果表明,該模型的情感分類準確率顯著高于現有模型。

(3)決策級融合

決策級融合也叫后期融合,是指對不同模態的數據分別選取適合的分類器進行訓練,并對每種模態分類器輸出的標簽值進行打分之后融合。決策級融合的優勢在于,融合模型的錯誤來自不同的分類器,往往互不相關,不會造成錯誤的進一步累加。常見的后期融合方式包括最大值融合、平均值融合、貝葉斯規則融合以及集成學習等。例如Huang 等(2019a)分別利用CNN和SVM方法對個體的面部表情數據和腦電數據進行處理,并采用基于枚舉權重和Adaboost的決策級融合策略將面部表情與腦電信號表征的情感狀態進行融合,結果表明,兩種決策級融合策略都能夠取得較好的結果。Huang等(2019b)關注社交媒體中基于“圖像—文本”的多模態情緒識別,首先構建了基于CNN和注意力機制的圖像情感分類模型和基于長短時記憶網絡(Long Short-Term Memory,LSTM)和注意力機制的文本情感分類模型,分別對圖像和文本數據所表征的情感狀態進行檢測,在此基礎上提出了一種基于特征級融合的多模態注意力情感分類模型,利用圖像和文本特征之間的內部相關性進行多模態情感分類,最后利用后期融合策略將三個情感分類模型進行有機結合,實現了對社交媒體的情感狀態的預測。從多模態數據融合的一般規律來講,多模態數據所表征的信息并非完全獨立,不同模態的數據在一定程度上可以互相補充,而后期融合的方法一般會忽略不同模態數據之間的信息互補機制,最終未必會取得比單一模態數據更高的準確度。

三、智能教育領域多模態數據融合的研究現狀

通過對近年來國內外智能教育領域多模態數據應用現狀的系統梳理,本文將多模態數據融合在智能教育領域的應用主要概括為多模態數據支持的人機交互分析、學習者情緒識別、學習投入分析、學業表現預測、學習情境感知5個方面。

1.多模態數據支持的人機交互分析

隨著人工智能技術的發展,智能導學系統、教育機器人、教育智能體等智能教育產品逐漸進入真實的教學場景中,并為學習者和教師提供一系列的智能教育服務。在此背景下,如何實現人與機器之間的自然交互,促進人機協作學習的有效開展,是智能教育研究領域需要解決的關鍵問題。多模態數據支持的人機交互分析能夠更好地對學習者的行為和生理信息進行感知,利用多模態數據融合的方法更好地理解學習者真實的學習意圖和學習需求,并為其提供更加適切的學習支持服務。

以智能導學系統為例,傳統的智能導學系統大多利用鼠標和鍵盤等人機交互設備實現學習者與系統之間的交互,通過鼠標的點擊流數據和鍵盤的文本輸入數據對學習者的學習過程、學習成效和學習反饋信息進行記錄。而融合了各種智能傳感設備的智能導學系統通過對學習者話語、表情、身體姿態等行為數據和眼動、腦電、皮膚電等生理信息數據的采集,實現了系統與學習者之間的多模態交互(屈靜等,2020),有助于更好地對學習者的學習狀態進行多元感知,并為其提供適切性的學習支持服務。代表性研究有:Kaklauskas等(2015)構建了納入自我認知和自尊測評的智能導學系統,在基于鼠標和鍵盤的人機交互設備的基礎之上,構建了面向學習者認知和情緒測評的生理分析系統,利用眼動儀、腦電圖、無線血壓監測儀、無線脈搏血氧儀等感知設備對學習者的眼動、腦電、血壓、脈搏等多模態生理信息數據進行采集,以此實現對學習者情緒狀態的智能感知,并為其提供自適應的學習路徑規劃服務;Su等(2016)構建了基于人臉識別和語義識別的情感導學系統,可利用學習者的面部表情數據和文本輸入數據對學習者的情緒狀態和學習情境進行識別,并為其選取合適的教學策略和教學資源,通過教學代理實現用戶和系統之間的交互,使學習者獲得良好的學習體驗。

教育機器人的開發更需要通過采集學習者語音、動作、表情等數據,利用語義分析、情感分析、專注度識別等技術對學習者所要表達的核心觀點進行精準分析,并以此為基礎對學習者真實的學習需求進行診斷(盧宇等,2020)。Chen等(2020)的一項研究中,學習者與教育機器人在面向詞匯掌握的學習游戲中開展人機協作學習,研究結果表明教育機器人支持的人機協作學習有助于提升5~7歲兒童的語言學習能力。

2.多模態數據支持的學習者情緒識別

多模態數據支持的學習者情緒感知是近年來智能教育領域研究的熱點話題,其主要利用自然語言處理、語音識別、計算機視覺、生理信息識別等技術實現基于學習者話語、表情、身體姿態等外顯行為數據和心跳、眼動、腦電、皮膚電等內在生理信息數據的融合分析,對學習者個體的情緒狀態進行精準識別,以此對學習者的學習投入、學習興趣、學習動機、學習風格等特征進行深入的挖掘,進而為學習者提供個性化的學習支持服務(王一巖等,2021d)。具有代表性的研究有:Shen等(2009)通過構建基于學習者心率、血壓、皮膚電導和腦電信號的多模態情感數據集,對學習者的好奇、困惑、無聊和期待四種情緒狀態進行識別,達到了86.3%的準確率;并提出了一種基于學習者和學習情境信息的學習情感模型,其可根據學習者的情感狀態、認知能力、學習目標以及學習者與學習系統之間的交互情況為學習者提供自適應的學習支持服務。北京師范大學的研究團隊關注真實課堂教學環境下學習者的情感發生機制,構建了基于學習者的面部表情、眼睛動作、頭部姿勢、身體動作和手勢等信息的多模態情感數據集BNU-LSVED(Sun et al.,2016)和BNU-LSVED 2.0(Wei et al.,2017),對學習者在課堂教學過程中實時的情緒狀態進行識別。Ashwin等(2020)利用真實課堂環境下學習者的面部表情、手勢和身體姿態數據對學習者的無聊、參與和中性情緒進行識別,提出了兩種分別面向個體和群體的CNN模型,并基于此構建了一種新型混合卷積神經網絡模型對班級整體的情緒狀態進行預測。

3.多模態數據支持的學習投入分析

學習投入是學習過程監測和學業表現測評的重要指標,反映了個體學習過程中的認知深度、思維靈活性和情感體驗。對于學習者學習投入的精準測評是現階段智能教育領域關注的重要議題,其主要通過對完整學習過程中學習者“行為投入”“認知投入”和“情感投入”的綜合測評來反映學習者真實的學習參與情況,并以此對課堂教學的成效進行綜合評估。當前有關學習者學習投入的測評研究主要關注多模態數據在學習投入分析中的潛在價值。例如有研究者利用學習者的外在行為數據和內在生理信息數據實現對學習投入的多元表征,以提升學習投入分析的準確度(張琪等,2020)。具有代表性的研究有:Li等(2020)構建了基于紅外圖像數據、面部表情數據和鼠標點擊數據的多模態數據集,利用CNN的方法對學生在在線學習中的參與度進行檢測,實現對多模態數據的融合分析;Ashwin等(2018)構建了基于學習者面部表情和身體姿態的多模態數據集,利用卷積神經網絡的方法對真實課堂教學過程中學習者的參與度進行識別,達到了89%的準確率。

4.多模態數據支持的學業表現預測

多模態數據支持的學業表現預測主要利用學習者的外顯行為信息和內在生理信息預測學習者的學習效果和學業發展狀況,并以此對學習者進行適當的學業預警和學習干預,促進學習效果的提升。代表性研究有:Giannakos等(2019)進行了一項基于游戲的實驗研究,為17個用戶設計了251個游戲環節,構建了基于點擊流、眼動、腦電圖、面部表情、腕帶數據的多模態數據集,利用Lasso回歸模型對學習者的技能發展情況以及對復雜任務的處理能力進行預測。研究結果表明,傳統的點擊流模型在預測學習成效時錯誤率達到39%,而利用多模態數據融合的方法能夠使錯誤率下降到6%。Olsen等(2020)利用智能導學系統對25個9~11歲的二人組的眼動、日志、音頻和對話數據進行采集,利用多模態數據對協作學習活動中學習者的學業表現進行預測,研究結果表明:相比于單模態數據,多模態數據更能夠實現準確的學習成效預測。還有一些學者關注學習者在不同場景或情境下的行為表現,并以此對其學業表現進行預測。例如,Chango等(2021)利用學生在理論課、實踐課、在線課程中的出席次數、座位排布、注意力集中情況、做筆記的時長、在線學習活動中的行為表現和交互數據構建了面向學習者行為投入的多模態數據集,利用多種機器學習模型對學習者在混合課堂中的學業表現進行預測;Di Mitri等(2017)構建了基于學習者的心率、步數、環境和學習活動的多模態數據集,利用機器學習方法對學習者在自我調節學習中的學業表現進行預測,證明基于多模態數據融合的方法能夠取得比單模態數據更高的準確度。

5.多模態數據支持的學習情境感知

隨著智能感知技術的發展和情境認知理論的成熟,學習情境感知逐漸成為近年來智能教育領域關注的熱點。情境感知通過智能傳感設備對特定時空條件下的人、機、物等實體要素進行智能感知,獲取對用戶有用的反饋信息,并通過對數據的分析處理,為用戶提供適切性的支持服務,并借助計算設備實現用戶和環境之間的交互融合(黃志芳等,2015)。目前關于情境感知的研究主要集中在泛在學習環境下的學習資源推薦(陳敏等,2015)和基于情境感知的適應性學習路徑規劃(Hwang et al.,2010)等方面,相關學者對于教育情境的劃分主要包括:物理情境、社會情境、學習者情境、活動情境、時空情境、服務情境、資源情境等。智能時代的教育科學研究越發重視教育情境的創設對于學習者行為、認知、情感的影響,探究各類情境要素對學習者內在認知發展的影響機理,以此挖掘深層次的教育發展規律(王一巖等,2021c)。具有代表性的研究有:Chen等(2012)利用射頻識別、無線網絡、嵌入式手持設備構建了基于情境感知的泛在學習系統,以檢測學習者在教室和博物館中的真實學習行為,并據此對教學過程進行改進,為每位學習者提供個性化的學習支持服務;Tortorella等(2017)利用傳感器采集的學習者相對位置數據、學習者運動數據、環境光量數據以及地理位置數據對移動學習中的學習情境信息進行建模,根據學習者的學習風格和學習情境信息在“自適應移動學習系統”中為學習者推薦適宜的多媒體學習資源。

多模態數據支持的學習情境感知也是近年來學習分析與知識國際會議(International Learning Analytics & Knowledge Conference,LAK)關注的熱點。在2017年的LAK國際會議中,Mu?oz-Cristóbal

等(2017)提出,學習可以發生在不同的物理空間和虛擬空間中,因此可以利用多種傳感設備對不同學習情境下的人、資源、設備等數據進行采集,并利用多模態學習分析的方法對學習過程進行解構,進而對泛在學習條件下學習者連續的學習體驗進行建模分析,以還原個體學習過程的全貌。在2020年的LAK國際會議中,Eradze等(2020)對情境感知在多模態學習分析中的應用前景進行了探討,認為基于人類標記的課程情境信息和基于機器智能感知的多模態數據可以互相補充,并據此構建了基于情境感知的多模態學習分析分類方法。

四、多模態數據驅動智能教育研究的實踐進路

從科學研究的發展歷程來看,教育科學的研究范式經歷了基于實驗歸納的第一范式、基于理論推演的第二范式、基于仿真模擬的第三范式,以及基于數據密集型科學的第四范式變革(鄭永和等,2020)。大數據和人工智能技術的快速發展為現代科學研究的開展提供了新的指導思想,有助于利用數據密集型科學的理論和方法挖掘事物背后復雜的因果關系,為相關問題的解釋提供科學依據。大數據與教育的深度融合是近年來智能教育領域關注的熱點問題,旨在以數據為依托,挖掘教育現象背后潛藏的復雜教育規律。多模態數據融合在教育領域的應用價值主要體現在從多個維度、多種視角對學習者和學習情境進行精準刻畫,利用機器學習和深度學習的方法挖掘其背后潛藏的特征與規律,以此為教育實踐研究的開展提供支持。與傳統的教育數據挖掘研究相比,以多模態數據為支撐的教育過程數據挖掘能夠充分利用不同模態數據之間的信息互補機制來提升數據的價值密度,使在有限樣本的數據空間內實現對研究對象的全方位解釋。這一方面能夠提升數據分析的效度,另一方面能夠節省相應的計算資源,從而為教育科學研究的開展提供全方位支持。未來智能教育領域的多模態數據研究可從以下四個方面發力。

1.面向多元學習主體和學習情境的全時空多維度數據采集

隨著以物聯網、云計算、人工智能為代表的新興智能技術的快速發展,未來的智慧學習空間將呈現一種泛在智能、群智感知、人機協同的新樣態(郭斌,2020),智能感知設備的應用將遍布整個物理學習空間,實現泛在的學習情境感知。從多模態數據融合的研究現狀來看,多模態數據主要用于對學習主體和學習情境的多元化感知與數據化表征,并為教育現象的解釋、教育規律的發現、教育服務的供給提供科學依據。在實踐層面,多模態數據支持的多元化感知主要體現在:其一,感知通道的多元化。面向真實學習情境的多模態數據采集主要依托多種智能感知設備實現對學習主體和學習情境的多元化數據表征,以此為教育科學研究的開展提供多元數據支持。例如利用攝像頭、眼動儀、腦電圖等設備分別對學習者的表情、姿態、眼動、腦電數據進行采集,從行為、認知、情感等多個維度對學習者的學習狀態進行表征。其二,感知對象的多元化。教育是一個復雜系統,是由以學習者和教師為代表的教育主體、以教學資源和教學媒體為代表的教育客體,以及教育環境和教育活動共同構成,教育系統的復雜性為教育科學研究的開展帶來了極大挑戰。因此未來的研究需要從還原論的視角出發,將復雜的教育系統化解為各部分之組合來加以理解和描述(歐陽明等,2012),通過對課堂教學過程中學習者、教師、教學資源、教學媒體、教學環境、教學活動的多元感知與精準刻畫,以數據流的形式模擬課堂教學生態的演化模式,挖掘深層次的教育發展規律。

2.基于多模態數據融合的學習者認知發展規律研究

對于教育規律的探索和揭示是教育科學研究追求的終極目標,也是智能教育要解決的關鍵問題。多模態數據的引入能夠對學習主體和學習情境信息進行記錄和表征,利用數據密集型科學的研究思想還原教學過程的全貌,在此基礎上,利用多模態數據融合的方法提升數據分析的效度,為揭示學習者的認知發展規律提供科學依據。其一,利用多模態數據融合的方法對學習者和學習情境進行精準化、細粒度的表征,探究在不同教學情境下學習者的行為表現、認知水平和情緒狀態,對學習者的學習風格、學習興趣、學習偏好等深層次特征進行挖掘分析,構建更加精準完善的學習者模型。其二,探究學習者的情緒狀態如何對學習者的知識建構和認知發展產生影響,明確學習者“知識—認知—情感”的交互作用機理(黃濤等,2020),以此對學習者的認知發展規律進行深度剖析。其三,通過對學習者外在行為數據和學習情境表征數據的綜合分析,探究教育環境的創設、教育活動的組織、教育服務的提供對學習者內在認知發展的影響機制,以此幫助教師優化教學情境,提升教學效率。

3.基于多模態數據感知與融合的智能教育產品研發

多模態數據融合技術的發展為教育智能體、教育機器人、智能導學系統、自適應學習平臺等智能教育產品的改善提供了新的契機(王一巖等,2021b)。傳統的智能教育產品大多依據鼠標的點擊流數據、鍵盤的文本輸入數據和學生的作答數據對學習過程和學習成效進行監測,并以此對學習者的知識掌握情況進行測評,實現基于知識水平的學習者建模。多模態數據感知與融合技術的引入能夠在很大程度上拓展智能教育產品的數據采集機制,改進其數據維度單一、分析效度低下的缺點,實現對學習者學習狀態的多元、實時、精準監測。利用多模態數據之間的信息互補機制提升數據分析的成效,對學習者的行為、認知、情感等狀態進行全面記錄和表征,有效提升智能教育服務的質量(鄭永和等,2021)。未來智能教育產品的研發需要更加關注多模態數據融合技術在人機交互分析、學習者情緒測評、學習投入分析、學業表現預測、學習情境感知等方面的潛在價值,利用相關的智能感知設備對學習者的學習狀態進行記錄、表征和測評,進而改善學習支持服務的質量。

4.多模態數據采集的技術倫理問題剖析

如上所述,多模態數據融合支持下的智能教育研究的開展要建立在對學習者和學習過程進行全方位、時序性跟蹤和監測的基礎上,利用人工智能技術對學習者的行為、認知、情感發展狀況進行全方位的測評分析,并以此為基礎探究學習者的認知發展規律。但人工智能技術在教育領域的應用難免會導致一系列的倫理道德問題,主要包括:其一,對學習者外在行為和內在生理信息的監測在一定程度上侵犯了學習者的隱私,多模態數據強大的表征能力能夠使研究人員獲取數據背后潛藏的深層次特征,這又加劇了對學生隱私的侵犯;其二,利用多模態數據對學習者的潛在特征和學習規律進行挖掘分析,學生的學習主體地位可能被弱化,成為可以被量化、被研究、被干預的被動客體,在一定程度上喪失了教育應有的人文關懷;其三,基于多模態數據探尋教育發展的根本規律,并以此開展個性化、精準化、智能化的課堂教學,為學習者提供適切性的學習支持服務,將在一定程度上弱化學生“試錯”和“反思”的過程,對學習者的探索精神和創新意識造成傷害。因此,如何使智能技術的應用能夠真正促進學生的有效學習,避免技術濫用帶來的學習者隱私泄露和學習者主體地位弱化是未來一段時間內需要解決的關鍵問題。

參考文獻:

[1]陳敏,余勝泉(2015).泛在學習環境下感知學習過程情境的推薦系統設計[J].電化教育研究,36(4):76-82.

[2]郭斌(2020).論智能物聯與未來制造——擁抱人機物融合群智計算時代[J].人民論壇·學術前沿,(13):32-42.

[3]黃濤,王一巖,張浩等(2020).智能教育場域中的學習者建模研究趨向[J].遠程教育雜志,38(1):50-60.

[4]黃志芳,趙呈領,黃祥玉等(2015).基于情境感知的適應性學習路徑推薦研究[J].電化教育研究,36(5):77-84.

[5]盧宇,薛天琪,陳鵬鶴等(2020).智能教育機器人系統構建及關鍵技術——以“智慧學伴”機器人為例[J].開放教育研究,26(2):83-91.

[6]穆肅,崔萌,黃曉地(2021).全景透視多模態學習分析的數據整合方法[J].現代遠程教育研究,33(1):26-37,48.

[7]歐陽明,龔萍,高山(2012).復雜性視野下的教育技術學研究方法論初探[J].中國電化教育,(9):16-21.

[8]屈靜,劉凱,胡祥恩等(2020).對話式智能導學系統研究現狀及趨勢[J].開放教育研究,26(4):112-120.

[9]王慧君,王海麗(2015).多模態視域下翻轉課堂教學模式研究[J].電化教育研究,36(12):70-76.

[10]王一巖,王楊春曉,鄭永和(2021a).多模態學習分析:“多模態”驅動的智能教育研究新趨向[J].中國電化教育,(3):88-96.

[11]王一巖,鄭永和(2021b).智能教育產品:構筑基于AIoT的智慧教育新生態[J].開放教育研究,27(6):15-23.

[12]王一巖,鄭永和(2021c).面向智慧課堂的教育情境感知:價值定位、特征模型與實踐框架[J].電化教育研究,42(11):84-91.

[13]王一巖,劉士玉,鄭永和(2021d).智能時代的學習者情緒感知:內涵、現狀與趨勢[J].遠程教育雜志,39(2):34-43.

[14]張琪,武法提,許文靜(2020).多模態數據支持的學習投入評測:現狀、啟示與研究趨向[J].遠程教育雜志,38(1):76-86.

[15]鄭永和,王一巖(2021). 教育與信息科技交叉研究:現狀、問題與趨勢[J].中國電化教育,(7):97-106.

[16]鄭永和,嚴曉梅,王晶瑩等(2020).計算教育學論綱:立場、范式與體系[J].華東師范大學學報(教育科學版),38(6):1-19.

[17]Ashwin, T. S., &; Guddeti, R. M. R. (2020). Automatic Detection of Students’Affective States in Classroom Environment Using Hybrid Convolutional Neural Networks[J]. Education and Information Technologies, 25(2):1387-1415.

[18]Ashwin, T. S., & Guddeti, R. M. R. (2018). Unobtrusive Students’Engagement Analysis in Computer Science Laboratory Using Deep Learning Techniques[C]// Proceedings of the IEEE 18th International Conference on Advanced Learning Technologies(ICALT). Mumbai: IEEE:436-440.

[19]Baltru?aitis, T., Ahuja, C., & Morency, L. P. (2018). Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2):423-443.

[20]Bao, X. (2013). Enabling Context-Awareness in Mobile Systems via Multi-Modal Sensing[D]. Durham: Duke University.

[21]Chango, W., Cerezo, R., & Romero, C. (2021). Multi-Source and Multimodal Data Fusion for Predicting Academic Performance in Blended Learning University Courses[J]. Computers & Electrical Engineering, 89:106908.

[22]Chen, C., & Huang, T. (2012). Learning in a U-Museum: Developing a Context-Aware Ubiquitous Learning Environment[J]. Computers & Education, 59(3):873-883.

[23]Chen, F., Luo, Z., & Xu, Y. (2019). Complementary Fusion of Multi-Features and Multi-Modalities in Sentiment Analysis[EB/OL].[2021-08-20]. https://arxiv.org/pdf/1904.08138.pdf.

[24]Chen, H., Park, H. W., & Breazeal, C. (2020). Teaching and Learning with Children: Impact of Reciprocal Peer Learning with a Social Robot on Children’s Learning and Emotive Engagement[J]. Computers & Education, 150:103836.

[25]Di Mitri, D., Scheffel, M., & Drachsler, H. et al. (2017). Learning Pulse: A Machine Learning Approach for Predicting Performance in Self-Regulated Learning Using Multimodal Data[C]// Proceedings of the Seventh International Learning Analytics & Knowledge Conference(LAK17). Vancouver: ACM:188-197.

[26]Eradze, M., Rodríguez-Triana, M. J., & Laanpere, M.(2020). Context-Aware Multimodal Learning Analytics Taxonomy[C]// Proceedings of the 10th International Conference on Learning Analytics & Knowledge (LAK20). Frankfurt: ACM:1-6.

[27]Giannakos, M. N., Sharma, K., & Pappas, I. O. et al.(2019). Multimodal Data as a Means to Understand the Learning Experience[J]. International Journal of Information Management,48:108-119.

[28]Gouizi, K., Reguig, F. B., & Maaoui, C. (2011). Emotion Recognition from Physiological Signals[J]. Journal of Medical Engineering & Technology, 35(6-7):300-307.

[29]Huang, Y., Yang, J., & Liu, S. et al. (2019a). Combining Facial Expressions and Electroence Phalography to Enhance Emotion Recognition[J]. Future Internet, 11(5):105.

[30]Huang, F., Zhang, X., & Zhao, Z. et al. (2019b). Image-Text Sentiment Analysis via Deep Multimodal Attentive Fusion[J]. Knowledge-Based Systems, 167:26-37.

[31]Hwang, G., Kuo, F., & Yin, P. et al. (2010). A Heuristic Algorithm for Planning Personalized Learning Paths for Context-Aware Ubiquitous Learning[J]. Computers & Education,54(2):404-415.

[32]Kaklauskas, A., Kuzminske, A., & Zavadskas, E. K. et al. (2015). Affective Tutoring System for Built Environment Management[J]. Computers & Education, 82:202-216.

[33]Kress, G. (2010). Multimodality: A Social Semiotic Approach to Contemporary Communication[J]. Journal of Pragmatics, 43(14):3624-3626.

[34]Lahat, D., Adali, T., & Jutten, C. (2015). Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects[J]. Proceedings of the IEEE, 103(9):1449-1477.

[35]Lai, C., Lai, Y., & Hwang, R. et al. (2019). Physiological Signals Anticipatory Computing for Individual Emotional State and Creativity Thinking[J]. Computers in Human Behavior, 101:450-456.

[36]Li, Z., & Zhan, Z. (2020). Integrated Infrared Imaging Techniques and Multi-Model Information via Convolution Neural Network for Learning Engagement Evaluation[J]. Infrared Physics & Technology, 109:103430.

[37]Majumder, N., Hazarika, D., & Gelbukh, A. et al.(2018). Multimodal Sentiment Analysis Using Hierarchical?Fusion with Context Modeling[J]. Knowledge-Based Systems, 161:124-133.

[38]Mu?oz-Cristóbal, J. A., Rodríguez-Triana, M. J., & Bote-Lorenzo, M. L. et al. (2017). Toward Multimodal Analytics in Ubiquitous Learning Environments[C]// Proceedings of the Sixth Multimodal Learning Analytics Workshop at the International Learning Analytics and Knowledge Conference(LAK 2017). Vancouver: ACM:60-67.

[39]Olsen, J. K., Sharma, K., & Rummel, N. et al. (2020). Temporal Analysis of Multimodal Data to Predict Collaborative Learning Outcomes[J]. British Journal of Educational Technology, 51(5):1527-1547.

[40]Schrader, C., & Kalyuga, S. (2020). Linking Students’ Emotions to Engagement and Writing Performance When Learning Japanese Letters with a Pen-Based Tablet: An Investigation Based on Individual Pen Pressure Parameters[J]. International Journal of Human-Computer Studies, 135:102374.

[41]Shen, L., Wang, M., & Shen, R. (2009). Affective E-Learning: Using“Emotional”Data to Improve Learning in Pervasive Learning Environment[J]. Educational Technology & Society, 12(2):176-189.

[42]Su, S., Lin, H. K., & Wang, C. et al. (2016). Multi-Modal Affective Computing Technology Design the Interaction Between Computers and Human of Intelligent Tutoring Systems[J]. International Journal of Online Pedagogy and Course Design, 6(1):13-28.

[43]Sun, B., Wei, Q., & He, J. et al. (2016). BNU-LSVED: A Multimodal Spontaneous Expression Database in Educational Environment[C]// Optics and Photonics for Information Processing X. San Diego: SPIE:256-262.

[44]Tortorella, R. A. W., & Graf, S. (2017). Considering Learning Styles and Context-awareness for Mobile Adaptive Learning[J]. Education and Information Technologies, 22(1):297-315.

[45]Verma, G. K., & Tiwary, U. S. (2014). Multimodal Fusion Framework: A Multiresolution Approach for Emotion Classification and Recognition from Physiological Signals[J].NeuroImage, 102:162-172.

[46]Wei, Q., Sun, B., & He, J. et al. (2017). BNU-LSVED 2.0: Spontaneous Multimodal Student Affect Database with Multi-Dimensional Labels[J]. Signal Processing: Image Communication, 59:168-181.

[47]Zadeh, A. B., Liang, P. P., & Poria, S. et al. (2018). Multimodal Language Analysis in the Wild: Cmu-Mosei Dataset and Interpretable Dynamic Fusion Graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne:2236-2246.

收稿日期 2021-08-27 責任編輯 楊銳

Multimodal Data Fusion:

The Core Driving Force to Solve the Key Problems of Intelligent Education

WANG Yiyan, ZHENG Yonghe

Abstract: Multimodal data fusion aims to improve the accuracy of data analysis by using the information complementation mechanism between different modal data, realize the accurate description of the learning subject and learning situation, and then restore the whole picture of the teaching process, and excavate the deep-level educational laws. It has gradually become an important technical method and research idea in the field of intelligent education. The common multimodal data types in the field of intelligent education include external behavior representation data, intrinsic neurophysiological information data, human-computer interaction data, and learning context awareness data. The fusion strategy of multimodal data consists of data-level fusion, feature-level fusion and decision-level fusion, and appropriate fusion strategies can be selected at different stages of data analysis to improve the accuracy of data analysis. In the field of intelligent education, multimodal data fusion is mainly used in five aspects: human-computer interaction analysis, learner emotion recognition, learning engagement analysis, academic performance prediction, and learning context awareness, which aims to give full play to the core role of multimodal data in the perception and modeling of the learning process, so as to achieve effective restoration of the learning process and scientific interpretation of learning laws. Multimodal data fusion fully embodies the paradigm change of scientific research on education based on data-intensive science. We should focus on the following four aspects in the future: full-time, multi-dimensional data collection for diverse learning subjects and learning situations, the research on the laws of learners’ cognitive development based on multimodal data fusion, the development of intelligent education products based on multimodal data perception and fusion, and the technical ethics of multimodal data collection. In this way, a new state of scientific research on education in the intelligent era will be reconstructed.

Keywords: Multimodal Data Fusion; Intelligent Education; Emotion Recognition; Learning Engagement; Context Awareness; Human-Computer Interaction

猜你喜歡
學習投入人機交互
學習動機對大學生學習投入的影響:人際互動的中介效應
某型柴油機虛擬維修系統研究
建立中職課堂規則,提高學習投入效率
基于虛擬現實技術的九江城市交通事故模擬系統設計
人機交互課程創新實驗
多點噪聲遠程自動采集系統設計
五年制大專生學習投入分析
普通高校體育專業學生學習投入的影響因素分析
職業價值觀與學習投入的關系:專業承諾的中介
軍校大學生學業壓力、學業自我效能感與學習投入:交互效應與中介效應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合