?

基于跨模態理解與重構的適應性數字教育資源：模型構建與實踐框架

2023-12-25 18:17羅江華張玉柳

現代遠程教育研究 2023年6期

羅江華張玉柳

摘要：數字教育資源在推進教育高質量發展的過程中扮演著重要角色。人工智能時代，如何讓數字教育資源從之前的“讓人適應”變為能“主動適應人”，是數字教育資源建設亟待解決的關鍵問題。隨著人工智能生成內容（AIGC）應用場景的持續拓展，跨模態理解與重構技術為破解數字教育資源的適應性問題提供了可行的技術支持。具體而言，就是主張“人—境—機—物”多主體協同，利用跨模態理解與重構技術對復雜教育情境中的多模態教學行為和多模態數字教育資源進行智能挖掘和耦合計算，實現適用于人機協同環境的教育資源推薦，挖掘數字教育資源服務的供需適配關系，達成數字教育資源生成鏈的自我調度，由此即可構建起適應性數字教育資源模型。在實踐推進層面，應構建起包括數據采集層、智能分析層、規則約束層、應用服務層四個層次的適應性數字教育資源實踐框架，以期在對多模態教育資源和師生行為進行跨模態理解的基礎上，切實推進對數字教育資源的智能管理和個性化服務。

關鍵詞：跨模態重構；跨模態理解；適應性數字教育資源；人機協同；AIGC

中圖分類號：G434 ? 文獻標識碼：A ? ?文章編號：1009-5195（2023）06-0091-11 ?doi10.3969/j.issn.1009-5195.2023.06.011

基金項目：國家社會科學基金2021年度教育學重點課題“以教育新基建支撐高質量教育體系建設研究”（ACA210010）。

作者簡介：羅江華，博士，教授，博士生導師，西南大學西南民族教育與心理研究中心（重慶 400715）；張玉柳，博士研究生，西南大學西南民族教育與心理研究中心（重慶 400715）。

一、引言

在我國推進教育高質量發展的過程中，數字教育資源扮演著重要角色。聚合起高質量、體系化、多類型的數字教育資源，能有效推動教育資源的數字化與配置公平化，可滿足學習者個性化選擇的需求（懷進鵬，2023）。這意味著要全面提升數字教育資源服務的適應性能力（羅江華等，2023），以科技創新為基點推動優質資源聚合，不斷提升數字教育資源的供需適配度（鄭永和等，2023），并加強對其的智能化組織管理和監管評價（柯清超等，2023）。

跨模態理解與重構是人工智能生成內容（AI-Generated Content，AIGC）的關鍵技術，其引領的AIGC應用效果和質量大幅提升，應用模式從專用走向通用，應用流程從分發走向生成，應用場景從單一走向多元（吳砥等，2023）。這些突破不僅為數字教育資源個性化服務提供了技術支撐，而且為破解數字教育資源的適應性生成難題提供了可能。傳統數字教育資源服務雖然具有“人工累積、標準化供給”的鮮明特征，但也存在效率低和制作成本高的缺陷（陳明選等，2021）。而應用跨模態理解與重構技術，可幫助人機高質量協作，更好地理解數字教育資源的屬性、資源關聯、語義信息，以及教學對象的行為意圖，處理和分析復雜教學過程中的多模態數據，通過迭代優化智能生成數字教育資源，進而實現“知識魔法”，即根據師生的偏好和需求來提供個性化教育資源服務（楊欣，2023）。

本研究關注如何基于跨模態理解與重構技術為師生生成適應性數字教育資源。一方面，從多模態教學行為特征視角對數字教育資源應用的復雜性進行深入探究，利用跨模態理解與重構技術實現對多模態教學行為和多模態數字教育資源的系統化建模分析，并探究適應性數字教育資源形成要素之間的交互作用模式；另一方面，挖掘適應性數字教育資源生成及應用的適配機理，并分析其對于人機協同教育生態發展的核心價值。

二、相關概念詮釋

1.跨模態理解與重構

多模態和跨模態技術經常被同時使用，以實現更全面、更準確和更高效的信息處理和分析。多模態技術（Multimodal Technology）是一種使不同信息形態相互作用和協同的技術，旨在將文字、圖像、聲音和視頻等加以集成和融合，從而提供更豐富、靈活和個性化的交互體驗和表達方式（吳友政等，2022）。而跨模態技術（Cross-Modal Technology）則是一種在不同感知模態之間進行信息交換和處理的技術，旨在將不同感知模態的信息進行相互轉換和整合（陳寧等，2021）。由此可見，多模態技術注重如何融合和整合不同模態的信息，而跨模態技術則側重如何建立不同模態數據之間的聯系和橋梁。

多模態與跨模態技術的持續發展和廣泛應用催生了跨模態理解與重構的進化?？缒B理解（Cross-Modal Understanding）是指在多個不同的感知模態之間建立聯系，目的是將不同感知模態的信息進行整合，以促進更加全面、準確的理解和推理（Liu et al.，2021）。例如，將文章中的圖片、視頻等多模態元素與文章內容結合起來，就可更好地把握文章主旨?？缒B重構（Cross-Modal Reconstruction）是指利用一種或多種感知模態的信息來生成另一種感知模態的信息，目的是利用不同感知模態之間的相互關系來彌補信息缺失或豐富信息表達（Choi et al.，2020）。例如，將音頻轉化為視頻，或將圖像轉化為三維模型。

2.適應性數字教育資源

適應性被認為是數字資源服務的重要發展方向，旨在提升數字交互的匹配度和友好性，其重點是以師生興趣為導向（Mérida et al.，2010）。Rozo等（2019）認為適應性數字教育資源應當突出資源使用情境、內容表示、界面呈現和流程提示，其設計目的是增強學習體驗，引導學生在學習活動中自定步調進行學習。羅江華等（2022）強調應以師生真實需求和個性特征為數字教育資源服務的前提，重點提升數字教育資源生成與教學應用之間的適配性。

從發展趨勢看，適應性數字教育資源的建設和應用已經超越了作為“資源平臺和資源池”的初級階段，現已建立起多主體協同、跨模態耦合和適應性增強的計算模型，并且強調“模型即服務”（楊洋等，2022）。在這個服務過程中，如何促進多模態資源的有效識別、轉化與匯聚，是滿足師生對資源個性化需求的關鍵。這在本質上是數字教育資源的跨模態生成，即將不同模態的資源進行有機融合，以生成新的、具有豐富信息且適配于教學活動的跨模態數據（?elaszczyk et al.，2023）。更為重要的是，適應性數字教育資源的組織與應用，需從跨模態實體語義關系知識模型出發，引入面向教學場景的師生用戶模型與智能計算服務框架（林健等，2022）；還需依據學習者特征實現資源的適應性設計、生成與供給的智能服務，尤其要重點設計“內容”與“結構”松耦合的適應性學習資源模型（王琦等，2022）。

三、適應性數字教育資源的價值定位

推進適應性數字教育資源建設，已成為教育數字化行動戰略的關鍵環節。具體來說，探究教育資源智能化服務過程中的人機交互規律，明確了解、理解和響應師生需求，提升數字教育資源的交互性與適配程度，既是數字教育資源服務質量提升的目標，也是適應性數字教育資源的價值指向。

1.切實推進人機協同環境下的教育資源推薦

伴隨智能技術深度介入教育情境，構建人機協同學習的智慧教育情境（彭紅超等，2018）變得越來越容易。此種情境下，人和機之間的互動不是簡單的機械式操作，而是一種共軛共生的關系，即以人的價值為根本遵循，借助智能技術實現個體的自我發展（艾興等，2020）。適應性數字教育資源模型的運行機制便是一種借助技術的中介效應打破人、機與物之間的邊界，探析“人—境—機—物”多主體之間復雜信息交換和多元交互的機制。其主要體現在三個方面：在適應性數字教育資源的數據采集與理解階段，人機協同是師生主觀感知和智能傳感器采集信息的有效聚合。在信息處理階段，人機協同是將師生行為特征、教育資源與機器強大的算力結合起來，進而建構新的資源適應性推薦途徑。在數據輸出階段，人機協同是將教育教學的發展規律和機器的算法決策相聯結，從而助益教育資源應用的優化與決策（劉偉，2021）。

2.精準反饋數字教育資源服務的供需適配關系

由于“技術是工具”的論斷并沒有充分考慮教育對象的意向性，因而導致技術的情境適應性缺失的問題（蔡連玉等，2023）。近來已有研究關注到師生行為需求對于提升個性化教育資源服務效率具有積極作用，但領域知識組織架構中知識來源類型單一、更新緩慢以及師生特征識別率不高等問題，已成為阻礙教育資源應用效率提升的關鍵原因。而適應性數字教育資源的研究正是依托數據科學和人工智能技術支持，利用先進的感知技術和數據挖掘方法，對師生多模態教學行為和多模態數字教育資源進行多層次、細粒度的精準建模，即從師生需求側和資源供給側兩方面進行耦合計算，動態反饋數字教育資源服務的供需適配關系，以便在數字教育環境下實現資源的精準適配和定制，推動數字教育資源的形式多樣化、內容境遇化、交互動態化以及服務智能化。

3.真正實現數字教育資源生成鏈的自我調度

人工智能技術在很大程度上已變革了教育教學的組織方式，其技術整合范式強調多通道推送知識和技術，重視利用數字技術賦能數字教育資源動態、靈活地自我組織，以促進學生對知識的深度習得（蔡連玉等，2023）。適應性數字教育資源服務的核心是基于人工智能算法賦能數字教育資源生成、流轉和應用等全流程智能化。從資源生成鏈的角度來看，適應性數字教育資源提供了更加靈活的資源生成和管理方式，其優點在于能夠為數字教育資源生成提供更好的自我調度功能，提高數字教育資源的多模態融合度和復用性。同時，適應性數字教育資源也能更好地管理數字教育資源的生命周期，及時更新和優化資源內容和形式，實現對適應性數字教育資源服務涉及的數據流、算法流、知識流等多層次和多維度的理解、優化及數據化表征，提高數字教育資源的豐富性和實用性，滿足師生多樣化的教與學需求。

四、基于跨模態理解與重構的適應性數字教育資源模型構建

智慧教學是由“人—機—物”等多主體在“物理—信息—心理”等多空間相互作用的復雜過程，面臨多空間融合、多主體協同、多環節匯通、多模式適配等挑戰（劉三女牙等，2021）。同理，適應性數字教育資源的生成亦可以認為是在“人—境—機—物”等多主體協同下，有效實現資源多元化和師生意向性全面融合的過程（闕玉葉，2022）。為指導具體實踐活動，須建構基于跨模態理解與重構的適應性數字教育資源模型，詮釋適應性數字教育資源動態生成的內在機理。

1.設計理念：資源“適應”人的意向性

迄今為止，對于人類主體性的強調是人工智能時代的一個關鍵議題?！耙匀藶楸尽睒顺呦碌娜藱C協同，是現階段人工智能在教育領域內“植入”式發展的必由之路（喻國明，2022）。傳統的教育資源供給通常是固定的、預設的，師生只能按照既定步驟和內容進行學習和實踐。隨著人工智能生成內容技術的發展，有必要通過精準理解師生多模態教學行為，探明其具體的資源需求，把握其資源意向與資源智能推送之間的適配關系。只有當師生積極表達自己的資源需求，以及計劃如何發展新的知識時，適應性數字教育資源才能更好地進行定制化生成。因此，適應性數字教育資源模型應當遵循資源“適應”人的設計理念，考慮如何依據師生的需求和反饋信息進行資源的智能組織和推薦優化，從而靈活、智能地為師生提供生成性教育資源。

2.要素篩選：適應性數字教育資源模型分析

通過梳理和分析自2010年以來國際上主流的適應性教育資源模型（見表1）發現，其共同涉及的關鍵要素可以概括為：人（學生與老師）、境（教育情境）、機（智能設備與技術）、物（教育資源）四個方面。厘清各關鍵要素的潛在特征及其交互作用機制，是適應性數字教育資源有效生成的重要前提。

（1）人：學生與教師

人是教育的主體，本研究中主要指教師和學生。教師是教學活動的組織者與指導者，其外顯行為主要包括話語、肢體動作、教學設備使用以及與學生的互動情況等。學生是學習活動的主體，其外顯行為表現為表情、話語、學習風格、學習日志、身體動作，以及與學習終端、教師或其他感知設備的交互等；其內隱行為表現為認知、情感、動機以及生理特征等。

（2）境：教育情境

“境”通常是指教育活動所發生的場所和環境，包括傳統的課堂教學場景、實驗室教學場景、實習教學場景、在線學習場景以及虛擬教學場景等，具有多樣性和復雜性。在教育情境中，師生通過進行有效的教學和學習活動，可實現知識的傳遞和學習目標的達成。

（3）機：智能設備與技術

“機”是指支持教與學的智能技術或應用設備，本研究中主要是指利用智能設備與技術等對多模態數據進行挖掘分析。具體而言，智能設備主要是指通過計算機技術和傳感器技術實現自主智能的設備，如智能學習設備、VR頭盔、眼動儀、高清攝像頭等，其通常擁有高度的聯網能力，可通過互聯網與其他設備及云端服務進行交互，從而提供更加智能化的服務。而智能技術則是指利用人工智能、大數據、機器學習、自然語言處理等技術，對資源數據進行處理和挖掘，從而實現智能化的資源組織與決策。

（4）物：適應性數字教育資源

“物”主要是指適應性數字教育資源，其能夠根據多模態教學行為特征，自動適應人的意向并生成智能化組織的數字教育資源。適應性數字教育資源的應用范圍非常廣泛，既可應用于各級各類教育階段和學科領域，為學生提供更加個性化的教育服務，幫助學生更好地掌握知識和技能；同時也可為教師提供更具針對性的教學方案和資源，提高教學效果和質量。適應性數字教育資源具有三方面的特點：一是通過改變內容結構邏輯及知識組織方式體現其復合性，二是通過提升多元化的內容生產體現其多樣性，三是通過提升資源育人的功能效果體現其增值性。

3.模型構建：基于跨模態理解與重構的適應性數字教育資源建模

結合馬海云等（2022）所設計的面向知識服務的領域知識結構，本研究首先對適應性數字教育資源中的知識組織進行了分層聚類，在此基礎上構建了如圖1所示的基于跨模態理解與重構的適應性數字教育資源模型，以探析適應性數字教育資源的動態生成機制。

（1）多主體協同

在人工智能為教育領域全面賦能的背景下，傳統的“師生”二元關系逐漸被“人—境—機—物”多主體協同互動的新型關系所取代，且貫穿當前數字化教學的全過程（張樂樂等，2022）。在“人—境—機—物”多主體協同互動的智慧教學中，只有實現了不同主體間數據的共享和互通，才能實現人與“機”、人與“物”之間的協同，即“機”要為不同“境”下的人提供智能化和個性化的“物”。

（2）跨模態耦合

適應性數字教育資源的動態能力形成需依據智能技術對多模態教育資源和多模態教學行為分別進行理解和表征。如圖1所示，跨模態數據理解能力U可以分為跨模態師生行為理解能力U1和跨模態數字教育資源理解能力U2兩種子能力，耦合兩種理解能力能夠形成跨模態教育資源重構能力R，R可表示為公式（1）：

R＝f（U1，U2） ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）

其中，f（·）表示跨模態數據理解能力對跨模態教育資源重構能力的影響函數?；诳缒B重構生成的數字教育資源可以有效反映出適應性數字教育資源的動態能力D，D可表示為公式（2）：

D＝g（R） ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（2）

其中，g（·）表示跨模態數字教育資源重構能力對適應性數字教育資源動態能力的影響函數。由此適應性數字教育資源的動態能力可表示為公式（3）：

D＝g（R）＝g（f（U1，U2）） ? ? ? ? ? ?（3）

跨模態師生行為理解能力與跨模態數字教育資源理解能力通過跨模態數字教育資源重構能力相互耦合，形成適應性數字教育資源的動態能力，其生成機理符合楊現民等所提出的資源進化模式（楊現民等，2011）。其中，跨模態資源理解屬于其“資源的內容進化”模式，即“量變”；跨模態資源重構屬于其“資源的關聯進化”模式，即“質變”，“量質并舉”形成了適應性數字教育資源高效生成的動態能力。

跨模態數據理解包括多模態教育資源和多模態教學行為理解兩種類型，如圖2所示，其主要目的是對不同模態的數據進行識別、理解與融合，以此作為后續數字教育資源適應性重構的基礎?？缒B數據理解類似于企業中通常遵循的資源編排理論，根據發展需求對不同表現形式的資源進行識別、理解后的拆解、重構，從而改變數字內容的生產邏輯及形式。

跨模態資源理解是為了保障跨模態資源消除冗余，降低不必要的復雜度，以及提高數字資源的高韌性和可理解性。通常來說，一個知識點可以用含有其語義信息的圖片、文本、音視頻等不同模態的資源來表示。在對齊序列場景下，若干個多模態數據組成一組，使用單模態編碼器處理輸入文本、音頻、視頻和圖像等模態信息后，可得到初始文本嵌入T＝{t1，...，tn}、音頻嵌入A＝{a1，...，an}，視頻嵌入V＝{v1，...，vn}和圖像嵌入I＝{i1，...，in}等。為了建模文本、視覺和音頻之間的跨模態交互，引入基于Transformer的跨模態編碼器將多模態表征的高維稀疏特征向量轉換為低維稠密特征向量，并映射到一個統一的表征空間。然后通過跨模態關聯建模獲取具有語義一致性的跨模態資源，進而增強后續生成內容的內在邏輯性。此外，對于學習資源內容的上下文表征M可用公式（4）表示，其中[；]表示組合操作（Liu et al.，2021）。

M＝CrossEncoder（[T；A；V；…；I]） ? ? ?（4）

除了綜合跨模態教育資源的語義關聯，還需集約師生的資源需求，這是一個更復雜的多模態信息處理問題?？缒B教學行為理解與跨模態資源理解的技術實現過程大體一致，既要正確理解師生資源需求，也要更好地表示和記錄師生的多模態教學行為數據，尤其要重點關注師生的心理、認知、情感狀態，從而建立物理空間、生理空間、心理空間、數字空間四位一體的資源需求理解機制。

教育資源蘊含著多元價值，跨模態資源重構可以實現多種表現形式的學習資源的轉換、重構和生成，為師生提供最適合他們需求的資源服務?？缒B資源重構更關注全局信息，其核心是“應變”，需依據跨模態師生行為理解和跨模態教育資源理解的量化表征而生成適應性教育資源。其中，資源重構能力是教育資源動態能力的低階構成（Teece et al.，1997）。資源重構具有兩個維度，即資源重組（Recombination）與資源重置（Reallocation）（Karim，2006）。資源重組涉及資源之間的相互作用，旨在使資源之間重新組合形成新的資源，類似于資源之間所發生的“化學變化”。資源重置不涉及資源之間的相互作用，僅指通過融合或精簡的方式對資源進行重新分配，類似于資源之間所發生的“物理變化”（Karim et al.，2004）。在本研究中，資源重構是指對已有教育資源進行優化和重組并生成適應性資源的技術。其流程如圖3所示。

鑒于不同模態的資源在具體事件和應用中具有高度相關性，因此為了更好地以師生的意向性為導向從中抽取具有因果性、區分性、顯著性和魯棒性的有效特征，研究將跨模態資源語義圖譜假設為Gr＝G（Vr，Er），其中Vr是節點集合，Er是邊集合；將跨模態師生特征圖譜假設為Gf＝（Vf，Ef），其中Vf是節點集合，Ef是邊集合；通過利用Gr和Gf對多模態教育資源進行跨模態重構，即可生成適應性數字教育資源，步驟如下：

第一，將跨模態資源語義圖譜和跨模態師生特征圖譜進行關聯，以獲取耦合圖譜G＝（V，E），其中V＝Vr∪Vf，表示節點集合的并集；E＝Er∪Ef，表示邊集合的并集。然后利用加權鄰接矩陣A∈Rn×n來表征耦合圖譜的結構，其中n＝|V|，表示耦合圖譜中的節點數量。A中的每個元素aij表示節點i和節點j之間的連接權重。

第二，將耦合圖譜G中的節點特征表示為一個矩陣X∈Rn×d，其中d是節點特征的維度；再將節點i的特征表示為xi∈Rd。具體地，對于跨模態資源語義圖譜中的節點，利用其語義信息來表示其特征；對于跨模態師生特征圖譜中的節點，利用其教學行為和應用語境信息來表示其特征。

第三，使用圖卷積神經網絡（Graph Convolution Network，GCN）對耦合圖譜進行表示和學習（Kipf et al.，2016），定義每個圖卷積層的傳播規則為公式（5）：

第四，利用節點表示矩陣H（L），通過注意力機制、多層感知器等進行資源內容預選，對數值、時間等類型數據進行推理，實現聯合訓練和優化，從而克服多模態資源之間的異構鴻溝。同時定義一個前向傳播函數f∶H（L）→Y，其中Y表示生成的適應性數字教育資源的概率分布；f（·）定義為公式（6）：

f（H（L））＝softmax（MLP（ATT（H（L））））（6）

其中，ATT是注意力機制（Attention），它可以為每個節點計算一個權重向量，表示該節點在生成適應性數字教育資源時的重要程度。對于節點i，其權重向量為ai。注意力機制的計算如公式（7）所示，Hi（L）表示第i個節點在GCN的第L層中學習得到的特征向量，softmax（ai）表示節點i的權重，可以通過一個多層感知器學習得到。

ATT（H（L））＝∑i=1 softmax（ai）Hi（L）（7）

另外，MLP是多層感知器，用于將節點的上下文表示映射到適應性數字教育資源的空間中。對于節點i，其上下文可表示為ci＝MLP（ATT（H（L））||Hi（L）），其中||表示向量的拼接操作，MLP可以包含多個全連接層和激活函數，也可通過反向傳播算法學習得到。

通過注意力機制，對節點表示矩陣H（L）進行加權平均，還可得到每個節點的上下文表示。通過多層感知器，將節點的上下文表示映射到適應性數字教育資源的空間中，最終通過softmax函數生成概率分布。softmax是一種激活函數，可以將任意實數向量轉化為概率分布，即保證每個元素的概率都在[0，1]之間且概率和為1。

第五，使用交叉熵損失函數衡量基于模型生成的適應性數字教育資源與其實際滿足師生資源需求之間的差異，以便對生成的適應性數字教育資源進行訓練和優化。交叉熵損失函數定義為公式（8）：

綜上所述，我們可以利用公式（11）表示如何基于跨模態資源語義圖譜和跨模態師生特征圖譜對跨模態教育資源進行重構，從而為師生生成適應性數字教育資源。

Y＝f（H（L））＝softmax（MLP（ATT（H（L）） ?））（11）

其中，H（L）是耦合圖譜經過多層GCN網絡學習得到的節點表示矩陣，f是前向傳播函數。

通過以上過程，可為師生提供的適應性數字教育資源包括重新排列和組合的原始資源的不同部分、添加的新的圖像、音頻或視頻元素等，以使其更適合師生的特定需求，并在共享和復用過程中實現其價值增值（楊文正等，2018）。

（3）適應性增強

動態能力理論致力于研究一個組織面對一個快速變化的環境所擁有的改變、更新和創造新資源的能力（Teece，2000）。資源視角下的動態能力主要由三個維度構成：一是快速識別和理解有價值資源的能力，二是有效獲取有價值資源的能力，三是匯聚、重構資源以維持優勢的能力（Teece，2007）。教育資源具有動態能力意味著教育領域能夠對資源進行數智化組織與重新配置，進而實現對資源智能服務模式的有效創新。簡而言之，適應性數字教育資源的適應性增強體現了其動態能力的高階性，以及對于師生教學行為需求特征挖掘的成熟度和資源理解與重構的成熟度。

教育資源是知識的重要載體，學習資源與知識本體的結合是未來學習技術標準的一大發展趨勢（趙厚福等，2010）。適應性教育資源的形成，即是以知識單元為單位的資源增值服務，其知識組織分為四個層次：知識信息層、核心要素層、問題求解層以及補全擴展層。其中，知識信息層包含了知識的概念、屬性以及載體類型等特征，完整地反映了某一領域資源的知識信息。知識信息層是構成多模態領域知識的最小單位，也是領域知識結構的基礎。核心要素層通過對多模態領域知識基礎細節層中的各個特征進行編碼處理，篩選出領域知識的核心要素，由此構成了反映多模態領域知識的核心內容。問題求解層是在核心要素層的基礎上，根據師生教學行為需求進行跨模態知識單元的重構，以便形成能夠解決師生實際問題的知識單元。補全擴展層是在對多模態知識單元以及師生行為需求進行匹配計算后，通過不斷更新和優化資源以補全或擴展教育資源庫，使其更加貼近師生動態變化的資源需求。在知識組織層次分類技術的支撐下，適應性數字教育資源服務不僅能為師生提供一份生成性的教育資源，還能從全流程視角觀照師生資源需求、進行資源匹配、實現資源重構以及個性化和智能化推送。當對師生需求挖掘的成熟度和資源理解與重構的成熟度越來越高時，適應性數字教育資源的動態能力也會不斷增強。這種持續發展的能力可表示為：適應性數字教育資源的動態能力∝f（師生需求挖掘的成熟度，資源理解與重構的成熟度）＋ε，其中，f（·）在一般情況下是一個回歸函數，ε表示適應性數字教育資源動態能力的基線水平。

五、基于跨模態理解與重構的適應性數字教育資源實踐框架

在提升數字教育資源服務質量的過程中，資源的智能組織和服務策略是同等重要的，因此還需要以適應性為主旨構建實踐框架。盡管已有學者從“數據發現、數據融合、數據利用”方面梳理了教育資源的實踐框架（Shankar et al.，2019）；但如何融合師生多模態行為分析，有效提升數字教育資源的識別、理解、轉化、重構、生成與高效應用，仍是構建數字教育資源實踐框架的關鍵（Hercheui et al.，2020；Mikalef et al.，2021）。本研究從數據采集、智能分析、規則約束和應用服務四個方面，構建了如圖4所示的基于跨模態理解與重構的適應性數字教育資源實踐框架。

1.數據采集層：多模態教育資源和師生行為采集

適應性數字教育資源的智能呈現既需要對師生行為與教育資源的關聯表征，也需要大量師生內隱與外顯行為，以及資源的多維數據指標的支持。數據采集層主要針對教育情境下的多模態教育資源和多模態教學行為進行全方位、伴隨式數據采集。針對師生行為數據，主要利用多模態學習分析方法對“人—境—機—物”多主體協同進行精準分析，通過傳感器、監控器、智能學習設備等方式采集不同學習空間的行為數據，以便形成多模態行為可計算的表征模式。針對多模態教育資源，主要依托國家智慧教育公共服務體系，匯集多類型、多尺度、多時相的多源異構數據源（如文本、視頻、音頻和圖像等），通過爬蟲或API等方式獲取。在數據采集的過程中，還需要保證數據的質量、安全性和隱私。

2.智能分析層：基于多模態數據的理解與適應性重構

智能分析層主要通過人工智能等技術進行模型訓練和優化，深度挖掘不同模態的師生行為需求和教育資源信息并對其進行高效關聯，以此對適應性數字教育資源的動態能力生成進行深入分析。在應用數字教育資源時，應充分考慮師生行為特征對于適應性重構的需求，跳出模式的“深井”，融合用戶行為需求與場景語義的資源分片、知識標注、構件裝配等深加工技術（劉三女牙等，2021）。研究采用Encoder-Decoder架構對多模態數字教育資源進行智能分析：首先，使用單模態編碼器提取輸入文本、圖像和音頻等的表示。其次，運用Embedding處理/操作將不同模態的數據合并成一個張量。然后，使用Transformer編碼器處理文本、圖像和音頻等內容之間的交互，得到多模態數字教育資源的統一表征。同理，多模態教學行為的智能分析亦使用Transformer編碼器，通過處理師生多模態教學行為之間的交互，可得到多模態行為數據的統一表征。最后，基于兩個跨模態解碼器對數字教育資源進行適應性重構，從而生成符合師生意向的教育資源。在適應性重構過程中，還可以使用不同的神經網絡模型，根據需要設計合適的網絡結構和參數配置，以實現對適應性數字教育資源的智能推送。

3.規則約束層：資源生成中的質量監控與倫理安全

技術的邏輯在于成功與高效，即“成事”與“成物”，但教育的邏輯在于“成人”（李政濤，2020）?；诳缒B理解與重構技術生成的適應性數字教育資源依賴于多模態大模型的優勢特征（Luo et al.，2020；Huang et al.，2023）。它在為師生的教與學提供諸多便利的同時，也面臨如何在資源生成過程中發揮育人功能和保障數據安全等挑戰。而且適應性數字教育資源的生成對數據的多樣性、時序性和層次性的要求很高。若對數據的采集、獲取和使用方式不加以約束，將在很大程度上造成師生隱私的泄露，并導致人在創新活動中的主體地位出現階梯式消解（李建中，2019）。除此之外，適應性數字教育資源的生成和應用還涉及知識產權、認證標準、內容審查等方面的技術倫理問題。規則約束層即是為了解決這些問題，對技術應用的場景和邊界進行嚴格界定，開展符合教育規律的人機協同審查（郭炯等，2019）。具體來說，就是要明確智能技術的應用規范、倫理道德邊界，遵循教育資源服務的知識組織原理、教育教學規律與育人目標定位，從技術檢測和專家測評兩個層面探析如何建構適應性數字教育資源的測評體系，實現資源質量、育人、倫理等多維度的科學測評。

4.應用服務層：推進資源的智能管理和個性化服務

數字教育資源智能管理是指通過提升數字教育資源的組織和維護效率，以使其更好地支持教育活動的過程?；诳缒B理解與重構的適應性數字教育資源能為數字教育資源組織與管理效率的提升提供學理基礎，具有多源聚類與知識重組等特點。適應性數字教育資源的知識組織層次，能夠達到對教育資源知識單元的可控、可分目的，實現資源的共享優化，并創新教育資源的粒度化管理。通過挖掘多模態資源間隱含的知識關聯進而實現跨模態、多角度的資源重構，可以有效地對各類數字教育資源進行建序優化，并促進其由碎片化向集約化、智能化轉型。這將大大提升隱性知識識別、理解、轉化、創新應用的效率，一定程度上滿足了數據驅動與需求驅動相結合的數字教育資源共享與重用，也拓展了資源價值的輻射邊界。

智慧教育服務是指應用人工智能等技術為學生與教師提供更加智能化和個性化的教育服務，并以提高教育質量為目標的一種服務形態。而適應性數字教育資源具有多模態行為分析和跨模態資源生成的“雙元”特性，能夠根據師生需求進行智能化調整和優化，規避數字教育資源組織中的“路徑依賴”困境。學生可以根據適應性數字教育資源的知識導航，基于多樣化的教學資源，實現個性化學習。教師可以利用適應性數字教育資源更好地針對學生的學習需求和特點進行教學設計和教學實施，通過優化學習路徑不斷提高教學效率。這些服務不僅可以讓教育更加智能化和個性化，還可以大大拓展教育的覆蓋范圍，提高教育教學的質量和效率，促進教育的公平和包容。

六、結語

適應性數字教育資源是數字教育資源生成、流轉和應用等全鏈條智能化的結果，其核心是構建基于跨模態理解與重構的適應性數字教育資源模型，目標是動態生成供需適配的資源鏈，即依托跨模態理解與重構技術生成適用于復雜教育情境的多模態教育資源。未來，我們將在現有研究的基礎上，進一步結合多模態大模型的技術進化，將該模型與適應性數字教育資源的實踐框架相結合并驗證其有效性，以實現復雜教育情境下人機協同學習的互惠共生。

參考文獻：

[1]艾興，趙瑞雪（2020）.人機協同視域下的智能學習：邏輯起點與表征形態[J].遠程教育雜志，38（1）：69-75.

[2]蔡連玉，金明飛，周躍良（2023）.教育數字化轉型的本質：從技術整合到人機融合[J].華東師范大學學報（教育科學版），41（3）：36-44.

[3]陳明選，李蘭（2021）.我國數字教育平臺資源配置與服務：問題與對策[J].中國遠程教育，（1）：17-26，77.

[4]陳寧，段友祥，孫歧峰（2021）.跨模態檢索研究文獻綜述[J].計算機科學與探索，15（8）：1390-1404.

[5]丁繼紅，劉華中（2017）.影響教育資源選擇的學習者模型構建[J].遠程教育雜志，35（4）：97-103.

[6]郭炯，郝建江（2019）.人工智能環境下的學習發生機制[J].現代遠程教育研究，31（5）：32-38.

[7]懷進鵬（2023）.數字變革與教育未來——在世界數字教育大會上的主旨演講[N].中國教育報，2023-02-14（001）.

[8]柯清超，劉麗麗，鮑婷婷等（2023）.國家智慧教育平臺賦能區域教育數字化轉型的四重機制[J].中國電化教育，（3）：30-36.

[9]李寶，張文蘭（2015）.智慧教育環境下學習資源推送服務模型的構建[J].遠程教育雜志，33（3）：41-48.

[10]李建中（2019）.人工智能時代的知識學習與創新教育的轉向[J].中國電化教育，（4）：10-16.

[11]李政濤（2020）.現代信息技術的“教育責任”[J].開放教育研究，26（2）：13-26.

[12]林健，柯清超，黃正華等（2022）.學科知識圖譜的動態生成及其在資源智能組織中的應用[J].遠程教育雜志，40（4）：23-34.

[13]劉三女牙，孫建文（2021）.人工智能時代的課堂創變：解構與重構[J].國家教育行政學院學報，（9）：16-22.

[14]劉偉（2021）.人機融合：超越人工智能[M].北京：清華大學出版社：34.

[15]羅江華，馮瑞（2022）.學習平臺的適應性進化及其對教育新基建的啟示[J].現代教育技術，32（10）：17-25.

[16]羅江華，王琳（2023）.新基建賦能教育數字化轉型的邏輯、挑戰與實踐路向[J].中國電化教育，（3）：37-45.

[17]馬海云，薛翔（2022）.面向知識服務的領域知識結構研究[J].情報學報，41（1）：73-82.

[18]彭紅超，祝智庭（2018）.人機協同的數據智慧機制：智慧教育的數據價值煉金術[J].開放教育研究，24（2）：41-50.

[19]闕玉葉（2022）.人工智能實現完全意向性何以可能？——人機融合智能：未來人工智能發展方向[J].自然辯證法研究，38（9）：55-61.

[20]王琦，余勝泉，萬海鵬（2022）.內容與結構松耦合的適應性學習資源模型及應用研究[J].電化教育研究，43（3）：51-59.

[21]吳砥，李環，陳旭（2023）.人工智能通用大模型教育應用影響探析[J].開放教育研究，29（2）：19-25，45.

[22]吳友政，李浩然，姚霆等（2022）.多模態信息處理前沿綜述：應用、融合和預訓練[J].中文信息學報，36（5）：1-20.

[23]楊文正，徐杰，李慧慧（2018）.生態學視角下數字教育資源優化配置模型構建[J].現代遠程教育研究，（2）：94-102.

[24]楊現民，余勝泉（2010）.泛在學習環境下的學習資源信息模型構建[J].中國電化教育，（9）：72-78.

[25]楊現民，余勝泉（2011）.泛在學習環境下的學習資源進化模型構建[J].中國電化教育，296（09）：80-86.

[26]楊欣（2023）.基于生成式人工智能的教育轉型圖景——ChatGPT究竟對教育意味著什么[J].中國電化教育，（5）：1-8，14.

[27]楊洋，況琨，陳政聿等（2022）.基于端云協同體系的預訓練大模型及其服務化[J].人工智能，（6）：103-120.

[28]余平，管玨琪，徐顯龍等（2016）.情境信息及其在智慧學習資源推薦中的應用研究[J].電化教育研究，37（2）：54-61.

[29]喻國明（2022）.“以人為本”標尺下的“人—機”協同[J].新聞與寫作，（10）：1.

[30]張進良，葉求財（2019）.大數據視閾下學習資源智能推薦模型構建[J].湖南科技大學學報（社會科學版），22（4）：178-184.

[31]張樂樂，顧小清（2022）.多模態數據支持的課堂教學行為分析模型與實踐框架[J].開放教育研究，28（6）：101-110.

[32]趙厚福，祝智庭，吳永和（2010）.數字化學習技術標準發展的趨勢、框架和建議[J].中國遠程教育，（2）：69-75.

[33]鄭永和，王一巖（2023）.科技賦能教育高質量發展：價值內涵、表征樣態與推進策略[J].中國電化教育，（1）：118-126.

[34]Choi， S.， Lee， S.， & Kim， Y. et al. （2020）. Hi-CMD： Hierarchical Cross-Modality Disentanglement for Visible-Infrared

Person Re-Identification[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.WA： Seattle：10254-10263.

[35]Hercheui， M.， & Ranjith， R. （2020）. Improving Organization Dynamic Capabilities Using Artificial Intelligence[J]. Global Journal of Business Research， 14（1）：87-96.

[36]Huang， S.， Dong， L.， & Wang， W. et al. （2023）. Language Is Not All You Need： Aligning Perception with Language Models[J]. ArXiv：2302.14045.

[37]Karim， S. （2006）. Modularity in Organizational Structure： The Reconfiguration of Internally Developed and Acquired Business Units[J]. Strategic Management Journal， 27：799-823.

[38]Karim， S.， & Mitchell， W. （2004）. Innovating Through Acquisition and Internal Development： A Quarter-Century of Boundary Evolution at Johnson & Johnson[J]. Long Range Planning， 37：525-547.

[39]Kipf， T. N.， & Welling， M. （2016）. Semi-Supervised Classification with Graph Convolutional Networks[J]. ArXiv：1609.02907.

[40]Liu， J.， Zhu， X.， & Liu， F. et al. （2021）. OPT： Omni-Perception Pre-Trainer for Cross-Modal Understanding And Generation[J]. ArXiv：2107.00249.

[41]Luo， H.， Ji， L.， & Shi， B. et al. （2020）. UniVL： A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation[J]. ArXiv：2002.06353.

[42]Mérida， D.， Fabregat， R.， & Baldiris， S. （2010）. Sistemas Heterogéneos Adaptativos Basados en el Contexto[J]. Revista Iberoamericana de Educacióon a Distancia， 13（2）：73-105.

[43]Mikalef， P.， Conboy， K.， & Krogstie， J. （2021）. Artificial Intelligence as an Enabler of B2B Marketing： A Dynamic Capabilities Micro-Foundations Approach[J]. Industrial Marketing Management， 98：80-92.

[44]Rozo， H.， & Real， M. （2019）. Pedagogical Guidelines for the Creation of Adaptive Digital Educational Resources： A Review of the Literature[J]. Journal of Technology and Science Education， 9（3）：308-325.

[45]Sawadogo， D.， Champagnat， R.， & Estraillier， P. （2014）. Adaptive Digital Resource Modelling for Interactive System[C]// Proceedings of the 2014 International Conference on Control， Decision and Information Technologies （CoDIT）. IEEE：663-668.

[46]Shankar， S. K.， Ruiz-Calleja， A.， & Serrano-Iglesias， S. et al. （2019）. A Data Value Chain to Model the Processing of Multimodal Evidence in Authentic Learning Scenarios[C]// Proceedings of CEUR Workshop LASI Spain. Vigo， Spain： CEUR：71-83.

[47]Teece， D. J. （2000）. Strategies for Managing Knowledge Assets： The Role of Firm Structure and Industrial Context[J]. Long Range Planning， 33（1）：35-54.

[48]Teece， D. J. （2007）. Explicating Dynamic Capabilities： The Nature and Micro foundations of （Sustainable） Enterprise Performance[J]. Strategic Management Journal， 28（13）：1319-1350.

[49]Teece， D. J.， Pisano， G.， & Shuen， A. （1997）. Dynamic Capabilities and Strategic Management[J]. Strategic Management Journal， 18（7）：509-533.

[50]Wei， X.， Sun， S.， & Wu， D. et al. （2021）. Personalized Online Learning Resource Recommendation Based on Artificial Intelligence and Educational Psychology[J]. Frontiers in Psychology， 12：767837.

[51]?elaszczyk， M.， & Mańdziuk， J. （2023）. Cross-Modal Text and Visual Generation： A Systematic Review. Part 1： Image to Text[J]. Information Fusion， 93：302-329.

收稿日期 2023-06-05 責任編輯劉選

Adaptive Digital Educational Resources Based on Cross-Modal Understanding and Reconstruction：

Model Construction and Practical Framework

LUO Jianghua， ZHANG Yuliu

Abstract： Digital educational resources play an important role in the process of promoting high-quality development of education. In the era of artificial intelligence， how to make digital educational resources change from “letting human adapt” to “actively adapting to human” is the key issue to be solved urgently in the construction of digital educational resources. As the application scenarios of artificial intelligence-generated content continue to expand， cross-modal understanding and reconstruction technologies provide feasible technical support for addressing the adaptability of digital educational resources. Specifically， it advocates multi-disciplinary collaboration among humans， educational contexts， computers and educational resources， and uses cross-modal understanding and reconstruction technology to carry out intelligent mining and coupling calculation of multi-modal teaching behaviors and multi-modal digital educational resources in complex educational situations， so as to realize the recommendation of educational resources suitable for man-machine collaborative environment， explore the supply-demand adaptation of digital educational resources services， and realize the self-scheduling of digital educational resources generation chain， so that we can build an adaptive digital educational resources model. At a practical level， a practical framework of adaptive digital educational resources should be constructed， which includes data collection layer， intelligent analysis layer， rule constraint layer and application service layer， to effectively promote the intelligent management and personalized service of digital educational resources on the basis of cross-modal understanding of multi-modal educational resources as well as behaviors of teachers and students.

Keywords： Cross-Modal Reconstruction; Cross-Modal Understanding; Adaptive Digital Educational Resources; Human-Machine Collaboration; Artificial Intelligence-Generated Content

現代遠程教育研究2023年6期

現代遠程教育研究的其它文章: 以跨學科學習促進信息科技課程核心素養落地; 智能時代編程教育如何培養學生的創新能力; 計算心理測量視域下的學生數字素養測評; 老年人數字素養自評量表的編制與應用; 數字人教育應用的演進、趨勢與挑戰; 數字化轉型背景下教育技術學科高質量發展：新使命與新作為

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合