?

計算心理測量視域下的學生數字素養測評

2023-12-25 03:06朱莎郭慶吳砥
現代遠程教育研究 2023年6期

朱莎 郭慶 吳砥

摘要:定期開展數字素養發展監測與評估是提升全民數字素養的基礎和前提。當前,學生數字素養評價主要沿用“依據規則給潛在特質賦值”的經典測量觀,以標準化測試及自陳式量表為主要測評工具,存在評價內容有限、評價方法片面等問題。計算心理測量理論為破解學生數字素養評價難題提供了新的理論和方法支持。它主張綜合運用心理測量學、計算機科學等多學科的研究方法,將評價嵌入真實情境任務中,激發并追蹤主體與情境之間的交互,通過多源異構數據采集與分析,實現過程性評價。計算心理測量視域下的學生數字素養測評框架基于自上而下理論驅動和自下而上技術驅動相結合的推理鏈,在以證據為中心的設計思想指導下,構建復雜的任務情境獲取細粒度數據,并利用數據挖掘技術從海量細粒度數據中提取證據,進而實現精準評價。以此框架開展的面向小學高年級學段的數字素養測評實踐表明,該測評范式有助于形成從數字素養“能力模型”到“測量模型”的閉環推理鏈,在經過多輪次迭代優化后,可形成高質量的學生數字素養測評任務、可靠的學生數字素養證據和穩定的學生數字素養測量模型。

關鍵詞:計算心理測量;以證據為中心的設計;數字素養評價;游戲化測評任務

中圖分類號:G434 ? 文獻標識碼:A ? ?文章編號:1009-5195(2023)06-0019-11 ?doi10.3969/j.issn.1009-5195.2023.06.003

基金項目:國家自然科學基金青年科學基金項目“融合證據推理和認知網絡分析的學生信息素養高階思維能力精準評價研究”(62107019);國家社會科學基金“十三五”規劃2020年度教育學重點課題“學生信息素養的內涵、標準與評價體系研究”(ACA200008)。

作者簡介:朱莎,博士,副教授,碩士生導師,華中師范大學國家數字化學習工程技術研究中心(湖北武漢 430079);郭慶,博士研究生,華中師范大學人工智能教育學部(湖北武漢 430079);吳砥(通訊作者),博士,教授,博士生導師,華中師范大學教育部教育信息化戰略研究基地(華中)(湖北武漢 430079)。

一、引言

數字素養與技能是數字社會公民學習工作生活應具備的數字獲取、制作、使用、評價、交互、分享、創新、安全保障、倫理道德等一系列素質與能力的集合(中央網絡安全和信息化委員會辦公室,2021),是實現數字化轉型的關鍵支撐(吳砥等,2022a)。2021年11月,中央網信辦發布《提升全民數字素養與技能行動綱要》,指出“提升全民數字素養與技能,是順應數字時代要求、提升國民素質、促進人的全面發展的戰略任務”,要“建立符合我國國情的全民數字素養與技能發展評價指標體系”,“定期開展全民數字素養與技能發展監測調查和評估評價”(中央網絡安全和信息化委員會辦公室,2021)。

然而,當前學生數字素養評價主要沿用“依據規則給潛在特質賦值”的經典測量觀,在評價內容、評價方法等方面存在諸多局限性。一方面,傳統的“試題—答案”測驗設計范式側重考查學生數字知識、數字應用技能等低階認知能力,難以評價學生利用數字技術分析解決問題、進行創新創造等高階思維能力。另一方面,當前學生數字素養評價以標準化測驗和自陳式量表為主要工具,評價結果效度低、解釋力度不強。盡管近年來部分學者采用情境任務測評、檔案袋評價等方法來衡量學生數字素養水平,但這些數據難以為學生數字素養表現提供全面的證據(吳砥等,2022b)。

計算心理測量理論主張綜合運用心理測量學、計算機科學等多學科的研究方法,將評價嵌入真實情境任務中,激發并追蹤主體與情境之間的交互,通過多源異構數據采集與分析,實現過程性評價(Mislevy,2021)。計算心理測量理論為破解學生數字素養評價困難提供了創新的方法支持。本研究將自上而下的基于證據推理的理論模型和自下而上的基于技術驅動的測量模型相結合,構建計算心理測量理論視域下的學生數字素養測評框架,并在此基礎上開展實測分析,驗證所提出評價框架的實踐效度。

二、計算心理測量的理論根基與應用現狀

2015年,馮·戴維(Von Davier)首次提出了計算心理測量理論,隨后將其定義為一種綜合運用隨機過程理論、心理測量理論以及數據挖掘、機器學習等計算機科學領域的思想和方法,基于表現性測試收集復雜細粒度數據,對被試潛在特質進行精準測量的方法論(Von Davier,2017)。效度驗證理論以及社會認知理論是計算心理測量理論的兩大理論根基。

1.效度驗證理論

傳統心理測量范式強調“測驗是否衡量了測量目標”的效度觀,強調工具的內容效度、效標效度等,其衡量方式依賴于專家內容審查和計算測驗得分與效標成績之間的相關系數(戴一飛,2016)。這種效度觀操作簡單便捷,卻存在著專家內容審查的主觀性以及效標選擇的科學性等問題,難以反映一些高階能力測評工具的效度。美國教育研究者協會(American Educational Research Association,AERA)等出版的《教育與心理測驗標準》(Standards for Educational and Psychological Testing)中將效度重新定義為“依據分數所作出的推理是否適恰、是否富有意義、是否具備實用性,測驗的效度驗證就是搜集證據來支持上述推理的過程”(AERA et al.,1999)。彼時,效度理論已經開始從相關系數計算向基于證據的驗證轉變。邁克爾·T.凱恩(Michael T. Kane)進一步提出效度理論應落腳到效度驗證,強調從考生作答過程的數據中挖掘證據,以支持和證實測驗結論的可靠性(Kane,2001)。由此,效度驗證理論的核心思想從傳統的計算某項測驗的效度指標轉變為衡量測驗分數的可解釋力度,在操作上強調利用經驗或理論證據來評判測驗分數及其推斷的充分和適當性,即使用證據去支持對測驗結果的解釋。

效度驗證理論奠定了計算心理測量理論的思想基礎,即強調測評要構建相對復雜的任務,誘發被試的知識、技能和能力(Knowledge,Skill and Abilities,KSAs)表現,基于表現挖掘并提取證據,建立證據與KSAs之間的統計關系,強化測評結果的可解釋力度。

2.社會認知理論

傳統心理測量范式起源于以伯爾赫斯·弗雷德里克·斯金納(Burrhus Frederic Skinner)為代表的特質和行為心理學,強調心理測量即是試題與被試之間的“刺激—反應”,并根據反應結果為被試的潛在特質賦值(Mislevy,2021)。此種測評范式操作簡便,有利于開展大范圍的測評,但僅將測評看作是“刺激—反應”會忽略學生復雜的認知心理過程,導致測評過程及結果解釋的簡單化。

社會認知理論反對將環境看作簡單的行為刺激源,強調認知是主體內部心理過程與外部環境相互作用的結果。社會認知中的“社會”反映了人與環境之間交互的規律性(Mislevy,2021),個人需要從環境中抽象出關鍵認知事件以開展后續的認知活動,不同人會提取出不同的認知事件。人與環境之間交互的規律性即是指這些因人而異的認知事件具有共同的本質,可以聚集成一些性質、規律相似的事件集群(Hansen et al.,1997)。羅伯特·J.麥斯雷弗(Robert J. Mislery)將這些事件集群的本質和規律稱為語言(Linguistic)、文化(Cultural)和實質性(Substantive)模式(簡稱LCS模式)(Mislevy,2021)。個人的認知活動就是在與環境交互的過程中提取關鍵認知事件并識別事件隱藏的LCS模式,在此基礎上展開后續的認知行為。社會認知中的“認知”強調個人利用自身的認知資源與環境進行復雜交互(Holland,2006),具有以下特點:首先,個人將自己過去的經驗以及知覺、思想和信念等組織成有意義的思維模式(即認知資源),用于各種認知事件的解決;其次,個人在與情境交互的過程中,其對某一事件的認知行為會隨著時間推移而不斷變化;最后,個人會根據情境中認知事件的解決過程,總結經驗,不斷調整和完善自己的認知資源。

社會認知理論完善了計算心理測量理論的實踐框架,強調測評為學生提供的任務應當具有豐富且真實的情境,激發學生利用自身的認知資源與環境進行交互;測評證據的提取就是識別學生不同粒度的認知資源的過程。社會認知理論還指出了證據的兩種來源,一是來自個人既有的認知資源,這類證據主要由領域專家根據經驗預先確定;二是來自隨時間而變化的認知行為,這類證據通常是從學生的行為序列中采用數據挖掘技術而得到。

3.計算心理測量的主要思想與應用現狀

計算心理測量理論在評價理念方面堅持效度驗證思想,在以證據為中心的設計(Evidence-Centered Design,ECD)理念指導下,強調構建任務誘發KSAs表現,依據表現提取證據,依據證據進行推理,提高評價效度(Mislevy et al.,2003)。在評價內容方面,計算心理測量理論適用于高度抽象、結構復雜的綜合能力和素養的評價。在評價技術方面,受社會認知理論的啟發,計算心理測量理論強調利用多元化數據挖掘技術提取行為序列中的隱性證據,利用機器學習等技術建立證據與KSAs之間的測量模型??傮w來說,計算心理測量理論形成了自上而下理論驅動和自下而上技術驅動相結合的測評邏輯(Mislevy,2021)。自上而下的理論驅動以ECD框架為基本指導,包含了能力模型、任務模型、證據模型的設計(Mislevy et al.,2003)。能力模型是指待測量的KSAs及其概念框架,回答了“測量什么”的問題。任務模型是指為了誘發學生的KSAs而開發的情境任務,回答了“用什么測量”的問題。證據模型是指由專家預先確定的衡量學生KSAs的變量及其計分方式,回答了“如何測量”的問題。麥斯雷弗指出了三種證據:與任務績效相關的結果,在情境中產生的行為,個人的背景信息(Mislevy,2021)。測量模型表征了從證據到KSAs的推理過程,即利用數學與統計模型建立證據與能力模型之間的關聯(朱莎等,2020)。自下而上的技術驅動包含過程數據采集、證據挖掘與篩選、測量模型構建等環節。首先,需要全面記錄被試完成任務過程中的細粒度的行為序列數據;其次,通過數據挖掘技術從這些低層級、細粒度的行為序列數據中逐步提取新的變量,并篩選出能有效評價能力模型的關鍵證據;最后,整合證據并通過數學和統計模型構建KSAs的測量模型,實現精準有效的評價(Cipresso et al.,2019)。

目前,國外計算心理測量理論的相關研究主要關注理論發展、算法設計等內容,也開展了一些基于計算心理測量理論的測評實踐。例如,斯蒂芬·T.波利亞克(Stephen T. Polyak)等人設計了第一人稱的迷宮游戲,同時結合數據挖掘、機器學習等技術,衡量了中學生的協作問題解決能力(Polyak et al.,2017)。亞歷山大·瓦圖京(Alexander Vatutin)等人則專注于數學問題解決能力,基于學生與數字教科書的交互進行證據推理(Vatutin et al.,2021)。埃里克·斯諾(Eric Snow)等人基于證據推理和數據挖掘為中國香港小學生和美國中學生開發了一個計算思維評估工具,實現了學生計算思維能力的有效評估(Snow et al.,2019)。戴維·德加多-戈麥斯(David Delgado-Gómez)等人開發了一款無限奔跑類型的數字游戲,并根據學生在游戲中的行為實現了注意力的精準測評(Delgado-Gómez et al.,2020)。國內學者也開始關注計算心理測量理論。例如,李美娟等人系統介紹了計算心理測量理論的發展與內涵,并嘗試構建了針對協作問題解決能力的測評框架(李美娟等,2022);鄭勤華等人構建了理論與技術雙向驅動的學生綜合素養測評新范式(鄭勤華等,2022)。

綜上所述,國外已經開展了計算心理測量理論的實證應用研究,其科學性和有效性在一定程度上得到了證實。而國內對計算心理測量理論的研究還處于引介階段,缺乏相關的應用研究以及實證分析。從評價內容來看,相關研究主要聚焦于對問題解決能力的評價,對于數字素養這種復雜能力體系的關注還較為匱乏。

三、計算心理測量視域下學生數字素養測評 框架

基于計算心理測量理論的思想,本研究構建了計算心理測量視域下自上而下理論驅動和自下而上技術驅動相結合的數字素養測評框架,如圖1所示。

1.理論驅動的以證據為中心的設計

“以證據為中心的設計”理論是計算心理測量視域下數字素養測評的出發點,突出了自上而下理論驅動的推理鏈,主要包括構建學生數字素養能力模型、構建數字素養評價任務模型、根據專家經驗初步確定證據規則,以及開發情境任務測評系統四個環節。

第一,構建學生數字素養能力模型。學生數字素養評價標準是構建評價能力模型的基礎。首先,檢索國內外學生數字素養評價標準/框架,在考慮我國學生數字素養培育現狀與發展需求的基礎上,進行關鍵詞提取、整理與合并,形成學生數字素養評價標準初稿。其次,選取一定數量的領域專家,開展多輪次專家咨詢,逐步修訂、完善評價標準。最后,深入分析并厘清學生數字素養評價指標的外部行為表現,由此確定每個評價指標對應的可觀測變量,界定這些可觀測變量的操作性定義,建立數字素養能力模型。

第二,構建數字素養評價任務模型。對于知識和情感態度層面的測量,適合開發應答性任務以快速、準確地進行評分和比較,如判斷題、多項選擇題等;對于信息檢索、獲取等基本技能的測量,適合開發操作性任務以引發學生的真實操作,如連線題、拖拽題等;對于計算思維等高階能力的測量,適合開發益智類任務以捕捉學生的思維,如迷宮題等。在情境設計方面,可以設計分裂式情境,即不同任務的情境相互獨立;也可以設計連續性情境,將所有任務嵌入其中,營造沉浸式的測評體驗。

第三,根據專家經驗初步確定證據規則。專家需要確定每個評價指標對應的特征變量及其計分方式。從先前的研究中發現,這些特征變量包括但不限于:學生的人口學特征,如性別、年齡、父母受教育程度等能夠預測學生數字素養水平的因素(Hatlevik et al.,2018);學生的作答情況,即學生是否完成任務或任務結果是否正確,這是心理測量學已證實的有效證據;測評日志文件中的時間變量,如學生作答任務花費的時間等能預測能力表現的變量(Michaelides et al.,2020)。

第四,開發情境任務測評系統。首先,需厘清測評系統在內容呈現、數據采集、人機交互等方面的需求,然后進行系統的框架設計,包括處理流程、組織結構、模塊劃分、功能分配、接口設計、數據結構設計等。一方面要有效呈現任務模型,另一方面要具備過程性數據分布式采集與存儲功能,以便提取證據。其次,在框架設計的基礎上進行編碼開發,并對開發完成的系統進行測試,逐漸完善系統的界面、配置、性能、數據庫等,確保系統的安全性、穩定性以及滿足需求的并發數量。

2.技術驅動的數據挖掘推理

計算心理測量視域下的數字素養測評在以證據為中心設計的理論驅動基礎上,采取自下而上的技術驅動的方式進行數據挖掘,從低層級、細粒度的行為序列數據中逐步提取新的證據,來驗證測評的效度。具體過程包括采集情境任務點擊流數據、從點擊流數據中提取特征變量、篩選關鍵特征變量、構建測量模型實現精準評價四個環節。

第一,采集情境任務點擊流數據。點擊流數據是指學生在與系統交互的過程中,經由鼠標點擊形成的細粒度行為數據,能夠反映學生的操作經歷,蘊含豐富的評價信息(李爽等,2021)。xAPI技術規范是采集點擊流數據的常用手段,它以(任務)為核心,記錄學生在某一情境中的行為動作、行為操作的對象、使用的工具以及行為發生的時間戳(顧小清等,2014)。計算心理測量視域下的學生數字素養評價可以采用xAPI技術規范,通過編寫xAPI數據采集框架,以一定的格式語句描述學生完成任務的點擊行為,實現學生點擊流行為數據的實時追蹤、采集和存儲。

第二,從點擊流數據中提取特征變量?;趚API技術規范的點擊流數據具有時序特征,從這些去情境化的細粒度行為數據中提取的特征變量有兩種常見類型:一是關注某一時刻的行為狀態,直接提取或通過簡單的數學運算提取其狀態特征,如某項任務的作答得分情況、某項任務的花費時間等;二是基于時序性的行為序列數據,如拖拽、連線等行為序列,計算學生行為序列與最優行為序列之間的差距,可以反映學生思維的復雜性、完成任務的效率等。

第三,篩選關鍵特征變量。提取出的特征變量可能存在與評價指標間相關性較低、解釋性較差等問題,因此需要篩選關鍵特征變量。首先,整合特征變量,進行缺失值處理、無效數據剔除、數據降噪、數據標準化等工作。其次,進行效度驗證,剔除與評價指標相關性較低或可解釋性較差的特征變量??梢岳脵C器學習方法(如遞歸特征消除、方差過濾、卡方過濾、F檢驗、互信息等)自動篩選出與數字素養相關性較高且不存在高度共線性的關鍵特征。最后,將篩選出的關鍵特征與學生數字素養能力模型的各個指標建立映射關系。

第四,構建測量模型實現精準評價。首先,選擇多種機器學習模型作為候選測量模型,經訓練和驗證后得到最優模型。其次,計算心理測量視域下的數字素養測評范式遵循“理論模型—數據采集—變量挖掘—指標映射—測量模型”的閉環推理邏輯,根據每一輪測量模型的預測結果可以精準定位到難度過高、過低等設計不良的情境任務,促進測評任務的修訂;可以優化數據采集框架,豐富數據采集點;還可以發現新的變量挖掘方法。最后,經過循環迭代,將形成精準的、穩定且成熟的學生數字素養測量模型,進而應用到不同場景的學生數字素養測評實踐中。

四、計算心理測量視域下的學生數字素養測 評設計

1.學生數字素養測評能力模型設計

《義務教育信息科技課程標準(2022年版)》指出了數字素養的4個一級維度:信息意識、計算思維、數字化學習與創新、信息社會責任,同時對每個一級維度進行了內涵闡釋(中華人民共和國教育部,2022)?;谶@4個維度,研究團隊首先整合了國際權威數字素養標準/框架,如歐洲共同體DigEuLit數字素養框架(Martin et al.,2006)、歐盟數字素養框架1.0/2.0(Ovcharuk,2020)、聯合國全球數字素養框架(Law et al.,2018)、數字智能聯盟數字智商(DQ)全球標準(Park,2019)等,對這些標準/框架的指標進行關鍵詞提取、整理與合并,并結合我國義務教育階段學生的發展現狀和需求,細化了數字素養各維度的二級指標。在此基礎上,為了構建可觀察、可操作的數字素養能力模型,需要進一步細化指標對應的可觀測行為表現。其次,研究分析了學生數字素養評價指標的內涵及其相互關系,厘清了各評價指標與其能力表現的實質性聯系,確定了每個評價指標對應的行為表現特征,界定了每個評價指標的可觀察行為及其操作性定義,形成了學生數字素養評價能力模型初稿。再次,研究采取德爾菲法向10余名領域內的專家進行了意見咨詢,根據專家每一輪意見修訂能力模型并再次征詢意見,直到所有專家對于維度、指標、可觀測行為的操作性定義達成一致。最終,形成的學生數字素養能力模型如表1所示。

2.學生數字素養游戲化測評任務設計

研究基于數字素養能力模型設計了面向小學高年級學段的敘事性數字素養測評游戲“果敢的奇幻星球之旅”(Zhu et al.,2022)。學生將扮演小學生果敢,在“蔚藍星”的探險之旅中完成一系列數字素養相關任務,以解救被黑客抓起來的人魚公主并幫助她尋找丟失的夜明珠。游戲設置了14項任務,包含5種題型,表2呈現了所有任務的題型、簡介和對應的數字素養二級評價指標。游戲以解題闖關為主,每項任務均設置了幫助機制、金幣獎勵和Pass卡機制。根據每項任務的完成情況(一次作答正確;首次作答錯誤,查看幫助后作答正確;兩次均作答錯誤),系統將為學生累計不同數量的金幣獎勵;學生第一次作答錯誤,系統將自動給出任務幫助,此后學生可以主動點擊幫助按鈕(點擊幫助會消耗金幣);當學生連續作答錯誤兩次,系統將贈送學生一張Pass卡,并強制結束該關卡。

為了驗證游戲的內容效度,研究通過專家咨詢法,選取了10余名領域內的專家,采取五點計分方式收集其對測評任務所考查的指標的認可程度(即指標匹配度)。同時由于研究選擇四年級學生參與測評,因此還向專家咨詢了游戲任務是否符合四年級學生的認知水平(即認知匹配度)。咨詢結果見表3。整體來看,本研究設計的游戲化任務與數字素養各評價指標之間的匹配程度較高,也符合四年級學生的認知水平。

3.學生數字素養游戲化測評特征變量設計

(1)基于專家經驗的預定義證據規則

已有研究將特征變量劃分為顯性和隱性兩類(孫建文等,2022)。本研究采用了此種劃分方式,其中顯性變量包括兩類:一是人口學特征變量。先前研究表明,性別、年齡、父母受教育程度是影響學生數字素養表現的關鍵人口因素(Hatlevik et al.,2018),由于本研究以四年級學生為樣本,學生年齡差距較小,因此不考慮該因素。納入本研究的人口學特征變量為性別、父母受教育程度。二是學生在每一項游戲化任務上的作答情況,例如作答正確與否、作答狀態。

隱性變量也包括兩類:一是被研究者廣泛關注的時間變量,例如學生完成任務花費的總時間、實際作答時間、反應時間、思考時間等。二是與游戲配置相關的數據,例如當前任務獲得金幣數量、累積到當前任務獲得的總金幣數量、點擊幫助的次數、當前任務是否獲得Pass卡等。

(2)基于行為序列的特征變量挖掘

除了上述由專家確定的特征變量,對于迷宮題、連線題和拖拽題等操作較為復雜的游戲任務,研究還采集了學生作答的操作行為序列。針對這些行為序列可以自下而上地挖掘出一些新的隱性變量,包括學生行為序列與最優行為序列之間的編輯距離、相似度、效率等。編輯距離是指將學生作答的行為序列轉換為最優行為序列所需的最小插入、刪除和替換的操作總數;相似度表示學生的行為序列偏離最優行為序列的程度;效率衡量了學生能否以盡可能少的行為數量完成任務。這些基于行為序列提取的特征變量可以更準確地區分作答結果相同的學生,體現其在數字素養水平上的差異。綜合自上而下由專家確定的證據以及自下而上從過程性數據中挖掘的證據,表4呈現了數字素養測評所有的特征變量。

五、計算心理測量視域下學生數字素養測評 實踐

1.測評實證研究設計

參與本次測評的學生來自武漢市某小學四年級隨機選取的三個班級,共計125名,其中男生46人,女生79人。測評工具包括兩部分:一是研究團隊開發的“果敢的奇幻星球之旅”數字素養測評游戲,二是研究團隊面向小學中高學段開發的數字素養標準化測試題。該套測試題多次用于全國大規模學生數字素養測評項目,已經被證明具有良好的信效度、難度、區分度等指標,具有較高的效標價值(余麗芹等,2021)。本次測評結果也將作為本研究測量模型的標簽。

測評在該小學的計算機實驗室進行,由各班信息技術教師組織。在測評開始前,信息技術教師向學生告知測評目的并強調操作規則、瀏覽器設置以及其他注意事項,并通過教師端計算機向學生統一發送測評鏈接。接著,學生打開測評鏈接,填寫個人信息并完成數字素養標準化測試題。最后,學生提交標準化測驗答卷,按照情境順序完成游戲化任務。測試需在40分鐘內完成。

2.指標映射關系建立

對于采集的所有特征變量,使用Python3.8的Pandas包和Scikit-Learn包進行預處理,包括將具有連續性意義的特征變量標準化,以加快后續模型訓練速度,提高準確率,并對特征變量進行缺失值填補。對于標準化測驗的結果,研究參考國內外關于學生KSAs預測的做法將學生的測驗成績進行二值化等寬分箱,作為標簽變量(Hautala et al.,2020)。根據研究團隊多次開展的大規模學生數字素養測評經驗,小學生數字素養得分主要集中在中等和較高水平,處于較低水平的學生比例極少,采用二值化等寬分箱處理符合小學生數字素養特征。

完成數據預處理之后,借助Scikit-Learn包進行特征變量的效度驗證和關鍵特征的自動篩選。研究采用遞歸特征消除和互信息兩種方法進行特征變量篩選。對于決策樹、隨機森林、邏輯回歸、XGBoost等能夠返回特征重要性的模型,使用5折交叉驗證的遞歸特征消除法識別最優特征變量組合;對于支持向量機、樸素貝葉斯等不返回特征重要性的模型,采用互信息法衡量每個特征變量與標簽之間的相關性,篩選互信息值較高的特征變量。經過特征篩選得到每個二級維度與特征變量之間的映射關系如表5所示。

3.測量模型構建

研究選取6種機器學習模型建立數字素養及各一級維度的測量模型。首先,采取5折交叉驗證的網格搜索(GridSearchCV,cv=5)進行模式參數調節,以自動識別最優參數組合。由各模型的預測準確率(如表6所示)可知:對于數字素養,預測效果最好的模型是邏輯回歸,準確率達到了89.6%;其對信息意識的預測準確率達到81.6%,對計算思維的預測準確率達到78.4%。XGBoost預測數字化學習與創新的準確率最高,達到72.0%。隨機森林和XGBoost預測信息社會責任的準確率最高,均達到90.4%。整體來看,本研究的游戲化測評任務得到了相對精準的測評結果。

4.測評應用結果分析

(1)游戲化測評整體結果分析

使用上述最佳測量模型的預測結果,本研究繪制了學生數字素養總體水平以及各一級指標表現水平的分布情況,如圖2所示??梢?,參與游戲化測評的學生數字素養整體表現良好,73.6%的學生達到了較高的數字素養水平。然而,學生在數字素養各維度的表現并不均衡,學生在信息社會責任方面表現最好(高水平學生占比達88.0%),在信息意識方面表現較好(高水平學生占比達76.0%),在計算思維方面表現一般(高水平學生占比達61.6%),而在數字化學習與創新方面表現較差(高水平學生占比低于50%)。

研究基于預測結果進一步計算了高、低水平數字素養群體中,各一級維度水平的分布情況,如圖3所示。分析發現,在高水平數字素養的群體中,學生通常具備較高的信息意識(高水平占比達83.7%)、計算思維(高水平占比達73.9%)以及信息社會責任(高水平占比達100%);然而高水平數字素養的學生不一定具備較高水平的數字化學習與創新(高水平占比僅56.5%)。在低水平數字素養群體中,學生通常具備較低水平的數字化學習與創新(低水平占比達84.8%)和計算思維(低水平占比達72.7%);而低水平數字素養的學生也可能具備較高水平的信息意識(高水平占比達54.5%)和信息社會責任(高水平占比達54.5%)。

(2)游戲中過程性行為特征分析

研究還分析了學生在游戲中的過程性行為,具體結果如表7所示。分析發現,關于游戲時間,不論是反應時間、思考時間還是總時間,學生都是在計算思維題目上耗時最多。在玩法配置方面,學生在計算思維題目上平均獲得金幣數量最少,點擊幫助次數和使用Pass卡數量最多。在行為序列方面,僅計算思維、數字化學習與創新兩個維度設計了可以采集行為序列的拖拽題、迷宮題和連線題。其中作答計算思維題目的行為序列編輯距離比數字化學習與創新題目更大,行為序列的相似度和效率差異則較小。這意味著學生在回答計算思維題目時,其行為序列與最優行為序列之間的偏離程度更大。然而,測評的整體結果顯示,學生在計算思維上總體表現優于數字化學習與創新,這是因為解決計算思維問題對學生而言更具挑戰性,他們傾向于花費更多時間、做出更多嘗試以解決問題,因此造成行為序列編輯距離較大,得分表現卻較好的結果。

表7 學生游戲化測評結果

[指標 信息

意識 計算

思維 數字化學習與創新 信息社會責任 反應時間(秒/題) 8.315 21.537 9.015 7.324 思考時間(秒/題) 1.643 10.620 2.498 1.701 總時間(秒/題) 10.136 67.460 17.241 9.032 當前金幣數量(數量/題) 37.749 29.808 35.667 40.200 點擊幫助次數(次數/題) 0.083 0.653 0.307 0.000 使用Pass卡(數量/題) 0.017 0.235 0.075 0.000 編輯距離(距離/題) - 3.757 1.336 - 相似度(相似度/題) - 0.695 0.623 - 效率(效率/題) - 0.662 0.644 - ]

綜合整體測評結果和游戲中的行為表現,本研究發現大部分小學高段學生已經初步具備了信息意識,對信息具有比較敏銳的判斷力,能遵守網絡道德行為規范與法律法規。然而在基本信息科學的相關概念、原理及創新能力方面還略顯不足,且在面對具有復雜操作的情境任務時,學生的思維過程更加復雜,花費更長時間,更傾向于獲取幫助,且作答準確率更低,說明學生還較為缺乏解決問題的高階思維能力。整體而言,上述研究結果與研究團隊前期開展的大規模標準化測評結果相似(余麗芹等,2021)。

六、結語

本研究基于計算心理測量理論,構建了雙向驅動的學生數字素養測評框架,并基于此框架開展了實踐探索,是計算心理測量理論從理論走向實踐的嘗試,為后續開展過程性評價提供了借鑒和參考。本研究的主要貢獻有以下三方面:一是突破傳統心理測量范式下學生數字素養評價內容單一、評價結果信效度低的桎梏,構建了計算心理測量視域下學生數字素養測評框架,并首次嘗試將點擊流數據引入學生數字素養評價。二是設計并開發了學生數字素養游戲化測評任務及系統,能有效捕捉學生的思維過程,為評價學生數字素養水平提供了更加豐富可靠的證據。三是開展了計算心理測量視域下的學生數字素養測評實踐,總體上取得了良好的評價效果。與傳統評價僅關注作答結果相比,本研究將基于技術驅動的方法從點擊流數據中挖掘出的諸多特征變量作為關鍵預測特征,如金幣數量、點擊幫助次數、行為序列相似度等,結合理論驅動所定義的人口學特征、作答情況、作答時間等特征變量,有效提高了測量模型的準確率,證實了計算心理測量視域下數字素養測評的實踐效度。

本研究依然存在一些局限。一是樣本量較小、數據模態有限,未來的研究可在本研究基礎上開展更大范圍的實踐,同時考慮采集眼動、腦電、音視頻、語言文本等多模態數據,使學生數字素養評價的證據更加豐富。二是本研究的任務分布略不均衡,部分指標的游戲任務較少,導致這些指標的映射特征較少。未來可進一步設計更加豐富的游戲任務,確保各指標具有相對均衡的任務數量,并開展更多輪次的測評,驗證并不斷優化游戲任務,提高測評結果的可靠性。三是本研究將標準化測驗結果作為機器學習建模的標簽,可能在測試時存在一些隨機誤差。盡管大規模的測評已證實本研究所采用的標準化測驗可作為可靠的效標,但為了減小誤差,未來的研究還可以考慮整合多模態數據,探索學生數字素養水平的智能化評價技術。

參考文獻:

[1]戴一飛(2016).效度論證范式下的ECD測試設計框架——我國教育考試國家題庫的升級路徑之一[J].中國考試,(11):28-37.

[2]顧小清,鄭隆威,簡菁(2014).獲取教育大數據:基于xAPI規范對學習經歷數據的獲取與共享[J].現代遠程教育研究,(5):13-23.

[3]李美娟,劉紅云,張詠梅(2022).計算心理測量理論在核心素養測評中的應用——以合作問題解決測評為例[J].教育研究,43(3):127-137.

[4]李爽,鄭勤華,杜君磊等(2021).在線學習注意力投入特征與學習完成度的關系——基于點擊流數據的分析[J].中國電化教育,(2):105-112.

[5]孫建文,胡夢薇,劉三女牙等(2022).多維異步在線討論行為特征分析與學習績效預測[J].中國遠程教育,(5):56-63.

[6]吳砥,朱莎,王美倩(2022a).學生數字素養培育體系的一體化建構:挑戰、原則與路徑[J].中國電化教育,(7):43-49,63.

[7]吳砥,余麗芹,朱莎(2022b).智能時代中小學生信息素養評價的主要挑戰與實施路徑[J].人民教育,(5):44-48.

[8]余麗芹,索峰,朱莎等(2021).小學中高段學生信息素養測評模型構建與應用研究——以四、五年級學生為例[J].中國電化教育,(5):63-69,101.

[9]鄭勤華,陳麗,郭利明等(2022).理論與技術雙向驅動的學生綜合素養評價新范式[J].中國電化教育,(4):56-63.

[10]中華人民共和國教育部(2022).教育部關于印發義務教育課程方案和課程標準(2022年版)的通知[EB/OL].[2022-10-07].http://www.moe.gov.cn/srcsite/A26/s8001/202204/

W020220420582361024968.pdf.

[11]中央網絡安全和信息化委員會辦公室(2021).提升全民數字素養與技能行動綱要[EB/OL].[2022-10-07].http://www.cac.gov.cn/2021-11/05/c_1637708867754305.htm.

[12]朱莎,吳砥,楊浩等(2020).基于ECD的學生信息素養評價研究框架[J].中國電化教育,(10):88-96.

[13]AERA, APA & NCME (1999). Standards for Educational and Psychological Testing[M]. New York: American Educational Research Association:9-25.

[14]Cipresso, P., Colombo, D., & Riva, G. (2019). Computational Psychometrics Using Psychophysiological Measures for the Assessment of Acute Mental Stress[J]. Sensors, 19(4):781.

[15]Delgado-Gómez, D., Sújar, A., & Ardoy-Cuadros, J. et al. (2020). Objective Assessment of Attention-Deficit Hyperactivity Disorder (ADHD) Using an Infinite Runner-Based Computer Game: A Pilot Study[J]. Brain Sciences, 10(10):716.

[16]Hansen, J. G., & Liu, J. (1997). Social Identity and Language: Theoretical and Methodological Issues[J]. Tesol Quarterly, 31(3):567-576.

[17]Hatlevik, O. E., Throndsen, I., & Loi, M. et al. (2018). Students’ICT Self-Efficacy and Computer and Information Literacy: Determinants and Relationships[J]. Computers & Education, 118:107-119.

[18]Hautala, J., Heikkil?, R., & Nieminen, L. et al. (2020) Identification of Reading Difficulties by a Digital Game-Based Assessment Technology[J]. Journal of Educational Computing Research, 58(5):1003-1028.

[19]Holland, J. H. (2006). Studying Complex Adaptive Systems[J]. Journal of Systems Science and Complexity, 19(1):1-8.

[20]Kane, M. T. (2001). Current Concerns in Validity Theory[J]. Journal of Educational Measurement, 38(4):319-342.

[21]Law, N., Woo, D., & Wong, G. (2018). A Global Framework of Reference on Digital Literacy Skills for Indicator 4.4.2[EB/OL]. [2022-10-07]. https://unesdoc.unesco.org/ark:/48223/pf0000265403.

[22]Martin, A., & Grudziecki, J. (2006). DigEuLit: Concepts and Tools for Digital Literacy Development[J]. Innovation in Teaching and Learning in Information and Computer Sciences, 5(4):249-267.

[23]Michaelides, M. P., Ivanova, M., & Nicolaou, C. (2020). The Relationship Between Response-Time Effort and Accuracy in Pisa Science Multiple Choice Items[J]. International Journal of Testing, 20(3):187-205.

[24]Mislevy, R. J. (2021). Next Generation Learning and Assessment: What, Why and How[M]// Von Davier, A. A., Mislevy, R. J., & Hao, J. (Eds). Computational Psychometrics: New Methodologies for a New Generation of Digital Learning and Assessment. Switzerland: Springer, Cham:9-24.

[25]Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A Brief Introduction to Evidence-Centered Design[R]. Princeton, NJ: ETS Research & Development Division.

[26]Ovcharuk, O. (2020). European Strategy for Determining the Level of Competence in the Field of Digital Technologies: A Framework for Digital Competence for Citizens[J]. Educational Dimension, 3:25-36.

[27]Park, Y. (2019). Common Framework for Digital Literacy, Skills and Readiness[R]. DQ Global Standards Report.

[28]Polyak, S. T., Von Davier, A. A., & Peterschmidt, K. (2017). Computational Psychometrics for the Measurement of Collaborative Problem Solving Skills[J]. Frontiers in Psychology, 8:2029.

[29]Snow, E., Rutstein, D., & Basu, S. et al. (2019). Leveraging Evidence-Centered Design to Develop Assessments of Computational Thinking Practices[J]. International Journal of Testing, 19(2):103-127.

[30]Vatutin, A., Moskalenko, M., & Skryabin, M. et al. (2021). Computational Psychometric Approach for Assessing Mathematical Problem-Solving Skills[J]. Procedia Computer Science, 193:250-255.

[31]Von Davier, A. A. (2017). Computational Psychometrics in Support of Collaborative Educational Assessments[J]. Journal of Educational Measurement, 54(1):3-11.

[32]Zhu, S., Bai, J., & Zhang, M. et al. (2022). Developing a Digital Game for Assessing Primary and Secondary Students’Information Literacy Based on Evidence-Centered Game Design[C]// Lee, L K., Hui, Y K., & Mark, K P. et al. (2022). 2022 International Symposium on Educational Technology (ISET). Hong Kong: IEEE:173-177.

收稿日期 2023-03-13 責任編輯 汪燕

Evaluation of Students’Digital Literacy from a Computational Psychometric Perspective

ZHU Sha, GUO Qing, WU Di

Abstract: Regular monitoring and assessment of digital literacy development is the foundation and premise for enhancing the digital literacy of the entire population. Currently, the evaluation of students’ digital literacy primarily adheres to the classical measurement view of “assigning values to potential traits based on rules”, mainly utilizing standardized tests and self-reported scales as assessment tools. This approach faces limitations such as restricted evaluation content and one-sided evaluation methods. Computational psychometrics offers new theoretical and methodological support to solve the challenges in evaluating students’ digital literacy. It advocates for the combined use of research methods from multiple disciplines, including psychometrics and computer science, embedding assessment in real-world tasks to stimulate and track interaction between subjects and contexts. Through the collection and analysis of multi-source heterogeneous data, a process-oriented evaluation is realized. The evaluation framework for students’ digital literacy from the computational psychometrics perspective, guided by an evidence-centered design philosophy, constructs a reasoning chain combining top-down theoretical drive and bottom-up technology drive. It builds complex task scenarios to gather fine-grained data and uses data mining techniques to extract evidence from vast amounts of detailed data, thereby achieving precise evaluation. The practice of digital literacy assessment for upper elementary grades, conducted with this framework, demonstrates that this assessment paradigm helps form a closed-loop reasoning chain from the “capability model” of digital literacy to the “measurement model”. After multiple iterations of optimization, it can produce high-quality digital literacy assessment tasks, reliable evidence of students’ digital literacy and a stable measurement model.

Keywords: Computational Psychometrics; Evidence-Centered Design; Digital Literacy Evaluation; Gamified Assessment

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合