?

合作問題解決能力測量:真實性與過程性評價視角

2022-05-16 20:40袁建林劉紅云
電化教育研究 2022年5期
關鍵詞:過程性評價測量

袁建林 劉紅云

[摘? ?要] 合作問題解決能力是一種復雜的高階技能,其有效測量面臨困境。文章遵循真實性與過程性評價理念,嘗試建構全新教育測驗形式,探索合作問題解決能力有效測量的方法與過程。首先,基于真實性評價理念建構真實任務情境,開發具有真實性、交互性、動態性的測驗任務。其次,獲取學生在測驗任務中的過程性表現,從過程數據中提取有意義的行為模式作為觀測指標,以此形成合作問題解決能力的測量證據。再次,鑒于“兩人交互”的合作形式和三種觀測指標并存的項目結構,應用兩維度Rasch模型進行測驗分析和估計學生能力。模型擬合結果顯示測驗項目的MNSQ值處于0.87~1.34之間,項目的整體分離度為0.981,大部分項目的區分度大于0.3,學生能力分布符合一般實際,表明測量模型擬合較好,測驗項目質量較高。研究結果說明基于真實任務與過程性測驗表現測量合作問題解決能力是一種可行的途徑,這種新測驗形式對復雜技能的有效測量具有重要借鑒意義。

[關鍵詞] 合作問題解決能力; 測量; 真實性評價; 過程性評價

[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A

[作者簡介] 袁建林(1983—),男,湖南邵陽人。副教授,博士,主要從事教育測量與評價、技術支持的復雜能力測評研究。E-mail:jianlinyuan@hnu.edu.cn。劉紅云為通訊作者,E-amil:hyliu@bnu.edu.cn。

一、引? ?言

源于核心素養研究熱潮,如何科學有效地測量核心素養這類復雜技能是教育領域備受關注的問題,也是教育測量所面臨的難題和挑戰[1-2]。合作問題解決能力(Collaborative Problem Solving)是一種重要的核心素養,大型國際測評項目PISA2015和ATC21S(Assessment & Teaching of 21st Century Skills)采用不同方法開展了大規模測評實踐[3],以促進合作問題解決能力科學有效測量的進展,驅動教育測量理念、方法與技術的系統性革新,對教育測評的發展具有深遠影響。但從測量的科學性與有效性來看,兩個項目都存在一定局限,需要更深入研究。在國內,合作問題解決能力測量的實踐研究缺乏,有關復雜能力測量方法與過程的討論也不多。本研究著眼于“真實性”與“過程性”測評理念解構合作問題解決能力的測量方法與過程,以期解決現有測量方法所存在的問題,促進復雜能力測量的發展。

二、已有研究與問題

伴隨經濟與社會的全球化、網絡化,分工協作是當代社會生產生活的基本組織形式和人際交往準則,與此相適應,能有效參與合作、解決現實問題成為21世紀公民必備的能力與素養。在教育領域,合作問題解決一般被認為是一種核心素養或者21世紀技能,PISA2015和ATC21S都對其內涵進行了詳細的界定。綜合多方討論,合作問題解決能力是指“為達成共同任務目標,個體參與合作小組問題解決過程的能力”[4]。對其內涵的理解基本達成共識:合作問題解決是一種個人能力,而不是合作小組的共同能力;這種能力體現在個體參與小組問題解決活動過程中,為了完成共同任務,合作小組成員需要交流各自信息、討論問題解決方案、協同各自行為,最終達成共同任務目標[4]。因此,合作問題解決能力是一種涉及社會交互的個體層面能力,也是一類高度抽象、結構復雜的高階技能。

從教育測量的視角來看,復雜構念的有效測量,首先需要對其進行詳細界定,提出與復雜理論構念“等同”的測評框架。PISA2015和ATC21S都提出了具有廣泛公信力的測評框架[5],具體框架內容存在較大差別但也具有共性,基本思路是將抽象的能力進一步具體化、細化,形成可觀察、可測量的指標體系。以ATC21S提出的測評框架為例,其遵從復雜概念解構還原的基本范式,通過逐層分解,將合作問題解決能力具體化為18種元素,所形成的框架見表1。

關于合作問題解決能力的測量方法,PISA2015和ATC21S所探索的兩種原創性方法最具代表性。PISA2015采用“人—機”交互的測驗形式,被測學生與代理(Agent)之間通過對話完成問題解決過程。代理指的是任務情境中設計的具有一定智能的虛擬人物,模擬被測學生的搭檔。其測量的基本原理是:精心設計對話流程與路徑,在對話過程中嵌入一系列問題且提供相應選項,被測學生選擇相應選項完成對話進而促進問題解決進程的發展,學生對問題的作答被用于推論其合作問題解決能力,其實質是巧妙利用學生與代理之間的“問—答”對話從而將交互性的動態測驗轉化成標準化的單項選擇測驗[3]。國內有研究通過對合作問題解決過程行為和被試輸入語言進行結構化編碼,應用會話管理技術進行人機對話,嘗試突破PISA2015的結構化測驗流程[6]。ATC21S采用“人—人”交互的測驗形式,由兩位學生組成合作小組完成共同任務、達成共同目標。其測量的基本過程是:基于信息不對稱機制設計任務,學生通過對話交流信息、討論解決方案、執行相關操作達成共同任務目標,測試系統實時記錄兩位學生的關鍵操作行為和對話內容并形成過程數據,從過程數據中提取關鍵行為或行為模式作為合作問題解決能力框架中元素的觀測指標,然后基于這些觀測指標推論學生的問題解決能力。

對于兩種測量形式的優劣,學者們持有不同的看法。有研究者認為“人—機”交互測驗為參與測試的學生提供了等同的小組構成,能夠確保被試受到等同刺激,但預先設定的“人—機”對話路徑與流程限制了交互的開放性,缺乏現實場景中對話的真實性,“人—機”合作不能等同于真實世界的合作[7-8]。Griffin等認為“人—人”交互測驗模式是真實的人與人之間的合作,具有現實合作場景中的開放性、真實性,與“人—機”交互模式相比具有更高的測驗效度[8]。但ATC21S為合作小組的兩位學生定義了相同的試題,采用傳統Rasch模型估計學生的能力,兩位學生之間的交流合作違背了測量模型個體獨立性假設[4]。此外,“人—人”交互測驗產生的過程數據包含豐富的信息,有利于合作問題解決能力這類復雜技能抽取多樣化的測量證據??傮w上,“人—機”交互提供等同刺激,避免了“人—人”交互的非獨立性問題,不需要對交流語言進行處理,適用于PISA這類大規模標準化測驗的需求?!叭恕恕苯换ナ钦鎸嵉娜伺c人之間的合作,從測驗形式來看更具現實世界合作的真實性與開放性,因而測驗可能更真實有效。

教育測評形式與方法的變革根源于測評思想與理念的發展。PISA2015和ATC21S關于合作問題解決能力的新測驗形式超越了傳統標準化紙筆考試,其突破性的進步除了技術便捷性的助催,變革的本質根源于教育測評自我反思與批判所衍生的新評價思想與理念。具體來說,是真實性評價與過程性評價理念在教育測評實踐中的運用。真實性評價倡導創設具有現實意義的真實問題情境、采用多樣化評估方式,改變過度關注事實性知識再認和回憶的評價形態,從而實現對有現實價值的高層次思維能力的評價[9]。真實性評價的靈魂在于“真實性”。一方面評價任務與評價情境要具有真實性。Wiggins認為真實性評價在于考查學生在有價值的任務上的表現[10],所謂有價值的任務是指構建的任務情境與現實社會生活相同或相似,即真實性任務。另一方面,真實性評價強調測評的內容具有現實意義和價值,其核心是要考查學生整合已有知識、技能、態度、個體傾向等特質應用于有意義的現實問題情境中的能力[11],也就是在真實任務與情境中解決問題的能力。過程性評價發軔于對終結性評價的批判,主張采取目標與過程并重的價值取向,對學習過程、學習結果以及相關非智力因素進行全面評價[12],其出發點是倡導評價要關注學習過程。近年來隨著技術的發展及在教育測評中的應用,衍生出游戲化測驗、嵌入式測驗等具有交互性、動態性的過程性測驗形式[13],其核心是基于學生完成任務的過程性表現而不僅僅是“作答結果”進行測評,此為過程性評價的另一層內涵。通過對兩種新測評理念與思想的闡釋,可以看出PISA2015和ATC21S關于合作問題解決能力的測量具備真實性和過程性特征。首先,“人—機”交互與“人—人”交互測驗都需要構建真實性情境、開發真實性測評任務。其次,所測評的合作問題解決能力是真實問題情境中的能力,具有現實意義和價值。再次,兩種測驗形式都具有動態性、過程性特征,學生需要與同伴或代理交流信息、討論解決方案、執行問題解決步驟等,測驗進程是動態發展的過程,關注完成任務的過程而不是結果。

綜合來看,PISA2015和ATC21S采用全新測驗形式測量合作問題解決能力是新測評理念引領與新方法技術應用雙重驅動的結果。對于兩種測驗形式的優劣,從真實性評價和過程性評價的角度來看,“人—人”交互測驗是真實的人與人之間的合作,更具有人類社會合作交互的開放性與非預見性,更符合真實性與過程性測評理念,因此本研究將采用“人—人”交互的測驗形式。然而,對于這類真實的“人—人”交互式測驗,如何設計與開發測驗任務?如何獲取學生完成測驗任務的過程?如何從學生完成任務的過程中抽取指標推論學生的潛在能力?如何基于這種真實性的交互式測驗確保合作問題解決能力的測量更加科學有效?對于這些基本問題的回答,需要實踐層面的經驗與證據。本研究著眼于合作問題解決能力的測量,嘗試從真實性與過程性評價視角解構這類復雜測驗的實施流程,以期為復雜技能的有效測量、新型交互性測驗的實施提供經驗與借鑒。

三、真實性測驗任務設計

由于合作問題解決能力的復雜性,設計與開發測驗任務是合作問題解決能力有效測量的首要難題。遵循真實性評價理念,我們嘗試構建基于信息技術的真實性測驗任務,以期能有效誘發被試合作性地參與問題解決,實現對合作問題解決能力的有效測量。真實性測驗任務設計主要包括“合作”的誘發機制設計、任務原型設計和任務表現形式設計三方面。

(一)合作問題解決能力的誘發機制

在傳統紙筆測驗中,測驗試題是誘發被試能力反應的刺激因素,試題與被測能力存在內容關聯性,試題設計主要從學習范圍之內進行內容抽樣。合作問題解決是一種復雜的高階技能,難以基于傳統紙筆測驗中的試題誘發學生合作性的解決問題,需要設計新穎的刺激形式達到有效測量的目標。合作問題解決主要包括合作與問題解決兩個維度,對于問題解決,傳統“提問題”的形式能有效誘發問題解決過程,而對于合作的誘發,教育測驗中缺少較為成熟的機制。

在ATC21S和PISA關于合作問題解決的測評研究中,合作的誘發機制在于讓學生們參與解決同一個問題,達到共同目標,但具體方式有所區別。PISA“人—機”交互的合作由虛擬的“代理人”提問、學生作答的形式完成。ATC21S“人—人”交互的合作采用“信息不對稱”的誘發機制,主要包括以下兩方面:一是讓兩位學生解決同一問題,達到共同目標;二是在任務開始之初為兩位學生分配不同的資源、工具,讓學生獲得不同信息,需要學生充分利用各自掌握的信息與資源交互協作才能完成任務、達到共同目標?!靶畔⒉粚ΨQ”的合作誘發機制更接近現實中合作情境,構建的合作任務更具有真實性,更符合本研究真實性評價的初衷,因此我們采用該形式設計測驗任務。

(二)真實性任務原型設計

所謂任務原型,是指測驗任務所包含的問題情境、問題結構。合作問題解決能力的真實性測評以真實性任務為基礎,真實性任務需要真實性問題情境。真實情境是源于現實世界、貼近學生經驗的生活場景[14],它缺乏傳統測驗試題所具有的學科化問題結構,需要學生綜合應用自身知識、技能和經驗探明現實生活場景的問題解決過程,而不是簡單的學科知識應用。

合作問題解決能力真實性測驗任務情境創設主要考慮以下因素。一是任務情境要能夠誘發學生參與合作,主要通過“信息不對稱”機制達到該目標。二是問題情境源于學生學習與生活中的真實性體驗,主要包括學科有關問題情境和學科無關問題情境。學科有關問題情境源于學科學習的現實場景,解決該類任務主要以學科知識為支撐;學科無關問題情境源于真實的生活場景,是學生真實生活中會遇到現實問題,解決該類問題需要綜合應用自身知識、技能與經驗?;谝延袦y驗任務改編和重新設計,本研究共設計開發了五個任務。以“裝水”任務為例,表2詳細描述了其設計原理。圖1是“裝水”任務完成開發的界面截圖。

(三)任務表現形式設計

在基于計算機的表現性測驗中,技術的便捷性使得建構豐富的問題情境成為可能,同時也會產生多種類型的測驗表現,比如學生交流討論中的言語行為,單擊、拖拽等操作行為,也有可能是任務完成后的成果與產品。對于這些類型迥異、意義繁雜的表現形式,需要在任務設計時加以規定、規范,確保測驗表現形式結構化、系統化,為數據分析和抽取測量證據提供基礎。

測驗表現的結構性規范設計在于對任務活動過程進行統一界定,重點關注學生在任務情境中的行為過程,以及任務活動所引起問題情境的狀態變化。本研究以“事件”對問題情境中的活動以及有關問題情境的狀態進行統一規范。事件是指學生在任務活動中的行為和問題情境狀態的更新,結合其發生的時間順序可以反映學生的行為過程和問題情境狀態的變化過程。例如,“裝水”任務中,學生A打開水龍頭接水是一個行為事件;接水以后,水杯中的水會變成3L,該事件屬于問題情境狀態的變化。表3是對“裝水”任務問題情境的結構性界定,包含該任務部分需要捕獲的關鍵事件。所謂關鍵事件,是指對于揭示學生問題解決過程有重要意義的事件,而不是與問題解決無關緊要的事件。比如,學生在任務界面中隨意單擊鼠標,該事件對于揭示問題解決過程意義有限,不是關鍵事件。關鍵事件包含兩類,共同事件和獨立事件。共同事件是指在所有任務中都會出現的事件,比如任務的開始和結束、學生的對話。單獨事件是指在該任務中特有而在其他任務中不會發生的事件。

關鍵事件對于復雜技能的過程性測量具有重要意義。學生在問題情境中的行為與活動過程是一個連續的整體,難以整體性記錄。通過界定關鍵事件將連續行為過程進行離散化表達,從而能實現對連續行為過程進行離散化記錄。從任務活動的整體來看,如果將所有反映學生問題解決過程的操作行為和問題情境狀態的變化都以事件的形式進行離散,則能完整反映學生的測驗過程表現。同時,通過對關鍵事件進行結構化設計,使得學生在任務情境中的活動過程具有統一結構,盡管學生在不同任務情境中的活動過程千差萬別,但統一的結構使得我們能對不同學生活動過程所產生的記錄進行挖掘和解釋更為便捷,這為大規模的標準化測量證據抽取提供基礎。

四、過程性測驗表現中抽取測量證據

從測驗表現來看,本研究獲取的是學生完成任務的行為表現過程,形成過程流數據。這類數據形式多樣,蘊含信息豐富,但是單點數據缺乏解釋力,難以直接應用測量模型推論學生能力。也就是說,過程流數據不是推論學生能力的直接證據,需要先從過程流數據中抽取推論合作問題解決能力的證據。如何從過程流數據抽取測量證據、設計觀測指標需要深入探討。

(一)測驗過程流數據

在任務設計過程中,每個任務定義了若干關鍵事件。學生完成任務時,操作任務情境中的相關元素將會觸發關鍵事件,系統依據關鍵事件發生的時間順序、遵從統一的格式將學生觸發的關鍵事件實時記錄到數據庫中,形成過程流數據。圖2是某個小組的兩位學生完成“裝水”任務時所記錄的過程流數據的一部分。過程流數據記錄了學生從進入任務到完成任務之間的所有行為事件,包括對話、操作行為以及問題情境狀態的改變等。

從數據特點來看,過程流是離散事件在時間上的連續,真實而全面地反映了學生完成任務的過程,而不僅僅是操作任務的結果。從測驗的角度來看,學生的具體測驗表現為關鍵事件流,即行為過程流。這種測驗表現與傳統測驗直接獲得學生對于試題的作答結果有巨大不同。首先,過程流數據只是對學生完成任務過程的詳細記錄,難以直接用于評判學生能力,需要從中提取測量證據,才能對學生的合作問題解決能力進行有效推論。其次,過程流數據中絕大多數單個關鍵事件對于推論學生能力缺乏意義,需要深入挖掘行為模式蘊含的信息及其測量意義。比如,單獨考察學生的某一次發言或某一個操作行為,難以形成有意義的測量證據,需要結合該事件的前后多次行為事件才能提取有意義的測量證據。再次,過程流數據真實反映了學生完成任務的完整過程,蘊含著學生問題解決的策略與路徑,蘊含著學生情感、動機、態度等變化,這有利于獲取合作問題解決這類復雜能力的多元化測量證據。

(二)基于過程數據抽取測量證據的原理

教育測量是基于證據進行推理的過程[15],建構測量證據是復雜測驗工作的核心。證據與推論有關。所謂測量證據,是指能直接增加或者降低對潛在構念水平判斷的依據。合作問題解決能力的測量證據,是指能對合作問題解決能力水平高低進行直接推論的依據。本測驗獲取的數據是操作與言語行為的過程數據,難以直接基于過程流數據對合作問題解決能力進行有效推論,需要建構橋接合作問題解決能力與過程流數據之間的測量證據鏈條。

對于合作問題解決能力這類抽象的復雜技能,盡管權威的大型測驗項目明確了其概念與具體維度的內涵,取得一定說服力和廣泛認可。然而,這種界定是一般理論意義上的描述,是跨越不同任務情境的理論抽象。在具體測驗工作中,需要結合具體任務情境對合作問題解決能力各維度進行具體化,明確其在具體任務中的實質意義。從測量的角度來看,就是依據復雜技能的理論內涵對其進行操作化界定,將理論意義上的復雜技能的組成元素具體化為任務情境中的操作行為模式,并將學生在操作行為模式上的表現視為合作問題解決能力的觀測指標,以此形成合作問題解決能力的測量證據。因此,證據鏈條的建構過程轉化為在過程數據中尋找映射構念元素的有意義行為模式的過程。所謂有意義的行為模式,是指學生在某特定行為模式上的表現對于評判學生能力水平能提供有用信息,能直接依據它增加或者降低對學生能力水平的判斷,即測量證據。

本研究采用ATC21S的測評框架,見表1,其三級維度包含18種元素,ATC21S對每種元素都有相應的內涵界定。但這個界定是對構念元素一般意義上的理論說明,需要對構念元素進行操作性界定。也就是在不同的任務中尋找與構念元素關聯的有意義行為模式,將學生在該行為模式上的表現視為構念元素的觀測指標。觀測指標類似傳統測驗中的試題,是推論學生合作問題解決能力水平的直接依據。表4是“裝水”任務中“行動”元素的觀測指標設計。在測評框架中,“行動”的內涵是指“在環境中的活躍度”,這是對“行動”一般意義上的理論闡釋。在觀察指標設計中,需要對其進行操作性界定,在這里界定為“發送消息和操作行為的數量”?!俺槿》椒ā笔侵冈谶^程流數據中提取該行為模式的具體方法過程,用于之后編寫評分程序。表現水平主要分為等級計分和計數值兩種輸出,計數值需要結合學生整體表現情況和專家意見設定截斷值,轉化為等級水平性質的數據。

(三)兩人交互測驗形式下的測驗項目設計

“信息不對稱”的合作誘發機制使得測驗項目的設計面臨兩難選擇:一方面,“信息不對稱”的機制導致兩位學生所受到的“刺激”不完全等同,合作過程中的任務分工不同導致測驗表現也有差別;另一方面,為了等同地測量個體能力,需要相同的測驗項目以確保對參與合作的兩位學生進行公平、可比較的測量。

綜合考慮該特殊情況與測量模型的應用,本研究為參與合作的兩位學生設計了三類項目:共同項目、獨立項目、小組項目。共同項目是指,在兩位學生的行為過程流中,能夠映射某構念元素的相同行為模式,且這種行為模式的發生在兩位學生的任務完成過程中具有必然性,可以理解為兩位學生測試了相同的題目。獨立項目是指,從兩位學生的行為過程流中定義的相對獨特的行為模式,可以理解為兩位學生測試了不同的試題。小組項目是指,反映兩位學生共同作用結果的指標。例如,是否達成任務目標可以作為衡量小組合作的指標,該指標凝結著兩位學生作用的結果。

依據測驗項目設計的原理和方法,本研究基于小丑機器人、植物生長、平衡木和裝水四個任務分別為學生A和學生B定義了17個共同項目,8個小組項目,學生A的獨立項目12個,學生B的獨立項目11個??傮w上,學生A和學生B所設計的測驗項目數量基本相同,每位學生在合作問題解決的每個維度上都有一定數量的測驗項目,確保測驗內容的有效性。

(四)過程流數據評分及項目初步檢驗

完成測驗項目的設計之后,需要依據測驗項目的定義對每一個被試的行為過程流數據進行評分。本研究基于R語言編寫自動化評分程序,程序的算法根據測驗項目定義中的抽取方法。最后利用自動化程序完成對過程流數據的評分。

測驗項目設計取決于研究者主觀經驗與個人理解,項目設計是否科學、能否有效測量合作問題解決能力,自動評分程序是否可靠,需要進行外部驗證。一是測驗項目專家驗證。測驗項目設計完成后,邀請5位專家對所有測驗項目進行評審,從項目的有效性、公平性等方面綜合評判所設計的項目是否合理。37個項目被完全評為“合理”,其他36個項目依據專家意見進行了修改。二是開展測驗項目評分者信度驗證。自動化評分完成之后,選取兩位對本項目非常熟悉的教育測評領域的研究人員作為評分者,兩位評分者和自動化評分程序分項目獨立地對30位學生的過程流數據進行評分,然后計算評分者之間、評分者與評分程序之間的Kappa一致性。結果表明評分者之間、評分者與評分程序之間在大部分項目上的Kappa系數大于0.4以上,說明評分者之間、人工評分和算法程序評分之間有較高的一致性,自動化評分程序具有較高的可靠性。

五、測驗分析與結果

測驗系統開發完成之后,在北京、浙江、湖南、江西各選1所學校進行實測,測試對象為15歲左右的初三學生。完成數據清理和篩選之后,共有434人(217個小組)構成測驗分析的樣本。

(一)項目結構與模型選擇

從測量的角度看,測驗形式與項目結構共同決定測量模型的使用?!皟扇私换ァ睖y驗形式中,被試完成任務的過程是一個相互影響的過程,測驗形成的數據被稱為二元體數據(Dyadic Data)。這種測驗形式違背了被試之間獨立性假設,傳統測量模型難以直接應用。針對二元體數據的建模問題,已有研究提出多維度IRT模型、多水平模型等多種建模思路[16]。本研究設計有三類項目,為了充分利用所獲得的測量證據,同時避免傳統IRT建模的被試局部獨立性假設問題,依據多維度IRT模型對“二元體”數據進行建模的思想,選用了項目內兩維度Rasch模型作為測驗數據的分析模型,具體思路如圖3所示。學生A和學生B被視為模型的兩個維度,分別為學生A和學生B的合作問題解決能力。CA1、CA2…是學生A的共同項目,DA1、DA2…是學生A的獨立項目;CB1、CB2…為學生B的共同項目,DB1、DB2…為學生B的獨立項目;G1、G2…是小組項目,同時附著于學生A和學生B。

(二)測驗分析結果

采用Conquest軟件基于項目內兩維度Rasch模型對測驗項目進行了兩輪分析。第一輪分析結果表明,大部分測驗項目的測量學指標表現較好,只有部分個人層面項目的區分度較低,結合個人項目與小組任務目標達成的相關分析,剔除了部分個人項目,最后包含個人層面項目36個、小組層面項目8個,再進行第二輪分析。結果表明模型擬合較好。測驗項目的整體分離度為0.981,項目分離信度較高。模型的兩個維度信度分別為0.886和0.891,說明模型對于兩位學生的分離信度較高。兩維度相關為0.561,說明兩位學生之間具有較強相互依賴性。

表5為測驗項目擬合結果。從中可以看出,所有項目的MNSQ值處于0.87~1.34之間,平均值1.0,說明項目的擬合情況較好。項目難度值處于-2.0~1.516之間,平均難度為-0.107,總體來說,項目稍顯容易。此外,基于CTT方法計算項目區分度,項目的區分度處于0.25~0.66之間,大部分項目的區分度基本滿足要求。

此外,Conqest軟件估計了每位學生的合作問題解決能力,能力量尺范圍為-2~2,被試在能力值0附近分布較多,以0為中心,被試向兩端分布越趨減少,這與一般教育測驗中學生能力的正態分布假設比較符合,反映了本測驗符合一般實際情況。

六、結? ?語

對于合作問題解決能力這類復雜技能,傳統教育測量范式面臨功效瓶頸,探索復雜技能的新測量方法與手段是當前教育測評的前沿課題。本研究遵從真實性與過程性評價視角,探索基于真實任務中的過程性測驗表現測量合作問題解決能力,取得較好成效。從合作問題解決能力測量角度來看,本研究采用“兩人交互”的測驗形式更具有真實性,設計了不同于以往研究的項目結構、應用多維度IRT測量模型具有創新性,對破解被試獨立性問題提供新的思路;測驗結果表明,這種新測驗設計具有較高測量學質量。從教育測量發展視角來看,本研究闡明了這種新型測驗形式的兩大核心問題——真實性任務設計和過程性測驗表現中測量證據抽取,表明基于真實任務的過程性測驗表現測量復雜技能是一種可行途徑,對核心素養這類復雜技能的測量研究具有重要參考價值。當然,本研究作為一種新測驗形式的探索,并不完善,還有很多問題需要更深入的研究。

[參考文獻]

[1] 袁建林,劉紅云. 核心素養測量:理論依據與實踐指向[J]. 教育研究,2017,38(7):21-28.

[2] 孫宏志,解月光,張于. 核心素養指向下高階思維發展的表現性評價設計[J]. 電化教育研究,2021,42(9):91-98.

[3] 袁建林,劉紅云. 合作問題解決能力的測評:PISA2015和ATC21S的測量原理透視[J]. 外國教育研究,2016,43(12):45-56.

[4] 袁建林. 基于行為過程表現測量合作問題解決能力的研究[D]. 北京:北京師范大學,2018.

[5] 檀慧玲,李文燕,萬興睿. 國際教育評價項目合作問題解決能力測評:指標框架、評價標準及技術分析[J]. 電化教育研究,2018, 39(9):123-128.

[6] 吳忭,王戈,胡藝齡,等. 基于會話代理的協作問題解決能力測評工具設計與效果驗證[J]. 遠程教育雜志,2019,37(6):91-99.

[7] SIDDIQ F, SCHERER R. Revealing the processes of students' interaction with a novel collaborative problem solving task: an in-depth analysis of think-aloud protocols[J]. Computers in human behavior, 2017(76):509-525.

[8] GRIFFIN P, CARE E. Assessment and teaching of 21st century skills: methods and approach[M]. Netherlands: Springer, 2015: 156-158.

[9] 楊向東. “真實性評價”之辨[J]. 全球教育展望,2015,44(5):36-49.

[10] WIGGINS G. The case for authentic assessment[J]. Practical assessment, research & evaluation,1990,2(2):1-3.

[11] DARLING-HAMMOND L, SNYDER J. Authentic assessment of teaching in context[J]. Teaching and teacher education,2000,16(5):523-545.

[12] 高凌飚. 過程性評價的理念和功能[J]. 華南師范大學學報(社會科學版),2004(6):102-106.

[13] BENNETT R E. Educational assessment: what to watch in a rapidly changing world[J]. Educational measurement: issues and practice,2018,37(4):7-15.

[14] 楊向東. 指向學科核心素養的考試命題[J]. 全球教育展望,2018,47(10):39-51.

[15] MISLEVY R J, ALMOND R G, LUKAS J F. A brief introduction to evidence-centered design[R]. Princeton: Educational Testing Service, 2003.

[16] ALEXANDROWICZ R W. Analyzing dyadic data with IRT models[M]// STEMMLER M, VON EYE A, WIEDERMANN W. Dependent data in social sciences research. Switzerland: Springer, 2015:173-202.

猜你喜歡
過程性評價測量
測量
二十四節氣簡易測量
日出日落的觀察與測量
利用大數據進行學習評估與診斷
中職“二維動畫制作”課程教學探討
《Oracle數據庫》課程教學模式探究 
基于過程性評價的Office高級實訓課程教學模式探討與實踐
高校 《大學語文》 課程教學模式的探索
小學信息技術課程教學評價現狀調查報告
你所不知道的測量秘密
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合