?

基于縱向認知診斷模型的形成性評價研究
——以中學物理歐姆定律教學為例

2024-01-25 08:18鐘志強
鞍山師范學院學報 2023年6期
關鍵詞:診斷模型答題試題

鐘志強

(鞍山師范學院 物理學院,遼寧 鞍山 114007)

認知診斷(cognitive diagnosis model,CDM)模型中的認知屬性是指完成測驗所需的知識結構或認知加工技能.認知屬性掌握模式是認知屬性的邏輯組合.認知診斷模型利用統計方法根據測試作答情況將被試劃分到相應認知屬性掌握模式中,從而可以對學生認知水平及教師教學效果進行評估,并提供個性化建議,完善形成性評價.

當前,認知診斷模型應用多以橫斷研究為主,假定被試知識狀態在一段時間內相對固定,對被試認知屬性在該時段上答題記錄的掌握情況進行評估與分類,并以此進行補救教學.為進一步判斷教學效果,需收集被試跨時間段的測評數據,使用縱向認知診斷(longitudinal cognitive diagnostic model,LCDM)模型評估學生認知屬性掌握和潛在能力變化的情況.探索縱向認知診斷最初實踐手段是重復橫斷認知診斷并對前測與后測的數據進行比較的過程.其不足在于:缺少隨時間變化對模型參數進行校準的機制,無法在統一量規中同時估計參數值[1],這樣,就不能進行縱向參數估計并得到更精準的診斷分類結果.因此,后續學者將潛在轉換分析LTA技術引入DINA模型、DINO模型或LCDM模型,從而產生了LTA-CDM,其目標是確定潛在分類是否會隨時間變化,但還存在等間隔測量和認知屬性獨立的應用前提.因而,探索能滿足跨多時間段測量理論假設且測量指標相對連續穩定的縱向認知診斷模型是當前理論與實踐關注的問題.

1 研究模型的選擇

HO-GDINA(the higher order-general deterministic input noisy “and” gate)模型假定認知結構具有跨時間不變性,即不同時間點所測量的屬性不變,可以同時測量全體與個體一階能力和二階知識屬性的變化[2].其簡化模型表征如圖1[3],潛在變量屬性(a)關聯潛在能力(γ),其結構類似結構方程中的測量模型;潛在能力(θ)關聯潛在變量屬性(a),能力可隨時間連續變化從θ1到θt,其結構類似結構方程中的結構模型;特殊維度是實現兩個測驗等值轉換并方便分數間可比性的錨題.第一階測量模型表征潛在變量屬性(a)與題目作答之間的關系,是對DINA模型的邏輯回歸轉換.第二階高階潛在結構(higher-order latent structural model)模型表征一般潛在能力(θ)與潛在變量屬性(a)之間的關系.第三階縱向發展模型反映潛在能力(θ)隨時間變化的情況,其中,潛在能力為多元正態分布.參考相關模型及文獻[4],本研究選擇了HO-GDINA模型,利用R語言的CDM包等進行縱向認知診斷模型分析.

圖1 HO-GDINA模型

2 研究方法與過程

2.1 測試題

歐姆定律是中學物理教學中的重點和難點,需反復教學與練習,是進行縱向認知診斷研究的優選對象.本次研究測試題主體采用的是“確定和解釋純電阻電路概念測試(determining and interpreting resistive electric circuits concepts test,DIRECT1.0)”.該測試是國際測量歐姆定律相關知識的常用測量工具,共29道題,每題3~5個選項,答題30 min,已證明該測試題具有較高的信度和效度.

本次研究邀請有經驗的中學物理教師和高校物理教學與課程論教師共6人.在明確認知診斷測驗編制基本要求的前提下,對試題涉及的認知模型基本概念達成共識,并對DIRECT試題進行了適當補充.表1規定了正確答題需要的知識和策略認知屬性.圖2(a)表征了認知屬性之間的層級結構,是知識信息加工的心理順序或者邏輯順序(深色塊表示試題包含對應屬性).圖2(b)明晰了表征屬性與題目之間關系的認知屬性.兩套測試卷包含了Q矩陣完全相同的20道題.其中,試卷滿足對每個屬性大于3次考查的條件[5],且各有5道重復試題作為錨題,見圖2(b)前5列矩陣.錨題實現了試題參數的跨時間可比性,既解決橫向平行測驗,也解決縱向重復測驗,其選擇滿足如下基本要求:測驗全部認知屬性,難度在中等偏上,數量占總試題數量的1/4~1/3[6].

表1 歐姆定律認知屬性列表

圖2 歐姆定律屬性層級結構(a)與兩卷共同Q矩陣(b)

2.2 測試對象

采用整群抽樣法,在遼寧省沈陽市選取A、B兩所整體教育質量處于中等水平的初中學校作為測試對象.收集了846人的兩次測試成績,其中,A學校430人,B學校416人.

2.3 測試過程

首先,利用兩試卷分別對A、B兩所學校進行第一次測試,應用認知診斷模型分析整體和個體知識點掌握狀況,以此作為調整和補救教學的依據.其次,進行兩個學校集體教學補救,學校A采用常規錯題講解法補救,學校B采用認知診斷法補救.再次,交換試卷,再對兩所學校進行第二次測試.最后,利用縱向認知診斷法分析整體和個體知識點的掌握狀態和能力變化,判斷補救的教學效果,給出下次補救教學的建議,從而實現更加精準的形成性評價研究.

3 試題參數檢驗

試題參數檢驗是模型擬合和教學診斷的前提,檢驗參數包括試題猜測系數、失誤系數、難度、區分度、近似誤差均方根.

從表2可知,試題猜測系數、失誤系數最大值均小于0.4,說明模型參數合理、結果可靠.試題難度值在0.5左右,系數合理.區分度在0.936~1.000區間,大于0.4,說明本次研究試題區分度非常理想.近似誤差均方根平均值為0.070,小于0.1,說明試題誤差合理.全部題目均合乎效度要求.

表2 認知診斷模型試題參數檢驗結果

傳統的信度分析在實踐上難以滿足平行測驗的應用條件,理論上還有單個測驗Cronbach’sα系數偶爾會落在信度區間外的問題.源于項目反應理論的信度分析也存在使用條件限制,即掌握概率標準誤的屬性經驗信度系數是建立在潛變量方差和誤差方差相互獨立假設之上[7],多個潛變量模型達到相同精確估計需要更大規模測試.為彌補以上信效度檢驗方法的不足,認知診斷模型應采用分類準確性效度和一致性信度.本次研究的分類準確性效度為0.998,分類一致性信度為0.997.可見,模型試題參數檢驗結果理想.

4 第一次橫向認知診斷分析

4.1 整體屬性模式和平均分數分布

兩校整體屬性模式和模式對應的平均分數分布見圖3.

圖3 整體屬性模式(a)和模式對應的平均分數分布(b)

根據屬性間的層級關系,模型共形成12種屬性模式.圖3(a)中第426號個體屬性模式為“110010”,共有60人,在進一步計算結果中,該模式有58個8分和2個13分兩種得分形式,由此可知,相同屬性模式的答題分數不一定相同.在得8分的學生中,有215個“111000”、58個“110010”和1個“111100”三種屬性模式,圖3(b)中平均分從左到右升序排列,表示屬性模式的難易順序.其中,屬性模式“111000”人數最多,即表1認知屬性編碼中a1、a2、a3三個屬性都掌握的人數有216人,平均分(每題1分)為8分;“111111”屬性全掌握模式分值雖最高,但標準差也較大,說明全掌握模式不一定能答對所有題.由此可知,相同分數學生不一定具有相同的屬性模式,對其教學補救措施也應不同.

4.2 橫向認知診斷結果

第一次認知診斷只屬于橫向分析,包括屬性整體掌握程度與正確答題率.由于本次研究僅涉及6個掌握程度屬性變量,較少的數據變量不適合統計分析,因而以定性分析加以說明.從圖4(a)認知屬性掌握程度可知,兩??傮w相似:a1、a2掌握很好,a3、a6掌握明顯不足.從圖4(b)試題正確答題率中可知:9、10、6、1、7較為容易,16、18、19、20、17、2相對較難,總體試題和錨題難度分布合理.在本次實驗中,由于研究數據的非正定性,研究工具R語言CDM包中的gdina.dif對象不能建立,因而實驗錯失了軟件系統自帶的試題卡方檢驗.因此,本次研究采用試題作答程度(平均分)的t檢驗,對比兩個獨立或相關樣本正確答題率是否存在差異.其中,兩次所有試題正確答題率都整體通過了方差齊次性Levene檢驗(p>0.05).使用獨立樣本t檢驗比較第一次橫向兩次成績(t=0.150,p=0.880),認為兩校20道題正確答題率差別較小.結合兩校6種認知掌握程度,可以確定兩校當前教學質量基本一致.

圖4 第一次測試兩校試題認知屬性掌握程度(a)與正確答題率比較(b)

4.3 教學補救方法

教學補救可分集體教學補救和個別化教學補救.鑒于學校教學多以班級授課形式存在,應優先考慮集體教學補救.兩校在有限的規定時間(兩學時)內進行教學補救:A校采用錯題補救法,參考圖3(b)部分,重點選講考試有難度的試題;B校采用認知診斷補救法,參照圖2(a)中屬性層級關系和圖4(a)中認知屬性掌握不足的先后順序a3

5 第二次縱向認知診斷分析

5.1 兩校試題正確答題率縱向比較

試題正確答題率是顯變量,屬于直接實測數據.使用相關樣本t檢驗進行同校前后兩次試題正確答題率數據比較,即縱向比較.數據通過方差齊次性Levene檢驗(p>0.05),A??v向t檢驗結果為t=1.283,p=0.214;B??v向t檢驗結果為t=5.315,p<0.01.可見,B校成績前后變化顯著,達到統計標準,認知診斷補救取得預期教學效果.在圖5(a)成績箱線圖中可看出:正確率在補救教學后都得到提高,但B校第2次成績比較集中,因而教學效果相對較好.在圖5(b)正確答題率變化圖中可看出:兩校難度較大的試題正確率均有提高,但B校提高較多;難度中等的試題正確率,A校數據兩次交錯,B校數據一致提高;難度較低的試題中,A校正確率微有下降,B校表現持平.總體看來,A校補救教學有助于難題解答,B校補救教學有利于提高總體成績.

圖5 兩校4次試題正確答題率分布與比較箱線圖(a)與折線圖(b)

5.2 兩校屬性掌握程度與學生能力比較

掌握程度與學生能力是潛變量,屬于間接測量數據,通過模型計算獲得.學校屬性掌握程度需定性分析.在圖6(a)屬性掌握程度中,兩校整體6個屬性縱向均有提高,B校第二次提高較大;兩校屬性a6教學效果改善不明顯,應該是下次教學補救的重點.HO-GDINA模型能計算學生能力,可利用高階一般能力變化進行數據分析,兼顧橫向和縱向比較.為避免多次利用t檢驗會加大Ⅰ類統計錯誤,本研究利用Holm法得矯正p值.兩校學生4次能力數據全部通過正態分布Shapiro檢驗(p>0.05)、方差齊次性Levene檢驗(p>0.05)和單因素方差分析檢驗(F=22.084 9,p<0.05),說明數據方差齊次并存在組間區別,滿足多重t檢驗的應用條件.根據統計結果,B??v向比較(t=3.170,p<0.05)、A??v向比較(t=8.500,p<0.05)、第2次A與B橫向比較(t=4.311,p<0.05)三項均達到統計水平上的顯著差異.由此可知,A、B兩校教學效果均有提高,但B校補救教學效果更明顯.借助能力數據表征的圖6(b)整體能力和圖6(c)個體能力,也可定性分析(能力按各自升序排列).

圖6 兩校4次屬性掌握程度與能力分布

6 總結與展望

教育測量中,項目反應理論結合總結性評價,從宏觀角度考查學生的成績與能力;認知診斷理論對應著形成性評價,能幫助教師宏觀把握學校和班級整體認知結構,微觀把握學生個體認知狀態,對學生認知屬性有所了解.B校借助認知結構診斷報告提供的教學反饋信息,經過補救教學,教學效果好于A校,主要表現在:學生成績的集中水平和分散程度有所改進,盡管仍有少數學生沒能掌握難度較大的屬性,但屬性的掌握情況多數增強,能力變化效果顯著.

HO-GDINA模型能夠實現縱向診斷功能,評估補救教學效果,促進形成性評價,但也有不足.理論上,模型假設屬性結構獨立,這與教學實踐不符.一是同一教學單元中,學生的知識掌握程度和層級屬性關系會隨學習過程而改變.二是不同教學單元中,認知屬性和知識結構是變化的,也不能通過屬性粒度的調整融入相同的模型中.實踐中,受教學時長限制,同一教學單元的縱向評價不能有過多頻次,縱向診斷的生存周期與縱向診斷發揮優勢又表現出邏輯悖論.此外,在知識追蹤研究中考慮的學生答題時間因素也沒能納入認知診斷模型中,這是認知診斷模型的又一缺陷.如此,動態地表征學習者知識掌握程度的認知模型應是當前理論與實踐探索的重要方向.

猜你喜歡
診斷模型答題試題
邀你來答題
邀你來答題
邀你來答題
2021年高考數學模擬試題(四)
邀你來答題
CD4細胞計數聯合IGRA預測AIDS/Ⅲ型TB影像診斷模型分析
2019年高考數學模擬試題(五)
《陳涉世家》初三復習試題
2019屆高考數學模擬試題(二)
對于電站鍋爐燃燒經濟性診斷模型的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合