?

認知診斷測驗的自動組卷方法*

2023-02-27 14:46馬大付秦春影楊建芹徐新愛喻曉鋒
心理學探新 2023年6期
關鍵詞:信息量題庫測驗

馬大付,秦春影,楊建芹,徐新愛,喻曉鋒

(1.江西師范大學心理學院,南昌 330022;2.山東省濟南市教育教學研究院,濟南 250002;3.南昌師范學院數學與統計學院,南昌 330032)

1 前言

測驗項目是心理測量學中對被試潛在特質進行間接測量的工具。根據被試在項目上的作答結果,選取合適的模型與分析方法可實現對被試潛在特質的定量化評估(Rupp et al.,2010)。組卷是指從一個已校準的題庫中選取一組同時滿足統計(如測驗長度和精度)與非統計約束(如內容平衡,答案平衡)的項目(Becker et al.,2021;Henson &Douglas,2005)的過程。如不考慮任何約束,從題庫中組卷的數量將是巨大的,例如在一個包含20題的題庫中選擇其中10題進行組卷,共有184756種不同的組卷情況(Finkelman et al.,2009)。而隨著題庫項目數量的增加和試題管理約束的復雜化,人工組裝高質量測驗成為一項艱巨的任務(Lin et al.,2019)。自動測驗組卷(automated test assembly,ATA;Finkelman et al.,2020)通過將組卷算法與計算機程序相結合,使根據測驗需求進行自動組卷成為可能。

認知診斷評估(cognitive diagnosis assessment,CDA;von Davier &Lee,2019)作為新一代的心理測量理論,與項目反應理論(item response theory,IRT)關注被試的連續能力(θ)不同,其更關注對被試離散知識狀態(knowledge state,KS)即屬性的測量,這使得二者在構建測驗的方法上不盡相同。首先,由于θ的連續性,IRT自動測驗組卷(IRT-ATA)常采用費舍爾信息量(fisher information,FI)作為測驗組卷的方法。測驗信息量為測驗項目信息量的和(羅照盛,2012),測驗信息量越高,測量誤差越小,測驗信度越高。而KS的離散性不滿足FI的對數似然函數具有二階導數的必要假設(Finkelman et al.,2009),因此基于FI的組卷方法無法直接推廣至CD-ATA(Finkelman et al.,2009;Henson &Douglas,2005);其次,二者組卷的復雜程度不同。IRT-ATA與項目參數、被試θ有關,而CD-ATA則受認知診斷模型(cognitive diagnosis model,CDM)、項目q向量、項目參數與KS分布等因素的影響(de la Torre,2011;Song &Wang,2019),并且診斷測驗項目q向量之間存在復雜的交互作用(丁樹良 等,2010;Lin et al.,2017),這使得即使測驗項目的參數相同,q向量的不同組合也會產生不同的診斷結果。最后,即使CD-ATA成功組卷,也不存在精確的數學表達式能夠描述測試項目與診斷準確性之間的關系(Lin et al.,2017;Wang et al.,2019),從而無法探知組卷結果的優劣??傊?因認知診斷測量對象的獨特性,使得CD-ATA較IRT-ATA而言更加復雜。

為將診斷測驗推向實際應用,國內外研究者針對CD-ATA問題提出多種組卷方法。Lin等人(2017)將CD-ATA方法分為:基于指標組卷與基于模擬組卷兩類,但卻并未對各類組卷方法的發展脈絡、組卷思想等進行更深入的探討。文章通過閱讀相關CD-ATA文獻,結合國內外最新研究發現CD-ATA方法在整體上有著清晰的發展脈絡,不同方法在組卷思想上存在諸多共性之處,且由于技術的發展,當前研究越來越面向實際應用,出現第三類組卷方法。起初,為沿用IRT-ATA使用FI組卷的方式,研究者提出基于信息量指標的組卷方法,并開發多種適用于CDA的信息量指標(汪文義 等,2018;Henson et al.,2008;Henson &Douglas,2005;Song &Wang,2019)。此后,基于作答模擬的方法被提出,該類方法在組卷前模擬一批作答數據,基于該批數據,使用啟發式算法(heuristic algorithm)尋求合適的測驗項目(Henson &Douglas,2005)。當前,研究者越發關注診斷測驗的實際應用,在組卷時考慮更多與實際測驗有關的信息,開發基于項目多信息的組卷方法。因此,文章擬對現有的CD-ATA方法進行論述,首先介紹組卷方法的發展脈絡及其組卷思想,闡述不同方法之間的聯系。其次對比不同類組卷方法之間的組卷思路、方法特征、優缺點,為使用者在方法選用上提供參考;最后,在現有組卷方法的基礎上進行研究展望。

2 認知診斷測驗自動組卷方法

2.1 基于信息量指標的組卷方法

信息量指標組卷方法試圖沿用IRT基于信息量函數的組卷方式,因此定義CDA信息量指標是研究者開發組卷方法時首要解決的問題。根據CDA信息量指標能否直接反映項目的分類準確性,可將其分為間接信息量指標(下稱間接指標)與直接信息量指標(下稱直接指標)兩類。間接指標采用項目對不同KS的區分能力作為項目的信息量,直接指標使用項目的期望分類準確率表示項目的信息量。上述兩類指標均采用程序性組卷的方式,組卷時首先選擇題庫中信息量最高的項目進入測驗,而后根據約束條件(如屬性最少測量次數)篩選出題庫中滿足約束的項目,選取剩余題庫中最高信息量的項目進入測驗,以此類推,直至達到組卷長度。

2.1.1 間接信息量指標

(1)CDI和ADI

相對熵信息量(Kullback-Leibler information,KLI;Chang &Ying,1996)可用于描述兩個概率分布的差異而不假設分布連續。項目j上任意兩種知識狀態αu與αv之間的反應概率分布距離可以描述為:

(1)

屬性相互獨立時,Djuv為一個T*T(T=2K)的D矩陣,K為屬性數量。Henson和Douglas(2005)基于D矩陣提出認知診斷指標(cognitive diagnosis index,CDI):

(2)

其中,h(au,av)-1為au與av之間的海明距離倒數。CDIj體現了項目j對所有KS的整體區分能力,項目CDI值越高表示項目的區分能力越強。

Henson等人(2008)認為CDI無法體現項目對單個屬性的區分能力,只有當項目考察了某些屬性,該項目才在該屬性上存在區分能力,且當某些KS對之間的差異較大時,容易對項目的區分能力造成“虛高”的假象。因此可不必考慮差異較大的KS對,僅考慮在單個屬性上存在差異的KS對?;诖硕x了屬性層面的區分度指標(attribute diagnosis index,ADI):

(3)

其中qjk∈{0,1},0表示項目未考察該屬性,1表示考察。ADI指標反映了項目在屬性層面(attribute-specific)上的區分能力。

測驗水平的CDI與ADI可表示為:

(4)

(5)

使用CDI與ADI指標組卷時,通常設置目標函數為Maximize(CDI),Maximize(ADI),即從題庫中選擇能使CDI與ADI和最大的項目組合,該項目組合有著最大區分能力。Zeng等人(2010)根據可達矩陣能夠提高診斷測驗準確性的原理,提出在使用CDI編制測驗時添加可達矩陣,該方法提高了CDI組卷的診斷準確性。

(2)MCDI和 MADI

Kuo等人(2016)對CDI與ADI展開修正,在原有指標的基礎上增加屬性層級結構權重與屬性最少測量次數權重。校正后的MCDI與MADI(modified CDI;modified ADI)為:

(6)

(7)

(8)

(3)RCDI和 RADI

2.1.2 直接信息量指標

基于間接指標的組卷結果僅能表明測驗項目具有較高的區分能力和可能具有較高的診斷準確率,卻無法直接判斷組卷結果的屬性或模式判準情況。汪文義等人(2018)以及Song和Wang(2019)提出一種可在無作答數據的情況下對項目各屬性分類準確性進行預測的直接指標:期望屬性分類準確率指標(expected attribute match rate,EAMR):

(9)

(10)

EAMRjk表示掌握屬性k的被試在項目上正確作答并最終分類正確與未掌握屬性k的被試在項目上錯誤作答并最終分類正確的概率之和。當屬性k未被項目考察時,項目對該屬性的期望正確分類率為0.5。項目j的EAMRj為各屬性的EAMRjk之和。

同樣的,測驗水平的EAMR為:

(11)

2.1.3 信息量指標優化算法組卷

除上述兩類信息量指標方法外,Finkelman等人(2010)認為,在定義CDA項目信息量指標后,CD-ATA應回歸IRT-ATA使用優化算法的整體性組卷方式,優化算法的組卷結果可被證明是滿足條件下的最優信息量指標項目組合。

(1)0-1整數線性規劃組卷

0-1整數線性規劃法(binary integer liner programming,BILP)常用于在給定目標函數與多個約束條件的情況下,優化目標函數值。Finkelman等人(2010)將BILP用于CD-ATA。以ADI指標為例(也可使用其他指標),設定目標函數:

(12)

(2)混合整數線性規劃組卷

混合整數線性規劃方法(Mix Integer Linear Programming,MILP)的目標函數中既包括整數型決定變量,也包括連續型決定變量。Wang等人(2021)將該方法與項目D矩陣相結合,將其用于CD-ATA。該方法首先去除項目D矩陣中對角線為0的元素,后將D矩陣轉換為長度為T-1的矩陣,再將其轉換為列向量后按行拼接。經上述三步處理,將D矩陣轉換為行為T(T-1),列為1的項目列矩陣。將題庫中所有項目列向量按列合并為一個大小為行為T(T-1),列為M的題庫矩陣:V矩陣。設置目標函數為:

min(f1x+f2y),

當不考慮f2y部分時,MILP方法與BILP方法類似,兩者均是基于項目的KLI,不同的是MILP基于項目的D矩陣,而BILP則是基于項目的CDI值。當考慮f2y部分時,相較于BILP方法,MILP方法保證了對每對KS進行足夠的區分度測量,即區分度平衡。

2.1.4 基于信息量指標的組卷方法評價

基于信息量指標的組卷方法的結果與所定義的CDA信息量指標密切相關,由于屬性的離散性,現有研究在定義CDA信息量指標時始終沿用一種如何將不同KS充分區分的思路。在得到信息量指標后,根據測驗信息量最大化的組卷思想進行確定性組卷,即在確定題庫項目、組卷指標、測驗要求后,任一基于信息量指標的組卷方法從題庫中所選擇的項目是確定的。因僅進行一次組卷,而未與其他可能的組卷結果進行比較,這導致其組卷結果未必是全局最優。

2.2 基于作答模擬的組卷方法

該類方法通過事先模擬被試在項目上的作答數據,通過設立目標函數,將CD-ATA問題轉換為在已有數據上尋求一組最符合目標函數的項目組合。由于能為診斷目的設立不同的目標函數,因此相較指標組卷方法,作答模擬組卷方法靈活度更高(Finkelman et al.,2009)。

2.2.1 遺傳算法組卷

遺傳算法(generic algorithm,GA)模擬自然界優勝劣汰的進化過程:具有更強適應能力的個體將在個體競爭中存活,并產生具有更強生存能力的后代。Finkelman等人(2009)將該方法用于CD-ATA。GA將題庫中測驗項目組合被視為單個個體,通過比較不同個體符合目標函數的程度,選擇當前數據下接近最優的測驗組合。GA的具體組卷過程包括以下幾步:①產生一批包含S組初始項目的測驗即父代,每個測驗中包含數量為J的項目組合,初始項目組合可隨機產生也可通過使用CDI的組卷方式產生;②使用“變異”策略,隨機改變每個初始解中的一個項目,產生S*J個子代;③評估包含父代在內的S*(J+1)組解符合目標函數的程度;④根據③步的評估結果,選擇最符合目標函數的前S組測驗項目組合進入下一輪迭代;⑤重復步驟②-④,直至達到最大迭代次數;⑥選擇最后一次迭代中最優項目組合做為最優測驗。

為使組卷結果更加符合實際,Finkelman等人(2009)提出三種目標函數:

(13)

(14)

(15)

2.2.2 蟻群算法組卷

蟻群算法(ant colony optimization,ACO)與GA類似,均屬于求取目標函數的啟發式算法。Lin等人(2017)將ACO用于CD-ATA,提出基于蟻群算法的測驗構建方法(test construction method based on ant colony optimization,ACO-TC),該方法將CD-ATA視為一種路徑優化問題,題庫中每一種測驗項目的組合均被認為是一條路徑,通過建立目標函數,在所有路徑中尋求接近最優解的路徑。

ACO-TC過程大體上可分為三步:局部組卷、局部信息量更新與全局信息素更新。局部組卷時,單個螞蟻(a=1,2,…,A)從剩余題庫中選擇滿足條件約束的項目j的后驗概率可為:

(16)

其中T為剩余題庫中滿足約束的項目集合,τj為項目的信息素濃度(初始組卷時設置τ0=1),ηa與γa分別為項目信息量指標與項目滿足測驗約束程度的權重,為提高組卷過程中的適應性,可設置ηa為多種項目信息量指標的組合。當螞蟻a完成組卷后對其所選中的項目進行局部信息量更新:

τj=(1-ρ)τj+ρτ0,

(17)

公式(17)中的ρ∈(0,1)表示信息素蒸發速率。當所有螞蟻均完成組卷后,可設置公式(13)、公式(14)、公式(15)為目標函數,評估所有螞蟻的組卷結果,最優項目組的目標函數可記為fbest,最差組記為fworst。后對fbest中的項目進行全局信息量更新:

τj=(1-ρ)τj+ρΔτ,

(18)

2.2.3 基于作答模擬的組卷方法評價

作答模擬組卷方法依靠自身不斷的循環迭代,每一次的組卷結果都建立在上一次組卷結果的基礎之上,尋求更優于上一次組卷結果的題目組合,當組卷結果不再變化時,則表示尋得當前組卷方法下的最優題目組合。這種循環迭代的組卷方式,提高了找到全局最優解的可能性。但由于其需要大量的迭代計算,需要耗費的組卷時間也相對更長。

2.3 基于項目多信息的組卷方法

在實際測驗中,測驗的項目構成、測驗形式以及測驗的時限要求等都是測驗開發者應當考慮的問題。為使組卷結果與實際測驗要求更加一致,研究者進一步考慮更多可利用的項目信息,開發得到基于項目多信息的組卷方法。

2.3.1 基于多選項項目的組卷方法

現有研究對診斷數據的處理往往采用二分法(正確作答與錯誤作答兩類),多項選擇認知診斷模型(multiple choice CDM,MC-CDM)認為錯誤選項同樣包含著屬性的分類信息,這些信息同樣可被可用于KS判別(Henson et al.,2018)。Henson等人(2018)將DINA模型下的區分度指標:1-sj-gj,用于MC-CDM,提出一種廣義的區分度指標(discrimination index,DI):

(19)

Hj表示項目j的選項數量,P(Xj=h│α)表示α的被試選擇選項h的概率,Pjh(Xj=h|α-k)表示與α僅在第k個屬性上存在差異的KS選擇選項h的概率。DIjk定義了單個項目對屬性k的區分能力。在使用DI組卷時,采用與CDI相同的指標線性求和的方式,測驗水平的DI為:

(20)

2.3.2 基于反應時的組卷方法

Finkelman等人(2020)認為,盡管當前CD-ATA已能夠獲得豐富的信息,但還要保證被試所花的時間是可接受的,許多測驗也含有一定的時限要求,因此其將反應時信息融入CD-ATA,作為測驗組卷的約束條件,提出反應時組卷(response time assembly,RTA)?;趘an der Linden(2006)提出的項目反應時模型:

(21)

(22)

(23)

(24)

其中ζq,ζr與ζs分別表示q,r與s的目標條件,δs,δs與δs分別表示q,r與s的可容忍殘差。在CD-ATA組卷時,RTA方法與BP相同,組卷時將反應時信息作為一種額外的約束條件,使用LP求解器進行求解。

2.3.3 基于項目多信息的組卷方法評價

基于項目多信息的組卷方法在測驗形式、測驗要求等方面上更加貼合于實際情況,在組卷時考慮更多對測驗結果可能產生影響的因素,并將其納入組卷過程。但其對項目本身的要求更高,如多選項項目組卷方法需知道選擇錯誤選項的概率,反應時組卷方法需知道作答項目的時間分布情況。

3 組卷方法比較與選用

3.1 組卷方法比較

文章已對現有的十多種CD-ATA方法進行介紹。接下來進一步對不同組卷方法進行比較,為實際使用者以及后續研究者在選用方法與開發新方法提供思路。表1詳細呈現了不同組卷方法的分類情況、方法特征及優缺點。

表1 不同CD-ATA方法對比

從方法的大類上可以看出:①信息量指標組卷方法沿用IRT-ATA使用FI線性和的組卷思想,根據屬性離散的特點,在CDA中尋找Fisher信息量的替代品。在組卷時通常設置滿足約束條件的最大測驗信息量項目組合,為確定性組卷方法。然而,該類組卷方法忽視了CD-ATA與IRT-ATA的不同,未考慮項目q向量之間復雜的交互作用,缺乏靈活性。②與信息量指標組卷不同的是,作答模擬組卷方法選擇項目時是非確定性的,題庫中的每個項目都有被選入測驗的概率,為概率性組卷方法。通過不斷地迭代更新,每次迭代后的結果均優于上一次迭代,最終得到最優項目組合。相較于信息量指標組卷方法,模擬作答組卷在組卷時嘗試的項目組合類型更多(信息量指標組卷僅嘗試一種項目組合)。但由于其算法復雜,計算量大,導致其組卷效率較低。③項目多信息組卷對項目信息了解程度要求高,且在組卷時部分依賴指標組卷的方法,因此也部分具有指標組卷存在的缺點。

3.2 組卷方法選用

通過對不同方法的比較,文章從組卷精度與組卷效率兩種角度,為實際使用者在選用組卷方法上提供建議。

(1)組卷精度,診斷測驗的首要目的是為獲得較高的診斷精度(Rupp et al.,2010),盡管不同組卷方法存在一定的精度差異,但相較于隨機組卷,本文所提及的組卷方法在屬性數量較少的情況下均能夠獲得較高的判準精度。但屬性數量較多時,指標組卷方法的判準率將迅速下降(Henson &Douglas,2005;唐小娟 等,2013),此時應當選用模擬組卷方法。另外,當組卷的目的是為了獲得特定屬性精度的測驗時(Finkelman et al.,2009;Lin et al.,2017),指標組卷方法將無法適用,此時僅能通過模擬組卷。

(2)組卷效率,除組卷精度外,組卷效率也是施測人員需要考慮的問題(Finkelman et al.,2009;Lin et al.,2017)。模擬組卷因其在組卷時需不斷地迭代更新項目組合,計算要求高,組卷時間長,組卷效率低。其他方法僅需在前期計算項目信息量指標時耗費一定的時間(郭磊 等,2016),實際組卷的時間較短,而且由于指標組卷均屬于確定性算法,因此僅需計算一次項目信息量,即可多次運用。因此,如希望在短時間內得到組卷結果,可選擇基于指標組卷的方式。

4 研究展望

盡管現有的CD-ATA方法已達十余種,但面對實際測驗的多樣性,有關組卷方法的研究與應用均有待進一步拓展,文章在已有方法基礎上從理論性研究和實際應用角度出發提出幾點展望。

融合測驗設計,基于信息量指標的組卷方法僅關注于單個項目的q向量與項目參數,未考慮診斷測驗的整體性,忽略測驗Q向量在診斷測驗中起到的重要作用。目前已有部分關于測驗構建策略的研究(唐小娟 等,2022),而僅有少數組卷研究探討過將信息量指標組卷方法與測驗構建策略進行融合,融合測驗構建策略后的結果也表明,信息量指標組卷方法的組卷精度可獲得大幅增長(Kuo et al.,2016;Su &Chu,2021;Zeng et al.,2010)。未來可進一步探討將更多診斷測驗設計與信息量指標組卷方法相互融合,在保證信息量指標組卷效率的基礎上,進一步提高其組卷精度。

非參數組卷,當前CD-ATA方法均是在假定項目參數已知的情況下進行,而實際情況中,項目的實際參數是難以獲得的。尤其是對于一些具有較復雜的診斷模型而言,準確的項目參數估計依賴于大量被試的作答反應。而當項目參數穩健性難以保證的情況下(Veldkamp et al.,2013),使用非參數組卷方法則勢在必行,未來可開發更多非參數組卷方法。

平行測驗組卷,平行測驗(parallel test)是一種常用的實際測驗形式,而文章所介紹組卷方法均只針對于構建單份測驗。在查閱文獻后,發現當前有關認知診斷平行試卷的構建方法僅有少數研究者(Li et al.,2021;Lin et al.,2019)有過相關探討。未來也可開發同時能構建多份平行測驗的CD-ATA方法。

開發組卷軟件,盡管當前已開發了多種CD-ATA方法,但這些方法并不適用于沒有編程基礎的使用者,這也在一定程度上阻礙了組卷方法的實際應用。目前,有關研究者已將IRT-ATA組卷方法開發為相應的軟件與開源R包(Becker et al.,2021;Shao et al.,2020),使用者僅需少量操作便可進行組卷,極大的簡化了組卷過程,而CD-ATA中目前僅可通過使用R中的CDM包計算CDI與DI指標(George et al.,2016;Shi et al.,2021),尚未見完整的組卷R包或專業組卷軟件,未來可開發相應診斷組卷軟件。

開展實證研究,當前CD-ATA的實證研究相對較少。這一方面是由于國內外診斷測驗的研究尚處于起步階段,缺少系統性的測驗開發、題庫建設的過程,這在一定程度上阻礙了CD-ATA的實際應用??紤]到CDA在教學評估過程中的優良特性、未來可開發系統性的診斷測驗題庫,開展CD-ATA的實證研究。

猜你喜歡
信息量題庫測驗
“勾股定理”優題庫
“軸對稱”優題庫
“軸對稱”優題庫
“整式的乘法與因式分解”優題庫
基于信息理論的交通信息量度量
《新年大測驗》大揭榜
兩個處理t測驗與F測驗的數學關系
如何增加地方電視臺時政新聞的信息量
基于多尺度互信息量的數字視頻幀篡改檢測
你知道嗎?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合