變長非參數認知診斷自適應測驗終止規則

2022-02-18 04:00李俊杰鄭慧婧康春花

江西師范大學學報（自然科學版） 2022年6期

李俊杰,鄭慧婧,康春花*

(1.北京師范大學中國基礎教育質量監測協同創新中心,北京 100875;2.浙江師范大學心理學院,浙江金華 321004)

0 引言

認知診斷計算機化自適應測驗(cognitive diagnostic computerized adaptive testing,CD-CAT)結合了認知診斷理論和CAT的雙重優勢,相比傳統的測驗形式,它可以更精確、更迅速、更靈活地測量出被試的潛在知識狀態(knowledge state,KS),從而獲得被試在知識點上的掌握情況,為教育教學工作者提供有針對性的指導,促進學生的個性化發展.近年來,國內外越來越多的研究者關注CD-CAT這一領域.

在對CD-CAT的眾多分類中,依據CD-CAT使用的診斷方法可將CD-CAT分為參數CD-CAT 和非參數CD-CAT.參數CD-CAT的診斷方法常用極大似然估計法(maximum likelihood estimation,MLE)、極大后驗估計法(maximum a posteriori,MAP)和期望后驗估計法(expected a posteriori,EAP).這3種方法都是在項目參數已知的條件下通過概率計算來估計被試的知識狀態(knowledge states,KS)或屬性掌握模式;而非參數CD-CAT是采用更加簡單的有效距離判別法來估計被試的知識狀態,在估計過程中不需要進行概率計算,進而也不需要知曉項目參數,所依據的是理想反應和觀察反應之間的距離最小的原則,即與觀察反應之間距離最小的理想反應所對應的屬性掌握模式視為考生的知識狀態.參數CD-CAT和非參數CD-CAT的結構均包含5個部分:題庫、初始項目選擇方法、知識狀態或能力值的估計、選題策略和終止規則.目前參數CD-CAT已在選題策略[1-6]、屬性在線標定[7-9]和終止規則[10-11]等方面展開了相關的研究.相比于參數CD-CAT,非參數CD-CAT發展較晚,截至目前,非參數CD-CAT的研究主要集中在選題策略[12]方面.而大部分圍繞選題策略的非參數CD-CAT研究均是以定長(fixed-length)CAT的形式作為終止規則,即固定每次測驗的長度,在被試完成測驗后,根據被試的作答反應估計其知識狀態.定長CAT雖然固定了測驗長度,施測較為方便,但對不同的被試會有不同的測量精度.一個更加合理的做法是,應該使CD-CAT形式的測驗對每個被試的測量精度相同,這也正是自適應測驗優勢的體現[13].與定長CAT相對應的終止規則為變長(variable-length)CAT,變長CAT能夠使每個被試具有相同測量精度并由此終止測驗[14].相對于定長CAT,變長CAT更能體現出自適應的特點和優勢,因此,開展這方面的研究非常有意義.總體來講,傳統CAT測驗終止規則可以歸納成2類:1)達到預設測驗信息量終止規則,即不斷施測項目直到測量標準誤差落在可接受范圍內,或測驗信息量達到某個預先設定的指標;2)最小信息量終止規則,即在剩余題庫中所有項目的項目信息量都低于某個預設水平[7].在參數CD-CAT中,C.L. Hsu等[10]在C. Tatsuoka[15]以最大后驗概率作為測驗終止條件的基礎上提出了變長CD-CAT的終止規則(本文將其稱為Hsu法).其研究結果表明:當固定屬性掌握模式在后驗概率分布中的最大后驗概率預設水平時,被試的模式判準率會隨著第2大后驗概率預設水平的降低而增大;當固定知識狀態后驗分布的第2大后驗概率預設水平時,被試的模式判準率會隨著最大后驗概率預設水平的升高而增大.參數CD-CAT的變長測驗終止規則的提出極大推動了變長參數CD-CAT發展.正如前文所述, C.L. Hsu等[10]對變長CD-CAT的終止規則是建立在后驗概率的基礎上的,而在非參數CD-CAT情境中,通常在題庫建設過程中標定題目的項目參數,此時HSU法或Tatsuoka法將無法適用于非參數CD-CAT情境.那么,在非參數CD-CAT的體系內有沒有類似參數后驗概率的指標可用于衡量某個屬性掌握是被試真實知識狀態的可能性呢?文獻[16]率先嘗試使用距離加權(dwac)結合理想反應的方式構建了距離加權-理想作答選題方法(DWIR),并闡述了在測驗中隨著測驗長度的增加,更高可能性是被試的屬性掌握模式的dwac值越大,更低可能性是被試的屬性掌握模式的dwac值越小.

因此,本文首先借鑒變長參數CD-CAT的終止規則,隨后結合在文獻[16]提出的DWIR方法中距離加權(dwac)的指標開發2種非參數變長CD-CAT的終止規則:最大距離比例終止規則和距離比例雙重標準終止規則.

1 認知診斷模型

1.1 DINA 模型

該模型因為僅涉及失誤和猜測2個參數,所以真正實現了對認知診斷模型的簡化[17-18].其表達式為

其中ηij是一個二分變量,它表示被試i是否掌握了第j題所考查的全部屬性,gj表示第j題的猜測參數(guess parameter),其是未掌握該題所測全部屬性的被試答對這道題的概率,s表示第j題的失誤參數(slip parameter),其是掌握了該題所測全部屬性的被試答錯這道題的概率.

1.2 RRUM模型

縮減的再參數化統一模型(reducedreparame-terized unified model,RRUM)是另一種常用的認知診斷模型[19-20].RRUM模型的表達式為

1.3 GP-DINA簡介

GP-DINA模型[21]是在涂冬波等[22]提出的P-

DINA模型上拓展而來的,GP-DINA的項目反應函數為

ηij=fx(aiq′jmj/(qjq′j)),

其中ηij是被試i在項目j上的理想得分,mj是項目j的滿分值,fx(·)是對被試的理想得分進行取整.

P(Xij=t|ai)=P*(Xij=t|ai)-P*(Xij=t+1|ai),

其中P*(Xij=t|ai)表示被試在題目j上得t分及t分以上的概率,t的取值范圍為0～mj(mj項目j的滿分值),P(Xij=t|ai)為屬性掌握模式ai的被試得t分的概率.

2 選題方法

2.1 Q-最優準則

Xu Gongjun等[23]提出的Q-最優準則的依據為:當考察在領域中的所有屬性(設共有K個)時一個測試所需的題量至少為K,即給出了使用最小測試長度K是識別所有屬性掌握模式的充要條件.特別是為了達到最小測試長度,在測試中的第1項應當只考察1個屬性,隨后的題目依次添加1個新屬性.應用Q-最優準則選擇CD-CAT前K個題目的具體過程如下:

1)初始化題庫R(0);

2)為被試i從R(0)中隨機選題j,使得題目j的q向量qj=e1.通過刪除題目j來更新R(0),即R(0)=R(0)-{j};

3)被試作答題目j,并記錄反應向量yi;

5)對被試施測題目j′,通過y(k)=(yk-1,y(k))更新反應向量;

6)令k=k+1,重復步驟4)～步驟5)直至k=K.

2.2 非參數選題策略(NPS)

2.3 距離加權-理想作答選題(DWIR)

文獻[16]基于理想作答反應構建了非參CD-CAT選題策略,其核心思想是:依據不同屬性掌握模式在同一個題目上的理想反應存在差異來選擇能夠區分被試的估計屬性掌握模式與其他屬性掌握模式的題目.具體算法如下:

dwac=exp(max{da}-dac)/(exp(max(da)-min(da))),

DWIR方法選題過程:1)根據DWIR選題策略,計算題庫中剩余題目的DW值,并將在題庫中的最大DW值對應的多個題目組成待選題庫;2)從待選題庫中隨機選取一題對被試進行施測;3)重復1)、2)的步驟直至滿足測驗終止規則.

3 變長測驗終止規則

3.1 Tatsuoka法

C. Tatsuoka[15]提出了變長CD-CAT的經驗性準則,即當被試屬于某種知識狀態的后驗概率超過設定的標準時,測驗終止.

3.2 Hsu法

C.L. Hsu等[10]基于C. Tatsuoka的思想,進一步提出了雙重標準的變長CD-CAT終止規則,即當被試在某種知識狀態下的最大后驗概率P1st不低于某個預設水平(如0.7),并且第2后驗概率P2nd不高于某個預設水平(如0.1)時,測驗終止.

3.3 最大距離比例終止規則(maximum distance ratio method,MDRM)

在Hsu方法中采用后驗概率作為終止測驗的精度指標,其原理是若某種屬性掌握模式的后驗概率越大則這種屬性掌握模式就越可能是被試的真實知識狀態.已有研究[24-26]表明:與觀察反應的距離越小的理想反應所對應的屬性掌握模式越可能是被試真正的屬性掌握模式.文獻[16]采用距離權重的方式用于衡量每個屬性掌握模式是被試真實知識狀態的可能性,屬性掌握模式dwac越大的更有可能是被試的真正屬性掌握模式.不難看出,非參數的dwac同樣能夠作為終止測驗的精度指標,同時受C. Tatsuoka[15]啟發,本文首先提出最大距離比例終止規則.最大距離比例d1st計算如下:

其中M為潛在的屬性掌握模式的種數,m1為在M種潛在的屬性掌握模式中dw值最大所對應的屬性掌握模式.可以看出,m1的dw值占比越大,d1st的值將會越大.

最大距離比重終止規則:當被試屬于某種屬性掌握模式的最大距離比例d1st超過設定的標準時,測驗終止.

3.4 距離比例雙重標準終止規則(distance ratio double standard method,DRDSM)

在文獻[15]的基礎上,C.L. Hsu等[10]提出了采用雙重標準的終止規則以進一步確保測量精度.因此,本文在非參數視角下的最大距離比例d1st基礎上進一步結合第2大距離比例d2nd,提出了距離比例雙重標準法.

準則1當最大距離比例d1st不小于預定值(如0.70)時,CD-CAT停止.

準則2當最大的非參數比例d1st不小于預定值(如0.70),并且第2大距離比例d2nd也不大于預定值(如0.10)時,CD-CAT停止.

在準則2中考慮d2nd,這可以有效避免2個競爭的屬性掌握模式.如假設d1st的預定值設置為0.60,使用準則1,當d1st達到0.60時,CD-CAT停止,此時d2nd可能仍然很高(如接近0.20).若是這樣,則會出現2個相互競爭的屬性掌握模式,這2個屬性掌握模式均有較高的可能性是被試的真實屬性掌握模式.解決這個問題的一種方法是將d1st的預定值從0.60增加到0.90,當CD-CAT只有對測驗結果非常有信心時,CD-CAT才會停止.有時候,這種程度的自信可能是不必要的.解決這個問題的另一種方法是將d2st設定一個標準,如只有當d1st不小于0.60且d2nd不大于0.20時,CD-CAT才能停止.盡管在理論上可以在第3種或其他d上設置另一種標準,但根據筆者的經驗,考慮第1和第2大非參數比例就足夠了.

4 在0-1計分情境下的非參數變長終止規則性能

4.1 研究目的

通過模擬研究檢驗MDRM和DRDSM在0-1計分情境中作為變長終止規則是否具有良好的性能.

4.2 研究設計

該研究采用2選題方法(NPS、DWIR)×4測驗終止規則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態分布)共48個條件生成數據進行模擬研究,其中選題方法為組內變量,其余變量為組間變量.

終止標準設置:在MDRM和DRDSM中d1st包含2個水平(0.80和0.90);DRDSM的d2nd包含4個水平(1.00、0.20、0.10、0.05).在Tatsuoka和Hsu法中P1st同樣包含2個水平(0.80和0.90),Hsu法P2nd包含4個水平(1.00、0.20、0.10、0.05),在計算P1st和P2nd時,采用生成參數真值計算.

在題庫方面,研究參照Chang Yuanpei等[12]的研究設計思路,項目庫由J=300個項目組成,其中150項目遵守了DINA模型和其他150項目符合RRUM;高質量題庫(HD)項目的猜測和滑動均服從均勻分布U(0.10,0.20),低質量題庫(LD)項目的猜測和滑動均服從均勻分布U(0.20,0.30),混合質量庫(HyD)項目的猜測和滑動均服從均勻分布U(0.05,0.25).在模擬研究中,以0.3的概率考察每個屬性生成題目的Q向量.

在模擬被試方面,模擬被試2 000人,分別服從2種屬性掌握模式分布.1)被試的屬性掌握模式由均勻分布(每個屬性掌握模式的概率為1/2K)生成;2)考生的知識狀態服從協方差為0.5的多元正態(MVN)分布[27].研究設定最大測驗長度為50題,若被試施測50題后仍未達到測驗終止的要求,則仍然終止測驗.

評價指標采用屬性掌握模式判準率:

其中Ri表示被試i的知識狀態估計與真值之間一致性,若一致則Ri=1,否則Ri=0,N為測驗總人數.PC為考生知識狀態估計正確的比例,PC越大表明對被試整體知識狀態的估計越精確.

此外還有平均測驗長度(mean test length)和測驗長度的標準差(standard deviation).

在CD-CAT中采用Q-最優準則進行初始選題,整個研究用R語言自編所有程序進行模擬驗證.

4.3 研究結果

表1和表2呈現了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在0-1計分情境下的表現,由表1和表2可以發現MDRM是當DRDSM的d2nd=1時的特殊情況;Tatsuoka法是當Hsu法的P2nd=1時的特殊情況.整體而言,NPS和DWIR 在使用距離比例作為終止規則時的分類準確性比后驗概率終止規則更高,但測驗長度更長.可以發現距離比例終止規則與后驗概率終止規則類似,測驗終止條件越苛刻NPS和DWIR的分類準確性越高,不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.在HD題庫條件下,d1st取值范圍為0.80～0.90,NPS和DWIR的屬性分類準確性從0.83增加至0.90,并且在d1st=0.80時,d2nd不同值的PC范圍為0.831～0.977,且隨著d2nd的減小而增大,在后驗概率終止規則下的PC為0.777～0.914.在HyD題庫條件下,NPS和DWIR采用MDRM和DRDSM終止測驗的PC的結果與HD題庫條件的結果相似,這說明在MDRM、DRDSM中距離比例d1st有后驗概率P1st相似的作用:在作為測驗終止條件時,減小d1st可以提高測驗的屬性分類準確性.距離比例d2nd與后驗概率P2nd有相似的作用:在作為測驗終止條件時,減小d2nd可以有效地提高測驗的屬性分類準確性.在LD題庫條件下,NPS和DWIR采用MDRM和DRDSM的屬性分類準確性與采用Tatsuoka法和Hsu法的結果相近,特別是當d2nd和P2nd減小到0.05時,NPS和DWIR在不同中終止規則條件下的分類準確性相差小于0.03,這說明:隨著測驗終止的條件愈發嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規則時取得的結果將與在采用后驗概率作為終止規則時取得的結果相同.

表1 在0-1計分和均勻分布條件下的屬性分類準確性

表2 在0-1計分和均勻分布條件下測試長度

表2(續)

在測驗長度的使用方面,NPS和DWIR的平均測驗長度受到d1st、d2nd、P1st和P2nd的影響.總的來說,NPS和DWIR的測驗隨著d1st和P1st增大而變長,如在HD題庫條件下,d1st從0.80增至0.90,測驗長度增加約為2;P1st從0.80增至0.90,測驗長度增加約為3.NPS和DWIR的測驗隨著d2nd和P2nd減小而變長,如在HD題庫條件下,d2nd從1.00減至0.05,測驗長度增加約為12;P2nd從1.00減至0.05,測驗長度增加約為6.觀察表2可以發現:在HyD題庫條件下的結果與在HD題庫條件的結果基本相似.在表2中,LD題庫的NPS和DWIR采用MDRM和DRDSM的測驗長度與采用Tatsuoka法和Hsu法的測驗長度相近,特別是當d2nd和P2nd的減小到0.05時,NPS和DWIR在不同中終止規則條件下的平均測驗長度相差小于3.在多元正態分布下的分類結果和題庫使用情況與在均勻分布下的均相同,這里不再呈現.

5 在混合計分情境下的非參數變長終止規則性能

5.1 研究目的

通過模擬研究檢驗MDRM和DRDSM在混合計分情境中作為變長終止規則是否具有良好的性能.

5.2 研究設計

在研究采用2選題方法(NPS、DWIR)×4測驗終止規則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態分布)共48個條件生成數據進行模擬研究,其中選題方法為組內變量,其余變量為組間變量.整個研究除題庫設置方面與上述研究不同,其他條件相同.

在題庫方面,題目數量為300,題目的最高分為3分.在高質量題庫中題目的猜測參數和失誤參數均服從均勻分布U(0.10,0.20),且為隨機生成;在低質量題庫中題目參數服從均勻分布U(0.20,0.30),且為隨機生成,混合質量庫(HyD)項目的猜測和滑動均服從均勻分布U(0.05, 0.25).題目sj和gj分布根據文獻[21]的設定,sj單調遞增,gj單調遞減,將隨機生成3個sj按升序排列,3個gj按降序排列;在仿真研究中,屬性的層級關系為獨立性,在題庫中的題目平均分布到每種測量模式上(在5個屬性時,題庫有31種測量模式).

在CD-CAT中采用Q-最優準則進行初始選題,整個研究R用語言自編所有程序進行模擬驗證.

5.3 研究結果

表3和表4呈現了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在混合計分情境下的表現.整體而言,NPS和DWIR的研究結果與在0-1計分情境下的類似,在使用距離比例作為終止規則時的分類準確性比在后驗概率終止規則時的更高,但測驗長度更長.無論是距離比例終止規則還是后驗概率終止規則,均有:測驗終止條件越苛刻,NPS和DWIR的平均測驗長度越大,屬性分類準確性越高;不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.同時,從不同題庫條件的結果中發現:隨著測驗終止的條件愈發嚴苛,即d1st和P1st不斷增大或者d2nd和P2nd不斷減小,NPS和DWIR在Tatsuoka法和MDRM測驗終止規則條件下的屬性分類準確率不斷接近;Hsu法的結果和DRDSM終止條件下的結果不斷接近.此外,在多元正態分布下的分類結果和題庫使用情況與在均勻分布下的均相同,這里不再呈現.

表3 在混合計分和均勻分布條件下的屬性分類準確性

表4 在混合計分和均勻分布條件下測試長度

6 討論與結論

6.1 研究討論

目前大部分非參數CD-CAT的研究集中于定長終止條件,雖然定長CAT由于固定了測驗長度,所以施測較為方便,但是其對不同的被試會有不同的測量精度.一個更加合理的做法是, 應該使CD-CAT形式的測驗對每個被試的測量精度相同,這也正是自適應測驗的優勢所在.為了發展變長非參數CD-CAT,本研究嘗試結合在DWIR方法中的距離權重構建了2種非參數距離比例終止規則MDRM、DRDSM,隨后通過模擬研究將采用后驗概率終止規則的Tatsuoka法、Hsu法作為MDRM、DRDSM使用效果參照對象來驗證MDRM、DRDSM的性能.

2個模擬研究的結果均顯示:本文提出的2種非參數距離比例終止規則MDRM、DRDSM獲得的分類準確率比采用后驗概率終止規則的Tatsuoka法和Hsu法的分類準確率更高,但其代價則是需要更多的測驗題目.特別是在0-1計分的情境下MDRM、DRDSM規則所需的題目數量更多,這也可能與0-1計分的計分規則所提供的的信息更少有關,此外,這也可能與研究的MDRM、DRDSM中的距離比例計算有關.在MDRM、DRDSM規則下,雖然設置非參數距離比例d1st、d2nd與后驗概率P1st、P2nd相等,但是MDRM、DRDSM達到終止測驗的條件d1st、d2nd更加嚴苛,從而其需要更多的測驗題目,進而導致更高的分類準確率.這是在CAT情境中一直面臨的利益權衡問題[6-7,11,28].事實上,在MDRM和DRDSM規則下分類準確率的高低與測驗長度情況之間的利益權衡可通過研究設置給予實現,當研究目的在于盡可能獲得更準確分類結果時,可增加在MDRM 規則下的d1st值,或者在DRDSM規則下增大d1st值和減小d2nd;反之,可以適當減少d1st值或者增大d2nd.最后研究也發現:隨著測驗終止的條件愈發嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規則時的結果和在采用后驗概率作為終止規則時的結果逐漸接近.

6.2 研究結論

本文通過2個模擬研究檢驗了MDRM和DRDSM在非參數CD-CAT中的使用性能,得出了如下結論:

1)2種非參數終止規則MDRM和DRDSM適用于在0-1計分和混合計分下的非參數CD-CAT測驗;

2)當研究目的在于盡可能獲得更準確分類結果時,可在MDRM規則下增加d1st值,或者在DRDSM規則下增大d1st值和減小d2nd;反之,可以適當減少d1st值或者增大d2nd;

3)測驗終止的條件愈發嚴苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗終止規則時的結果和在采用后驗概率作為終止規則時的結果逐漸接近.