?

分步增值評分——提高主觀題評分質量的有效方法

2015-12-27 06:25劉斯佳張建新

心理學探新 2015年3期

關鍵詞：區分度主觀題檔位

劉斯佳，張建新

(1.中國科學院心理研究所，北京100101;2.中國科學院大學，北京100049)

1 問題的提出

1.1 主觀題評分中存在的問題

主觀題包括簡答題、論述題、應用題、作文題等。相對客觀題，主觀題能更為真實地反映考生的能力，因此被廣泛運用于人員選拔考試和語言類考試中，對人員的錄用和篩選具有重要的現實意義。然而，主觀題評分的客觀性和有效性卻不容樂觀(關丹丹，2008)。前期研究發現甚至某國家級考試論述題依然存在評分員寬嚴程度異常的現象(李中權，孫曉敏，張厚粲，張立松，2008)。作文題作為一種復雜主觀題型，其誤差控制問題相較其他類型的主觀題型更為棘手，也更早受到研究者關注(劉遠我，張厚粲，1998)。有研究發現，評分員對作文評分寬嚴程度同樣存在著顯著差異(劉紅云，陳閱，駱方，王云峰，2010)。

主觀題評分的信度受到許多因素影響，包括題目難度、評分程序復雜程度、評分者間差異等等。有作者指出評分者誤差復雜性最高(王博，卞冉，車宏生，王蓉，2012)。評分者因為不能很好地掌握評分標準，造成他們在評分過程中認知負荷過大，對不同等級評分標準認識模糊，從而擴大了評分誤差;另一方面，為了減少認知負荷，評分者可能形成保守的打分策略，使考生評分結果難以進行區分(Gilfert ＆Harada，1992)。王博等(2012)對某大型人事考試評分分析中，首次描述了保守現象的“習得”過程?？梢灶A見的是，作文的評分過程可能存在更為嚴重的失真現象。因此，在有效評價主觀評分誤差的基礎上，有必要通過優化評分流程來降低作文評分的誤差程度。

1.2 分步增值評分模式

在此背景下，國外研究者提出了分步增值評分模式(rating augmentation)以進行有效的流程控制(Johnson，Penny，＆ Gorden，2000)。王博等(2012)在國內首先對這種評分模式進行了介紹。分步增值評分模式首先在較為寬泛的檔位上(bench mark)對試卷進行打分，比如1 至4 檔;然后評分者通過附加分數對試卷傾向性(lean)進行評估，以“+”“-”進行表示;最后分數通過統一算法轉化為數值，形成考生的原始成績。這種方式可以幫助評分者確保評分成績的一致性和區分性。分步增值評分模式近期在國外的作文評分和言語類考試評分中得到了較為廣泛的應用(如Penny ＆ Johnson，2011;Morgan，Zhu，Johnson，＆ Hodge，2014)。然而對中文數據庫搜索之后，尚未發現分步增值評分模式的實證研究。

1.3 評分模式的量化考察

在另一個方面，如何選擇方法更好地量化主觀題的評分評價也是需要考慮的一個問題。關丹丹(2008)認為項目反應理論對于主觀題的評分評價具有較明顯的優勢，并且特別對多面Rasch 模型(MFRM)進行了介紹。MFRM 是項目反應理論的衍生模型，可以很好地量化主觀題的區分度以及評分者評分時的寬嚴程度和偏差程度，MFRM 模型在往期研究中較為常見(李中權等，2008;劉紅云等，2010)。本文主要旨在通過MFRM 模型，分別考察傳統綜合評分模式和分步增值評分模式對于評分結果的區分度以及評分者的評分寬嚴程度和偏差程度;另外，通過引入專家評分，并假定其為評分的真分數后，進而考察綜合評分模式和分步增值評分模式的誤差程度;最后，通過評分用時來描述兩種評分模式的評分效率。研究假設相對于綜合評分模式，分步增值評分模式對評分結果的區分度更好、評分者在評分偏差程度指標上的表現更加理想，并且可以提高評分效率。

2 研究設計

研究抽取某國家級大型考試的實測作文題答卷500 份作為樣本。挑選20 名評分經驗在三年以上的評分者參與評分。評分種類包括了傳統評分使用的綜合評分模式，以及上述介紹的分步增值評分模式。其中，綜合評分模式由6 名評分者參與評分，而分步增值評分模式由其余14 名評分者參與評分。在評分之前，首先對評分者進行集中培訓，讓所有評分者了解作文題評分的要求和標準(見表1)。而參與分步增值評分模式的評分者則附加培訓了分步評分過程中的等級、檔位和傾向(即“+”、“-”)標準(見表2)。評分者分為綜合評分組和分步評分組，他們的評分過程在下文中詳細介紹。

表1 綜合評分法的評分標準

綜合評分組:隨機選擇6 名評分者采用雙評方式獨立對500 份試卷進行評價，要求評分者按照表1 中的分制直接給考生打分。如果兩名評分者的評分結果超出誤差允許范圍，則要求第三名評分者進行評分?？忌淖罱K成績取自兩名評分者評定成績的平均值，或者第三名評分者和與其評分最接近的評分成績的平均值。

分步評分組:評分過程共分兩個階段。第一階段隨機選擇4 名評分者對500 份試卷參照表1 中的等級標準進行定級工作;第二階段，對已經定好等級的試卷，在每個等級內再分為三檔，評分者對照各等級內挑選的檔位標桿卷進行歸檔，歸檔原則是判斷當前試卷水平與哪份檔位標桿卷水平更為接近;評分者從整數水平對文章進行歸檔后，還須進一步指出文章是否有必要通過“+”和“-”進行額外評分。如果標記“+”，則代表比標桿卷的能力水平要高;反之則要低(見表2)。評分者按照等級評分結果分成了四種類型，其中1 類卷(8.3%)每組由2 人評分，2 類卷(58. 2%)每組由3 人評分，3 類卷(30.5%)每組由3 人評分，4 類卷(3.0%)每組由2人評分。上述兩階段均采用評分者獨立評分的雙評方式。

表2 分步評分分數轉換對應表

需要說明的是，在分步評分中，對于第一階段評分者12 評給出等級不一致的情況，先保留各自評判等級到第二階段，在第二階段分別在不一致的等級上再進行雙評，即在定檔階段會出現12 評和1234評兩種情況。這么處理是因為，對于大多數判等不一致卷而言，由于有可能試卷本身就處于等級臨界水平上下，如果第二階段定檔時各評分者分歧不大，且所給出的檔位也在這個臨界點附近，第一階段定級的不一致就是可以接受的。另外，在第二階段如果認為待評卷定級不夠準確，可以做出“裁定”操作，不再進行歸檔，重新回到第一階段進行定級工作。

3 研究結果

3.1 評分等級不一致性

對兩種評分模式下的評分結果進行等級不一致分析。其中綜合評分組不一致評分卷數為177 份(占35.40%)，分步評分組不一致評分卷數為185 份(占37.00%)。兩種評分模式下評分不一致情況沒有顯著差異(χ2=0.22，p=0.64，odds ratio=1.03)。

3.2 評分成績水平分布

圖1 綜合評分組及分步評分組評分成績的直方圖和密度線

如圖1 所示，綜合評分組的評分成績(M =27.91，SD =3.92)相比分步評分組的評分成績(M=24. 14，SD = 6. 18)偏高，t(998)= 11. 51，p ＜0.001。并且綜合評分的峰度(Kurtosis=5.31，SE=0.22)相對分步評分的峰度(Kurtosis = -0.12，SE =0.22)更高，因此成績相對更為集中。另外，綜合評分的偏度(Skewness = -1.47，SE =0.11)相比分步評分(Skewness= -0.28，SE =0.11)顯示出更高的負偏態趨勢。另外，相比綜合評分組12 評的相關性(r=0.67，p ＜0.001)，分步評分組12 評的相關性更高(r=0.76，p ＜0.001)。并且，以1 評作為因變量，一般線性模型發現2 評成績 × 組別(綜合、分步組)的交互作用顯著，F =33. 26，p ＜0. 001，η2=0.59，說明兩組相關系數大小存在顯著差異。

3.3 評分成績的多面Rasch 模型分析

使用Facets 3.71.4 學生版對兩種評分模式下的平均評分結果進行多面Rasch 模型分析。首先將兩種評分模式成績劃分為12 個檔位，通過概率曲線進行描述。理想情況下，概率曲線的峰值在每個檔位的分布比較均勻，如果概率分布過高或過低則表明檔位較難以區分。從圖2A 的檔位概率曲線可見綜合評分成績在低檔位較難區分，然而分步評分成績的概率曲線相比較綜合評分卻較為均勻。將12個檔位歸并成6 個分數段之后，結果顯示分步評分成績的概率曲線依然較為理想(見圖2B)。

繼而對評分者的寬嚴程度、偏差程度以及區分度進行分析(Linacre，2014)。分析選取綜合評分1評成績和分步評分第二步1 評成績作為因變量，考察各自1 評評分者的寬嚴程度、偏差程度和分數的區分度。由于在分步增值評分模式中，每個評分者分別對某一等級的答卷進行評分，故被給予高分答卷的評分者在寬嚴程度的結果上自然會“更高”或“更低”，因此并不能有效評定評分者的寬嚴程度，因此本研究只對綜合評分組評分者的寬嚴程度進行分析。結果如表3 所示。

表3 評分者的寬嚴程度、偏差程度以及區分度

續表3

圖2 不同評分成績層次的概率曲線

寬嚴程度指標(severity estimate)是對某個評分者總體對評分是否呈現偏低或偏高的趨勢(大于0為評分寬松，反之亦然)，而寬嚴程度所對應的標準誤可以判斷評分的穩定程度。從表3 中的寬嚴程度指標來看，所有綜合評分組評分者在這個指標的分值都為正，因此說明評分存在過于寬松的現象。

偏差程度，或偏差診斷指標(misfit diagnosis)由OUTFIT 和INFIT 卡方指標來進行評價。其中，OUTFIT 對位于兩端的成績比較敏感，而INFIT 則對所有成績等級中存在的偏差現象比較敏感，可以診斷成績中不可預期的復雜特性。如果OUTFIT 和INFIT 分數在0.5 和1.5 之間，則說明成績比較合理;如果分數高于1.5，則說明在某個成績段上存在評分偏差，而如果分數低于0.5，則可能說明評分者沒有用所有的分數段進行評分。結果顯示，綜合評分組評分者ID 01 和ID 06 的偏差程度超出了可接受的范圍，說明評分偏差過高;而評分者ID 02 的偏差沒有達到可接受的范圍，說明可能沒有使用所有的評分段來進行評分。相比之下，分步評分組評分者的評分結果卻沒有出現評分偏差過大或過小的現象。

區分度(item discrimination)考察的是考生的評分成績相對于理想的區分度之間的偏差程度。區分度越接近1 越好，表明成績的區分與檔位相符合，大于1 則說明在某些成績上的區分度比預期更高，相比合理區分度打分更為細致;而小于1 則說明在某些成績上的區分度比預期更低，相比合理區分度打分較為粗疏。結果顯示，綜合評分組評分者的評分成績的區分度較1 的偏差(M =0.29，SD =0.17)，相比分步評分組偏差更大(M =0.15，SD =0.10)，Cohen’s d=1.15，達到高差異水平。

3.4 評分成績的誤差分析

為了進一步探究兩種評分方法在評分效果上的差異，研究選取了不同評分方法下最終成績爭議較大的試卷進行評分準確性分析。在挑選爭議卷時，選取兩種評分方法最終得分差值在8 分以上的試卷共94 份，由專家先進行評定。一般認為，主觀閱卷雙評的評分差值閾限在滿分的20%以內是可接受的。專家閱卷時，并沒有限定具體的評分方式，而是讓專家根據自己的評分習慣進行評分。假定專家評分結果為真分數，分別計算綜合評分組和分步評分組成績和專家評分的差異，并且再由分步評分組挑出1 評成績作為比較，其差值視為評分誤差。

結果發現，綜合評分組的誤差值最高(M=7.11，SD=2.53)，分步評分組(M=3.22，SD=2.34)和分步評分組1 評誤差值較小(M=3.51，SD=2.95)。三組間的差異顯著(F=64.12，p ＜0.001，η2=0.32)，而事后檢驗發現綜合評分組和分步評分組(MD =3.88，p＜0.001，Cohen’s d =0.20)以及分步評分1 評成績(MD=3.59，p ＜0.001)的差異均顯著，然而分步評分組和分步評分1 評成績之間的差異卻不顯著(MD =0.29，p=0.73，Cohen’s d=1.71)。

3.5 評分效率分析

實驗中，對評分者的評分時間進行了測量。由于評分時間記錄了裝訂了10 至20 份試卷的試卷本為單位，通過求平均計算了在某個試卷本中試卷評分的平均時間;另外，分步評分組試卷在第二階段進行了不同等級的匯總，因此可以相應地計算出每個等級卷本的評分時間，并與第一階段相應的試卷評分時間進行求和;最后求得500 份試卷在綜合評分組12 評、分步評分組12 評和分步評分1 評中所用的總評分時間進行比較。

結果發現，綜合評分組的平均用時(秒)較短(M=112.20，SD=23.31)，分步評分組的平均用時較長(M=169.49，SD =26.89)，而分步評分1 評的總評分時間卻比綜合評分12 評所用的總時間更短(M=91.68，SD=19.59)。三組間的差異顯著(F =1478.82，p ＜0.001，η2=0.66)，而事后檢驗發現綜合評分組評分效率比分步評分組更高(MD=57.29，p ＜0.001，Cohen’s d =0.60)，但卻不如分步評分1評(MD= -20.52，p ＜0.001，Cohen’s d=0.17)。

4 討論

4.1 主觀題的評分誤差問題

實證結果顯示，作文題成績的確存在大量評分等級不一致情況。這樣的結果和往期作文題或其他主觀題成績研究結果是相互吻合的(關丹丹，2008;劉遠我，張厚粲，1998;劉紅云，陳閱，駱方，王云峰，2010)。這說明雖然主觀題能更好地反映考生能力，然而對主觀題評分進行控制存在問題。劉紅云等(2010)通過多面Rasch 模型對作文綜合評分模式下評分者的寬嚴程度和區分度進行了量化分析，然而現在尚沒有探討作文評分模式的其他實證研究文獻。

4.2 分步增值評分模式的優越性

通過引入分步增值評分模式進行流程控制(王博等，2012)，我們發現分步評分組相對于傳統綜合評分組的評分分布情況確實存在一些優越性，并且12 評的一致性程度也更高。概率曲線結果進一步表明，分步評分相較于綜合評分的平均值在不同難度上區分程度更好。這樣的結果說明，分步增值評分模式是一種有價值的嘗試，或許可以有效解決主觀題(特別是作文題)中的評分質量問題。

從各個評分者評分寬嚴程度、偏差程度和區分度的角度而言，分步評分組相較于綜合評分組同樣更加優越，而綜合評分組某些評分者的偏差程度指標則出現過高或過低的異?，F象，說明存在評分不穩定或者某些分數段數值太少的不利現象。因此，分步增值評分模式不僅對于總體評分成績有積極影響，對評分者導致評分成績差異的現象或許也可以起到良好的控制作用。然而，為何分步評分組相比綜合評分組在評分者的偏差程度和區分度層面有更好的控制作用呢?這樣的差異或許來自于主觀題考試對評分尺度的選擇層面。

值得注意的是，我國國家級作文題一般采用15分以上的大量尺評分量表。而陳睿(2011)、關丹丹等人(2011)的實證研究認為大尺度評分量表下評分者間的一致性有待提高。在保持大尺度評分的前提下，分步增值評分模式將難以區分的評分標準細化成可控制的等級和檔位尺度，將大尺度評分化簡為不同階段的小尺度評分。如同王博等(2012)文中的介紹，我們的研究結果證實分步評分優化了評分流程且提高了作文評分的質量;而評分成績分布的合理性以及對評分者差異性的降低，或許來自對大尺度評分認知負荷和保守打分策略的有效控制(Gilfert ＆ Harada，1992)。

4.3 分步增值評分模式的實用性

在評分的實用性方面，研究抽取了分步評分1評和綜合評分12 評的情況進行比較。結果發現分步評分1 評比綜合評分12 評的誤差程度還要低，而分步評分1 評和分步評分12 評的誤差程度卻不存在顯著差異。然而分步評分單評所用的時間卻要比綜合雙評所用的時間更短。因此，分步增值評分模式不僅是一種更為準確的評分方式，還是一種更為經濟有效的評分策略。

5 研究結論

雖然主觀題(特別是作文題)總是存在著評分不一致的問題，然而分步增值評分模式能夠有效的控制評分的質量問題。這種新的評分模式相對于傳統綜合評分模式的優越性表現在評分成績分布的合理性以及對評分者差異有效控制這兩個層面。其次，分步增值評分模式不僅能降低評分成績的誤差，還能有效提高評分程序的效率，或許可以視為一種更為實用的評分模式。

6 不足及建議

研究中抽取了500 份作文主觀題答卷，未來可以抽取樣本量更大的答卷來進行分析，并且分別對不同類型主觀題評分成績的情況進行分析。后期訪談中，筆者發現部分評分者對定級和定檔的標準有時把握不準，也就是在相鄰等級或相鄰檔位水平的試卷評定上有時把握不太穩定。如何更好地規范評分者評分的準確性也是未來流程設計需要改進的方向。另外，研究中的評分時間以裝訂試卷本為單位，未來研究或許可以通過網絡評分手段，對每一份試卷的評分時間進行單獨測量。最后，本次研究并沒有對評分過程中的認知加工過程進行深入分析。通過引入與認知加工能力相關的行為測試，或許可以更好地考察認知個體差異對試卷評分的影響情況。

陳睿.(2011).國內外寫作評分量表的對比研究.考試研究，6，59 -67.

關丹丹，陳睿，張開，趙靜宇. (2011). 兩種評分量表的評分效應比較研究.教育研究與實驗，4，92 -96.

關丹丹.(2008). 主觀題評分質量的估計方法評述.中國考試，10，52 -55.

李中權，孫曉敏，張厚粲，張立松.(2008).多面Rasch 模型在主觀題評分培訓中的應用.中國考試，1，26 -31.

劉紅云，陳閱，駱方，王云峰. (2010). 學業水平測試中作文評分誤差的多面Rasch 分析.心理科學，33(4)，925 -927.

劉遠我，張厚粲. (1998). 概化理論在作文評分中的應用研究.心理學報，30，211 -218.

王博，卞冉，車宏生，王蓉. (2012). 主觀評分保守現象的形成機制與控制研究.心理學探新，32(5)，429 -438.

Gilfert，S.，＆ Harada，K. (1992). Two composition swcoring methods:The analytic vs. holistic method. Bulletin of Faculty of Foreign Languages，1，17 -22.

Johnson，R. L.，Penny，J.，＆ Gordon，B. (2000). The relation between score resolution methods and interrater reliability:An empirical study of an analytic scoring rubric.Applied Measurement in Education，13，121 -138.

Morgan，G. B.，Zhu，M.，Johnson，R. L.，＆ Hodge，K. J.(2014). Interrater reliability estimators commonly used in scoring language assessments:A monte carlo investigation of estimator accuracy.Language Assessment Quarterly，11，304 -324.Penny，J. A.，＆ Johnson，R. L. (2011). The accuracy of performance task scores after resolution of rater disagreement:A Monte Carlo study.Assessing Writing，16，221 -236.

猜你喜歡

區分度主觀題檔位

淺談“立體幾何主觀題”的復習備考

考試與招生(2022年10期)2022-11-17

淺談高中政治“認識類”主觀題答題技巧

井岡教育(2022年2期)2022-10-14

極坐標方程主觀題考點分析

中學生數理化·高三版(2022年6期)2022-07-08

高考政治主觀題對學生思維能力的考查

甘肅教育(2021年10期)2021-11-02

淺談試卷分析常用的幾個參數及其應用

中國校外教育(2019年12期)2019-04-15

三繞組變壓器運行分接頭檔位計算及電壓分析

智富時代(2018年9期)2018-10-19

三繞組變壓器運行分接頭檔位計算及電壓分析

智富時代(2018年9期)2018-10-19

圖形推理測量指標相關性考察*

江淮論壇(2018年4期)2018-08-24

淺觀一道題的“區分度”

福建中學數學(2016年5期)2016-11-29

心理學探新2015年3期

心理學探新的其它文章: 頓悟問題解決不同階段中工作記憶的作用*; 項目功能差異對于認知診斷測驗估計準確性的影響; 單維參數型與非參數型項目反應理論項目參數的比較研究*; 字母混淆矩陣的多維尺度分析*; 考試焦慮者注意偏向的認知與神經機制*; 自尊的提高方式對行為績效的影響*

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合