?

高等漢語水平考試作文評分的調整——評分員殘項調整模型的應用

2012-11-08 08:05李傳益
中國考試 2012年12期
關鍵詞:真分數方差調整

李傳益

作文等主觀性試題的評分差異太大時需要組織評分員進行重評,而采用傳統人工重評的方法費時費力,且仍然解決不了重評中存在的主觀性問題。那么,對于評分差異能否尋求另外的方法來解決?正如Lunz etal.(1990)所說:“由評分員個體差異所引起的評分差異我們是無法預先估計的,但是為了保證分數的可靠性,我們需要對評分員的某些特征進行數學上的客觀調整”。

本文嘗試用Longford介紹的調整評分員不一致項(殘項)的方法對評分員給出的差異較大的分數進行客觀、數學上的調整,希望這種調整方法能最大限度地減少評分誤差,使評分員給出的分數盡量接近被試的能力,并能解決大規模標準化考試主觀評分人工復評中的主觀性問題。

1 Longford(1995)主觀評分信度研究方法

1.1 Longford(1995)分數調整基本思想

在主觀題評分中,被試的表現可能要受到測驗任務、被試自身水平以及評分員的影響。對此,Longford(1995)采用了一種方差分量模型,利用方差分量和收縮系數提供了有關被試真分數和評分員評分的信息。它將被試、項目、評分員或評分組看成是影響真分數的因素或側面,其中,評分員的變異有來自評分員自身的變異和評分員之間的變異,它們又都可以分解為嚴厲度方差和不一致性方差(殘項方差)。將影響被試能力的誤差總來源分解后,評分的質量可以用評分員評分不一致的方差分量來描述,或者說是用評分員所估計的真分數和被試的真實能力之間的差異,也叫均方誤差(Mean Squared Error,MSE)來評價。如果均方誤差太大,超過了一定的限度,就要對這種有差異的分數進行調整,模型中的收縮系數可以將均方誤差MSE減小到最低限度,其目的是為了減少由于評分員評分的不一致而造成的系統誤差。該方法除了探討影響真分數變異的各種誤差來源外,在分數調整方面更具優勢??梢哉f,該模型主要是針對主觀題評分問題提出來的,它不需要嚴格的前提假設,應用簡單,適用性強;而且,該方法重在評價整個評分過程,關注的是單個評分員的評分行為,特別適用于大規模標準化考試的主觀題評分。另外,它的計算相對來說比較簡便,容易操作。

1.2 Longford(1995)殘項調整模型(UAdj scheme)

大規模標準化評分實踐中,每篇作文一般由兩名評分員評分,評分員的一些狀態(如情緒波動、外界環境影響、疲勞程度等)會影響評分的準確性。這些因素統稱為評分員評分的不一致項或殘項。

如果評分員本身或評分員之間存在著差異,他們的評分就會影響殘項方差,不能真正反映被試的能力。當殘項方差σe2很大的時候,有必要對不一致性分數進行調整,以便更有效地估計被試的真分數。這種殘項調整模型可用下式表示:

其中:αi為調整后的分數;ui是使MSE最小的關于試題層面的調整系數,或叫收縮系數;yi,zjik和y將在下文介紹。

該模型依賴于對評分員的任務分配,也就是說依賴于評分員的工作量nji。Di,1中的整評分員評分殘項。,MSE的值最小。一般情況下,評分員的工作量大,其收縮系數就大,但其評分的MSE反而會減??;殘項方差大,收縮系數也大;而真分數方差大,收縮系數就小。

1.3 方差、和的估計方法

三個平方和統計量的計算公式:

N=IK表示評分總次數,它可以分解為所有評分員工作量的和,即,N=n1+…+nj。

2 實驗設計

2.1 實驗材料

在本實驗中,對參加2006年10月高等漢語水平考試(HSK)作文評分,但評分等級差異超過3級(不包括3級)最多的24名評分員所評的1 503份作文的分數運用殘項調整模型進行調整。

2.2 殘項調整所用的工具

本實驗中方差部分的計算用FOXPRO6.0自編程序完成;數據的分布和一致性分析及其相關圖表用SPSS11.0完成。

3 分數調整及結果

分數調整前,首先用公式(1-3)和公式(1-4)計算三個平方和以及方差的值,它們分別是SE=4451.00,=17383.18,ST=19924.52,=3.70,=0.84,=2.12。由于的值小于的值,因此可以說,此次評分的誤差主要是由于評分員的不一致性造成(Longford,1995)。

然后,根據公式(1-1)和公式(1-2)對評分等級超過3級的分數進行調整。表1列出了每位評分員分數調整的相關參數的概要。

表1 評分員分數調整相關參數概要

4 對調整后的分數進行檢驗

為了對比分數調整前后的情況,在表2中給出了分數調整前后單樣本K-S檢驗、卡方檢驗以及斯皮爾曼和肯德爾等級相關數據。從表2可以看出,調整后的分數較之調整前的分數有了可觀的改善,調整后分數的分布更接近正態。

分數調整前后評分員評分的一致性程度見表3,這些數據充分說明分數調整后評分員間的評分誤差大大減小。

表2 分數調整前后評分員評分的數據檢驗結果

表3 分數調整前后評分員評分一致性表

5 結論

本研究利用Longford(1995)介紹的調整評分員評分殘項(不一致項)的方法,對高等漢語水平考試作文評分進行了一次分數調整實驗,分數調整后評分員評分的差異明顯減小,更接近被試真實水平的期望值,而且分數的分布有了很大的改善,用這種方法代替傳統人工重評的方法可以提高主觀題考試的信度,同時也可以提高評分的效率,它主要表現在以下幾個方面:

(1)通過對調整前后的分數進行正態分布和一致性檢驗,發現調整以后的分數的真分數方差增大,殘項方差和均方誤差MSE都比分數調整前減小。

(2)分數調整前評分等級差超過(含)4級以上需要調整的作文共有243份,經過殘項調整模型調整后的有效作文有216份①在進行殘項調整時,實際上所有的243份作文的分數都得到了調整,只是由于HSK作文評分量表沒有小數,在進行四舍五入運算時,有一部分調整分數被舍去,因而有效的作文調整份數為216,這一點反映了該模型的保守性。,占總數的88.9%。分數調整后,評分員之間的評分一致性顯著增強:等級差超過(包括)4級以上的作文只有92份,僅占總數的6.1%,這比分數調整前降低了10.1%。

(3)評分員之間的評分差異經過分數調整后也大大縮小,評分更趨中,有差異的分數大多都調整到了3級以內(包括3級)。比如:被試302523200108的原始分數等級是5級和9級,殘項調整模型調整的結果為6級和8級。

(4)評分員之間的相關系數改善了很多,分數調整以后更服從正態分布。

應用殘項調整模型以后,評分員的評分一致性顯著提高,但應用該模型也存在一些不盡如意的地方:(1)進行殘項調整后,仍有92份作文的等級差超過(含)4級;(2)有些作文的等級差比殘項調整前更大了。比如:分數調整前,被試501525100087的評分等級為11級和7級,進行殘項調整后,該被試的分數等級為11級和6級。這種情況約占7%,雖然數量不多,但也影響到了分數調整的質量。造成這種情況的原因是評分員評分內部不一致性造成的,這就要求評分員在評分時一定要保持內部一致性,不要忽高忽低。

[1]Lunz,M.E.,Wright,B.D.,and Linacre,J.M.Measuring the impact of judge severity on examination scores.Applied Measurement in Education,1990(3):331-345.

[2]Longford,T.Models for Uncertainty in Educational Testing.New York:Springer-Verlag New York,Inc.1995.

猜你喜歡
真分數方差調整
夏季午睡越睡越困該如何調整
概率與統計(2)——離散型隨機變量的期望與方差
工位大調整
方差越小越好?
計算方差用哪個公式
最簡真分數的個數
滬指快速回落 調整中可增持白馬
方差生活秀
真分數與假分數的質疑與思考
真分數不等式“a+mb+m>ab”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合