科利法在教育測量中的應用

2020-11-04 11:38郭東威丁根宏

煙臺大學學報（自然科學與工程版） 2020年4期

郭東威,丁根宏

(1. 周口師范學院數學與統計學院,河南周口 466000;2. 河海大學理學院,江蘇南京 211100)

在教育測量中,有一些測驗難以用客觀的方法打分,往往會受到評分者主觀因素的影響而產生較大誤差,比如對競賽論文、作文及藝術作品等的評分.評分誤差從廣義上可以分為系統誤差、隨機誤差和人為誤差.系統誤差是指由評分者評分風格引起的恒定有規律的偏差,總是以一定的大小和方向偏離真分數.例如,有的評分者非常嚴格,評分普遍偏低;有的評分者較為寬松,評分普遍偏高;有的評分者的評分區分度較大,而有的評分者的評分區分度較小.隨機誤差是指由評分者不確定因素引起的無規律的偏差,評分大小和方向均是完全隨機地偏離真分數.人為誤差是指評分者有意提高或降低評分.從信度的角度來說,系統誤差對評分者之間的信度影響較小,也就是對被試的等級影響不大,但是會造成評分不準確,不能客觀反應被試的水平;隨機誤差和人為誤差對評分者之間的信度一般影響較大,容易造成評分的不一致.為了公平評判被試的水平,通常由多個評分者對被試進行評分.如果每個被試都有相同的評分者進行評分,也就是評分矩陣是完整的,并且評分者之間的信度較高,那么可以用傳統法(直接取均分法)作為被試的終評成績.這樣的終評成績雖然存在誤差,但是依據分值大小化為等級,可以較好地反應被試者在被試群體中的相對水平.在大型競賽或考試中,受多種客觀因素的制約,如被試人數眾多、評分者數量有限、評閱時間限制等,上述理想的評閱方案一般行不通,通常是每個被試隨機分配給幾個評分者進行評分,也就是說評分矩陣是殘缺不全的.在這種情況下,即使評分者之間的信度很高,也不易直接對原始評分取均值作為被試的終評成績,因為這樣的終評成績由于系統誤差的影響既不能很好地反映被試的客觀水平,也不能科學地反映被試的相對水平(等級).

國內外應用多種方法對主觀型評分做了大量的研究.1993年WIGGLESWORTH[1]的研究表明評分者之間的變異是測量誤差的主要來源之一.盡管評分者經過培訓并遵守評分量表的規則,但是不同的評分者對同一被試的評分依然不一致,甚至有時差異很大[2-3].在經典測量理論(CTT)的基礎上發展起來了概化理論(GT),該理論通過方差分析等技術,從多個側面進行量化分析來估計不同誤差對測量分數的影響[4-6].2002年我國學者嚴芳等[7]介紹了用結構方程模型來估計概化理論中的評分者信度.Rasch模型是項目反應理論的基本模型之一,田青源[8]、王躍武等[9]應用Rasch模型研究了主觀評分中評分者的信度.陳菊詠[10]、馬春燕[11]分別利用LONGFORD方法對評分者信度及異常分數進行了研究.此外,還有其他一些方法,可以參看文獻[12-15].

本文主要研究系統誤差、人為誤差及評委誤判在殘缺評分型競賽中的影響.如作文競賽、大學生數學建模競賽等,這類大型競賽不僅重視成績(分數),以測驗被試的絕對水平,而且還很看重等級(名次),用來評出獲獎者.為了較好地測量被試的客觀水平,本研究采用體育競技排名方法科利法對被試進行評價.實例分析表明,該方法對被試進行評價具有無偏性及較好的穩定性.所謂無偏性是指被試的終評成績(或等級)僅與各評分者對被試的排名有關,不受原始評分系統誤差的影響.穩定性是指當某一個或幾個原始分數出現異常時,不至于導致終評等級嚴重偏離客觀情況.穩定性好的評判方法,能夠有效減小人為誤差及評委誤判造成的不公平,盡可能保證評判結果的科學性.

1 評分者信度的計算方法

評分者信度是度量帶有主觀判斷成分的測量可靠與否的重要指標,包括評分者內信度(intra-rater reliability)和評分者間信度(inter-rater reliability).評分者內信度是指單個評分者對同一組被試的答卷進行兩次評分的一致性程度[16].考察評分者內信度通常需要同一評分者對答卷先進行一次評分,然后間隔一定時間后以隨機順序對其重新評分,兩組評分之間的相關系數即為評分者內信度.評分者間信度是指多個評分者對同一批被試的答卷進行評分的一致性程度[3].本文主要應用評分者間信度進行分析,信度越高表示評分者對被試的評判越一致.

1.1 積差相關法

如果被試答卷是由兩位評分者按照各自的評分標準進行評分,則評分者間信度可以用每份答卷的2個分數之間的積差相關系數來表示.一般要求在成對的受過訓練的評分者之間平均相關系數達到0.90以上,才認為評分是客觀的[3].假設A、B 2個評分者對n份答卷進行評分,評分向量分別為X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),xi和yi分別表示評分者A和B對i答卷的評分,那么積差相關系數的計算公式可表示為

(1)

由于積差相關系數不具有等距單位,因此不能直接進行加減算術運算.若需要將測量中幾部分的積差相關系數綜合成一個總的系數來表示多個評分者間的整體信度時,可以用統計學家費舍(Fisher)的Zr轉換法,轉換公式為

(2)

然后求出Zr的均值,最后再利用式(2)的反函數求出多個評分者間的整體信度.

使用積差相關法要滿足以下幾個條件:評分是連續性數據;每個評分者的評分總體服從正態分布或接近正態分布,至少是單峰對稱的分布;評分者的評分相互獨立;兩組分數之間呈線性關系;被試數量不少于30.

1.2 等級相關法

等級相關是指評分者對答卷以等級的方式進行評判時,各評判等級次序之間的相關.根據評分者多少可以分為斯皮爾曼(Spearman)二列等級相關及肯德爾和諧系數(the Kendall’s coefficient of concordance)多列等級相關.

1.2.1 斯皮爾曼等級相關斯皮爾曼等級相關適用于度量2個評分者以等級方式評判同一組答卷的一致性程度.計算斯皮爾曼等級相關系數時不要求評判等級呈正態分布,也不要求被試數量大于等于30,相對積差相關要求較低,因此使用范圍較廣.計算斯皮爾曼等級相關系數的公式為

(3)

其中,rtt表示2個評分者之間的信度系數(等級相關系數);Di表示i答卷的2個等級之差;n表示被試人數.

1.2.2 肯德爾和諧系數當有2個以上評分者以等級方式對同一組被試進行評判時,表示評分者評判等級之間的一致性程度的量稱為肯德爾和諧系數(評分者間信度).

單個評分者對所有被試的評判沒有相同等級時,肯德爾和諧系數計算公式為

(4)

其中,rtt表示評分者之間的信度系數(肯德爾和諧系數);K表示評分者人數;Ri表示K個評分者對i答卷評判的等級之和;n表示被試人數.

當單個評分者對所有被試的評判有相同等級時,肯德爾和諧系數計算公式可校正為

(5)

其中,m表示相同等級的個數,其余變量的含義與式(4)中相同.

1.3 克龍巴赫α系數法

當K(K≥3)個評分者以連續性評分的方式對同一組n個被試進行評判時,評分者間的信度可以用克龍巴赫α系數來估計,計算公式為

(6)

2 科利法在教育測量中的應用

為了克服勝率法的缺陷,WESLEY COLLEY根據拉普拉斯的“繼承法則”(rule of succession)對其進行了改進,即

(7)

假設上式為一等式,代入式(7),得

或寫為

(8)

根據科利評分ri的大小可以確定各被試的等級.由于科利評分ri∈(0,1),不符合人們習慣的百分制表示法,不過可以用多種方法把它轉化為百分制分數.比如:

(3)由于科利評分ri∈(0,1),因此最簡單的方法可以直接用100乘以科利分.

利用科利法對被試進行等級排名是無偏的,即評判的結果僅利用被試與被試在直接比較情況下的優劣(等級)信息,而不直接利用原始評分.無偏性在一定程度上增強了評判結果的穩定性,即當被試由多個評分者評判,出現個別異常分數時,由于不直接利用原始分數做最終的評判,減小了原始分數對終評的影響,使得終評等級不會出現較大偏差,在下一節“實例分析及比較”中可以明顯看出“穩定性”的效果.

3 實例分析及比較

本節以H高校大學生數學建模競賽為例來說明科利法的有效性.競賽論文30篇,評分者5人.為了實驗的可靠性,30篇論文的主題(問題)完全一樣,選擇的5位評分者均為外校教授或副教授職稱,并多次參加全國大學生數學建模競賽的評閱工作,具有豐富的閱卷經驗.5位評分者均收到這30篇論文及完全一樣的評分標準,且論文上沒有作者信息只有編號,按百分制評分.各評分者原始評分及對應等級見表1.

表1 原始評分及對應等級

被試個數n=30,可以用Shapiro-Wilk檢驗(W檢驗)來檢驗各評分者的評分是否服從正態分布,檢驗結果見表2.結果表明5位評分者的評分在顯著性水平0.10下均服從正態分布.

表2 Shapiro-Wilk檢驗結果

5位評分者評分的均值及標準差見表3.

表3 評分均值及標準差

用Hartley檢驗法對5位評分者的評分進行方差齊性檢驗,計算結果為

3.474 4>H1-0.05(5,29)≈2.78,

即在顯著性水平α=0.05下,認為5位評分者的評分方差有顯著差異.由于方差有顯著差異,因此無法用方差分析來檢驗均值是否有顯著差異,但是從表3可以看出,5位評分者評分均值的極差為7.34,說明本次的評分存在一定的系統誤差,其中評委2和4均分較大,評委1、3、5均分較小,評委1和3方差較大,而評分者2和4的方差較小.

由表1中的數據用3種方法計算評分者信度,結果見表4.

3種方法計算結果均在0.95以上,說明評分者信度較高,評判結果具有較高的一致性.

表4 評分者信度

基于以上對評分者評分的均值、方差及信度的分析,可以認為論文的等級由標準分(Z分數)法來確定是比較科學的,具有較強的可信度.為方便表述,稱之為“標準等級”.事實上,由傳統法(取原始評分均值)排名與按照標準分均值排名的結果僅有稍微差別,見表5,表中斜體加黑標出的即為有差異的結果.

表5 傳統法與標準分法等級比較

從表5中可以看出傳統法容易出現等級相同的現象,例如論文18、19、28的等級排名均為8.

下面以實驗來分析系統誤差、隨機誤差及人為誤差對殘缺型評分的影響.首先將表1中每篇論文隨機去掉2個分數,但是最終要保證每個評分者都評閱18篇論文,結果見表6.

表6 殘缺評分表

下面分兩類實驗來比較不同評判方法結果的穩定性.第一類是縱向實驗:隨機選擇一個評分進行不同變異(相當于評分者評分時誤判、故意提高或降低分數),然后根據傳統法、標準分法及科利法分別確定被試等級,并與表5中的“標準等級”進行比較,計算斯皮爾曼等級相關系數.記符號xij表示評委j對論文i的評分.不妨選擇評分x13,3做實驗,依次將x13,3=71變異為60、65、75、80、85、90.計算斯皮爾曼等級相關系數,結果見表7.

表7 斯皮爾曼等級相關系數

相關系數.

第二類是橫向實驗:隨機選擇個別評分進行變異.進行5組實驗,變異情況分別為:變異1:x12,1=69→86,x21,4=81→70;變異2:x8,5=81→70,x18,3=82→65;變異3:x7,3=95→80;變異4:x24,4=64→75;變異5:x18,3=76→60,x23,3=60→80.3種評判方法的結果與“標準等級”比較的斯皮爾曼等級相關系數見表8.

表8 斯皮爾曼等級相關系數

由表7及表8斯皮爾曼等級相關系數可知,由于評分誤差的存在,3種評判方法的結果與“標準等級”均有差異,尤其是傳統方法評判的結果偏差最大.無論是在正常情況下還是變異之后,由r2A>r1A說明在殘缺評分情況下系統誤差會給傳統方法的評判結果帶來較大偏差,由r3A>r2A>r1A說明科利法的評判結果要比傳統法及標準分法更客觀合理.2個表中r3A分別均在0.99及0.98以上,說明科利法較傳統法及標準分法更穩定,即當個別分數出現異常時,依然可以得出較客觀的評判結果.

4 結束語

在殘缺型主觀評分測量中,傳統法及標準分法的評判結果受評分誤差影響較大,尤其是傳統法.科利法的評判結果是無偏的,它僅用到被試與被試之間直接比較的等級信息,而不直接利用原始評分,因此降低了系統誤差及個別異常分數對評判結果的影響,具有較好的穩定性.