?

基于多層面Rasch 模型的英語口試信度分析

2024-01-10 01:35邵健

浙江工商職業技術學院學報 2023年4期

關鍵詞：分數段口試均方

邵健

（浙江工商職業技術學院，浙江寧波 315012）

0 引言

英語分級考試是較為常用的測試手段之一，目的在于區分學生的語言水平，從而開展分級分層教學，該方法被很多高校采用[1]。但鑒于操作層面的原因，分級往往“以總分為標準”，無法區分讀寫能力和聽說能力的差異，從而導致最終聽說、讀寫技能發展不均衡[2]。因此，綜合考慮聽說讀寫四個技能的分級考試，才能較好地反映學生的真實語言水平。本研究以某校英語分級考試中的面試型口試為研究對象，該測試屬于語言運用測試的一種常見形式。它不僅考察學生的語言知識、語言運用和交際技巧，同時對學生的心理素質也有一定要求，整體難度較高。更重要的是，口試涉及主觀評分環節。評分員需要憑借自己的經驗、知識及對評分標準及量表的理解和把握，對考生的表現進行觀察、理解和評判[3]，考生實際水平和能力往往受到評分員、評分標準和量表等因素的影響。由于人為要素所造成的誤差是始終存在、且難以避免的[3-7]，這對測試信效度的保障提出了更高要求[8]。

為了更精準評估考生英語聽說能力，剝離考生能力之外的其他影響因素，本文運用多層面Rasch模型（MFRM）分析這次英語口試質量，期望達成以下目的：（1）通過對考生層面的分析，對考生成績進行微調和補償，最終確定其分級；（2）對評分員效應以及評分員層面與其他層面的交互作用進行檢驗，并反饋評分員以提高評分準確性；（3）以MFRM 模型對該?，F行英語分級考試評分質量進行總體檢驗。

1 多層面Rasch 模型

Rasch 模型是項目反應理論經典模型之一，相較于經典測量理論，它以 “概率函數的形式來描述項目作答反應結果是如何受到被試能力水平和項目特性聯合作用的影響”[9]4。該模型克服了經典測量理論中觀察分數等權重線性累加的弊端以及測量誤差計算的不精確性，可以更精確地估算考生實際水平和項目的計量學參數。Rasch 模型可分為單參數、雙參數及三參數模型，從考生和題目兩個層面進行分析。但實際測試環境中，特別是進行主觀題類評分時，評分標準、評分量表、評分員及其對評分標準的理解、把握和運用均有可能造成測量誤差和偏差。因此，李納克爾（Linacre）在經典Rasch 模型的基礎上提出了多層面Rasch 模型[10]，將經典模型無法企及的層面要素納入其中，從而拓展了模型的解釋效力，對考生得分概率的評價更為全面。詳細介紹可參考張潔[11]和李久亮[12]的相關研究。目前，國內學界將多層面Rasch 模型運用于大型主觀測試（如寫作和口語）的信效度檢驗[13-14]及評分員效應和評分質量分析[5，11，15，16]，取得了良好效果，現有研究表明，該模型可有效用于檢驗主觀測試的質量，模型信息可反饋給施測部門、評分員和教師，進而反撥教學。

2 研究設計

2.1 數據來源及口試說明

數據來源于某校中外合作專業三個班新生（n=141）的英語分級考試成績。該考試參照雅思，分為閱讀、寫作及口試三個部分，研究僅分析口試成績?？谠嚪譃槿糠?，用時10-15 分鐘。第一部分為熱身環節，回答諸如姓名、年齡、家鄉等問題；第二部分為簡答題，要求學生用2-3 個句子予以回答；第三部分為討論題，要求學生結合某個主題闡述自己的觀點、見解或想法等，并就其展開論述。評分標準為國際第二語言水平量表（International Second Language Proficiency Ratings，簡稱ISLPR）。評分者需要根據考生在口試過程中表現出的英語準確性、流利度和得體性進行評價，分別給出聽和說的成績。

口試在封閉教室中進行，每次僅有一名考生進入?？荚囉梢幻饧處熦撠熖釂?、引導和互動，全體評分員對該考生的聽說表現進行打分。量表分為6 個主要級別（記為0-5），加上主要級別之間的過渡級別（記為0+，1-，1+，2+，3+，4+），共計12 個級別（由于多層面Rasch 模型軟件只能處理連續型數值變量，因此要求口試的原始成績按照級階被轉化成連續型數值。）。按照該校中外合作專業語言階段的規定，考生得到2+就可以升入專業學習，所以在實際分級考試中，只需用到前5 級進行評分。在測試前，所有評分員都參加過澳方組織的培訓，并獲得澳方頒發的TAFE 資格證書。此外，為了弱化評分員個體的差異，在測試中共計安排了四位評分員，其中1 號和2 號為中方教師，在中外語言項目任教年數都有十余年，3 號和4 號為外籍教師，任職年限分別為7 年和2 年。

2.2 MFRM 建模

采用李納克爾開發的Minifac 軟件（V3.80.0）建模，該軟件是Facets 的學生版本，除分析樣本數量上限為2000 條外，其他均與正式版本無異。

所用MFRM 建模包含以下幾個層面：考生的聽說能力、評分人和評分標準，所構建的數學模型如下：Log（Pnijk/Pnij（k-1））= Bn-Ci-Dj-Fjk，其中，Pnijk和Pnij(k-1)分別表示第n 個考生在第j 個評分標準上被評分員i 判定為k 分和k-1 分的概率；Bn為第n個考生的能力；Ci是第i 個評分員的評分嚴厲程度；Dj是第j 個評分標準的難易度；Fjk代表第j 個評分標準中相鄰分數段對應的階梯難度。

通過MFRM 模型的統計分析，可綜合考察學生能力、評分員、評分標準及量表如何在共同作用下影響學生的最終成績，對評分過程中產生的各種測量誤差、以及各個層面交互作用產生偏差的原因進行診斷，從而對考生的最終定級提供修正和補償，最終提高英語口試質量。

3 統計結果及討論

3.1 總體分析

圖1 為模型總層面圖，展示了所有層面的總體情況，估算結果被統一在第一列的共同單位洛基值上。該值已經進行了對數轉換，滿足線性和等距特征，因此可以直接進行跨層面的估算和比較。第二列是考生能力值，每個星號代表2 名考生。從星號數量可以看到，考生的能力并未呈現較為理想的正態分布，考生能力之間差異較大，能力最強的考生和能力最弱的考生之間相差22.5 個洛基值。第三列是考官嚴厲程度，最嚴考官為j1，最松考官為j2，兩者之間相差3 個洛基，約為考生能力跨度值的七分之一，因此，考官個體的嚴格與否不至于對最終評價產生決定性的影響[17]。第四列是評分標準，即聽和說的總體評價分，兩者差距大約1 個洛基。第五列為評分量表，分值之間的間隔橫線為相鄰分值的臨界線，下圖中各個分數之間的分割范圍有密有疏，所包含的洛基值不等，從側面上證明評分員對分值的把握較好，評分主要依據為考生能力?？傮w而言，評分員和評分標準之間的差異不大，但考生能力之間確實存在較大差異。

圖1 模型層面圖

3.2 層面分析

MFRM 模型能對每個個體和層面進行運算和估值，提供更多評價信息，對測試進行質量檢驗，幫助修正測評誤差，反饋評分質量，為分級教學提供依據。下文將對各層面逐一展開分析。

3.2.1 考生層面。表1 提供考生層面數據。表下面數值是考生層面總體估算值，分隔比率為5.61，即考生之間的差異是測量誤差的5.61 倍；分隔指數[根據Myford & Wolfe（2004），分隔指數計算公式=（4* 分隔比率+1）/3]為7.81，即考生差異可分為7.81 個層次。結合卡方值及統計決斷（X2=4388.6，p=.00），可判定考生之間存在顯著差異。表1 包含考生序號（第一列），測量值和測量誤差（第二至第五列）和統計擬合指標（最后四列）。其中obsvd Ave.和Fair（M） Ave.分別對應學生實際得分（均值）和學生期望得分（均值），后者是模型綜合評分員嚴厲度、評分標準難度和評分量表所輸出的理想分數，和前者相比，它更接近考生實際能力。有學者[13，18]提出，可以根據兩者差異調整學生成績，對最終的報道等級進行微調和補償。本文計算了兩者之間的差值，發現取值在正負0.05 之間，均值為-0.00511，標準差為0.034732，因此無需進行調整。

表1 中還包含數據和模型的擬合情況，具體指標為加權和未加權均方擬合統計量（Infit MnSq和Outfit MnSq）以及它們的Z 標準分。李納克爾認為，未加權均方擬合統計量往往受到個體差異大的數據影響，因此，實際操作中往往以加權均方擬合統計量為準，其取值在0.6 至1.5 之間時可認為數據和模型擬合較好[19]272。也有學者根據實際估算的參數數量建議將評判指標放寬到0.5至3 之間[13]。結合本次研究的評分員和評分標準的數量，我們將擬合值鎖定在0.5 至2.5 之間，大于2.5 屬于非擬合（misfitting），即考生的實際觀測值和模型預測值之間差異過大，小于0.5 則是過度擬合（outfitting），即情況剛好相反。表1 包含所有擬合不良的考生，共有3 名考生的Z 分大于等于2.5，屬于非擬合。另有18 名學生數據過度擬合，占比12.77%。鑒于85.1%學生（120 人）的數據擬合良好，可認為考生數據整體擬合具有內部一致性。

3.2.2 評分員層面。評分員是測試中的關鍵層面，也是最容易出現測量誤差的層面。主觀上看，評分員的個體因素，如人生經歷、個人偏好、情感認知、喜好習慣等，均能影響其判斷，而且評分員對評分標準的理解和掌握也因人而異，存在不同；客觀存在的冗長無趣的評分過程以及在評分過程中可能存在的分神、疲倦等原因，都有可能形成評價誤差。因此，即便在考前對評分員進行培訓，在實際測試過程中，仍可能存在和考生實際表現并無關聯的測量誤差，即評分員效應[20]，包括嚴厲度、暈輪效應、集中趨勢、隨機效應和區分性這五個方面[3，4]。

表2 包含測量值、擬合指標和層面總體估算結果。評分員層面的分隔比率為7.91，分隔指數為10.88，這意味著四個評分員的打分嚴厲度可以分為將近11 個不同的層次，結合卡方檢驗的結果（X2=236.3，p=.00），可以認為評分員的嚴厲度之間存在著顯著差異。從評分員之間的差異看，一號評分員的打分最為嚴格，二號打分最為寬松，但盡管四位評分員的嚴厲度之間存在顯著差異，但是，從他們的點二列相關系數看，相關度在0.87 至0.89 之間，總體較為理想，所以可以認為，評分員打分的嚴厲度雖然不一，但評分的一致性和可靠性較高。

表2 評分員層面

此外，可通過加權均方擬合統計量評判評分員打分的一致性問題。對于該指標的臨界值，一般有兩種看法，一種是以加權均方擬合統計量的平均值和標準差作為標準，以平均值加減兩個標準差（M+/-2SD）作為上下限[21]117；另一種以加權均方擬合統計量取值在0.7 至1.3 為限，但也可以適當放寬至0.6至1.5 之間[22]。表2 中四位評分員的加權均方擬合統計量均在臨界值內，評分員一致性較為理想，評分員不存在光環效應[3，4]。綜上，可以認為評分員具有較好的內部一致性，評分結果總體可信。

3.2.3 評分標準層面。評分標準分為聽和說兩部分，表3 顯示，分隔系數為5.32，信度為0.93，卡方檢驗結果顯著（X2=29.9，p=.00），即兩者存在顯著差異，評分員能有效使用評分標準區分考生聽說能力。數據顯示，評分員在第二項標準上更加嚴格，兩者相差0.78 個洛基單位。經過訪談，筆者發現，相對于聽的能力，對說的評判更加直觀。按一位中方評分員說法，考生的發音、語調、語法、以及語言產出的量，都是直觀可見的。而對于外教而言，評判一個考生口語產出的質和量，更是有著本族語使用者的優勢。因此，和內隱的聽力相比，對說的評判就顯得更加嚴格。

表3 評分標準層面

從擬合指標看，這兩項標準均在可接受范圍內（M+/-2SD），說明評分標準的前后一致性較為理想。但是，“說” 的加權均方擬合統計量小于1，Z 分絕對值剛好為2，說明該標準的區分層次比預期要少，評分員可能過多地使用了某一分數段，提示存在暈輪效應，這有兩個原因，一是考生水平確實較為集中，彼此差距不大；二是評分標準不夠細致，不能很好地區分考生水平[16]。結合口試的實際情況，筆者認為兩者兼有。一方面，報考該校中外合作專業考生的整體英語水平較弱，但特別差和相對較好的學生數量少，主要集中在ISLPR 體系中2 分的能力水平上；另一方面，所用評分量表共計5 個級階（0-4分），量具間隔為1，因此，對大多數的考生而言，只能用2-3 個級階來進行評價，無形中加劇了評分分值集中。

3.2.4 評分量表層面。評分量表層面反映了評分員是否有效使用評分量表，量表中分數段對考生能力的區分和體現等[22]。表4 反映了評分量表層面的質量和分數段標定。從平均測量值可以看出，分數段從低分到高分呈現出正態分布，且不同分數段之間存在一定的間隔，說明評分員能較為準確地運用量表來區分考生的水平。一般認為分數段之間理想間隔應該為1 至4 個洛基單位，否則提示可能存在評分的集中趨勢[23]。從各分數段的起始值看，2-3分的間隔在理想范圍之內，但是1-2 分，3-4 分之間則超出了間隔上限。這提示評分員過多使用了2 分和3 分段的量表，評分上存在一定程度集中。事實上，2 分和3 分段的使用頻次是最高的，占所有分數段的75%。這與前文 “說” 的評分標準區分度不高，打分相對集中的結論互為印證。事后對評分員的訪談發現，評分標準和量表對考生聽說能力的劃分并不是十分細致，在實際打分環節，評分員所能用的分值基本只有2 到3 個。評分量表能滿足對考生的分級要求（即語言初級、中級、高級班劃分），但對于同級別考生之間的進一步細分就顯得捉襟見肘。

表4 評分量表層面

從未加權均方擬合統計量看，量表不同分數段除0 分外，其他分數段的一致性還是較為理想，取值基本在1 左右，全部分數段均未超過2的上限[23]，因此，量表還是能夠較好地反映考生的能力水平。

量表質量還可通過量表分數段的概率曲線圖（圖2）進行分析。圖中的X 和Y 軸分別代表相對于題目難度的考生能力和考生得到某個分值的概率，從左至右的五條曲線分別代表0 到4 分五個分數段的概率，曲線與曲線的交叉點就是相鄰分數段之間的臨界點。帕克（Park）提到，概率曲線之間需要有一定的間隔，且每個曲線需要有自己的獨立峰頂，能力值處于峰頂的考生得到該分數段的概率最高[24]。圖2 中每個分數段都有自己獨立的峰頂，分值從左至右排列且呈現單向遞增趨勢。另外，曲線之間的間隔也相對較小，并不是分得很開，而后者恰恰是集中趨勢的表現[4]。綜合起來，可以認為，雖然在部分分值上存在集中趨勢，但量表層面的總體可信度較高。

圖2 分數段概率曲線

3.3 偏差分析

MFRM 還可以分析各層面的交互作用，特別是用于評分者層面與其他層面之間的相互作用關系[15]，從而區分、界定評分員效應中因隨機因素所造成的誤差和系統偏差。通過對評分員評分前后不一致現象的分析，可以反饋給評分員，并提高測試質量[7，13，14，16]。結合口試中評分員的重要作用，本文對評分員層面與其他層面之間的交互作用進行了偏差分析，結果如下表5。以t 值絕對值是否大于2 為顯著偏差的評判指標，大于2 說明評分員過于嚴格，小于-2 則過于寬松。

表5 評分員和其他層面交互結果匯總

表5 顯示，考生和評分員共計有564 例（141*4）交互組數，其中t 值大于2 和小于-2 的各有5 組，共計出現了10 例顯著偏差，占比1.77%，小于5%的臨界標準[21]149，而評分標準和評分員之間共計8 例（2*4）交互組數，其t 值在-0.27 至0.31 之間，不存在顯著偏差，層面的交互作用不顯著。這說明評分員對標準的把握較好，一致度較高。

表6 為評分員和考生層面之間的偏差分析。該表顯示，出現偏差數最多的是4 號評分員，最少的是3 號。2 號和1 號居中。結果和評分員的經驗與國籍有關，4 號是新外教，任職2 年，經驗相對不足。3號評分員自2008 年開始就開始在中外語言項目中任教，一直從事寫作和聽說教學，經驗相對豐富。而1 號和2 號評分員都是中方教師，從教學經驗上看不遜于外籍教師，但是，在語言敏感性上終歸是稍遜一籌。

表6 評分員和考生顯著偏差表

從考生能力值看，出現偏差最高的是中間段考生，能力值位于-3 到5 個洛基單位之間（可結合圖1），對于這些考生，出現了5 例過嚴打分，4 例過于寬松打分，另有1 列寬松打分出現在能力值相對較高（6.27 個洛基單位）的39 號考生身上。在中等程度學生中容易出現偏差的現象與其他學者的研究相吻合[13，25]。但是，本次研究沒有發現Congdon & McQueen[26]和戴朝暉、尤其達[15]所提到的評分時間穩定性問題，出現偏差的考生和他們考試時間無關。

另外，編號為56 的考生處于評分員打分過嚴的范疇，同時，該考生的個體統計量也曾出現過非擬合現象（表1 第三行數據），可以認為對該生的打分確實存在問題，可以考慮進行復核。但是，在檢驗其能力水平及測量預期分均值后，還是認為該生的最終報道等級無需調整。

4 結論

本文運用MFRM 模型，從多個層面對某校中外合作專業新生分級口試成績進行信度分析，結合各層面及層面之間分析的結果，認為此次測試總體質量較好。

首先，考生層面的分隔比率和信度較為理想，根據分隔指數，可以將考生分為大約8 個不同的層次，而分級考試只要將學生分為三個級別，因此，分級口試是有效的。雖有3 名考生（2.13%）出現了非擬合，18 人出現了過度擬合情況，但經復查這些考生的實際得分和預期得分后，無需對其報道等級進行調整。其次，評分員層面的分隔指數、信度及卡方分析結論都提示，雖然評分員嚴厲度之間存在著顯著差異，但四位評分員的加權均方擬合統計量均在臨界值內，可以認為評分員具有較好的內部一致性，評分結果總體可信。事實上，絕大多數MFRM 對評分員層面的分析都得出了類似的結論[5，7，13，16]，即評分員寬嚴度之間存在差異，但評分員的內部一致性總體理想。再次，評分標準之間存在顯著差異，但同樣具備一致性結論，評分員能有效運用聽說兩個標準對考生進行有效區分。此外，“聽” 和 “說” 兩個評分標準的加權均方統計擬合量在0.7 至1.3 之間，這證明標準之間的關聯性適當且又不過度[17]。在評分量表上，雖出現兩個分數段的集中趨勢，但其他結果表明量表層面總體可信度較高。

然而，本次口試中還發現了一些亟待解決的問題，主要體現在考生的質量和評分量表的度量兩個方面。從考生層面看，大多數學生的口語能力居中，沒有特別好或者特別差的學生，從分布形態看，屬于中間大兩頭??；從評分量表看，共計0 到4 分五個級階，按照ISLPR 的評分標準，0 分標準為零基礎學生，4 分標準為本專業經過1-3 個學期語言訓練后達到的最終能力水平，因此，對于大一新生而言，除極個別個體外，絕大部分考生的口語測試成績為1至3 分。這就造成了中間分數段的集中。而考后對評分員的訪談也發現，現有評分標準和量表適用于分級這一 “粗糲化” 的分級目的，但無法實現對同級別考生聽說差異的 “精細化” 描寫，因此，有必要對評分標準和量表進行進一步細化，以便在后期實現班級內部的差異化教學。分析還發現，評分員在本專業的任職年限和經歷確實會影響最終評分質量，造成偏差，因此，在常規考試培訓之余，還應給予更多的實踐操練，以幫助新進教師適應本專業的評價體系。

總之，應用MFRM 方法可以更加有效、科學地評價主觀性考試中影響考生成績的諸多因素，將人為的測量誤差剝離出來，通過對測量值的修正和補償，最大可能地反映考生的實際能力。此外，對評分員、評分標準及量表的分析，能夠全面綜合診斷、動態監控評分員的評分過程和評分結果，從而反饋評分員本人，對提高評分質量及后期評分員培訓都有實際借鑒意義。

猜你喜歡

分數段口試均方

山西省2022年對口升學各專業類考生分數段及院校投檔線

山西教育·招考(2023年6期)2023-08-06

一類隨機積分微分方程的均方漸近概周期解

黑龍江大學自然科學學報(2022年4期)2022-11-17

2021年對口升學部分專業類考生分數段及院校投檔線

山西教育·招考(2022年6期)2022-07-11

2019年對口升學部分專業類考生分數段及院校投檔線

山西教育·招考(2020年6期)2020-08-10

我省將于7月25日前公布高考成績及錄取分數線

科教新報(2020年28期)2020-07-21

Beidou, le système de navigation par satellite compatible et interopérable

今日中國·法文版(2020年7期)2020-07-04

2018年對口升學部分專業類考生分數段及院校投檔線

山西教育·招考(2019年4期)2019-09-10

PETS口試評分培訓效果的多面Rasch分析

外語教學理論與實踐(2016年3期)2016-06-11

基于抗差最小均方估計的輸電線路參數辨識

電力建設(2015年2期)2015-07-12

基于隨機牽制控制的復雜網絡均方簇同步

深圳大學學報（理工版）(2015年5期)2015-02-28

浙江工商職業技術學院學報2023年4期

浙江工商職業技術學院學報的其它文章: 干部職工的擔當問題淺析
——以寧波海關為例; 高職專業課課程思政教學改革的探索實踐
——以國家級課程思政示范課程 “公共關系” 為例; 水下無線傳感網的自適應時域壓縮方法; 價值共創視角下短視頻平臺助力綠色經濟的研究; 淺析大學生入校一年后的新媒體使用行為變化
——以N 大學為例; 基于問題導向的高等院校課程思政供給側建設策略研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合