基于過程導向的英語寫作評分量表效度驗證

2021-01-04 07:39吳雪峰肖楊田

外國語文 2020年5期

吳雪峰肖楊田

(1.南京林業大學外國語學院,江蘇南京 210037;2.大理大學外國語學院,云南大理 671000)

0 引言

寫作測試考查學生運用英語進行書面表達和交際的能力,是典型的行為表現型測試(performance test)。寫作測評評分是評分員、評分量表和寫作文本間三者間交互作用的結果(Weigle,2002),具有較強的主觀色彩,而開發與各類寫作測試相適應的評分量表可幫助評分員在評分時做到有章可循(Becker,2016)。作為衡量和評價學生寫作能力的重要工具,評分量表的自身質量和效度至關重要。評分量表和評分方式是課堂測評的核心(Marzano,2002),但教師很少致力于改革寫作評分量表,對課堂二語寫作的評改缺乏科學、高效的方法。教師評分時一般亦無相關培訓或指導,多數情況下臨時編制評分量表供當次評分使用,很少對其進行專門的效度驗證。因此,評分量表質量如何不得而知,難以保證。而基于不合理、不科學的評分量表而得到的評分結果,以及據此作出的評分決策極易破壞測評的公平和公正(Barkaoui,2010)。

目前,有關評分量表效度驗證的研究主要針對大規模、高風險英語考試中的寫作評分量表(Shaw et al.,2007),課堂環境下英語寫作評分量表的效度研究相對匱乏。此外,評分量表的效度驗證不僅要關注評分結果,更應關注評分過程中評分量表的具體作用和功能,重視評分員在評分過程中對評分量表的感受和評價,構建更加完整的效度證據鏈(Knoch et al.,2007)。本研究以課堂環境下的一則“概要寫作”評分量表為例(吳雪峰,2018),該評分量表與依靠專家主觀判斷的傳統評分量表有所不同,它是基于考生概要寫作測試樣本,采用更加科學合理的“數據驅動法”研制而成,因而更具真實性、信度較高(劉力等,2013)。寫作評分量表制定完成后,研究人員需對其進行細致、深入的效度驗證,這是評分量表開發過程中不可或缺的環節。效度研究可從多種角度入手,有助于全面審視評分量表的質量,找到評分量表中可能存在的問題和不足并對其進行修訂或調整,從而以高質量的評分量表確保公平、合理地開展英語寫作評分工作(Knoch,2011)。本研究聚焦評分量表的使用過程,采用定量、定性相結合的混合研究范式,通過分析評分結果并結合評分員在評分時的有聲思維及評分后的半結構式訪談,回溯評分過程,深入探討該評分量表的效度。本研究對其他各類英語寫作評分量表的效度驗證亦具有一定的借鑒意義。

1 文獻回顧

英語寫作評分量表效度研究聚焦不同類型評分量表的對比研究,如分析整體式與分項式評分量表之間的優劣差異。研究表明分項式評分量表能更好地區分考生寫作能力,并有效提升評分的一致性和穩定性(Knoch,2011;李航,2015),而整體式評分量表能顯著提高評分效率(Barkaoui,2007)。此外,Knoch(2009)基于多層面Rasch模型(MFRM)對比了描述語比較宏觀的評分量表和描述語較為詳細的評分量表,發現后者更能有效保障評分結果的可靠性。Huhta等(2014)對比了兩則基于歐洲語言共同參考框架(CEFR)的評分量表,其中一則描述語直接摘自CEFR,另一則由研究者根據寫作構念改編CEFR描述語而成,后者較之前者在內容方面更加具體。與Knoch(2009)的研究結果不同的是,Huhta et al.(2014)的研究表明兩則評分量表均具有較好的區分度。

近年來的評分量表效度研究則越來越重視構建更加多維、深入的證據鏈。Deygers和Gorp(2015)采用項目反應理論、主成分分析、半結構式訪談相結合的方法驗證一則改編自CEFR的評分量表的效度,結果表明評分員能有效使用評分量表,但對評分量表內容的理解不盡相同。Mendoza和Knoch(2018)對一則學術寫作評分量表分兩個階段進行了效度驗證。第一階段五名評分員試用評分量表后,根據MFRM數據及評分員反饋對評分量表進行修改,再交由第二階段的六名評分員使用,并通過問卷征求評分員對評分量表的評價和建議。結果表明修改后的評分量表可有效提升評分信度并得到評分員的積極評價。兩項研究的共同點在于它們都將評分量表視作一個整體進行效度驗證,而Becker(2018)的研究不僅考查評分量表的整體科學性,還專門評估了評分量表內部的構成要素,其研究表明各評分維度完整覆蓋了測試構念,評分量表中的縱向等級大多能有效區分不同寫作能力的考生,但3分和4分之間的區分度不高,需進一步調整或修改。此外,還有研究關注專門用途評分量表的效度,如銜接連貫度評分量表(Knoch,2007)、寫作測試任務真實性評分量表(Behizadeh,2014)、寫作功能表達評分量表(Kuiken et al.,2017)等。

上述研究大多以結果為導向,分析考生的寫作成績來評判評分量表的效度,也有少量研究以過程為導向,關注評分量表的具體使用過程。Shirazi(2012)通過評分員有聲思維發現其在評分過程中很少依靠評分量表,而是根據各自的主觀標準進行評分。Jeong(2015)對比了無評分量表和有評分量表情況下的寫作評分,發現兩次評分結果雖無顯著性差異,但有評分量表時評分員關注的覆蓋面更廣、更全。Winke等(2015)的眼動實驗結果進一步表明評分量表對評分工作起到持續的引導作用,且評分員對評分量表各個維度的關注程度有所不同。還有研究對比了不同評分經驗的評分員在使用評分量表過程中的差異,發現較之評分經驗,評分量表對評分過程產生了更大的影響(Barkaoui,2010)。此外,作為熟練評分員的教師在使用評分量表時,其評分結果的一致性、科學性以及對評分量表的解讀能力均優于新手評分員(Li et al.,2015)。

綜上,許多研究主要依賴對比不同類型評分量表、衡量靜態評分結果的可靠性等手段,效度證據的完整度相對不足。部分研究雖關注評分量表的使用過程,但主要目的在于觀察評分員特征或揭示評分員與評分量表之間的互動關系,而非評分量表自身的質量和效度。鑒于此,本研究以一則“概要寫作”評分量表為例,基于評分量表的使用過程對其進行效度驗證,擬回答下列兩個研究問題。

(1)在評分過程中,評分量表是否能保障評分可靠性?

(2)評分量表的描述語、評分維度、各級別分值等要素對評分過程有何影響?

2 研究設計

2.1 受試

受試包含學生、教師兩個群體。前者為江蘇某高校英語專業本科三年級學生(n=63),其中男生九人,女生54人,均已通過英語專業四級考試(平均成績70.13分),英語基本功較為扎實。教師為該高校在職英語教師(n=7),擔任概要寫作的評分工作(具體見表1)。

表1 評分員信息一覽表

2.2 研究工具

本研究所使用的評分量表由五個維度組成,即“語言準確”“語言復雜”“忠實源文”“銜接連貫”“寫作規范”,分值權重依次為25%、20%、20%、25%、10%。各維度包含從“優秀”到“極差”五個等級。暫設概要寫作任務滿分為100分,并按照上述分值權重為每個等級平均賦分,詳見表2。評分員根據整體印象在各維度確定某等級,然后在其對應的賦分區間內擇定最終得分。

表2 等待效度驗證的概要寫作評分量表① 限于篇幅,評分量表描述語未能呈現,可參考《中國外語教育》2018年第2期第65-66頁。

概要寫作源文由筆者與兩名英語專業教師共同挑選,最終擇定2014年考研英語中的第二篇閱讀理解,主題為美國法律人才培養,一致認為源文難度與受試學生的英語水平比較吻合,全文共計413詞。

2.3 數據收集與分析

63名學生在英語寫作課上完成概要寫作,限時45分鐘,篇幅100詞以內。研究者對63份概要寫作逐一編號,并隱去學生信息。評分員在評分前均接受了培訓,包括閱讀和分析源文、熟悉評分量表等。研究者從63份概要寫作中選出好、中、差三個樣本供評分員參考,通過試評和討論幫助評分員在評分寬嚴度把握方面形成基本共識。此外,本研究采用有聲思維探索評分量表在評分過程中的作用和影響,研究者就有聲思維的過程和方法向評分員做了解釋和說明。

為避免相互干擾,培訓結束后七名評分員被分別安排到七間不同的教室進行獨立評分,并使用手機錄制有聲思維,評分時間為三小時。結束后,又采用半結構式訪談了解評分員在評分量表使用過程中的感受。研究者對有聲思維與訪談錄音進行了轉寫,采用內容分析法(Patton,2015)進行編碼,自下而上地提煉主題。

MFRM廣泛應用于英語寫作測試評分研究,可在同一洛基量尺上對不同層面的個體進行度量,為評分量表效度驗證提供豐富的證據(Bond et al.,2015)。本研究借助FACETS 3.58軟件進行定量分析。構建的數學模型包括評分員、考生、評分維度三個層面:

log(Pnijk/Pnijk-1)=Bn-Cj-Di-Fk 8136A635

其中,Pnijk表示評分員j對考生n在維度i上打k分的概率;Pnijk-1為其他情況相同時,該考生被評為(k-1)分的概率;Bn、Di、Cj、Fk分別代表第n個考生概要寫作能力、維度i的難度、第j個評分員的嚴厲度以及各維度中得k分相對于(k-1)分的相對難度。

3 結果與討論

3.1 評分量表對評分過程可靠性的保障作用

MFRM分析直觀呈現了評分員在評分過程中對寬嚴度的把握及其自身評分一致性情況(表3)。

表3 評分員寬嚴度及一致性統計結果

表3中的第二列顯示評分員在寬嚴度方面的差異,六號評分員最嚴格(0.13 logit),五號評分員最寬松(-0.09 logit)。分隔系數為3.37,分割信度為0.92,卡方值為86.9(df=6;p<0.01),說明評分員在寬嚴度方面存在顯著性差異。但其寬嚴度洛基值均在±1 logit 之間,且寬嚴度全距0.22 logit (-0.09~0.13 logit)遠低于被試能力全距(1.9 logit)的1/4,說明評分員嚴厲度差異總體上不會對評分結果產生決定性影響(Myford et al.,2003)。

通過觀察加權均方擬合統計量(Infit MnSq)可了解評分員內部一致性,公認度較高的取值區間為0.5~1.5,可說明數據擬合良好,評分員穩定性較高(Linacre,1999)。表3顯示,七位評分員的Infit MnSq值均在可接受范圍內,評分員在評分過程中能保持比較穩定的寬嚴度。

基于過程導向的評分量表效度驗證,其焦點是在評分過程中,評分量表能否規范和引導評分行為,保障評分質量,可借助評分員在評分過程中的一致性指標進行觀察(Weir,2005;Deygers et al.,2015)。MFRM分析結果表明,評分員在相互一致性方面差異顯著,可能與其在學歷、教齡、認知等個體因素方面差異較大有關。由表1可知評分員年齡跨度為18歲,教齡跨度23年,其中兩人擁有博士學位,研究方向也各不相同。上述差異可能是導致評分員間評分一致性差異的主要原因。許多研究表明評分員在接受培訓的程度、評分風格、評分策略等方面差異顯著(Knoch,2011;徐鷹,2016a),但這并不一定會對評分結果的可靠性造成根本性破壞。本研究MFRM結果顯示評分員間嚴厲度差異總體上未對評分結果起決定性作用,且加權均方擬合值表明所有評分員在評分過程中呈現出較好的內部一致性,說明評分量表指導下的評分過程總體來講是科學的,評分結果是可信的。

3.2 評分量表的主要構成要素對評分過程的影響

3.2.1 描述語

評分員一致認為描述語表述清晰,易于理解,在使用過程中沒有出現對描述語的不解、疑惑等情況。其中R4說到:

描述語都很清楚、明了,沒有哪一條會讓我覺得模棱兩可。對描述語的內容,我看一遍就能完全明白它的意思。

語義清晰的描述語有效增強了評分量表的便捷性和實用性,促使量表在使用過程中發揮更大的作用,比如R6認為:

這個評分量表使用起來很方便,一步一步地引導?，F在專四、專八都有概要寫作,平時課上也經常給學生進行練習,這個評分量表可以直接被使用到我平時教學的評分中去。

描述語質量對評分量表在實際使用過程中的效用至關重要。表述模糊的描述語加重評分員認知負荷,迫使其解讀描述語時加入個人猜測或推斷,加劇評分的主觀性,最終影響評分量表的效度(Rakedzon et al.,2017)。本研究中評分員對描述語給予了積極的評價,認為描述語準確、清晰、無歧義,這對統一評分員認識,保障評分量表效度具有重要意義。許多研究都強調描述語這一特點的重要性,甚至認為是研制評分量表中最具挑戰性的一環(Rezaei et al.,2010)。但這并非意味著描述語越詳細越好,描述語過于細化反而會束縛評分員手腳,使其在評分過程中過度糾結評分量表中的某一細則,繼而影響評分效率和評分決策的果斷性(Li et al.,2015)。鑒于此,描述語應避免過度具體或模糊兩個極端,結合寫作測試類型和目的在二者之間找到最佳平衡,并通過評分員培訓等環節保障評分員對描述語解讀的一致性。

3.2.2 評分維度分析

表4顯示五個維度在難度上有顯著差異,分隔系數為4.32,信度為0.95,卡方值為125.4(d.f.=4;p<0.01)。各維度logit值表明語言準確,語言復雜(0.12 logit)難度最大,得分最低,說明評分員一定程度上繼承了傳統評分風格,在評分過程中對語言層面的質量更加敏感,因此會更加嚴格。忠實源文(-0.13 logit)難度最小,最易得高分,可能是因為概要寫作受限于源文內容,而學生均為英語專業高年級本科生,語言基本功較扎實,不會輕易跑題或偏題(吳雪峰等,2018)。各維度Infit MnSq值在可接受范圍內(0.94~1.06 logit),不存在非擬合或過度擬合的維度。

表4 評分維度的MFRM統計結果

對評分維度的劃分,所有評分員給予了充分肯定,認為五個維度完整地體現了概要寫作構念,維度設置合理。評分員R3提道:

所有應當覆蓋的維度都考慮進來了,沒有遺漏,包括詞匯、句法、內容等各方面,還突出考查了考生能否恰當處理概要寫作與源文的關系,也就是“忠實源文”度。

然而,也有評分員對評分維度的數量表示擔憂,擔心設置五個維度會影響評分效率。評分員R5指出:

維度確實比較完整,也很有必要。但如果用于大型考試,像專四專八、四六級,閱卷太耗時了,要考慮五個維度啊,哪來得及呢?用于平時測驗倒還行。

對分值權重分配,多位評分員提出質疑,尤其是針對“忠實源文”,認為該維度分值權重偏低,應充分考慮概要寫作的特殊性及其構念內涵,賦予該維度更高的權重。評分員R1表示:

概要寫作的第一要務就是內容要匹配源文。目前只占20%感覺低了點。如果學生的概要寫作語言優美、結構完整,但寫的內容和源文相關性很差或者風牛馬不相及,那還有什么意義呢?

在此基礎上,評分員R6則明確提出“忠實源文”度是整個評分量表中最重要的維度,應該給予其最高的權重,他認為:

沒有哪個維度能和“忠實源文”度相提并論,20%的權重偏低了,必須提高,其他有的維度要降下去,降哪個再慎重考慮。

盡管評分員均贊同維度的設置,但在分值權重方面提出異議,尤其是“忠實源文”維度,認為20%的權重過低,應當賦予該維度最高的權重。從測試構念來看,概要寫作是基于閱讀考查寫作能力的測試任務,學生需在理解源文的基礎上,通過認知加工和處理,使用自己的語言簡明扼要地概述源文主要信息(Yu,2009)。概要寫作的構念尤其強調所寫概要和源文間的匹配度。除“簡明扼要”和“自己組織語言”以外,未對語言質量提出具體要求,語言維度權重過高會導致考分解釋的偏差,即分數主要反映語言能力而非概要寫作能力,這與概要寫作的測試構念是相悖的。此外,該量表分值權重的確定主要依靠回歸分析(吳雪峰,2018),是否合理還取決于評分員在評分過程中的感受及評價(Barkaoui,2010),因此可適當提升“忠實源文”維度的權重,降低語言準確、語言復雜維度的權重,做到“較高的分值比例給那些較能體現或代表寫作能力的部分”(鄒申,2011:114)。

3.2.3 級別設置與分值使用

評分量表各維度均由五個級別組成,其設置與分值使用是否合理主要考慮以下層面:(1)分值使用的整體分布;(2)Outfit MnSq值是否小于2;(3)分階校準值是否隨分值增加而單向遞增(李清華,2014)。具體見表5。

表5 各維度分值使用情況一覽表① C表示Count,即評分員打出該分數的頻次;OM表示Outfit MnSq,即未加權均方擬合統計量;SC表示Step calibration,即分階校準值。此外,表中黑色底紋用以區別各維度中的不同評分等級。如維度1中,由低到高各等級的分值區間依次為:0-5;6-10;11-15;16-20;21-25,其他維度以此類推。

分值 1語言準確度2銜接連貫度3忠實源文度4語言復雜度5寫作規范度(25分)(25分)(20分)(20分)(10分)8 3 1.5 -0.82 2 1.3 -0.27images/BZ_160_1094_547_1183_622.pngimages/BZ_160_1183_547_1301_622.pngimages/BZ_160_1301_547_1449_622.pngimages/BZ_160_1449_547_1537_622.pngimages/BZ_160_1537_547_1655_622.pngimages/BZ_160_1655_547_1803_622.pngimages/BZ_160_1803_547_1921_622.pngimages/BZ_160_1921_547_2039_622.png0.38 9 4 1.3 -0.68 5 0.8 -1.16? 30 0.8 -0.42 40 0.8 -0.98 83 0.9 0.41 10images/BZ_160_383_697_472_772.pngimages/BZ_160_472_697_590_772.pngimages/BZ_160_590_697_738_772.pngimages/BZ_160_738_697_826_772.pngimages/BZ_160_826_697_944_772.pngimages/BZ_160_944_697_1094_772.png28 1.0 0.05 44 1.3 -0.34images/BZ_160_1803_697_1921_772.pngimages/BZ_160_1921_697_2039_772.png1.91 11 19 1.1 -0.64 29 0.9 -0.56 26 1.4 0.09 26 1.0 0.33 12 30 0.8 -0.75? 27 1.3 -0.08images/BZ_160_1094_848_1183_923.pngimages/BZ_160_1183_848_1301_923.pngimages/BZ_160_1301_848_1449_923.pngimages/BZ_160_1449_848_1537_923.pngimages/BZ_160_1537_848_1655_923.pngimages/BZ_160_1655_848_1803_923.png13 15 0.9 0.43 12 0.6 0.70 52 1.2 0.22 77 0.9 -0.22 14 21 0.4 -0.56? 33 1.1 -1.08? 48 1.1 0.24 38 0.9 0.66 15images/BZ_160_383_1073_472_1148.pngimages/BZ_160_472_1073_590_1148.pngimages/BZ_160_590_1073_738_1148.pngimages/BZ_160_738_1073_826_1148.pngimages/BZ_160_826_1073_944_1148.pngimages/BZ_160_944_1073_1094_1148.png46 1.0 0.26 34 1.1 0.13?16 97 1.3 -0.40 99 1.5 -0.42images/BZ_160_1094_1148_1183_1224.pngimages/BZ_160_1183_1148_1301_1224.pngimages/BZ_160_1301_1148_1449_1224.pngimages/BZ_160_1449_1148_1537_1224.pngimages/BZ_160_1537_1148_1655_1224.pngimages/BZ_160_1655_1148_1803_1224.png17 33 1.1 1.00 29 1.3 1.32 35 0.9 0.68 20 1.1 0.89 18 30 1.1 0.07? 25 1.0 0.27? 27 1.0 0.75 15 1.0 0.64?19 11 1.0 1.04 14 0.8 0.76 7 1.3 2.04 3 0.6 2.18 20images/BZ_160_383_1449_472_1524.pngimages/BZ_160_472_1449_590_1524.pngimages/BZ_160_590_1449_738_1524.pngimages/BZ_160_738_1449_826_1524.pngimages/BZ_160_826_1449_944_1524.pngimages/BZ_160_944_1449_1094_1524.pngimages/BZ_160_1094_1449_1537_1524.pngimages/BZ_160_1537_1449_1655_1524.pngimages/BZ_160_1655_1449_1803_1524.png21 31 0.9 0.20 24 1.3 0.74 22 21 1.2 0.72 15 1.4 0.93 23 4 0.6 2.19 6 0.8 1.56 24 1 0.9 2.18 4 1.1 1.29?25

首先,就總體分布而言,評分員在各維度上均未使用過一級中的任何分值?？紤]到受試學生均為英語專業三年級學生,英語基本功較扎實,這樣的結果是完全正常的。各維度使用的分值大多集中在第二至五級。此外,MFRM分析顯示學生層面分隔系數為4.19,分割信度為0.95,卡方值為844.9(df=62,p=.00),說明評分量表能顯著區分學生的概要寫作能力?？傊?評分過程中分值使用比較均衡、合理,無某分值或分數段過度集中的現象。其次,各維度所有分值Outfit MnSq均小于2,且大多接近1,說明評分量表擬合良好,獲得某分值的學生其預測分數和實際分數無顯著差異,該分值能準確反映學生的實際寫作水平(Linacre,1999)。

然而從表5我們還是看到,各維度分階校準值未隨分值增加而單向遞增,出現“分階無序”現象(表5中?號),表明評分員在使用這些分值時無法做到準確把握和使用,這些分值不能很好地區分不同寫作能力的學生。各維度分階無序頻次從高到低為:語言準確六次、銜接連貫六次、語言復雜四次、忠實源文兩次、寫作規范一次。評分量表三、四級使用的分值最多,分別為八次和七次;二、五級數量較小,均為三次,說明評分員主要在中等級別無法準確把握和使用相應分值。但分階無序現象大多發生在某級別內部(如語言準確維度三級中的12、14、15等三個分值),基本不涉及跨級別的臨界分值。以語言準確度為例,三到五級最低分依次為11分、16分、21分,均未出現分階無序現象,說明在評分過程中,評分員借助評分量表能有效區別隸屬不同級別的學生,但無法在各級別內部做出精準決斷。

有聲思維也證實了評分過程中評分員存在這種困難。R5在評分時說道:

語言質量還不錯,用了一些從句,高級詞匯也有,可以放在第四檔。這檔的分值13-16分。打哪一個分數呢?14還是15、16?有點暈……好吧,就15吧。說實話我真不知道該選哪一個。時間差不多了,別想了,就15分吧。好糾結啊。

評分員訪談表明,評分員能較好地區分各維度中的五個級別,認為各級別間差異顯著,有利于快速、準確地判定學生習作所屬級別。但在各級別內部具體賦分時有一定的難度。評分員R6說道:

一個級別包含4-5個分值,那我就有四個選擇。給作文定級已經費了一番腦子了,馬上又要做“四選一”,有點痛苦。我很糾結,四個分值之間到底是什么差異,我不是很清楚。

評分員雖能有效區分量表的五個級別,但從某級別內部分值區間擇取具體分值時無法準確把握,這與前人研究結果是一致的(Jeffrey,2015;徐鷹,2016b),因為各級別描述語是對該級別寫作能力的整體性描述,量表中并無針對內部分值區間中各分值的具體化描述,因此評分員通過主觀推測而非依賴實際標準擇定最后分值,再加上評分時間限制,故出現上述賦分困難。也有寫作測試(如托福、雅思)采用單點分值,即每個級別只對應一個分值,如五個級別對應分值為1至5,其效度優于分值區間式評分量表(關丹丹等,2011)。但單點分值評分模式下被歸入同一級別的習作,質量仍有差異,因而有損考試公平(Deygers et al.,2015),同時會限制分數的多樣性,導致寫作分數解釋的趨同性,不利于給出有效的考試反饋(Rezaei et al.,2010)。國內大規模英語考試(如CET4/6,TEM4/8)均采用區間分值量表進行評分,多年來歷經實踐已較為成熟,其效度已得到廣泛的社會公認。綜上,區間分值和單點分值各有利弊,采用何種形式應因地因時制宜,做出合理安排。本研究所設分值較高(100分),可采取降低分值、合并分數段等方式縮小評分員的分值擇取范圍。

為克服評分過程中抉擇具體分值時的困難,評分員采取了一系列對策。我們從有聲思維報告中提煉出五種策略,即:搜索關鍵詞、搜索關鍵錯誤、分析推斷、前后比較、自我修正,使用頻次見表6?！八阉麝P鍵詞”指通過觀察關鍵詞的呈現或缺位判斷是否覆蓋源文核心信息,是否使用有效銜接手段,為忠實源文、銜接連貫維度的評分提供依據;“搜索關鍵錯誤”主要用于語言準確、語言復雜及寫作規范維度的評分;“分析推斷”幫助評分員在各級別間及及其內部進行分值選擇;“前后比較”指評分員在賦分猶豫時翻閱、對比已經評閱、正在評閱和即將評閱的習作,以做出更加合理的評分決策?！白晕倚拚敝冈u分員意識到自己評分有誤或不妥,主動修改和糾正所賦分值。

表6 評分策略使用頻次

不難看出,評分員實施后兩個策略不需直接求助評分量表,但前三個策略的使用與評分量表直接相關,是評分員結合評分量表各維度的具體要求而采取的相應策略,其使用頻次達到了448次,遠超后兩個策略的14次,一定程度上說明評分量表在評分過程中起到了積極的引導作用。評分員在評分過程中的猶豫不決以及采用各種補救性評分策略,主要歸因于評分量表中顯性指導的缺失(Jeffrey,2015),即分值區間中各分值無對應的具體標準供參考,可從考生文本中篩選與各分值大致對應的例文,并在評分員培訓中集體講解和學習,幫助其統一認識,掌握標準,提升評分量表的效度。

4 結語

本研究以過程導向為視角,對一則英語概要寫作評分量表進行了效度驗證。研究表明在評分過程中,該評分量表能有效幫助評分員把控寬嚴度并保障評分一致性;橫向來看,描述語清晰準確,評分維度完整,但“忠實源文”維度的分值權重應適當調高?？v向來看,最突出的問題是評分員在各級別內部分值的選擇上存在困難,因此有必要通過降低分值、合并分數段、增加評分參考樣本等方法進一步改進評分量表。行為表現型測試中一般不存在完美無缺的評分量表(Rezaei et al.,2010),因此多維度、多視角的效度驗證必不可少,從而為評分量表的修訂和完善提供充足的理據支持。