?

全國碩士研究生英語入學考試(NETEM)效度驗證

2011-11-02 07:58方秀才

淮北師范大學學報(哲學社會科學版) 2011年3期

關鍵詞：入學考試效度試題

方秀才

(淮南師范學院外語系，安徽淮南 232001)

全國碩士研究生英語入學考試(NETEM)效度驗證

方秀才

(淮南師范學院外語系，安徽淮南 232001)

全國碩士研究生英語入學考試(非英語專業)(簡稱NETEM)實行全國統一考試，目的是測量學生的語言能力，為高等學校和科研機構擇優選拔人才提供依據。對于這項重要的考試，相關文獻卻很少驗證其效度。本研究在作者研究該項考試閱讀理解部分效度的基礎上，通過組織測試實驗和發放調查問卷，運用定量、定性相結合的方法進一步驗證該項考試完型填空和寫作部分的效度，從而實現對該項考試各個部分進行效度檢驗。根據驗證結果，文章為完善該項考試提出建議。

全國碩士研究生英語入學考試(NETEM);效度;效度驗證;語言測試

一、文獻綜述

語言測試的目的是提供一種科學的工具，通過對學生語言運用的抽樣，對學生的語言能力進行客觀、準確、公正的評價。Bachman認為，一個有用的測試必須具備六個品質，即:信度、效度、真實性、交互性，后效作用和可行性[1]17。其中，效度指的是根據所設想的測試使用目的，(所收集的)證據和(依照的)理論支持測試分數解釋的程度……效度是一個統一的概念，即只有構念效度這一種效度，而不是傳統上的多種概念。筆者認可統一效度之說，但同時認為傳統上的多種效度概念卻為我們驗證效度收集證據時提供了角度，因此本文在效度檢驗環節仍然使用這些概念。效度驗證的過程回答了一項測試是否很好的履行了它設計時所應達到的檢測任務，是衡量測試質量最重要的方式和途徑。

對于國內的英語考試，楊惠中＆Weir C．把實驗研究、問卷調查、座談會和內省法心理研究等方法結合起來對CET的結構效度、內容效度、同期效度和預期效度以及表面效度進行了研究[2];鄒申等從內部效度(internal validity)和外部效度(external validity)對TEM進行了效度驗證[3]。他們在中國開創對效度的研究先河之后，人們開始重視對外語測試試題效度的研究，其中有鄒申，周越美＆張艷莉[4]及金艷[5]等。

“全國碩士研究生入學統一考試是為高等學校和科研機構招收碩士研究生而設置的。其中，英語實行全國統一考試。它的評價標準是高等學校非英語專業優秀本科畢業生能達到的及格或及格以上水平，以保證被錄取者具有一定的英語水平，有利于各高等學校和科研機構在專業上擇優選拔”[6]。該考試卷面滿分為100分，從2005年以后，該考試題型一直未有變動，主要有三大部分構成:完型填空、閱讀理解和寫作，各占比重10%、60%和30%。歷年的NETEM考試大綱明確寫明“本考試對課程和教材不作統一規定”，因此它不是檢驗教學成果的成就測試，而是一項參照考試大綱設計的水平測試，那么該考試能在多大程度上對考生水平做出檢測呢?它的效度到底有多高呢?上述文獻卻很少觸及NETEM的效度，這和該考試的社會意義、影響并不相稱。

近幾年，國內出現了一些相關研究，方秀才以2005年碩士研究生英語入學考試為主要對象，研究了該項考試閱讀理解部分的效度[7];郭慶民評述了2006年該試題閱讀理解部分的命題[8];張怡則對該項考試翻譯進行了效驗;論證閱讀理解部分的內容效度。綜覽國內這些文獻，作者發現它們都是對該測試的某個部分進行了效驗，不能完全反映整個考試的效度，而且都忽略了該項考試另外兩個重要組成部分即完型填空和寫作部分的效度檢驗。本研究在作者對NETEM閱讀理解部分效度檢驗的基礎上進一步對考試的完型填空和寫作進行效驗，從而完成對該項考試的效度全面檢驗。針對存在的問題，文章為完善該項考試提出建議。

二、研究方法

(一)調查對象

參加測試實驗和問卷一回答的是從中國科學院研究生院2007級在讀碩士研究生一年級中隨機抽選的兩個班級共55名學生。為了保證實驗的有效性，在授課老師的支持下，本次實驗的成績記做他們英語課程平時成績的一部分。

(二)實驗設計

1．實驗材料

實驗材料包括2008年NETEM完型填空及寫作部分的考試真題、答題紙、問卷、被試同期參加的碩士學位英語考試試題。本次調查問卷均采用Likert五點量表選項。

2．實驗問卷的設計

問卷包括兩個問題，要求考生判斷完型填空和寫作部分對于檢測大綱所規定的相應能力的合適程度，結果用來分析表面效度。為了更好地得到被試對于試題的主觀評價，問卷直接穿插到試題的兩個部分之前，要求被試瀏覽完題目即對問卷問題做出回答，問卷中兩個問題如下:

Question 1:在你瀏覽完Section I后，你認為“該部分不僅考查考生對不同語境中規范的語言要素 (包括詞匯、表達方式和結構)的掌握程度，而且還考查考生對語段特征(如連貫性和一致性等)的辨識能力等”嗎?

( )A．能很好檢測 B．能較好檢測C．能一般檢測 D．難以檢測E．很難檢測

Question 2:在你瀏覽完Section II(Part A＆B)后，你認為該部分能“考查考生的書面表達能力”嗎?

( )A．能很好檢測 B．能較好檢測 C．能一般檢測 D．難以檢測E．很難檢測

3．實驗解說詞和考試指令的設計

實驗解說詞闡明該實驗的目的和性質，考試指令重點規范考試的進程和回答問卷的順序，要求學生嚴格執行，否則視為無效問卷。

(三)實驗步驟

研究人員組織的測試實驗在兩個班同時進行，耗時80分鐘，所有同學完成試題的回答。50位同學按要求回答了問卷中第一個問題，46位同學回答了第二個問題。被試同期參加的碩士學位英語考試的試卷制作、考試安排都按國家級考試進行，信度效度都較高，這次的學位考試是在測試實驗后一周內進行，保證了它們的同期性。從兩類考試中我們獲得的數據除問卷信息外，還包括55位被試在考研試題完型填空的分數、應用文和大作文的單項分以及他們在學位英語考試中取得的完型填空和作文的分數。

(四)實驗結果

問卷第一個問題有50位被試作答，統計如下:

表一:2008年NETEM完型填空題型對問卷中所列能力檢測合適性

問卷第二個問題有46位被試作答，統計如下:

表二:2008年NETEM寫作題型對問卷中所列能力檢測合適性

表三:被試在測試實驗及學位英語考試中的完型及寫作單項分原始數據一覽(因版面省略)

三、統計分析及效度檢驗

Ingram把表面效度定義為“一項測試的表面可信度或該測試被大眾接受的程度”[9]。從表一可以看出，只有48%的被試認為該題型能很好或較好地“不僅考查考生對不同語境中規范的語言要素(包括詞匯、表達方式和結構)的掌握程度，而且還考查考生對語段特征(如連貫性和一致性等)的辨識能力等”，其中還有12%的被試認為這種題型難以或者很難檢測考試大綱規定要檢測的能力。從表二可以看出，有近61%的被試認為寫作部分的兩種題型能很好或較好地“考查考生的書面表達能力”，只有4%的被試認為這兩個部分難以檢測該能力。

根據Alderson，Clapham＆Wall的論述，盡管表面效度多是一些“外行”人群對某一項測試的評價，自身可能欠缺依據，但他們更相信，如果被試認為某項考試表面效度較高，被試就更可能最大程度地發揮自己的能力和水平，更合理地答題，進而影響該項考試的應答效度(response validity)[9]172－175。甚至很多交際測試學家認為表面效度是最重要的效度種類之一[10]160。一項考試只有具有較高的表面效度考生才會樂意接受，否則考生就會抵觸，這必然會影響考生水平發揮，也就無法對學生的能力進行有效的檢測。另外，表面效度欠佳的測試也必然會招來社會各界更多的指責，難以長期的執行下去，研究生入學考試是全國性的統一考試，應該得到社會各界的廣泛認可，保持其相對穩定性意義重大。統計數據表明，現行的英語入學考試完型填空部分的表面效度并不是很高，寫作部分的表面效度相對較高。根據方秀才的研究，這和這兩個部分采用主觀和客觀題型息息相關，因此，可以嘗試編寫主觀試題來檢測完型填空這種客觀題型試圖檢測的語言能力，提高該部分試題的表面效度。

我們是通過組織試驗發放問卷來探討這兩個部分的表面效度的，調查群體有限。為了獲悉社會(主要是考生)對整個入學考試的評價(如考試的難易程度)，作者從一些主流網站獲得相關信息，如下圖所示:

圖一:網絡對2008年考研英語難度調查

從圖一可以看出，參與這三大網站調查的60%左右的被試都認為當年的英語入學考試太難、很難或較難，主流網站對于其他年份實施的英語入學考試的調查結果也很相似。一門被認為很難的考試是難以得到被試廣泛歡迎的，這種印象也勢必影響該考試的表面效度。

內容效度指試題的內容(包括內容相關性和內容覆蓋面)對于考試規范和考試大綱中規定的欲測內容檢測的代表性和合適程度[9]173－176。對該效度的取證一般有兩條方法:專家檢測和考試規范的對照。聶建中和趙秀紅通過分析高考英語試題完形填空部分的考點效度來衡量該部分的試題質量，他們認為“完形填空的考點效度就是對完形填空題在考點刪除的合理性方面提出的效度要求”[11]54。因此，我們通過分析每個題項的考點和比對考試大綱來驗證該部分的內容效度。分析結果如下:2008年考研英語完型填空試題20題有17題考核詞匯層次知識，具體為詞義辨析題13題，詞義搭配題4題;3題考核語段的連貫性和語義的邏輯性。我們還注意到這20題中沒有考核語法知識的題項。類似于聶建中和趙秀紅的分類，2008年考研英語完型填空試題中只有3題考核語篇層次的高檔題，比例僅占15%，而考核單詞、詞組層面的中低檔題有17題，比例高達85%。他們的研究得出以下結論:“完型填空題的特點和優勢就在于它的綜合功能和語篇功能……刪詞 (設置題項)時應考慮盡量地把制約考點的范圍擴大，使語境層次提高。這樣才能使試題的效度提高……否則完型填空就失去了它的綜合考查的意義”[11]56。綜上，2008年考研英語完型填空試題的考點分布很不合理，對于詞匯層面的中低檔題的考查比例過大，而對于語篇層面的高檔題考核不夠，導致內容效度較低，使得完型填空綜合考查的功能無法很好體現。

對于寫作題目的設計，Heaton認為，呈現給學生的考題必須定義清楚、意圖明確，這樣才能激發學生動筆去寫，而且寫作任務應該保證考生有話可寫[10]137。筆者研究發現我國影響較大的全國性英語考試都將寫作作為最重要的主觀題來增加考試的表面效度，但寫作部分自身的效度研究卻沒有得到足夠的重視。筆者也沒有發現對碩士研究生英語入學考試的寫作部分效驗的相關文獻。筆者通過對照考試大綱來對這一部分的內容效度進行檢測。結果發現從2005年大綱及題型更改以來寫作的第一部分即應用文寫作內容效度較高。和歷年該部分的試題一樣，出題意圖清楚，寫作要求清晰明確。如2008年題目首先介紹了寫信的緣由，其次統一了信件的內容(道歉、解決方法)，最后要求了字數、署名等相關信息。指示性語言淺顯易懂，保障了考生對考題意圖的把握。情景貼近生活，考生有話可寫，便于應用文寫作水平的發揮。

寫作的第二個部分要求考生根據提示信息寫一篇160－200字的作文，大綱中列舉的提示信息的形式有:主題句、寫作提綱、規定情景、圖、表等。然而近五年的考試無一例外地通過漫畫圖片來提示主題，根本沒有用到大綱中提及的其他提示方式，可以說試題的設計并沒有很好的遵守大綱，試題內容效度欠佳。近五年的大作文要求考生首先 describe the drawing briefly，再 explain its intended meaning，然后give your comments(參見08年真題)，盡管歷年試題該部分措辭稍有差異，但意圖統一。筆者仔細研究了這五次考試的漫畫提示圖，結果發現05和08年漫畫較容易看懂、易于描述 (describe the drawing briefly)，象征意義(its intended meaning)明顯，考生也容易給出評論(give comments)，然而另外三年的試題中的漫畫很難讀懂(尤其以09年真題中的漫畫為典型)，更別說體會其象征意義了，這樣考生會無從下筆，題目無法很好檢測考生的寫作水平，勢必影響該部分的構念效度。另外，寫作為主觀題型，人工閱卷的信度也勢必影響該部分的效度。

標準相關效度指的是測試分數和已被認可的能夠反映學生能力的標準之間的關系，包括同期效度即同期和短時間間隔內兩種測試的一致性關系和預期效度即某一測試的表現對其后測試表現的預示關系。研究生英語入學考試和碩士學位英語考試的考試大綱、試卷結構、題型設置及受試群體的英語水平非常相近，根據Bachman和Heaton對于平行測試的定義，可將它們視為平行，筆者通過這兩類考試的相關性檢驗來驗證研究生英語入學考試的標準相關效度 (本研究只驗證同期效度，預期效度可通過對被試在07年研究生英語入學考試成績和這次的學位英語成績相關性檢驗來驗證，因無法獲取相關數據未能檢測)。

筆者將表三中的數據分6項(考研完型分、考研作文總分、考研完型作文總分、學位完型分、學位作文分及學位完型作文總分)輸入SPSS 12．0軟件，并將兩組對應分數依次進行3次相關性檢驗(如考研完型分與學位完型分)，結果參見下表:

表四:研究生英語入學考試及碩士學位英語考試完型填空、作文單項分及兩項總分的相關性

統計學及教育測量學中相關性檢驗證明理論假設的最寬松的要求是α≤0．05，而從結果可以看出，這三次檢驗的significance level遠遠大于這個數值，可以認定這6項分數兩兩之間均不存在有意義的相關。因此我們得出如下結論，即:研究生英語入學考試完型填空及作文試題的同期效度很低，通過考生在該考試中的表現來衡量他們的英語水平并不是特別合適。

結論

從上文效驗結果可見，NETEM完型填空部分表面效度、內容效度、同期效度較低;寫作部分表面效度較高，同期效度較低;寫作第一部分內容效度較高，第二部分的內容及構念效度較低，以漫畫作為題目指示的方式不夠明確，不能很好地檢測考生的寫作能力。筆者結合前期研究成果，對改進NETEM效度提出以下建議:(1)明確考試大綱中的表述，確保對各項能力的檢測比重，這樣才能更好地規范試題;(2)保持對欲測能力測試平衡，不斷增加對高層次英語綜合能力的檢測，并增加檢測的區分度;(3)可以嘗試綜合檢測讀、寫、譯能力(聽說能力在復試中檢測);(4)適當增加效度較高的主觀性試題的比重，同時保障較高的閱卷效度;(5)切實做好考后的統計分析工作，并保證數據分析的結果應用到大綱和試卷的改進過程中;(6)不斷對該項考試進行效度驗證，找到問題，改進考試。

[1]BACHMAN，L．F．Fundamental Considerations in Language Testing[M]．Oxford:Oxford University Press，1997．

[2]楊惠中，WEIR，C．Validation study of the National College English Test[M]．上海:上海外語教育出版社，1988．

[3]鄒申等．TEM考試效度研究 (TEM Validation Study) [M]．上海:上海外語教育出版社，1997．

[4]鄒申，張艷莉，周越美．閱讀測試中題目類型、策略與分數的關系－TEM4考試閱讀項目的答題效度研究[J]．外語與外語教學，2002(5):19－22．

[5]金艷．高級英語閱讀測試的開發和效度研究[M]．上海:上海外語教育出版社，2002．

[6]教育部考試中心．2008年全國碩士研究生入學統一考試英語考試大綱(非英語專業)[Z]．北京:高等教育出版社，2007．

[7]方秀才．2005年全國碩士研究生英語入學考試(NETEM)閱讀試題效度驗證初探[J]．中國考試，2005(12):36－39．

[8]郭慶民．2006年碩士研究生入學考試英語試題閱讀理解部分評述[J]．中國考試，2006(7):15－17．

[9]ALDERSON，J．C．，CLAPHAM，C．＆WALL，D．Language Test Construction and Evaluation[M]．Cambridge:Cambridge University Press，1995:172．

[10]HEATON，J．B．Writing English Language Tests[M]．London:Longman Group UK Limited，1988．

[11]聶建中，趙秀紅．高考英語完形填空的效度分析[J]．教育理論與實踐，2005(3):54－56．

H310．4

A

2095－0683(2011)03－0114－04

2011－04－06

2008安徽省教育廳人文社科項目“全國碩士研究生英語入學考試效度研究”(2008sk321)

方秀才(1979－)，男，安徽樅陽人，淮南師范學院外語系講師，碩士。

責任編校秋晨

猜你喜歡

入學考試效度試題

出生率下降日本中學出新招

環球時報(2022-06-09)2022-06-09

2021年高考數學模擬試題（四）

山西教育·招考(2021年5期)2021-11-30

入學祈禱（環球360°）

環球時報(2021-02-03)2021-02-03

2019年高考數學模擬試題（五）

山西教育·招考(2019年6期)2019-09-10

《陳涉世家》初三復習試題

學生導報·初中版(2019年5期)2019-09-10

慈善募捐規制中的國家與社會：兼論《慈善法》的效度和限度

中國非營利評論(2019年1期)2019-06-18

2019屆高考數學模擬試題（二）

中學課程輔導·高考版(2019年4期)2019-04-25

入學考試——比爾吉特·尼爾森自傳(四)

歌劇(2017年4期)2017-05-17

日本加強大學入學制度改革注重學生的可塑性

世界教育信息(2015年20期)2016-01-06

被看重感指數在中國大學生中的構念效度

心理學探新(2015年4期)2015-12-10

淮北師范大學學報(哲學社會科學版)2011年3期

淮北師范大學學報(哲學社會科學版)的其它文章: 面向綜合實踐活動課程的教育游戲設計探析; 中國古詩詞藝術歌曲之美學特征; 大學生網絡成癮與孤獨感的關系探討; 網絡環境中CMC模式下的過程寫作多元合作; 新媒體時代廣播節目的創新
——以廣州電臺為例; 《霍華德莊園》中的藝術聯結思想探析

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合