?

學術英語詞表研究管窺
——三份醫學英語詞表比較分析

2020-05-21 13:45焦培慧劉傳江
江西理工大學學報 2020年2期
關鍵詞:詞表選詞覆蓋率

焦培慧, 劉傳江

(1. 贛南醫學院,江西 贛州341000;2. 廣東金融學院,廣州510521)

一、引 言

詞匯量是一個人的教育程度、 智力高低或閱讀面的反映[1],外語學習者的詞匯量則是其目標語言能力高低的重要決定因素。 因此,語言教學專家長期致力于詞表(wordlist)或詞匯表(vocabulary list)的研制,以期為語言教學大綱制定、教材開發和試題編制等提供參考依據。 在早期開發的眾多英語教學詞表當中,Thorndike[2]開發的《教師詞匯手冊30000 詞》 及West[3]開發的 《通用英語詞表》(General Service List of English Words,GSL) 影響力最大[1]。 這兩份經典詞表被證明在當今仍具權威性,對BNC 和JDEST 語料庫的覆蓋率都達到95%以上[4],對當前的英語教學仍有指導意義。 特別是GSL,不僅對教學的指導作用經久不衰, 而且是后人研究和開發詞表不可忽視的標桿??梢?,一份科學的詞表對語言教學及其研究的深遠影響。

得益于現代科技而迅速發展的語料庫語言學為詞表研究和開發提供了便捷,新的詞表因此不斷涌現。特別是21 世紀以來,不僅通用英語詞表推陳出新,而且學術英語或專門用途英語詞表也遍地開花。自Coxhead[5]發布通用學術英語詞表(Academic Word List,AWL)以來,ESP 教學研究者相繼推出了其他專業領域的英語詞表。 這些ESP/EAP 詞表不僅有助于課程教學大綱的設置, 也有助于教材的編寫與評估, 特別是對教材中生詞和重點詞匯的遴選、 釋義及詞匯練習的設計有著極其重要的參考價值。

值得注意的是,研究者對醫學英語詞表的開發有著非同一般的興趣。自我國第四軍醫大學醫學英語課題組[6]在國際權威期刊English for Specific Purposes發表醫學英語學術詞表 (Medical Academic Word List,MAWL)后,又有我國臺灣義守大學徐文華[7]教授在Language Teaching Research發表醫學英語詞表(Medical Word List,MWL), 我國華中科技大學雷蕾[8]教授在Journal of English for Academic Purposes發表醫學英語學術詞匯表(Medical Academic Vocabulary List,MAVL);同時,AWL 的開發者Coxhead[9-10]教授也高度關注醫學英語詞表的研制,并發表了相關成果。 根據金檀、劉康龍和吳金城[11]的研究,學術英語詞表的研制范式可歸為三種——總體語料驅動、個體課文驅動與具體詞網驅動。三種范式因詞表研制的目標不同,因此方法各異。其中,總體語料驅動范式旨在通過大容量語料庫確定學術英語的高頻詞匯,為學術英語教學指引方向;個體課文驅動范式旨在計算單篇課文的詞匯覆蓋率, 確定課文生詞表;具體詞網驅動范式旨在生成與具體話題相關的詞匯,幫助學習者提高輸出技能[11]。 上述醫學英語詞表均遵循總體語料驅動范式研制而成,目標在于確定醫學英語高頻詞匯,為醫學英語教學提供方向指引。

問題是,既然有多份采用同一范式研制的醫學英語詞表,那么醫學英語課程教學及研究人員該如何選擇呢?不同研究者在不同時期針對同一學科開發詞表,反映了詞表研究的什么趨勢,對將來的詞表研究有何啟示? 為回答上述問題,有必要對不同醫學英語詞表及其研制過程加以比較分析。 鑒于MAWL、MWL 和MAVL 三份詞表的研究成果均在國際權威期刊發表,而且公布了詞表全文,下文對三份詞表進行比較分析,以期為詞表的選用及將來的研究提供有益參考。

二、三份詞表比較

語料驅動范式的學術英語詞表研制由四個步驟組成,即構建總體語料、生成初始詞表、比較詞匯頻率及生成詞匯總表[11]。 盡管四個步驟的具體操作可能因為詞表研制的目標有所不同,但基本流程大同小異,造成最終所得詞表存在差異的主要因素在于兩個方面:一是語料庫的容量和語料來源,二是選詞標準。 此外,詞表研究者對詞匯單位的定義也可能不同, 因而最后所得詞表的呈現方式會有差異。 以往的詞表開發者通常以詞族(word family)為詞匯單位,但最近一些詞表的開發者則傾向于以詞元(lemma)為單位,其主要理由是與詞族相比,詞元能體現詞匯的基本語法信息, 而且語義透明度(semantic transparency)更高[12-13]。 下文考察的三份詞表中,MAWL 和MWL 以詞族為單位,MAVL 以詞元為單位, 在概述三份詞表的基本樣貌之后,再分別考察構建各份詞表所用的語料及選詞標準。

(一)基本樣貌

三份詞表的基本信息見表1。MAWL 收入的詞匯數量為623 個詞族,MWL 為595 個詞族,MAVL為819 個詞元。MAVL 的開發者[8]曾將MAWL 轉換為詞元形式, 得出的詞元數量是1751 個, 亦即MAVL 的長度不及MAWL 的一半。 據此,則從詞表的長度看, 更晚開發的詞表更經濟。 但是,用Familizer 把MAVL 轉換為詞族形式, 得出的詞族數量是665 個①Familizer(網址https://www.lextutor.ca/familizer/)轉換結果為663 個詞族,但另有2 個(cytokine 和pathway)未歸類,故總數為665 個。。由此,因三份詞表所用詞匯單位不同,僅通過詞族/詞元轉換的方法比較其長度,未必完全可靠。

表1 三份詞表基本信息

覆蓋率的高低是詞表是否具有代表性的直接體現。 從三份詞表開發者匯報的覆蓋率看,MAWL對自建語庫的覆蓋率為12.24%,MWL 為10.72%,MAVL 對兩個自建語庫的覆蓋率分別為19.44%和20.18%。 MAVL 的開發者還檢驗了MAWL 在他們的兩個自建語庫中的覆蓋率, 分別是10.52%和12.97%[8]。 從以上數據看,前兩份詞表的覆蓋率較為接近,第三份詞表則幾乎是前兩份的倍數。然而,由于用于生成和檢驗三份詞表覆蓋率的語料庫并不相同,僅從各自匯報的數據難以斷言覆蓋率的高低。 事實上,詞表的形式特征和覆蓋率不足以判斷詞表的科學性,還需要追溯生成詞表的語料構成及選詞標準。

(二)語料構成

三份詞表的研究者均構建了較大規模的語料庫,所選語料涵蓋了眾多醫學分支領域,見表2。 三者當中,生成MAWL 的語料庫容量最小,但也超過了百萬詞,語料來源為96 篇Science Direct 在線數據庫中的醫學學術論文, 涵蓋32 個醫學分支領域(每個領域選取3 篇論文),論文作者均為英語母語者。 生成MWL 的語料庫規模最大, 達到1500 萬詞,語料來源為155 本醫學專業教材,涵蓋31 個醫學分支領域(每個領域選取5 本教材)。MAVL 的研究者構建了兩個語料庫,一是用于生成詞表的學術論文語料庫(MAEC),庫容為270 萬詞,語料來源是在Elsevier 期刊庫收藏的SCI 醫學期刊中隨機選取38 份刊物后從中選取的760 篇學術論文(每份刊物選取20 篇論文), 涵蓋21 個醫學分支領域; 二是用于驗證詞表覆蓋率的教材語料庫(MTEC),庫容為350 萬詞,語料來源是牛津大學出版社發行的3 卷本醫學教材,共33 章,涵蓋所有醫學分支領域。

表2 三份詞表的語料構成一覽表

三個語料庫雖然庫容大小不一,但用于生成詞表的語料都具有代表性,MAWL 和MAVL 的語料來源都是通過分層隨機抽樣獲得的醫學期刊論文。MWL 的語料來源與其他兩份詞表不同, 未采用期刊論文,而是醫學專業教材,其理由是醫學專業本科生在學習期間以閱讀教材為主, 而非學術論文,也有其合理性。三份詞表的語料來源涵蓋了醫學的主要分支領域。 盡管MAVL 的研究者構建的詞表生成語庫MAEC 涵蓋的領域為21 個, 比另兩份少,但若所得詞表在驗證參照語庫MTEC 中有較高覆蓋率,則語料代表性也不構成問題。實際上,構建詞表驗證參照語庫的做法已經為詞表研究者所推崇,Coxhead 的相關研究[10]即為明證。 簡而言之,三份詞表的研究者構建的總體語料庫滿足生成詞表的語料需求。

(三)選詞標準

MAWL 和MWL 的研發者均采用Coxhead 開發AWL 所設置的三個詞匯篩選指標[5],即專業特性(Specialized Occurrence)、覆蓋范圍(Range)和頻次閾值(Frequency),但設置的篩選標準稍有不同,見表3。 在專業特性方面,兩個詞表研發者所用的通用詞匯參照詞表不同, 前者以GSL2000 為參照排除通用詞匯, 后者則以BNC3000 為參照排除通用詞匯。 兩者設置的覆蓋范圍相同,均要求入選詞匯涵蓋半數以上的分支領域。兩者設置的頻次閾值差異較大,前者參考Coxhead 開發AWL 的標準[5],要求入選詞匯在總體語庫中出現的頻次不少于30 次①生成MAWL 的語料庫容量為100 余萬詞,是生成AWL 的語料庫容量(350 余萬詞)的三分之一,故MAWL 開發者取AWL 頻次閾值(100 次)的三分之一,設置為30 次。,后者并未以AWL 的標準為參照, 而是以MWL 與BNC3000 及專有名詞列表組合后的覆蓋率必須達到98%為最終目標,反復調試詞匯的頻次閾值,將其設定為863 次。

MAVL 的研發者設置了6 個詞匯篩選指標,除D 值(Dispersion,即離散度)外,其他5 個指標均可納入Coxhead 設置的三個指標,見表3。 從表3 可知,MAVL 開發者設置的覆蓋范圍與另兩份詞表一樣,但對專業特性和頻次閾值兩個指標做了更加精細的處理。 在專業特性方面,MAVL 的開發者并未參照通用詞表排除通用詞匯,而是借鑒詞表研發的新方法[12],首先觀察詞匯在總庫和子庫中的頻次比例,要求入選詞匯在總庫中出現的頻次不超過其在任意3 個子庫中出現的期望頻次的3 倍,以確保入選詞匯是醫學領域通用的詞匯,而非某個醫學分支領域的專用詞匯; 在此基礎上, 開發者在參照Brezina 和Gablasova 研制的new-GSL[13]及醫學英語詞典排除非醫學通用詞匯。 在頻次閾值方面,開發者首先參照AWL 的閾值,將之換算為28.57 次/百萬詞,先后在兩個語庫中選取符合最低閾值要求的詞匯, 然后又以BNC 非學術語料庫的詞頻為參照, 進一步篩選在自建語庫中出現頻率高出在BNC 非學術語庫出現頻率50%以上的詞匯, 其目的在于排除在醫學語篇中出現的高頻通用詞匯,從而選出具有代表性的醫學詞匯。

表3 三份詞表的選詞標準

三份詞表開發者設置的選詞標準,MAVL 最為嚴謹,在專業特性和頻次閾值兩個方面都設置了雙重標準,而且還增加了離散度這一指標,以保證入選詞匯在各子語庫中分布均勻。 值得注意的是,三份詞表開發者用于排除通用詞表的通用詞表并不相同,MAWL 參照的是歷史較久遠的GSL 詞表中的2000 高頻詞,MWL 參照的是BNC 詞表中的3000 高頻詞,而MAVL 則是新近開發的new-GSL。三者采用的參照詞表都具有權威性,但是對通用詞匯設置的門檻不一樣,MAWL 僅排除GSL2000 高頻詞, 導致生成的詞表中仍有較大比例的通用詞匯,而且與通用學術英語詞表AWL 有較高的重合率,這也是MWL 開發者之所以研制新詞表的緣由之一[7]。 MWL 開發者采用BNC3000,因此過濾了較多通用詞匯, 這也部分解釋了MWL 比MAWL 所含詞匯數量少的原因。MAVL 開發者并未首先參照通用詞表排除通用詞匯,其理由是在醫學文本中出現的高頻通用詞匯可能具有醫學意義[8];理論上,結合通用詞表和醫學詞典排除非醫學通用詞匯的做法可以增強詞表的代表性,提高詞表的覆蓋率。

三、討 論

鑒于醫學英語課程的詞匯學習負擔十分沉重[10,14],研發具有代表性的醫學英語詞表是十分必要的,這方面的努力勢必持續下去。 從不同詞表中選出適用的詞表, 可以幫助教學人員明確教學目標,提高教學效率。

(一)根據教學目標選用合適詞表

從上文對三份詞表的基本樣貌、 語料構成和選詞標準的比較分析可知,由于詞表開發者用于建庫的語料不同,語料庫規模不一,而且設置的選詞標準存在差異,因而詞表的內容、長度及覆蓋率存在差異。 實際上,造成詞表差異更深層的原因是開發者對詞表設定的目標,即服務于何種教學目的。 開發者是根據詞表目標構建語料庫和篩選詞匯的。 因此,教學人員應首先判斷詞表目標與教學目標是否一致,從不同詞表中選擇適用的詞表。

從三份詞表的名稱可以看出,MAWL 和MAVL定位于服務醫學EAP 的教學, 因此開發者用于生成詞表的語料庫由學術論文構成;而MWL 定位于服務醫學專業本科生的ESP 課程教學, 故語料庫由醫學專業教材構成。三份詞表開發者設置的選詞標準,也受制于詞表目標。 開發者都試圖選出能夠體現醫學學科共性的詞匯,因此盡可能排除無法體現醫學和通用文本特征的通用詞匯。 但是,開發者排除通用詞匯的方案有差異。 比如,MAWL 的開發者將GSL2000 高頻詞排除在外;MWL 的開發者則認為GSL2000 門檻過低, 由此得出的詞表包含較多通用詞匯,故而參照BNC3000 排除通用詞匯;而MAVL 的開發者為了避免將帶有醫學意義的通用詞匯排除在外,所以另辟蹊徑,結合new-GSL 和醫學詞典排除不具有醫學意義的通用詞匯。盡管理論上MAVL 的選詞標準和方法能夠確保把具有醫學意義的高頻詞匯選入詞表,但是這些詞匯在通用語域和醫學語域中的用法可能重合或高度相似,因此,在詞表使用過程中,還是應根據學習者的水平和需求及具體的教學內容和目標對這些詞匯靈活處理,做到因地制宜、因材施教。

(二)采用第三方語料庫驗證詞表

從上文對三份醫學英語詞表的比較分析,可以看出語料庫驅動范式學術英語詞表開發的基本走向:一是建庫的規模逐漸壯大,二是選詞的標準越來越嚴密。 計算機硬件和軟件的不斷升級迭代,為構建大型語料庫、 實施復雜選詞運算提供了方便??梢灶A見,將來會繼續涌現從更大規模語料庫精選出來的、覆蓋率更高的詞表。 然而,面對多份詞表,盡管教學人員可以根據詞表目標、語料來源和選詞標準從中選出適用于教學目標的詞表,但是,以詞表研發者匯報的研制過程和基本數據為判斷依據未必是萬全之策。

如前所述,MAVL 的開發者使用自建語庫比較了MAWL 和MAVL 的覆蓋率, 盡管數據顯示后者大大超越前者, 但是兩份詞表的生成語庫不同,使用其中一份詞表的生成語庫比較該詞表與另一詞表的覆蓋率,有可能出現偏好問題。因之,有研究者嘗試根據教學目標構建第三方語料庫,對兩份同類詞表進行驗證。 比如,有研究者[15]就將一門課程所用教材的50 篇課文匯集為語料庫, 比較了AWL與AVL 兩份學術英語詞表的覆蓋率。 這樣的驗證方法不但可以有效避免上述語料偏好問題,也有助于在不同詞表之間做出合理的選擇。

另外, 對三份醫學詞表的比較分析顯示三份詞表開發者在通用詞匯是否入選詞表方面有不同見解,因而設置了不同的遴選標準。 關于通用詞匯是否選入醫學詞表的問題,有研究者[16]曾提出不宜僅以其在通用詞表中的位次或頻率高低為依據,而還應深入考察其在醫學語料庫中的共選特征,從而做出更為精確的判斷。 觀察詞匯在搭配、類聯接、 語義趨向和語義韻多個層次的共選特征是否因語域不同而出現差異, 不失為驗證學術詞表效度的有效途徑。

四、結 語

新形勢下,ESP/EAP 教學已經成為我國高校英語教學的重要組成部分。 ESP/EAP 教學探索始于制定合理的教學大綱,而參考詞表又是教學大綱不可或缺的內容。 因此,開展ESP/EAP 詞表的開發和研究十分必要。 經過長期探索,語料庫驅動的詞表開發已經形成一套成熟的范式。詞表研發者可以參照該范式構建較大規模的語料庫,設置嚴密的選詞標準,生成符合目標的詞表。面對多份類似詞表,教學人員可以結合教學目標自建語料庫或采用第三方語料庫,比較詞表的覆蓋率,同時觀察詞匯在通用語域和目標語域的共選特征,決定是否將詞表中的通用詞匯納入教學范圍。 當然,借助語料庫研制和選擇服務于課程教學目標的詞表只是在教學實踐中應用語料庫的一種方式,教學人員還可以參照個體課文驅動和具體詞網驅動范式,構建服務于課文教學目標和輸出技能提高的教學詞表。

猜你喜歡
詞表選詞覆蓋率
民政部等16部門:到2025年村級綜合服務設施覆蓋率超80%
編制受控詞表的著作權侵權風險及其應對策略
我國全面實施種業振興行動 農作物良種覆蓋率超過96%
選詞寫故事
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
近十年國內外專業學術詞表建立文獻綜述*
選詞填空好方法
電信800M與移動聯通4G網絡測試對比分析
讀一讀,選詞填空
2015年湖南省活立木蓄積量、森林覆蓋率排名前10位的縣市區
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合