?

個性化虛擬語料庫及其應用

2017-05-18 20:33劉喜琴
中國信息技術教育 2017年9期

摘要:個性化虛擬語料庫是大數據時代應運而生的新興工具,在語言教學與研究中應用前景廣闊。它是以現有語料庫或互聯網語料為基礎,根據個性化需求臨時創建的專題語料庫。本文以美國楊百翰大學維基百科英文語料庫為例,介紹了如何創建、編輯、管理和使用個性化虛擬語料庫,包括其檢索方法,闡述了如何從中挖掘利用語言教學和詞典編纂所需的各類詞表,并探索了其在專門用途英語教學中的應用,最后提出了如何有效利用該類資源的建議和展望。

關鍵詞:個性化虛擬語料庫;維基百科語料庫;詞表;專門用途英語教學;??圃~典編纂

中圖分類號:H319.3 文獻標識碼:B 論文編號:1674-2117(2017)09-0096-05

近年來,語言教學與研究正日益廣泛地用到語料庫(corpus)資源。用戶可在現成正規語料庫或互聯網語料的基礎上,根據自身需求臨時創建專題語料庫,即個性化虛擬語料庫(customized virtual corpus)。這兩種語料來源各有優缺點,現成的正規語料庫制作規范,標注與統計功能強大,但由于是靜態資源,語料庫容量有限,所以在建成之初其語料就已經“過時”。而互聯網語料實際上是大數據時代的“網絡語料庫”(web as corpus,又譯作“以網絡為語料庫”),它主要通過Google等搜索引擎來收集最新語料,其中以英國伯明翰城市大學的WebCorp等為代表,但由于受到搜索引擎功能的限制,缺乏正規語料庫的標注和統計功能,所以它往往無法按語言工作者的需要精確檢索到語料。

美國楊百翰大學(Brigham Young University)Mark Davies教授于2015年發布了具有開放性和動態性的維基百科英文語料庫平臺(The Wikipedia Corpus)。它為用戶專門設置了創建個性化虛擬語料庫的功能,這克服了“網絡語料庫”的目的性和針對性不強的缺點,同時又具有正規(靜態)語料庫的語料處理功能。該庫用戶可根據所需主題,檢索相關內容的語料,臨時聚合語料并分類管理,從而創建個性化的專題(子)庫(劉喜琴 & Davies, 2017)。與Sketch Engine等提供的虛擬語料庫功能相比,該庫創建、管理和使用起來更加靈活方便,進一步降低了用戶的技術門檻,因而具有廣闊的應用前景。目前,該庫語料來源于所有英語國家,庫容達190億個詞,含4,400,000個文件。雖然容量巨大,但檢索速度很快,是Sketch Engine的五六倍。其優勢還體現在它的語料檢索功能遠遠超過維基百科原有系統,而且與學校其他十多個免費權威語料庫(如COCA、COHA、BYU-BNC等)實現了無縫對接(Davies, 2015)。

眾所周知,維基百科專業性強、規模大、應用廣,具有很高的自然語言研究價值,因此引起了國內外學者的普遍關注(趙飛等,2010),如挖掘雙語語料以建造雙語平行語料庫等(孟桂國,2010;胡弘思,2013)。在國外,個性化虛擬語料庫已逐步應用于語言教學與詞典編纂等方面(Avinesh et al,2012),但國內學界對其仍比較陌生,本文嘗試以維基百科英文語料庫為例,探索如何將其應用于個性化教學等方面。

個性化虛擬語料庫的創建與管理

登錄楊百翰大學的維基百科語料庫網站(http://corpus.byu.edu/wiki/),可看到“Create corpus”按鈕,點擊即可進入創建頁面。在“Title word(s)”(標題框)中輸入包含在文檔標題中的字符串,底下四個框還可以分別設置標題或網頁中要包含或剔除的字符串,以及網頁數量(pages)。例如,我們想創建一個關于圣誕節的專題庫,通過網頁查詢Christmas后,發現需要過濾掉一些有關歌曲或電影的網頁??梢韵仍跇祟}框中輸入Christmas,然后在“(Optional)Words not in title”框中輸入“song film”,在“(Optional)Words not in pages”框中輸入“movie film television”。

同時,也可以在建好的專題庫中建立更小的子庫,如想在BIOLOGY庫下面建立STEM CELL子庫,只需在BIOLOGY庫中查詢字符串“stem cell”,就能將系統自動顯示的網頁保存建庫。

建好庫后不僅可以對自建庫進行編輯管理——從屏幕右邊的自建庫管理窗口開始進行各種操作,如將某庫刪除(delete)、隱藏(hide)、恢復隱藏等,還可以對各庫順序進行重排或重命名(rename),或對各庫進行分類(regroup)并對類別進行命名。如下圖所示,BASTKETBALL、BIOLOGY和INVESTMENTS三個專題庫分別歸在Sports類(Sp)、Science類(Sc)和Finance類(Fi)。

楊百翰大學語料庫的檢索方法

語料庫檢索方法是其使用過程中的關鍵,在語言教學、詞典編纂和語言研究中也比較重要。楊百翰大學的語料庫系統界面友好,查詢方便,檢索方式多樣,檢索功能強大。

1.簡單檢索

首先,用戶需要了解一些基本的通配符(正則表達式),如*、?等,以及基本的統計學概念,如頻數、互信息值、關聯度等。輸入字符串有嚴格的規定,可參看其網站介紹。查詢一個單詞時中間不要隨意加空格,否則會被默認為兩個連續的單詞。如果要限定單詞的詞性(詞類),可在單詞后面加一個點,然后加中括號,將詞性標簽放入中括號內。點的前面和后面都不能有空格,否則會被視為兩個連續的單詞。如果要進行近義詞檢索和用戶定制清單,則需要查詢所匹配單詞的所有屈折變化形式,只需在中括號外另加一對中括號,也可選擇詞目及詞性。例如,鍵入s?ng*,則代表要查詢song、singer、songbirds等單詞(通配符問號代表一個字母)。如果想查詢suggestive后面一般接哪些介詞,在檢索框中鍵入suggestive,POS LIST選擇prep.ALL即可。

如果要在自建庫中查詢詞頻表或詞組頻數表,則在自建庫管理窗口中點選“FIND KEYWORDS”;如果要分類型來查,單詞可查名詞、動詞、形容詞和副詞四種,詞組可查“名詞+名詞”“形容詞+名詞”兩種,按需點擊相應按鈕即可;如果要拿整個維基百科語料庫作為參照,查詢自建庫的主題詞(又稱關鍵詞,但實際上不同于被查詢的字符串“語境中的關鍵詞KWIC”),此時應點選“SPECIFIC”。

2.高級檢索

這里主要介紹句法檢索和搭配詞檢索。

維基百科語料庫的句法檢索比較強大,像ADJ/NOUN+fund或者market+NOUN這類檢索,無需逐個輸入確切的詞組,只用一次性輸入,僅需幾秒鐘時間,這是一般的語料庫系統無法做到的。

在查詢界面(SEARCH)可找到搭配詞(COLLOCATES)按鈕。查詢搭配詞時需要在兩個選擇框中設置左右位置的范圍。兩個選擇框中的左框表示搭配詞在目標字詞左邊(L)出現的最遠位置,右框(R)則相反,默認情況下均為前后4個詞的距離范圍。如果想查詢market后面常接哪些名詞,可以在查詢框中輸入字符串“market”,然后點擊詞性下拉菜單(POS),選擇“noun.ALL”。如果想查詢哪些名詞附近常用wear,或laughter附近常用哪些動詞,可以輸入“[wear]+a NOUN”或“VERB+his laughter”。如果想查詢動詞后面接介詞of并且該結構位于句尾的情況,可以在查詢框中鍵入查詢表達式of.(of后面加一個空格,再加一個英文句號),POS框選擇verb.ALL,COLLOCATES框選擇1L和0R,就可以查到think、heard、know、made、speak、dreamed、rid等動詞形式(劉喜琴,2013)。

各類詞表的挖掘利用

語料庫輔助語言教學最明顯的優勢體現在詞匯方面,同時語料庫也是現代詞典編纂必不可少的工具。在語料庫檢索中,通常以檢索項為切入點,進而得到大量的檢索行,并通過語境來觀察檢索項的實際使用情況。但創建大規模語料庫的目的之一是希望能夠得到有關語言的宏觀認識,詞表技術即可實現此功能。

在語料庫語言學中,詞表(word list)是指詞頻表(frequency list),而不是簡單的單詞列表,這是詞典收詞立目的重要依據之一,當然還可以選擇按字母表順序(alphabetical)排列。如果孤立地觀察單詞,顯然無法解決語言中的眾多問題,所以有學者提出了詞簇(cluster)這個概念。詞簇是指在語料文本中反復出現的兩詞或兩詞以上的結構,又被稱為語塊(chunk)或多詞單位(multi-word unit)。雖然該類結構未必是語法和語義上完整的結構,但仍可觀察到詞匯的高頻搭配規律。要在維基百科語料庫的自建庫中查詢某類詞頻表或詞組頻數表,在自建庫管理窗口中點選單詞或詞組的類型即可,也可以將語料保存在本地,用語料庫軟件如AntConc(Anthony, 2014)等,提取任何類型的詞表和詞簇表,這樣就不會局限于維基百科語料庫提供的詞類和詞組類型。

如果要查詢自建庫的主題詞,系統默認用整個維基百科語料庫作為參照語料庫(reference corpus),這特別適合于語體比較、專門用途英語學習和??圃~典編纂。如果拿某個或多個文本跟別的文本相比,往往會發現其中有一些詞出現的頻率特別高,這些詞叫做主題詞或關鍵詞(keyword或key word)。通過觀察主題詞,可以發現某一給定文類或主題文本的詞語特征。例如,在旅游英語語篇中,ticket、booking、luggage、tour、guide、route、flight、coach等詞出現的頻率特別高,因此被視為主題詞。主題表中主題詞的頻率顯著程度(keyness)是根據對數似然率(log likelihood)或卡方檢驗(chi-square)計算出來的。主題詞提取后,我們可以對其進行分類整理,輔助文本分析與教學。

教師可以利用搭配詞表優化語塊教學,在教材與詞典中,應將高頻詞匯搭配優先呈現給學習者。語料庫語言學認為語言的核心是詞匯,頻率與搭配這兩個中心概念應該受到重視,如Sinclair的習語原則、Hunston的型式語法、Hoey的詞匯觸發理論等都支持該觀點。

專門用途英語教學中的應用

專門用途英語(English for Special Purposes,簡稱ESP)教學是目前全球英語教學的發展趨勢。目前,我國的ESP教學仍由英語教師來承擔,這往往會遇到學科制約的瓶頸。英語教師常需要查詢專門學科的英語語料庫,但實際上這樣的英語語料庫往往無法找到,所以教師有必要自建個性化虛擬語料庫,按專題來選擇語料并進行分類管理。教師應結合具體專業學科內容,在課堂活動設計、教材編寫等方面適當引入語料庫數據,兼顧國際化和本土化特色,以幫助學習者在真實語料信息中獲取專業知識,與國際學術前沿接軌(王健燕,2012)。

個性化虛擬語料庫應用于ESP教學,主要體現在專業詞匯、閱讀與翻譯教學上。利用個性化虛擬語料庫挖掘詞表、詞簇表和主題詞表,可以幫助學習者積累該專業的特色詞匯。維基百科語料庫為這些專業術語提供了詳細的定義與解釋,可以直接用作學習材料,如在電子詞匯表中制作有關術語的維基百科語料庫超鏈接,能讓學生使用起來非常方便。

在ESP閱讀教學方面,教師可按照具體學科的體系建立一個多層級的個性化虛擬語料庫系統,挑選最合適的閱讀材料提供給學習者。一個教學班的學生往往來自不同專業,因此需要根據其專業特點選擇不同的閱讀材料。而維基百科語料庫因其語料專業性強且更新快而在這方面特別有優勢。例如,我們建立一個BIOLOGY的專題庫,里面可分為ZOOLOGY(動物學)、BOTONY(生物學)、MICROBIOLOBY(微生物學)等子庫。學習者在閱讀中遇到專業術語等方面的困難,可以隨時查詢總庫或其他子庫資源。

教師還可以通過楊百翰大學語料庫網站的Word and Phrase主頁(http://www.wordandphrase.info/),獲取某篇閱讀文章的詞匯的宏觀與微觀信息。只需將干凈的文本(如txt格式)輸入其主頁所指示的框內,系統便自動呈現文本詞匯統計數據。統計表中的任何單詞都有鏈接,點擊就可以查看其頻率信息、定義、詞匯搭配情況等。

在ESP翻譯教學中,國外已有值得借鑒的先例(Avinesh et al, 2012),他們特別注重母語與目的語專業文檔的積累和對比學習,在找不到合適的平行語料庫(parallel corpus)時,個性化虛擬語料庫能進行一些補償。國內基于維基百科語料庫的平行語料庫建設,也能為教學應用提供啟示。教師還可以利用多語語料庫軟件ParaConc(Barlow, 2009)等處理和檢索自建庫的語料,輔助翻譯教學。

結語

在語言教學中,教師可以深化數據驅動學習法(Data-driven Learning),根據學生的英語水平、專業、興趣和需求篩選語料,引導學生掌握語料庫基本術語和復雜檢索所需的正則表達式,以提高其對個性化虛擬語料庫的利用程度,培養他們的自主學習能力。為了加深學生對外國文化的理解,教師可以引導學生查詢蘊含濃厚文化信息的關鍵詞,觀察其搭配詞的特點,探索話語社團的主流思想與社會文化形態的變化趨勢。

在詞典學研究與實踐中,維基百科語料庫與個性化虛擬語料庫特別適合充當??圃~典(specialized dictionary)編纂的輔助工具。在編纂過程中,詞典學家可以利用這類語料庫協助選條、挑選搭配等,從而驗證收錄在??圃~典中的術語和釋義的真實性(Tarp & 薛梅,2016)。

在技術方面,個性化虛擬語料庫還有待實現一些復雜的檢索功能,這主要取決于自然語言處理的瓶頸之一——語義標注技術的突破。隨著計算機科技的發展,相信“網絡語料庫”(web as corpus)會發展到“以網絡瀏覽器為檢索器”(web browser as concordancer),甚至是“以網絡瀏覽器為標注器”(web browser as tagger),即虛擬標注——服務器端的自動語言信息標注。

總之,個性化虛擬語料庫應用前景廣闊,但還有待語言工作者和技術人員不斷嘗試,大力推廣。

參考文獻:

[1]Anthony L. AntConc (Version 3.4.3)[DB/CP].http://www.laurenceanthony.net/software.html,2014.

[2]Avinesh P., D. Mccarthy, D. Glennon,et al.Domain specific corpora from the web: Proc EURALEX[Z].Oslo,Norway: 2012.

[3]Barlow M. ParaConc[DB/CP].http://www.paraconc.com,2009.

[4]Davies M.The Wikipedia Corpus[EB/OL].http://corpus.byu.edu/wiki/,2015.

[5]Tarp S., 薛梅.語料庫驅動詞典學、語料庫詞典學與語料庫輔助詞典學——論語料庫在注釋??菩g語詞條的局限性[J].辭書研究,2016(4).

[6]胡弘思.基于維基百科的雙語可比語料的句子對齊[D].上海:上海交通大學,2013.

[7]劉喜琴.語料庫輔助EFL自主學習的多維探索[M].廣州:華南理工大學出版社,2013.

[8]劉喜琴,M. Davies.BYU語料庫系統及其語言研究應用[J].中國教育信息化,2017.

[9]孟桂國.基于維基百科的雙語語料挖掘技術研究[D].蘇州:蘇州大學,2010.

[10]王健燕.論英語語料庫輔助下的學科專業英語(ESP)教學[J].南京航空航天大學學報:社會科學版,2012(1).

[11]趙飛,周濤,張良,等.維基百科研究綜述[J].電子科技大學學報,2010(3).

本研究得到廣東省哲學社會科學“十二五”規劃項目(GD15XWW23)和2016年度廣州市哲學社會科學發展“十三五”規劃課題(2016GZGJ68)的資助,感謝吉林師范大學李亮博士的技術指導。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合