?

重讀OSTI搭配研究報告*

2020-02-22 21:50安徽工程大學劉運鋒
語料庫語言學 2020年2期
關鍵詞:詞項語言學語料庫

安徽工程大學 劉運鋒

提要:OSTI報告記錄了Sinclair團隊在20世紀60年代進行的語料庫搭配基礎研究,是語料庫語言學研究的寶貴文獻,但1970年完成后只是小范圍流傳,直到2004年才公開出版。該版增加了Teubert對Sinclair的訪談,訪談內容以今天的技術和理論發展視角審視40年前的搭配研究,對于理解意義單位等相關概念發展有重要作用,但國內文獻沒有對該報告進行過系統論述。本文借助該訪談內容重讀OSTI報告,梳理該報告的研究背景、主要內容,并評述其創新性和局限性,目的是進一步了解OSTI項目在語料庫語言學實踐和理論發展中的地位與價值,認識語料庫驅動語言學理論萌發、產生、發展的脈絡。

1.引言

搭配作為詞語組合是語言學研究的重要內容之一。結構主義語言學從語法結構上研究搭配,語義學從語義特征上研究搭配,語料庫語言學通過詞語共現研究搭配,認知語言學通過認知構式研究搭配。不同學派采用不同路徑解釋詞語組合現象,豐富了我們對搭配的認識。關于搭配,有兩本“不易得到的”(simply not available)重要研究報告(Williams 2005:257):一個是“搭配研究第二次中期報告”(Palmer 1933),另一個是“OSTI研究報告”(Sinclairet al.1970)。前者是20世紀30年代Palmer在日本利用搭配進行英語教學的研究報告,是外語教學中搭配研究的重要成果,對牛津學習者英語詞典編寫有很大影響。Palmer的搭配研究主要集中在外語教學,沒有采用語料庫研究搭配,也沒有將搭配作為技術性術語;搭配不僅是英語學習中的一個重要概念,還是語料庫研究的基本分析單位(李文中 2019:7)。后者是Sinclair團隊在20世紀60年代進行的語料庫搭配基礎研究報告,該研究繼承和發展了Firth語言學思想,對COBUILD詞典編寫和語料庫語言學理論產生與發展奠定了實踐基礎。該報告完成35年后才公開出版,并在前言部分增加了Wolfgang Teubert對Sinclair的訪談,是我們理解語料庫語言學搭配基礎研究的重要文獻。國內鮮有對OSTI項目研究的系統介紹,本文從語料庫語言學角度介紹和評述Sinclair團隊的搭配研究報告,以便進一步了解和認識OSTI搭配研究在語料庫語言學發展中的地位和價值。

2.OSTI項目研究背景

OSTI報告的全稱為The Report for UK Government Office for Scientific and Technical Information,是Sinclair團隊在1970年為英國政府科技信息辦公室提交的搭配研究報告。OSTI項目的目的是利用語料庫方法通過搭配研究詞語意義。項目設計得到McIntosh、Halliday和Wexler的指導,Sinclair任項目首席調查員。項目研究始于1963年,得到福特基金會的短期資助,1964年由愛丁堡大學科學和工業研究部(The Department of Scientific and Industrial Research,DSIR)資助。語料的收集、轉寫等前期準備工作主要在愛丁堡大學和倫敦大學學院完成。1965年,Sinclair離開愛丁堡大學到伯明翰大學任教,該項目于1965年9月到1967年1月暫時擱置。1967到1969年,在英國科技信息辦公室的資助下繼續進行,最后于1969年9月結束。整個項目用時六年(1963、1964、1965、1967、1968、1969),研究報告English Lexical Studies:The Final Report of the Project C/LP/08于1970年1月完成并提交。

報告中的搭配研究方法與實踐對語料庫語言學的產生和發展具有至關重要的作用,但該報告只作為印刷本在伯明翰大學英語系內部流傳,沒有正式出版。1987年,Sinclair(1987)在Looking Up一書中提及該報告。該報告猶如一只“神秘的怪獸”(a mythical beast),大家只聞其聲,不見其形(Williams 2005:257)。2000年,在伯明翰大學為Sinclair舉辦的退休宴會上,Krishnamurthy提議正式出版該報告,得到Sinclair的同意和Teubert的支持,最終于2004年公開出版(Sinclairet al.2004)。該書由Krishnamurthy作序,增加了Teubert與Sinclair的訪談,其余內容與1970年的印刷本一樣。

長達13頁的訪談內容是本書的重要部分。通過回答Teubert的問題,Sinclair采用回顧性視角審視和反思40年前的語料庫搭配研究。從中我們可以了解到OSTI項目研究更多的理論和技術背景。20世紀60年代初,生成語法利用語言直覺和內省數據進行語言研究成為重要的研究范式,而收集真實數據,建立電子語料庫進行詞語研究才剛剛起步。語言研究傳統中,語法一直占主導地位,詞語只是例示或說明語法規則的附屬物,詞語研究沒有現成理論可借鑒。雖然Firth的多層級意義分析模式和搭配擇義理論(Firth 1957)為詞語研究帶來啟示,但意義分析模式只停留在概念層面,不具有可操作性,而且搭配產生意義還只是一種“猜測”(speculative)(Sinclairet al.2004:xvii),需要真實數據驗證。此外,Firth研究搭配對單個詞意義的影響,不關注搭配組合的整體意義。詞語研究的問題是不知道從哪里入手(同上:3),Sinclair從頭開始,利用語料庫探索性地通過搭配觀察詞語意義。受技術條件限制,OSTI項目利用13.5萬詞次的口語語料研究詞語搭配不足以揭示詞語使用型式,但這已達到當時伯明翰大學KDF9電腦的最大儲存和處理能力(Sinclairet al.1970:24)。在這樣的背景下,Sinclair團隊設計統計軟件,界定相關概念和術語,提出研究方法,進行了開創性的探索工作,對今天的語料庫語言學研究依然具有指導意義。

3.OSTI報告主要內容

OSTI正文內容分為7個部分。

第一部分包括專業術語的界定、愛丁堡大學與伯明翰大學的項目執行情況,以及將來研究期望。研究一開始就斷言,詞語單位在大部分情況下都不可能是單詞,于是提出一系列術語。詞項(lexical item)是表述特定意義的語言單位,它不總是通過正字法單詞來識別,它還可以采取如下形式:(1)語素,如going分為兩個語素go/ing;(2)同形異義詞,如ball表示球或舞會;(3)一組聚合聯系的詞語,如kick、kicks、kicking、kicked;(4)一組組合聯系的詞語,如run to seed。與詞項相對的一個概念是語法項(grammatical item),指在文本中體現語法功能而非意義的語言單位,如the、a、and和語素-ing、-ed、-s等。搭配指兩個項目在文本內一定環境內的共現。OSTI項目對詞語的研究還不完整,對以后的研究提出很多基本問題,其中最大的問題是文本的選擇和處理。

第二部分介紹OSTI研究使用的語料,主要包括13.5萬詞次的即時會話、100萬詞次的布朗語料庫、1.2萬詞次的科技文本、1.3萬詞次的實驗模擬數據。

第三部分論述顯著性搭配,包括樣本與取樣、跨距設定、顯著性水平測試等。Sinclair采用Herdan(1960)的type、token術語,并提出和界定node、span、span position等術語。實際操作中,將最佳跨距限定為±4。在某一跨距位置上檢驗搭配顯著性,目的是找出位置固定和位置靈活的搭配詞。

第四部分討論語法詞、半語法詞(semi-grammatical item)。大多語言描寫區分語法性(grammaticality)和詞語性(lexicality),前者稱為語法詞,后者為詞語詞。Sinclair分別稱其為語法項和詞項。實際上,很難對兩者進行清晰的劃分。Halliday認為,兩者的區分與頻數有關,從最語法的到最詞語的之間存在一個連續統,任何一個項目在連續統上的位置與它的總體頻數排序相對應。語法詞的搭配是中性的,很難預測它的使用環境(Halliday 1966:155)。Sinclair語料庫研究則證實,語法詞不是搭配中性,每一個語法詞在設定跨距內均有顯著搭配,而且隨著頻數增加,語法詞會吸引更多的顯著搭配詞。Sinclair將口語中高頻使用的know、think、mean等詞語詞稱為半語法詞,它們高頻出現并不是完全基于詞語詞的力量,也受語法詞的影響。這說明它們作為行為異常的詞語詞,在口語文本中有特定的功能。OSTI語料相對較少,但高頻出現的語法詞和半語法詞足以揭示它們的使用型式。Sinclair認為,語法詞和半語法詞是詞語研究的一個問題,解決這個問題的關鍵是清楚地定義語法搭配的特點,這是真正揭示詞語行為的重要一步。

第五部分論述詞語詞的搭配型式,包括數據收集、搭配信息分析、搭配位置及搭配統計分析。詞語詞之間的搭配可以發生在任何語法結構中,搭配詞語位置較為靈活。詞語詞與語法詞的搭配則受語法詞和節點詞詞類管制,詞語位置相對固定。詞語詞的搭配型式可以通過統計的和語言學的兩個不同的方法獲得。顯著性檢驗可以區分規律搭配和任意搭配,語言學方法可以辨別語法和詞語對搭配型式的影響。所有的顯著性搭配都要考慮統計和語義的因素,因為搭配是基于文本、主題和環境的??疾煸~語詞的目的是希望獲得詞語詞的搭配信息,以便更好地理解詞語作為語言組織原則的知識。

第六部分論述如何識別詞項,包括習語。在第一部分Sinclair提出并界定詞項,它可以是一個語素、同形異義詞、聚合聯系詞、習語。英語中很多單個詞是多義的,詞項識別的標準是搭配型式,因為每一個詞語都有顯著的搭配型式。Sinclair對詞項的識別是探索性的、客觀的、量化的,但意義始終是重要的識別要素。

第七部分論述搭配強度。Sinclair使用顯著性統計手段,對比各種定理和檢驗方法的優缺點。從統計上,如果兩個或多個詞語共現是顯著的,這只說明偶然共現的概率很小,但從語言學上不能說明詞語共現的語義相關性。如of the、in a在統計上是顯著搭配,但沒有語言學意義。語言使用不是隨機的、偶然的,而是受目的驅動的,人們經常發現,文本中詞語共現的實際頻數是基于統計的期望頻數的很多倍,Sinclair也質疑這些統計檢驗,并失去對統計程序的最初信心(Sinclairet al.2004:xxii)。這說明,詞語意義研究需要結合統計檢驗和語義相關性進行搭配分析。

4.OSTI研究報告評述

OSTI項目利用電子語料庫對搭配進行實證研究,提出相關概念或術語,設定搭配研究相關參數,區分語法型式和詞語型式,探索節點詞和搭配詞的位置關系以及搭配統計分析方法,在當時的技術和理論背景下具有開拓性和創新性,具體體現在以下方面。

(1)將Firth的搭配定義從概念層面實現為語料庫搭配研究的實際操作,并利用統計方法進行搭配顯著性檢驗,相對于直覺例子,真實數據和統計分析更具有說服力;

(2)通過語料庫驅動方法質疑了Firth的搭配意義“選擇說”(selective)(Sinclairet al.2004:xxi),并修改了Halliday的語法詞搭配“中性說”(Halliday 1966:155),可以說,“搭配作為一種研究范式,真正改變了我們看待語言的方式”(Williams 2005:257);

(3)通過建立方法論,關注詞語而非語法,或通過詞語關注語法,奠定了語料庫驅動研究的基礎,標志著“語言學研究從語法結構分析到詞語搭配分析的重大轉變”(李文中 2017:84),推動了語料庫語言學理論的產生和發展。

OSTI項目13.5萬詞次的口語語料對于詞語搭配研究來說,具有一定的局限性,但重要的是,建立了搭配研究的重要方法與原則(Jone &Sinclair 1974:18)。很多人認為語料庫語言學源于Firth的學術思想,但是OSTI報告將Firth的研究范式改變成我們今天語料庫語言學使用的范式,這是OSTI搭配研究的重要價值。

同樣,由于技術和理論發展階段的限制,OSTI研究報告也存在如下時代局限性:

(1)OSTI項目的最初目的之一是根據詞語的搭配型式建立詞項集合或詞語集,但使用的口語語料庫相對較小,語法詞和半語法詞很多,不足以發現足夠的詞語型式,因此沒有完成詞語集建設(Sinclairet al.1970:21)。

(2)報告中認為,詞項可以實現為語素、同形異義詞、聚合聯系詞語、習語??梢?,當時Sinclair還沒有完全放棄單個詞作為意義單位的想法,或者說他對意義單位是一個短語而非單個詞的認識還不是很清晰。

(3)搭配強度分析中,統計模式是必要的,但統計只是達到目的的一種手段,語料庫搭配研究中既要有統計上的顯著性分析,也要有語言學上的語義相關性分析。

(4)OSTI項目形成了語料庫語言學研究的基本操作方法與原則,但沒有提出系統的理論,也沒有形成語料庫語言學思想(Stubbs 2011:6)。

在OSTI研究中,Sinclair發現了詞語單位與意義單位之間存在關系,這是共選理論的萌發階段。遺憾的是,由于技術條件限制,Sinclair在OSTI項目完成后的整個70年代都沒有從事語料庫研究,語言學理論探討被擱置了。在80年代的COBUILD項目中,Sinclair才開始正式思考意義單位;在90年代提出語言使用的“習語原則”和“開放選擇原則”(Sinclair 1991)、“擴展意義單位模型”(Sinclair 1996)和“詞語語法”(lexical grammar)(Sinclair 2000);2000年后,提出“語境共選連續統”(Sinclair 2004)、“短語理論框架”(Sinclair 2008)和“局部語法”(Sinclair 2010)。Sinclair從OSTI項目以搭配入手研究詞語意義,然后進行以搭配為核的擴展意義單位分析,直到在局部語法中結構化描寫以搭配為核的意義單位,隨著技術的發展,搭配研究思想逐漸深入,同時對意義單位、詞項等術語的認識也有了發展變化,形成了語料庫語言學系統的學科理論基礎。

最后回到Teubert與Sinclair的訪談,用現在的技術和理論發展回顧40年前的語料庫搭配初始研究,可以清晰地認識到OSTI報告的創新性及其局限性。今天,我們重溫該報告的內容,目的是了解早期語料庫搭配研究的基礎性工作,更重要的是理解語料庫語言學理論萌發、產生和發展的脈絡,以便將來沿著理論主線推動語料庫語言學研究向縱深發展。有些術語或概念會隨著理論發展進行調整,但調整并不意味著理論的沖突或修改,調整的目的是逐步系統地建構語料庫語言學理論,如“搭配”“詞項”概念及對“意義單位”的認識在OSTI報告中和今天的語料庫語言學中就有很大的發展變化。

猜你喜歡
詞項語言學語料庫
體認社會語言學芻議
《復制性研究在應用語言學中的實踐》評介
《語料庫翻譯文體學》評介
自然種類詞項二難、卡茨解決與二維框架
《神經語言學和心理語言學視角下的二語習得》述評
形式邏輯教學中需要深究并辨識的幾對概念
語料庫驅動下的外語詞匯教學
基于JAVAEE的維吾爾中介語語料庫開發與實現
語篇元功能的語料庫支撐范式介入
社會語言學名詞
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合