?

從全文檢索到語言計量和語言智能*
——語料庫研究應用的三個層次及資源

2024-01-24 06:27張藝璇馮敏萱
外語研究 2024年1期
關鍵詞:句法語言學語料庫

李 斌 張藝璇 馮敏萱

(南京師范大學文學院,江蘇南京 210097)

0.引言

語料庫是語言學研究的重要基礎資源??v觀語料庫發展歷史,計算機技術的發展推動著語料庫建設和研究不斷深入。語料庫的興起得益于計算機技術的進步,由紙質文本轉換為電子文本,給語言的儲存和計算帶來了極大便利。語言研究需要語言材料為研究對象,在電子語料庫出現以前,卡片式的摘錄和統計已經是語言研究的基本方法之一,可以看做是現代語料庫方法的雛形。而大規模電子語料庫的出現,為語言研究開辟了更廣闊的研究空間。隨著研究需求的擴大,語料庫研究呈現精細化、多樣化的特點,語料庫的類別也愈加豐富多樣。

截至目前,語料庫已經歷了三個發展階段。20 世紀60 年代,第一代電子語料庫的典型代表為BROWN 語料庫,除了標注原始語料的元數據,如作者、寫作時間、體裁等,一般對語料內容幾乎不作標注,規模大多為百萬詞次。20 世紀80 年代,第二代電子語料庫規模開始擴大,常常達到千萬詞次,甚至上億詞次,典型代表為COBUILD 語料庫。這一階段對于語料的標注也更為深入。20 世紀90 年代,由于語料庫的簡單標注已不能滿足語言研究的需要,且面對語言智能中機器學習算法對高質量語料的迫切需求,第三代電子語料庫以賓州樹庫為代表,開始逐漸探索句法、語義和篇章等語言信息的深度標注。伴隨計算機算力的不斷提高,標注內容的不斷深入極大地豐富了語料庫的規模、深度和模態,推動語料庫的構建與應用研究不斷創新。

學界從諸多不同角度對語料庫進行了分類:從語料選取時間角度,可分為歷時語料庫與共時語料庫,如“CCL 語料庫”即為典型的歷時語料庫;從語料庫的內容角度,可分為平衡語料庫與自然隨機語料庫,如“國家語委現代漢語通用平衡語料庫”為平衡語料庫;從語料用途角度,可分為通用語料庫與專用語料庫,如牛津大學出版社等機構聯合開發的“BNC 語料庫”為通用語料庫;從語種豐富度角度,可分為單語語料庫與多語語料庫,“CCL 語料庫”包含了部分漢英雙語語料庫;從語言產出者身份角度,可分為本族語者語料庫與學習者語料庫,如北京語言大學構建的“HSK 動態作文語料庫”即為學習者語料庫;從標注層次角度,可分為未作任何標注的生語料庫和經過標注的熟語料庫,后者包括分詞語料庫、詞性標注語料庫、樹庫、命題庫和篇章樹庫等。另外,隨著傳播媒介的日漸多樣化,語言研究已經逐漸超出了文本形式,開始與音頻、視頻等多種模態相融合,建設了大批多模態語料庫,如“現場即席話語多模態語料庫”(顧曰國2013)。

通過對語料庫類別的簡要梳理,可以看出學界對語料庫的劃分大多從語料庫的語言材料屬性和標注層次的角度考慮,較少從語料庫構建的目的和功用來討論。一般來說,語料庫的服務對象是普通用戶和專業學者。普通用戶以文本閱讀和簡單查閱為主,語言研究者則從語料庫中查檢用例,使用個案分析或計量分析方法,總結語言規律,或者為了研究特定的語言現象,進而建設大規模帶標注的語料庫。而在人工智能的研究中,主要采用機器學習方法來處理語言,以計算建模的方式構建特定語言任務的數學模型,以大量的訓練語料來優化模型的參數,從而實現自動標注和語言分析。面向機器學習的語料庫建設早已成為計算語言學界的主要領域之一。但是,計算語言學界構建的大量帶有各種標注的語料庫還不為語言學界所了解。這些語料庫不僅可以開發語言智能系統的服務,也可以進行語言學的定性與定量分析研究。

因此,本文在梳理諸多語料庫建設與應用情況的基礎之上,從語料庫的面向“群體”入手,將語料庫劃分為面向全文檢索、語言計量和語言智能的語料庫三個層次,重點介紹面向語言計量和語言智能的諸多語料庫、相關期刊會議和平臺,以及語料庫的功用。從這三個層次出發來闡釋語料庫,希望有助于使用語料庫的語言研究者確定研究范式,了解不同領域構建語料庫的目的與用途,進而更好地使用語料庫,優化完善建庫的方案和技術。

1.語料庫構建的三個層次

語料庫建設過程是選取一定量的原始語言材料,將其清洗和電子化之后形成語言數據庫,而后根據建庫的目的,進行詞、句、段落、篇章等不同層次的語言知識標注。對于大多數語料庫而言,首要的構建目的是進行語言研究,通過在大規模語料庫中檢索特定字詞的用例,豐富研究材料,以便觀察和總結具體語言現象的用法和規律。而面對大型語料庫中動輒成千上萬的語言用例,逐一分析的定性方法,逐步被量化的計量分析法所取代。為了提高計量結果的可靠性,就需要在構建語料庫時更加精細地設計語料的選取標準和標注深度。因此,以語言計量為主要研究方法的研究者,往往對于語料庫有著更高的設計需求。

另一方面,伴隨著人工智能技術的飛速發展,各種機器學習模型在計算語言學和自然語言處理領域不斷取得突破,一方面提高了語言智能的技術水準,另一方面也帶來了對高質量語料庫的巨大需求。一般而言,機器學習模型無法單獨運作,而需要三大要素互相配合,即算力、模型和數據。計算機的硬件算力是模型運算的支撐,而數據是模型運算的具體內容。對于語言的計算和處理來說,語言數據必不可少。語料庫的規模越大,質量越高,標注信息越豐富,機器所能學習到的語言知識就越多。因此,面向語言智能的語料庫建設,需要有清晰的問題定義和標注規范,以及嚴格的質量控制。大規模高質量的語料庫為語言智能的發展起到了重要作用。

綜上所述,從構建和使用語料庫的目的出發,可以區分出三種語料庫,即面向全文檢索的全文語料庫、面向語言計量研究的標注語料庫和面向語言智能的高度結構化語料庫(見圖1)。

圖1:語料庫研究應用的三個層次

2.面向全文檢索的全文語料庫

20 世紀90 年代以來,互聯網的發展催生了大量的網絡電子文本,而紙質書籍的數字化為語料庫、也為研究語言提供了海量數據。這些數據實現了電子文本化,有些經過了編輯校對等簡單處理,有些標注作者、發表年份等元數據的簡要信息。這種輔之以全文檢索的電子數據,給語言研究者提供了豐富的字、詞、句用例。

早期的全文語料庫主要由歐美發達國家所構建,而這些包括英法德俄等在內的語言有著天然的詞邊界,便于進行基于詞的全文檢索。但也存在著較為復雜的形態變化,需要進行詞形還原等操作,以實現詞檢索、共現搭配等應用。而對于沒有明顯詞邊界的漢語而言,則可以實現字檢索和字頻統計以及共現統計等簡單功能?;谠搶哟握Z料庫的研究大多是考證用例,檢索較為典型的例句進行研究,以總結和佐證觀點,如民俗學、社會學、人類學、文字學等研究,語言學領域中除考證典例之外,早期的詞典編纂和語言教學研究也大多基于這一類語料庫。周志鋒(2011)選取《越諺》若干疑難方俗字詞進行考釋,肖賢彬(2006)查考《詩經》中若干帶“有”“其”字疑難句子的釋義,梁銀峰(2023)發現我國大約從宋代開始發展出了完整體標記“了”的用法,劉成紀(2014)遍尋《尚書》《詩經》《論語》《左傳》《國語》等春秋以前的文獻,查考“以甘為美”及由此引發的味覺本源論的歷史演變。近年來,國內學者自建了大量小型語料庫,并開展了語言規則、語言情感、機構形象等多方面的研究(秦洪武等2022;錢玉彬2023;曾蕊蕊2023)。目前有大量全文庫可供查考語言用例,部分全文庫見表1。

表1:全文語料庫舉例

盡管全文庫可以實現簡單的計量統計,但對于無分詞標記的漢語而言,只能實現字的檢索與頻次統計,無法實現詞的相關檢索,更遑論義項計量、句法分析等基于深加工標注才能實現的研究內容。語言研究需求伴隨計算機算力的發展而發展,使得語料庫在語料領域選擇、數據清洗、數據加工層次等方面都有了更高的要求,語言學逐漸用數據“說話”,使其成為研究結論的有力證據。

3.面向語言計量研究的標注語料庫

早在計算機誕生以前,美國語言學家Zipf(1949)就基于詞匯頻率分布,提出了著名的齊夫定律(Zipf’s Law),而語言的計量研究更是隨著電子語料庫的建設而不斷發展。功能學派代表人物Halliday(1991)明確提出了“語言系統天生就是概率性的”這一觀點,說明使用必要的統計手段將這些概率信息提取出來,是語料庫語言學的重要任務之一。語言計量逐漸進入學界研究視野,并引起極大關注,國內外越來越多地刊發或舉辦與計量研究相關的期刊或會議。

3.1 國內外代表性期刊

隨著語料庫的發展,語料庫構建研究和基于語料庫的語言學研究逐漸成為顯學,學界也創建??源龠M語料庫語言學的發展。國外期刊主要有Corpus LinguisticsandLinguisticTheory(CLLT)、TheInternational Journal of Corpus Linguistics(IJCL)、Corpora、Applied CorpusLinguistics以及Journal of Quantitative Linguistics和Studies in Quantitative Linguistics,國內刊物較少,主要有《語料庫語言學》和《語料庫研究前沿》。

CLLT 關注音韻學、形態學、語義學、句法和語用學等研究領域,聚焦于理論研究。IJCL 收錄語料庫語言學各領域的方法論和應用研究,關注語言學(詞匯、語法、形態學和社會語言學等)、應用語言學和翻譯研究,如詞匯和構式之間的相互作用、特殊搭配分析,也關注語料庫語言學和計算語言學之間的銜接研究,如自動搭配抽取的評估,但整體側重于理論研究。Corpora 既有理論研究,也積極探索以促進跨領域(應用語言學、計算語言學、語料庫語言學、理論語言學)和跨學科(如文化研究、歷史研究、文學研究)的思想和技術的交叉融合,如利用語料庫研究仇恨言論等。Applied Corpus Linguistics 則關注語料庫數據分析技術、理論化和個案研究,鼓勵技術創新和數據可視化方法,包括語料庫資源建設(如構建的精神分裂癥語料庫、印地語語料庫),構建技術與工具(如多模態語料庫分析工具),以及基于語料庫的特定研究(如語料庫技術融入教學方法)。Journal of Quantitative Linguistics關注如何用數學或統計的方法來研究語言現象,涵蓋當代和歷史語言學、社會語言學和方言學等,以及語音學、形態學、句法和語義學各個層次的研究。Studies in Quantitative Linguistics 不僅關注語言學的計量研究,也關注語言學中尚未仔細研究過的問題。其出版社專門針對“未解之謎”出版了相關叢書,為深化計量語言學的研究提供借鑒。

《語料庫語言學》由北京外國語大學創立,常設語料庫建設與理論探索、語言對比、翻譯和中介語等欄目,更多關注于語料庫與語言本體研究,較少關注面向計量的語言研究。新刊《語料庫研究前沿》,主要關注語料庫語言學研究、語料庫翻譯學研究、語料庫文學文化研究、語料庫本體研究,以及語言技術與數據研究等。

3.2 詞法標注語料庫

語料庫的詞匯層處理,一般稱為詞法分析,主要包括形態分析(分詞)和詞性標注,是語料庫加工建設的基礎工作之一。由于英語文本的詞與詞之間使用空格表示詞邊界,因此不需要作分詞處理,但需要進行詞形還原等形態分析。漢語文本沒有詞邊界標記,需要先分詞,才能進行后續標注與研究。詞性標注則是給每個詞標注詞性(名詞、動詞、數詞、助詞等)。常見的詞法標注語料庫見表2。使用者可以基于這些語料庫檢索到“詞”并統計詞頻、查找共現詞搭配,統計并分析詞法信息,應用到詞典編纂、語義研究和語言教學等領域。蘇新春(2017)編制的《義務教育常用詞表(草案)》從頻率、語境分布、語義分布、相對詞頻、位序等角度搭配詞頻實現分級研究。語義韻的研究也需要基于這種詞法標注的語料庫開展,李華勇(2019)基于語料庫研究翻譯漢語的語義韻,以cause 的漢譯對應詞“導致”“引起”為切入口,發現由于英漢翻譯英語源語滲透效應、搭配詞選擇偏差和譯者的積極調和等原因,翻譯漢語語料庫與原創漢語語料庫的語義韻之間有顯著區別。

表2:詞法標注的語料庫介紹

3.3 標注句法信息的語料庫研究

3.3.1 句法標注語料庫

經分詞與詞性標注處理后的語料庫只能統計檢索詞語的頻次,體現的是語言局部特點。而句法標注語料庫的出現,使語言研究的層次從字詞邁向句子。因此,句法標注是語料庫語言學研究的前沿課題,以句法分析為基礎的句法標注不僅可以把語料庫的加工層次提升到新高度,也進一步提高了服務于語言研究的水準。

樹庫最初是為了自動句法分析而構建的,主要包括短語結構樹庫和依存樹庫。短語結構樹庫在生成句法理論的基礎上進行了一些簡化,標注句子的句法結構。最具代表性的樹庫為賓夕法尼亞大學構建的450 萬詞次的Penn Treebank 英語樹庫(Marcus et al.1993)和清華樹庫(周強2004)。依存樹庫旨在剖析句子各個單位之間的依存關系,最具代表性的樹庫為布拉格依存樹庫(B?hmová et al.2003)。

語言學家也構建了一批標注了特殊句法信息的語料庫,如句型語料庫、句式語料庫和構式語料庫等。趙淑華等(1995,1997)基于34 萬現代漢語教材課文和小學課文進行句法分類統計和句法結構分析,分別建成兩個句型語料庫,即“小學語文課本句型語料庫”和“現代漢語精讀教材語料庫”,統計了句型、短語比例,并考察了狀語、補語語義指向的分布。鄭定歐(2009)在2,000 萬字次的語料庫中選取了1 萬個“把”字句,以對“把”字句的確指性、非光桿兒性以及處置性和及物性等三個特性做實證的檢驗。詹衛東(2021)構建了規模為1,000 多條的構式庫,從句法、語義、語用三個層面描述構式的特征,以及構式間的關系(包括近義、反義、上下位關系等)。

中介語語料庫的建設也往往包含句法信息的標注,初衷是為了研究語言使用錯誤。北京語言大學的HSK 動態作文語料庫和中山大學的留學生全程性中介字字庫及中介語文本語料庫,均在字、詞、語法、句式甚至標點符號使用等層面標注偏誤信息。

3.3.2 計量應用

短語結構樹可以表示句子較全面的句法信息,各種句法單位、搭配共現以及短語的結構與功能均能在短語結構樹中得到體現。陳鋒和陳小荷(2008)基于清華樹庫對漢語短語的語法功能分布進行了定量分析,發現漢語短語的語法功能表現出一定的聚合性,但自動句法分析中以類標記來估計短語語法功能效果欠佳。

基于依存句法的樹庫除了能進行一般的詞類定量分析之外,還可以進行依存關系、依存距離和依存句法網絡的統計分析。劉海濤(2007)基于自建漢語依存樹庫得到兩種不同語體的漢語真實文本句法網絡,并利用復雜網絡分析工具對所建網絡進行了分析研究,發現具有相同直徑的兩種語體的句法網絡在平均度、平均路徑長度、冪律指數和聚集系數方面的差別較為明顯。劉海濤(2008)利用五個漢語依存句法樹庫,對漢語的依存距離和依存方向等句法屬性進行了計量分析。統計發現,漢語中40%—50%的依存關系不是在相鄰的詞之間形成的,證明了漢語是一種支配詞置后略占優勢的混合型語言。

基于句法標注的樹庫是量化語言研究的基石,這些樹庫的建立有力推動了語法理論特別是依存語法理論的研究,也推進了特殊語言現象的研究。另外,由于依存樹庫結構簡單而信息豐富,在句法研究、二語習得和少數民族語言研究等領域中起重要作用,在復雜網絡分析中也占有一席之地,促進了更深層次加工的標注方案和語料庫構建與量化研究的興起,為謂詞論元的語義標注、篇章關系標注等復雜標注語料庫的出現奠定了基礎。

4.面向語言智能的高度結構化語料庫

人工智能與自然語言處理技術的飛速發展,對所使用的語言數據提出了更高的要求。語料所蘊含的信息不再只是簡單、獨立的詞性與句法標簽,而是專為語言模型所設計的一體化標注信息,甚至發展到語義、篇章、跨篇章以及多模態等層次。而對語言模型參數進行求解的過程就是基于語料庫的建模過程。在計算語言學的發展中,這一過程經歷了提取概率化規則、單點分類器、序列分類器、結構化學習模型、向量化表示和神經網絡等不同的機器學習方法。語料庫所標注的語言知識不再是服務于語言本體研究(如通過計量的方法發現語言特點),而是為了讓機器擁有語言知識的自動標注能力,從而對生語料庫進行自動粗加工,節約人力以構建更大規模、更深層次的語料庫,甚至在一定程度上可以模仿人類的語言智能。這就要求語料庫在標注體系上要清晰、可操作,使機器有較好的建模效果。

4.1 面向語言智能的語料庫的特點

(1)標注規范定義清晰、可操作。美國計算語言學家Pustejovsky&Stubbs(2012)認為,“標注(Annotation)”一詞是指向文本添加元數據信息以增強計算機執行自然語言處理能力的過程,因此考慮到機器學習的能力,作為標注依據的標注體系要求更加簡潔、可操作,且一致性要高,盡量擱置爭議。

(2)機器可學習、可建模計算。機器學習算法使用的“數據”是人工規整和標注了特定語言知識的數據,通過數學建模的機器學習算法獲取概率化、向量化的語言知識,自動解析相關特征。

(3)模型效果可復現、可評測。評測是指對系統算法的性能和能力進行測試、評估和度量的過程。評測可以幫助研究員了解模型的解析能力與泛化能力,進而改進和優化算法模型。

4.2 面向語言智能的語料庫相關會議、期刊和語料發布平臺

隨著語言智能技術的發展,計算語言學界的諸多會議也包含了語料庫構建、計算應用方面的議題。其中,ACL(Annual Meeting of the Association for Computational Linguistics)、COLING(International Conference on Computational Linguistics)和EMNLP(Conference on Empirical Methods in Natural Language Processing)被稱為自然語言處理領域的三大頂級國際會議。自然語言處理相關的會議還有CoNLL(The SIGNLL Conference on Computational Natural Language Learning)、SemEval(Semantic Evaluation)、LREC(Language Resources and Evaluation Conference)等,國內主要有CCL(The China National Conference on Computational Linguistics)會議。ACL 關注語音、詞匯、語法和語義甚至篇章的相關研究,也關注語言資源的構建、信息抽取、信息檢索和機器翻譯等下游任務。COLING 關注詞法、句法、語義等研究領域,也關注信息抽取、情感分析、文本推理等應用領域。EMNLP 關注自然語言處理的機器翻譯、信息檢索、信息提取等技術應用。CoNLL 重點關注語音、詞匯、語法等計算語言學的理論、認知和科學方法和語言智能技術評測。SemEval 的主題為語義分析,涉及基礎領域的詞義和語義研究、篇章語義、臨床醫學和社會輿論的語義分析,每年組織大量的語義分析技術評測。LREC 主要關注語言資源的構建與解析,以及語言資源的智能應用。CCL 在關注現有自然語言處理的諸多任務之外,還關注語言計算理論與資源建設的研究。

除相關學術會議之外,國外刊物Language Resources and Evaluation 與國內刊物《中文信息學報》同樣關注語言資源與語言智能。另外,學界也出現了規模較為龐大的語言資源發布平臺以甄選高質量語言資源,如LDC(Linguistic Data Consortium)平臺和ELRA(European Language Resources Association)平臺。LDC 平臺由賓夕法尼亞大學主辦,主要通過創建和共享數據、工具和標準等資源來支持與語言相關的教育、研究和技術開發。ELRA 平臺由歐洲諸多研究機構聯合開發,旨在向整個學界提供人類語言技術的語言資源,目前已發布了1,625 種語言資源。

4.3 面向詞法分析的語料庫

自然語言處理的詞法分析包括分詞、形態分析、詞性標注和命名實體識別等詞匯層次的分析。語言學界對詞的界定與詞類的劃分歷來有所爭議,分詞規范與詞性標注規范也呈多樣性。在這些規范指導之下涌現出大量優質語料庫,被廣泛用于各種評測比賽中。

用于分詞訓練的代表語料庫,主要有百萬字規模的北京大學《人民日報》分詞語料庫、微軟亞洲研究院MSRA 語料庫等。中文的分詞在多屆SIGHAN 分詞評測的推動之下已頗有成效,F1值為0.98,精度接近人工分詞。

用于詞性自動標記的典型語料庫有《人民日報》詞性標注語料庫、Twitter 語料庫,賓州樹庫和賓州中文樹庫也帶有詞性標記,目前漢語的自動詞性標注精度已達到0.97,與英語相當。由于中文分詞和詞性規范發展較為成熟,研究視角開始轉向古漢語和少數民族語言。第一屆古代漢語分詞和詞性標注國際評測在盲測集上,封閉測試分詞和詞性標注的F1 值分別達到0.96 和0.92(李斌等2023)。

命名實體識別(Named Entity Identification)旨在確定人名、地名、機構名等類型的實體類型,是NLP的重要環節,在信息檢索、信息抽取以及自動問答等領域都具有直接應用。不同標注方案有不同的分類,相關語料庫主要有Ontonotes、Resume 和WeiBo 等,詳細信息見表3。

表3:常見命名實體語料庫信息表

4.4 面向句法語義分析的語料庫

句子級的語言分析可以分為句法分析和語義分析。最初用于自然語言處理領域的句法分析是形式語法,但由于依存語法具有形式簡潔、易于標注、便于應用等優點,逐漸成為NLP 的研究主流?;谛问秸Z法和依存語法,構建了大批樹庫,但這些語料庫的構建初衷并不是為了統計語言現象,而是為了構建自動句法分析器并提高分析性能,以實現自動標注的目的。

賓州樹庫以喬姆斯基的形式語法為理論基礎,旨在分析句子的句法結構,樹庫的節點可以表示短語結構的非終節點,也可以表示詞性和詞語本身的終節點。最具代表性的樹庫為賓夕法尼亞大學構建的450 萬詞次的PTB 英語樹庫,但為了機器學習需要,PTB 大大簡化了形式語法。此后,基于該框架構建了162 萬詞次的漢語CTB 樹庫(Xue et al.2005)、5 萬詞次的韓語PKT 樹庫和29 萬詞次的阿拉伯語ATB 樹庫,這類樹庫大多面向NLP 領域,只標記詞性和粗略的句法、語義信息。除此之外,還有一些面向語言研究的代表性樹庫。如Susanne 樹庫、蘭卡斯特樹庫(LPC)、國際英語語料庫(ICE)等,以及諸多語言的樹庫。這些樹庫大都標注了詞性、短語結構和語法功能等信息,標注體系更加精細。國內的短語句法樹庫有7 萬多詞次的北京大學漢語樹庫(周強等1997)、100 萬詞次的清華樹庫(周強2004)、中研院漢語樹庫(Huang et al.2000),另外也有學者對我國少數民族語言在樹庫方面進行了探索,如藏語、維吾爾語樹庫等。

依存語法由Tesnière 提出,認為謂詞是句子核心,不受任何詞的支配,卻可支配句中其他詞,所有受支配成分都以某種依存關系從屬于其支配者。該理論指導下建立的依存樹庫(Dependency TreeBank),清晰地標注了各個詞語之間的依存句法關系。國外代表性語料庫有:布拉格依存樹庫(B?hmová et al.2003)和基于該體系構建的其他依存樹庫,如捷克語-英語雙語依存樹庫、阿拉伯依存樹庫;斯坦福依存樹庫和芬蘭語依存樹庫;通用依存樹庫(Nivre et al.2017)和基于此建立的韓語依存樹庫等100 多種依存樹庫。國內依存樹庫有哈爾濱工業大學構建的CDT 依存樹庫(Liu et al.2006)、蘇州大學構建的SUCDT 樹庫(郭麗娟等2018,2019),另外清華大學也將TCT 轉換為依存樹庫(周強2004)。

樹庫的建立使更深層次的標注體系成為可能,目前常見的語義標注(甚至篇章標注)語料庫大多以句法分析樹庫為基礎構建,即在賓州樹庫、依存樹庫等基礎之上標注謂詞-論元信息、語義角色和語義關系等語義信息,構建語義角色標注樹庫和語義依存樹庫。另外,由于樹庫結構上的局限性,越來越多研究者開始轉向圖結構,涌現出超邊替代圖語法(Hyperedge Replacement Graph Grammar)、有向無環圖(directed acyclic graphs)等圖結構表示方法,解決樹結構無法體現論元共享等問題,典型的語義標注語料庫見表4。高度結構化語料庫也可以實現計量統計,探索語言信息,如Li 等(2019)建立了基于圖結構的抽象語義表示(AMR)語料庫,統計了圖結構、非投影結構所占比例,后續還標注并統計了虛詞、構式、省略等語言現象。

表4:常見語義標注數據庫

4.5 面向篇章分析的語料庫

目前,篇章級的語料庫大多也是建立在句法樹庫的標注信息之上。另外,由于篇章標注覆蓋面廣、標注信息復雜,為了簡單高效地研究某一領域,篇章信息的局部標注成為主流,大量學者開始建立篇章分析子領域語料庫,如共指語料庫、零形式語料庫等。篇章級語料庫的構建及相關技術的創新可以應用到自動篇章結構語義分析、事件關系圖構建、機器翻譯、文本摘要和信息提取等領域。

較為典型的篇章關系語料庫有基于賓州樹庫(PTB)構建的賓州篇章樹庫(PDTB)(Prasad,et al.2008)、基于修辭結構理論(RST)構建的修辭結構庫(RSTDT)(Carlson et al.2003)和基于賓州樹庫體系構建的哈工大中文篇章關系語料庫(HIT-CDTB)。PDTB 的標注方案僅局限于同一段落的相鄰句子,將相鄰句子之間的關系分為5 類,即顯性關系(Explicit)、隱性關系(Implicit)、替代關系(AltLex)、實體關系(EntRel)、無關系(NoRel)。在標簽設定和框架結構上,共設定了三層意義關系標簽,分為4 個大類、16 個子類及23 個小類。PDTB 還標注了關系及其論元之間的屬性關系。RSTDT 將篇章中的修辭結構關系分為單核(Mononuclear)和多核(Multinuclear)兩種。單核指存在關系的兩個EDU 之間存在主次之分,多核則指雙方地位平等,權重相等。RSTDT 包括53 種單核和25 種多核,共78 種,依據修辭關系之間的相近程度分為18類,附加核狀態信息后共得到41 種不同的關系。張牧宇等(2014)基于互聯網新聞語料建立了HIT-CDTB篇章語料庫,標注了篇章句間語義關系,即篇章句間關系(細分為3 類)、關系元素(細分為3 類)、語義關系體系(細分為6 類)。另外,布拉格依存樹庫也標注了部分篇章級標注信息,標注了句內和篇章共指。

除了這些標注篇章關系的語料庫,還有一些專門標注共指的語料庫,如MS-AMR(O’Gorman et al.2018),語料選自非正式書面語體,多是論壇和博客,標注隱式角色、橋接關系(部分整體、組織成員)和共指信息。Ontonotes(Weischedel et al.2011)語料庫標注句法信息、謂詞-論元信息、共指信息以及命名實體識別。UMR(Uniform Meaning Representation)(Van Gysel et al.2021)標注了實體和事件的共指關系、子集關系。另外還有基于依存的共指標注語料庫(Nedoluzhko et al.2009)、法漢指稱鏈條平行語料庫(胡霄欽,王秀麗2021)和漢語零指代語料庫(孔芳等2021)等。

語料庫的規模大小、質量優劣以及標注信息的多寡決定了語言智能模型的上限所在,在語言研究和語言建模中有重要意義。高度結構化語料庫可以將過去主觀總結的語言規則形式化表示,其標注規模一般超過十萬詞次。由于近乎是地毯式標注,在標注與構建過程中極易發現語言問題,以驗證現有語言理論的有效性與局限性,不斷推陳出新。但同時,高度結構化語料庫也面臨諸多問題:其一,機器可讀、可運算的前提一般是需要分類標注的信息,而分類就難免存在“削足適履”的情況;其二,高度結構化語料庫的構建目的在于實現相關任務的自動標注與分析,較少關注和分析語料庫中的語言現象,應用于定量和定性分析的研究還很少。但是,基于這些深標注的語料庫研發的語言智能系統,往往可以取得非常好的自動分析效果,十分值得語言學家進行具體分析和解釋,也更值得在這些數據上進行量化研究,以推進對語言現象的規律性認識。

5.結語

語料庫為人類觀察、分析語言提供了基礎數據資源。而海量的語料庫又催促著語言計量研究的發展、語言智能計算模型的升級與優化。本文從語料庫構建的目的和應用出發,將語料庫分為面向全文檢索、語言計量和語言智能三個層次。在“數據爆炸”的時代,語言研究已不再止步于典例查證,基于數學和統計學的計量研究思路逐漸受到重視,成為語料庫語言學的主要研究陣地,學界也開始借助大規模語料庫從全局視角研究語言共時和歷時的發展與變化。同時,人工智能的高速發展也對語言數據質量、數據規模以及數據信息的結構化提出了更高的要求,如何建立人類語言的統一數學模型,實現真正的“語言智能”,仍需要語言學的不斷創新。目前,語言研究呈百花待放的繁榮之態,仍有太多“未解之謎”正等待語料庫語言研究的介入與探索,如何突破現有的計量指標與計量方法、如何提高數學模型的建模效果、如何利用高度結構化語料庫研究語言規律乃至如何實現多模態的相互融合與轉化,都是值得探索的方向。

注釋:

①F1 值是精確率和召回率的調和平均數,可以用來評估模型效果。

猜你喜歡
句法語言學語料庫
句法與句意(外一篇)
述謂結構與英語句法配置
《語料庫翻譯文體學》評介
句法二題
詩詞聯句句法梳理
認知語言學與對外漢語教學
基于JAVAEE的維吾爾中介語語料庫開發與實現
社會語言學名詞
語料庫語言學未來發展趨勢
基于認知語言學的“認知修辭學”——從認知語言學與修辭學的兼容、互補看認知修辭學的可行性
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合