?

針對網絡用作語料庫相關研究的文獻綜述

2023-12-29 03:55張世偉

校園英語·中旬 2023年8期

關鍵詞：爬蟲語言學語料庫

摘要：自20世紀90年代起，網絡用作語料庫（Web as Corpus，簡稱WaC）已經成為獲取大量文本數據的主要方式，其分析研究可被用作驗證很多語言學假設的證據，其他應用方法還包括：自然語言處理工具和方法的評估，計算機詞典編纂，以及對趨勢或話題監測的大量文本實操分析?；诰W絡來構建語料庫的優勢有很多，例如低成本、效率高、實效好；但其弊端依然顯著，例如，非常有限的源數據（metadata）、難以自動化清理網絡文本內容等。這篇文獻綜述聚焦網絡用作語料庫過往相關研究，尤其是WaC經典示例和爬蟲技術所面臨的挑戰。

關鍵詞：網絡用作語料庫（Web as Corpus/WaC）；語料庫語言學（Corpus Linguistics）；語料庫構建（Corpus construction）；爬蟲（Crawling）

作者簡介：張世偉，英國肯特大學精算學研究生，外國語言學及應用語言學專業在讀。

一、前言

語料庫語言學（Corpus Linguistics）通常是指為了語言學研究的目的，以一種有原則的方式對機器可讀的口語和書面語言樣本進行的研究。語料庫語言學的研究對象是自然語言，它關注真實語境中的語言使用情況。因此，它經常與喬姆斯基的語言學觀點形成對比，后者強調語言能力，并經常以虛構的例子作為探索語言的基礎。

在20世紀60年代，一百萬詞的Brown語料庫開啟了基于基于計算機的語言學研究；隨后到80年代初期，Sinclair 和 Atkins的COBUILD項目語料庫達到了八百萬詞；再有自從1988年起Atkins帶頭建構的British National Corpus （BNC）的詞容量達到1億詞；1989年，語料庫發展開始進入計算機語言學階段，雖然初期很多人質疑它的學科性，但1993年Computational Linguistics - Association for Computational Linguistics期刊發表的Church與Mercer合著的Using Large Corpora一文有很大反響；在1999年的ACL會議上，網絡在語料庫中的應用才開始被廣泛討論，網絡語料庫研究才慢慢多起來。

二、網絡用作語料庫的經典案例

2005年英國伯明翰大學舉辦的WaC研討會上曾有專家指出，網絡用作語料庫（WaC）的主要模式分三類：

1.通過搜索引擎獲得特定關鍵詞的使用次數;

2.在引擎檢索網頁上檢索關鍵詞，將搜索結果下載下來，分析歸納整理建成一個新的語料庫;

3.利用網絡爬蟲技術，搭建一個可以同時間處理海量數據的特定檢索語料庫引擎。

本文列舉了幾個比較有代表性的網絡用作語料庫（WaC）案例：

（一）WebCorp

WebCorp語料庫（又稱“WebCorp Live”），是由Birm-ingham City University的英語研究發展部門（RDUES）于1998年創建，并一直維護至今，被語料庫學者、詞典編纂者、語言老師和學生、出版商、記者、廣告商和其他領域的研究者廣泛使用。它提供一系列的分析工具，允許用戶將互聯網當作一個語料庫，其從互聯網上抓取語言數據，揭露某個詞匯或短語是如何使用的，提供給用戶一個有質量保證的原始的或分析后的語言學輸出，尤其針對無法在字典或傳統語料庫中展現的一些新詞或生僻詞。通過從互聯網頁面抓取檢索表（concordance lines），WebCorp界面提供給用戶很多可自定義的語言研究功能。

（二）iWeb

iWeb語料庫，是由Brigham Young University于2018年發布，抓取了近9萬5千個網站的2200多萬的網頁的文本，其庫容有140億詞，是COCA語料庫（5.6億詞）的25倍，是英國國家語料庫BNC（1億詞）的140倍。該語料庫提供了前6萬個高頻詞的詳覽功能，用戶可聽其發音，觀看語境視頻和該詞的谷歌相關圖片，還具有翻譯成其他語種和單詞收藏功能等。此外，用戶輸入關鍵詞后，iWeb其檢索僅需2-3秒，便可生成一個“虛擬語料庫”，提供多種有用信息，包括頻次、定義、同義詞、詞網條目、關聯話題、搭配詞、詞塊、索引行和相關網站，該語料庫受到眾多語言學習者、教師和研究人員的歡迎。

（三）WaCky

WaCky（The Web-As-Corpus Kool Yinitiative）語料庫由University of Bologn創建和維護，其是基于網絡文本資源構建的幾個語料庫的集合，包括ukWaC（英語）、deWaC （德語）、itWaC （意大利語）、frWaC （法語），既可提供在線檢索界面，又可以下載完整的語錄庫原生數據。其中ukWaC其庫容有20億詞，其只爬取以“.uk”結尾的英國域名網站，以及將BNC的中頻詞（medium-frequency words）作為“種子”，該語料庫可通過TreeTggger將文本進行詞性標記（POS-tagging）和詞形還原（lemmatization）。

（四）KWiCFinder

KWiCFinder（Key Word in Context）在線搜索工具，在1999年的CALICO會議上正式發布，其通過一個單獨的程序創建研究結果的緩存副本，該程序需要下載并在桌面上運行。通過上文提到的在線工具，可以收集詞表、詞性、搭配的主要信息，以及URL、時間、文本域的開銷信息，作為語料庫的來源。從這個角度來看，網絡不僅是語料庫的“surrogate替代品”，也是語料庫文本的來源。因為第三代語料庫的數據不限于印刷文本，而是電子文本，這比印刷文本更容易獲得，以節省勞動力成本和語料庫建設費用。遺憾的是，KWiCFinder目前已經不再繼續維護和更新了，只能對其已涵蓋的文本進行相應研究。

三、網絡用作語料庫中爬蟲技術面臨的挑戰

搭建互聯網用作語料庫（Web as a Corpus）的4個步驟：

Select the “seed” URLs

Retrieve pages by crawling

Clean up the data

Annotate the data

爬蟲（crawling）是一個簡單的過程；然而，只有復雜的程序實現才能讓人成功地進行大規模爬網。當前爬蟲技術面臨以下6個方面挑戰：

效率：當檢索到更多頁面時，發現的URL隊列會變得非常大。因此，爬蟲程序必須能夠以內存高效的方式管理如此大的列表。

重復：爬蟲程序必須確保只將尚未看到的URL添加到列表中。

原則：爬蟲程序必須遵守網站管理員在網站機器人中指定的指令txt文件。然而，它也應該避免在短時間內用數千個請求敲打同一個站點，并提供聯系爬網所有者的簡單方法。

陷阱：爬蟲程序應該避免“蜘蛛陷阱”，即試圖阻止它的惡意網站，例如，通過引誘它進入一個循環，它將繼續下載帶有隨機文本的動態生成頁面。

定制：爬蟲器應該易于定制，并且考慮到大型爬蟲程序可能需要幾周時間才能完成，因此應該可以監控正在進行的爬蟲，動態更改參數。

文件處理：考慮到一個大型爬網將檢索數百萬個文檔，爬網程序應該以智能的方式處理檢索到的數據。

2022年5月，在法國馬賽舉行的第12屆網絡用作語料庫研討會上，Barbaresi等WAC詳細論述了當前在擴大素描引擎（Sketch Engine）的背景下構建網絡語料庫，網絡爬?。╳eb crawling）文本信息時可能面臨的困難和挑戰，并對應對辦法進行了討論，主要包括以下幾個方面：

機器翻譯普遍存在于網絡，翻譯質量較低，尤其是小眾語種的翻譯。

應對方法：采用半自動化方法，即讓以該小眾語種為母語的人員檢查語料庫詞庫。

垃圾網站的存在也會將非自然的和不需要的內容帶入到語料庫中，并且這些垃圾網站在與標準的商業搜索引擎“對弈”的這些年中，也在不斷地提供自己的文本生成算法，包括使用NLP方法。

應對方法：其實一個有經驗的NLP工程師在幾分鐘內就可以甄別出是否是垃圾網站；選擇可信的種子域（seed domains）去爬蟲；語料庫研究者利用搭配（collocations）、正則表達式（regular expression）等分析工具去甄別出垃圾網站內容，并批量剔除掉。

當用瀏覽器從網絡上爬取文本時，一般來說，瀏覽器都對這些文本進行了渲染（rendered）以保證用戶瀏覽的體驗感和功能性，但這就會使得爬蟲處理速度下降。

應對方法：以headless模式運行該瀏覽器，這樣文本就會被以HTML形式展現；只要大部分網站不停止為非智能手機提供文本回退（textual fallback）功能，問題就可以得到解決。

越來越多優質的報紙或新聞網站已不再免費，需要用戶付費訂購或給予限量的免費閱讀權限，如果將來這些優質文本都需要付費，那互聯網語料庫的建設成本將會大大提高。

應對辦法：只要某一領域的免費文本資源依然占據多數，那就不會成為大問題。

參考文獻：

[1]Baroni M， Bernardini S， Ferraresi A， Zanchetta E. The WaCky Wide Web： A Collection of Very Large Linguistically Processed Web-Crawled Corpora[J]. Language Resources and Evaluation， 2009（3）：209-226.

[2]Kilgarriff A， Grefenstette G.Introduction to the special issue on the Web as corpus[J]. Computational Linguistics， 2003（3）：333-347.

[3]Wette. The Routledge handbook of applied linguistics [Book Review][J]. New Zealand Studies in Applied Linguistics， 2014（1）：62-63.

[4]丁政.互聯網用作語料庫的原理與實踐[J].洛陽師范學院學報，2008（2）：93-95.

猜你喜歡

爬蟲語言學語料庫

利用網絡爬蟲技術驗證房地產灰犀牛之說

房地產導刊(2022年10期)2022-10-18

基于Python的網絡爬蟲和反爬蟲技術研究

現代信息科技(2021年21期)2021-05-07

《語料庫翻譯文體學》評介

天津外國語大學學報(2020年1期)2020-03-25

利用爬蟲技術的Geo-Gnutel la VANET流量采集

電子測試(2018年1期)2018-04-18

大數據環境下基于python的網絡爬蟲技術

電子制作(2017年9期)2017-04-17

認知語言學與對外漢語教學

海外華文教育(2016年1期)2017-01-20

基于JAVAEE的維吾爾中介語語料庫開發與實現

語言與翻譯(2015年4期)2015-07-18

社會語言學名詞

中國科技術語(2012年3期)2012-03-20

語料庫語言學未來發展趨勢

當代外語研究(2010年3期)2010-03-20

基于認知語言學的“認知修辭學”——從認知語言學與修辭學的兼容、互補看認知修辭學的可行性

當代修辭學(2010年1期)2010-01-23

校園英語·中旬2023年8期

校園英語·中旬的其它文章: 基于主題意義探究的高中英語項目式學習; 如何優化課程思政在高校英語教學中的落實; 基于“崗課賽證”的高職公共英語班內分層教學的思考; 如何快速記憶單詞; 運用語篇閱讀教學提高學生寫作能力的探究; 英語學習活動觀下的高中英語語法 “教—學—評”一體化實踐方法略談

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合