?

拓展人工智能時代詞典研編新方向

2024-01-19 03:58侯復旦趙翠蓮
辭書研究 2024年1期
關鍵詞:詞典語料庫

侯復旦 趙翠蓮

* 基金項目:2018年度國家社會科學基金重點項目“中華文化信息在新時期漢英詞典中的凸顯表征模式研究”(項目編號18AYY026)。

2019年至2022年這四年,亞洲辭書學會(ASIALEX,https://asialex.org/)國際學術大會從線下走到線上,從土耳其伊斯坦布爾(ASIALEX 2019,線下)走到印度尼西亞雅加達(ASIALEX 2021,線上),又來到中國廣西南寧(ASIALEX 2022,線上),會議主題從關注詞典學研究的過去、現在、未來,轉換到關注詞典編纂和語言文獻,又轉向關注數字時代下亞洲詞典學研究所面臨的挑戰與對策。第十六屆亞洲辭書學會(ASIALEX 2023)國際學術大會恢復線下,于2023年6月22日至24日在韓國首爾延世大學舉行,主題為“詞典學、人工智能和詞典用戶”。本屆大會收到摘要逾百篇,接收論文70多篇,最終將其中的59篇錄入大會論文集ASIALEX 2023 Proceedings。

來自世界各地近150位辭書學界和語言學界的專家學者出席了本次大會,通過大會發言、分組會議、專題討論、海報展出四種形式進行了深入交流。

一、 主 旨 發 言

本次大會主旨發言的四位專家學者,為英國語言學家、詞典學家Michael Rundell教授,美國詞典學家Erin McKean,日本詞典學家Yukio Tono教授,韓國Jonghwan Kim博士。

Michael Rundell教授曾任朗文系列詞典總編輯(1983—1997)和《麥克米倫詞典》主編(1997年至今),現擔任“詞匯計算有限公司”首席詞典官。在題為“自動生成詞典:我們接近了嗎?”的發言中,他系統梳理了2011年以來語言處理技術在詞典編纂中的應用,展示了詞典編纂如何在一定程度上實現自動化,指出在“后期編輯詞典編纂”模式中,人類詞典編纂者的角色是對自動生成的詞典初稿進行編輯、評估和提煉。最后他嘗試使用ChatGPT生成詞典文本,探討人工智能工具替代當前最先進的詞典編纂技術的可能性。在結論部分,Rundell教授回答了三個問題:1) 針對用戶詞匯查詢,ChatGPT能否直接提供答案(因而不再需要詞典)?2) 如若不能,ChatGPT能否以微乎其微的人工介入生成好詞典(因而不再需要詞典編纂者)?3) 如若不能,ChatGPT能否產出質量夠好的詞典初稿,供人類后期編輯(因而不再需要我們現有的工具)?他認為,對于簡單的詞匯查詢,ChatGPT并不具備優勢;對于復雜的詞匯知識,ChatGPT則存在相關度與信度問題;ChatGPT會生成貌似可信的詞典文本,但因其存在遺漏、杜撰或提供虛假信息的問題而經不起推敲;與人類編纂者相比,ChatGPT缺乏認知推演和識別語用與語義韻等信息的能力,與基于語料庫的后期編輯詞典模型相比,ChatGPT產出的文本難以溯源,因而難以驗證其準確性。當然,ChatGPT還在改進,有望產出更好的詞典文本,但目前尚不能預示“詞典編纂的末日”。在問答環節,針對日本早稻田大學Shigeru Yamada教授的提問“ChatGPT能否適用于學習詞典的編纂?”,Rundell教授認為值得嘗試,但需要設置參數變量,以適用于外國人學習英語。

Erin McKean博士是在線詞典Wordnik.com的創始人、牛津大學出版社《美語詞典》主編。她在題為“人工智能在詞典編纂中的投資回報率”的報告中指出,大型語言模型(LLM)正用于許多基于語言的任務(如翻譯、總結與解釋、情緒分析)以及內容生成任務(如代碼生成、用自然語言回答搜索查詢、為客戶服務等領域的聊天機器人賦能)。由于現代詞典編纂多基于調查分析大型語料庫,即類似于訓練LLM的語料庫,因此她做出了“LLM可用于典型詞典編纂任務”這一假設。她嘗試使用OpenAI開發的ChatGPT gpt-3.5-turbo來完成詞目擴展、短語和詞形檢索以及釋義與示例生成。結果表明,LLM會輸出錯誤與“幻象”(杜撰事實),需要大力監控,因而達不到人類編纂工作的標準;此外,使用LLM的外部效應會增加總體成本,如對環境的影響、虛構信息或復制有偏見的文本,甚至增加了知識產權歸屬的問題。在問答環節,以色列的Ilan Kernerman認為,雖然ChatGPT在詞典編纂中存在不少問題,但我們仍要利用這種新工具,因為此乃科技潮流,而我們要找到合適的方法去擁抱新科技。

Yukio Tono教授為ASIALEX創始成員兼前任主席(2011—2013),長期致力于二語詞典編纂、詞典使用、基于語料庫的第二語言學習和習得等方面的研究。他在題為“電子詞典編纂時代的詞典使用研究”的報告中,首先概述詞典用戶研究史,追溯用戶研究興趣之演變,并強調電子詞典和在線詞典對語言學習者日益增長的影響。在一項針對日本大學生的問卷調查中,Tono指出,詞典查閱行為呈現出顯著變化,反映了在線詞典和翻譯工具的日益普及對學生語言能力發展既有積極又有消極的影響。最后,Tono展望了今后的詞典用戶研究,強調要繼續深入理解詞典使用與語言學習的關系,促進外語教學方法的技術變革。在問答環節,Tono再次強調在線詞典均源于紙質詞典,但在線詞典在排版等方面均比紙質詞典更靈活自由,這也是吸引大量用戶從傳統紙質詞典轉向電子詞典的原因。針對香港中文大學(深圳)的李蘭教授的提問“有否合適的研究方法來測試紙質與電子詞典的效果?”,Tono舉例說明,可用不同的學習任務來測評詞典使用效果,比如可將深度閱讀與閑讀任務用于測試兩類詞典的效果差異。

Jonghwan Kim博士為韓國NAVER公司全球詞典制作中心主任,近年專注于激活開放詞典PRO、Accentia和全球英語詞典服務。在題為“NAVER詞典用戶參與研發:NAVER開放詞典PRO與Accentia個案研究”的報告中,他首先介紹了眾包NAVER開放詞典PRO這一用戶參與型編纂平臺,其特點是,集詞典編纂和內容消費于一體;是大眾化平臺,提供便于普通用戶參與的結構;是開放型平臺,可編寫各種主題詞典;其結構靈活,可編寫格式各異的詞典。他還介紹了NAVER讀音產出平臺Accentia,這一大眾讀音制作平臺可收集每種語言的各種真實口音。Kim博士的話題引發了廣泛興趣與討論。Michael Rundell教授針對在線眾包詞典去除錯誤或敏感信息等噪音問題進行提問,Kim博士回答說NAVER公司有一套嚴謹的審核機制以去除詞典中的噪音,可應對目前的數據量,還將研究如何應對海量用戶所帶來的新需求和新挑戰。Kim博士最后提到,截至2023年5月,該平臺已有6000多個不同類型的詞典,普通大眾特別是青少年對于多主題詞典編纂頗感興趣,如平臺上出現了小學生編撰的零食詞典。

二、 分 組 會 議

分組會議圍繞以下主題順次展開:詞典編纂中的文化與社會表征、詞典使用與用戶研究、詞典編纂中的語義表征、雙語與多語詞典編纂、詞典編纂中的方言表征、詞典編纂問題與方法、詞匯學與詞典編纂、短語學與詞典編纂、術語與專業詞典。

(一) 詞典編纂中的文化與社會信息表征

Judit Freixa和Sabela Fernández-Silva以“女權主義詞匯的詞典化”為題探討了西班牙語詞典中對女權主義詞匯的處理,西班牙語詞典編纂方法與葡萄牙語、加泰羅尼亞語和法語等其他羅曼語是否相似,以及西班牙語中女性主義單詞的詞典化優先標準等問題。徐海、湯之杰在題為“老齡歧視與積極老齡化:《現代漢語詞典》中的老年人形象”的報告中,從批評話語分析視角探討了這部詞典所反映的老年人形象的社會認知,說明其形象展示均衡多樣,從有別于年輕人的年衰弱勢之刻板身份到在家庭中的重要作用;例證分析顯示,中國社會關心尊重對社會和家庭做出貢獻的老年群體,這源自于其特有的社會意識形態和話語體裁。Jesus Federico Hernandez的報告“名字里有什么?姓名學、身份和菲律賓詞典”,對一系列菲律賓詞典中所收錄的菲律賓姓氏進行溯源與分類,以厘清其可能的民族文化語言源流。Winda Luthfita和Adi Budiwiyanto的報告“面向用戶的地名收錄:詞典編纂視角”對31名《印尼綜合詞典》用戶進行了問卷調查,并探討了地名、地名學及其與語言學、用戶研究和詞典評估的相關性。

(二) 詞典使用與用戶研究

Naho Kawamoto和Yukio Tono以“L2詞典使用技能描述符之研制初探”為題,探討了外語學習背景下研發詞典技能描述符的可能性,以及按照CEFR水平對這些描述符進行Rasch分析校準。孟凡菲等人在“電子詞典的錯誤及其對漢語使用者的影響”這項研究中,通過實驗、問卷調查和詞典批評,研究中國最流行的電子詞典“有道”對學生英語學習的負面影響。Pasqualina Sorrentino和Massimo Salgaro在“不要扔掉紙質詞典!利用不同類型的詞典提高EFL詞匯學習效果”的報告中,匯報了在線詞典與紙質詞典對于英語學習諸多方面的影響,比如詞匯習得、記憶、新詞、閱讀理解、新詞的長時記憶,結果表明,紙質詞典在單詞短時記憶測試中的正確率以及用戶友好度測評兩方面得分略高。另有報告討論了單語和雙語詞典在近義詞辨析中的區別、詞典用戶對詞典軟件的關注點等話題。

(三) 詞典編纂中的語義表征

Vincent B.Y. Ooi在“《NAVER英語詞典》中的英語變體及其包容性”的報告中重點研究了這部詞典的內在結構特征及意義,通過樣條模型、詞匯啟動、三角測量等手段測評其收詞廣度與收詞量,并評估其在全球詞典編纂 “擴張期”做出的努力。Maria Koliopoulou在“詞庫與本體:二者的關系是什么?”的報告中指出,詞典學視域下的詞庫概念與哲學視域下的本體概念在各自描述的范疇中均表征概念及其層級關系,但在起源、目的和結構方面存在差異,因而屬于不同的知識組織體系(KOS)。此外,還有學者報告了“菲律賓單語詞典中的形容詞語義結構”“《延世韓語同義詞詞典》的編纂與使用”等研究。

(四) 雙語與多語詞典編纂

Li Fei和Hansaem Kim的報告題為“辨析通用漢字常用詞的非常見用法 ——對《三國通用詞匯詞典》實體的定量分析”,調查了這部中日韓三語詞典中的300多個通用漢字詞條和數千條語料庫索引行,發現許多同形漢字詞在各自的語境中呈現非常見的用法,反映了漢字詞匯在不同語言系統中不斷擴展和多樣化的趨勢。Elena Berthemet在“構建多語學習者習語詞典”的報告中分享了在線多語習語表征模型,可詳細描述理解、使用習語所需的信息,實現跨語言多向檢索,這是傳統紙質詞典無法實現的處理方式。此外,Shigeru Yamada就“數字時代理想的日英詞典”進行了綜述。

(五) 詞典編纂中的方言表征

Mats-Peter Sundstrom和Marlene Nilsson在題為“在‘圣書’和‘詞書’的交界處:《圣經》翻譯與詞典編纂”的報告中,通過南非恩東加語圣經翻譯的視角,闡明翻譯與詞典編纂之間的界面研究。Moira Saltzman在“濟州話口述詞典:在線協作語言復興數據庫”的發言中,以在線濟州話多媒體語料庫的研發為例,展示運用跨學科方法創建多用途瀕危語言的永久記錄。

(六) 詞典編纂問題與方法

Syed Shahrier Rahman和Mithun Banerjee 在“孟加拉語形容詞詞綴的詞典處理”的發言中,匯報了通過整合兩部孟加拉語詞典與孟加拉語單語語料庫以構建其形容詞宏觀結構。Elsie Marie T. Or的報告“菲律賓單語詞典中部分功能詞的處理”,考察了所選功能詞的微觀結構及其在文獻中的分析程度,進而提出處理建議。Ma. Althea Enriquez的“多語環境下編纂單語詞典的挑戰:菲律賓詞典項目報告”,針對單語詞匯的多語宏觀領域、詞條文本設計的微觀領域、詞典作為標準化指標的中間領域這三方面,提出了詞典編纂應聚焦語言及其使用,但也應考慮社會結構和社會環境的觀點。Samantha Jade Sadural在題為“建設Marayum項目:詞典編纂問題與解決方案”的報告中,討論了協作型菲律賓諸語言在線詞典平臺創建過程中所涉及的語言學問題與決策,包括詞類、詞形、派生詞、多義性、文化表征等方面。

(七) 詞匯學與詞典編纂

Qihui Fan和Sun-Woo Chang的“韓語外來詞的詞典信息與學習者接受度研究”,以《基礎韓語詞典》中的1569個基本外來詞條為研究對象,分析其發音、詞性和詞義三方面的信息,考察了這些詞典信息對中國大學生學習韓語的影響,找出其優缺點,并提出改進建議,以更好地服務于韓語學習者。趙翠蓮在題為“使知其然、知其所由然——論雙語詞典文化信息的前景化”報告中,探討了文化信息在(漢英)雙語詞典編纂中的收錄和表征情況,強調不僅要提供單詞和短語的含義和用法(使知其然),還要通過陌生化、前景化等手段凸顯其文化背景(使知其所以然)。另有研究者探討了幾部牛津詞典的外來詞及新詞收錄情況。

(八) 短語學與詞典編纂

陳戀的報告“(元)短語學與短語語義學:DiCoP——短語單位的計算機資源”圍繞DiCoP(詞典和短語語料庫項目)展開考察,旨在研發與短語單位相關的多語種短語電子詞典(目前為法漢漢法詞典)。其他報告基于語料庫探討連接副詞besides的措辭,以及從短語學視角對比獨立描述與整體描述的問題。

(九) 術語與專業詞典

高永偉的報告“詞典中應該收錄多少術語?——OED案例研究”,通過比較在線OED等英語詞典及部分新詞詞典,指出OED在術語數目、學科領域覆蓋、術語標識、縮略詞收錄等方面存在的問題及原因,并提出改進建議。Ping-Yu Huang和Yueh-Tzu Chiang以“專業文本和??圃~典中的學術詞匯有何意義?”為題,調查學術詞匯在專業語料庫中的特定詞義(如,resident 可以是“住院實習醫生”),并依據語料庫調查為??圃~典提出建議。Eric G. Englert和Sadaf Munshi在題為 “避免‘某種植物’:多學科詞典編纂方法案例研究”的報告中,提出了多學科視域下的曼基亞利語詞典編纂方法,通過動植物調查以及民族醫學研究,生成涵蓋學術、科學及社區知識的詞匯庫。Elizaveta Krivetskaya和Alexey Matyushin在題為“供醫療協調員使用的學習者專門用途詞典:詞典學概念”的報告中,討論了可用于醫療協調員和主題領域培訓的多語學習者專門用途詞典的研發,對其宏觀與微觀結構進行概念化論述。Juwon Park等人的報告“朝鮮和韓國傳染病詞匯編纂實踐研究”,介紹了首個“朝韓傳染病詞匯表”的編寫,涵蓋診斷、治療和預防各種微生物引發的傳染病的諸多術語。

三、 專 題 研 討

專題研討分兩場進行,分別是“第 5 屆全球辭書學會詞典編纂與新詞(GWLN-5)”和“詞典教學(LexTeach)”。GWLN為年度研討會,致力于匯集全球新詞發現、分類、描述與評判方法諸方面的觀點及其詞典處理與表征;GWLN-5主題為“詞典中未收錄的詞目”,高永偉、Raquel Amaro、Nam Kilim、Yinxia Huang等圍繞語音語料庫、社交媒體、仇恨話語、詩歌等中的單詞及表達方式以及非標準單詞或新造術語等話題做了報告。LexTeach為ASIALEX向公眾推介詞典知識的項目,由香港科技大學Amy Chi發起,旨在讓用戶了解詞典如何滿足其需求,熟悉使用詞典的專業知識并欣賞其價值;項目以講座形式進行,邀請具備該領域相關知識的ASIALEX成員擔任講座嘉賓。Amy Chi在“LexTeach能成為普及詞典學知識的典范嗎?”的報告中詳細介紹了該

項目。

四、 海 報 展 出

海報展出是近年來國際學術會議的一種交流方式,以其直觀呈現、圖文并茂、作者與觀眾面對面交流等特征而廣受推崇。本屆大會共展出海報11份,內容涉及在線詞典訪問調查、學習者詞典偏誤表征、基于語料庫的用法模式調查、少數民族語言詞典中的民族文化、基于語域的未收錄條目分類與詞典收錄研究、多義詞的認知語言學描述、語音變化與詞典注音、多方言詞典編撰中的問題與挑戰、社交軟件術語研究、情感詞典編纂、網絡方言詞典編纂等。

五、 總 結

自從1997 年在香港科技大學成立以來,亞洲辭書學會始終秉承其宗旨,致力于促進亞洲語境和世界范圍的辭書研究與編纂實踐,推動辭書領域的學術與專業活動。辭書活動涉及多種學科,與相關理論和編寫技術的創新與發展密切相關。本次大會從組稿到舉辦期間適逢基于大型語言模型的ChatGPT等聊天機器人推出,一時風靡互聯網,給辭書編纂帶來了機遇與挑戰,也給詞典學研究提供了新的視角。

歷時三天的ASIALEX 2023圍繞人工智能時代的詞典編纂與詞典學研究展開討論,話題從傳統的收詞立目、詞條結構、語義網絡、語用和文化信息表征、單語和多語詞典等,到詞典編纂出版技術的創新,如人工智能賦能,不一而足。本次會議拓展了詞典用戶的邊界研究,甚至從作為唯一用戶的人類拓展到了“機器可讀”模式中的潛在用戶——機器。此外,本次大會引導詞典學領域的學者和專業人士進一步認識詞典的時代性這一要素,通過與公眾接觸互動傾聽新時代的需求,創造現代社會所需的詞典。需要指出的是,語言處理技術的革新為詞典編纂出版和詞典學研究插上了翅膀,但若無人工介入,基于大型語言模型的“已知知識”,甚至依賴“暗箱操作”的ChatGPT等“智能”軟件在詞義消歧、推理、抽象思維等方面時有“弱智能”之表現。在識別未錄入語料庫的“未知知識”和解釋自動生成的語言數據等方面,智能軟件尚不能替代人類智慧。Gregory Grefenstette在20世紀末(1998)曾發問“到公元3000年時還有人編詞典嗎?”近四分之一世紀過去了,人工智能尚未取代人類詞典編寫者。

最后,本次大會產生了新一屆亞洲辭書學會執委會,成員分別來自韓國、中國、日本、新加坡、菲律賓、伊朗。亞洲辭書學會第十七屆國際學術大會(ASIALEX 2024)將在日本東京東洋大學舉行。

(四川外國語大學 成都 40003)

(責任編輯 劉 博)

猜你喜歡
詞典語料庫
《語料庫翻譯文體學》評介
米沃什詞典
基于語料庫“隱秘”的詞類標注初步探究
評《現代漢語詞典》(第6版)
詞典例證翻譯標準探索
基于JAVAEE的維吾爾中介語語料庫開發與實現
評漢語詞典“對等”的定義和“對等翻譯”中“對等”的誤譯
漫畫詞典
《胡言詞典》(合集版)刊行
基于網絡語料庫的“給力”研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合