?

基于多模態話語分析的旅游翻譯語料庫構建研究

2024-01-24 05:08李中英
關鍵詞:語料語料庫模態

李中英

(山西旅游職業學院 旅游外語系, 山西 太原 030031)

隨著中外日益漸多的學者涉足探究多模態話語以及多模態話語分析對于語料庫的發展和建設所起的作用及影響, 有關語料庫的研究范圍越來越廣, 研究對象也越發多樣化。然而, 在國際文旅融合的背景下, 有關多模態旅游翻譯語料庫的構建研究卻少之又少。為提升中華文化的國際影響力和傳播力, 本研究以多模態與語料庫相關研究為理論基礎, 探尋多模態旅游翻譯語料庫的建構方法與路徑, 以高視角為旅游業及其對外公共基礎設施提供更完善、 更準確、 更全面的翻譯資料, 為傳揚中華文化提供更權威的保障。

1 多模態話語與旅游翻譯語料庫的相關概念

1.1 多模態話語分析的相關概念

根據CNKI 文獻收錄統計, “模態”一詞在國內學術界的應用已有半個多世紀。收錄文獻最早記載于1957 年, 莫紹揆在其《具有有窮個模態辭的模態系統》中將模態用于對數理系統的表達[1]。隨后, “模態”也陸續出現在力學、 氣象學、 海洋學、工業、 工程、 計算機以及語言文字的研究當中。故此, 基于模態的多學科融合交叉研究有著極強的資源優勢和價值意義。

模態與語言學的融合研究相對其他領域起步較晚。然而, 正因為“模態”的多學科特點, 學界對其并沒有形成統一的概念界定。早期是由美國著名邏輯學家Richard Montague 在研究遞歸函數論、模態邏輯和內含邏輯后轉向研究自然語言, 為多模態理論下的語言分析及研究提供了更多更充分的邏輯學理論基礎[2]。2007 年, 朱永生在其相關研究中表示“模態”是人們彼此之間溝通交流所選用的途徑或是載體, 主要包括語言、 技術、 圖像、 顏色和音樂等符號系統[3]。2015 年, 顧曰國在其《多模態感官系統與語言研究》中認為, “模態”可以被理解為人類自己借助視覺、 聽覺、 觸覺、 嗅覺等感官系統與外界事物及環境進行交流互動的模式方法[4]。多模態話語分析代表Kress G. 和Van Leeuwen 表示, “模態”是人與人彼此之間溝通交流的符號, 是用于表示意圖和交流意義的社會文化資源,包括使用工具和各種物質[5]。然而, 隨著時代的不斷發展, 單模態或是單個媒介已經不滿足人與人之間的交流[6]。模態的研究為多模態研究打好了基礎, 同時也為多模態的應用研究做好了鋪墊。

“多模態”則一般表達融合了兩種或兩種以上具有象征意義的語言符號。顧曰國指出, “多模態”是人類在某種具體交流場景中使用多種模態的情況, 所使用的模態形式主要包含專業術語、 日常用語等, 關鍵是判別到底有幾種感官參與[4]?!岸嗄B話語分析”則是多模態在語言領域的發展應用。

“多模態話語分析”的理論方法是張德祿提出的, 他師從世界著名語言大師韓禮德(Halliday), 將系統功能語言學進一步深入挖潛, 拓寬研究視角,并在系統功能語言學的基礎上提出了多模態話語分析[7]。他表示, “多模態話語分析”是指人借助感官系統跟外部事物或者環境交流互動的途徑, 是人利用感官系統和輔助工具進行社交活動的情形[8]。張德祿的系統理論研究為學者們開啟更深入的語言分析研究, 促使語言分析更全面、 更精準、 更實用打下了扎實的基底。

目前, 越來越多的學者將多模態、 多模態話語、 多模態話語分析等理論學說應用于語言翻譯相關的研究和實踐中, 如充分借助網絡技術創設翻譯資料庫、 構建使用者的資源共享平臺、 運用數字化多媒體技術展示文字等, 為充分調動參與者多個感官系統參與交流互動提供了多樣化的路徑選擇。

1.2 旅游翻譯語料庫的相關概念

語料庫也即語言詞匯數據庫, 是將人類在交流互動過程中所使用的一切語言詞匯按照既定的目標或用意進行搜集、 整合、 對齊、 應用所構建的大型語言詞匯電子數據庫。語料庫的研究常采用定量分析和定性分析相結合的方法, 其中, 定量分析主要建立在大量數據收集的基礎上, 定性分析則是對收集數據的進一步分析和研究[9]68-72。依據語料庫所包含的語言種類或數目, 語料庫可劃分為單語語料庫、 雙語語料庫、 多語語料庫。依照語料庫所表達的內容, 又可劃分為通用語料庫和專門語料庫。旅游翻譯語料庫屬于專門語料庫的一種, 且是基于語料庫翻譯學的研究基礎而逐漸展開探究和構建的。

國內有關語料庫翻譯學的研究僅數十年的時間, 學者主要基于語料庫的研究思路和方法, 將其應用于翻譯學研究, 擴展了依附語料庫建立而存在的大量結合翻譯的語料研究維度, 潛藏著語料庫翻譯研究的重要意義和廣泛的應用前景。

2 多模態話語分析與旅游翻譯語料庫的研究現狀

2.1 多模態話語分析研究現狀

朱永生在《多模態話語分析的理論基礎與研究方法》中對多模態話語分析做了非常全面的論述。首先,他溯源了多模態話語分析的理論基礎, 指出其研究還處于起步階段, 仍停留在文本語言和語法結構的淺層次探索中。其次, 他闡述了多模態話語分析的概念、研究內容、 研究方法和價值, 提出多模態語言分析需要與其他學科學者共同研究, 提倡多學科交叉研究,才能使多模態語言分析更全面更有價值[3]。

國內關于多模態的翻譯研究可以分為萌芽期、發展期、 成熟期三個階段。在研究上也取得了一定成果, 如話語分析、 影視翻譯、 翻譯教學較為完善,口譯研究較為深入等, 但也存在一些不足。第一,缺乏系統性、 綱領性研究; 第二, 跨學科研究有待跟進, 特別是與信息技術、 機器翻譯、 人工智能的融合、 與行業產業接軌不足; 第三, 研究質量不高;第四, 實用性研究領域尚待拓展和完善。今后, 深入研究不僅需要深化加強多模態翻譯的理論構建、國內外多模態翻譯比對研究、 實證經驗研究等, 更需要加快擴展跨學科的交叉研究, 把多模態翻譯與機器翻譯、 翻譯技術、 信息技術、 行業產業需求結合起來, 使研究既具有理論價值, 又具備社會、 經濟、 文化價值[10]。

2.2 旅游翻譯語料庫研究現狀

2.2.1 語料庫的研究現狀

自20 世紀80 年代伊始, 相當多的語言學家對“語料庫”展開了一輪又一輪的深入探討。最初的語料庫研究基本都是結合計算機、 互聯網的建立和應用展開的(見圖1)①數據來源于知網數據統計分析,下同。。

圖1 語料庫研究的學科分布

根據文獻統計, 語料庫與語言的結合研究始于1985 年, 白水在《言語統計和語料庫》中論述了言語統計和語料庫的關系[11]。言語統計主要是利用計算機建立語言數據庫, 語料庫則是語言統計的基礎。語料庫同時又作為語言統計的副產品, 通過搜集素材, 并將原材料合理組織, 便形成語料庫, 實現應用價值。因此, 語料庫的相關研究越來越豐富, 也幾乎成為所有語言學者們科研的必備課題。

語料庫的合理構建是語料庫廣泛應用的關鍵所在。學者們除了對語料庫元話語的研究外, 對建立語料庫的輔助工具、 建立路徑均有深入研究。目前, 使用率較高的語料庫技術工具, 如Ant conc、Sketch Engine、 BNC、 COCA 等, 適用于通用語料庫、 專業語料庫。語料庫的構建研究主要包括語言詞匯資料的搜集、 整理、 優化、 管理等。

語料庫除了語料庫語言本體研究, 學者們近年來不斷提倡語料庫相關研究的跨學科屬性, 如結合心理語言學及構式語法等認知科學, 借助功能語言學、 社會語言學、 (批評)話語分析等關注社會現實的學科進行研究(見圖2)。 同時, 注重語料庫的應用研究, 除關注語料庫在語言教育與學習中的應用之外, 還關注現實社會問題, 使語料庫的研究不再局限于語言本體[12]。

圖2 語料庫相關研究主題

2.2.2 旅游翻譯語料庫的研究現狀

語料庫翻譯學正是伴隨著語料庫研究戰略轉移的重要時期應運而生。語料庫翻譯學是基于語料庫研究與翻譯研究相結合的研究成果, 以大量的翻譯對象為研究本體, 通過詞根、 語境的多向對比相結合, 挖潛翻譯的本質[13]。在研究方法上采用實證性研究和理論綜述結合的定量與定性分析方法。但是定量研究還處于初級階段, 廣度深度仍有很大空間, 需要從單純的文本翻譯轉向多因子影響下的環境語義翻譯。

旅游翻譯語料庫的相關研究文獻數量屈指可數(見圖3)。發文量最多的2017 年也僅有13 篇(見圖4), 近年來研究量減縮明顯, 與國家提倡文旅融合的戰略背景形成反差。

圖3 旅游翻譯語料庫主要主題年度交叉統計

圖4 旅游翻譯語料庫主要主題年度發文量統計

現有旅游翻譯語料庫研究多是在現有語料庫的基礎上, 將旅游相關的語料收集、 加工、 處理,進而開發應用。但是研究并未擺脫前人所建立的語料庫所具有的某些限制因素。因而, 旅游翻譯語料庫的研究并未形成系統性的研究成果, 未對旅游文化的傳播與發展產生較好的影響。這也在一定程度上表明旅游翻譯語料庫構建的受重視程度非常低, 或者并未意識到旅游翻譯語料庫建立對于旅游行業、 國家經濟、 文化傳播的重要性和價值性。

3 多模態旅游翻譯語料庫的設計與構建

隨著現代化信息技術的更新迭代, “大數據”為我們提供了無窮的信息和技術, 但是如何利用好資源, 是解決問題的關鍵因素。面對龐大的自然語言數據庫, 享受其帶來便捷使用的同時, 我們需要不斷研究克服其所存在的巨大漏洞, 提高語料庫的使用性能。合理的語料庫構建是翻譯語料庫研究效益性和使用廣泛性的關鍵。語料庫構建一般包括數據的收集與輸入、 數據整理、 語料庫標注、 語料庫對齊、 語料庫的優化與管理五個步驟, 下面主要從以上幾個方面探究基于多模態話語分析的旅游翻譯語料庫構建及其影響因素。

3.1 數據的收集與輸入

構建語料庫, 首先是語料數據和文本的收集。數據和文本的內容主要以當地旅游官方網站上顯示的原文為主。大多數學者收集數據和文本主要通過維基百科、 孤獨星球和英國百科全書等知名網站獲得資源, 同時, 還使用You Tube 視頻和旅游雜志來收集和組織材料。語料來源的多途徑、 多維度既保證了語料的多樣性, 又保證了語料的可靠性,為旅游翻譯語料庫的構建發展提供了有力保障。

基于國家旅游官方網站、 省級旅游官方網站、出版社出版的旅游圖書及知名旅游網站信息搜索,以國家文化和旅游部統計的318 家5A 級旅游景點文本為主, 可以看出, 國內旅游資源非常豐富, 相應的旅游文本和翻譯資料也極其豐富, 但是旅游文本的內容相對比較簡單, 甚至有些內容完全缺失。例如, 山西省八路軍太行紀念館, 館內每個分區均設置了陳列墻, 為游客說明館內主要陳列內容及其歷史淵源, 但遺憾的是只有中文, 缺少同步英文翻譯, 無法實現對外文化展示和輸出[14]。其根本的影響因素是國內旅游景區普遍缺乏全球化的視野, 而且這種現象越是地域偏遠越明顯, 越經濟欠發展越突出, 不重視旅游產業的長遠發展。另外, 缺少專業化的旅游翻譯資料, 帶著與其翻譯不準確, 不如不翻譯, 或許根本不會有國外旅行者的心態, 導致旅游翻譯不到位的現狀越來越突出。

3.2 數據整理

旅游翻譯語料庫在建設過程中, 由于語料的數量非常龐大, 語料在進入語料庫后必然會導致錯置、 亂碼、 符號錯誤等現象, 因此, 需要對所收錄語料進行數據整理。例如, 學者岳嬌慧團隊建立的山西平遙對外宣傳語料庫, 詞匯高達40 016 詞[16]。語料數據整理主要分為文本數字化和文本組織兩個部分。文本數字化對于語料庫的建設至關重要,因為語料庫中的文本格式關系到程序的成功與否。此外, 由于構建語料庫的文本來源多樣, 語料大多以TXT 格式保存。因此, 需要將PDF 格式和HTML 格式的語料文本通過金山格式轉換器轉換成Word 文檔, 然后統一保存為TXT 格式。還有一些采集到質量比較高的旅游視頻因為缺少外部字幕, 導致其視頻參數無法提取, 所以需要對AVI 格式和WAV 格式的字幕進行手動提取。由于文件轉換均需要人工完成, 整理工作難度系數非常大, 且效率較低。

雖然目前的軟件應用已經相當成熟, 可以刪除所有空行、 批量添加第一行字符、 處理特殊字符等, 對文本組織有很好的輔助作用, 但還不能達到100%的準確率, 尤其針對文字的轉換和識別。因此, 經過軟件轉換后的文本仍然會包含亂碼字符、錯位和空行, 所以, 軟件操作完成后, 為了保證其高潔凈度, 需要對文本進行人工檢查和處理遺漏、詞匯拼寫等機器無法識別的錯誤。

人工整理和校核的海量詞匯語言數據庫只是解決了機器處理遺留的簡單問題, 并沒有解決旅游語料本身存在的文化內涵缺失、 文字音譯等最核心問題。例如, 位于山西省太原市的晉祠博物館, 其景區中的“文昌宮”被直接音譯為“Wen Chang Temple”,“勝瀛樓”被譯為“Sheng Ying Building”等。在太原市天龍山的景區導覽圖中, “禪堂院”被直譯為“Chan Tang Yard”。類似的情況在各大景區比比皆是, 地名的翻譯沒有一個統一的標準, 有些采用意譯, 有些直接采用漢語拼音, 其翻譯內容并沒有表達出詞義本身的文化內涵。

3.3 語料庫標注

語料庫標注是指對語料的結構組成進一步歸類, 達到高級別的檢索需求和更深入研究的過程。標注方法一般采用部分-整體關系-語音標注。由于目前關于翻譯語料庫的研究基本都基于平行雙語語料庫, 因此, 針對不同語言的標注方法存在差異[16]。在對英語語料進行標注時, 主要基于BNC 對語料詞性的劃分和縮寫對文本進行標注,但由于機器標注無法達到100%的準確率, 仍需要人工驗證, 再次增加了國內研究者難度系數。

與一般文本相比, 旅游文本是一種針對特定人群的文學形式。其語法、 詞匯、 句法和表意都具有一定的人文或自然特色。因此, 在對旅游文本進行標注時, 首先將語料按照傳統的詞性標注方式在ICTCLAS 平臺上標注詞性(包括名詞、 動詞、 介詞、 字符串等)。然后, 考察旅游文本中特有的表達方式, 并在語料庫上進行標注。由于沒有現成的軟件來完成這樣的標注, 同樣需要人工完成。在人工審讀的過程中, 需要研究旅游文本中的語音、 詞匯、 語法特征、 蘊含的修辭特征等, 對不同的修辭手段進行特定的標記。

3.4 語料庫對齊

語料庫對齊主要是對句子劃分和句子編碼。一般需要先完成中英文句子劃分, 然后將文本導入Tmxmall 和ABBYY 在線對齊。然而, 由于旅游文本的翻譯往往不完全符合逐句翻譯的原則。因此,軟件并不能完全對應這種情況。研究者需要在英語和漢語中分配代碼, 即在句子的開頭和結尾分別添加 , 這樣才能準確地形成相應的文本, 才能保證文本對齊準確率。

由于旅游翻譯的特殊性, 缺乏對旅游地點歷史、 人文、 景觀等方面的深入探析, 且缺少規范標準參考。對于大篇幅文本來說, 人工編碼是一個龐大的工程, 不僅需要標注大量的漢英詞性, 更難的是標注修辭用法。很多學者耗費大量精力所構建的旅游翻譯語料庫卻應用性極低, 資源極度浪費。

3.5 語料庫的優化與管理

語料庫的優化和管理是在語料數據收集、 整理、 標記、 對齊、 導入、 加工完成后的完善和應用階段, 對于翻譯語料庫的廣泛使用尤為重要。

由于漢英平行翻譯語料庫的數據庫具有可移植性, 可分布式操作, 這給數據庫管理帶來了新的問題。語料庫處理的數據量巨大, 通常有很多人同時處理數據。由于(數百萬條記錄)數據量巨大, 數據維護層次多, 數據并發處理能力突出, 應建立適合數據維護的管理機制。該過程主要包括: 第一,創建數據維護日志, 記錄語料處理時間等操作信息; 第二, 語料庫數據的備份存儲與完全恢復。為避免軟、 硬件崩潰造成的數據丟失, 同時, 將數據備份到臨時服務器并及時恢復; 第三, 利用數據庫本身在數據系統安全方面設置功能。為了避免網絡攻擊, 保證信息安全和數據不丟失, 必須對用戶操作進行加密; 第四, 當數據不能在一臺計算機上操作和執行時, 采用工作組機制和分布式操作。

系統硬件故障、 軟件故障、 病毒以及誤操作都會使語料庫遭到破壞。語料庫管理程序必須保證數據能夠被恢復。因此, 必要的數據備份必不可少, 語料庫管理程序應提供數據備份功能。這就需要多學科交叉融合研究, 語料庫的完善必須借助計算機應用, 實現其功能和價值。

4 基于多模態話語分析的旅游翻譯語料庫應用

4.1 為旅游及相關行業提供翻譯依據

隨著我國綜合實力的不斷增強, 國際影響力的不斷提升, 旅游業發展日益蓬勃。根據《中國入境旅游發展年度報告2020》, 我國在2019 年接待入境游客達1.45 億人次, 同比增長2.9%[17]。入境游客與日俱增, 但是與旅游業相關的基礎配套設施及服務卻跟不上, 尤其在景區標識語、 景點概況、 展品介紹等方面的英文翻譯存在巨大的問題。例如, 我國陜西省西安市作為國家乃至世界聞名的歷史文化名城, 曾在其著名的大雁塔旅游景點中對古代“藥王”孫思邈的英文簡介中使用了“drug king”。雖然drug 的語義為藥物, 但是還有麻醉、 毒品等語義。以CNKI 檢索為例, 在專業詞典《漢英社會科學大詞典》中釋義為“毒品”[18], 因此, 從社會角度來看, 普遍理解為毒品。如果“藥王”被解讀成“毒王”, 豈不成笑話。雖然該景區緊急將譯文撤下,但還是在網絡上引起了不少的輿論。此外, 還有語法問題、 語用習慣、 文化差異等造成的翻譯亂象,進而對旅游宣傳、 歷史要素、 人文情懷、 景觀環境等翻譯不準確、 表達不到位, 對我國文化輸出和國際文化交流形成巨大的阻礙。

因此, 全力引導旅游翻譯語料庫的構建, 可以為旅游及相關行業提供翻譯依據, 從而使旅游翻譯語料成為國際通識。

4.2 為旅游翻譯教學提供選擇平臺

導游人員作為旅游活動的直接輸出者, 極大程度影響了參觀游覽者對景區及其文化的理解和感受, 進而對中國文化的輸出也起到了很大的影響。目前, 我國涉外導游員的語言水平參差不齊, 大部分外語導游只能夠對景區的各個景點做翻譯式的講解, 而涉及專業領域如歷史背景、 建筑結構等方面的介紹就顯得力不從心。究其原因, 主要是因為在旅游翻譯領域沒有統一的翻譯標準, 能夠借鑒的語言材料也僅僅來源于景區的英文介紹、 現有相關出版物及導游之間的口口相傳和經驗總結。例如,在山西省旅游類院校講授山西英文導游詞所使用的教材和大部分參加山西省導游員資格考試的英語口試所使用的參考書目均為2014 年由旅游教育出版社出版的《山西英語導游》。該書作者張杰、 郝從容兩位老師在各自專業領域, 通過理論結合實踐, 將多年實際帶團中使用到的語言結合專業理論而形成的較權威的山西景點英文介紹, 在山西省內使用率非常高。但是, 該書中仍然存在部分專有名詞前后翻譯不一致, 與景區的官方翻譯存在差異等問題。

因此, 在目前的旅游翻譯教學中, 急需通過專業的、 標準的、 統一的旅游翻譯語料庫平臺輔助教學, 對教師教學、 學生自學、 學者研究均具有極大的參考價值, 有助于提升語料庫的應用效率。

4.3 為旅游業數字化建設提供制度保障

在科技不斷進步的背景下, 旅游與科技的融合已成為趨勢。虛擬現實、 人工智能等新技術的發展, 為旅游業創造了更多具有互動性和沉浸感的旅游體驗。目前, 已有許多國家加強旅游業數字化建設, 將景點或展品放到網上, 為游客提供更為豐富的旅游互動體驗和智能化服務。我國在這方面也一直穩步前進, 例如, 我國許多5A 級景區的官方主頁, 都提供數字化游覽的專欄。但是, 縱觀各類網站雖有語言的轉換, 但在切換到英文界面后, 大多數網站只是對景區概況、 網頁副標題等內容做了翻譯, 而對于具體景點和展品的英文介紹卻屈指可數或者沒有呈現。

以數字化建設走在國內最前列的故宮博物院為例, 英文版的網站界面已經做到非常詳實, 在參觀導覽、 展品介紹、 文化活動等方面的內容都基本和中文界面相匹配。但是, 在數字文物庫的英文界面下只是將一些功能區域進行了翻譯, 而對于展品的名稱卻沒有做翻譯。展品名稱翻譯的缺失, 必定會降低外國客人游覽網站的體驗感, 同時, 對于我國文化的輸出也產生了一定的阻礙性。展品英文名字的缺失, 一方面是因為展品數量巨大(搜索結果為8 萬多件展品)而阻礙了相應的翻譯工作, 另一方面是對于各類展品的具體翻譯術語是否有標準可依, 翻譯是否準確所帶來的翻譯不確定性而造成的結果。由此可見, 旅游翻譯語料庫的建設可以為旅游業的數字化建設提供有效的制度保障。

由于語言研究的復雜性和超難度, 政府、 企業、 教育、 相關行業協會需要多主體合力, 形成頂層設計框架體系, 通過具體的政策、 方針展開布局, 承上啟下引導旅游這一特色類、 專門性翻譯語料的全面開展[19]。雖然建構旅游翻譯語料庫存在體系龐大、 內容龐雜, 實操困難等問題, 但是“千里之行始于足下”, 在科技信息大爆炸時代, 使旅游翻譯有據可依, 為旅游翻譯提供信息化、 制度化的保障, 對于旅游業的發展和文化傳播具有重大且深遠的意義和價值[20]。

5 結 論

綜上所述, 旅游翻譯語料庫的構建, 特別是在多模態話語分析的框架下, 對于傳播中華文化具有重要的意義。雖然旅游翻譯在連接不同文化和推廣旅游業方面發揮著關鍵作用, 但目前的翻譯實踐卻存在不一致和不規范的問題。因此, 建立一個更加科學和標準化的旅游翻譯語料庫就顯得極為迫切。構建旅游翻譯語料庫的關鍵步驟, 包括數據的收集、 整理、 標注和管理, 還要考慮到文化內涵的準確傳達和語言的地域特色。此外, 這種語料庫在實際應用中還具有一定的潛力, 如為旅游業提供準確的翻譯參考, 為翻譯教學提供豐富的資源, 以及促進文化的有效傳播??傊?, 通過跨學科合作和社會各界的共同努力, 旅游翻譯語料庫的不斷完善可以顯著提升旅游翻譯的質量, 進而增強中華文化在國際舞臺上的影響力。

猜你喜歡
語料語料庫模態
《語料庫翻譯文體學》評介
基于語料調查的“連……都(也)……”出現的語義背景分析
國內多模態教學研究回顧與展望
華語電影作為真實語料在翻譯教學中的應用
基于JAVAEE的維吾爾中介語語料庫開發與實現
基于HHT和Prony算法的電力系統低頻振蕩模態識別
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
由單個模態構造對稱簡支梁的抗彎剛度
語料庫語言學未來發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合