基于定量分析的吳樹文翻譯文體研究

2023-12-28 09:21王子睿劉善鈺

語言與文化論壇 2023年2期

王子睿劉善鈺

1. 引言

吳樹文是我國著名的日本文學翻譯家,有《春琴抄》《田園的憂郁》等經典文學翻譯著作,同時他也是中華詩詞學會的成員。其豐厚的文學功底造就了其譯作富有文采,句式凝練,大量使用文言連詞、行文古樸典雅的文體特點。本研究嘗試基于定量研究方法,以其他譯者的重譯本為參照庫對吳樹文的翻譯文體進行計量對比分析。

語料庫研究作為一種實證性的定量研究方法,拓寬了傳統翻譯研究的范疇。通過語料庫與計量方法在翻譯研究中的應用,研究者可以以更客觀、清楚的方式呈現譯者的翻譯風格。本文應用語料庫翻譯文體學視角,運用語料庫與計量統計法對翻譯家吳樹文的譯者文體風格進行考察與分析。同時,使用基于編程語言R的文本挖掘技術對語料庫的文體進行了多指標探索,旨在回答以下問題:第一,譯者吳樹文是否具有顯著的譯者風格特征?與重譯本參照語料庫有何差異?第二,本研究限定的2種二元詞和虛詞是否可以對譯者的文體風格進行區分?吳樹文的譯作是否具有相似的翻譯文體特征?

2. 文獻綜述

2.1 文體與翻譯

文體學與翻譯學都是擁有悠久歷史的人文學科。文體學連接語言學與文學,關注文本主題意義與美學效果密切相關或偏離常規的語言特征描寫與闡釋(申丹,2002),而翻譯學則著重觀察在翻譯過程中譯者受到譯入語、譯出語的語言習慣影響而不自覺產生的譯者“痕跡”。著名的日本文學翻譯家林少華(2009)也曾指出,翻譯只能是原作者文體和譯者文體或者說文體的翻譯和翻譯的文體相妥協相融合的產物。

隨著語料庫語言學與計算機技術日新月異的發展,人文學科之間的跨學科研究空前發展,翻譯學與文體學與時俱進地吸收了語料庫語言學的基于數理統計的研究范式(王克非,2006;張德祿,2007),衍生出了語料庫翻譯學與語料庫文體學等重視量化分析、實證研究的新生學科(盧衛中等,2010;雷茜等,2016;胡開寶,2018)。利用語料庫進行文學與翻譯研究,可以科學地觀察出文體學家觀察不到的某些文體差異,對作者或者譯者的一些難以捉摸的、習慣性的語言特征進行描述、分析、對比,從而較為信服地說明個人文體的存在,也能夠有力地證明林少華(2009)所說的翻譯是“相妥協相融合的產物”。

與此同時,由于人文學科的跨學科發展與研究方法的互相借鑒,基于計量與語料庫方法的文體學與翻譯學也有學科共融之勢。在這種學科相互融合、研究范式互相接近吸收的背景下,翻譯研究、文體學和語料庫語言學相互關照,催生了語料庫翻譯文體學的誕生和成長(王峰等,2017)。

2.2 基于計量方法的語料庫翻譯文體學

語料庫翻譯文體學的發展主要得益于計算機文本處理能力的進步與人文學科的跨學科化。黃立波(2009;2014)指出語料庫翻譯文體學通過語言對比這一共性特征,將傳統文體學研究與翻譯研究加以結合,以基于真實語料和詞頻信息的統計數據作為分析文體的重要參考。Saldanha(2011)對譯者風格研究提出了2種不同的詮釋方式,即“原文本型譯者風格”研究和“目標文本型譯者風格”研究。前者主要關注譯者如何在翻譯文本中表現原文中的某些語言特征,而后者則主要關注譯者特有的表達方式。相比之下,國內譯者風格研究起步稍晚,且主要采用原文本型研究方法, 僅少數研究將目光投入譯者的文體研究并采用了目標文本型研究方法(劉澤權等,2011; 黃立波等,2012)。

雖然一些翻譯學研究者開始接受基于計量方法的語料庫翻譯學研究模式,并且以各種翻譯實踐中的案例,以定性與定量相結合的方式展開了各種翻譯研究,但是此類研究因受限于技術、工具的不足,加之研究者采用的計量方法往往局限于平均詞長、平均句長、標準化類符/形符比(STTR)等基本的形式參數,其結果難以對譯者的總體文體特征進行說明。以往的工具也不具備可視化能力,無法更加直觀地觀察數據與分析的結果,這就促使研究者對使用工具、指標、定量研究方法進行更新。

語料庫翻譯文體學需要對既往的研究方法與理論框架進行反思,對此,在綜述研究中,黃立波(2018)指出譯者風格研究理念主要來源于早期關于作者權歸屬和計量風格學研究,譯者風格研究不同于僅關注局部語言特征的計量風格研究,基于語料庫的翻譯文體研究應當拓寬思路,向語義、語用、修辭、社會與文化參數拓展,借鑒語料庫文體學、計量語言學、計算語言學等相鄰領域的研究方法,將定量統計與定性分析有機結合起來,拓寬翻譯文體或風格研究的范圍。胡開寶(2018)指出當代數字人文研究愈來愈重視文本深度挖掘和智能分析等方法的應用,強調數據的可視化,翻譯研究也該吸收先進技術,深度分析翻譯本質和翻譯規律。數字人文視域下的翻譯研究呈現數字化、實證性、文本挖掘技術的融合,微觀描寫與宏觀解釋并重的趨勢。在個案研究中,詹菊紅和蔣躍(2017)嘗試基于機器學習中的支持向量機算法對《傲慢與偏見》的2個譯本進行了譯者的判別分析,有效地發現了譯本之間在語言形式參數上的差異?？椎妈?2021)嘗試以機器學習中的支持向量機、樸素葉貝斯、聚類分析等作為算法,證明了《苔絲》的張若谷譯本具有獨特的文學譯者特征。

在語料庫翻譯學研究領域,眾多學者將理論方法積極與文體學、敘事學等理論相結合,實踐方面緊跟數字人文潮流,引入定量分析與文本挖掘技術,做出了許多具有創新性又極具跨學科意識的研究。本研究在既往的研究范式上作出新的嘗試,使用無監督學習中的聚類分析和對應分析對部分文首和文末的二元詞與65個虛詞的使用頻率進行譯者風格的探索。

3. 文本語料處理與文體特征比較

3.1 實驗設計

首先在語料庫方面,本研究建立了2個語料庫,收錄吳樹文6部翻譯作品作為觀察語料庫,簡稱W庫;另收集6部岳遠坤、曹曼、章蓓蕾的重譯作品作為對比語料庫,簡稱R庫。為了保證文學作品本身的文體特點不影響數據的分析,本研究保持R庫收錄的譯出語作品與W庫一致。

在分詞器上,為了得到更高的分詞精度和使用新詞發現功能,本研究利用張華平和商建云(2019)開發的NLPIR分詞器對W庫、R庫分別進行分詞、詞性賦碼,使用Benoit等(2018)開發的R開源包quanteda包進行語料庫管理和語料清洗,刪除部分影響數據準確性的字母、數字、換行符等信息。語料庫W庫、R庫收錄的作品如表1所示。

表1 語料庫內收錄作品

在文體參數方面,首先采用quanteda包中的R(Guiraud)指數和U(Dugast)指數來計算W庫與R庫的詞匯豐富程度。其次,在成語使用率方面,由于計算機賦碼技術對長文本的識別精度不高,本研究將搜狗詞庫收錄的54089條四字成語嵌入分詞工具,并且使用quanteda包中的tokens＿select函數計算每個文本中成語的出現頻率。在句長方面,用R語言自定義兩個函數分別統計句長與句段長。

為了檢驗譯者翻譯作品中文首和文末的語言表達和虛詞使用是否可以證明譯者文體風格的存在,本研究選取了2步實驗進行驗證。首先抽取了 “,＿單詞” “。＿單詞”與 “單詞＿,”“單詞＿?！?種模式的二元詞,測算距離后通過Sébastien Lê等人(2008)開發的FactoMineR包進行K均值聚類分析可視化觀察不同譯本之間的相似程度。其次抽取了65個虛詞通過FactoMineR包繪制對應分析圖來觀察不同譯者的翻譯作品與虛詞使用之間的關系。

3.2 無監督學習方法

本研究使用了聚類分析(Cluster Analysis)和對應分析( Correspondence Analysis)2種無監督學習方法對譯者的文體特征進行分析。在數字人文研究中,有不少研究將文本挖掘技術引入傳統文學研究中來,例如劉穎和肖天久(2014)針對金庸和古龍的小說中不同詞類的使用頻率進行K-means 聚類,發現二者文體存在顯著的差異。葉雷(2016)利用聚類方法分析《紅樓夢》,證明了聚類分析方法在作者文體識別研究中的有效性。對應分析也稱關聯分析、R-Q型因子分析,對應分析的基本思想是將一個列聯表中的行與列的各元素以低維空間的形式表示出來,以降維的思想達到簡化數據結構的目的,使列聯表中的數據在圖上直觀、明了地顯示出來。

4. 文體參數對比

4.1 詞匯豐富度

為了把握吳樹文的基本的文本特征,本研究嘗試使用編程語言R及相關開源包,從詞匯豐富度、成語使用、句長與句段長方面考察吳樹文翻譯文本語料庫(W庫)與重譯文本語料庫(R庫)的差異。

首先,形符(Token)即一個分詞后的單詞單位,而類符(Type)是指不重復的形符總數。詞匯豐富度指標可以體現譯本詞匯的豐富程度,觀察譯者的用詞情況。但是由于形符與類符計算方式截然不同,所以本研究嘗試同時使用兩個指標,即采用了quanteda中的textstat＿lexdiv函數計算R(Guiraud)指數和U(Dugast)指數,將其結果分語料庫統計,然后以箱線圖的形式輸出觀察。如圖1(a)圖、(b)圖所示,W庫的R指數與U指數普遍高于參照R庫,呈現出翻譯家吳樹文較參照語料庫而言用詞更豐富多樣的特點。

4.2 成語的使用率

四字成語在音韻上具有節奏美,詞匯角度上具有整齊美,語義角度上具有意象美,適當的四字成語的使用可以增強文章的表現力,增加譯文獨特的韻味(李大鵬等,2015)。四字成語源于我國古代人民長久的智慧與思維的凝結,而日語受漢語影響,經由文化誤讀產生了大量帶有民族特色的四字成語,所以日語文本與漢語中的成語有一定的不對等性,譯者往往會選擇加譯、減譯、改譯等翻譯策略。在翻譯的過程中,經過譯者的加工、過濾,原文的文體往往會被重塑,帶上譯者個人的風格。翻譯文本中四字成語占總形符比的大小可以體現出譯本的歸化與異化傾向。成語是相沿習用的,有很強的歷史繼承性與很深的文化烙印,使用成語會讓譯文帶有明顯的文化歸化特征,文化方面的歸化不僅會限制讀者視野,更會讓讀者產生時代、民族和文化的錯位感(蔣志輝等,2014)。為了探究翻譯家吳樹文在成語層面的翻譯文體風格,本研究統計了不同譯者的成語使用頻率,并繪制箱線圖如圖1(c)圖所示?？梢杂^察出翻譯家吳樹文在翻譯時使用了更多的四字成語,更偏向目的語讀者語境,呈現言簡意賅的文體特征。

圖1 不同譯者詞匯豐富度R指數、U指數與成語使用頻率比較

4.3 句長與句段長

句長作為文體研究指標的歷史已久,而句段長往往被研究者所忽視。句長是表示一句話里所含詞數或字數,句可以再細分為句段,一個句段則是以問號、句號、逗號、感嘆號、分號作為分割標志。實際上,在漢語中,句段長比句長更能體現出翻譯語言的個性特點(秦洪武,2010;肖忠華,2012)。句長與句段長反映了作者的文體特征,翻譯文本中的句長與句段長則體現了譯者對譯出語的結構性改造,不僅具有譯出語作者的文體特征,也隱藏著譯者的翻譯文體特征。由于不同作者的文體特征不一致,全部翻譯文本的平均句長難以反映譯者個人的文體風格,為了保證語料庫具有可比性,所以本研究根據W庫與R庫的分類以作品為單位分別統計每個作品對應的數據,如表2所示。

從表2可以觀察到,無論是W庫還是R庫,日本文學作品《春琴抄》的平均句長是所有作品中最高的,這與原作盡可能省略標點符號的文體因素脫不開關系,受原作文體影響與限制,相應的譯本中也呈現出了句長數值較高的文體特征。但觀察句段長時,可以發現吳樹文更傾向于將較長的句子拆解為句段,對原文文體進行改造。而在佐藤春夫《阿絹兄妹》(又譯為《阿娟和她的哥哥》)與《田園的憂郁》中,與R庫的翻譯文本相比,吳樹文保留長句的特點更明顯。在翻譯夏目漱石“人生三部曲”的(《三四郎》《后來的事》《門》)3部作品時,都保持著較短的平均句長、平均句段長,體現出了翻譯家吳樹文在對不同文學作品翻譯時采取不同翻譯策略的特點。

表2 平均句長、平均句段長、每句所含句段長數對比

5. 基于多元統計方法的譯者風格分析

5.1 基于聚類分析的譯者的文首、文末文體風格

在特征的選擇上,為了盡量減少原作文體特征對譯者風格分析產生影響,本研究在K均值聚類中嘗試性地選擇了反應譯者文首文體風格的“,＿單詞” “。＿單詞”與文末文體風格的“單詞＿,”“單詞＿?！?種二元詞模式。

本研究先將分詞后的語料庫轉化為二元詞的形式,再抽取上述的2種二元詞模式,導入quanteda包處理為詞頻文檔矩陣,再對統計數據進行標準化處理,進而對得到的結果進行K均值聚類分析,因語料庫中包含4位譯者,故聚類時選擇聚成4類,如圖2所示。

由圖2(a)可以觀察到,體現譯者文首文體風格的“,＿單詞” “。＿單詞”2種二元詞聚類效果并不理想,不同譯者的原作被聚類到相同的簇中,例如《三四郎》的吳樹文譯本和章蓓蕾譯本被聚類到同一個簇。但文末文體風格的“單詞＿,”“單詞＿?！钡腒均值聚類圖將吳樹文的6部翻譯作品聚成一簇,如圖2(b)所示,說明選取的文末二元詞可以明顯地判別出吳樹文的文體,而其他譯者例如岳遠坤、章蓓蕾也被分類到了不同簇,曹曼譯《春琴抄》也沒有因為譯出語文體與吳樹文譯本相似而聚類到一簇,證明文末二元詞在判別譯者的文末文體風格上比文首的二元詞有更好的效果。這是因為譯出語在翻譯到中文時往往會伴隨著顯化主語的傾向,位于句子前段的二元詞會帶有顯著的原作的文體風格。

(a)基于“,_單詞”“。_單詞”的K均值聚類

(b)基于“單詞_,”“單詞_?！钡腒均值聚類

5.2 基于對應分析的虛詞使用風格分析

虛詞泛指僅具有語法意義但沒有實質性意義的詞語,不能獨立成句,必須依附于實詞而存在。翻譯文本中的實詞往往不會因翻譯者的主觀傾向而改變其在譯入語中的意義,而虛詞則不同,譯者在翻譯中對虛詞的使用往往是無意識的體現,虛詞的使用頻率與文學者或譯者的文學素養、翻譯策略、所處時代等多種要素有關,常被作為作者判別的重要依據。劉穎和肖天久(2014)將49個虛詞作為考察對象,利用層次聚類方法考察了金庸與古龍的小說在虛詞使用上的文體差異。施建軍(2011)將44個文言虛字頻率作為特征向量,利用支持向量機算法斷定《紅樓夢》前80回和后40回并非同一人所作。

不同譯者的虛詞使用習慣不同。通過對比不同譯本的虛詞使用情況,可以把握譯者在虛詞使用上的文體特征。本研究選擇了61個具有代表性的文言虛詞來進行對應分析,以檢驗不同譯者的翻譯作品與虛詞使用情況的對應關系。本文抽取的虛詞為“和、跟、與、同、及、況、況且、何況、乃至、則、乃、就、于是、說到、此外、像、如、一般、比方、卻、但是、然而、而、偏偏、只是、不過、至于、致、不料、豈知、原來、因為、由于、以便、因此、所以、是故、以致、或、抑、若、如果、若是、假如、假使、倘若、要是、譬如、像、好比、如同、似乎、等于、不如、不及、與其、雖然、固然、盡管、縱然、即使”。

本研究抽取了以上所述文言虛詞,并進行頻率計算與標準化,繪制對應分析圖,將代表譯本的圖形調整為圓形,得到結果如圖3所示。通過圖3可以觀察到吳樹文的譯本都位于圖的右側,與文言虛詞的使用呈現了相應的分布特征,其他譯者的譯本則位于圖的左側與下側居多,與吳樹文的文體特征相比,呈現出不同的文言虛詞使用特征。

圖3 不同譯作虛詞使用頻率的對應分析

6. 實驗結果分析

本研究首先從詞匯豐富度、成語的使用率、句長與句段長等基礎參數考察了翻譯家吳樹文的基本文體特征。在此基礎上還嘗試使用體現譯者文首、文末文體風格的二元詞進行了K均值聚類分析,此外還抽取了61個文言虛詞進行了對應分析,以期從多元視角探討吳樹文的翻譯風格。

通過實驗得知,在詞匯使用方面,R指數與U指數顯示譯者吳樹文使用詞匯較參照語料庫更豐富、重復率更低的特點。成語使用率顯示譯者吳樹文較參照語料庫使用了更多的四字成語。句長與句段長顯示吳樹文在應對不同作品時對譯出語的語言結構進行了不同程度的調整,印證了“翻譯文體是作者文體與譯者文體的融合物”的觀點,句長與句段長不僅由譯者操控,而且也深受譯出語文體的影響。本研究為了盡可能消除譯出語原作文體對譯者文體判別所產生的影響,嘗試性地使用了體現譯者文首、文末文體風格的二元詞進行K均值聚類分析,發現體現文末文體風格的二元詞可以減少譯出語文體特征的干擾,有效地證明了譯者文末表達存在譯者個人的文體特征。最后本文抽取61個具有代表性的虛詞,利用對應分析對2個語料庫的12部作品進行了比較,對應分析圖顯示吳樹文的6部作品被聚在相近的位置,說明吳樹文在虛詞使用方面呈現出獨特的譯者文體特點。

本研究為了減少譯出語文體對數據的影響,在嘗試進行K均值聚類時,沒有對所有的二元詞進行抽取,僅抽取了其中文首、文末的2種二元詞,減少了其他實詞對聚類分析的影響。如果不人為地制定N元詞的選取規則,在同類實詞或者譯出語即原作文體的影響下,同一部作品的譯本會被聚類到一簇,影響研究結果的可信性。正如林少華曾言,純凈水一般文體的翻譯是沒有的,翻譯只能是原作者文體和譯者文體或文體的翻譯和翻譯的文體相妥協相融合的產物。關注譯者文體的翻譯文體研究不僅要關注翻譯文體本身,而且要把握原作者文體對翻譯文體的影響,如果將譯者的文體比作“腳印”,那么原作者的文體即“影子”,在運用數理化統計方法對譯者的翻譯文體進行研究時,應該盡量減少原作文體對數據分析產生的影響。

最后,本研究受限于電子化語料的不足,分析對象僅選取了譯者吳樹文的6部作品與重譯本參照語料庫的6部作品,在分析方法中也僅選取了聚類分析與對應分析2種算法,在未來應該擴大語料資源,嘗試采用監督學習方法進行譯者文體的判別研究。