?

儒學海外傳播的探索性數據分析

2017-01-17 05:22秦洪武
當代外語研究 2016年6期
關鍵詞:儒學可視化文本

秦洪武 孔 蕾

(曲阜師范大學,曲阜,273165)

儒學海外傳播的探索性數據分析

秦洪武 孔 蕾

(曲阜師范大學,曲阜,273165)

儒學是中國文化的主體,儒學海外傳播是中國文化走出去戰略的重要組成部分。儒學海外傳播源遠流長,內容和形式日新月異,但海外傳播對策的針對性有待增強,傳播效果有待提高。鑒于此,有必要使用科學有效的方法對儒學海外傳播的歷時進程進行系統梳理和分析。本文探討儒學海外傳播數據庫的創建和應用,探索此類數據的挖掘和描述方法。研究認為,隨著文本數據挖掘技術日益成熟,我們可以從儒學海外傳播數據中獲得多維、多層面的傳播信息。這將為科學制定中國文化走出去戰略提供更有力的數據支持。

儒學海外傳播,數據庫,數據挖掘

1.引言

接受方引入中國文化大致經歷了三個階段:從夢境般贊美(馬可·波羅,13~14世紀),到現實中國描述(西方傳教士,16~18世紀),再到蔑視和扭曲中國文化(18世紀后)(Spencer 1998;Robinson 2009)。Robinson(2009)認為,中華文明總是被描述成“他者”,一種與西方對立的文明。從這個角度看,西人引入中國文化意在尋找異質的“他者”以反襯自身的優越感。那么,這是否是西方傳播儒學一以貫之的真實目的?這個問題目前還無法得到明確的回答。

推介方主動輸出漢語文化主要出現于20世紀。黃友義認為,我們在國際市場上是弱勢;文化地位處于弱勢就只有主動出擊、主動推介(鮑曉英2013)。這種自覺地、主動地推介始于民國時期,當時已有部分中國文學和哲學著作的外譯;受政治因素影響,新中國建立后的前30年,以政治、法律、文獻類文本的外譯和傳播為主;1980年后外譯內容變得豐富,品種更多。而在當下,有越來越多對外傳播文本開始直接由英語母語者直接撰寫。

提升中國文化話語權即提升中國文化在海外受納的能力。但投入高成效低的問題突出,爭取國際文化話語權的努力收效不彰。這一狀況的成因復雜。從接受角度看,主要原因是我們對海外受眾接受中國文化的方式缺少充分的了解,無法有的放矢地傳播中國文化。

當代中華文化海外傳播研究有三個重點領域。一是接受環境,二是目標讀者的閱讀取向,三是傳播方式(何明星2013;高方、許鈞2010;張朝意2015)。我們已經在第一和第二個領域做了不少工作,但迄今為止的研究多基于數量極為有限的典型史實,在此基礎上進行的研究容易過度解釋。事實上,不關注文本,就無法關照思想和觀念的形成過程,也就無法真正反映儒學文化在海外傳播的真實狀況。

需要指出,迄今為止,我們的對外傳播研究大多關注翻譯文本的接受狀況,但對主動引入型的接受研究不夠。而事實上,后者更具傳播的普遍性,也更有價值,需要我們著力去分析和了解。要充分了解中國文化海外接受的狀況,需要盡可能充足的數據。過去,受技術限制,我們無法獲得和處理大量的相關數據,與文化傳播相關的決策多憑主觀判斷。在信息技術不斷發展和日益完善的今天,我們已經有能力大量挖掘數據,為政策的制定和實施提供支持。本文探討該類數據庫的設計,探索傳播數據的處理原則和方法,探討相關數據的可視化問題并報告初步的發現。

2.儒學海外傳播數據建設:必要性和可行性

長期以來,我們關注如何接受外來文化,重視自身文化在海外受納的范圍和廣度,但極少關注受納端表述中國文化的方式和途徑。這使得我們始終無法對受納方的文化接受環境、讀者閱讀取向和主要的傳播方式做深入、系統的研究,當然也無法了解中國文化海外接受的真實狀態(張春柏2015)。更值得注意的是,我們大多是在不充分分析和了解海外接受狀況的狀態下制定文化海外傳播對策的,這在一定程度上降低了中國文化海外傳播的成效。為應對這一狀況,我們建立儒學海外傳播數據庫,嘗試深入海外儒學研究文本之中,深度挖掘數據,探尋海外接受儒學的方式并描述此類傳播話語的模式、趨向和熱點。知己知彼,才能講好中國故事,提升中國文化海外傳播的效果。

海外儒學研究數據庫能夠提供大量的文本數據,經過數據過濾、統計,能提供與儒學海外傳播相關的各種信息。其可行性表現在以下幾個方面:首先,儒學海外傳播文本數據獲取方便、快捷,可以通過互聯網存取主要圖書數據資源;其次,數據的轉換和存儲方便,不能機讀的數據可以通過各種識別軟件變為可機讀資料,而且存儲方式多樣,簡單的純文本語料存儲幾乎不受限制;此外,當代的信息檢索技術日臻成熟,能夠為我們高效提取數據,發揮數據在研究和決策中的支撐作用。

儒學海外傳播數據庫建成后能為我國制定文化走出去戰略提供關鍵數據支持,也能為學術研究提供第一手資料。在全球化迅猛發展的今天,信息交換便捷高效,儒學海外數據庫的建設擁有充分的數據來源。因此,從技術和數據來源上看,建設儒學海外傳播數據庫適逢其時。

3.數據庫設計

數據的獲取:通過網絡搜集、Google Books、chroniclingamerica、NowCorpus等多種來源獲得以孔子和儒學為關鍵詞的索引,根據索引獲取相關文本,不限量地收集17世紀以來以英語為媒介傳播的海外儒學研究樣本,建立海外儒學研究數據庫(1000萬詞)。該數據庫將用于觀察和分析海外儒學研究焦點和偏好的歷時變化,并發現可能存在的趨勢或傾向。同時,我們還創建和使用了對比文本庫,即漢語儒學研究文本數據庫。該數據庫將用于和儒學海外傳播數據進行類比,發現儒學海外傳播的熱點或偏好。

根據研究需要,本研究為語料樣本添加篇頭元數據(時間、國別、母語文化、社會意識形態、宗教信仰、體裁等),以方便按特定條件檢索和提取信息。研究還建設檢索平臺,支持多層面的文本數據分析。除具備普通檢索功能外,該平臺還嵌入可視化研究熱點描述引擎,并提供節點詞搭配信息。

4.數據庫的處理:原則和方法

與儒學海外傳播相關的有個體概念,如“仁”、“義”,這些概念均屬儒學核心概念。大多數儒學核心概念都有很多種漢語和外語表達方式,如“中庸”這個概念在英語里可能的表達方式有“Chung yung| zhong yong|zhongyong|Doctrine of the Mean|中庸|中”。要檢索相關的概念,就需要多次檢索,這會嚴重影響提取效率。為此,我們考慮將同一概念的不同形式統一賦碼,如賦碼為“ZHYONG”。

根據這一思路,我們對儒學相關概念進行了標注和分類,并在此基礎上建立了儒學雙語術語表。根據在海外傳播時使用的實際狀況,區分以下九類概念:

文集(TXT)、文學語言符號(LLS)、學派(GAS)、地理歷史事件(GHE)、朝代官員(DTR)、儒學思想(CNP)、人物生平(BEN)、宇宙神話(ACM)、建筑藝術(AAI)。

每類概念下包含多種概念,如 CNP中包含“XINF(信)、XINGN(性)、YIC(易)”這些儒學思想與概念。儒學研究雙語術語如表1所示。

表1 儒學概念英漢語對譯示例

基于這一概念分類,對文本實施語義標注,編寫賦碼程序,以便于儒學研究信息的提取、分類和描述。程序使用的替換代碼如下:

MYMline=~s/(i|righteousness|rightness| byi|yi|righteousness|justice|rightness |義|義)/MYM1 CNP YIR/g;

我們可以借助于這一工具把“義”這個概念的各種表達形式(英語和漢語)統一編碼為YIR和它的上義概念CNP。這樣標注有助于我們獲得各類概念可靠的頻率信息,方便后續的統計和分析。

標注之后的工作是從儒學海外傳播文本中提取和分析數據。我們使用目前廣泛使用的數據挖掘手段分析數據。主要工具有文本特征比較(stylo)、情感和主觀性分析(sentiment)、一致樹(consensus tree)分析。相關數據可以數字形式表達,但本項研究更側重數據的可視化,因為后者能更直觀地判斷和搜尋研究問題。

5.探討數據可視化探索

5.1 數字數據的挖掘

本文對數據的處理采用兩種方式:一是數字型數據的呈現;二是數據的可視化。有些數字型數據本身就能明確顯示異同,這時只需使用數字表達;如果數字太多無法觀察,則考慮使用可視化手段呈現。常見的數字類數據有以下幾種。

搭配類:下面呈現的是Confucius和virtue兩個節點詞在給定儒學傳播文獻中的搭配信息(為節省篇幅,只呈現部分信息)。從表 2可以看出,與Confucius搭配的信息有意義,即孔子的生平(ben)、孔子周游列國和仕途(duke,state,minister)以及孔子的言語(asked,advice,said)。而與virtue搭配的詞沒有明顯的信息點,這提示我們,目前狀況下,可以在給定語料范圍內放棄對virtue的探討。

表2 Confucius和virtue兩個節點詞的搭配信息

還有一類數字數據可以使用,也可以不用。如下面呈現的是給定語料庫中的前20個最高頻詞。需要說明的是,數據挖掘產生的詞頻表和一般語料統計的詞頻表不完全一樣。數據挖掘更傾向于使用停詞(stopwords),剔除功能詞或者語法詞,只呈現實義詞,如表3所示。

表3 語料庫中的前20個最高頻詞

Chinese Chinese 160

為節省篇幅,這里只呈現了前20個最高頻詞中的九個詞,這種呈現本身比較直觀,能夠說明給定語料中孔子的生平和儒學思想等主體內容。當然,如果需要,這些數據也可以通過柱形圖來呈現,有關內容見5.2節。

5.2 數據的可視化

5.2.1 詞云的使用

詞云又稱標簽云(tag cloud),它以可見的、直觀的方式表達文本數據。詞(或標簽)多為單個詞,其重要性通常以字號或顏色來表達。這種呈現方式非常有用,能快速捕捉到探索對象和范圍中最重要的項目。本文采用的詞云中,項目字體的大小代表該項目出現的頻次,頻次的大小在左側的最高頻詞柱形圖中有體現(見圖1)。

圖1 1730~1740的詞云(右側)和最高頻20詞(左側)

5.2.2 情感分析的使用

情感分析是利用既有的情感詞表匹配給定文本中相應的情感詞,并依據頻率,采用貝葉斯算法進行情感歸類(Naive Bayes Classification Algorithm),得到情感傾向的計算結果。目前使用的情感分析包將情感分為“喜(joy)、怒(anger)、恐懼(fear)、悲傷(sadness)、驚訝(surprise)、厭惡(disgust)、未知(unknown)”等幾個域。同時,我們也使用該分析包分析了主觀極性分析,涉及積極、消極和中性情感。該分析以文本中的自然段為計算單位,如圖2所示。

如圖2所示,下半部分窗口顯示被分析的對象,即編號為1的段落。上半部分表格的第一行顯示的是編號為1的段落中各類情感的得分。得分明顯高者占優勢,即最后一列顯示該段的情感的最終屬性。亦即第一段的情感基調為joy。

表4是段落的情感計算結果:數字讀為第n段; NA指沒有明確賦值,詞云圖中沒有明確賦值的詞分布在unknown區塊(見圖2)。

另一種呈現方式是情感分布圖。情感分布圖來自表4的情感傾向運算結果。該結果最終呈現的可視性分布特征如圖3所示。

表4 對1730-1740子庫中各自然段的情感分析結果

圖3 情感傾向可視性分布特征

情感分布圖顯示,除去無法確定的情感歸屬,可以確定情感歸屬的六類情感中,joy類情感最多,其次為anger,而fear、sadness、surprise頻率很低。圖3表明,1730~1740年這一段時間西方儒學研究者所持的情感態度主流是joy,是積極的。

與情感分布相關但更宏觀的分類是主觀性分布圖。主觀性分布圖來自附錄1的主觀極性運算結果。極性運算只涉及積極、中性、消極態度,該結果最終呈現的可視性分布特征如下:

圖4顯示,儒學海外傳播1730~1740年文獻子庫統計結果傾向于認定西方對儒學思想的基本態度是正面的,負面態度幾乎可以不計。這一態度表達方式顯然有助于我們直觀觀察西方儒學傳播在態度上的整體狀況。

情感分析最直觀的方式是情感詞的可視化。情感詞是調用sentiment中的classify_sentiment函數。該函數將文本進行情感分類(包括anger,disgust,fear,joy,sadness,surprise)。使用的貝葉斯分類工具已根據Carlo Strapparava&Alessandro Valitutti所做的情感詞表上訓練過。比如,idolatry和idols這兩個詞不一定只涉及一類情感,它們可能涉及多類情感。

圖4 主觀態度可視性分布圖

表5 idolatry和idols的情感特征分布

值較高的更可能以相對大的字體呈現,如idolatry;涉及多類的更可能在相關類的邊界放置,如idols。

圖5 儒學海外傳播1730~1740年文獻子庫中情感詞的分布狀況

不同時期的情感分析結果可以用來比較和分析。如圖6所反映的是1900~2000年西方儒學傳播文本中的情感分布狀況。

圖6 儒學海外傳播1990~2000年文獻子庫中情感詞的分布狀況

通過圖5和圖6詞云對比,可明顯看出西方儒學傳播在不同時代呈現情感詞使用的變化。比如圖6多出了一個情感類別disgust(厭惡);圖6在joy類情感詞使用上更為豐富,顯示對孔子和儒學的正面評價日趨充分,而fear類詞的使用要少于圖5,似乎表明隨著交流的日益頻繁,隨著對儒學和中國文化的了解日益加深,西方對孔子和儒學陌生和恐懼感在日漸減少,負面評價也在減少。我們可能無法從詞云圖上做出充分的描述和解釋,但詞云圖確實可以幫助我們找到有意義的研究問題,并帶著這個問題回到文本之中作更深入的探索。

5.2.3 一致樹分析

一致樹便于總結兩個或兩個以上的樹(tree)之間的一致性。我們使用這一計算功能觀察儒學海外傳播中的英語原創文本和英語翻譯文本(只選用《論語》的十個譯本)之間可能存在的關系。由于這些文本之間存在的一致性可能較弱,我們使用的是“多數即為一致的”分析(majority rule consensus)。納入一致樹分析的有16個樣本,其中屬于英語撰寫的儒學研究文獻有六個,前綴為”KZHW_”?!墩撜Z》的譯本有十個,前綴為“lunyu_”。樣本如下:

在數據分析和數據挖掘的過程中,我們往往需要了解個體間的異同,由此評價個體間的相似性并嘗試分類。要實現這一目的,最常見的數據分析是相關分析,以及數據挖掘中的分類和聚類算法。

為了方便下面的解釋和舉例,先設定我們要比較X個體和Y個體間的差異,它們都包含了N個維的特征,這里是100~10000個最常用詞的詞頻特征,即X=(x1,x2,x3,… xn),Y=(y1,y2,y3,…yn)。通過距離度量來衡量兩者的差異。

距離度量(Distance)用于衡量個體在空間上存在的距離,距離越遠說明個體間的差異越大。Stylo使用的是常見的歐幾里得距離 (Euclidean Distance),衡量多維中各個點之間的絕對距離。公式如下:

數據剔除(CULLING)不預設一個詞在給定文本中出現的比例(如20指列入計算的某個詞在20%的給定文本中出現過),但按照詞在 0、20%、40%、60%、80%、100%的樣本中的出現比例累計,并得到距離值之和。數值越大說明距離越遠。以這種方式進行計算會產生很多計算結果,呈現的部分結果見附錄3??梢暤挠嬎憬Y果為圖7的帶狀一致樹圖。

圖7 帶狀一致樹圖

如圖 7所示,兩個《論語》英譯本,即 lunyu_ ESlingerlandLunyu2003和lunyu_GHMINGS1898與英語原創儒學傳播樣本在用詞特征上存在較強的一致性。換言之,兩個譯本在用詞上更貼近英語原創儒學傳播文本;這一判斷在附錄2的數值上也有清晰的表達:這兩個文本(分別標示為第一列中的11和 12)和英語原創儒學傳播文本(第一行中的1~6)的對應值明顯低于《論語》英譯文本(第一行中7、8、9、10、13、14、15、16)。這一預測可以幫助我們將研究焦點鎖定為這兩個譯本的語言特征,為下一步的分析提供可靠的線索和依據。

6.結語

在信息化時代,對數據的挖掘是獲取有效信息、促進社會發展的重要途徑。數據挖掘支持探索性研究,而這類研究可以避開先入之見,更利于捕捉有意義的研究問題。從這個意義上說,本文探討的數據分析可以成為儒學海外傳播研究中研究問題的來源。若賦碼得當、分類清晰,儒學海外傳播數據的可視化完全可以實現,也具有強大的數據支持功能。

本文將數據分析的對象聚焦于文本內容,借此探索儒學海外研究中經由其他手段無法獲得的有價值的研究對象。比如,通過基于頻率的可視化數據可以直觀觀察儒學思想在域外傳播的偏好、態度、儒學文化在另一文化中生存的過程、儒學在另一文化中的主要傳播方式,等等。這些數據的挖掘并不基于推測,也不基于特定假設,而是基于數據內部的相對突出程度。這種探索性描述可以幫助我們找到真正有價值的研究問題。

無充分數據支持,信息注定是片面的。對信息的充分描述是充分解釋的前提。數據挖掘可為充分描寫提供更大的可能性。有了可靠的描寫手段和工具,我們就有望基于可靠的數據,有針對性地制定文化走出去戰略,并在對外翻譯時更多關注翻譯策略使用的文化意義,增強文化傳播效應。

當然,本文探討的數據可視化更強調它在研究中的輔助作用,可視化本身不是研究的目的。但合理運用這一手段便于我們在更大范圍內捕捉有實質意義的研究問題,為相關研究提供有力的數據支持,成就更具理論價值和應用價值的學術研究。

Robinson,K.2009.The other pole of human existence:Western representations of China between the 13th and 18th centuries[J].Cross-sections(Volume V):57-63.

Spencer,D.1998.The Chan’s Great Continent:China in Western Mind[M].New York:W.W.Norton&Company.

鮑曉英.2013.中國文化“走出去”之譯介模式探索——中國外文局副局長兼總編輯黃友義訪談錄[J].中國翻譯(05):62-65.

高方、許鈞.2010.現狀、問題與建議—─關于中國文學走出去的思考[J].中國翻譯(06):5-9.

何明星.2013.中國文化對外翻譯出版60年[J].出版發行研究(6):28-31.

張朝意.2015.建設具有中國特色的對外話語體系的戰略思考[J].對外傳播(10):53-55.

張春柏.2015.如何講述中國故事:全球化背景下中國文學的外譯問題[J].外語教學理論與實踐(4):9-14.

附錄1 主觀極性計算結果(子庫的前20段,共242段)

>class_pol POS NEG POS/NEG BEST_FIT[1,] 89.76 42.82 2.10 positive[2,] 1.03 0.45 2.32 positive[3,] 108.03 71.30 1.52 neutral[4,] 1.03 0.45 2.32 positive[5,] 66.51 0.45 149.30 positive[6,] 1.03 0.45 2.32 positive[7,] 56.67 17.81 3.18 positive[8,] 1.03 0.45 2.32 positive[9,] 138.34 60.19 2.30 positive

[10,] 33.42 44.21 0.76 negative[11,] 1.03 0.45 2.32 positive[12,] 97.51 60.88 1.60 neutral[13,] 1.03 0.45 2.32 positive[14,] 1.03 0.45 2.32 positive[15,] 49.62 44.21 1.12 neutral[16,] 1.03 0.45 2.32 positive[17,] 75.64 26.84 2.82 positive[18,] 1.03 0.45 2.32 positive[19,] 32.73 35.18 0.93 negative[20,] 1.03 0.45 2.32 positive

附錄2 一致樹分析文本之間的歐幾里得距離表(2-gram;culling@100;available features(words):211; MFW used:100 160;distance_table_4900mfw_0c)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 0.00 1.25 1.37 1.02 1.13 1.06 2.65 2.32 2.86 2.10 1.33 1.70 2.66 2.36 2.67 3.08 2 1.25 0.00 1.02 1.21 1.27 1.22 2.84 2.54 3.06 2.33 1.53 1.87 2.85 2.49 2.86 3.27 3 1.37 1.02 0.00 1.26 1.32 1.32 2.92 2.65 3.14 2.46 1.64 1.96 2.93 2.58 2.96 3.37 4 1.02 1.21 1.26 0.00 0.74 0.64 2.59 2.21 2.77 1.97 1.06 1.58 2.60 2.27 2.57 3.01 5 1.13 1.27 1.32 0.74 0.00 0.59 2.62 2.21 2.77 2.01 0.99 1.65 2.63 2.25 2.54 3.02 6 1.06 1.22 1.32 0.64 0.59 0.00 2.55 2.13 2.70 1.94 0.91 1.52 2.56 2.19 2.49 2.96 7 2.65 2.84 2.92 2.59 2.62 2.55 0.00 1.51 1.14 2.88 2.11 2.68 0.07 1.34 1.36 1.57 8 2.32 2.54 2.65 2.21 2.21 2.13 1.51 0.00 1.62 2.46 1.74 2.38 1.52 1.52 1.54 1.83 9 2.86 3.06 3.14 2.77 2.77 2.70 1.14 1.62 0.00 3.01 2.21 2.84 1.13 1.40 1.33 1.66 10 2.10 2.33 2.46 1.97 2.01 1.94 2.88 2.46 3.01 0.00 2.02 2.21 2.88 2.67 2.87 3.14 11 1.33 1.53 1.64 1.06 0.99 0.91 2.11 1.74 2.21 2.02 0.00 1.69 2.12 1.73 1.99 2.52 12 1.70 1.87 1.96 1.58 1.65 1.52 2.68 2.38 2.84 2.21 1.69 0.00 2.68 2.48 2.75 3.06 13 2.66 2.85 2.93 2.60 2.63 2.56 0.07 1.52 1.13 2.88 2.12 2.68 0.00 1.34 1.36 1.56 14 2.36 2.49 2.58 2.27 2.25 2.19 1.34 1.52 1.40 2.67 1.73 2.48 1.34 0.00 1.40 1.78 15 2.67 2.86 2.96 2.57 2.54 2.49 1.36 1.54 1.33 2.87 1.99 2.75 1.36 1.40 0.00 1.65 16 3.08 3.27 3.37 3.01 3.02 2.96 1.57 1.83 1.66 3.14 2.52 3.06 1.56 1.78 1.65 0.00

表中數字分別代表以下樣本:1.KZHW_1690;2.KZHW_1730-40;3.KZHW_1750-60;4.KZHW_1950;5.KZHW_1990-2000;6.KZHW_2010;7.lunyu_A.Waley1938;8.lunyu_C.Muller19902015;9.lunyu_DJLiuLunyu1979;10.lunyu_EPoundLunyu1951;11.lunyu_ ESlingerlandLunyu2003;12.lunyu_GHMINGS1898;13.lunyu_J.Legge1861;14.lunyu_JZHuangLunyu1997;15.lunyu_RAmesLunyu1998; 16.lunyu_YCXuLunyu2005

(責任編輯 鄧夢寒)

H319

A

1674-8921-(2016)06-0023-07

10.3969/j.issn.1674-8921.2016.06.005

秦洪武,曲阜師范大學外國語學院教授、博士生導師。主要研究方向為英漢語對比與翻譯、語料庫語言學。電子郵箱:qinhongwu@163.com

孔蕾,曲阜師范大學外國語學院副教授、碩士生導師,曲阜師范大學“中國語言文學”博士后站研究人員。主要研究方向為英漢語對比與翻譯、二語習得。電子郵箱:skytkong@163.com

猜你喜歡
儒學可視化文本
基于CiteSpace的足三里穴研究可視化分析
思維可視化
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
儒學交流在路上
“融評”:黨媒評論的可視化創新
基于doc2vec和TF-IDF的相似文本識別
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
宋代儒學對漢唐儒學的突破
什么是儒學之本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合