?

西藏的語言多樣性及其分類①本文系國家社科基金重大項目“中國民族語言大規模語法標注文本在線檢索系統研制與建設研究”(項目編號:21&ZD304)階段性成果。

2022-02-20 10:56
中國藏學 2022年6期
關鍵詞:藏語方言聚類

江 荻

一、引 言

藏語在中國分為三大方言,衛藏方言、康方言和安多方言,其中衛藏方言和相當多的康方言分布在西藏自治區。西藏東南部連接著中國民族走廊的南端,除藏語外,還有多語言分布。費孝通先生提出:“把北自甘肅,南到西藏東南的察隅、洛渝這一帶地區全面聯系起來,分析研究靠近藏族地區這個走廊的歷史、地理、語言并和已經陸續暴露出來的民族識別問題結合起來……洛渝各民族集團的語言據初步了解不屬藏語支而與景頗語支相近。如果聯系到上述甘南、川西的一些近于羌語和獨龍語的民族集團來看,這一條夾在藏彝之間的走廊,其南端可能一直繞到察隅和洛渝?!雹谫M孝通:《關于我國民族的識別問題》,《中國社會科學》1980年第1期,第147—162頁。這種見解之深刻,對我們深入了解藏語跟周邊藏緬語言之間關系具有重要價值。

地理上,大致在林芝市工布江達縣及以東區域,特別是藏東南地區還有數量不明的非藏語語言,有些已經甄別,例如錯那縣的門巴語,墨脫縣的倉洛語,米林縣的博嘎爾語,隆子縣的蘇龍語,察隅縣的義都語、達讓語、格曼語等。但是還有一些地方話尚需進一步甄別,例如工布江達縣錯高鄉巴松話、芒康縣如美鎮的如美話、左貢縣東壩鄉的東壩話、察隅縣的扎話和素苦話等。這些說話人有些是藏族人,有些人長期與藏族人民生活在同一區域,從小習得母語和藏語,他們基本都是雙語人或多語人,因為受藏語影響,即使他們在家里說母語的時候也使用大量藏語借詞。

除了藏語和漢語有傳統文字記載,西藏地區其他各種語言都沒有書面文字。判定這些語言是否為獨立語言及這些語言的語系歸屬是很專業的事情,通常需要投入很大的人力和物力資源才能有所判斷。判斷新發現語言的語系地位一般采用歷史語言學的比較方法,通過詞匯語音和形態比較找出語音對應規律,確定同源詞,再進一步確定語言之間的關系。這其中的一個難點是排除各個語言中的外來語借詞,具體說,藏語是西藏通行的地方通用語言,其他語言都受到藏語的影響,甚至是深度影響,借入了大量藏語詞匯和句法結構。鑒于這一現狀,本文采用一種計算機新的算法技術對西藏各地語言和方言進行自動聚類分析,嘗試快速準確地對這些語言和方言進行分類。然后,借助歷史比較方法進一步考察和驗證本文聚類算法的結果,判斷其是否與語言學分類結果一致,是否與人們習慣的分類認知一致。

二、語言和方言材料

語言聚類分析以采集的語言材料為實驗對象,一般是詞匯數據,又可分為聲音材料和記音材料。前者是詞語的錄音聲學參數,例如音值 (音素)、音高 (音頻)、音長 (時長)等,后者是音標符號記錄的書面形式。本文以音標記錄的語音形式為實驗對象。

本文依據語言研究的常規經驗和所采用的數學方法和算法模型,確定采用斯瓦迪士基本核心詞表,該表收納客觀世界基本概念義100項,即100個核心詞。經過世界各國語言學家和心理學家實踐和驗證,該詞表在有效性和可信度等各方面經證明是可靠和可用的。①參看Swadesh,Morris(斯瓦迪士):Lexicostatistic dating of prehistoric ethnic contacts,Proceedings of the American,Philosophical Society,1952,Vol.96,PP.452-463.西方學者的相關論述可參看Trask,R.L.,Historical Linguistics.New York:Edward Arnold Publishers Limited,1996.

本文運用多種方法開展實際語料的采集,一部分是實地記音和錄音;②特別感謝龍從軍博士和李大勤教授幫助采錄墨竹工卡、尼木、澤當、芒康、工布江達、錯那縣等多地語音材料,聽音記音則由筆者完成。筆者實地記音的有拉薩、察隅、義都、達讓、扎話、松林。感謝提供西藏各地方言材料的老師:尹蔚彬研究員 (定結縣)、陳榮澤教授 (安多縣)、邵明園博士 (左貢縣拉茸話)、徐世梁博士 (錯高鄉錯高村巴松話)、宗曉哲博士 (亞東和吉隆縣)、宋成博士 (察隅縣素苦話)。一部分選自出版的書刊;③瞿靄堂、勁松:《藏語衛藏方言研究》,北京:中國藏學出版社,2017年;瞿靄堂、譚克讓:《阿里藏語》,北京:中國社會科學出版社,1983年;格桑居冕、格桑央京:《藏語方言概論》,北京:民族出版社,2002年;歐陽覺亞編著:《珞巴族語言簡志(崩尼-博嘎爾語)》,民族出版社,1985年;張濟川編著:《倉洛門巴語簡志》,民族出版社,1986年;陸紹尊編著:《錯那門巴語簡志》,民族出版社,1986年;鄧戈:《藏語康方言詞匯集》(八宿、索縣),拉薩:西藏人民出版社,2020年。還有一部分采自中國語言資源保護工程 (網絡平臺)④中國語言資源保護工程采錄展示平臺,參見https://zhongguoyuyan.cn/index.html?lang=cn。。具體語言分布地點如下 (括號內為方言調查點數量)。

前藏 (6):拉薩、墨竹工卡、林周、尼木、澤當、乃東;

后藏 (8):日喀則、浪卡子、亞東、吉隆、定結、洛扎、樟木、夏爾巴;

阿里 (7):噶爾、日土、普蘭、札達、革吉、措勤、改則;

藏東 (10):昌都、丁青、那曲、安多 (帕那)、工布江達、八宿、索縣、墨脫 (達木)、錯那、察隅。

以上藏語方言點已經按照傳統分類觀點進行了預分類,包含地理分布分類思想,共有31個方言點,又分出前藏、后藏、阿里、藏東4個地理區域。

非藏語語言主要分布在藏東和藏東南區域,以下僅按照語言名或地理位置加語言名羅列。又分為已識別為獨立語言的和尚需甄別是否為獨立語言的。

識別為獨立語言或方言的有11種:門巴語麻瑪話、門巴語文浪話、倉洛語地東話、義都語上察隅話、達讓語夏尼話、格曼語薩穹話、混合語察隅扎話、崩尼語斗玉話、崩如語三安曲林話、博嘎爾語南伊話、蘇龍語。

待識別的語言有7種:工布江達錯高鄉巴松話、左貢縣拉茸話、芒康縣如美話、察隅縣素苦話、左貢縣東壩話、察隅縣松林話、察雅縣芒話和瑪吉話。

三、數據編碼和賦值

前文已經指出,本文以音標記錄的斯瓦迪士核心詞為實驗材料,借助計算機算法開展不同語言或方言之間親疏遠近關系及其自動分類研究,本節討論擬采用的數學模型及編碼和賦值操作。

字符或音標符號記錄的詞語形式自然而然反映出人類聲音的線性序列特征,例如拉薩話 [?i11ma55]、日喀則話 [ni11ma53]都表示“太陽”的意思,呈現出兩個音節,每個音節都是輔音—元音序列和結構,這種結構十分適合采用編輯距離 (edit distance)模型計算。由于這個算法是俄羅斯數學家弗拉基米爾·萊文斯坦 (Vladimir Levenshtein)提出的,因此多稱萊文斯坦距離 (Levenshtein Distance)。一般的定義是:萊文斯坦距離是測量兩個字符串之間差異的數學模型。從應用上說,人們可以利用萊文斯坦距離比較兩個字符串的相似度。如果承認語言和方言之間存在歷史演變關系,則可以將不同語言或方言之間詞語的相似度理解為語言演變的親緣遠近關系。具體操作上,人們假設兩個詞語之間的萊文斯坦距離是將一個詞形更改為另一個詞所需要的最小操作步驟。不妨舉例說明。

以英語方言為例,afternoon在Savannah鎮 (美國佐治亞州) 發音是 [???ft?n?n],而在Lancaster鎮 (美國賓夕法尼亞州) 發音是 [??ft?r?nu?n]。 如果把Savannah發音轉換為Lancaster一樣的發音, 這中間的操作就是二者的相似度差別。①Heeringa,W.:Measuring Dialect Pronunciation Differences using Levenshtein Distance.2004:PhD thesis,P122,Rijksuniversiteit Groningen.萊文斯坦距離測算的方法是以處理符號的操作次數作為量化數值,它規定了3種操作:插入、刪除和替換,每次操作數值記為1。本文操作不納入韻律要素,例如重音、 次重音和半長音 (“u?”,Lancaster鎮)。

萊文斯坦距離采用最大字符對齊方法,表1是最佳的最小操作次數,賦值3。表2未采用最大對齊方法,賦值6,顯然不是可選的方案。

表1 萊文斯坦距離最大對齊量化數值 表2 萊文斯坦距離非最大對齊的量化數值

萊文斯坦距離計算公式如下:

其中,a、b分別代表兩個字符串 (詞),字符串的萊文斯坦距離表示為leva,b(i,j),即a字符串中前i個字符與b串中前j個字符之間的距離。如果計算完整字符串,即i=|a|,j=|b|,則leva,b(|a|,|b|)。Min(i,j) =0意味著i,j某個值為0, 即a和b有一個字符串為空串, 兩個字符之間的距離就是其中一個字符串全部轉換為另一個,是最大距離,即max(i,j)。如果Min(i,j)≠0,萊文斯坦距離leva,b(i,j)有3種狀態,分別是刪除、插入和替換。

限于篇幅,本文不討論萊文斯坦距離的運算過程和算法,感興趣的讀者可參考Holman等學者的文章。①Holman,Eric W.,Cecil H.Brown,S?ren Wichmann,et al.:Automated Dating of the World's Language Families Based on Lexical Similarity.Current Anthropology 2011:52.6:841-875.下面我們討論聚類方法。

四、聚類算法和樹形圖

聚類跟分類有不同的前提條件。所謂分類是指人們對事物有一定認識,積累了相關經驗,可以依據事物的某些特征類別建立分類標準或者分類條件,從而對事物加以分類。聚類則完全不同,人們還未研究事物,只能依賴事物本身的內在結構和特征層次,對比多個事物之間的相似程度而實現歸類。在這個意義上,聚類分析特別適用于語言或方言的關系判斷,通過對不同語言詞形和結構的相似性進行聚類分析,相似數據的數量越多,兩種語言之間相似的程度越高,于是獲得相似程度不等的語言集合簇 (類),每個簇內的語言在屬性特征上具有最大程度的相似性,不同簇的語言則有最大程度的不同屬性。

數學上的聚類方法很多,本文不作詳細闡述。但在理論上,就語言或方言來說,聚類方法的基本原理是將每兩種語言或方言的成對詞語相似系數最大或相異系數最小的集合聚成一類,形成相似程度不等的多個集合類,形成隊列。譬如,如果A語言與X語言相似集合類的數量多于B語言,則A語言與X語言歸為一類,B語言為另一類。這個分析過程擴展至C語言和更多語言,包括B語言跟C語言的相似數據數量比較,乃至更多語言比較,比較過程循環至全部參與語言為止,則獲得所有語言相似程度關系,其結果可以繪成樹狀關系圖,稱為語言關系樹形圖。又由于歷史語言學提出人類語言是一種自然傳承和演化的現象,因此人們借鑒生物分類學之種系發生樹 (phyligenetic tree)概念,或稱進化樹或演化樹 (evolutionary tree),把語言之間相似程度計量關系樹看作語言演化的淵源關系樹,并以此觀察和判斷語言之間的親緣關系,它們的分群和分類。

目前構建生物種系發生樹或基因進化系統樹的方法一般采用計算機來完成。構建進化樹的軟件較多,本文采用的是國際上運用較廣的Mega軟件,該軟件是一款功能較為強大的分子進化遺傳分析軟件,全稱是Molecular Evolutionary Genetics Analysis,特別適用于生物或基因計算遺傳距離、構建分子系統樹。Mega算法軟件還提供了設置“樹根”操作,可以幫助人們更進一步了解語言或方言之間在歷史演化中的淵源關系。這有利于我們對西藏的語言和方言之間的關系進行推斷。在下面的討論中,我們會看到在根語言設定條件下西藏語言和方言呈現出的面貌。①江荻:《藏緬語譜系的自動分類實驗》,《中國民族語言學報》編委會編:《中國民族語言學報》第一輯,北京:商務印書館,2017年,第62—105頁。

五、自動分類實驗與藏語方言的分布

(一)西藏語言和方言自動聚類樹

在第二節采集的西藏語言和方言材料基礎上,本文實驗結果 (聚類圖形)如圖1所示。此處先對其中約定的符號或代碼加以說明。代碼ZZ_W表示藏語衛藏方言,ZZ_K表示藏語康方言,ZZ_Q表示語言系屬不明,ZS_和ZG_分別表示藏緬語蘇龍系語言和義都系語言。代碼之后用漢語拼音拼寫語言或方言名稱,例如ZZ_Wnimu表示藏語衛藏方言尼木話;ZS_bogaer,表示藏緬語蘇龍系博嘎爾語;ZG_darang表示義都系語言達讓語;ZZ_Qmangkangrumei表示芒康縣系屬不明的如美話。有時候,“ZZ_+拼音”直接表示藏緬語某語言,例如ZZ_cangladidong,藏緬語族倉洛語地東話。最后的數字表示該詞屬于斯瓦迪士第100詞。

圖1 西藏語言和方言聚類

本次實驗結果有多方面價值。觀察圖1,在不設立根語言 (或者外類群)條件下,衛藏方言跟康方言清晰地分開來,而且衛藏方言內部十分明確又分出3個次級方言片:阿里次方言、后藏次方言、前藏次方言。根據《中國語言地圖集·少數民族語言卷》②中國社會科學院語言研究所、中國社會科學院民族學與人類學研究所、香港城市大學語言資訊科學研究中心主編:《中國語言地圖集·少數民族語言卷》(第2版),商務印書館,2012年,第182—188頁,第C1—25圖。,西藏語言地理上呈現二分狀態,以林芝市工布江達縣為過渡地帶,往西是衛藏方言分布區域,往東則是康方言和其他非藏語區域。本文聚類圖 (圖1)跟這幅語言分布地圖十分吻合,順時針方向,衛藏方言之后緊接著是藏東康方言片,然后有幾個單列的方言,分別是察隅話、亞東話、墨脫話和巴松話。再之后就是其他語言:墨脫、錯那、林芝等縣的門巴語、倉洛語,察隅縣的義都語、達讓語、格曼語、扎話,以及墨脫、林芝、米林、隆子等縣的博嘎爾語、崩尼語、蘇龍語和崩如語。最后還有地理上沿金沙江西岸而下的察雅縣、左貢縣、芒康縣直到察隅縣等地的部分村鄉土話,目前語言系屬暫時不明,需要進一步甄別。

圖1是完全沒有人為干預的數學模型自動聚類結果,也就是單純以語言自身屬性特征的相似性為基礎構建的算法結果。凡是形式、結構和特征相近的語言或者方言會自動形成聚類,因此我們也可以把這樣的聚類結果理解為分類。如果結合前賢時彥的經驗分類,例如瞿靄堂、格桑居冕、金鵬、張濟川、布萊德利、尼古拉·圖納德爾,①瞿靄堂:《藏語概況》,《中國語文》1963年第6期,第511—523頁;格桑居冕、格桑央京:《藏語方言概論》,第3頁 (原稿曾作為中央民族學院少數民族語言學系教材,1964油印);金鵬主編:《藏語簡志》,民族出版社,1983年,第114頁。張濟川:《藏語方言分類管見》,載《民族語文論文集》,北京:中央民族學院出版社,1993年,第297—309頁;David Bradley,Tibeto-Burman languages and classification.In David Bradley,(ed.)Papers in Southeast Asian linguistics No.14:Tibeto-Burman languages of the Himalayas,1997:1-72;Tournadre Nicolas.2014.The Tibetic languages and their classification.In Nathan W.Hill and Thomas Owen-Smith(eds.),Trans-Himalayan linguistics,historical and descriptive linguistics of the Himalayan area,105-130.Berlin:Mouton de Gruyter.可以判斷這項自動分類是相當可信的。我們在這里需要補充的只是對個別不一致的方言點作出新的解讀,闡明不一致的原因。

(二)詞匯借用改變方言歸屬

讀者應該注意到本實驗結果中衛藏方言阿里次方言聚類中包括了改則和那曲兩個康方言,它們的位置處于阿里方言聚類樹的最外側。改則傳統分類上劃歸康方言是有一定理據的。②瞿靄堂、譚克讓:《阿里藏語》,第133頁。他們提出的理由有13條之多,其中語音層面的理據是:改則話有濁音 (或帶前置鼻音)、有清化鼻音 []和清擦音 [?]、無鼻化復元音、無l和n輔音韻尾、聲調調值跟其他阿里話有差別,也就是說,改則話具有康方言的一般特征。我們認為這些特征也適用于那曲話。下面以改則話為例進行討論。

瞿靄堂、譚克讓的敘述是正確的,一定有其他原因導致改則和那曲在本文自動聚類中歸屬于阿里次方言和更大范圍的衛藏方言。地理上,改則和那曲兩地處在昌都往西的藏北邊沿康方言延伸地帶,南面是衛藏方言。更具體地說,改則算是康方言延展的盡頭,西面和南面的革吉縣和措勤縣均為阿里藏語,那曲南面林周、當雄和拉薩是前藏次方言。換句話說,這兩個康方言點受到衛藏方言的嚴重影響。請觀察表3呈現的詞匯。

從這部分詞語的讀音來看 (黑體詞或語素),改則話與措勤話基本一致,通過比較衛藏方言的拉薩和措勤話、康方言的昌都話和八宿話可知,改則話有些詞顯然借用了措勤等地的詞匯,跟康方言差別較大,不可能是語音演化導致的差異。例如,鳥兒,措勤為t?a12,改則為t?a31,昌都為?ɑ13,該例“措勤 (衛藏):改則:昌都 (康)”的聲母對比模式是 [t?:t?:?],塞擦音與擦音對立。再觀察一例,鼻子,措勤作na53,改則作na53,昌都作n? ɑ51,改則與措勤一致,都是鼻音聲母,而昌都是清鼻音聲母?!岸洹?這個詞,拉薩作 am55t?o53,措勤作 a?m55t?o?53,改則作 a?m55t?o?53,昌都為nɑ55t?ho53,波密為na35t?ho53,衛藏的拉薩、措勤與康方言的昌都、波密不同處甚多,但改則與措勤一致,應該不是語音演變導致的,而是改則直接借用了措勤的詞匯。由此我們知道,詞匯借用,特別是常用詞匯借用是判斷語言或者方言之間關系的一個重要標準。

(三)方言間的斷點致使歸屬不確定

圖1有幾個調查點數據在聚類中出現孤立單列狀況:察隅、墨脫、錯那、亞東、巴松。經反復考察,有兩方面原因,一是這些方言處在多語言或多方言交匯地域,語音詞匯受到影響,同時包含了兩種不同語言或方言的特征;二是本文收集的調查點數量稍顯稀疏,它們跟其他方言點中間缺少鏈接環節。不過,各個調查點又有不同情況。察隅、墨脫、錯那這3個藏語方言都處在藏語分布的邊緣位置,其中察隅話與周邊義都、達讓、格曼等幾種非藏語語言相互接觸,墨脫話、錯那話與門巴語、倉洛語、博嘎爾語等也相互影響,這樣的語言接觸有可能給藏語方言帶來異類詞匯語音,值得細化研究。

亞東話情況略有不同,格桑居冕①格桑居冕、格桑央京:《藏語方言概論》,第3頁。、瞿靄堂、勁松將其歸入后藏次方言,②瞿靄堂、勁松:《藏語衛藏方言研究》,第7—11頁。但是我們也注意到西義郎將之劃歸南部方言③西義郎的分類參看周煒譯:《藏語的方言》,《西藏研究》2002年第4期、2003年第1期。。南部方言是國外部分學者提出的,特指不丹王國等境外某些語言或者藏語方言。張濟川提出:“亞東位于衛藏方言區的邊沿,與不丹、錫金相鄰。跟衛藏方言的前后藏土語和南部方言宗喀話 (不丹)比較,既與后藏土語有一些共同點,也與宗喀話有一些共同之處。從現有材料來看,亞東藏語似處于衛藏方言和南部方言的過渡帶?!雹軓垵?《藏語方言分類管見》,《民族語文論文集》,第297—309頁。為了判斷亞東方言的歸屬,我們將境外的宗喀語(Dzong kha)和德容炯語 (Dreng jong)數據放入實驗,結果如圖2所示,構成南部方言群。圖1亞東話只是因為缺失其他南部方言點造成地理分布的斷點而單列。如果結合西藏和不丹王國歷史來看,這項實驗證明,南部方言以及境外一些藏系語言是逐步從西藏擴散開來的。①歷史上,不丹王國政體和主體人口源自西藏,其官方語言宗喀語 ()為藏語方言之一。參看扎洛:《清代西藏與布魯克巴》,中國社會科學出版社,2012年,第1—15頁。

圖2 亞東方言與南部方言形成聚類

(四)語言置換作為歸屬的深層原因

上文明確指出,巴松話、察隅話、墨脫話、錯那話的單列與語言的相互接觸有關,現在來具體分析。

巴松話是瞿靄堂等調查記錄,認為是藏語衛藏方言次級方言 (土語)。②瞿靄堂、共確、益西、結昂:《衛藏方言的新土語——記最近發現的巴松話》,《民族語文》1989年第3期,第39—61頁。與此同時,瞿靄堂提出,為什么衛藏方言其他方言點的人,甚至鄰近說工布話的人也聽不懂巴松話呢?他認為是詞匯差異造成的。詞匯差異背后更深層的原因則是:巴松話“是原來使用一種可能與門巴語接近的語言的人,受衛藏方言影響,換用語言的結果,只是保留了一個非藏語的詞匯底層”。我們同意瞿靄堂的分析,只是按照他的分析,巴松話 (100多個詞匯與川藏其他語言比較)“大部分非同源詞,限于條件還沒有找到來源,需要進一步研究”。這意味著巴松話的歸屬還需要作進一步探索。巴松話在本實驗中處在與其他藏語方言相關又未進入已確定系屬組群狀態,這正反映了瞿靄堂分析之精準。

察隅話、墨脫話、錯那話所處位置都是與非藏語語言共存區域,察隅話主要與義都語、達讓語和格曼語相互接觸,墨脫 (達木)話和錯那話與門巴語和倉洛語交錯。這3個調查點有兩種系屬歸類的可能,一是跟巴松話一樣來自早期其他語言的轉換,二是原屬藏語,借用了周邊其他語言的詞匯。結果,它們在自動聚類圖中處于單列狀態。但從語言的社會功能來說,藏語作為當地強勢語言,第一種解釋更可信一些。我們暫時認為這幾個調查點的歸屬存疑。

六、西藏的非藏語及其分類

上文指出,聚類方法蘊含了系統發生樹理論,可以模擬語言演化距離和層級。所以,本文進一步實驗添加了“樹根”或外類群。經我們測試,選擇泰米爾語 (Tamil)為根語言比較穩定。實驗結果如圖3所示:③本實驗嘗試采用英語、法語、俄語、日語、泰米爾語等語言作為根或組合外類群測試,發現泰米爾語表現更優,非常穩定,故采用之。泰米爾語分布在印度和斯里蘭卡等國,是南亞次大陸古老的達羅毗荼語系的語言,與藏語或其他藏緬語言沒有直接親緣關系。

圖3 西藏的語言和方言自動聚類樹圖 (右圖接續左圖)

觀察圖3聚類樹,首先就發現蘇龍語和崩如語遠離藏語及其方言 (參看第五節),它與藏語之間層級和距離上還隔著義都系、博嘎爾系、門巴和洛巴族的語言,以及一些系屬不明的語言。據研究者介紹,蘇龍語和崩如語主要分布在西藏山南地區隆子縣以南比夏一帶的村莊,分別有3000—4500人和約2000人,但基本處于印度實際控制區內,在筆者調查的村寨只居住極少數個體。④李大勤:《崩如語概況》,《民族語文》2003年第5期,第64—80頁;李大勤:《蘇龍語研究》,民族出版社,2004年。為此,本文收集了西方學者有關蘇龍語和崩如語的資料,⑤西方學者的蘇龍系語言資料取自維基百科Puroik languages。崩如語資料取自Blench,Roger Mijiic,The Miji And Bangru Languages:Distribution,Dialects,Wordlist And Classification.[Draft circulated for comment,2018].https://www.academia.edu/36413415,并參考了Post,M.W.and R.Blench 2011.Siangic:A new language phylum in North East India.Paper presented at the 6th International Conference of the North East Indian Linguistics Society,Tezpur University,Assam,India,Jan.31-Feb.2.并納入本系統測試,參見圖4。

圖4 泰米爾語為樹根的測試

測試結果不出意料,增加西方學者采集的蘇龍系語言 (稱為Puroik,3個方言點:Kojo-Rojo、Bulu、Chayangtajo)和崩如系語言 (兩個方言點:westMiji、Bangru),發現它們的確與本文數據形成聚類,跟藏語沒有直接親緣關系,聚類的節點處在根語言之下一個兩分鏈接點的非藏語方 (圖5),可能是藏緬語族的一種語言。

圖5 增加蘇龍系和崩如系語言測試結果

回到圖3,我們知道,聚類樹圖一定意義上遞進反映各組或各個語言之間的親疏關系 (此圖由下而上),越往上距離根語言關系越遠,換言之,越靠近根的語言或語群,相互間關系越近,越靠近頂部的語言分化越晚。不過,此時討論的“親疏”尚未排除語言接觸和詞語借用造成的關系。

圖3中與藏語最靠近的語言是門巴族語言。20世紀80年代初,學術界發布了《門巴、珞巴、僜人的語言》。①孫宏開、陸紹尊、張濟川、歐陽覺亞:《門巴、珞巴、僜人的語言》,中國社會科學出版社,1980年。主要涉及藏東南區域的非藏語語言。之后,語言簡志叢書陸續出版,初步呈現出西藏的語言多樣性狀況。①如歐陽覺亞:《珞巴族語言簡志 (崩尼-博嘎爾語)》、張濟川:《倉洛門巴語簡志》、陸紹尊:《錯那門巴語簡志》等。進入21世紀后,孫宏開教授主編的中國新發現語言研究叢書出版了格曼語、義都語、達讓語、蘇龍語等專著,②李大勤:《格曼語研究》,民族出版社,2002年;李大勤:《蘇龍語研究》;江荻:《義都語研究》,民族出版社,2005年;江荻:《達讓語研究》,民族出版社,2013年。還發表了扎話 (語)、崩如語等描寫性文章,③李大勤、江荻:《扎話概況》,《民族語文》2001年第6期,第61—75頁;李大勤:《崩如語概況》,《民族語文》2003年第5期,第64—80頁。當時還發現了松林語等未曾描述的語言,成果并于近年出版。④宋成、謝穎瑩、李大勤、李佐文:《西藏察隅松林語》,商務印書館,2019年。從新發現語言陸續出版角度來看,人們逐步了解到西藏地方,特別是藏東南區域是很典型的語言多樣性區域。

實際上,西藏的部分非藏語語言由來已久,最知名的是門巴族語言。門巴族主要居住在墨脫縣、錯那縣以及錯那縣以南的邦金和門達旺地區 (這部分目前處在印度非法實控區),說兩種不同的語言,錯那縣勒布區和墨脫縣文浪鄉說門巴語,墨脫縣和林芝縣東久區說倉洛語。門巴族與藏族的歷史淵源悠久,早在吐蕃時期就已往來。著名的唐蕃會盟碑 (或稱長慶會盟碑,公元823年)記載曰:“此威德無比雍仲之王威嚴煊赫,是故,南若門巴、天竺,西若大食,北若突厥拔悉蜜等雖均可爭勝于疆場,然對圣神贊普之強盛威勢及公正法令,莫不畏服俯首,彼此歡忭而聽命差遣也?!雹萃鯃?《吐蕃金石錄》,北京:文物出版社,1982年,第43頁。一千余年來,門巴族與藏族交錯居住,相互通婚,文化相融,甚至17世紀在門巴地區出生的倉央嘉措被認定為五世達賴喇嘛的轉世靈童。語言上,門巴族人基本會說藏語,可見門巴語受藏語影響非同一般,藏語借詞極為豐富,因此在本實驗聚類圖上相當靠近當地藏語方言。再以實例來說,“嘴”,倉洛語地東話說 [no13wa?13],門巴語文浪話說 [khɑ55],后者應來自藏語借詞;比較:昌都卡若話說 [khɑ51],拉薩話說 [kha55]。再如“多”,倉洛語說 [sak13po55]或 [ca55ma13],門巴語麻瑪話說 [ma?35po53],后者明顯來自藏語;比較:昌都話說[mon33po51],拉薩話說 [ma?13ko55]。門巴語借用藏語詞匯是最典型的語言接觸現象。

門巴族語言之外,西藏東南部的察隅和珞隅地區還有多種非藏語的其他藏緬語言。正如費孝通先生所說,中國民族走廊的南端可能一直繞到察隅和珞隅。目前已經探明,察隅縣主要有義都語、達讓語、格曼語和扎話。前三者在早期文獻中被稱為“米什米”,這也有歷史記載。據藏族歷史文獻《賢者喜宴》所錄,“如是,東方之咱米興米、南方之洛與門、西方之香雄及突厥、北方之霍爾及回紇等均被收為屬民。遂統治半個世界”①巴臥·祖拉陳哇、黃顥:《賢者喜宴》摘譯 (三),《西藏民族學院學報》1981年第2期,第15—20頁。。其中,“米興米”指的就是達讓、格曼、義都語言群體,而“咱”()應該特指扎話語言群體。②江荻:《語言接觸與民族邊緣:喜馬拉雅山東麓扎語案例》,徐丹、傅京起主編:《語言接觸與語言變異》,商務印書館,2019年,第346—375頁。

據上述研究,義都語和達讓語關系十分緊密,具有同一來源。格曼語則屬于另一支系語言,扎話也可能底層是格曼語,借用了大量藏語詞匯,已是藏語化的格曼語。③江荻、李大勤:《扎話》(修訂版),孫宏開等主編:《中國的語言》,商務印書館,2007年,第2605—2620頁。不過,在藏緬語層次上,這幾種語言目前系屬不確定,本文暫時建立一個分支,統稱義都系語言。據研究,義都語母語人屬于珞巴族,而珞巴人分布廣泛,從察隅往西至隆子縣,北鄰雅魯藏布江,南至整個珞隅地區分布著十數個珞巴族部落,包括操崩尼語和博嘎爾語人。崩尼語和博嘎爾語也是藏緬語族語言,它們與藏語關系十分密切,在圖3聚類圖中位置處于門巴語言和義都系語言之間。

最后需要討論的是目前歸屬完全不明的一批地方話。主要有:左貢縣東壩話、拉茸話,芒康縣如美話,察隅縣素苦話、松林話、芒話。這些分布在藏東和藏東南的地方話是使用者的母語,一般只在家庭和村寨使用。他們是藏族,因此使用者一般都是雙語人,外出使用當地康方言。在本項實驗中,這些地方話處在藏語衛藏方言和康方言聚類之外,是否為獨立語言尚需甄別。期待學術界持續開展研究。④歷史地看,遠在吐蕃之前,昌都地區東漢時期就有白狼夷活動記載 (《后漢書》),南北朝及其后至隋唐則有附國、蘇毗女國的記載 (《舊唐書》),至吐蕃時期至今,這些族群及其人民和語言不再見諸文獻。所以這些地方土話與這些族群遺孑是否相關值得關注。此外,據傳昌都地區也是西夏王國覆滅后,其臣民南向遷移的路徑,并與四川康定地區的木雅藏族聯系起來,這也易于引起聯想。參看張云:《論吐蕃與黨項的民族融合》,《西北民族研究》1988年第2期。

七、結 語

本文對西藏語言多樣性的描述,一方面是一種回顧和梳理,另一方面則是借助數學模型和現代計算機算法技術提出問題,讓人們了解西藏文明的悠久和語言的多樣性與復雜性,以便更深入地開展調查和研究。

就技術角度來說,本文的討論還可以進一步深化,特別應在以下幾方面取得突破:

第一,為克服斷點導致的地理分布不連續現象,應擴充語言或方言調查點,最好能完整地覆蓋西藏自治區各地 (市)、縣 (區),尤其是東部和東南部區域。

第二,鑒于西藏自治區語言和方言相互之間廣泛存在詞匯借用情況,可以嘗試在基本詞匯之外增加一批常用性或一般性詞匯。

第三,藏族語言文化歷史悠久,對整個喜馬拉雅山區域族群和語言都有重要影響。為此,對西藏語言多樣性的調查可以擴展到整個喜馬拉雅區域。

猜你喜歡
藏語方言聚類
方嚴的方言
淺談藏語中的禮儀語
方言
說說方言
留住方言
基于K-means聚類的車-地無線通信場強研究
藏語拉達克話的幾個語音特征
基于高斯混合聚類的陣列干涉SAR三維成像
藏語地理分布格局的形成原因
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合