?

基于大數據的語言治理研究:內涵、方法與應用*

2024-02-26 06:36郭書諫李曉陽
關鍵詞:范式語言研究

郭書諫, 李曉陽

(同濟大學 語言規劃與全球治理研究中心,上海 200092)

引 言

國外語言規劃實踐可以追溯到20世紀初,民族國家開始認識到語言作為社會凝聚力和國家建設紐帶的重要性。早期政策旨在推廣標準化的國家語言,以法國圍繞法語的語言政策(1)Spolsky B. Language policy in French colonies and after independence[J]. Current Issues in Language Planning, 2018:1~85.以及許多歐洲宗主國在殖民地推行的語言標準化政策為代表。20世紀50年代,埃納爾·豪根(Einar Haugen)提出的語言規劃理論倡導官方標準化語言形式的重要性和方法論。(2)Haugen E. Dialect, Language, Nation[J]. American Anthropologist,1966,(68).但隨著20世紀70年代世界各國瀕危語言問題日益凸顯,以約書亞·費什曼(Joshua Fishman)為代表的學者提出“扭轉語言轉用”的概念體系,(3)Fishman J. Reversing language shift: Theoretical and empirical foundations of assistance to threatened languages[M]. Multilingual Matters, 1991:381~420.如何在語言規劃中更加注重社會公平成為重要的考慮因素。

20世紀90年代以來,國外語言規劃的批判性方法挑戰了當時語言政策的主導敘述和意識形態。這一視角強調語言規劃決策的社會、政治和經濟影響。伯納德·斯波爾斯基(Bernard Spolsky)(4)Spolsky B. Language policy[M]. Cambridge University Press, 2004:113~132.和埃拉娜·肖哈米(Elana Shohamy)(5)Shohamy E. Language policy: Hidden agendas and new approaches[M]. Routledge, 2006:137~166.等學者對語言政策中固有的不平等權力關系進行了批判性研究,并倡導更具包容性和互動性的語言規劃過程。批判的語言規劃理論還強調多語和少數族裔的語言權利,如詹姆斯·托勒弗森(James Tollefson)(6)Tollefson J. W. Planning language, planning inequality: Language policy in the community[M]. Routledge, 2006:167.等學者關于“語言權”概念的提出。

國外語言規劃理論70余年的發展體現了從宏觀到微觀的脈絡,微觀語言規劃和宏觀語言規劃既相互獨立,又相互補充,相輔相成(7)張蔚磊,王輝.微觀語言規劃理論及其對我國外語教育規劃的啟示[J].外語研究,2022,(1).,涵蓋了廣泛的主題和多元的主體,從早期的國家政府的語言規劃,到當前“剝洋蔥”式的多層級、不同族群、不同社區、不同領域的語言規劃。如南?!せ舳鞑?Nancy H. Hornberger)等廣泛探討了教育領域的語言政策,(8)Ricento T.K., Hornberger N.H. Unpeeling the Onion: Language Planning and Policy and the ELT Professional[J]. TESOL Quarterly, 1996,(3).進一步充實了羅伯特·庫伯(Robert Cooper)提出的語言教育規劃的理論框架(9)Cooper R.L. Language planning and social change[M]. Cambridge:Cambridge University Press, 1989:157~163.。語言教育規劃(Language Education Planning)作為語言治理的重要范疇,其傳統研究涵蓋了課程開發、教師培訓、評估以及國家和機構層面的語言教育政策的設置和實施過程等主題。

國外語言規劃理論自20世紀90年代的“批判范式轉向”(Critical Turn)以來,已有近30年的發展歷史。盡管當時國外學者反思了語言規劃在知識建構和權力關系等方面的問題并表達了對語言生態破壞的憂慮,但是迄今國外語言規劃理論并未提出合理的解決路徑。語言公平和語言權利仍然只是學術研究的“烏托邦”式藍圖,缺乏具體的、技術的實施路徑和范式轉換。與此同時,過去30年是人類技術進步的重要時期,國外語言規劃從理論到實踐均沒能關注到大數據和人工智能對人類語言的關鍵影響,語言規劃理論存在“數據轉向”的可能性,(10)沈騎,劉思琪.數智時代語言規劃研究的范式轉換與方法創新[J].外語與外語教學,2022,(6).因此有必要闡釋清楚語言治理和大數據的關系。在建構語言治理的中國本土理論過程中,語言大數據應該成為重要的資源和范式。

國內的語言規劃研究注重對語言資源的保護、開發和利用。國家通用語在促進國家發展、民族團結和文化認同方面發揮著重要作用,因此要完善法律法規做好國家通用語的推廣。(11)李宇明.中國語言規劃論集[M].北京:商務印書館,2019.對瀕危語言的定義、現狀、意義和策略等方面的研究也為瀕危語言保護提供了理論支持和實踐指導。(12)曹志耘.中國語言資源保護工程的定位、目標與任務[J].語言文字應用,2015,(4).相較于國外“微觀化”和“批判化”研究的抽象探討,國內語言規劃研究推動了語言文字事業的高質量發展。在人工智能時代,語言治理研究如何充分運用語言大數據資源,提升國家語言能力建設,服務于國家治理體系和治理能力現代化,是本研究重點探討的問題。

一、基于大數據的語言治理的方法論

基于大數據的語言治理從理論層面來看,具有方法論層面的可行性。在科學研究中,大數據在多學科中日益發揮更加重要的作用;在語言學研究中,通過大數據方法研究語言演變、語言消亡和語言類型等也產生了一系列成果。未來語言治理研究應用大數據方法具有方法論的可行性。

(一)作為科學研究第四范式的大數據

大數據是近年來一系列重要科學進展的重要基礎,以人工智能、機器學習乃至以ChatGPT為代表的語言大模型,都基于海量大數據的計算和建模?!半S著大數據和深度學習的應用、計算能力的提升、網絡的發展,如今的人工智能研究不僅僅是信息學科的研究范疇,而是與網絡科學、數據科學、語言學、心理學、神經科學等多學科緊密相關?!?13)蔡三發,王倩,沈陽.人工智能賦能:高校學科建設的創新與發展——訪中國工程院院士陳杰教授[J].電化教育研究,2020,(2).

有學者將大數據視為科學研究的第四種范式,也就是所謂的數據密集型研究(data-intensive scientific discovery)(14)Hey A. J., Tansley S., Tolle K. M. The fourth paradigm: data-intensive scientific discovery[M]. Redmond:Microsoft research Redmond, 2009:1.??茖W研究的第一范式是實驗,對關鍵因素進行描述和記錄,形成相應理論;由于很多實驗無法進行,理論推演成了第二范式,以相對論等物理學理論為代表,這些理論并非誕生于實驗室,而是通過理論推演得來,后經觀測證實;得益于計算機科學的發展,計算機模擬仿真的第三研究范式應運而生;由于數據的爆炸性增長,大數據研究被稱為第四科學范式。

前3種范式的語言學研究當前比較常見,例如以實驗語音學為代表的實驗范式,以句法學為代表的理論推演范式,以及通過貝葉斯仿真方法研究漢藏語發源地。(15)Zhang M., Yan S., Pan W., etc.Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic[J].Nature,2019,(569).大數據作為第四種范式為語言學研究帶來了新的方法,推動了語言學研究的創新和進步。通過大數據的應用,我們可以更好地理解語言和語言生活的復雜性,探索語言與人類社會、經濟、文化等方面的關系,為數據驅動的跨學科創新提供更廣闊的空間。

(二)語言學研究與大數據

語言學領域當前關涉大數據的研究大致可以分為3類。第一類研究探討大數據對語言學研究的方法論意義。文旭認為“大數據時代三大轉變在認知語言學研究上會大大地改變我們的本體論、認識論和方法論”。(16)文旭.大數據時代的認知語言學[C].第四屆全國認知語言學與二語習得學術研討會論文集,2014:1.梁茂成認為“以深度學習為代表的大數據方法將突破語料庫容量擴大帶來的方法瓶頸?!?17)梁茂成.大數據時代的語料庫語言學研究探索[J].中國外語,2021,(1).第二類研究關注到自然語言處理(NLP)中大數據的作用,進而從語言學理論出發,指出具有社會場景化的語言大數據對NLP的應用前景。(18)徐大明.語言學理論對自然語言處理的影響和作用[J].云南師范大學學報(哲學社會科學版),2017,(3).第三類研究面向具體的應用語言學問題開展,如相關研究通過大數據探討“一帶一路”沿線國家對中文學習的關注度。(19)何山華,楊曉春.基于大數據的“一帶一路”沿線國家中文學習關注度研究[J].云南師范大學學報(哲學社會科學版),2022,(5).

作為一項概念的提出,語言大數據學理上存在幾個基本內涵問題尚待解決。首先,大數據和傳統的語言研究中的語料數據存在哪些區別,只是單純數據規模的擴大嗎?第二,學界缺乏語言和大數據之間的關系論述,大數據作為一種新的方法和范式,和傳統意義上收集語料建立語料庫開展研究,方法上的創新體現在何處?

大數據概念的提出最早源自數據科學,其主要特性概括為4V,即規模大(volume)、種類多(variety)、價值低(value)和存取速度快(velocity)。但在各類語言研究的文獻中,學者們更多關注數據的規模,而忽視了大數據的首要特征在于數據維度高?!熬S度”(dimension)指的是數據的特征值,“諸多領域產生了大量的高維數據,例如基因數據、天體物理數據、圖像數據,等等。這些數據有一個共同的特點是樣本的維數(特征)遠遠大于樣本個數,即特征要素和樣本量可能都趨于無窮大的增長”。(20)梁吉業,馮晨嬌,宋鵬.大數據相關分析綜述[J].計算機學報,2016,(1).由于數據規模大且類型復雜,在這種情況下傳統的統計學和線性分析方法(如相關系數、回歸等)難以刻畫數據內部的復雜關系,因此產生了一系列新的算法來處理高維度的大規模數據。

因此大數據不單指語料規模的擴大,同時也是數據結構和方法的不同,可以認為是一種研究范式的轉變。(21)劉海濤,鄭國鋒.大數據時代語言學理論研究的路徑與意義[J].當代外語研究,2021,(2).如表1所示。大數據的數學方法在過去幾十年間經歷了長足的發展,產生了包括關聯分析、聚類分析、神經網絡等各種類型的方法,(22)何清,李寧,羅文娟等.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014,(4).其中每一類又有不同的具體算法,如聚類算法常見的就包括決策樹、神經網絡、貝葉斯分類器等,通過這些算法從大規模、高維度的復雜數據中訓練人工智能模型,發現有價值的信息(23)周志華.機器學習[M].北京:清華大學出版社,2016:73~246.。相關實證研究證明,大數據范式對于語言本體和應用研究具有可能性和適用性。(24)Abrams D. M., Strogatz S. H. Modelling the dynamics of language death[J]. Nature, 2003,(424);Futrell R., Mahowald K., Gibson E. Large-scale evidence of dependency length minimization in 37 languages[J]. Proceedings of the National Academy of Sciences, 2015,(33).

表1 大數據方法和統計學方法在語言學研究中的不同

二、基于大數據的語言治理研究內涵

基于大數據的語言治理研究具有三重內涵:新的領域(語言數據參與社會治理)、新的方法(以關聯分析、聚類分析、神經網絡等為代表的大數據算法)和新的對象(人工智能生成語言)。語言治理的“數據轉向”具備十分豐富的理論內涵和實踐前景。

(一)新的領域:語言數據參與社會治理

語言數據可以作為大數據集合中的一個或多個維度,致力于解決社會治理的具體問題。如在中國家庭追蹤調查(25)Xie Y., Hu J.An introduction to the China family panel studies (CFPS)[J].Chinese sociological review,2014,(1).中,有十余個語言相關的維度,這些維度可以參與到特定問題的大數據研究中。從應用角度來看,既然語言數據的變量和其他變量能夠構成相關性,語言數據參與到社會治理就存在可能性。比如在國家安全理論和實踐中,研究者可以利用深度學習,建立國家安全和特定語言大數據特征值之間的關系。(26)郭璇,吳文輝,肖治庭,等.基于深度學習和公開來源信息的反恐情報挖掘[J].情報理論與實踐,2017,(9).因此,當語言數據被納入社會經濟大數據的挖掘過程,憑借其豐富的信息特征,應用前景廣闊,比如可以通過社交媒體大數據的信息抽取,進行反恐預防和輿情分析。(27)秦穎.中外語言技術開發應用現狀與展望[J].云南師范大學學報(哲學社會科學版),2016,(2).一些研究也通過語言數據和醫療數據關聯,探索老年人阿爾茲海默癥和語言使用的相關提示表征。(28)Vigo I., Coelho L., Reis S. Speech-and Language-Based Classification of Alzheimer’s Disease: A Systematic Review[J]. Bioengineering (Basel). 2022,(1).可以預見,未來語言數據能夠與特定社會經濟治理實踐結合起來,共同服務于心理干預(29)Coppersmith G., Leary R., Crutchley P., etc. Natural language processing of social media as screening for suicide risk[J]. Biomedical informatics insights, 2018,(10).、社會治安、民生問題、反恐反詐(30)Pelzer R. Policing of terrorism using data from social media[J]. European Journal for Security Research, 2018,(2).等領域。

(二)新的方法:以關聯分析、聚類分析、神經網絡等為代表的大數據算法

以關聯分析、聚類分析、神經網絡等為代表的大數據算法,可以為語言治理研究帶來新的方法。語言數據自身具備大規模、高維度的特征。語言本體研究劃分為語音、詞匯、句法、語義等各個層面,每個層面具備不同的特征值。以語義為例,以Word2vec為代表的詞向量算法將語料轉換為高維的數學向量,(31)Mikolov T., Chen K., Corrado G., etc.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301,3781,2013.自然語言的語義空間可以轉化為可計算的高維向量空間,不同語種的數據可以進行語義相似度計算和聚類分析。

作為大數據方法,對傳統意義上的語言治理問題,具有方法層面的先進性,如表2所示。長期以來瀕危語言保護都是語言治理的關鍵議題之一,早期以編撰方言志為主,隨著語料庫技術的成熟,不少瀕危語言得以建庫存檔。但傳統方法只能將瀕危語言存檔成為“博物館語言”,基于大數據算法訓練的語言模型能夠具備一定的生成能力。在語言內容治理領域,過去通常以培訓課程和宣傳活動為主,基于大數據的監測算法對于互聯網語言內容,能夠精準捕捉、及時識別和過濾,從而實現及時干預和糾正。在城市語言管理和服務過程中,相較于傳統人工方法,大數據方法基于信息流再造和人機交互,能夠將語言交互全流程追蹤復盤,更好地服務城市管理和決策。

表2 大數據語言治理的方法及其優勢對比

傳統的語言治理活動大多是分散的、基于人工的、不留痕的過程,相比而言大數據語言治理方法,核心價值在于能夠將語言治理“數字化”,進一步產生語言治理的過程數據,實現語言數據服務國家治理和城市治理的協同效應。例如,當城市語言服務數據顯示:阿拉伯語在機場、政務場所等場域的翻譯服務和終端交互頻次大量增加時,這一數據變化提示來自阿語地區的來訪者大量增加,中阿經貿往來在未來一段時間將持續增長,從而為國家的外匯金融政策提供先行指標。

(三)新的對象:人工智能生成語言

語言不再是人類獨有的產物,也可能是大數據建模后人工智能生成的產物(以ChatGPT為代表)。在數智時代,語言規劃的主體不僅是對人的語言使用和行為進行規劃,未來也可能需要對人工智能生成語言內容(AIGC)進行規劃,使其符合社會倫理和價值觀。語言治理主體的拓展,反映了人工智能時代語言治理研究的復雜性和艱巨性。傳統的治理路徑,如語言教育規劃、話語規劃、輿情規劃可能“失靈”。如ChatGPT-4在中文處理方面存在預數據質量和數量不足,新知識缺乏以及中文對話系統局限等問題。(32)袁羲,吳應輝.ChatGPT Plus給國際中文教育帶來的機遇、風險及應對策略[J].云南師范大學學報(對外漢語教學與研究版),2023,(3).傳統意義上對人的語言規劃可以通過教學、教材、話語引導等方式進行,但對于人工智能的“黑箱”,可解釋性尚待討論,如何進行AI語言的規劃仍然是一個較為復雜的問題。

自20世紀90年代以來,國外語言治理從理論到實踐逐步展現出“批判轉向”的態勢,語言的教育公平、性別公平和南北公平等成為關鍵議題。語言治理的目標從二戰后致力于語言使用的規范化,逐步向著促進社會公平的方向發展。相關語言治理理論日益“情境化”和“微觀化”,忽視了新技術發展帶來的變化。然而缺乏語言普查大數據的支持和社會經濟大數據的聯動,微觀層面的語言治理難以實現,國外理論訴求也只能淪為“烏托邦”式的藍圖。大數據時代,未來研究應該具備問題導向和實用主義?;貧w費什曼的傳統,在他提出的“分級代際傳遞嚴重度”(Graded Intergenerational Disruption Scale,簡稱GIDS)(33)Fishman J. Reversing Language Shift: Theoretical and Empirical Foundations of Assistance to Threatened Languages (Multilingual Matters 76)[M]. Clevedon: Multilingual Matters. 1991:395.中,通過調查詳細量化了不同語言的瀕危程度?;诖笠幠祿牧炕u估,我們能夠更為有效地監測、復現和評估具體問題,推動語言大數據在社會治理中發揮積極作用。

三、基于大數據的語言治理應用領域

基于大數據的語言治理在國家政府、企業、語言教育教學和學術研究四大領域具有廣闊的應用前景。核心在于發揮語言的數據資源價值,關鍵在于重視對語言大數據的生產、建設、開發、利用的全生命周期的治理,確保語言數據合理規范使用,發揮其社會價值,避免數據安全風險。

(一)國家和政府的語言治理

大數據時代,國家政府領域的語言治理具有以下雙重特性。第一,政策導向上,不完全以國外語言規劃特別是“批判的”研究范式為參照,亦非致力于滿足每個社群的語言訴求,以實現“微觀化”為研究目標。相反,我們以語言大數據乃至社會經濟普查大數據為基礎,宏觀地、整體地、全面地把握國家語情,整合語言社會經濟大數據,為制定語言治理決策提供科學依據。

第二,具體實踐中將語言數據視為資源,通過立法框架,加強頂層設計,推行分類治理,建立權責機制,不斷應用語言大數據提升語言治理乃至社會治理水平,促進語言智能的實現。過去10年大數據立法已取得了長足進步?!吨腥A人民共和國數據安全法》規定,“數據安全,是指通過采取必要措施,確保數據處于有效保護和合法利用的狀態?!痹摲蓪祿氖褂眉{入了法律監管之中,未經授權通過爬蟲收集用戶社交媒體中的語言數據等被認定為非法行為?!吨腥A人民共和國個人信息保護法》第28條將個人信息劃分為敏感信息和非敏感信息,確立了不同的治理手段和標準。

總而言之,國家和政府的語言治理長期以來主要關注不同語種的和諧發展和語言失范的風險防范。隨著大數據時代的到來,語言作為數據要素,應該更多地參與到社會治理的具體問題中,在社情民意、輿論建設、文化傳播之中發揮更多作用。以上作用的發揮需要兩大基礎:一方面需要更加系統的語言大數據基礎設施建設,讓語言大數據能夠同社會經濟數據聯動;另一方面要進一步加強大數據立法,特別是將語言數據納入立法體系之中,規范語言數據的生產、使用和應用。

(二)企業等商業組織的語言治理

企業等商業組織是語言治理數據化的重要參與者和責任主體,由于大數據時代語言數據的生產主要以社交媒體應用、互聯網信息服務和AIGC為主,企業應在國家數據治理的法治框架下,進一步完善具體的語言數據治理方案。與其它類型大數據相比,語言大數據大致上是由人通過計算機中介交流(以智能手機應用為代表)產生,負載了較多與個人有關的信息?;谡Z言大數據的挖掘,能夠刻畫用戶畫像和行為模式。在法治框架下,須明確哪些語言數據是私人信息應該受到隱私保護,哪些語言數據可以用于商業化開發和應用,未來應建立相關的行業標準以進一步加強規范。

以ChatGPT為代表的語言大模型未來將生成大量類似人類自然語言的內容。其內容是否包含虛假信息?是否符合社會文化價值觀?是否能夠規避歷史虛無主義等價值問題?一方面要求各高科技企業在模型訓練中,強化人工標注監督和對抗機器學習,讓AI模型能夠規避特定的話語輸出;另一方面,AI生成語言應該進行用戶識別和版本限制,比如針對未成年人學生等群體,開發教育版或設置相應權限,以避免技術不成熟對語言教育過程帶來的負面影響。

(三)教育教學中的語言治理

隨著ChatGPT等生成式人工智能的發展,未來大數據、人工智能等應用在語言教育中將扮演重要角色?;仡櫿Z言教學技術的發展歷程,大致可以分為3個時期。從20世紀八九十年代提出的計算機輔助教學,到2000年前后基于信息技術和課堂的教學模式,再到2010年前后以慕課為代表的翻轉課堂教學模式。(34)胡加圣,陳堅林.外語教育技術學論綱[J].外語電化教學,2013,(2).由于語言具備大數據的一系列特征,大數據或將成為語言教學技術的重要創新點,具有廣闊的應用空間。

首先,在大數據和機器學習技術的加持下,語言教學或將從過去的“一對多”向“千人千面”轉變。無論是電子教材還是慕課教學,都是一套標準化內容面向多個不同學生。教學過程中,學生產生的海量語音、語句等數據尚未內化成為教學過程的一部分。得益于大數據技術的迭代和機器學習的特性,未來大數據加持下的語言教學可以具備交互性,將不同學生產生的教學數據納入大數據教學系統中,進行模型調參,形成“千人千面”的教學內容和教學過程。由于數據的可遠程傳輸特性,讓來自不同地區、不同教育資源、不同經濟條件的學生都能夠得到適合自己的學習支持,從而彌補學習資源的差距,促進機會公平。

第二,大數據或將改變語言教學的評價方式。長期以來,標準化考試都是評價語言教學成效的“金標準”,過程性評價僅具備參考意義。在大數據和區塊鏈技術的幫助下,未來學生的全過程語言學習的全部信息都可以進行安全存儲和記錄,考試成績只是全過程數據中的一個部分,避免了學生評價對單一考試成績的過度依賴,有助于更加全面系統地了解學生的學習發展軌跡和潛力,從而實現更公正的學習成果評估,促進機會公平。

第三,大數據將催生一系列新工具,提升語言教學的效率和質量。例如,傳統教學過程中的聽力材料幾乎都由出版社通過人工錄制獲得,其缺點在于成本較高且發音較為單一,缺乏多樣性。在大數據時代語音合成技術的廣泛應用之下,聽力材料能夠直接通過語音合成技術產生不同國家和地區的聽力素材。另外,大數據時代自然語言生成技術的發展也為寫作教學提供了全新的工具,幫助學生更高效地進行素材收集和語言文字創作,也會帶來人機交互共創的新型教學模式。(35)袁羲,吳應輝.ChatGPT Plus給國際中文教育帶來的機遇、風險及應對策略[J].云南師范大學學報(對外漢語教學與研究版),2023,(3).以ChatGPT為代表的大模型,更為語言教學提供了廣闊的應用空間和諸多挑戰。

語言教育規劃未來應該更加關注和適應新技術的發展趨勢,主動擁抱大數據及相關技術的發展,提升大數據時代教師的技術素養,豐富課堂教學的技術方法,推動大數據和語言教學的深度融合,以期實現語言教育的重構。在大數據時代,過去象牙塔中的知識已經通過機器學習內化為AI系統的一部分,知識檢索和內容創造最終導向為AI大模型的訪問入口。AI時代的語言教育規劃仍要依托大數據方法和資源,只有充分積累語言教學全過程中的大數據資源,才能為教學、評估、教材等諸多領域提供AI建模和進一步拓展應用的基礎。

值得注意的是,雖然學術討論中對大數據和AI技術在語言教育規劃的應用持積極態度,技術革新的前景也十分廣闊,但是在實踐中語言教育作為基礎教育領域的重要組成部分,除經濟性、公平性和效率性等考量之外,學生品格能力的培養和育人意義更是重中之重。百年大計,教育為本,技術的進步終歸要服務于人的全面發展。(36)張海波,楊兆山.ChatGPT的教育挑戰與應答[J].四川師范大學學報(社會科學版),2023,(4).相較于大數據技術在其他領域的飛速應用,在語言教育規劃領域的應用須全面評估其綜合影響。

(四)語言治理的學術研究

從學術研究的領域而言,語言治理的“數據轉向”需整合語言社會調查和社會經濟普查大數據,以實現更為全面、科學的語言治理。當前人口普查等社會經濟類研究,往往忽視了語言社會使用的各項數據(如語言習得水平、習得年齡、語言使用現狀、高頻話語等),語言的社會調查通常局限于語音、詞匯等本體。語言數據始終是社會經濟大數據的“孤島”,難以實現數據間的有效聯動。只有當語言充分成為社會經濟大數據的一部分,才能更好地應對語言多樣性和社會公平的挑戰,推動語言治理進入真正“微觀治理”的實踐階段,為不同語言社群提供公平的發展機會。

近30年的實踐證明,國外語言規劃理論的“批判轉向”并未取得應有的成果。盡管語言的教育公平、性別公平和南北公平被反復倡導,但強勢語言獨大、語言生態破壞和語言資源不公平仍然呈現出日益嚴重的趨勢。追根溯源,語言的層級化是全球化發展的一種自然演化結果。(37)郭書諫,沈騎.互聯網空間的世界語言活力及其成因[J].語言文字應用,2019,(1).這種符合齊普夫定律(Zipf's Law)的自然秩序難以通過學術批判和倡議加以扭轉。語言治理研究應該描述語言的自然演化秩序,發現客觀規律,堅持描寫主義的客觀立場,而不應成為一種價值訴求。

大數據范式為建構中國本土的語言治理理論提供契機。中國具備充分的人口普查的社會經濟數據資源,移動互聯網覆蓋率高,語言使用大數據非常豐富。在大數據基礎上,避免國外語言治理理論的窠臼,積極探索中國的語言治理和社會治理方案,深刻體現中國式現代化的科學內涵。

結 論

自二戰以來,語言規劃理論發展迄今已有70余年歷史,國外語言規劃理論經歷了數次轉型,其中20世紀90年代以來的“批判轉向”影響至今。盡管國外語言規劃長期倡導語言公平并致力于推動社會公平,但目前仍然只是烏托邦式的藍圖,尚缺乏切實可行的解決途徑和應用場景。另一方面,隨著大數據和人工智能特別是ChatGPT為代表的生成式人工智能的發展,語言治理或可突破原有的理論路徑,實現語言治理的“數據轉向”。

大數據作為科學研究的一種新范式,在包括語言學研究的各個學科中日益展現出理論創新的重要價值,但在當前的語言治理研究中仍然處于探索階段?;诖髷祿恼Z言治理研究具有三重內涵:新的領域、新的方法和新的研究對象?;诖髷祿恼Z言治理在國家政府、企業、語言教育教學和學術研究四大領域具有廣闊的應用前景。未來應重視語言大數據的生產、建設、開發和利用的全生命周期的治理,使得語言數據合理規范使用,發揮其社會價值,避免數據安全風險。

語言治理的大數據研究范式或將成為建構中國本土語言治理理論的重要契機,避免國外語言治理理論的批判化和微觀化窠臼;推進語言數據和社會經濟大數據聯動,扎根中國語言國情,面向中國式現代化進程中的語言發展和社會治理需求,促進語言數據參與到國家社情民意、輿論建設、文化傳播等現實問題的治理過程中;將AI生成語言納入語言治理的研究框架,加強教育全流程的語言數據應用和監督,以建構科學的語言治理體系,服務中國式現代化。

猜你喜歡
范式語言研究
FMS與YBT相關性的實證研究
以寫促讀:構建群文閱讀教學范式
范式空白:《莫失莫忘》的否定之維
遼代千人邑研究述論
孫惠芬鄉土寫作批評的六個范式
語言是刀
視錯覺在平面設計中的應用與研究
EMA伺服控制系統研究
管窺西方“詩辯”發展史的四次范式轉換
讓語言描寫搖曳多姿
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合