?

大規模古籍文本在中國史定量研究中的應用探索

2016-12-29 19:16歐陽劍
大學圖書館學報 2016年3期
關鍵詞:數字人文定量分析古籍

歐陽劍

摘要 利用新的信息技術與面向數字人文研究的跨學科方法,采用大數據研究理念對古籍文本進行字詞的歷時詞頻分布規律可視化分析,以中國史定量研究為例,對部分中國史的經典宏觀理論從量化角度進行了初步驗證。認為大數據視域下的技術邏輯和人文邏輯相耦合的數字人文研究為人文社會科學經典理論的驗證和拓展提供了更多研究空間與研究方法,有利于推進古籍文獻深層次的開發與利用。

關鍵詞 大數據 數字人文 定量分析 計量史 古籍

1.引言

隨著“大數據”時代的到來,對大規模歷史資料進行定量分析已成為歷史學研究中一種新的、行之有效的方法,通過統計分析從大規模數據中挖掘新事實、產生新認識,能夠發現靠傳統文獻閱讀無法發現的隱藏在歷史文獻中的史實與現象。20世紀中期以來,歷史學定量分析逐漸成為國際學術研究中的一股新風潮,并服務于學界,現在學者們認為許多不具備數字特征的事物或事件,只要所研究的事物或事件存在特征并能加以量化,同樣可進行定量研究,計量史學在經濟史、政治史、社會史、人口史等領域研究中取得了很多的研究成果,發揮著巨大的作用。人文學科中的定量研究不僅能通過數據挖掘新發現,更能解釋和理解這些發現,進而改變我們固有的歷史和社會科學理論與認知。

大數據給了人文學科研究的全新思維。人文學科研究往往會預先設定研究問題或理論模型和假設,然后去尋找相關材料,但部分研究因為材料收集有較強的主觀性和選擇性,往往傾向于重復確認“已知”,而忽略發現“未知”。因此,很難促進對社會事物整體規律形成統一且有效的認知。而大數據研究思維則不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系。埃雷茲·艾登(Erez Aiden)等在《可視化未來數據透視下的人文大趨勢》(UNCHARTED:Big Data as a Lens on Human Culture)中以“谷歌圖書”項目為背景,通過500多萬本電子書不同詞匯使用頻度隨時間的變化,講述了大數據在研究歷史文化、人類語言、社會名望、群體記憶等方面的重要作用,凸顯了大數據對人文社會科學研究的變革意義。大數據時代的各種思潮和視角在不斷涌現,大數據作為一種全新的資料,以其大大超越傳統調查數據的樣本量和時間跨度,為人文社會科學經典理論的驗證和拓展提供了更多研究空間。而基于大數據的定量分析則為人文社會科學研究提供了一個全新的視角,傳統人文社會科學的實證研究強調在理論的前提下建立假設,大數據時代重在發現知識與現象,在沒有理論假設的前提下去預知,從海量的數據中發現知識,尋找隱藏在數據中的模式、趨勢和相關性,揭示事物現象與發展規律,大規模的古籍文獻擴大了人文學科資料的范圍,提供了人文學科新的研究空間和新的研究可能。

2.大數據視域下的傳統古籍文獻開發及利用分析

目前,我國古籍文獻的數字化已經比較成熟,文字層面的數字化也具一定規模,為古籍的深度開發與利用奠定了基礎。古籍文獻的統計分析是數字人文研究對古籍深度利用的基本需求,定量分析則是數字人文研究的一種主要研究方式。與傳統的定性分析不同,定量分析是依據統計數據,建立數學模型,并用數學模型計算出分析對象的各項指標及其數值的一種方法。因此,定量分析的應用使人文學科研究更趨于科學化。人文學科的研究者對定量分析的需求日趨強烈,研究者不再滿足檢索結果的簡單羅列,更需要從計量學的角度對符合一定條件的古籍文獻從作者、文獻來源、體裁及年代等多角度進行統計分析。近年來學者在古代詩、詞、古代文學及中國史等研究中采用定量研究的趨勢更為明顯,例如,武漢大學著名詞學研究者王兆鵬教授把文獻計量的方法成功地引入詞學研究中,李伯重教授在史學研究中大量地采用量化方法,李中清教授通過定量方法提出了150年來中國精英出身家庭四個階段論述,胡俊峰、俞士汶利用統計分析的方法定義了唐宋詩中詞匯語義的統計表達,20世紀90年代中期,北京大學開發的古詩研究系統就設置了統計分析的功能,定量方法的使用使得人文學科的研究成果增加了定量的特征,增強了人文科學研究的科學屬性。

此外,多元、多角度的對比分析及古籍內容挖掘也是人文學科中數字人文研究所急需的??茖W研究可以從多個角度進行對比分析,發現新的問題與現象,尋找隱藏在數據中的模式、趨勢和相關性。對于作為史料來源的古籍文獻來說,通過文獻記載的史實對比,可以考察文獻原始出處及后續的演變。哲學上,空間和時間的依存關系表達著事物的演化秩序,時間及空間上的比較分析法是常用的分析方法,它從時間角度和空間角度對事物的發展及變化進行立體式的描述,將是古籍文獻深度利用方面的重要方式。而古籍內容挖掘更是人文學科領域深度分析的主要方式。利用文本挖掘技術可以對歷史事件的發展等做出宏觀的描述,更能準確地還原歷史真相,對古籍文獻中錯綜復雜人物關系建立關聯,歷史人物的社會評價做出客觀的判斷,對語言、社會及地理等現象進行有效的解釋,同時古籍內容挖掘也是古籍數字化知識構建的基礎。

隨著古籍數字化的進一步發展,更多的學者開始認識到古籍數字化帶給我們的不僅僅是海量的古籍文獻存儲,“數字化”為技術與人文的合流構筑了新平臺,更為一個技術邏輯和人文邏輯相耦合的“數字人文”的出現提供了可能。傳統的古籍開發與應用模式已難以適應人文學科中數字人文研究的需要,急需研究輔助工具與研究方式的創新與開發。引入大規模定量計算分析方法,構建可持續完善和豐富的數據集和分析工具,充分利用新的信息技術、中文信息處理技術及跨學科方法來對古籍進行深層次的分析與挖掘,對數字化古籍文獻所蘊涵的多重信息進行多角度的揭示和重組,這種深度的開發使古籍文獻不再是平面的、孤立的資料,而使其構成一個立體的文化學術知識庫。

3.大數據視域下的古籍文本可視化分析與挖掘

詞匯的時空傳播與演化探索,研究意義重大。金觀濤與劉青峰的《觀念史研究:中國現代重要政治術語的形成》,以十年之功,建立起一個龐大的“中國近現代思想史專業數據庫”(1830-1930年),通過核心關鍵詞在歷史文獻中的統計數據,找到一份中國重要政治術語形成時期的觀念史地圖,從而跳出傳統史學研究被詬病的框架——研究觀念起源往往囿于思辨而無法實證。計量史學遭遇的是方法論難題,建設大規模數據集,則可能是逾越“大歷史觀”、整體史研究與繁蕪歷史資料間鴻溝的有效辦法。如何將這類歷史資料進行合理有效的編碼和數據集成化,并通過實證分析更好地幫助我們了解社會發展的歷史經驗和對當下的啟示,成為學界需要加強探索和討論的關鍵技術課題。

按照馬創新、曲維光、陳小荷主張的古籍數字化開發的兩個層次來看,顯然,以存檔和檢索為目的的古籍文獻表層數字化已取得豐碩成果,而古籍文本可視化分析與挖掘屬于深層次的開發,深層次的古籍文獻開發主要是古籍知識單元標注及知識網絡構建、古籍文獻之間的關聯、文本內容分析及挖掘等,就目前的數字化古籍文獻的開發及利用現狀來說,面向數字人文研究的數字化古籍文獻的深度利用所面臨的主要問題有以下兩點:

(1)缺乏有效的對于數字化古籍文獻的整合。

目前的古籍文獻數字化存在各自為政的狀況,由于版權及產權的原因,導致數字化的古籍文獻分散于不同公司、不同研究機構中,而且重復建設嚴重,不僅功能單一,數據也往往只涵蓋某一個類別或某一個專題,分散的數據不能實現多元化及整體化的研究對比與分析。而有比較才有鑒別,有比較才有發現,有綜合才能發現知識、規律的全貌。大數據時代已經來臨,超大規模古籍數據、更多更豐富的古籍文獻匯集在一起,可以提供更多、更全面、更準確的資料,滿足文、史、哲等各學科研究的需要,對交叉學科來說更是不可或缺。面向數字人文研究的數字化古籍文獻整合的目是共享或者合并來自于兩個或者更多應用的數據集,創建一個具有更多功能的數字人文研究應用的過程,數字化古籍文獻的整合將有利于知識揭示、現象發現,將極大節省研究者的時間,提升研究和創新水平,通過異構數字古籍文獻的融合、聚類和重組使資源從數據層的揭示與展現轉向信息層、知識層的深度服務,通過將零星的史料片段按一定規則重新組合、排列,對蘊含在古籍中的知識進行多元重組,使不同知識單元之間建立關聯,形成一個多維的知識網絡,可以幫助研究者發現原有脈絡中難以獲得的發現與解讀。因此,數字化古籍文獻整合勢在必行,打破古籍數據庫建設“小、散、亂”,以及各自為政的模式,已形成學術共識。

(2)缺乏新的數字人文研究范式及方法。

基于古籍文獻的語言、文學及歷史等人文學科的研究在學術上的突破往往依賴于新材料的發現。雖然數字化古籍文獻的使用引發了研究思維的轉變,改變了學術前沿的概念,但囿于研究工具及研究手段限制,人文學科研究在創新方面遇到新的瓶頸,在傳統研究范式的制約下,使得一些研究項目無法開展,研究視野受到束縛,傳統的數字化古籍文獻的開發及利用模式難以催生突破式的發現。馬克思說過:生產工具促進生產力的發展。同樣,先進的研究工具有利于學術研究的發展。新的數字人文研究工具與方法的出現將突破傳統的研究范式,古籍文獻數字化的廣泛普及促進了古籍的利用,大大節約了研究者查找資料的時間,消除了古籍文獻獨占的客觀制約,史料的綜合化消除了語言、文學、歷史、哲學等學科的材料隔閡,在如今強調各學科協同創新的大背景下,更為人文學科的交叉研究提供了條件。

3.1數據來源

數據和方法是數字人文的兩大支柱。數字人文領域的研究使數據驅動(Data-Driven)研究成為熱點,數據已成為數字人文研究的基礎和核心。大規模古籍文本具有覆蓋時空跨度大、材料面廣的特點,很大程度上可避免選擇資料時的疏漏與偏廢,彌補史學家慣用的“選精”與“集粹”研究方法帶來的缺陷。古籍文本的收集、整理是大規模數字化古籍文獻研究的基礎,而對古籍文本語料庫的構建主要采取對已有數字化古籍文獻整合的方式。大規模古籍數據并不是單一數據很大,其最核心的問題是多源跨域數據的融合,即通過融合不同類別、不同專題的數字化古籍數據的知識來共同解決單一數據解決不了的難題。大規模古籍數據有三個非常重要的層次:數據的獲取、數據的描述和數據的分析,在語料庫的建設過程中,語料庫應該滿足三個基本要求:樣本的代表性;規模的有限性;機器可讀性。因此古籍文本語料庫構建應遵循以下原則:

(1)目的性。數字化古籍文獻整合的主要目的是為人文學科的研究服務,因此,古籍文本語料庫構建需要以研究的適用范圍為導向,有針對性地選取多數據進行融合,特別需要收集有一定權威、認可度的高質量數據,實現多數據源的濃縮,幫助降低學者研究時的對比、統計和分析數據的勞動強度。

(2)一致性。古籍數據整合的一致性首先表現在格式的一致性。多來源的數據易導致格式的不統一,因此,存儲和處理時必須對數據進行統一的編碼格式轉換。為了提高電子文本的規范化和標準化程度,1987年美國計算機語言協會(ACL)、美國文學與語言計算協會(ALLC)和美國計算與人文協會(ACH)贊助并組織的文本編碼倡議(TEI)為電子形式的文本材料定義了一系列的通用標準,并被世界各國廣泛采用。其次,數據內容的準確性也應保持一致性,這樣才能提高分析結果的可靠性。再次,數據的分割、統計、分析方法的一致性,在同一標準下進行分析及統計,這樣的結果才有可比性。因此,一致性的古籍文獻分割、保存、整合、透視和展示方式,可以最大程度地保證研究結果的可靠性、可檢驗性及再現性,也有利于后期的更新與維護。

(3)多樣性。數字化古籍文本語料庫是一個龐大的文本文獻的集合,主要用于觀察、分析和研究文、史、哲等多個學科的需要,不僅僅滿足于傳統的語言學詞匯、語法、語義語用、語體等研究的需要,更需要能滿足文、史、哲等多學科和跨學科研究的需要,因此加工深度及標注信息既要反映各種語言學屬性,語料也應具有多樣性,更應注重多學科的交叉和融合。

(4)共享性。人文研究學者需要的不僅僅是統計分析的結果,他們對原始研究數據也有強烈的需求。傳統的研究者常從檔案、出版物或者文物等人類文化記錄中提取數據,有時可能會花費幾個月甚至幾年的時間。而語料庫將極大節省研究者的時間,幫助他們利用現有數據提出新的研究問題或作為有效的例證。因此,語料庫文本數據的共享也是非常必要的。

目前,已數字化的古籍文本主要以兩種形式存在,一種是網絡上的各種專業性論壇或網站,另一種則存儲于專業數據庫中。從數據收集角度來說,主要來源途徑有網絡數據采集與專業數據庫文本獲取兩種。然后對獲取來的文本進行編碼、分類、標注等處理。大規模數字化古籍文本語料庫構建過程如圖1所示。利用計算機自動、半自動收集的方式,加快了數字化古籍文本建庫的速度,為建設大規模古籍文本語料庫提供了保障。經過近半年的抓取及抽取,收集、整理了41563種(大約48億字)數字化古籍本文,涵蓋從上古到民國的經、史、子、集等40個類目的文獻,覆蓋面廣且有時間上的延續性,形成了一個比較綜合、學科門類全面的數字化古籍文本語料庫。

3.2數據處理

構建面向人文學科的分析系統并非單純將古籍文獻數字化,而是需要憑借人文學者對古籍文獻的深刻理解,創造性地進行編碼、歸類和整合。大規模、長時期的數字化古籍文獻普遍存在著體量龐大、標注不明確和不同年代同類信息含義有差異等諸多問題。采用靈活、有效的編碼方法成為研究歷史數據成敗的關鍵。對數字化古籍文獻進行系統、合理的分類與編碼是開展數據庫構建和進行最終定量分析的基礎和前提。在進入生語料庫之前,數字化古籍文本語料需要經過以下三個數據整理的步驟:

(1)版本挑選。在大規模機器自動采集的過程中,網絡采集源的數據質量難以通過機器來判定,因此,通過人工方式對數據整理是不可或缺的,也是為了保證高質量古籍文本語料庫的需要。通過人工檢查的方式對數據進行整理,去除那些低質量、殘缺的數據,挑選出那些高質量的數字化古籍版本,高質量的文本語料更能提高分析、統計的準確性,提高分析結果的可信度。

(2)文本抽取。由于采集的古籍文獻的數據來源不同,因此文本的載體格式也呈多樣化,采集的數據格式包含PDF、WORD、HTML等多種形式,為了研究的需要,在數據整理及標注前需對采集的數據進行文本數據的抽取及編碼轉化。文本數據的抽取通過程序自動抽取,抽取過程中把UTF-8、Uni-code、GBK等不同編碼轉換成統一的Unicode編碼。

(3)文本轉碼。與文本載體格式類似,采集、抽取的文本字體存在大陸簡體、古籍繁體及臺灣繁體字等三種。不同字體造成了對于以文本為基礎的統計及內容分析的困難和復雜性。因此,古籍文本語料采用大陸簡體,字體轉換采用廈門大學、教育部語言文字應用研究所、北京師范大學聯合開發的《漢字簡繁文本智能轉換系統》進行簡繁異體字轉換,形成統一的簡體字?!稘h字簡繁文本智能轉換系統》采用語料庫語言學的研究方法,通過數線性模型(Log-Linear Models)進行簡繁字體轉換,準確率達到97%以上。

生文本語料的標注也是語料庫構建的一個重要環節。古籍文獻的準確標注能夠使計算機快速準確地找到目標文獻,并能有效地建立文獻之間的關聯。生語料的標注既要適應計算機自動處理的需要,也要考慮到人文學科研究的需要。生文本語料的標注分成兩部分,一是對古籍文獻的外部特征的元數據標注;二是對古籍文獻的內容進行標注。古籍文獻的外部特征主要是指文獻名稱、作者(包含編、撰、注、疏等)、作品年代、著者信息(出生時間、死亡時間、出生地等)、版本信息、作品分類等。古籍文獻的外部特征可為數據分析、統計提供必要的信息,例如分析、統計過程中的時間點就是按照作品的作者卒年時間為依據的,在卒年時間不明確或無法考證時即按作品所在的年代為依據(作者的卒年及古籍文本的版本考證是一個難題,存在諸多爭議,這涉及史書語料時代性這一老大難的問題,通過相關專業人士的核查將為分析的準確性提供保障)。

在標注古籍文獻作者及地理信息時,參考了哈佛大學費正清中國研究中心、臺灣中央研究院歷史語言研究所和北京大學中國古代史研究中心共同開發的《中國歷代人物傳記資料庫》(CBDB)與復旦大學的《中國歷史地理信息系統》(CHGIS),根據研究的具體需要,從前者抽取了作品作者的生卒年代、地理信息等,從后者整合了部分地理信息。通過抽取、整合多個外部數據源,充分利用了外部的已有資源,不但減少了標注的時間,而且豐富了數據內涵,同時準確性及可靠性也得到了保證。

(4)文本切分。詞頻分析是文本挖掘中的一種重要研究方式,也是文本可視化的一種重要模式。當面對海量文本時,人們需要對每個文本或者整個文本集合的主要內容進行快速瀏覽,因此需要構建基于詞頻的文本可視化。常用的思路是將文本看作一個詞匯的集合,利用詞頻信息來呈現文本特征。例如谷歌(Google)實驗室推出書籍詞頻統計器(Books Ngram Viewer)就是以歷代詞頻分析研究為基礎而進行的可視化分析。對古籍文獻的內容進行標注是數字化古籍文獻知識提取和知識重組的關鍵。對古籍文獻的切分必須遵循古代漢語詞匯的發展特點,在大規模地對不同朝代的古籍文本進行分詞時,采用分朝代、分詞匯表的方式切分才符合古代漢語詞匯的發展規律。即切分不同朝代的古籍文本語料時采用相應朝代的詞匯表,可以最大程度上提升古籍分詞的準確率。筆者采用分段疊加的方式,從已有的古代漢語詞匯詞典及專書中提取詞匯,從已有語料中采用統計學的方法自動提取詞匯作為補充,以二元(Bigram)模型為主對古籍分詞。

3.3大規模古籍文本可視化分析與挖掘

大規模古籍文本可視化分析與挖掘以古籍文本為基礎,基于大數據研究理念,采用格拉布斯(Grubbs)法進行數據降噪,最大程度消除問題數據,在分詞后的古籍語料庫基礎上,以詞頻統計為研究核心對古籍文本進行分析與挖掘,采用單位時間窗口滑動技術對單位時間內的詞頻進行分析,運用內存實時計算思想很好地解決了讀取數據的瓶頸問題。實時統計分析則采用并行計算方式解決了實時查詢效率問題,統計分析結果以時間軸為主線的微觀散點圖和宏觀曲線圖對進行宏觀層次與微觀層次展示,并以古籍文獻作者為主線,利用地理信息系統(GIS)技術,將我國龐大的、靜態的、分散的數字化古籍進行大規模的集成和地圖展示,以古籍文獻的檢索為線索在地圖上呈現相關作者的地理分布,實現了實時、在線、立體、可視化、定量分析字詞的歷史詞頻分布規律,為研究者構建一個以語言學、歷史文獻學、歷史地理學等人文學科為主的古籍實時統計分析平臺。

4.大規模古籍文本可視化分析與挖掘在中國史定量研究中的應用

大規模古籍文獻的收集整理和量化數據集是相當有難度的,而更大的挑戰來自對歷史數據定量分析結果的理解和詮釋。大規模古籍文獻經過可視化定量分析后,常常有一些“不期而遇”的發現。以大規模數據為基礎的量化研究還能較好糾正研究的主觀性,實現研究從常見的理論或問題驅動轉向數據或經驗驅動。運用數學方法對歷史資料進行定量分析,使史學研究更趨于精確,大規模的古籍文本其本身就具有重要的歷史研究價值。在此基礎之上,通過該系統能對一些歷史事件與現象作定量分析,使結論的可靠性具有更好的說服力。

武則天一度成為爭論最多、留下疑惑最多的一個歷史人物,對武則天的歷史評價向來毀譽不一。迄今學術界對武則天功過的評價仍然眾說紛紜,不僅史學界沒有定論,在大學課堂里亦評價各異。在傳統研究中,研究者易將“某一或某些例證所反映的現象普遍化”,從而可能喪失真實性,導致研究結果具有一定的不可靠性。通過大規模古籍文獻來分析歷史文獻中對武則天稱謂的變化,從中能發現一些有趣的歷史現象。由于筆者非歷史學專業出身,對問題描述與解析可能會存在一些偏差,需要專業人士來對獲得的現象進行更為合理的解讀。

系統統計分析顯示,在歷史文獻中對武則天稱謂的總體分布和年代分布如圖2、圖3所示。從其稱謂來看有武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等,武則天死后,唐人對其的評價曾發生過一些變化,正如王雙懷教授所說“唐中宗給武則天舉行隆重的葬禮”,睿宗即位后,“對武則天的評價明顯降低”,“唐玄宗基本上還是肯定了武則天?!?,“盛唐以后的統治者對武則天是相當尊重的”。從詞頻可以看出,到唐末期很少出現直呼其名的或稱其“武氏”,從唐中期到唐末時期基本以“武后”相稱,雖然不承認其皇帝身份,但稱謂也無有意貶低之意。

五代后,稱其為“武氏”的文獻開始大量出現,與“武后”稱謂不差上下,從大量文獻來看,該時段褒貶都有,對武則天任用酷吏、改朝換代的事和武周政治進行了嚴厲的抨擊,“但總的看來,是否定武則天的”。北宋時期,歐陽修、宋祁等人用最惡毒的語言攻擊武則天,但是,歐陽修等人只是反對武則天干預朝政、任用酷吏、殺戮宗室大臣以及改朝換代,并不否認她的政績。及至南宋,人們對武則天的評價越來越低,但也不是都持全盤否定的態度。到了清初,因對異族統治不滿,又無能為力,遂借古諷今,但也有文獻對武則天的評價是較高的。稱其“武皇后”、“武媚”基本上集中在五代十國到南宋,而稱其為“則天大圣皇帝”(圖4)的基本以史書記載為主,文獻分布也比較分散。所有以上記錄武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等稱謂的文獻作者空間上的聚合分布如圖5所示,除了江蘇、浙江一帶比較多以外,其他地區分布得比較均勻。

對另一個經典的歷史思想觀念進行驗證的是“重學輕術”。中國傳統觀念一直受“重學輕術”這一思想的影響,學、術在我國古代分別具有不同的含義,按《漢語大詞典》、《康熙字典》等的解釋,都有不少義項,“學”基本是指鉆研知識、獲得知識、掌握知識等為主,而“術”則多指技藝、方法??梢?,學術在中國古代的知識體系中學是學,術是術,且在傳統的儒家思想中學是“儒道之經”,術是“奇技淫巧”。從圖6可見,“學”的頻率在中國古代文獻中要遠高于同期“術”的頻率,不知是否跟中國古代儒家歷來重“學”輕“術”有關,或一定程度上反映了儒家思想對仕人思想的影響。

文學地理學的研究對象是文學要素的地理分布、組合與變遷,文學要素及其整體形態的地域特性與地域差異,文學與地理環境之間的相互關系。文學要素包括文學家、文學作品和文學讀者,地理環境則包括自然地理環境和人文地理環境。文學地理學的任務,就是考察不同的自然地理環境和人文地理環境對文學家的氣質、心理、知識結構、文化底蘊、價值觀念、審美傾向、藝術感知、文學選擇等構成的影響。文學與地理環境的關系是一個互動關系。對中國歷代文學家的地理分布格局分析是文學地理研究的重要內容。而古籍文獻則又是分析的主體。系統提供了古籍作者空間信息可視化分析功能,為文學地理的空間環境分析提供了新的研究工具。

在傳統研究中,從地理空間的視角研究文學作品,定量化解析文本中的空間信息是一項繁雜的工作。系統能通過文學作品中詞組出現頻率來分析其空間分布及方言詞分布,提供時間和空間二個維度的分析視角。例如,先秦至西漢年間(公元前2070-公元23年)古籍文獻的作者(由于系統目前沒有嚴格按譚正璧主編的《中國文學家大辭典》對屬于古代文學家的人物進行標識,故統計分析的是所有古籍文獻的作者數據。以下同)主要地理分布如圖7。這一時期的作者分布主要在黃河以北地區,在山東與山西境內;東漢至西晉年間(公元23-公元316年)古籍文獻的作者主要地理分布如圖8,這一時期的作者分布主要中心開始往長江一帶轉移,以成都、武漢、南京為主;東晉至南北朝年間(公元316-公元581年)古籍文獻的作者主要地理分布如圖9,這一時期的作者分布主要以南京為主;隋至五代十國年間(公元581-公元979年)古籍文獻的作者主要地理分布如圖10,這一時期的作者主要分布中心重新北遷,主要分布在黃河中下游地區,以河南、山東為主;宋至清末年間(公元979-公元1911年)古籍文獻的作者主要地理分布如圖11,這一時期的作者分布區域明顯擴大,而且主要分布在沿海及中、東部地區。

從以上古籍文獻作者的地理分布圖可以看出,古籍文獻作者的地理分布是有規律可循的,從周秦到清代中心的分布大體呈現以下規律:

(1)以都城區域為中心分布。都城既是全國的政治和軍事中心,也是全國的文化和人才中心,聚集了豐富的教育與經濟資源,文化和文學人才興盛,這種現象在我國古代早期表現更為明顯。先秦時期的都城以黃河以北區域為主,此時的作者基本分布在黃河以北區域,東漢至西晉年間都城開始往南遷移,如蜀國建都成都,吳國建都建業(今南京),此時的作者基本分布在長江中下游區域,東晉至南北朝年間的都城也是建業,此時的作者分布以南京為中心,隋至五代十國年間的都城以西安、開封、洛陽為主,此時則以黃河中下游區域分布為主。由此可見,宋朝之前都城區域的變化對作者地理分布影響為主因。

(2)以經濟中心分布。黃河中下游流域與長江一帶古時是中國的經濟重心,最為富庶,這些地區的文人占了全國的絕大多數,經濟的繁榮,也帶動了教育的發展,這些為文學人才的成長提供了重要的條件。從宋朝開始,長江中下游地區成為經濟中心,此時,經濟中心對作者地理分布影響成為主因。

(3)文明程度的影響。文化傳統悠久、文化根基深厚的地區一旦形成,就有一定的穩定性,不會因政治、經濟等外在條件的改變而立刻改變。比如長江下游的江蘇、浙江一帶,無論朝代的更替都一直保持著文化和文學人才的興盛。

(4)交通的影響。早期的作者地理分布影響因素主要是都城及經濟,從宋朝開始,隨著交通的便利,作者地理分布呈現出分散的態勢,交通的發達促進了各地經濟、文化交流,經濟與文化的廣泛交流是一個地區文化建設的一種重大的推動力,此時,作者地理分布集中在中國沿海及中、東部地區,而西部地區由于交通因素限制了經濟與文化的交流。

以上分析的結果與曾大興在《文學地理學研究》中的研究成果高度相符??臻g信息可視化分析為古籍深層次開發與應用的發展做出了一種探索和嘗試,實現了從古籍作品一般信息的統計學分析擴展到古籍信息空間信息挖掘,為文學地理學研究提供了新的視角,也為其他歷史、文化地理學等相關學科的研究提供了可參考的案例。

5.結語

大數據視域下的技術邏輯和人文邏輯相耦合的數字人文研究為社會科學經典理論的驗證和拓展提供了更多研究空間與研究方法。在人文學科領域,數字化大數據成百上千倍地擴大了資料的范圍,無疑有助于人們較為系統、全面地了解已有研究成果。但同時資料總量的快速增漲也給學者帶來了巨大挑戰,研究所涉及的資料大大超出一般的閱讀、分析和理解所能處理的范疇,是以往“不可研究”或“難以研究”的。數字人文分析方法的出現,為人文學科研究提供了新的研究空間和新的研究可能。筆者利用新的信息技術與面向數字人文的跨學科研究方法及研究范式,采用大數據研究理念,對古籍文本進行了歷時詞頻分布規律的可視化分析,并以中國史定量研究為例,對部分中國史的經典宏觀理論從量化角度進行了初步驗證。大規模的古籍文本定量分析是對古籍文獻深層次開發與利用的一種有益嘗試。

猜你喜歡
數字人文定量分析古籍
中醫古籍“疒”部俗字考辨舉隅
關于版本學的問答——《古籍善本》修訂重版說明
關于古籍保護人才培養的若干思考
我是古籍修復師
數字人文目標下圖書館信息服務模式研究
FTA在工業氣體探測報警系統中的應用
商務英語詞匯量與商務英語閱讀能力相關性研究
國外藝術體操科研現狀
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合