?

數字人文視角下的古籍知識關聯探析

2022-11-28 13:05王麗麗
農業圖書情報學刊 2022年9期
關鍵詞:方志古籍關聯

王麗麗,張 寧

(1.中國人民大學圖書館,北京 100872;2.中國人民大學古籍整理研究所,北京 100872;3.中國人民大學數字人文研究中心,北京 100872)

1 引言

黨的十八大以來,以習近平同志為核心的黨中央對傳承和弘揚中華優秀傳統文化作出一系列重大決策部署,古籍事業迎來新的發展機遇。2022 年3 月,“加強文物古籍保護利用” 首次寫入政府工作報告[1]。4月11 日,中共中央辦公廳、國務院辦公廳印發《關于推進新時代古籍工作的意見》[2]。4 月25 日,習近平總書記在考察中國人民大學圖書館時指出,要運用現代科技手段加強古籍典藏的保護修復和綜合利用[3]。5月27 日,習近平總書記強調:把考古探索和文獻研究同自然科學技術手段有機結合起來[4]。

古籍具有獨特的文物價值、學術價值和藝術價值,是凝聚傳統文化最重要的載體之一。從傳統的古籍文獻書目整理,到古籍書目和全文數據庫建設,對古籍資源的開發與利用一直是學界和業界關注的焦點。當前,古籍資源的數字化著錄已較為普及,如各單位自建古籍書目數據庫、“學苑汲古:高校古文獻資源庫”“全國古籍普查登記基本數據庫” 等。此外,還出現一批商業化的古籍全文數據庫,如 “中國基本古籍庫”“中華經典古籍庫” “書同文古籍數據庫” 等。但隨著大規模古籍數據庫的建成,學者發現古籍數據庫只是對古籍文獻外部特征與內容特征進行揭示,僅能滿足用戶基本的檢索與使用的需求,并未對古籍資源從知識組織的角度進行深入挖掘和利用,傳統古籍整理的局限性逐漸暴露出來[5]。

近年來,計算機信息技術與人文學科研究深度結合的新興交叉學術領域——數字人文(Digital Humanity)得到了迅速發展,成為加強古籍典藏保護修復和綜合利用的重要現代科技手段。數字人文背景下,對古籍資源的整理與研究從數字化向數據化邁進,從全文數據庫向知識平臺邁進,從全文檢索向智慧檢索邁進。古籍知識關聯指的是匯集大量結構化的古籍數據,對其進行細粒度、多維度切分,通過機器標引、輔以人工標引,利用關聯數據、語義網等技術,進行統計分析、網絡分析和空間分析等,探尋數據間的關系,實現古籍資源外部與內容特征、古籍資源中蘊含的知識元之間的互聯,并可根據用戶的需求,實時、自動實現知識之間的自動重組與可視化展示。本文在梳理數字人文視角下古籍知識關聯的研究基礎之上,探討古籍知識關聯的關鍵環節,舉例分析古籍知識關聯,總結古籍知識關聯的壁壘。

2 古籍知識關聯的研究現狀

數字人文的出現為古籍整理帶來獲取資料的智能化、研究方法的數據化、研究結果的可視化三大進展[6]。將數字人文應用于古籍整理,改變了古籍文獻傳統檢索方式,從電子文獻到結構化數據庫、從點狀檢索到網狀關聯、從逐條拷貝到分類打包,使傳統的靜態文本轉化為可隨意組合的動態文本[7]。古籍整理不再僅僅是實現更大范圍的文獻信息的揭示與保存,更重要的是要實現古籍文獻蘊含知識之間的關聯,深入挖掘其蘊含的哲學思想、人文精神、價值理念、道德規范。知識與知識之間互相發生聯系與影響即為知識關聯。對知識關聯的研究已經有不少,如文庭孝[8,9]圍繞知識關聯的基礎理論、內部特征、結構分析與應用開展研究,趙蓉英研究了[10]知識關聯的類型。也有學者對學術文獻及其知識關聯[11]、金融領域知識關聯[12]等特定領域文獻間的知識關聯進行研究。目前圍繞古籍資源知識關聯進行的理論研究主要是圍繞某一數字人文平臺展開的。李兵等對中醫古籍知識化研究現狀和常用的知識分析與挖掘方法進行綜述[13]。黃水清認為應利用數字人文技術實現古籍資源的創造性轉化與創新性發展。歐陽劍提出在新時代古籍資源轉化方面,文本化和數據化是基礎、知識化是重要方式、平臺化是有效利用及傳播的重要途徑[14]。魏曉萍探討了數字人文理論與技術方法在古籍文獻開發與利用的應用[5]。李欣等認為數字方志特藏資源建設應使用關聯書目元數據方案,最小粒度化方志元數據,提供開放平臺,元數據的創建、分析等可以利用文本分析技術等技術手段實現或者以眾包形式開展[15]。王蕾等從元數據方案、檢索點設計和數據關聯等角度,總結徽州文書數據庫的建設經驗[16]。陳力認為數字人文視域下的古籍數字化與古典知識庫建設存在計算機編碼漢字和計算機圖像識別并轉換為字符的能力等問題[17]。

理論研究指導實踐發展,利用自然語言處理技術、關聯數據、GIS 技術、可視化技術等,數字人文指導下古籍知識關聯領域已經產生了較為豐碩的實踐成果。一是通過自動標注、自動校對、詞語切分等自然語言處理技術,實現命名實體的識別與關聯等。如清華大學自然語言處理與社會人文計算實驗室研發的中文詩歌自動生成系統《九歌》,以大規模詩歌文本為研究對象分析詩歌內在聯系,為用戶提供詩歌生成以及人機交互創作等功能[18];侯漢清、包平等圍繞《方志物產》中地名等命名實體的識別與關聯開展了系列研究[19]。二是通過關聯數據,實現古籍文獻中的時間、地點、人物等的關聯,形成知識網絡,挖掘古籍文獻的內在關系。如 “中國歷代人物傳記資料庫(CBDB)” 構建關系型數據庫為歷史文獻人物建模[20];上海圖書館“中國家譜知識服務平臺” 應用關聯數據重構上海圖書館的家譜服務。三是結合GIS 技術呈現古籍文獻資源的時空分布。如 “學術地圖發布平臺” 實現了數據共享、可視化分析及多功能查詢等,“唐宋文學編年地圖平臺” 以編年地圖的形式提供唐宋時期文學人物、事件的時空分布及作品關系。四是通過可視化技術等構建知識圖譜。如北京大學 “宋元學案知識圖譜可視化系統” 梳理宋元時期學術史中的關系圖譜、學術流變、師承關系、學派傳承,構建完整的學術史衍化脈絡全景;武漢大學數字文化遺產研究中心完成了 “數字敦煌莫高窟” “新疆克孜爾石窟數字化” “頤和園佛香閣三維重建” 等項目。

相較于傳統意義上的古籍數據庫,這些實踐成果有了新的發展。一是組織機制不同,傳統的古籍整理目的在于版本鑒定、揭示資源、保存資源、利用資源,而古籍數字人文平臺功能更為多樣、深入,其融合館藏元數據記錄、專家研究成果、相關網絡資源,以知識本體為基礎,應用關聯數據等技術,對古籍資源完成數字化到數據化的知識重組,以可視化的形式揭示古籍資源間的知識關聯。二是收錄范圍擴展,傳統的古籍數據庫收錄范圍主要局限在原始文獻資料方面[21],古籍數字人文平臺不僅收錄原始文獻,還收錄古籍文獻的解析文本、延伸文獻等,更在一定程度上實現了從 “數字化” 到 “數據化” 的過渡,從 “數據孤島”到 “數據共享” 的轉變。以往的數據庫平臺多為 “數字化” 平臺,主要為全文掃描圖像與文本存儲平臺;而古籍數字人文平臺則是一個 “數據化” 的平臺,從“存儲” 提升到“分析” 與“關聯”。

3 古籍知識關聯的關鍵環節

縱覽這些古籍數字人文平臺,古籍知識關聯是在古籍文獻組織基礎之上,基于古籍文本數據進行的知識單元間的關聯。

3.1 古籍知識關聯的起點——文獻組織

在原有的古籍數據庫基礎之上,數字人文視角下的古籍知識關聯可以實現更大范圍文獻間的組織。

(1)平臺文獻之間的組織。從揭示程度來看,數字人文視角下的古籍平臺不僅僅實現了書目信息的集合揭示,還實現了對書目信息的區分、聚類、比較和統計分析[22],進一步對文本化的古籍內容進行數據化轉換。一方面,借助于相似的數字化技術和統一的元數據標準,分散、獨立的各古籍平臺間的書目數據可進行互聯,實現不同平臺間的關聯;另一方面,在平臺內部,由于古籍數字人文平臺對資源的內外部特征描述更為全面,可實現繁簡字、異體字、版本之間(匯編本與單行本、叢書的著錄)等的互聯。

(2)平臺內外文獻之間的組織。這主要指的是平臺文獻與新印古籍資源、延伸研究文獻、互聯網學術資源等之間的關聯與組織。對于人文學者來說,古籍原本的闡釋是其研究工作的基礎,依據這些原始文獻開展的相關研究也是重要的研究資料。新印古籍資源不僅僅是原典的簡單影印出版,更是專題性、縱深性資料的精選匯總。延伸研究文獻指的是和某一古籍相關的新出版的學術研究論著、學者年表、編年史等研究資料。如家譜資源的延伸研究文獻包括人物傳記、歷史年表、職官表、日記信札、報紙公告欄等。將中國知網、超星等數據庫中相關的研究資料關聯到古籍數字人文平臺之上,將大大拓展用戶學術研究的視野,節約其時間。如清代臺灣方志物產篇分析系統利用學名將方志中的物產聯結到現代植物資料庫,將西方分類學觀念建構的知識體系與傳統方志的資料互相聯結[23]。

3.2 古籍知識關聯的基礎——古籍數據

文獻組織是對古籍書目信息的組織,知識組織是對古籍文本的組織。而古籍文本不能直接被計算機語言識別和使用,需要將其轉化為可識別、可理解的結構化數據,進一步從數據轉化為知識,方能實現古籍知識關聯。因此,古籍數據是古籍知識關聯的基礎。

(1)古籍文本轉化為古籍數據。首先,清洗以圖片、文本等格式存儲的古籍數據,通過OCR 技術等采集古籍文本數據,借助分詞與標注技術等將古籍數據顆?;?,形成具有獨立意義的結構化數據單元,借助大數據技術對各數據單元進行標引形成新的聚類,以實現數據的重新組織。如中文古籍半自動化標記平臺(MARKUS)通過關聯多個權威語料庫實現古籍中歷史人名、地名、官名與時間等實體的自動標注,為研究者提供可以通過定義關鍵字列表、上下文中的關鍵字、正則表達式等方式進行半自動標注,且支持以txt、excel、html 格式輸出標注結果[24]。

(2)古籍數據的量化分析,包括統計分析、網絡分析和空間分析。古籍數據的統計分析主要是利用數學語言對獨立數據單元的總數、頻次等進行概括性分析,較易實現。古籍數據的網絡分析是指對已顆?;墓偶當祿阅骋还餐卣鳂嫿ǔ鲂戮W絡結構進行分析,如《宋元學案》知識圖譜可視化系統將《宋元學案》人物、時間、地點、著作及它們之間的復雜語義關系提取出來構造成知識圖譜,提供可視化展現、交互式瀏覽、語義化查詢等功能[25]。古籍數據的空間分析即是將線性平面的數據實現點線面的空間分布,包括結構圖、地圖、分布圖等,如 “學術地圖發布平臺”借助GIS 技術實現歷史人物的行跡、特征分布和社會關系等信息的地理映射。

3.3 古籍知識關聯的本質——知識組織

以文獻為單元的傳統古籍數據庫僅能滿足用戶的資料需求,遠不能滿足其知識需求,古籍中所包含的細粒度知識元的組織成為古籍數字人文平臺的研究重點,這也是古籍知識關聯的本質。知識元的概念最早于20 世紀70 年代后期由弗拉基米爾·斯拉麥卡提出,學術文獻中的知識元指的是語義上相對完整地表達特定知識的最小的內容單元[26]。古籍典籍知識元的涵義又比普通學術文獻中的知識元更為特殊,其類型更為多樣、復雜。

不同類別的古籍所包含的知識元類型有所不同。以史部為例,其下屬17 大類中,地理類之下的總志、方志、專志等多包含的知識元類型相似,數字方志集成平臺即實現了對方志類知識元的組織。該平臺拆分、合并華東師范大學圖書館等圖書館、超星、CADAL、中國方志庫、瀚堂典籍庫及方正電子書等方志類元數據,采用BIBFRAME 書目數據模型進行轉換、查重、映射,實現方志與外部數據的互聯、最小粒度化方志元數據、平臺開放、用戶可協作參與,并嘗試通過內容分析技術對方志中的內容進行分析[15]。史部史表類、傳記類的人表、年譜、科舉錄、職官錄知識元類型相似,多表現為 “某人生于某年,任某職” 等。如《山陰州山吳氏族譜》中有 “太學生楚材公,姓吳氏,諱乘權;子立公,諱乘業。山陰州山里人?!?包含了 “楚材公是太學生” “楚材公姓吳氏” “楚材公諱乘權”“子立公諱乘業” “楚材公和子立公為山陰州山里人”等語義三元組,以RDF 數據格式描述,將人、地、時串聯成一個個的遷徙事件,可將具有共同先祖的先祖名人及其遷徙事件關聯起來[27]。而史部金石類中的知識元不僅包括對圖像的識別,即如何將圖像中的內容進行抽取、釋讀,還包括對識別后的文本知識元進行語義描述。

除此之外,古籍資源還包含一些特殊類型的知識元。如版本知識元、鈐印知識元,通過對 “楝亭曹氏藏書” 印主為曹寅、“楝亭曹氏藏書” 印為長方形、陽文、篆體,“楝亭曹氏藏書” 刻于《皇明大訓記》書名頁等的描述,可以讓機器準確理解鈐印知識元,如圖1 所示。

圖1 “楝亭曹氏藏書” 藏書印RDF 數據Fig.1 RDF data of"Cao's collection"book seal

4 古籍知識關聯的應用舉例

從文獻單元的組織深入到知識單元的組織,古籍數字人文平臺可實現知識關聯。關聯的本質是實現文獻與文獻、知識與知識之間的互相聯系與影響。古籍數字人文平臺實現了更大范圍書目數據的聚合,有利于學者將散落在不同機構的同一作品的不同版本聚集,“辨章學術、考鏡源流”,進行版本鑒定與版本源流的考證。而借助內容挖掘、時空分析等數據分析技術與知識地圖、主題圖等可視化技術,古籍知識關聯可進行方志與家譜挖掘、鈐印知識網絡發現、特定時期與地域學者研究脈絡與交往分析等。

4.1 方志與家譜挖掘

夫家有譜、州有志、國有史,方志和家譜具有揭示某一區域與家族長期、延續的發展狀況與遷徙路線的史料性價值。通過集成散落在各地的大量零散方志、家譜,借助于統一的元數據標準,可集成不同平臺間志譜書目數據、志譜相關資源。在此基礎之上,對大規模、多源、多維的志譜資源進行文本化、數據化轉換,抽取其中蘊含的知識單元,通過量化分析與可視化展示,實現志譜的數據集成與知識關聯。如中國家譜知識服務平臺把散落在不同家譜文獻中的人、地、時、事關聯起來,發現人與人之間、人與文獻之間的關系,形成完整的知識圖,以可視化的方式展示。這既便于普通讀者直觀獲得隱藏在不同文獻中的知識,并將不同的文獻按照某一主題有機地組織起來,提供知識導航;更可以幫助研究者發現問題,提出問題[27]。

4.2 鈐印知識網絡發現

鈐印知識元是古籍資源中一種重要的知識元。將鈐印作為實體對象,對其所蘊含的印文、印主、藏本知識進行語義標注,實現同一印主不同鈐印間的歸一處理,實現同一印主的字、號、別名等之間的歸一處理,并將藏本信息與聯合目錄、循證平臺關聯,將時間、地點與歷史紀年表、地理名詞表等關聯,將印主信息與人名規范檔等進行關聯,進而發現印文、印主與藏本之間的關聯關系,實現平臺內外文獻的互聯與鈐印的知識挖掘。通過構建鈐印知識元庫,既可以加深鈐印內含知識的挖掘層次、細化其表示粒度,又可以輔助梳理遞藏源流、考證藏書的收藏與散逸情況、溯清館藏來源[28]。

4.3 特定時期與地域學者研究脈絡與交往分析

通過對多源、異構古籍資源的文獻組織、知識組織,可實現平臺內外的文獻與文獻之間、文獻內外知識單元之間的關聯,幫助研究者發現人工難以獲得的知識,進行特定時期與特定地域學者研究脈絡與交往等的分析。這是當前古籍知識關聯實現的重要價值所在。如歐陽劍以大規模中國古籍文本(41 563 種古籍,總計48.35 億字)為研究對象,對古籍進行整理、標注、自動分詞等處理,創建了一個以語言學、歷史文獻學、歷史地理學等人文學科研究為主的古籍實時統計分析平臺,實現了實時統計分析、時間和空間可視化分析,可輔助研究者在大量的古籍文獻中發現新的模式、現象、趨勢等[29]。

5 古籍知識關聯的壁壘

數字人文視角下古籍知識關聯雖極具現實意義,但在實施中仍然受到種種壁壘的限制。

5.1 知識關聯對象的壁壘

對于大多數機構來說,知識關聯的對象——古籍文獻數據與知識元的文本化處理與關聯化實現仍然具有較高的難度。古字無定形,已完成的古籍數字化資源在文本化轉換過程中仍以OCR 識別加專家人工校讀為主要工作方式。雖然目前書同文i-慧眼OCR 平臺、古聯公司古籍OCR 系統、如是OCR 等在古籍文本OCR 識別方面已經取得了一定的成就,但普遍意義上來說,古籍OCR 識別始終面臨版式多樣(橫版、豎版、小字雙行等)、格式各異(除文字外還有碑帖拓片、輿圖等實物、圖像類)、異體字眾多、字形字體多變、字符集大而標注樣本少等困難。

古籍全文數字化是進行古籍知識關聯的基礎,古籍文本的識別與轉換相關研究問題一直深受學界重視。不少學者基于機器學習、深度學習等方法技術,提出了古籍文檔圖像版面分析方法與文字檢測分割方法、構建大規模圖像和文本語料庫、設計古籍文檔圖像預訓練模型等。未來,應進一步增強該領域的研究,以提高古籍文本識別效率與質量。

5.2 組織方法、技術與工具的壁壘

要實現古籍知識關聯,在古籍文本化的基礎之上,還需要將傳統古籍數據庫中的關系型古籍全文數據轉換為語義層次的知識元。數據化的古籍知識需要有相關機構牽頭,多學科領域專家參與制定統一的、科學的元數據描述規范,方能使得不同平臺間文獻單元、知識單元實現共享、形成映射。而在知識關聯的構建過程中,需要應用到各種技術方法。對于圖書館等古籍資源館藏機構來說,從文本分析、聚類分類、主題分析、內容挖掘、時序分析、地理空間分析、社會關系分析等內容分析技術到可視化技術,到機器學習的技術、方法需要得到進一步開發與應用,這是發現知識元與知識元間的關系,并以可視化的形式進行揭示,進而實現知識關聯的關鍵。圖書館等館藏機構應進一步與相關機構加強合作,推動相關技術方法的開發、落地、應用、推廣。

5.3 組織體系的壁壘

古籍數字人文項目的紛紛落地、數字人文平臺的不斷推出也展露了當前古籍數字人文研究的一個隱性弊端,即大大小小的數字人文項目 “遍地開花”,大部分古籍數字人文平臺僅為某一機構所開發,多針對某一特定類型資源如方志、中醫藥、佛經等甚至單一部古籍等,使用范圍也多受限于建設單位內部。數字人文視角下的古籍知識關聯應克服傳統古籍整理的 “小、散、亂” 模式,從建制上進行努力,避免重復建設,參考古籍書目數據庫 “全國古籍普查登記基本數據庫”等模式,由相關機構牽頭,館藏機構、人文學者、計算機領域學者共同協作,多建設如 “中文古籍聯合目錄及循證平臺” “數字方志集成平臺” 這類綜合性、集成性、可擴展性的平臺,促進古籍資源的共建共享、深度挖掘。

6 結語

古籍資源是一個圖書館 “人無我有”、具有特殊價值的一部分資源,是數字人文研究的重要對象之一,數字人文的理念、工具與方法是古籍資源開發與利用的重要助力。數字人文視角下,從文獻單元層次的組織深入到知識單元層次的組織,借助數據分析技術、機器學習、可視化技術等,可實現古籍知識關聯。古籍知識關聯起點是文獻組織,基礎是古籍數據,本質是知識組織。古籍知識關聯可進行方志與家譜挖掘、鈐印知識網絡發現、特定時期與地域學者研究脈絡與交往分析等,但在實施中仍面臨知識元處理難度大、技術要求高、集成平臺少等壁壘。

囿于研究條件所限,論文僅從理論角度對古籍知識關聯的研究與應用、關鍵環節、壁壘等進行了論述,未來我們將以館藏古籍知識平臺優化升級為契機,進一步對古籍元數據描述規范、古籍文本轉換與內容挖掘、不同平臺間數據交換及更新機制進行研究,以促進古籍資源更深層次的知識關聯、更大范圍的共建共享,提升古籍資源開發水平與服務質量。

猜你喜歡
方志古籍關聯
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
中醫古籍“疒”部俗字考辨舉隅
Development of a battery-operated floatingelectrode dielectric barrier discharge plasma device and its characteristics
The investigation of OH radicals produced in a DC glow discharge by laser-induced fluorescence spectrometry
西藏大批珍貴藏文古籍實現“云閱讀”
“一帶一路”遞進,關聯民生更緊
奇趣搭配
我是古籍修復師
智趣
試論棋例裁決難點——無關聯①
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合