?

數字人文視域下歷史檔案知識組織研究
——以五四運動為例

2022-01-06 12:52孫振嘉
蘭臺世界 2021年12期
關鍵詞:五四運動實例本體

孫振嘉 汪 澤 鄧 君

一、引言

數字人文(Digital Humanities)可以追溯到20世紀中期的人文計算,而人文計算則公認源于Busa教父為Thomas Aquinas作品編制詞匯索引[1]190。從21世紀開始,數字化技術、數據挖掘技術等的應用推動了數字人文研究的進一步發展,更是推動了歷史、藝術、考古等諸多人文社科類學科不斷嘗試使用新的技術和理念,以實現學科的新發展,檔案學領域也應勢而為。

近年來,檔案領域數字人文研究成果不斷增加,馮惠玲等專家學者更是將其作為“十四五”檔案學重點研究領域之一[2]74。作為檔案的重要組成部分,歷史檔案資源是歷史事件的有機統一體,也是國家與民族發展的見證。數字人文視域下,如何有效利用數字技術對數量巨大、內容龐雜多樣的歷史檔案資源進行細粒度組織,實現歷史檔案資源有效組織與管理,是目前檔案學者需要解決的問題之一。有關這一問題的研究,有助于推動人文學者對歷史檔案資源的深度開發與利用,從而更好地實現該類檔案資源見證過去、服務現在和啟迪未來的重要作用。

因此,本文以五四運動這一歷史檔案資源為研究對象,立足數字人文視角,應用CIDOC-CRM本體模型,嘗試用層次化方式,以歷史事件為中心對其進行知識組織研究,以較為全面有效地展現歷史事件的原本面貌及其相關要素間的關聯,為歷史檔案資源開發利用提供新的思路,實現歷史檔案資源的“活化”。

二、文獻回顧

隨著數字技術的更新迭代,數字人文研究的不斷深入,引起了檔案領域專家學者的重點關注,數字檔案和歷史檔案是數字人文研究的對象與熱點之一[3]1。檔案是較早與數字人文交融的學科,其研究主題主要體現在兩者關系探究、檔案數字人文項目、面向數字人文的檔案資源開發利用等方面。兩者關系研究方面,左娜、張衛東從學科建設角度,由“跟風論”的觀點出發,梳理了數字人文與檔案學研究之間的邏輯關系[4]94;龍家慶等立足數字人文背景,分析其對檔案工作思維方式、技術工具、業務流程和研究思路及議題的影響[5]4;牛力等從檔案工作角度總結了檔案參與數字人文建設的五種模式[6]62。在檔案數字人文項目方面,有學者通過對美國馬里蘭州檔案館奴隸制文化遺產項目[7]21、“歐洲時光機”項目[8]10等進行分析,為國內開展檔案數字人文實踐提供了借鑒;國內也涌現出了一部分以“北京記憶”項目[9]、“數字敦煌”項目[10]等為代表的中國特色的數字人文項目。不僅如此,學者們還聚焦檔案資源的組織、開發利用,探討其理論與路徑,如賈瓊等提出從元數據描述、元數據—本體映射、RDF數據發布、語義聚合與訪問層面實現檔案資源聚合與組織[11]105;牛力等提出了數字人文下檔案資源“發現”“重構”和“故事化”為主線的檔案研究路徑[12]88。而在具體檔案資源開發利用方面,學者們借助數據庫、文本挖掘、可視化、語義檢索等數字技術和工具,以案例分析的方式,對抗戰檔案資源[13]111、傳統家譜檔案資源[14]72、清代職官檔案資源[15]18、僑批檔案資源[16]83等進行了研究,很大程度上為數字檔案和歷史檔案“變藏為用”提供了借鑒。

在歷史檔案開發的諸多成果中,部分學者們應用本體方法對多樣的歷史檔案開展了知識組織與關聯研究。例如,鄧君等結合口述歷史檔案資源特征,構建了口述歷史檔案資源領域本體,檢驗了本體實現口述歷史檔案信息組織關聯的可行性和實用性[17]58。Koho等利用本體方法,重建了整個WarSampo知識圖(KG),對有關第二次世界大戰的異構芬蘭歷史資源進行知識描述和組織[18]265。除此之外,還有部分專家借助本體方法在檔案著錄[19]100、檔案編研[20]138、檔案知識庫構建[21]51等方面也取得了重要成果,為檔案科研及智慧檔案管理的實踐賦能。FOAF[22]、SEM[23]128、RiC-CM(即檔案情境信息概念模型)[24]49、CIDOC-CRM[25]等一系列通用本體模型吸引學者廣泛探討。其中CIDOC-CRM這一模型的應用主要集中于文化遺產、考古學等領域,學者們不僅立足于宏觀視角,將該模型應用于博物館文物數字化元數據規范[26]131、數字時代考古資源組織共享[27]1等,還結合該模型特點對民族傳統節日[28]、宗教建筑遺產信息[29]、第一次世界大戰史料[30]、先秦人物史料[31]、近代人物史料[32]35等微觀具體領域資源進行知識組織研究。

綜上所述,人文學者立足數字人文背景,利用相關技術工具,對數字檔案和歷史檔案展開了豐富的研究。雖然本體方法在歷史檔案資源相關研究中獲得學者青睞,但在文化遺產和考古等領域中表現突出的CIDOC-CRM本體模型直接用于歷史檔案資源知識組織的探索略顯不足。因此,本文利用CIDOC-CRM本體模型,以五四運動相關檔案資源為例構建歷史檔案資源本體模型,并以實例可視化方式進行展示和驗證,嘗試以事件為基礎的方式對歷史檔案資源進行語義層面的細粒度知識組織。

三、研究方法及相關概念

1.本體。本體一詞本是哲學子領域的一個名詞,屬于形而上學的一個分支,其注重識別現實存在事物的類別,并對它們進行描述。后來隨著計算機等技術的發展,其被引入到科學研究的諸多領域,并被賦予了有別于原始含義的具體技術意義。Studer等學者對本體進行深入研究后,對其概念進行了總結,即本體是共享概念模型明確的形式化規范說明[33]161。本體通過定義類、屬性等要素賦予數據語義關系,對相應知識集合實現細粒度的描述與歸納[34]36。因此,借助此方法,選用應用較為廣泛、重用和共享價值較高的本體模型,可以更好地進行歷史檔案資源的知識組織研究。

2.CIDOC-CRM本體模型。CIDOC-CRM是國際文獻委員會(CIDOC)通過十多年標準開發工作而構建的概念參考模型,它旨在實現各種異構文化遺產知識、信息資源的交互與集成[25]。目前,于2021年5月發布了最新版Version 7.1.1(見圖1),該版本定義了81個類、160個屬性。CIDOC-CRM定義了E2 Temporal Entity、E52 Time-Span、E53 Place、E54 Dimension、E59 Primi tive等7個核心類。

圖1 CIDOC-CRM概念模型結構圖

CIDOC-CRM本體包含的類與屬性雖呈現出復雜、多樣的特點,但依靠明確的邏輯語義能更好地實現對知識對象的表達。這也使其呈現出了一些簡單本體無法具備的優勢。

(1)較細致的規范性。CIDOC-CRM中類(Class)用“E+數字”形式表示,如E1 CRM Entity表示“CRM實體”、E5 Event表示“事件”;屬性(Property)用“P+數字”形式進行標識,用于連接屬性兩端的兩個類,前者稱為“域”,后者稱為“范圍”,如E1 CRM Entity.P2 has type:E55 Type表示“CRM實體的類型為……”CIDOC-CRM通過規范化方式,可以從時空、地理、政治等多個角度,充分展現歷史活動起源、演變的過程,從而實現對單一復雜歷史事件檔案信息資源的動態描述。

(2)極強的可擴展性。CIDOC-CRM的可擴展性是其能夠處理跨領域、異構信息資源的重要因素之一。這也意味著,該特點能夠更好地迎合利用者的需求或跟進時代發展的新側重點去新增一些類或屬性,如此就能更好地保證對歷史檔案資源的有效描述和組織[35]40。

(3)較好的針對性。CIDOC-CRM預期使用范圍覆蓋了用于交換和整合博物館藏品的異構科學文獻所需的所有信息,廣泛應用于文化遺產領域,可以更好地對歷史事件檔案資源展開組織、描述。

綜上,從CIDOC-CRM的特點可知,該模型中與事件相關的類含義十分廣泛,包含了出生、死亡、遷移等一系列的事件,這也決定了其能從事件角度去實現歷史檔案資源知識組織的特性。復用該本體對歷史事件檔案資源進行語義化描述和組織,可以有效地、深層次地展現歷史事件整體面貌,進一步實現對歷史檔案的細粒度組織和管理。

四、歷史檔案資源知識組織——以五四運動為例

1.五四運動歷史檔案資源。五四運動又稱“五四風雷”,是典型的、參與主體廣泛、形式多樣的復雜歷史事件。五四運動檔案資源是包含其“導火線”“運動擴展”等所有具有直接關系歷史事件的檔案資源在內的檔案集合。首先,該事件檔案資源具有顯著的連續性、層次化特征,其包含了五四運動“爆發”“發展”“高潮”到“結束”的各個子過程。其次,該事件檔案資源具有多樣性的特點。從來源來看,主要有當時報刊檔案、親歷者的口述和評議形成的檔案、已保存的館藏檔案三類[36]40。這一特點也使得人文學者可以從不同的側面了解整個歷史事件的情況。從檔案形式來看,主要分為文字類、視頻照片類、畫作類三種,其中以文字類檔案居多。另外,這部分檔案資源還具有一定分散性和異構性。由于五四運動影響范圍廣泛,許多地方機構都有相關的檔案資源,之后更是有部分革命家、學者等群體對其進行過回憶性的描述,這些檔案資源依據不同的分類標準和規則分別存儲在當地的檔案館、圖書館或博物館。

由此可見,五四運動歷史檔案資源特點與CIDOC-CRM本體模型功能性特征十分契合,利用本體方法復用CIDOC-CRM模型可以實現部分資源語義化組織和描述,有助于日后對該類資源的開發和利用、開展智能化檔案服務。

2.五四運動歷史檔案資源本體核心類及屬性構建。為清晰呈現五四運動事件概況,筆者基于CIDOC-CRM模型,結合該事件及相關檔案資源特點定義了7個核心類(表1,見下頁),從人、時、地、物等多維層面確切反映該歷史事件的狀態及過程。

表1 五四運動歷史檔案資源本體核心類及其說明

事件屬性(E5 Event),是指在特定的時空條件下,歷史主體實施的具有持續性或時空跨度相對較大的行為,即用于表示較為復雜的歷史事件類。該類所表征的歷史事件主要是在宏觀把握歷史脈絡時不可或缺的歷史“節點”,在本文研究中特指五四運動這一實例。

活動屬性(E7 Activity),特指歷史人物或組織在一定時空條件下發生的一個短暫性的或持續時間相對較短的行為,可以將其視為表征較為簡單的歷史事件的類。而這些簡單事件是構成五四運動史實的基本單元,其相關檔案更是開展該事件歷史研究的重要語料,是實現復雜歷史事件檔案資源組織和描述的核心。五四運動歷史檔案資源從北洋政府、親歷人員等不同角度反映了學生罷課、商人罷市、工人罷工、政府鎮壓等活動的事實情況,如北京學生集體罷課、上海工人罷市、北洋軍閥政府逮捕游行學生等。

時間屬性(E52 Time-Span),是事件屬性和活動屬性的基本特征。利用該屬性,可以實現對各個活動的順序串聯,以展現整個歷史事件的演變過程,實現對檔案資源的有序組織。當然,該屬性可通過特定時間點或時間段與資源對象中的大小事件實現對應。例如,五四當日北京學生天安門游行(1919年5月4日下午1時)、大規模罷工(1919年6月6-8日)。

地點屬性(E53 Place),即事件參與者在執行某一活動時所處的空間地理位置或空間范圍。就歷史研究來說,對其時空信息的研究極為重要。例如,在對五四運動相關檔案的研究中發現,各地曾發起過聲援北京學生運動的愛國活動。比如,遼寧學生群體開展響應活動,奉天(今沈陽市)當局對進步思想和學生運動進行鎮壓與防范;閻錫山當局對山西兩次學生運動進行壓制與約束。借助特定的空間范圍和五四運動期間相關史實,可以有效推知不同地點當局政府對相關愛國活動的情感態度[37]21。

參與者屬性(E39 Actor),即在一定時空條件下,某一行為的發出者、某一活動的實施主體。在歷史事件中,其發起者可為單一個體或一個團體組織,也可為多個個體或多個組織。由于個體和組織存有不同的特點,筆者對二者予以區分,在參與者屬性之下復用了人物(E21 Person)和組織(E74 Group)兩個概念屬性,作為其子屬性。實施主體的實例分別添加于相應的子屬性之下,這也為實現個體與一些組織的關聯奠定了基礎。五四運動中人物屬性的實例包括蔡元培、梁啟超、陳獨秀、羅家倫、林長民等,組織屬性的實例包含北洋軍閥政府、京師檢察廳、上海學生聯合會、新潮社等。

佐證材料屬性(E31 Document),即資源對象所涉及的文本、圖像、視頻等記錄,用于證明活動的真實情況。同時該類相關的實例是開展知識組織研究的重要基礎,是還原歷史、研究歷史的重要基礎。例如,1919年5月22日《申報》7版《京學界重行罷課》對當時學生運動的報道,即在5月4日以后,學生罷課的活動仍在醞釀之中,并且進一步呈現擴大的趨勢。

類型屬性(E55 Type),用于表征事件或者檔案資源的類型,其實例是活動屬性和佐證材料屬性的實例與其所屬范疇、類型的集合。從資源對象來看,其事件類型主要有活動謀劃、示威游行、請愿、罷課、罷工、罷市、暴力對抗政府、政府鎮壓等多種形式;其佐證材料類型主要包括親歷者口述和評議形成檔案、所存檔案(其中包括政府所存文字類檔案、照片視頻類檔案)、報刊報道檔案三類。

為清晰明辨復雜事件的體系結構以及簡單事件相關要素之間的語義關系,筆者同時復用CIDOC-CRM模型的部分關系屬性,構建特定活動與相關要素之間的對應關系,見表2。

表2 五四運動歷史檔案資源本體關系屬性及其說明

根據上述類和關系屬性構建五四運動歷史檔案資源本體(見圖2),以實現相關事件單元和檔案資源組織可視化,為同類歷史事件檔案資源開發利用提供參考。圖2中,實線用于表示“上位類”和“下位類”間的層次關系,虛線則用于表示“類”之間的關聯(即關系屬性)。

圖2 五四運動歷史檔案資源本體模型

3.五四運動史料資源本體模型實例可視化。資源對象的實例化是為用戶提供語義化檢索服務的重要基礎,而可視化是為了讓用戶以更為直觀的方式了解信息檢索結果。根據前文構建的框架模型,本文以北京市檔案館2019年國家重點檔案保護與開發項目成果《五四運動檔案史料選編》[38]、湖南省青蘋果數據中心華文報刊文獻數據庫[39]為數據源,利用Protege進行實例添加,如圖3。

圖3 五四運動歷史檔案資源本體實例可視化

鑒于五四運動中涉及的參與者、佐證史料數量眾多,內容較為復雜,考慮到用戶多層次性、需求的多樣性,為方便知識利用者直觀獲取相關資源,筆者利用Protege軟件的comment屬性為相應的概念屬性和實例添加注釋。在E31佐證材料、E21人物類下的各實例中,以注釋方式分別添加了檔案材料內容和參與人信息等相關內容,如圖4、圖5。人文學者通過閱讀注釋起到與閱讀檔案原材料一樣的效果,也可借助具體事件與實例之間的關聯,結合注釋內容,更好地深入了解當時的歷史環境。當然,也能為相關檔案資源的進一步開發利用做好數據準備。

圖4 佐證材料實例具體內容注釋

圖5 人物實例基本情況注釋

為進一步驗證該本體模型的可行性和實用性,筆者以“火燒趙家樓痛打章宗祥”為檢索詞進行知識查詢,檢索結果見圖6。實線表示類與實例之間的關系,虛線則用于表示各個類的實例之間的關聯。

圖6 按照單一簡單事件檢索結果可視化

結合圖6,可以得出“火燒趙家樓痛打章宗祥”這一事件的語義信息:“火燒趙家樓痛打章宗祥”是五四運動中暴力對抗政府的事件,發生于1919年5月4日下午,地點在北京趙家樓,傅斯年、段錫朋、匡互生、鄧中夏、章宗祥為主要參與人,此事件也直接推動了“政府逮捕學生,鎮壓學生運動”事件的發生,而《章宗祥傷勢診斷書》《京師地方審判廳訊問保安隊排長何文貴的筆錄》《趙惠全關于章宗祥被打情形的報告》等佐證材料反映了事件的實際情況。就可視化結果表達的信息而言,除了能了解到該事件的一些基本要素外,還可以看出該事件的佐證材料涉及了京師審判廳、醫院、京師檢查廳和京師警察廳等多個檔案形成者??梢?,該事件在當時社會環境下引發了強烈轟動。另外,該結果中所表達的事件間的推動關系,更容易讓用戶從橫向的角度去動態感知歷史事件的發展趨勢。

由上述實例可視化檢驗結果可知,本文基于CIDOC-CRM構建的本體模型可以實現對歷史檔案資源的知識描述和知識組織,也實現了計算機對數據間語義關系的理解。該過程能圍繞單一復雜歷史事件進行相關檔案資源的知識聚類,為用戶檢索的關聯性、準確性提供了有力支撐。當然,結合特定的歷史事件檔案的特征及所構建模型的可擴展性,新增相應的類(Class)及關系屬性(Property),有助于滿足用戶多樣化需求,也能更好地推動相關研究人員對資源對象的深層次挖掘和開發。

數字人文浪潮下,信息數量以爆炸式速度增長,龐大的數據量與用戶想要快捷準確獲取知識資源的需求之間的矛盾日益凸顯。在檔案資源的開發和利用中也面臨同樣的問題,而知識組織是實現檔案資源結構化、檔案檢索便捷化、檢索結果準確化、檔案服務智能化的重要方法之一。通過利用本體等研究方法為檔案資源建立語義層面上的關聯,對檔案資源的細粒度、層次化管理和高效開發利用大有裨益。

本文通過復用CIDOC-CRM概念模型構建五四運動歷史檔案資源本體,將所涉的知識單元以“事件”為中心進行結構化、語義化組織,揭示了主體要素、時間要素、空間要素、信息資源要素與特定事件的關聯,借由這些相關關系可以從不同角度去定位用戶所需信息,對知識對象整體和檢索結果以可視化方式呈現。

本研究構建的五四運動歷史檔案資源本體是充分發揮CIDOC-CRM概念模型在歷史事件描述方面的功能性特征,實現相關歷史檔案資源知識描述與組織的一次有益嘗試。筆者認為,未來數字人文視域下,歷史檔案資源知識組織研究可以從以下四個方面推進:一是結合典型的通用語義模型、元數據模型,抽取其中的部分屬性,來進一步豐富對歷史檔案知識單元的語義化描述和組織;二是結合知識圖譜、關聯數據技術方法,深入挖掘歷史檔案資源,更全面地呈現歷史事件發展演變過程;三是綜合現有知識資源,利用數據庫和網絡技術,構建面向歷史事件知識的GLAM(美術館、圖書館、檔案館、博物館)融合數據平臺;四是利用語義分析技術,結合統計學、計量學的學科理論與方法,依據歷史事件間的關聯節點數量、檔案資料涉及某事件頻次等的不同賦予相應權重,用定量的方法去衡量一個歷史事件的重要性或影響力,以更好地抓住復雜歷史事件的重要轉折點,為人文學者借助歷史檔案開展歷史研究賦以羽翼。

猜你喜歡
五四運動實例本體
百年大黨 壯闊歷程 《五四運動》
眼睛是“本體”
論五四運動的啟蒙辯證法
《過五四運動趙家樓》
一種基于社會選擇的本體聚類與合并機制
95年前的“五四運動”
完形填空Ⅱ
完形填空Ⅰ
專題
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合