?

面向數字人文研究的三星堆古城祭祀圖譜構建與場景應用*

2024-03-10 11:59張云中上海大學文化遺產與信息管理學院
圖書館雜志 2024年2期
關鍵詞:器物古城本體

張云中 邱 璟 (上海大學文化遺產與信息管理學院)

0 引言

《“十四五”文物保護和科技創新規劃》強調要整合文物資源,建立文物數字化標準,加強文物信息基礎設施建設[1],為文物資源的組織開發提供了指導意見。三星堆遺址作為近年最重要的考古發現之一,其古城祭祀區器物坑遺存與古蜀先民的祭祀活動密切相關[2],是揭示古蜀地區祭祀體系的重要實物例證,對于保護和傳承古蜀文明有重要意義。因此,整合三星堆古城祭祀數字資源,搭建其數據基礎設施,并基于此開展相關應用,能夠有效實現資源活化。

三星堆古城祭祀數字資源主要涵蓋遺存的外在特征描述和內涵屬性挖掘兩方面,以文本、圖像、音視頻等形式異構分布在不同機構。盡管博物館已借助分類法和元數據組織資源,但仍存在組織粒度較粗、資源間關聯缺失的問題,知識圖譜推動著資源存儲、獲取、展示方式的變革,為資源開發提供了方案。本文旨在建立三星堆古城祭祀體系與數據體系的對照,設計古城祭祀體系本體模型,挖掘資源蘊含的實體及其關系,構建起三星堆古城祭祀圖譜,以此開展場景應用,賦能人文領域研究。

1 研究述評

本文立足于祭祀體系的視角構建三星堆古城祭祀圖譜,古城祭祀遺存隸屬于文物的范疇,因此本文圍繞文物資源數字化建設和三星堆古城祭祀體系兩個方面開展研究述評。

1.1 文物資源數字化建設

用戶知識需求的不斷提升,促使文物數字化建設不能停留在單純地將實物數字化,而應更多地聚焦于文物資源的語義描述、語義關聯和應用開發3個遞進的層次。

在語義描述方面,主要有元數據和本體[3]兩種形式。元數據是結構化的語義描述,側重于描述文物資源的物理特征[4]56,DC元數據、CDWA概念框架和藝術建筑數據標準等為資源管理、組織奠定了基礎。而本體是形式化的、機器可讀的語義描述,是對元數據的進一步抽象,能夠為不同元數據建立語義互操作方案[4]57。本體以能夠建立概念間聯系更符合現實事物存在客觀規律而得到廣泛應用,文博領域較為通用和成熟的是CIDOC概念參考模型[5]。

在語義關聯方面,當前大量資源存儲在不同的機構中,一定程度上影響知識的共建共享,因此其研究重點向著關聯關系建構傾斜。一方面,通過圖數據庫等工具實現資源之間的語義關聯[6];另一方面,使用關聯數據技術實現文物實體間的關系連接,借助平臺實現關聯數據的存儲和發布,并將其與開放知識庫進行鏈接融合,建立內外部數字資源的相互關聯[7]。

在應用開發方面,伴隨著文物資源語義描述和關聯研究的成熟,開始從理論研究轉向應用開發。關聯展示[8]、語義檢索[9]、智能問答[10]等二維空間的應用研究不斷發展,同時借助GIS系統[11]、虛擬現實[12]、元宇宙[13]等技術開展的多維空間研究也正在逐步發展。

1.2 三星堆古城祭祀體系

依據《辭?!分袑漓牒腕w系的定義,祭祀體系是指祭祀活動中若干事物互相聯系和制約而構成的一個整體,盡管不同時期、不同地區的祭祀體系有所差異,但基本涵蓋祭祀場所、祭祀時間、施祭者、受祭者、祭祀用器和用品等要素。雖然三星堆古城目前尚未發現明確的祭祀相關記載資料,但領域內學者依據古城內祭祀遺存認為三星堆古城應該有著較為完備的祭祀體系[14]442,學者們主要是通過分析古城內建筑和器物坑性質及其祭祀遺存來推論祭祀體系的相關要素。

針對祭祀場所,有學者通過對青關山F1建筑遺跡分析和復原,推測其為禮儀活動場所[15]87;對于祭祀遺存出土的一至八號坑,學者們通過考古勘探基本認定除了五號和六號坑為祭祀坑,其余均為祭祀器物掩埋坑[16]31-32。針對施祭者,依據寫實類人像造型器物的頭飾、服飾和姿勢,辨別其在祭祀活動中的身份和功能[17]。針對受祭者,一方面將夸張抽象的面具與傳世文獻中的蜀祖蠶叢聯系起來[18]96-97,認為其象征著祖先崇拜,更有學者推測三星堆各期文化的主人[19];另一方面是揭示植物[20]152、動物[21]108造型類器物蘊含的宗教信仰。針對祭祀用器和用品,學者多依據器物的器型及其傳統用途,來推測其使用方式和功能,容器類器物的內容物被認為是獻祭品[22]77。學者們通過科學嚴謹的論證,描繪出三星堆古城較為完整的祭祀圖景,為本文開展三星堆古城祭祀體系研究提供了參考。

當前文物資源的數字化建設研究主要是利用本體和知識圖譜等技術建設文物數據基礎設施,并在此基礎上開展應用研究,為本文提供了經驗。聚焦于三星堆祭祀體系數字資源的組織開發,學者多從人文角度出發,博物館僅利用元數據對資源進行粗粒度組織,尚未形成完備的三星堆古城祭祀體系數據基礎設施,難以為相關數字人文研究提供數據支撐。知識圖譜是數據驅動的資源組織方式,因此,如何搭建細粒度、關聯化的三星堆古城祭祀圖譜,并在此基礎上開展數字人文研究的場景應用,是本研究著力解決的關鍵問題。

2 研究路線設計

本文通過考查三星堆古城祭祀區器物坑的遺存屬性,提出以古城祭祀體系為核心的圖譜構建和場景應用方案,主要包括本體建模、圖譜構建和場景應用,如圖1所示。

圖1 研究技術路線

(1)本體建模。建立古城祭祀體系與數據體系的對照,確立現存數據體系能夠支撐祭祀體系的研究維度,據此定義類及其層級、對象屬性與數據屬性,構建三星堆古城祭祀體系本體模型。

(2)圖譜構建。運用爬蟲與人工相結合的方式從不同數據源中采集資源,借助UIE預訓練模型實現不同結構類型數據的信息抽取,并對不同源的數據進行共指消解、實體消歧和屬性融合,將整理好的數據導入Neo4j中完成節點和關系的存儲,實現圖譜構建。

(3)場景應用。依托圖譜結構化的知識表示進行多維信息檢索,可以清晰地描述祭祀體系實體間的關聯關系,搭建起人文研究觀點呈現、知識發現和數據眾包的場景應用,以此賦能三星堆古城祭祀相關人文研究。

3 三星堆古城祭祀體系的本體建模

本體是概念化的規范說明[23],能夠建立起資源間不同描述形式的語義互操作。三星堆古城祭祀資源多源異構,因此有必要設計全面、規范、可互操作的三星堆古城祭祀體系本體模型,為資源組織提供技術支撐。

本文首先確立了三星堆古城祭祀體系的研究維度,其次復用了文博領域較為成熟的CIDOC-CRM、VRA和CDWA的術語,并自建古城祭祀體系特色著錄項,以“sxd”前綴標識,在此基礎上定義類及其層級、對象屬性和數據屬性,構建古城祭祀體系本體模型。

3.1 三星堆古城祭祀體系的維度確立

目前三星堆古城尚未出土祭祀相關文獻記載,多依靠古城內的祭祀遺存來開展祭祀體系研究,但這些資源能夠支撐祭祀體系的哪些維度,需要進一步探索。調研發現,三星堆古城祭祀資源主要分為兩類:一類是描述祭祀遺存客觀情況的百科型資源,如尺寸等外在特征;另一類是依據遺存外在特征挖掘其內涵的研究型資源,如功能等內在特征。本文著力從研究型資源出發,從具體遺存切入,梳理古城祭祀體系與數據體系間的聯系,見表1。

3.2 確定類及其數據屬性

依據上文梳理的祭祀體系具體維度,設置了祭祀場所、施祭者、受祭者、祭祀用器和用品類,補充了時間、工藝和圖案紋飾3個抽象類,并根據不同的分面逐級細化,建立起類間層級,見表2。此外,依據數據體系中實體的屬性定義不同類的數據屬性,層級類目的數據屬性具有繼承性。

3.3 定義類的對象屬性

孤立的類目難以完整地描述祭祀體系,需要限定對象屬性的定義域和值域使類目間關聯起來。本文共定義14個對象屬性,見表3。

表3 三星堆古城祭祀體系本體模型類的對象屬性

最終,古城祭祀體系本體模型共包含8個核心類、30個子類、14個對象屬性和19個數據屬性,借助protégé軟件實現本體模型構建,為圖譜構建奠定邏輯基礎。

4 三星堆古城祭祀圖譜的構建

4.1 數據獲取

圖譜質量由數據源的質量所決定,因此須保障數據源的真實性和完整性。本文主要選取了三星堆博物館官網、百度百科數字博物館、中國知網官方平臺。此外,由于官網資源更新及時性不足,本文選取了新浪微博“四川廣漢三星堆博物館”賬號內容,用于收集更為及時、權威的資源。

針對網頁類半結構化數據,利用爬蟲技術抓取文物介紹網頁,并進行網頁內容去噪、提煉等預處理,分別提取三星堆博物館和百度百科數字博物館文物介紹網頁85和83個,剔除重復內容,最終獲得有效文物介紹網頁118個,將采集到的數據整理存儲到CSV文件中。

針對文本類非結構化數據,主要包括:一是圖書《三星堆祭祀坑》,是對祭祀區一號和二號坑發掘撰寫的考古報告,是開展三星堆領域研究的基礎性資料;二是研究文獻,在中國知網中,以“三星堆”為主題進行檢索,保留刊載于CSSCI來源期刊和《四川文物》期刊的高質量文獻263篇;三是新聞報道,在新浪微博“四川廣漢三星堆博物館”賬號,篩選2020年至2022年與三星堆古城祭祀相關博文213篇。在此基礎上,人工閱讀采集的文本內容,摘錄古城祭祀體系相關內容,存儲到TXT文件,作為三星堆古城祭祀體系初始語料。

4.2 信息抽取

由于三星堆古城祭祀資源涉及的領域知識范圍較廣、內容較為復雜,利用現有實體識別工具會出現識別精準度較低的問題,因此本文選用UIE預訓練模型來實現三星堆古城祭祀資源的信息抽取。UIE模型支持不限定領域的信息抽取,能夠實現零樣本的冷啟動,降低了標注數據依賴。

為了提高模型信息抽取的準確率,需要針對三星堆專業領域的任務進行預訓練。根據前文構建的本體模型預先定義任務所需實體和關系標注標簽,將類中實例以及屬性值設為實體,將對象屬性和數據屬性設為關系,設計了20個實體標簽和42個關系標簽。選取初始語料中的1 000條數據,分析數據的語義內容和文本結構,利用開源數據標注工具Doccano實現資源的人工序列標注,構成預訓練模型的初始語料庫。

本文配置了python3.7的試驗環境和paddlepaddle2.4.0項目框架,參照經驗數據和實操慣例,將語料庫按照8∶1∶1劃分為訓練集、驗證集和測試集[27]加載入模型中,并根據顯存情況調整模型參數,將max_seq_len設置為512、batch_size調整為32,在訓練過程中持續關注模型的評價指標,當指標得分不再隨著訓練輪次的增加而上升時保存模型。該模型在epoch = 6時,評價指標得分達到最高,其中P = 0.93,R = 0.87,F1 = 0.90,保存該模型。

調用模型進行實體和關系聯合抽取,盡管通過模型抽取出大部分信息,但由于實體和關系標簽數量太多而訓練數據量不對等的原因,導致部分實體間關系未被析取,因此筆者通過人工校驗對數據中的實體和關系進行補充和修正,以保障圖譜的可靠性。

4.3 語義融合

由于三星堆古城祭祀資源來源于不同平臺,會存在數據源間的數據重復、對于同一事物存在表述不一的問題,因此需要綜合多個數據源的數據去重、合并,增加實體和關系豐富度的同時減少圖譜的知識冗余。

(1)共指消解

共指消解主要解決的是實體“同義異名”。該問題產生的原因一方面是由于數據采集于不同的數據源,不同數據源間表述習慣存在差異;另一方面是由于部分數據來自篇章級文本,篇章文本一般僅在專有名詞首次出現時使用其全稱,在后文表述中使用其簡稱,如:“青銅大立人”被省略描述為“立人像”等,從而導致實體表述偏差。因此,本文以《三星堆祭祀坑》表述為基準,采用實體名稱語義相似度專家人工比對的方法,將同義異名的實體名稱更改為同一表述,如:將不同文件中的“立人像”實體合并為同一文件中的“青銅大立人”實體。

(2)實體消歧

實體消歧主要解決的是實體“同名異義”。該問題是由于器物坑出土大量同類型器物,但尚未將每個器物按其特征進行專有命名,如:不同形制的玉璋統稱為“玉璋”。針對這個問題,本文在器物名稱后綴其標識符,用以區分不同形制的同類器物,若其標識符數據未被收集到,則在其后綴補充器物最顯著的特征用以標識,如:標識符K1:78的“玉璋”被命名為“玉璋K1:78”,若無標識符的器物可先后綴其出土坑號,再據其特征加以命名。

(3)屬性融合

本文以《三星堆祭祀坑》表述為基準,首先對不同數據源中同一實體相同屬性的屬性值進行合并更改,其次對官方數據缺失的實體屬性進行補充,如:博物館官網中“青銅大立人K2②:149、150”的“尺寸”屬性表述為“長142、直徑2.3厘米”,其他數據源中的表述為“長1.42米,直徑2.3厘米,重463克”,則將該表述修正為“長142厘米、直徑2.3厘米、重463克”。

4.4 知識存儲

本文采用Neo4j圖數據庫實現三星堆古城祭祀體系數字資源的知識存儲。相較而言,Neo4j圖數據庫擁有靈活的數據結構和便捷的開發模式,查詢效率更優。因此,本文基于祭祀體系本體模型,編寫MappingMasterDSL語句將抽取結果導入protégé軟件中存儲為owl文件,再將其導入Neo4j中,實現本體模型與數據實例間的映射。

然而,Neo4j直接導入owl類型的文件會存在實例無法顯示的問題,需要先將owl文件利用rdf2rdf命令模塊轉換為rdf文件,再借助Neosemantics插件即可實現RDF數據向Neo4j圖數據庫的導入,導入后可以對標簽下的節點和連線進行進一步調整,最終導入1 098個節點和3 375個關系,完成三星堆古城祭祀圖譜構建。

5 基于知識圖譜的人文研究場景應用

5.1 場景一:人文研究觀點呈現

人文研究的觀點大部分是以發表研究文獻的方式展現,而文獻觀點隱藏在論據論證的大量篇幅之間,其隱蔽性為用戶探尋觀點造成了阻礙。以圖譜的形式呈現文獻觀點既直觀,又可以串聯多篇文獻觀點,梳理其脈絡形成知識網絡,進而為用戶提供快捷、準確的知識服務。

(1)研究觀點查詢

三星堆古城祭祀文獻多從祭祀器物著手,針對用戶關于器物基本知識的簡單知識需求,編寫“MATCH(n{name:“器物名稱”})RETURN n”語句即可將該器物的相關信息通過節點和邊可視化地展示出來,使得研究觀點更加清晰明了,為用戶查詢檢索相關器物數據提供便利。以“青銅大立人”為例,通過檢索式查詢到“青銅大立人”節點,雙擊節點既可以直觀地查詢到“青銅大立人”的出土地點、工藝、紋飾等信息,還可以得到“青銅大立人”的冠飾、服飾、姿勢等相關屬性(見圖2),可以發現學者通過嚴謹論證后認為“青銅大立人”的身份地位較高,在祭祀活動中擔任的施祭者身份為主祭。

圖2 青銅大立人的相關信息

(2)研究觀點循證

針對用戶的復雜知識需求,祭祀圖譜可以從存儲的多篇文獻觀點中尋找關鍵證據支撐,更為深入細致地揭示知識內涵。例如,學者在廣泛閱讀三星堆發掘報告、論著后,得出三星堆古城的宗教信仰主要是由“自然崇拜”“圖騰崇拜”和“祖先崇拜”組成的結論,然而該結論分別對應于何種事物,如何通過出土遺存來證實,并未在文章內明確說明。針對這個問題,構建語句“MATCH(a:Ancestor)-[r:symbolicFigure]->(b) RETURN a,b,r”“MATCH (a:Nature)-[r:symbolicThing]->(b)RETURN a,b,r”“MATCH (a:Totem)-[r:symbolicThing]->(b)RETURN a,b,r”從圖譜中挖掘,檢索結果整體見圖3,其中左上圖為祖先崇拜結果圖,右上圖為自然崇拜結果圖,左下圖為圖騰崇拜整體圖,右下圖為圖騰崇拜細節圖。從圖中可以發現“祖先崇拜”具體包括蠶叢、魚鳧、柏灌和燭龍,“自然崇拜”主要是由太陽、山、樹所表現的,“圖騰崇拜”所涉及的種類眾多,包括鳥、蠶、龍、眼睛、龜背、魚、雞、虎、蛇和扇貝,圖譜中也詳細展示了代表受祭者的具體器物。

圖3 三星堆古城的宗教信仰

5.2 場景二:人文研究知識發現

知識圖譜不僅可以通過檢索查詢到關聯的節點,還可以發現知識關聯網絡隱含的信息。祭祀活動需要將祭祀用器和用品盛裝于容器類祭祀用器中供奉給受祭者,在同一容器中的不同用器和用品與容器類祭祀用器象征著相同的受祭者。在本研究中,用器和用品之間的關聯關系是通過“isPackedIn”建立起來的,用器與受祭者之間的關聯關系是通過“symbolicThing”和“symbolicFigure”建立起來的。因此,本文以祭祀用品為出發點,探究祭祀用器和祭祀用品與受祭者間隱含的關聯關系。

針對一號器物坑的祭祀用品,通過“MATCH (n:Biologicalobject)-[r1:isPackedIn]->(m)-[r2:symbolicThing]->(o) RETURN n,m,o UNION MATCH (n:Humanmadeobject)-[r1:isPackedIn]->(m)-[r2:symbolicThing]->(o) RETURN n,m,o”建立了祭祀用品—>祭祀用器—>受祭者的直接關聯,發現“海貝—龍虎尊—虎”一條知識路徑。在此基礎上,通過“MATCH(n:Biologicalobject)-[r1:isPackedIn]->(m)-[r2:symbolicThing]->(o)-[r3:symbolicThing]-(p)-[r4:isPackedIn]->(q)-[r5:isPackedIn]-(r) RETURN n,m,o,p,q,r”建立祭祀用品—祭祀用器—受祭者—祭祀用器間的雙向關聯,檢索結果如圖4所示。結果發現,一號坑海貝被盛裝于青銅人頭像和龍虎尊兩個祭祀用器中,其中龍虎尊被認為直接與受祭者“虎”相關聯,而青銅人頭像通過其盛裝物金虎形箔飾間接與“虎”相關聯;此外,一號坑的玉琮與金虎形箔飾被盛裝于同一青銅人頭像中,因而合理推測一號坑中的海貝、青銅人頭像、玉琮均與受祭者“虎”存在關聯關系,海貝可能為祭祀虎的祭祀用品,青銅人頭像和玉琮可能為祭祀虎的禮器,該發現可以為三星堆考古學者提供新的思路。

圖4 一號坑玉琮和海貝與虎的關聯關系

5.3 場景三:人文研究數據眾包

知識圖譜作為一種支持人文科研活動的基礎設施[28],其構建并不是一蹴而就的。三星堆古城祭祀區3—8號器物坑的發現仍在不斷更新,當前單兵作戰的模式已經難以跟上資源增長的步伐,因此本文設計了古城祭祀數字資源數據眾包的模式,不斷豐富三星堆古城祭祀圖譜,從而建立起更加完備的三星堆古城祭祀數據基礎設施,為人文研究提供更堅實的數據基礎,其中最重要的是解決3個問題:對什么任務進行眾包?任務交由誰來完成?如何設計流程來實現眾包?

(1)對什么任務進行眾包?

目前利用預訓練模型開展三星堆古城祭祀數字資源的信息抽取仍存在一定的缺陷,其抽取的效果有待提升,因此本文的眾包任務主要包含兩方面:一是擴大預訓練模型的語料庫,以此提高模型的準確率和召回率;二是對預訓練模型信息抽取后的三元組進行人工校對。接包者需要依據上文所構建的祭祀體系本體模型,一方面分析原始數據的語義結構進行人工序列標注,另一方面對信息抽取后的結果數據進行錯誤糾正和缺失補充。

(2)任務交由誰來完成?

三星堆古城祭祀數字資源的數據眾包任務具有較強的專業領域性,對普通用戶有一定的門檻,因此需要在發包前篩選接包方,最好為考古專業領域相關學者、從業工作者和興趣愛好者,并在分配任務前設置祭祀數字資源序列標注和人工校對不同任務的預先測評,依據任務完成的結果來判斷接包方與不同任務的適配性,后續為其分配相應的任務。

(3)如何設計數據眾包流程?

首先,發包者將不同的任務分解為子任務發布至眾包平臺,并為子任務設定“考古”“三星堆”“序列標注”“信息抽取”等標簽使其易被發現,制定明確的任務要求和操作守則;其次,眾包平臺根據標簽在用戶數據庫中匹配,將標簽一致的任務推薦給用戶,以此招募志愿者參與任務;再次,通過測評的用戶可以領取任務,若接包方未在規定期限內完成,則將任務重新分配到平臺,供其他用戶選擇;最后,發包方根據質量考核標準進行審核和校驗,若質量符合要求,發包方將序列標注任務結果加入預訓練模型的語料庫中不斷提升模型抽取的準確性,另外將校對后的信息抽取結果與現有圖譜整合,不斷完善圖譜。

此外,在任務執行過程中,需要設置質量控制機制,如:標注平臺需在任務欄下進行規則說明和約束,并列舉標注示例;接包者若在標注過程中存在疑問或者建議,可進行反饋。在任務完成后,發包方還需根據任務的完成質量和用戶的參與動機設置用戶激勵機制,不斷調動用戶的積極性,吸引和留住用戶。

6 結語

本研究通過建立三星堆古城祭祀體系與數據體系的對照,針對當前三星堆古城祭祀資源語義描述缺乏的問題,創新性地構建了三星堆古城可擴展、可互操作的祭祀體系本體模型。利用機器學習等數字技術將分散異構的三星堆古城祭祀數字資源轉化為結構化且人機可讀的數據,構建起三星堆古城祭祀體系這一人文領域的知識圖譜,并在此基礎上借助可視化和數據分析技術實現了觀點呈現、知識發現和數據眾包3個人文研究場景應用,突破了傳統三星堆古城祭祀體系的人文研究視角,賦能了相關數字人文研究。未來本研究還可與其他祭祀圖譜進行鏈接,從而促進祭祀相關人文研究發現。不足之處在于三星堆古城祭祀資源的信息抽取依賴人工的程度仍然較高,未來將依靠公眾力量增加數據標注語料庫,不斷提高模型精度。

(本文數據鏈接地址:http://hdl.handle.net/20.500.12304/11139)

猜你喜歡
器物古城本體
Abstracts and Key Words
2010年新鄭市郭店鎮工業園區墓葬出土器物
對姜夔自度曲音樂本體的現代解讀
聽古器物講“孝文化”
恣意浪漫的楚國器物
我有兩個童年,一個古城一個江邊
古文字“丙”與古器物“房”
翹街古城
安居古城
春秋古城一日游
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合