?

基于地方志非結構化文本數據特征的模型設計要素探究

2023-02-22 05:45任璀洛
史志學刊 2023年6期
關鍵詞:數據模型方志數字

任璀洛

(湖南省地方志編纂院 湖南省地方文獻研究所,湖南 長沙 410003)

一、引言

(一)政策背景

中國共產黨第二十次全國代表大會上的報告提出,實施國家文化數字化戰略,健全現代公共文化服務體系,創新實施文化惠民工程。2023 年2 月,黨中央、國務院印發《數字中國建設整體布局規劃》(以下簡稱《規劃》),強調打造自信繁榮的數字文化,要求推進文化數字化發展,深入實施國家文化數字化戰略,建設國家文化大數據體系,形成中華文化數據庫。地方志工作應該適應新時代的發展需要,主動融入宏大的“數字中國”圖景,推動數字技術在地方志領域全過程的融合應用,堅持守正與創新的辯證統一,進一步轉型升級傳統地方志的傳承、編纂、傳播、利用方式,提升地方志數據的質量、可靠性和安全性,有效地支撐政府決策和社會服務。

(二)研究概況

地方志文本內容的數據處理已有較多研究,但針對地方志的數據模型研究仍比較少。魯丹、李欣研究整合地方志數據遇到的五個方面問題,討論了核心數據的映射關系表,但對地方志中的文本數據提取未做相關研究[1]魯丹,李欣.數字人文環境下異構方志元數據整合策略[J].圖書館論壇,2019,(04).(P158-165)。溫永寧等基于GIS(地理信息系統)的方法,研究了家譜信息系統設計與實現,但僅支持人員、地點、時間等信息建模,與地方志文本內容的數據處理復雜度有較大差別[2]溫永寧,閭國年,陳旻,等.華夏家譜GIS的數據組織與系統架構[J].地球信息科學學報,2010,(02).(P2235-2241)。趙思淵以“中國地方歷史文獻數據庫”為例,討論了引入文獻數據庫結構和分析工具的目的、意義以及規范等[3]趙思淵.地方歷史文獻的數字化、數據化與文本挖掘:以《中國地方歷史文獻數據庫》為例[J].清史研究,2016(4).(P26-35)。歐陽劍提出了古籍文本可視化思路,包括以時間軸為主線的微觀散點圖分析、以時間軸為主線的宏觀曲線分析、空間信息展示、詞頻分析、詞語首見年代考證等方式,未涉及具體的數據架構[4]歐陽劍.面向數字人文研究的大規模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016,(02).DOI:10.13530/j.cnki.jlis.160011(P66-80)。王銳等基于GIS(地理信息系統)的方法,將地方志信息劃分為空間信息、時間信息和多媒體信息三類,提出將地方志信息融入空間基礎地理信息,構建了概括式的要素類,以及要素的空間、時間、主題、多媒體模型,將實體的坐標數據、拓撲數據和屬性數據存放在關系數據庫[5]王銳,馬德濤,袁家勇,等.基于GIS的地方志信息與空間基礎地理信息融合方法的研究[C]//中國地理信息系統協會.2009'中國地理信息產業論壇暨第二屆教育論壇就業洽談會論文集.[出版者不詳],2009.(P280-285)。徐蒙蒙總結歸納出時空數據的語言描述特征,研究了地方志時空數據組織的方法和信息抽取方法,設計了地名對象數據庫表[6]徐蒙蒙. 地方志時空數據組織與應用[D].南京師范大學,2014.。徐晨飛以《方志物產》云南卷為例,分析了地方志物產領域的語義和組織,提出構建地方志物產知識庫,并探討了知識庫的應用[7]徐晨飛.數字人文視域下方志物產知識庫構建研究[D].南京農業大學,2020.DOI:10.27244/d.cnki.gnjnu.2020.002530.。相關研究都是從其他學科的知識架構出發,從地方志中抽取數據,滿足其學科研究范式,而全面系統分析地方志文本的數據特征,并相應提出如何充分利用數據的研究成果仍較為罕見。

(三)研究方法和意義

本研究運用計算機科學的相關原理,分析地方志文本數據特征,設計地方志數據模型,提出模型的規范架構、分類方式和應用場景,主要采用了文獻分析方法、現狀分析和問題定義方法、軟件工程方法、數據治理方法、實證研究方法。

研究地方志模型的設計和構建,可以探索挖掘和利用地方志資源寶庫的方式,達成地方志工作者的數據共識,完善地方志理論體系,反饋促進編纂工作,指導地方志編纂過程的數據資源收集,拓展地方志信息化前進之路,更便于調研、分析、界定社會公眾對地方志的數據需求,提供更加靈活和高效的數據訪問方式,豐富地方志文化內涵,開拓地方志多元化應用場景,提升地方志服務的能力和價值。

二、地方志文本數據特征

地方志文本數據特征不是指地方志的資料性、全面系統性、地域性等本體特征,強調的是在數據治理過程中的特點。從數據應用角度分析,地方志數據具有明顯的數據源復雜且差異明顯、數據格式多樣化、數據以非結構化文本為主、覆蓋面廣但顆粒度不足、數據產生速度較慢但仍具有一定價值等特點。

(一)數據源復雜且差異明顯

中國地方志工作辦公室公布的2021 年度數據統計結果顯示,全國有省級地方志工作機構33個[1]23個省、5個自治區、4個直轄市和新疆生產建設兵團,香港、澳門、臺灣未統計在內。,地市級地方志工作機構349 個,縣區級地方志工作機構2621 個。部分地區的省志和市志存在分志,某些地區還出版了鄉鎮志和村志。地方志數據源呈現層級多樣化、地域特色化的特點。3000 個地方志工作機構組織編纂的地方志雖然在體例和風格上基本相似,但是篇目框架和篇幅內容有著巨大的差異。顯而易見,省、市、縣不同層級的地方志對地情要素的關注重點是迥然不同的,綜合志書、地方年鑒等不同類型的地方志篇幅內容是差異較大的。

同層級、同類型但不同區域的地方志,框架篇目的結構和順序也有一定差異,所包含的地情要素各有特點。例如《長沙縣志》(1995 年10 月版)分33 篇,《洪江市志》(1994 年6 月版)分23 篇,兩者同為湖南省的縣級行政區域、出版時間相近、出版社相同,僅有“建置”“自然環境”“人口”“工業”“商業”“交通 郵電”“人物”這七個篇目名稱一致,框架篇目的分類包含關系和排列順序則大相徑庭,篇目下記載的地情要素更加難以比較。編纂地方志時間跨度大,涉及行業廣,需要眾多人員的直接參加或間接參與直接寫稿、提出修改意見、反復審改加工等環節。不同區域和不同年代的資料搜集人員在資料的取舍上存在差異。在地方志編纂過程中,因各環節的參與人員學歷文化水平和地情認知差異,需要記錄的地情要素沒有統一標準。因此,同層級、同類型但不同區域的地方志記載的數據多有出現“你有我無”“我有你無”的現象。

即使是同層級、同類型、同區域的地方志,框架篇目和記載的地情要素也存在大同小異和隨社會發展不斷調整的情況。各省的年鑒一年一卷,大多創刊在30 年以上,但較少有某一個要素數據記錄30 年以上,很多數據都是記載了三五年之后,后續卷再也找不到相關記載。例如,從1985-1993 年《湖南年鑒》各卷中尋找對全省金融機構數量的記載,得出結果如下表所示。這個金融機構數量數據連續記載9 年,從1994 年以后,《湖南年鑒》中不再記載。這個隨意抽檢的一個數據要素可以證實,層級、空間、時間和客體的變動,都會導致地方志數據的多源差異化。貴陽方志云的數據比對功能效果不佳,可能就是由多源差異化原因所造成。各種地方志記載的同一地情要素指標的數據因書籍章節排列的差異,分布在書內的不同位置,加上要素名稱的同義多名現象,給地方志數據分析整理增加了相當大的難度。

1985-1993 年《湖南年鑒》各卷次記錄的金融機構數量(個)

(二)數據格式多樣化

目前,全國多個數字方志館或數據庫已經建成投入使用,為地方志數據模型的設計和構建提供了一定的資源基礎,但各省地方志數據存儲采用的數據庫類型版本,以及文本表現形式是多樣化的。2019 年10 月,參照國家圖書館的數字資源元數據標準和數據加工規范制定的《國家數字方志館資源元數據規范(征求意見稿)》《國家數字方志館資源數據加工規范(征求意見稿)》,兩個規范在征求意見時,多個省級地方志工作機構已按各自標準建設了本省的數字方志項目,這些項目存在規范標準不統一的現象。例如在志鑒文本數字化加工模式方面,雙層PDF 模式、純文本模式、圖片和文本對照模式均存在一定份額的擁躉(如右圖所示)。

已開展數字方志工作省份志鑒數字化方式比例(注:部分省份使用多種方式數字化)

根據各省地方志工作機構網站2023 年4 月前的公開數據統計,4 個省級地方志工作機構選擇雙層PDF 格式,5 個省級地方志工作機構選擇純文本格式,3 個省級地方志工作機構選擇雙層PDF 格式和純文本格式混用,還有些省份采用單層PDF 格式或多種格式混用。即使是同一省份內的地方志工作機構之間,建設數字方志項目采用的格式和標準也不盡相同。不少省份已完成了較大數據量的加工,短期內難以按照新規范標準重新加工數據。數據格式多樣化,在一定程度上增加了數據采集和集成的難度,影響數據模型的設計和構建。

(三)數據以非結構化文本為主

人類生產生活所產生的信息數據天然地具有非結構化的特性,結構化的數據是經過人工干預形成的,地方志數據自然也以非結構化為主。地方志內容雖然有不少表格和枚舉文字,但在未進行數據處理前,表格和枚舉式的文字同樣屬于非結構化文本。非結構化數據具有易擴展、易運維、易管理的特點,但是在面臨深度數據分析時則力有不逮,需要對數據進行結構化處理。

此處所稱的非結構化限定為地方志文本內容,而不是地方志作品本體。全國范圍內的數字方志項目,大部分對地方志作品本體進行了結構化存儲。其數據結構是針對某一本地方志作品本體的元數據標準,即元數據為該書的分類、書名、出版時間、書號、斷限等書籍信息,對于地方志中蘊含的各類地情要素,沒有深度分析數據屬性,沒有定義數據規則,沒有進行合理化的數據建模,不同地方志中的數據之間沒有建立關聯,書中由多方搜集凝練的寶貴數據仍處于非結構化狀態,雜亂無章?!秶覕底址街攫^資源元數據規范(征求意見稿)》定義的元數據規范也是基于地方志作品本體的數據結構,按照規范進行加工形成的地方志數字化文本數據庫,只能滿足按章節或頁碼展示原書、書籍內容全文檢索的數據需求??梢?,對非結構化文本類數字方志地情要素的數據模型研究,同時就是對數字方志發展方向的探索。

(四)覆蓋面廣但顆粒度不足

地方志雖全面系統地記述了行政區域內的歷史與現狀,卻是一種高度精煉和概括的文獻,決不能將其類比于前信息時代的“數據庫”。數據庫是實時記錄數據細節,而地方志是各方面的經過時間沉淀后的凝練數據。因篇幅限制,地方志不可能窮舉一地所有情況,即使是篇幅最大的省志,洋洋灑灑五千萬字,也無法面面俱到、事無巨細錄入全省所有數據,只能對關鍵且重要內容加以記載,摘錄關系重大的統計數據。統計過程中數據的細節是沒有辦法得以體現,數據庫的優勢即在數據細節,而地方志的數據深度是不足的。地方志只是從各部門的成分不同的數據水桶中獲取一滴,按一定順序點在一個面板上。這一特征,注定了地方志數據可以為絕大部分領域的工作提供一定的參考,但因顆粒度不足,無法深度參與某一特定工作。地方志數據模型的價值大小即受限于這一因素,這在設計和構建地方志數據模型時需要重點平衡斟酌。

(五)數據產生速度較慢但仍具有一定價值

地方志書每20 年左右編修一次,地方綜合年鑒一年編修一次。雖然地方志書中可能會包含多年的詳細數據,但一般情況也是年度統計數據。因此可知地方志數據產生的時間間隔在一年以上。相比于某些互聯網應用每秒鐘產生成千上萬條數據,特別是阿里巴巴的數據應用在“雙十一”期間每秒的消息處理甚至高達40 億條,地方志的數據產生的速度是極慢的。通常情況下,以這種速度產生的數據其挖掘的價值較小。地方志數據具有一定的特殊性,數據覆蓋面廣且官修屬性使得其數據的權威性較高、可靠性較強,具有一定的參考價值和跨領域關聯價值。

三、地方志數據模型應用案例分析

從本世紀初開始,全國各省地方志工作機構在數字方志建設方面進行了有益探索。迄今為止,數字方志已經成為了數字文化發展的重要組成部分,例如全國智慧圖書館體系建設項目,地方志就是其中數字化的一個重要方面。但這些探索主要限制在使用OCR(光學字符識別)對地方志文本加工處理后實現全文的檢索。分析地方志數據結構,設計數據模型的應用仍比較少見。列舉分析以下幾個地方志數據模型的推廣和應用案例。

(一)全粵村情數據平臺的村情專題指標體系

全粵村情數據平臺采用了數字方志和地理信息系統(GIS)技術相結合的方式,圍繞鄉村振興戰略構建村情專題指標體系,以廣東省自然村落歷史人文普查為基礎,整理、分析廣東省13 萬多個自然村落的歷史人文普查數據;建立數據庫,對村情數據進行深入挖掘、全面分析,形成村情專題分析報告;通過地圖、圖表等方式展示和分析數據,直觀化展示廣東省內鄉村的歷史、文化、風土人情等方面信息,提高了地方志數據的可視化程度;提供自然村落普查數據展示、自然村情可視化統計分析、自然村情專題分析等服務,通過“粵智助”平臺向公眾全方位展示村落鄉情,在古村活化、古驛道保護與修復利用、旅游開發、地理標志產品申報、服務鄉村振興戰略等方面均起到一定積極作用。

(二)貴陽方志云的數據對比功能

貴陽方志云主要收錄了貴陽市各個地方的地情歷史文獻,該項目的特色是數據對比功能。用戶可以選擇區域、時間、指標進行數據對比和分析,對比不同區域在不同歷史時期的文化和社會發展變化情況,生成報表、圖表、數據地圖。但實際的比對效果未能達到預期,其功能實現的底層邏輯原理沒有相關資料難以定論。

(三)中國歷史地理信息系統的數據可視化

復旦大學和哈佛大學聯合研發的“中國歷史地理信息系統”(CHGIS)項目的“晚明松江地區歷史地理信息系統數據庫”,利用《嘉慶一統志》為核心資料,復原了1820 年行政區劃的基礎地理信息,建立寺廟、學校、商路、渡頭、人口、賦稅數據等多個圖層[1]張曉虹. GIS與中國歷史地理信息平臺建設[N].光明日報,2023-09-25.。該系統以歷史地理學知識架構為基礎,對1949 年以前的傳統方志數據模型的構建能提供一定的參考價值。

四、地方志數據模型相比非結構化文本的積極意義

現階段全國范圍內的數字方志成果,包括北京愛如生數字化技術研究中心的中國方志庫、北京籍古軒圖書數字技術有限公司的中國數字方志庫等商業性質的數字方志文本,相比傳統紙質地方志,大部分能夠實現全文檢索,為研究人員和愛好者提供了相當程度的便利,但對更深一層的信息化路徑沒有突破。非結構化文本類的數字方志,在地方志的開發和利用方面只是一項基礎工作,數據模型的作用是在此基礎上設計一棟高樓。地方志數據模型可以將一個區域的物體和活動抽象概況成為實體,定義清晰的實體屬性,相比非結構化文本類的數字方志,具有五個方面的優勢。

(一)統一規范性

通過數據模型在各區域之間的共享使用,可以促進建立統一的區域元數據體系,促使各區域按照統一的地情要素編寫地方志,并能有效識別過往的地方志缺失數據。經過一定時間的規范發展,統一的地方志數據將有利于簡化數據處理和共享程序,降低數據加工成本,提高數據支撐決策能力。

(二)高度連續性

連續性是在規范性基礎上發展而來的特性,有了統一的區域元數據體系,使得地方志的內容必須根據模型的所有實體屬性數據進行完善,年鑒等連續出版物對區域信息的記載將保證數據在時間和空間上的連續和一致。經過一定時間的規范發展,統一的地方志數據將有利于減少數據出現斷層和異常波動的情況,提高數據的質量和可信度,反映區域的整體趨勢和規律,有助于更好地理解區域的特征和變化情況,在一定程度上有利于地方志編輯人員判斷數據的人為因素干擾和誤差,提高數據的準確性和可靠性。

(三)信息可視化

地方志數據模型可以借助信息技術和可視化手段,將信息轉化為可視化的圖表、地圖等,呈現更豐富、更生動的地情信息,能更加直觀地展示一個地區的狀況,有利于提升地方志傳播效益、增強地方志文化影響力。非結構化文本類的數字方志在不進行數據處理的情況下難以實現可視化。

(四)高效可復用

對地方志數據模型進行訓練,模型的數據(即訓練數據)就可以用于對新的、類似的數據進行分類或預測,可以在不同平臺、不同領域、不同項目之間實現高效的數據分析和研究,使地方志數據具有更廣泛的應用價值。非結構化文本類的數字方志則需要每次重新進行檢索和信息整合。

(五)豐富編纂方法和形式

地方志數據模型不僅可以作為一種數據模型使用,而且提供了一種模板式的簡志編纂方法和展現形式,對數字方志和信息方志的工具和邊界是有益的擴充。非結構化文本類的數字方志只是將地方志的存儲形式由紙質變為電子,在結構內容和編纂方法上沒有開創新面貌。

五、設計和構建地方志數據模型的步驟解析

非結構化文本類的數字方志在讀志用志方面發揮了一定的積極作用,但也面臨著多方面的局限和挑戰。為構建地方志的核心競爭力,推動地方志文化的創造性轉化、創新性發展,應積極嘗試前沿數據治理手段和地方志的結合,加強政策支持、規則制定、人才培養、資金支持、數據共享和交流等方面的工作,逐步消除各種限制,推廣和普及全國地方志數據模型,提升地方志數據賦能水平。設計和構建數據模型的具體步驟如下。

(一)加強非結構化文本類數字方志的標準化建設

全國數字方志項目建設存在頂層設計不足、標準多樣的問題,大部分處于加工數字文本的基礎階段,必須按照統一的內容展示和存儲格式,推動數字方志建設和普及,持續對地方志作品尤其是歷代舊志進行數字加工,擴大數字方志規模,提高數字方志規范程度,筑牢地方志數據資源基礎。標準化建設需要在必要時采取一定的行政手段,加強數字方志建設的指導和支持,制定全流程的數字方志工作標準,包括數字方志的編纂、存儲、標引、加工、發布、導入導出、數據接口等各方面全周期工作標準,優先制定數字方志建設文本加工規范和標準,向基層地方志工作機構提供數字方志建設的技術咨詢和技術支持,鼓勵基層地方志工作機構開展地方志數字加工,以利于非結構化文本類的數字方志的高效數據提取。

(二)定義數據規則,統籌考慮構建元模型

一般的數據治理過程,會先提取數據和對數據預處理,然后進行數據元模型的定義。地方志作品中紛繁復雜的數據,難以按照常規的步驟進行,須先定義元模型,才能被準確和廣泛地提取數據。定義地方志數據規則和構建元模型,確保地方志數據治理過程有章可循,促使各地方志作品的異構數據同構化、同構數據關聯化,需要全國各級地方志工作機構的共同努力。為了構建一套長期可用的、準確概括一個地域的各方面屬性的元模型,需要承擔地方志編纂的各工作部門協同參與。

地方志數據元模型分為兩種類型,即通用型的元模型和分級分類的元模型,它們各有優劣之處。

1.通用型元模型

通用型元模型的優點在于模型構建速度較快,只需要選擇某特定行政區域的關鍵基礎數據和統計數據即可,即選取該行政區域地方志文本數據的“最大公約數”,具有一定的通用性和可擴展性,且基本不用進行數據補充。它的缺點在于通用狀態下,必須拋棄大量有效數據。舉例來說,假設省志的字數篇幅在5 千萬字左右,縣志的字數篇幅在200 萬字左右,省志中記載了25 萬條有效數據,縣志中記載了1 萬條有效數據,而通用型元模型只選取一個地域最關鍵、核心、普適的數據,元模型下可能只有1 千個數據屬性,那么省志中24 萬9 千條數據和縣志中9 千條數據在后期就得不到結構化提取,勢必造成數據浪費。通用型元模型雖然普適性較好,但也做不到無限通用,能在省市縣三級通用的元模型如果套用在鄉鎮、村、社區、小區時,因為地域結構或統計口徑等多方面差異,會造成大量的數據空值。

2.分級分類的元模型

分層級、分作品類型建立不同的元模型,其優點在于元模型數據屬性可以較為廣泛、覆蓋面廣、顆粒度更加細膩,能更加充分利用地方志中的數據,模型實用性更強,但相對來說建模速度較慢,需要建立多個元模型,增加了工作難度和復雜度。同時在建立每個元模型后,在數據提取過程中,需要從多個同級別行政區劃的地方志文本求取“最大公倍數”,并對所有行政區劃的地方志中缺項漏項的數據進行調查和補充。

地方志數據元模型建立要根據實際需求和人力、財力、物力的配置情況綜合考量,也可以采取混合模式,先建立通用型元模型,在通用型基礎上,再構建分級分類元模型。同時,元模型的屬性應該注意結構分明,以大類統小類,例如可以分基礎信息類、資源生態類、基礎設施類、社會經濟類、文體藝術類、政治組織類等大類,基礎信息大類下又可統攝地名、地理位置、地形地勢、行政區劃面積等信息。元模型的建立,仍要采取“眾手成志”的模式,征求各相關行業專業人士意見。通用型元模型的數據屬性應以簡約而不漏重要項為原則,分級分類元模型則應盡可能做到數據屬性充分而不冗余。無論是哪一種元模型,都必須充分考慮屬性的可延續性。這些數據屬性需要在時代發展趨勢下保持大范圍的穩定性,在未來較長時間之內,仍然是社會公眾所需要、愿意且能夠統計的數據。

(三)開展數據提取和數據預處理

根據地方志覆蓋面廣的數據特征,采取由下而上的方式開展數據處理較為合適。各地方志工作機構應根據定義的數據規則,分工對本區域的地方志進行數據提取,逐層向上一級數據倉庫匯總。針對元模型的每項屬性,通過文本挖掘技術,從地方志數據中提取關鍵詞和主題,查詢檢索到地方志中的對應數據,形成數據倉庫。數據倉庫的形式可以是基于數據庫的平臺,也可以是按照一定格式排列的文檔。有條件的地方,應開展元模型數據標記和元模型數據索引。形成數據倉庫的過程,要根據地方志記載的數據情況,對元模型的準確性和科學度進行分析和評估,并將分析和評估情況向上一級地方志工作機構反饋。

從地方志中提取的數據,可能出現數據重復、數據單位不一致、數值有差異等諸多情況。一般情況下,數據清洗是數據加工不可省略的重要環節,完整構建地方志數據模型必須在提取地方志數據以后進行數據清洗。通過邏輯判斷、縱橫比對等方式,判斷數據的準確度,刪除重復數據、轉換不一致的數據,舍棄不合理數據并補充缺失數據,消除在應用中造成使用者信息誤判的可能性。

地方志的數據預處理中最重要的環節就是缺失數據的補充。根據地方志數據源復雜且差異明顯的數據特征,可以判斷預處理階段必然存在不少數據缺失。這些數據缺失是地方志編纂過程的先天缺陷。過多的數據缺失將造成模型的不完整性,導致后續的數據挖掘失敗。必須邀請參與地方志編纂的各單位給予配合支持,將數據補充完善。一般來說,數據清洗和數據預處理工作使用計算機完成,但對于地方志的數據模型構建來說,數據預處理階段可能需要大量人工干預。

(四)數據挖掘和數據可視化

通過元模型和數據的正式匹配,即可初步構建地方志數據模型。模型建立之后,需進行廣泛的宣傳和推廣,并使之能反作用于地方志編纂。即要求地方志作品在編纂中,建立數據模型索引,標注清楚模型的屬性對應到書籍的頁數和行數等位置信息,以利于成書之后的數據能在較短時間內高效利用。同時,也需要積極探索模型的相關應用。

1.模型內容的分類、聚類,強化供給價值

要充分利用龐雜的地方志數據,必須先對數據進行分類,這是前人探索的有效經驗。例如竺可楨摘取各類方志記載的植物分布及花開花落時間的變化加以匯總研究,在《中國近五千年來氣候變遷的初步研究》中提出“方志時期”(1400—1900 年)。北京天文臺從眾多舊志中摘錄了數百萬字的天文資料,匯編成《中國天文資料匯編》。還有《中國古銅礦錄》《中國地震歷史資料匯編》等書的匯錄。這些案例都是通過分類、聚類的方式對地方志文本數據進行提取??梢愿鶕乩砦恢?、時間、行業、領域、主題等因素制定分類方法,建立一整套分類框架,包括分類目錄、分類指南,同時鼓勵引導多學科參與其中,加強跨學科合作,整理和分類地方志數據模型中的內容,以提高數據模型的應用價值。

2.建立數據關聯,打造多形態的地方志數據模型應用

通過關聯規則挖掘技術,尋找地方志數據中各個數據之間的聯系和規律。通過模型數據,分析數據之間的因果關系、時序關系、頻繁模式關系、分類關系、依賴關系。將數據挖掘結果以圖形、圖像和動畫等形式呈現,直觀展示數據特征和規律。運用地理信息系統(GIS)技術,將空間數據可視化,是目前已探索出成果的應用方式。同時,豐富地方志數據模型應用還需要拓展地方志數據模型應用傳播渠道,在線上綜合呈現多媒體可視化的數據分析結果,對接外部鏈接和數據,滿足不同用戶的需求,提升數字方志的互動性和用戶參與度,深化模型的應用價值,及時獲得公眾的反饋,便于進一步調整優化模型。

六、結論

全國地方志非結構化文本的數據模型設計與構建的探索、研究處在萌芽狀態,是地方志信息化發展中具有前瞻意義的研究課題,對于地方志事業高質量發展具有重要作用和意義。在模型設計的探索過程中,發現了一些理論問題和難點,需要結合地方志數據的特征,加以克服和解決,特別是要盡快解決地方志文本數據無規則、數據無結構的問題,不斷改進數據關聯能力,提高數據可視化。結構化和智能化的地方志數據模型,將作為重要數據元素載體,極大豐富地方志資源開發利用的形式和內容,融合數字文化等領域的發展,推動地方志事業的創新和轉型,為實施國家文化數字化戰略、加強精神文明建設貢獻“志”慧,為推進文化自信自強、鑄就社會主義文化新輝煌貢獻“志”力。

猜你喜歡
數據模型方志數字
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
黑龍江民國方志所刊名家墨跡選
面板數據模型截面相關檢驗方法綜述
答數字
加熱爐爐內跟蹤數據模型優化
嘉絨藏族地區的舊方志編纂
數字看G20
Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
成雙成對
面向集成管理的出版原圖數據模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合