?

基于關聯數據的圖書館館藏數字資源語義化組織研究

2023-09-04 00:43佟瑞娟
河南圖書館學刊 2023年8期
關鍵詞:數字資源圖書館

佟瑞娟

摘 要:文章利用關聯數據技術構建了數字資源數據轉化模型,實現了數字資源的規范化、標準化處理,同時利用其RDF描述框架功能,通過HTTP協議對數字資源知識單元進行訪問,實現了館藏數字資源知識單元的整合與發布,并在此基礎上搭建了圖書館館藏數字資源語義化組織架構,引入了數字資源語義化組織層作為深化用戶需求和精準資源檢索的中間層,提高了圖書館館藏數字資源的檢索效率,為圖書館間館藏資源協同共享服務的實現奠定了基礎。

關鍵詞:關聯數據;圖書館;數字資源;語義化

中圖分類號:G250 文獻標識碼:A 文章編號:1003-1588(2023)08-0132-04

從古至今,圖書館始終扮演著知識信息傳播的重要角色,隨著互聯網技術的快速發展和人們需求的多樣化,圖書館進行了大規模的數字化變革。圖書館在大力推進數字化的過程中,大量館藏傳統資源被進行數字化描述和系統化存儲,為圖書館館藏資源的數字化應用提供了有力支撐[1,2]。然而,隨之帶來的是圖書館館藏數字資源的碎片化、分散化、異構化,不僅造成了大量高價值館藏數字資源難以被檢索和利用,而且極大地降低了館藏數字資源的利用效率。目前,圖書館館藏資源經歷了從文獻到數據再到知識的過渡[3,4],相關研究主要集中在體系構建[5]、資源序化與整合[6]、資源知識發現[7]等領域,在資源語義描述及語義關聯方面的研究較少。隨著計算機技術的發展,如何利用計算機技術深入挖掘館藏資源,提高資源利用效率以及發現更多的知識單元成為圖書館館藏資源開發的重點。

關聯數據技術是一種可以將半結構化或非結構化數據按照統一的規范和標準進行處理,并轉化為具有一定關聯特征的結構化數據技術,其在圖書館的應用不僅可以提高館藏數字資源的系統化管理,而且可以提高數字資源的利用效率。本研究基于關聯技術構建了數字資源數據轉化模型以及圖書館館藏數字資源語義化組織架構,引入了數字資源語義化組織層作為深化用戶需求和精準資源檢索的中間層,并以某地方志知識服務平臺為例進行案例分析,旨在不斷提高圖書館館藏數字資源的檢索效率,深入挖掘館藏資源的知識價值以及提高館藏資源的利用率。

1 關聯數據在圖書館館藏數字資源應用的背景分析

1.1 圖書館館藏數字資源的特征

館藏數字資源具有多源、異構等特點。首先,圖書館館藏數字資源來源廣泛,如專業機構庫、科研院所庫等,數量日益增多,呈現海量化的特點;其次,數據更新快,流轉速度快,數據類型日益復雜化;再次,館藏資源價值高,但存在重復交叉現象,資源利用效率高低不等,資源的知識價值亟待進一步挖掘。

1.2 關聯數據技術

關聯數據技術最早由Tim Berners-Lee提出,通過URI和HTTP協議聚合RDF格式的數據,用戶可以通過檢索工具檢索到相關數據并加以利用。目前,關聯數據在圖書館的應用主要集中在系統構建、優化服務模式、館藏資源整合等方面。關聯數據一方面可以通過構建語義本體,揭示和描述館藏數字資源的知識內容;另一方面通過關聯技術實現內外部數據的互聯互通,拓展數據來源。

1.3 關聯數據在圖書館館藏數字資源應用的可行性分析

應用關聯數據可以在多源、異構、多模態的館藏資源間建立關聯關系,實現資源的聚合,提高資源的利用率,主要表現為:①充分挖掘出資源間的關聯特征。圖書館通過應用關聯數據技術,對閑置率高的數字資源進行數據挖掘,找出分散化、異構化數字資源間的關聯特征,并建立數字資源間的數據聯系,使碎片化、分散化、異構化的數字資源能夠轉變為標準化、規范化的資源數據,并通過智能檢索、關聯檢索等方式提高這類數字資源的檢索率。②規范化處理館藏資源。無序化、分散化的數字資源為圖書館館藏資源檢索及管理帶來了困難,導致大量珍貴數字資源的真實價值得不到有效發揮。關聯數據技術可以將此類數字資源進行規范化、標準化處理,使此類數字資源得到系統化管理和應用,這將極大地提升圖書館館藏數字資源服務應用能力,可以方便更多的高校、科研院所很好地利用這些珍貴的數字資源,從而進一步拓寬了圖書館館藏數字資源的應用領域。

2 圖書館館藏數字資源語義化組織的原則

2.1 標準性原則

在開展館藏數字資源數據關聯和語義化組織過程中,圖書館需要注意的是數據轉化所采用的標準、規則要一致,且保持不變。不同的數據轉化標準或者規則雖然可以實現無序、離散、數字資源的關聯性,但轉化后的數據結構、數據類型會千差萬別,形不成系統數據,不便于系統化管理和使用。標準性原則是指圖書館館藏數字資源數據轉化只有采用統一的標準和規則,才能確保轉化后的數字資源在數據結構、數據類型等方面保持一致,不僅方便了數字資源后期的資源存儲和系統化管理,還有助于提升用戶數字資源檢索的服務水平。

2.2 系統性原則

對圖書館館藏數字資源開展數據關聯和語義化組織的目的之一是建立數字資源間的系統聯系。圖書館館藏數字資源不僅包括結構化、系統化數字資源,還包括大量非結構化、離散化的數字資源,這類數字資源嚴重影響了館藏數字資源的系統化管理和應用。在對圖書館館藏數字資源開展數據關聯時,首先要分析數據間的特定聯系,并依據這一聯系進行數據轉化,最終形成系統化的數據資源;其次在館藏數字資源數據轉化中可按照數據資源結構、類型等的不同,將不同的數字資源按層級結構進行劃分,使轉化后的數字資源更加系統化,有助于圖書館系統的讀取與調用。

2.3 完整性原則

完整性原則是圖書館館藏數字資源語義化組織過程中首要堅持的原則,在開展數字資源數據結構轉化、數據關聯過程中常常出現部分數據包丟失或數據失真現象,這會給數字資源帶來永久性損壞,嚴重影響了數字資源的使用效果,同時也給圖書館帶來無法估量的損失。因此,在對館藏數字資源開展數據管理和語義化組織過程中,圖書館需要考慮數據的離散程度和非線性特征,確保在數字資源轉化過程中不出現數據失真、數據包丟失等問題,保障數字資源的完整性和轉化前后的一致性。圖書館只有堅持這一原則,才能從根本上避免館藏珍貴數字資源的遺失,才能更好地促進館藏數字資源的有效利用。

3 基于關聯數據的圖書館館藏數字資源語義化組織結構設計

利用關聯數據技術對館藏數字資源進行數據挖掘和特征提取,建立數字資源知識單元間的關聯,并對轉化后的知識單元進行語義化組織,同時利用關聯數據的RDF描述框架功能,通過HTTP協議訪問數字資源的每個知識單元,實現館藏數字資源知識單元的整合與發布。該過程不僅實現了館藏數字資源深層特征的提取,建立了不同數字資源知識單元間的關聯,而且建立了數字資源知識單元在語義化組織層面間的關聯?;陉P聯數據的圖書館館藏數字資源語義化組織結構層級主要包括館藏數字資源庫、數據資源描述層、數字資源語義關聯組織層和應用服務層。館藏數字資源庫是基礎數據層,主要收集和獲取多源、異構、多模態的數字資源;數據資源描述層是將清洗好的數據進行語義化描述,形成RDF格式的元數據;數字資源關聯組織層是利用關聯數據技術將RDF元數據進行語義關聯,組織成一個統一的富含語義的知識組織架構;應用服務層是基于數字資源關聯組織層的知識組織架構,開發相關應用服務功能,如語義檢索、資源索引等。

3.1 館藏數字資源庫

館藏數字資源是圖書館各項服務的基礎,資源涉及領域廣泛、資源數據類型眾多。該資源庫主要涵蓋各大高校、科研院所建設的數據資源庫、特色數據庫,專業機構建設的商業數據資源庫,以及面向大眾的開放公益性數據資源庫等。

3.2 數據資源描述層

數據資源描述層的主要作用是對數字資源庫離散數據、非結構化數據進行數據挖掘和特征提取,辨識出不同數據的本質特征。該層的主要功能是利用關聯數據技術,建立離散數據、非結構化數據本體描述模型,實現對館藏數字資源的語義化描述,在提取數據特征的基礎上形成各數字資源的知識單元,利用該本體模型梳理和定義各個知識單元間的語義關系,最終將數據轉化為RDF格式的元數據。

3.3 數字資源關聯組織層

數字資源關聯組織層是利用關聯數據技術將RDF元數據進行語義關聯,組織成一個統一的整體。該層分為兩個部分:一是知識單元描述部分,即資源描述層形成的RDF元數據的特征概述,建立簡單的關聯關系。二是序化處理及語義化組織部分,即進行數據序化處理,形成語義關聯。數字資源經過數據資源描述層的處理后,形成了語義元數據,知識單元描述是對RDF格式元數據的進一步概述,主要包括關聯內容、關聯特點、關聯度高低等,方便后續開展數字資源語義化組織。語義化組織是數字資源經過知識單元描述后的序化處理過程,數字資源經過語義化組織后,資源屬性特征、關聯關系特征、資源間序化特征等將作為其主要的辨識特征,方便數字資源間的關聯檢索和調用。

3.4 應用服務層

應用服務層是一個數據互動傳輸、數據可視化的服務層,利用HTTP協議為用戶提供所需服務。該層在獲取用戶的檢索需求后,將其轉化為圖書館系統可以識別的指令。當該指令被傳輸至數據資源關聯組織層后,該層根據指令內容要求,在數字資源屬性特征、關聯關系特征、資源間序化特征中進行檢索,同時將符合指令要求的資源信息反饋至數據資源描述層,并從館藏數字資源庫讀取相應資源內容。待符合需求指令的數字資源內容以RDF鏈接形式被反饋至應用服務層后,該層自動將其轉化為用戶可視的文本信息,方便用戶瀏覽、保存、收藏等。

4 基于關聯數據的圖書館館藏數字資源語義化組織案例分析

4.1 元數據構建

BIBFRAME標準的核心為“Work(作品)—Instance(實例)—Item(單件)”,其中作品是實體的抽象定義,實體是作品的表現形式,單件決定了實例的獲取方式。因此,本研究參照BIBFRAME標準構建了地方志的元數據模型,同時結合地方志的相關特征對元數據進行了拓展,見表1。

4.2 知識本體模型設計

本體作為知識的一種抽象模型,本研究在設計地方志知識本體模型時首先對地方志知識進行了抽取,包含人物、時間、地點、年代等;其次借鑒已有相關研究成果,利用本體對地方志知識進行描述,揭示知識間的關系,結合地方志相關規則,在概念、個性和屬性之間建立語義關系,為后續地方志數據關聯、語義化組織提供數據支撐。

4.3 關聯數據與語義化組織

關聯數據技術可以發現地方志的潛在知識,并將其與其他知識集進行關聯,形成可被處理的結構化數據,從而實現地方志的語義化組織。地方志語義化組織流程包含數據清洗、形成RDF數據、語義關聯、數據存儲、數據發布等。首先基于上述地方志知識本體模型對原始地方志數據集進行清洗處理,提取相關實體并賦予統一標識符;其次利用知識本體相關屬性定義實體間的關系,在對象間建立關聯數據網絡,實現數據的序化處理;再次進行數據存儲與發布,方便地方志資源間的關聯檢索和調用。

4.4 知識服務平臺應用

本研究利用關聯技術實現了地方志的語義化組織,并利用開發工具設計了地方志知識服務平臺,為用戶提供地方志檢索、知識關聯可視化、時空展現等服務。例如,用戶點擊時空檢索,選擇不同朝代的地方志,平臺會在地圖中將結果顯示出來,同時提供相關篩選工具,方便用戶查找到其所需的地方志或相關聯的地方志,提高了用戶的檢索效率。

5 基于關聯數據的圖書館館藏數字資源語義化組織系統優勢

5.1 數據關聯性強

利用關聯數據技術建立不同數字資源間的數據關聯,這種關聯不是簡單的詞匯關聯,而是本質特征的關聯?;谔卣麝P聯的數字資源關聯性強,不會因數字資源物理存儲位置、調用方式的改變而改變。同時,這種關聯關系是可持續的,當數字資源內容有所更新,相應的本質特征信息也會隨之更新,新的關聯關系也自然形成。

5.2 資源調用精準,運行效率高

用戶通過圖書館系統平臺檢索信息資源時,檢索指令由平臺服務層傳輸至數字資源語義化組織層,系統依據檢索字段在該層知識單元中檢索,找出符合檢索要求的知識單元,并通過數據資源關聯層有針對性地在館藏數字資源庫中檢索用戶所需的數字資源。在此過程中,數字資源語義化組織層發揮了對檢索指令的解釋及相關知識單元的智能匹配作用,進一步提高系統對用戶需求的認知和理解程度,提升了資源檢索調用的精準性,同時也為用戶節省了大量的檢索時間,提高了系統的實際運行效率。

參考文獻:

[1] 郭建文.城鄉一體化背景下新型公共圖書館總分館服務體系建設分析[J].辦公室業務,2018(15):146-152.

[2] 汪德禹.基于關聯數據的數字圖書館碎片化知識網絡構建研究[J].河南圖書館學刊,2020(11):75-81.

[3] 黃妙瓊.大數據時代高校圖書館特色館藏資源的知識發現[J].黑河學刊,2022(1):101-106.

[4] MEO D,URSINO Q.Exploitation of semantic relationships and hierarchical data structures to support a user in his annotation and browsing activities in folksonomies[J].Information Systems,2009(6):511-535.

[5] 姚荔.后疫情時代公共圖書館館藏資源構建模式變革初探[J].圖書館學刊,2021(12):63-66,77.

[6] 藍艷林.新時代高校檔案館藏資源建設與開發利用研究:以廣西科技師范學院為例[J].蘭臺內外,2022(3):62-65.

[7] 吳亞蕓,戴清杰,劉桂鋒.信息生命周期理論視角下的特色館藏資源實踐與探索[J].新世紀圖書館,2021(2):39-43.

(編校:周雪芹)

猜你喜歡
數字資源圖書館
圖書館
時間重疊的圖書館
圖書館
美術教科書使用應把握的幾個視角
圖書館員新角色
高校數字資源云服務平臺的建設研究
圖書館與出版企業數字資源共享的環境因素分析
去圖書館
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合