?

面向語義出版的圖書館館藏數字資源描述框架研究

2024-03-25 10:22趙萌萌
四川圖書館學報 2024年2期
關鍵詞:本體館藏關聯

收稿日期:2023-04-04

摘? 要:

語義出版作為一項新興技術,對圖書館館藏數字資源建設產生了重要影響。文章利用面向語義出版的數字資源聚合框架對館藏數字資源進行描述,從元數據層、本體層、數據關聯層和應用層設計了面向語義出版的圖書館館藏數字資源描述框架模型,并以專利館藏數字資源為例進行了案例分析,旨在不斷提高圖書館的知識服務水平和能力。

關鍵詞:

語義出版;圖書館;館藏資源;描述框架;數字資源

中圖分類號:G205??? 文獻標識碼:A? ??文章編號:1003-7136(2024)02-0037-05

Research on the Digital Resource Description Framework of Library Collections for Semantic Publishing

ZHAO Mengmeng

Abstract:

Semantic publishing,as a new technology,has had an important impact on the construction of digital resources in library collections.This paper uses the digital resource aggregation framework of semantic publishing to describe the digital resources of library collections,designs the digital resource description framework model of library collections for semantic publishing from the metadata layer,ontology layer,data association layer and application layer,and takes digital resources of patent in library collections as an example to carry out case analysis,aiming to continuously improve the knowledge service level and ability of the library.

Keywords:

semantic publishing;library;collection resource;description framework;digital resource

0? 引言

館藏數字資源種類豐富,結構多樣,包含圖書、期刊、專利、標準等[1],傳統出版模式下的館藏資源已經無法滿足用戶多樣化的知識服務需求,并且對資源的傳播效率和傳播范圍有一定影響。語義出版作為一項新興技術,對圖書館館藏數字資源建設產生重要影響。語義出版通過對出版物進行語義描述,實現語義互操作,建立館藏數字資源間的關聯,使得機器能夠自動提取主題及知識結構,滿足用戶個性化的知識需求。語義出版可以大幅度提高館藏數字資源的利用效率,為用戶語義檢索提供便利。本文將面向語義出版的圖書館館藏數字資源定義為經過一定加工的、有序的數字文獻資源,包含圖書、期刊文獻、專利文獻、百科全書、標準等,然后設計面向語義出版的圖書館館藏數字資源描述框架,最后以專利館藏數字資源為例驗證描述框架模型的合理性,旨在不斷滿足用戶多元化的知識服務需求。

1? 概述

1.1? 相關概念

1.1.1? 語義出版

傳統的出版方式已不能滿足用戶的知識需求,并且會降低資源的傳播效率,因此,Shotton D教授提出了“語義出版”的概念[2]。語義出版是在語義網環境下以語義技術為基礎,結合自然語言處理、本體等技術發展而來的一種新型出版方式[3]。語義出版對論文中的知識單元進行語義層面的標注、關聯,進行知識整合,以達到提高知識利用效率的目的。語義出版具有以下特征:①實現數據結構化??蒲行畔⒅写嬖诤芏喈悩嫸嗄5臄祿?,用戶無法及時準確地獲取相關信息,語義出版可以對這些異構多模數據進行處理,使之成為結構化的數據。②促進數據整合。多源異構多模的數據可以通過建立元數據標準、設計本體庫、進行知識關聯等方式實現數據整合、數據聚合,提高用戶信息檢索效率。③實現內容可視化。語義出版通過語義標簽云等技術為用戶提供可視化的內容表示方式,為用戶閱讀和瀏覽提供便利。④實現數據關聯。語義出版的核心技術是語義技術,通過語義技術建立不同知識單元間的聯系,揭示論文的知識結構,為用戶拓展閱讀和發現隱性知識提供便利。⑤滿足用戶個性化需求。語義出版可以建立用戶個性化需求與知識單元間的聯系,深入挖掘用戶需求,為用戶提供更為適合的信息內容[4]

。目前圖情領域關于語義出版的應用研究主要集中在資源聚合、論文結構分析等方面,例如許鑫等認為語義出版可以實現學術期刊資源的深度聚合,為用戶提供更高效的信息服務[5];曲佳彬等通過揭示論文中的7種論證元素,構建論證結構本體,實現了論文的語義檢索[6]。

1.1.2? 館藏數字資源

隨著信息技術的發展,圖書館很多資源得以數字化,進而出現了“館藏數字資源”的概念。館藏數字資源是指圖書館以數字形式將不同類型、不同學科的資源存儲在非紙質的載體中,并通過計算機等終端顯示的資源[7]。館藏數字資源包含目錄資源、文摘和全文資源、其他資源[8],具有數量巨大、類型多樣、儲存空間小、傳播速度快、更新及時等特征[9]。目前圖情領域關于館藏數字資源的研究主要集中在系統設計、實踐總結等方面,例如趙夕姝基于知識圖譜構建了數字資源管理系統[10];張琳總結了國家圖書館數字資源建設現狀,并展望了未來圖書館館藏建設方向[11]。

1.2? 研究現狀

本文以中國知網為數據源,對面向語義出版的圖書館館藏數字資源描述框架的相關文獻進行檢索,檢索詞為“圖書館”+“資源”+“描述框架”,時間截至2023年2月28日,共檢索到67條結果。通過分析檢索結果發現,目前國內只有少量研究從知識單元的角度對館藏資源進行描述,在語義研究方面稍顯不足,例如劉靜羽等從權益狀況和圖書館業務需求角度出發對館藏數字資源進行描述[12];李玉海等模仿素描繪畫技法,結合本體技術構建了文獻資源描述再造框架[13];錢鵬等利用資源描述框架RDF設計了科學數據描述框架[14]。因此,本文綜合利用元數據、本體技術和數據關聯技術設計館藏數字資源描述框架,以實現出版物間的語義互操作,提高語義檢索效率。

2? 面向語義出版的圖書館館藏數字資源核心描述元素及描述流程

2.1? 核心描述元素

本文結合相關實踐成果,從內容和管理兩個角度歸納出描述館藏數字資源的核心元素:①館藏內容描述信息,即描述館藏文獻本身的信息,包含題名、作者、作者單位、關鍵詞、出版日期等;②館藏管理描述信息,即標識館藏存儲相關的信息,包含文件大小、文件類型、首創時間、管理權限等;③相關資源描述信息,即與館藏相關聯的資源信息,包含同一主題的資源、同一學科的資源等。

2.2? 描述流程

本文從宏觀層面建立面向語義出版的圖書館館藏資源描述框架,目前DBIU層次模型和資源聚合框架是實現語義出版較為常見的方式[15],DBIU層次模型分為數據層、業務層、交互層和用戶層,用戶提出需求后,業務層根據用戶需求進行數據資源聚合,利用語義描述和語義標注技術,深入挖掘文獻間的關聯關系,形成知識網絡[16];資源聚合框架包含元數據、本體、關聯數據等技術,它將多源異構資源轉化為統一格式,利用本體技術對數據進行描述,建立數據間的關聯關系,實現資源聚合,從而滿足數字資源的語義出版要求[17]。本文采用資源聚合框架模型對館藏數字資源進行描述,具體流程如下:

(1)統一資源格式:將館藏數字資源表示為計算機可以識別的載體,并統一數字資源格式;

(2)語義化描述數字資源:利用本體技術進行描述,構建資源間概念及其關系,實現資源的知識表示;

(3)數據關聯:關聯發現不同館藏資源隱含的關系,建立數據間的聯系,對相同實體進行數字資源聚合和關聯;

(4)可視化:利用可視化工具(如圖表等)直觀地展示館藏數字資源中的知識關聯結果,滿足數字資源語義出版的需求。

3? 面向語義出版的圖書館館藏數字資源描述框架模型設計

本文根據描述流程設計了面向語義出版的圖書館館藏數字資源描述框架模型,該模型通過元數據、本體、關聯數據等技術,能夠實現對圖書館館藏數字資源的語義化描述,進行語義標注,揭示資源之間顯性和隱性關系,由此建立多源異構數字資源之間的語義關聯。在此基礎上,通過發布關聯數據,構建知識網絡,使得用戶能夠更便捷地獲取所需知識,促進知識發現,從而實現圖書館館藏數字資源的語義出版。

如圖1所示,該框架模型共包含四部分內容:一是元數據層,該層是基礎層,利用元數據標準統一數字資源格式,對數字資源進行定義;二是本體層,該層的核心任務是利用本體技術對數據進行語義化描述以及語義標注,建立概念與概念間的關系,揭示概念間、類間、屬性間的顯性關系,實現語義互操作;三是數據關聯層,該層的任務是挖掘數據間的深層關系以及隱性關系,實現數據關聯;四是應用層,該層的任務是實現語義檢索和語義出版,為用戶語義檢索和瀏覽提供訪問通道,滿足用戶的知識需求。

3.1? 元數據層

館藏數字資源包含不同類型(如圖書、期刊文獻、專利文獻、標準等)、不同來源(數據庫、網絡資源、公開共享平臺等)的資源,元數據層作為數據描述框架的基礎層,需要設立統一的元數據標準,對資源進行明確定義,方便后續機器對元數據進行理解和處理。目前通用的元數據標準包括DC、FRBR、CDLS、BIBFRAME等,用戶可以根據所需選擇合適的元數據標準,并通過館藏數據資源的關系對元數據進行拓展,為后續本體設計奠定語義基礎。

3.2? 本體層

在設計元數據標準的基礎上,為了實現語義出版,仍需建立某種機制實現語義互操作。因此本體層的核心任務是建立概念間、類間和屬性間的關系。目前主要有兩種方法:一是本體整合,即對不同概念和不同屬性進行整合,采用OWL語言構建集成本體,進行語義轉換,使其成為統一的RDF格式;二是本體映射,即通過本體化描述每個元數據標準,轉換成RDF格式,建立映射關系,從而實現語義互操作。本體映射的基本思路是本體重用,目前成熟的本體映射工具較多,但還沒有一個工具可以實現任意本體的語義互操作[18],每種工具均有使用限定條件,例如基于實例的FCA-Merge、CAIMAN等工具,以及基于規則的SKAT、ONION、D2RQ等工具[19]。

這兩種方法各有優劣,本體整合遇到新的元數據標準時,必須拓展原有元數據本體,使其能夠容納所有的元數據標準,靈活性相對較差,但在語義互操作應用方面更為便利。本體映射在遇到新的元數據標準時,靈活性相對較強,僅需新建新描述的元數據本體與其它元數據本體間的映射關系,即可實現不同元數據本體之間的融合,但語義互操作方面不如本體整合。因此,本文綜合考慮選擇基于DC元數據標準構建館藏資源元數據本體,該本體無需容納所有元數據標準元素。而是可以形式化描述每種元數據標準中共有的核心元素,建立概念與概念間的關系,當出現新的元數據標準時可以動態加入共有核心元素。這樣既可以保證一定的靈活性,又可以使不同的元數據本體之間具有共有核心元素,從而更容易實現語義互操作。

3.3? 數據關聯層

元數據本體更多揭示的是不同實體間的顯性關系,并且僅限于書目元數據,無法與圖書館中不同知識單元的資源(如規范文件等)或外部信息資源相連,也不能揭示數據間的深層次關系以及隱性關系。因此,數據關聯層的核心是將元數據本體進行再組織,建立不同數據源間的隱性關聯。

數據關聯層分為兩部分內容:一是建立數據間的關聯關系,二是對關聯數據進行發布。關于數據關聯方式,在類層面上,可以通過在不同領域本體之間建立鏈接的方式,實現不同數字資源類層面上的語義關聯。在數據層面上,可以將同一類型或相似類型的資源進行關聯,從而將數字資源組成統一整體。為了促進知識關聯,可以采用URI地址命名每種數字資源,利用RDF鏈接到相關資源,以語義方式顯示關系類型(例如作者關系、主題關系等)。不同數據庫間的數據資源關聯可通過URI或自動數據鏈接方式進行鏈接,需要注意的是,在進行數據鏈接前需要確定鏈接對象及其屬性。

關于關聯數據發布,一般采用D2R、SquirrelRDF等模型進行關聯數據發布[20]。以D2R模型為例,該模型適用于將關系數據庫數據轉換成RDF數據,主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語言[21]。D2RQ Mapping語言的功能是對關系型數據轉換成虛擬RDF格式的Mapping規則進行定義。D2RQ Engine的功能是利用可定制的D2RQ Mapping將關系數據庫數據格式轉化為虛擬RDF格式,并將虛擬RDF格式的數據轉化為RDF文件。D2R Server的功能是提供RDF數據的查詢接口,以供瀏覽器調用。

3.4? 應用層

應用層主要是實現語義檢索、瀏覽、語義出版等功能。該層除了提供基于詞的檢索方式外,還可以為用戶提供更為友好的問答搜索,用戶可以借助機器準確表達需求,從而實現語義檢索。此外,利用元數據本體和本體的論證功能之間的映射關系,或者利用術語服務機制中查詢術語的擴展和細化,可以進一步增強檢索的智能性。

4? 案例分析

專利文獻作為一種館藏數字資源,是科技創新的重要成果。因此,本文根據前文設計的描述框架,以專利館藏數字資源為例,構建面向語義出版的專利資源描述框架,以提高專利資源的利用效率。

4.1? 專利本體設計

本文采用七步法設計專利資源本體,具體步驟包括:①明確專利的適用領域和范疇,針對專利類別構建本體;②重用已有本體,針對專利資源特征構建本體;③列舉專利領域重要術語;④建立專利資源的層級關系,構建層級結構;⑤明確類的屬性,描述專利概念框架;⑥界定屬性的不同分面;⑦專利本體驗證及可視化。如圖2所示,專利本體的子類包含專利詳細信息、專利摘要、專利權人和專利信息,同時各個子類下面又包含若干個下級子類。通過專利本體的設計,為后續專利資源描述以及組織奠定基礎。

4.2? 專利本體關系描述框架

針對專利本體,提取本體間關系,構建語義三元組。如圖3所示,專利館藏資源主要抽取專利權人和專利,并將擁有(Has)作為聯結專利權人和專利之間的“關系”。

4.3? 專利數據關聯

雖然本體構建可以實現專利資源語義之間顯性關系的描述,但仍需借助關聯數據技術將專利資源與更多的信息資源聯系起來,建立隱性關系的聯系。

關聯數據通過URI的方式描述并存儲資源,URI既能唯一標識專利資源,又能定位資源位置,實現專利數據關聯。一方面可以通過Web方式獲取已有URI標識的專利資源,另一方面可以通過RDF/XML編碼的數據文件獲取未進行URI標識的專利數字資源。

關聯數據發布借助D2RQ平臺進行專利映射關聯,D2RQ是一種聲明式映射語言,自定義了一套關系數據庫和描述本體文件之間的規則,可建立專利本體和關系型數據庫之間的關系,然后再通過D2R發布關聯數據,提供RDF文件查詢端口,以便瀏覽器進行調用。

4.4? 專利可視化

通過上述步驟后,可以利用知識圖譜等可視化工具將專利資源描述結果展現給用戶。知識圖譜作為一種可視化的知識表示方式,利用“關系”建立實體間的鏈接,形成知識網絡。通過瀏覽知識圖譜(如圖4所示),用戶可以獲取到具有鏈接關系的知識,鏈接的知識包含顯性知識關聯和隱性知識關聯,這有利于用戶獲取深度知識,從而達到資源語義出版以及實現語義檢索的目的。

5? 結語

目前圖書館館藏數字資源描述較少從知識單元的角度進行,缺少語義層面的研究。語義出版作為一項新興技術,對圖書館館藏管理和建設產生了重要影響。因此,本文在解析相關概念及研究現狀的基礎上,從內容和管理兩個層面定義館藏數字資源的核心描述元素,接著利用資源聚合框架設計了面向語義出版的館藏數字資源描述流程,然后構建了面向語義出版的圖書館館藏數字資源描述框架模型。該模型共分為四層:元數據層是基礎層;本體層建立概念間、類間、屬性間的關系,為實現語義互操作奠定基礎;數據關聯層挖掘不同實體間的深層關系和隱性關系,建立數據間的隱性關聯,實現圖書館館藏資源與館外資源的數據關聯;應用層為用戶語義檢索和瀏覽提供路徑,實現語義出版。最后,本文以專利館藏資源為例進行專利資源的描述,通過專利本體設計,搭建專利本體關系描述框架,建立專利數據關聯,實現專利數據可視化。未來,圖書館仍需進一步研究語義技術,深入挖掘館藏數字資源間的隱性聯系,不斷提高圖書館服務的智能化和人性化,為用戶提供更豐富的知識服務。

參考文獻:

[1]魏明坤,滕聞軒,馮昌揚.基于語義關聯的數字圖書館館藏資源聚合研究[J].圖書館理論與實踐,2022(5):85-89.

[2]SHOTTON D.Semantic publishing: the coming revolution in scientific journal publishing[J].Learned publishing,2009,22(2):85-94.

[3]李夢琳.科學論文功能語義標注框架設計與應用實驗[D].武漢:武漢大學,2018.

[4]江燕青.面向語義出版的學術期刊數字資源聚合研究[D].上海:華東師范大學,2016.

[5]許鑫,江燕青,翟姍姍.面向語義出版的學術期刊數字資源聚合研究[J].圖書情報工作,2016,60(17):122-129.

[6]曲佳彬,歐石燕.語義出版驅動的科學論文論證結構語義建模研究[J].現代情報,2021,41(12):48-59.

[7]劉學風.基于數據倉庫的館藏數字資源整合研究[D].天津:天津工業大學,2007.

[8]孟慶宇.基于區塊鏈技術的圖書館館藏數字資源長期安全保存策略研究[J].河南圖書館學刊,2019,39(2):71-73.

[9]支鳳穩,鄭彥寧,杜薇薇.國外館藏數字資源語義化研究現狀分析[J].現代情報,2018,38(12):126-132.

[10]趙夕姝.基于知識圖譜的館藏數字資源管理系統設計研究[J].圖書館研究與工作,2022(10):75-78,95.

[11]張琳.國家圖書館數字資源建設實踐與思考[J].河北科技圖苑,2021,34(3):26-31.

[12]劉靜羽,黃金霞,王昉,等.數字資源權益狀況描述框架研究[J].數字圖書館論壇,2019(9):9-15.

[13]李玉海,田栩冉,王常玨.智慧圖書館的文獻資源描述再造框架[J].文獻與數據學報,2021,3(4):64-72.

[14]錢鵬,鄭建明.基于資源描述框架的圖書館科學數據組織初探[J].情報理論與實踐,2012,35(3):100-102,108.

[15]閆瑩.科研數字化背景下的圖書館語義出版研究[J].圖書館學刊,2018,40(4):30-34.

[16]王曉光,陳孝禹.語義出版:數字時代科學交流系統新模型[J].出版科學,2012,20(4):81-86.

[17]黃崑,王珊珊,耿騫.國外圖像特征研究進展與啟示[J].圖書情報工作,2015,59(8):138-146.

[18]鄭建國.產品分類本體構建、推理及映射研究[D].南京:南京大學,2016.

[19]OTERO-CERDEIRA L,RODRGUEZ-MARTNEZ F J,GMEZ-RODRGUEZ A.Ontology matching: a literature review[J].Expert systems with applications,2015,42(2):949-971.

[20]夏翠娟,劉煒,趙亮,等.關聯數據發布技術及其實現:以Drupal為例[J].中國圖書館學報,2012,38(1):49-57.

[21]曹玉平,龔主杰,陳德容,等.關聯數據技術及其研究現狀[J].圖書館理論與實踐,2014(11):42-45.

作者簡介:

趙萌萌(1981— ),女,大學本科,館員,任職于泰安市圖書館。研究方向:圖書館文獻資源建設、數字圖書館建設等。

猜你喜歡
本體館藏關聯
Abstracts and Key Words
館藏
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
對姜夔自度曲音樂本體的現代解讀
博物館的生存之道:館藏能否變賣?
“一帶一路”遞進,關聯民生更緊
知還印館藏印選——古印篇
奇趣搭配
智趣
《我應該感到自豪才對》的本體性教學內容及啟示
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合