?

語義出版及其應用現狀研究

2021-07-19 00:45毛競永
理論與創新 2021年6期
關鍵詞:數字資源數字圖書館

毛競永

【摘? 要】語義出版是建立在資源深度揭示與高度集成基礎之上的,作為數字出版的高級形態,語義出版的深入研究與探索不僅為豐富數字圖書館資源集成提供了合理導向與明確目標,更為數字圖書館將資源組織單位由出版單元或文獻細化到揭示資源“微內容”特性的知識單元提供了可能。本文對語義出版模型與及其構建工具、語義出版關鍵技術、語義出版實踐進行全面分析,旨在揭示語義出版在數字圖書館資源組織中的重要作用。

【關鍵詞】語義出版;數字圖書館;數字資源;關聯數據

引言

語義出版在語義網的基礎上發展而來,是數字出版的高級階段,語義出版的正式概念源自于David Shotton在2009年發表的《Semantic Publishing:the coming revolution in scientific journal publishing》一文,即,語義出版能增強已發表論文的含義,促進論文能自動化獲取,能鏈接到與其語義相關的文章,并提供多種獲取文章內數據的訪問途徑,使得論文之間的數據整合變得更加容易。

經過十年的發展,語義出版的對象已由狹義的學術期刊論文發展到圖書、學位論文等形式文獻型學術資源,其概念被不斷的豐富和充實,王曉光等人認為語義出版是基于語義技術及其相關信息技術,通過語義標記豐富期刊文章的表現形式和顯性內容,提高文章信息的可操作性和交互性,增強文章關聯度,從而改進出版流程,進而實現智能化出版的方式。程維紅等人認為語義出版是通過語義標記豐富期刊文章表現形式,提高文章信息可操作性和交互性、增強文章關聯度、改進出版流程的智能化出版方式。汪慶等人認為,語義出版可以定義為任何能夠增強期刊文章語義的出版形式,具有語義化、結構化和關聯化的特征,能夠實現機器自動處理、識別、集成與整合信息的目的。彭?,B等人則提出語義出版是通過揭示每篇論文中的知識單元及其語義類型和語義關系,并且與其他論文、期刊和知識資源中的知識單元進行關聯,支持基于動態關聯的知識發現。許鑫等人認為,語義出版是一種語義增強的出版形式,通過對文章內容和形式進行語義標記,增強內容之間的關聯,提高科研人員的檢索和獲取效率,實現智能化出版。

1.語義出版模型與及其構建工具研究

隨著語義出版概念的不斷豐富,相關的語義出版模型與構建工具也有了一定的成果。其中,語義出版建模的基本思路將出版物內容結構化和語義化,主要覆蓋了出版物的內容要素、結構要素、出版全流程三個層面。

出版關鍵內容建模主要是對論文關鍵知識進行語義標注,促進計算機對論文關鍵貢獻的自動識別。如國際概念網絡聯盟)提出的納米出版物,由聲明、出處和出版物信息組成來表示可出版信息最小單元。其中,聲明使用主-謂-賓結構表達的思想最小單元;出處用于描述如何得到此聲明的情景信息,包括方法和歸屬元數據;出版物信息將前兩者作為一個整體進行表達。

對出版物結構建模主要是對文檔的構成要素進行結構化組織,對象和關系的語義構建。A.Bardi等人提出的增強型出版物元數據模型,描述了出版物的結構和語義特征。該模型包括六部分:文檔構成、嵌入部分、參考與引用、可執行和可生成,并對各部分進行了對象和關系的RDF描述和序列化。J.Kircz提出的模塊化模型中,模塊被定義為具有獨一無二特性、自含概念表示的信息單元,將論文看成是整合了數據集、圖像、音頻、視頻等模塊的對象。另外,為便于交流,模塊被連接成固定單元。

對出版物全流程建模主要是對出版全流程(包括文檔信息和出版信息)的描述,支持全工作流的交互和共享。王文清等人報道的出版物內容資源本體模型定義了多個類、屬性和約束,可對多種出版物數字資源進行統一建模和描述。此外,PUBO采用了OWL描述邏輯,可自動驗證模型的邏輯完整性,實現了資源統一管理、互相關聯與多系統復用。Hunter提出新信息格式的科學出版包,可用于封裝原始數據、來源產品、算法、軟件、文本、相關上下文環境以及元數據,從而滿足科學家對科學結果的操作需求。

在論文編輯工具方面,典型的有BioLit項目和SCOPE項目。BioLit項目中可使用基于XML的寫作工具,利用美國醫學圖書館的文檔類型定義存儲標準化且機器可讀的出版物,該工具為開放文獻和生物學數據的集成提供方便,使用PLoS和Protein Data Bank(PDB)的全部語料做測試。

2.關鍵技術研究

XML。全稱為可擴展標記語言,是根據萬維網本身的特點從SGML所衍生出來的簡化格式。XML的設計目標是提出一種非常簡單的標記語言,并盡可能地減少抽象概念。XML提供了一個標準,使得開發人員可以根據實際需要定義自己的新的置標語言,并可為這個置標語言規定它特有的一套標記。與HTML相比,XML最大的優點是它不是固定的標記,而是允許開發人員根據它所提供的規則,定義數量不限的標識和屬性來描述文檔中的資料,允許嵌套的結構描述。

RDF。全稱為資源描述框架,其目的主要是提供一種通用的元數據結構以滿足所有領域的使用要求使應用程序之間能夠在Web上交換元數據,以促進網絡資源的自動化處理。RDF的基本資料模型包括了三個對象類型:①資源。所有以RDF表示法來描述的東西都叫做資源,使用統一資源標識來命名,它可以是一個網站,可以是一個網頁,可以只是網頁中的某個部分,甚至是不存在于網絡的東西,如紙本文獻、器物、人等。②屬性。屬性是用來描述資源的特定特征或關系,每一個屬性都有特定的意義,用來定義它的屬性值和它所描述的資源形態,以及和其它屬性的關系。RDF的在概念上和傳統的屬性是相同的。③陳述。特定的資源以一個被命名的屬性與相應的屬性值來描述,稱為一個RDF陳述,其中資源是主詞,屬性是述詞,屬性值則是受詞,陳述的受詞除了可能是一個字符串,也可能是其它的資料形態或是一個資源。

關聯數據。是W3C建議的用來發布和聯接各類資源的一種規范,簡單地說,關聯數據就是一些RDF格式的數據,使用三元組(主體,謂詞,客體)來表示資源,它希望用一種通用的機制將網絡中的數據進行發布,使任何人和機器都內讀取和復用萬維網上的數據。語義萬維網將資源定義為“任何有URI標識的東西”,分為信息資源和非信息資源兩類,信息資源用以表達任何信息,通常以某種編碼的文件形式而存在;非信息資源用以指代大千世界中的各類實體對象,可以是自然界、人類社會以及人類意識所創造的精神世界的所有對象。

本體。本體(ontology)是實體和關系之間的一種形式化表達,起源于哲學領域,后引入進計算機領域,本體制定了一種規范,可以在語義和知識層次上描述知識,具有結構化的特點。本體以樹狀結構存儲,相鄰層次的節點之間有嚴格的包含關系。本體包含四層含義:概念模型、明確、形式化和共享。具有良好的概念層次結構和對邏輯推理的支持,可以通過層次網絡圖來表示,圖中的每個節點對應一個概念,節點之間通過有向邊來連接,表示概念與概念之間的關聯關系。

3.實踐研究

目前,出版機構、信息服務商、圖書館等建設主體正積極開展語義出版實踐,如RSC、Elsevier和BBC等。

RSC。RSC是全球知名的化學科學出版社之一,目前已出版44個同行評議期刊,提供一系列在線數據庫和文獻更新服務,是語義出版領域的重要范例。2007年,RSC提出“Science Come Alive”并進行積極探索,設立的RSC Prospect項目旨在通過語義增強實現期刊文章的機器可讀,豐富RSC期刊在線出版的功能。RSC語義出版模式的關鍵是利用本體和唯一的化合物標識符,使文章可被計算機識別。RSC的技術編輯在文章中標識出化合物、概念和數據,將其鏈接至相關的學術環境,極大增強了RSC文章對學科知識的揭示和關聯能力。

RSC語義出版的核心要素包括:①關聯化學學術環境。為更好地實現化學學科相關內容和數據的讀取、對比,RSC將本體與自建的基于Web的化學結構數據庫關聯,形成RSC語義出版自有的基礎信息系統。②結構化描述與標記?;玖鞒贪╔ML預處理、XML編輯與修正、結合語境和主題領域對應的XML標注。③嵌入式HTML的呈現。RSC語義出版的學術期刊以RichHTML形式發布,且標記為RichHTML的文章可實現全文嵌入式HTML標記,并以不同顏色突出顯示定義的詞匯,實現語義分類。

Elsevier。是全球領先的多媒體出版集團和科學、技術、醫學信息產品和服務提供商,其在語義出版方面進行了積極的嘗試與探索,也取得了一定的成果,典型的有Article of the Future項目、ClinicalKey平臺等。Elsevier的語義出版路線圖闡釋了語義出版的最終目標是使期刊論文變為富含語義知識的智能內容。

英國廣播公司(BBC)。2010年世界杯網站是BBC動態出版的首次成功應用,如今,BBC已將動態語義出版由體育領域擴展到新聞、教育等多個領域。BBC動態領域出版模式是按需重組的機制,即根據應用層用戶動態查詢的檢索詞,通過服務層獲取語義相關的內容。該模式分為了數據層、服務層和應用層。其中,數據層負責文字、圖片、視頻等多媒體類型資源的管理,利用自然語言處理技術對內容進行基于領域本體的命名實體識別(實體抽?。?,并將識別結果以元數據的形式存儲在RDF三元組中;服務層負責對應用層的請求響應以及對數據層的內容調用,是動態語義出版實現按需重組的核心,主要利用關聯數據等對調用的內容進行語義增強,豐富用戶的檢索結果;應用層負責按需重組在內容上有語義關聯的不同資源并將其以一定的方式呈現給用戶。

4.結束語

國外的出版組織和圖書館對語義出版高度關注相比,我國的研究明顯滯后。從廣度上看,只有中國知網、萬方等少數學術數據庫服務商和出版機構開展過語義技術的應用;從深度上看,當前研究多集中在語義出版的概念、形式、特征以及國外相關項目的介紹和分析上,理論探討較多,應用研究較少?!靶枨鬀Q定服務,服務選擇資源”,語義出版作為一種創新服務模式,對館藏資源組織與利用提出了更高要求,是信息服務產業鏈中至關重要的環節之一。

參考文獻

[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009(22):85-94.

[2]王曉光,陳孝禹.語義出版:數字時代科學交流系統新模型[J].出版科學,2012,20(04):81-86.

[3]程維紅,任勝利,沈錫賓,方梅,王應寬.中國科協科技期刊數字出版及傳播力建設[J].中國科技期刊研究,2014,25(03):340-345.

[4]汪慶,任慧玲.新技術環境下STM出版發展趨勢探析[J].科技與出版,2014(09):123-127.

[5]彭?,B,張曉林.國際學術期刊的數字化發展趨勢[J].中國科技期刊研究,2013,24(06):1033-1038.

[6]許鑫,毛璐,江燕青.基于數字資源聚合的學術期刊語義出版研究[J].數字圖書館論壇,2019(07):2-8.

[7]Nanopub.org.What is a Nanopublication[EB/OL].[2019-12-24].http://nanopub.org/wordpress/?page_id=65.

Marcondes C H.A semantic model for scholarly electronic publishing[EB/OL][2020-10-24].http://www.ceur -ws.org/Vol-721/paper-06.pdf.

[8]Bardi A, Manghi P.Enhanced publications:data models and information systems[J].Liberquarterly,2014, 23(4):240-273.

[9]Kircz J G.Modularity:The Next Form of Scientific Information Presentation?[J].Journal of Documentation, 1998,54(2):210-235.

[10]Kircz J G.New Practices for Electronic Publishing 2:New Forms of the Scientific Paper [J].Learned Publishing,2002,15(1):27-32.

[11]王文清,劉春彤,張月祥,陳凌.PUBO:面向出版的數字資源本體建模[J].大學圖書館學報,2015,33(03):88-95.

[12]Hunter J. Scientific Publication Packages-A Selective Approach to the Communication and Archival of Scientific Output[J].Journal of Digital Curation,2006,1(1):3-16.

[13]Fink J L, Bourne P E. Reinventing Scholarly Communication for the Electronic Age [J].CTWatch Quarterly, 2007,3(3):26-31.

[14]Enhanced Publications[EB/OL].[2019-12-24].http://www.doc88.com/p-873117284280.html.

[15]翁彥琴,李苑,彭?,B.英國皇家化學會(RSC)——科技期刊語義出版模式的研究[J].中國科技期刊研究,2013,24(5):825-829.

[16]王莉莉,欒冠楠.英國廣播公司(BBC)動態語義出版模式研究[J].圖書情報工作,2017,61(08):126-132.

猜你喜歡
數字資源數字圖書館
美術教科書使用應把握的幾個視角
高校圖書館的未來發展模式芻議
淺析“互聯網+”時代的圖書館管理
圖書館員新角色
基于云計算的數字圖書館建設與服務模式研究
高校數字資源云服務平臺的建設研究
芻議數字圖書館計算機網絡的安全技術及其防護策略
圖書館與出版企業數字資源共享的環境因素分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合