?

基于OWL+SKOS的期刊本體構建與應用*

2019-01-15 11:12羅婷婷李嬌鮮國建趙瑞雪寇遠濤
數字圖書館論壇 2018年12期
關鍵詞:三元組實例本體

羅婷婷 李嬌 鮮國建,2 趙瑞雪,2 寇遠濤,2

(1.中國農業科學院農業信息研究所,北京 100081;2.農業部農業大數據重點實驗室,北京 100081)

期刊資源是各類信息服務機構收藏的重要對象,也是各類知識服務平臺開展服務的重要資源之一[1],期刊資源可以從多方面進行描述,如期刊的品種、卷期、收錄情況、影響因子、歷史沿革、出版地等。如何以這些實體概念為主體和紐帶,更科學智能地實現多源異構期刊資源的廣泛匯聚,知識組織、語義關聯和深度融合,首要任務是將現有的期刊異構元數據集成起來,讓計算機能夠自動識別和處理,必須建立統一標準的概念體系,即本體[2]。所謂本體,1998年Studer將其定義為“共享概念模型的明確的形式化規范說明”。通過規范的期刊本體構建,可以將多源異構、動態的期刊信息資源進行形式化規范說明,使信息資源的語義“顯性”化,從而有助于改善期刊描述信息的可擴展性,并促進信息的智能處理[3]。

基于以上思考,本文在繼承復用國際標準和內容的基礎上,基于本體編輯工具Protégé,結合使用本體建模語言(OWL)和簡單知識組織系統(SKOS)來描述期刊本體框架模型和實例,并基于語義中間件Jena和WebVOWL等進行各類實例的形式化描述、RDF三元組轉換和可視化呈現,并對后續應用作了展望。

1 相關現狀

目前,國內外對本體的研究項目很多,本體已經在人工智能、知識工程、圖書情報等領域得到廣泛應用,研究成果十分豐富,并在開放關聯數據項目影響下積累了大量高質量知識庫,如Zhishi.me、Freebase、DBPedia、Yago等[4]。其中,Zhishi.me是第一個大規模中文開放關聯數據集,擁有9個自定義本體概念,截至2015年11月24日,已經擁有上億個實體;Freebase是一種遵循知識共享協議的大規模開放結構化數據集,目前含有1 200萬個實體,每個實體賦予了能夠唯一標識的ID標記;DBPedia涵蓋很多領域,是世界上較大的多領域知識本體之一,能自動隨維基百科的變化而發展,多語種,包含685個概念,擁有400萬個實體;Yago是覆蓋面較全、數據質量較高的大規模語義知識庫,目前含有1 700萬個實體和1 500萬個事實[5]。

國內外有關期刊本體的構建研究已有所涉及,目前國際上非常成熟的常用詞表有DCMI(都柏林核心元數據集)[6]、BIBO(書目本體)[7]、FOAF[8]、Nature Ontologies[9]等。其中,由Springer Nature出版集團構建的語義發布模型[10],它具有核心模型-領域模型-實例數據集三層架構,支持Nature出版平臺大規模數據的組織、關聯與交互,簡潔實用,邏輯清晰。但Nature本體以實用為本,核心類數量不多,注重類目的有用性,而不強調全面性[11]。2018年1月,ISSN國際中心推出新門戶——The ISSN Portal[12],為每個用戶提供免費入口來獲取更精準的連續出版物信息,主要包括ISSN、ISSN-L、標題、關鍵標題、出版國、媒體和URL,已注冊200萬ISSN,每年新增6萬~7萬ISSN,同時ISSN數據支持多格式下載,如MARC 21、MARCXML、RDF/XML、RDF turtle、JSON等。國內相關信息機構針對特定應用目的建立了內部使用的期刊規范庫(如中文名稱規范聯合數據庫和國家圖書館規范名稱數據庫),其主要針對個人名稱、團體名稱及會議名稱等進行規范,基本不涉及期刊規范。在期刊規范方面,中國科學技術信息研究所面向知識評價建立了期刊規范名稱數據庫;中國醫學科學院醫學信息研究所構建了期刊規范文檔[13],主要針對期刊沿革情況進行規范。

總體來說,當前關于期刊本體的研究翔實程度和表現形式不統一,未能從期刊影響因子、收錄情況、沿革情況等多個方面對期刊進行描述,缺乏較系統全面的便于計算機理解處理的形式化描述。隨著本體構建技術的日益成熟及各類官方權威數據庫的相繼開放,期刊本體的構建條件已相對成熟,形成全面的期刊本體系統必將具有廣闊的應用前景。

2 期刊本體構建

2.1 總體建設思路

面向以期刊的品種、卷期、收錄信息、影響因子、沿革情況等有關期刊的概念實體為中心開展多源異構數據資源匯聚、關聯和融合的實際需求,在參考和繼承復用國際標準和內容基礎上,綜合應用Protégé[14]工具、OWL和SKOS建模語言、Jena和WebVOWL等語義中間件,開展期刊本體建模、實例轉換和可視化呈現,建立計算機可理解和可計算的期刊本體模型與實例庫,為該本體開放、共享和互操作等應用場景提供支撐(見圖1)。

圖1 期刊本體建設思路

2.2 基礎語料資源

在構建期刊本體概念體系過程中,為保證數據的規范性、系統性及權威性,為下一步互聯互通奠定基礎,部分繼承復用了國際上現有通用的本體模型或描述規范,主要包括BIBO、FOAF、Nature Ontologies、DCMI。在搜集整理與期刊相關的實體對象信息時,通過網絡及人工采集、加工、整理等多種途徑,搜集國家農業圖書館、國家科技圖書文獻中心關于農業及相關領域的1.5萬余種中外文期刊數據。其中中文期刊2 500多種、外文期刊1.25萬余種,主要包括品種、卷期、收錄情況、影響因子、歷史沿革等信息,為下一步本體建模和實例轉換奠定基礎語料資源。

2.3 本體構建流程

目前常用的本體構建工具主要分為可視化手工構建工具和半自動化構建工具兩類。根據實際的使用比較,可視化本體構建工具Protégé基本功能相對齊備,具體功能模塊劃分清晰,提供本體概念類、關系、屬性及實例的創建,只需用戶在概念層次創建領域本體模型,支持多種本體描述格式文本導出[15],因此筆者選擇該工具來建立期刊本體模型,并采用OWL和SKOS描述與存儲期刊實體。在期刊本體構建過程中引用其他本體中的概念,表1列出了相應的命名空間和前綴。

通過深入分析期刊資源的核心元數據項,本著盡可能全方位揭示期刊資源,使期刊本體更好地應用于期刊評價、論文質量排序、知識關聯等應用場景,共設計與創建了8個核心類、15個對象屬性和33個數據屬性。下文重點闡述期刊本體中核心類、對象屬性和數據屬性的設計與創建,以及本體實例轉換和可視化呈現等過程。

表1 期刊本體引用表

2.3.1 核心類定義

期刊本體共定義了8個一級核心類,包括期刊品種(Journal)、期刊卷期(Issue)、影響因子(ImpactFactor)、收錄情況(Holding)、出版地(PublicationPlace)、封面(img)、機構(Organization)、論文(Article)。其中,機構(Organization)類又分加工單位(ProcessingUnit)、出版商(Publisher)和主辦單位(Sponsor)3個子類,Journal、Issue、Publisher繼承復用了Nature本體,img繼承復用了FOAF本體,還直接繼承和復用了SKOS本體模型中的概念體系(ConceptScheme)、概念(Concept)等類及相關屬性。若需要增加語義和邏輯嚴謹性,可綜合應用等價于(Equivalent To)、子類(SubClass Of)和不相交(Disjoint With)等進一步約束限定類間關系(見圖2)。

2.3.2 屬性創建與描述

通過部分繼承Nature本體模型,復用并自定義了15個一級核心對象屬性,主要包括擁有影響因子(has Impact Factor)、擁有卷期(has Issue)、收錄(hold)、期刊沿革(periodicals Evolution)、出版商(has Publisher)、網址(webpage)、出版地(is Published In)等(見圖3)。其中4個對象屬性復用了Nature本體,主要包括has Publisher屬性描述期刊與出版商之間的關系,webpage屬性描述與期刊相關的網址信息,has Image屬性描述期刊與封面、圖片之間的關系,has Issue屬性描述期刊卷期;11個對象屬性為自定義,主要包括has Impact Factor屬性描述期刊的影響因子等相關信息,hold屬性描述期刊被收錄的情況,has Sponsor屬性描述期刊主辦單位的相關信息,has Issue屬性描述期刊品種與卷期之間的從屬關系,is Published In屬性描述期刊出版地信息,periodicals Evolution屬性描述期刊歷史沿革信息等。此外,在期刊沿革(periodicals Evolution)下還自定義了17個子對象屬性來描述期刊之間的沿革關系,主要包括繼承(inherit)、部分繼承(partly Inherit)、吸收(absorb)、部分吸收(partly Absorb)、合并(merge)等。

圖2 期刊本體核心類定義

圖3 期刊本體對象屬性定義

數據屬性用于描述類基本信息,取值為XML Schema數據類型值或者RDF Literal,期刊本體中定義了ISSN、EISSN、主題分類(dc:subject)、語種(dc:language)、收錄來源(holdingSource)、收錄版本(holdingVersion)、收錄結束年份(holdingYearEnd)、收錄開始年份(holding YearStart)、影響因子年份(impactorYear)、影響因子來源(impactorSource)、期刊影響因子(journal ImpactFactor)、出版年(publicationYear)、出版起始年(publicationStartYear)、出版結束年(publication EndYear)、出版頻率(publishingFrequency)等33個數據屬性。其中,ISSN、EISSN等復用了Nature本體,主題分類(dc:subject)、語種(dc:language)復用了DCMI描述規范,收錄來源(holdingSource)、收錄版本(holdingVersion)、收錄結束年份(holding YearEnd)等為自定義的數據屬性。為增強語義和邏輯嚴謹性,還可對這兩類屬性值域和定義域的取值作更詳盡的約束限定(見圖4)。

2.3.3 實例創建與轉換

本體實例創建與轉換是指根據類和屬性的約束給本體添加實例,實現屬性與資源的關聯創建。盡管Protégé工具支持對象類實例的創建,但經前面基礎語料資源的搜集整理后,形成的基礎數據庫體量大,人工逐條逐項錄入效率太低。為此,基于Jena語義中間件、繼承引用現有本體和本文定義的類、實例及屬性進行二次開發,對Protégé生成的OWL文件進行讀取和分析,研制期刊本體實例批量轉換為RDF三元組工具。

該工具可基于Jena實現RDF/XML、Turtle、N-Triples和JSON-LD等多種格式輸出。目前已應用該工具實現1.5萬余種期刊實例及關系的轉換,創建了近66萬個RDF三元組。以期刊“Virus Research:An International Journal of Molecular and Cellular Virology”為例,轉化后對應的部分三元組片斷如圖5所示。

圖5 部分三元組片斷截圖

在轉換過程中,采用了OWL和SKOS相結合的方式。如描述期刊“Virus Research:An International Journal of Molecular and Cellular Virology”實例時,遵循建立穩定、可訪問、可解析的唯一標識符Http URI(Cool URI)[16]原則,分配了HttpURI唯一標識“http://linked.aginfra.cn/journals/DBC7AA0D-0C36-4FFF-9DAF-80629F3F31FF”,描述所屬類型時,除指定Journals類(http://linked.aginfra.cn/journals)外,還指定其屬于skos:Concept,申明其也屬于SKOS的一個概念。

在描述期刊中英文等語種名稱和其他各類縮寫時,也應用了skos:prefLabel和skos:altLabel標簽及語種來描述,并通過對象屬性skos:inScheme屬性將該實例歸在期刊本體體系內(http://linked.aginfra.cn/journals)。通過對象屬性“aii_journal:holdedBy”和“aii_journal:ImpactFactor”描述期刊收錄情況及影響因子等信息(見圖6),收錄情況HttpURI類似為“http://linked.aginfra.cn/journalholding/SCIE_1999_1999”,該規則表示期刊在起始與結束年份均為1999年且被SCI收錄;影響因子HttpURI類似為“http://linked.aginfra.cn/journalimpactfactor/sci_2003_1.719”,表示SCI收錄期刊2003年影響因子為1.719。此外,還應用owl:same屬性通過ISSN號與ISSN Portal建立關聯。經過這樣規范和明確的定義,將有助于計算機理解和智能處理有關期刊等實體對象的信息,也將為語義推理和知識計算等奠定基礎。

圖6 收錄情況和期刊影響因子的實例片段截圖

2.3.4 本體存儲

期刊本體及實例均可轉化為XML/RDF三元組,采用Virtuoso來存儲RDF三元組,其最重要的特征是可以作為一個圖數據庫支持SPARQL查詢,在Virtuoso的強大支持下,我們可以高效、方便地設計和實現應用場景。

3 應用實踐

經上述研究,初步構建了以期刊這一實體對象為中心的OWL及SKOS本體模型和RDF三元組實例庫,本質上已成為一個國內外學術期刊的關聯數據集。語義網絡環境下,數據之間關聯越多,數據越有價值。為此,本文研究構建的期刊本體可作為關聯數據網絡中的基礎知識中間件,作為互聯互通描述期刊、影響因子、收錄情況等各類數據資源的聯接點和樞紐。具體應用場景包括但不限于下列類。

(1)本體可視化。本體可視化是指以一種直觀的圖形化方式展示本體,自動、動態地顯示本體內概念間關系。除Protégé自帶插件OWLViz可實現本體模型結構層次圖形化顯示外,本文應用WebVOWL[6]進行可視化試驗。WebVOWL是一個本體可視化交互的Web應用程序,并結合力導向布局圖表示本體結構。在將WebVOWL本地化部署基礎上,通過其提供的owl2vowl.jar轉換包將實例轉為符合要求的json格式文件,并上傳后可實現可視化展示。

(2)期刊實例參引解析。在語義數據網絡環境下,本研究基于ngix反向代理機制與技術和virtuoso的SPARQL查詢接口對接,針對期刊實體提供了一套計算機能自動理解與計算的形式化描述、解析和互操作機制,支持以HttpURI解析獲取數據網絡中與該期刊實例有關的所有RDF三元組,如通過“http://linked.aginfra.cn/journals/EE2BB1E3-B120-46DC-8054-4E3B3E90272B”可獲取期刊的影響因子、收錄情況、出版情況等多方面一體化描述信息(HTML頁面見圖7),也可返回json或xml等格式以便在第三方系統進行集成和互操作。

圖7 期刊實例參引解析示例圖

(3)SPARQL終端查詢。構建遵循SPARQL1.1協議的查詢終端接口,支持用戶或第三方系統通過SPARQL語言查詢有關期刊及各類關聯關系信息,如SPARQL查詢語句可查詢2017年SCI收錄且影響因子等于2.0的期刊HttpURI、期刊名稱、影響因子等信息。

(4)期刊概念實體標引與智能檢索。類似SKOS描述敘詞表及詞間關系機制,可基于期刊實例不同語種的skos:prefLabel和skos:altLabel文本描述,進行各類資源中有關期刊對象實體的概念標引,標引結果是將期刊正式名稱或可解析的HttpURI標識符植入各類資源,也可在檢索期刊時進行中英雙語和各類名稱自動語義擴展檢索。

4 結語

本文研究了現有的一些關于期刊本體的系統和標準,較全面地搜集整理了期刊母體各方面的數據信息,構建了一個基于OWL和SKOS的計算機可理解、可計算的期刊本體。構建的本體和個體可以作為一個以期刊概念為中心的知識中間件,如可視化、HTTP URI解析和SPARQL查詢,以及支持以期刊為中心的實體的集成、關聯和融合。

未來的工作主要關注本體的改進,如將期刊本體中出版商等作為對象進行描述,使得本體模型具有較好的完備性、表達性和合理性。在本體實例轉換過程中,本文完成了期刊影響因子、收錄情況、期刊別名的實例轉換,還未完成期刊沿革的實例轉換,這些均在下一步工作中進行改進和完善。此外,將繼續開拓新的應用場景。①開放鏈接數據集。為使本體在更廣的范圍內得到應用,并實現更高的應用價值,我們根據鏈接數據發布的原理,在LOD云上發布上層本體和RDF實例庫,便于在更大范圍內進行開放,以被發現和關聯應用。②語義推理和知識計算??梢曰趯ο髮傩裕ㄈ鏷old、periodicals Evolution、has ImpactFactor等)對收錄類別、沿革情況、影響因子等進行推理、推薦和計算。在檢索過程中實現智能檢索和語義擴展,為用戶提供期刊相關信息查詢和交互服務。

猜你喜歡
三元組實例本體
特征標三元組的本原誘導子
眼睛是“本體”
關于余撓三元組的periodic-模
一個時態RDF存儲系統的設計與實現
基于本體的機械產品工藝知識表示
完形填空Ⅱ
完形填空Ⅰ
三元組輻射場的建模與仿真
專題
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合