?

面向簡單知識組織系統的術語注冊管理平臺構建研究*

2016-09-22 08:10賈君枝薛秋紅山西大學經濟與管理學院太原030006
數字圖書館論壇 2016年2期
關鍵詞:詞表術語概念

賈君枝,薛秋紅(山西大學經濟與管理學院,太原 030006)

面向簡單知識組織系統的術語注冊管理平臺構建研究*

賈君枝,薛秋紅
(山西大學經濟與管理學院,太原 030006)

SKOS為知識組織系統提供了表達詞表基本結構和內容的通用模型,為實現數據關聯化奠定基礎。但是詞表以SKOS描述后還需要對其進行集中存儲和管理,促進詞表的發現、重用、管理、標準化和互操作。目前國外術語注冊管理系統的技術已經非常成熟,而我國尚缺乏比較成熟的受控詞表注冊平臺。文章對詞表注冊過程進行分析,結合我國GB/T18391.4—2009/ISO/IEC 11179-4:2004元數據注冊標準,構建了詞表注冊管理平臺的系統架構,設計跨職能的詞表注冊業務流程并分析詞表狀態變化,最后概括出術語注冊管理平臺所需的五個基本功能,并對其實現可利用的關鍵工具進行說明。

SKOS;術語注冊;管理平臺

1 引言

簡單知識組織系統(Simple Knowledge Organization System,SKOS)的出現為知識組織系統(包括敘詞表、分類表、標題表、術語表、大眾分類表和其他類似的受控詞表等)提供了表達詞表的基本結構和內容的通用模型[1]。其將詞表的概念、概念之間的關系和知識結構進行語義化描述,采用機器可理解的方式表達出來,以實現數據關聯化,形成龐大的關聯數據網絡,擴展詞表在其他領域的可用性,提高數據的重用性和互操作性。目前使用SKOS模型的數據集已經超過39種[2],如農業敘詞表、杜威十進制分類法、美國國會圖書館標題表等多種受控詞表。但是,詞表以SKOS編碼方式描述后還需要對其注冊,旨在對受控詞表進行集中存儲和控制,實現詞表的更新管理,促進受控詞表的發現、重用、管理、標準化和互操作,以更好地提供詞表服務[3]。目前具有代表性的術語注冊的系統有聯合國糧農組織FAO[4]的VEST Registry和Voc Bench、開放元數據注冊(Open Metadata Registry,OMR)[5]等。國內學者歐石燕對國外主流的詞表注冊系統展開詳細討論后認為受控詞表注冊系統中功能較為強大的是OMR[6],不僅提供詞表的注冊、上傳、編輯、維護,還支持詞表校驗、格式轉換的功能,在OMR上注冊的受控詞表和數據集已經有385個,注冊組織和個人達到156個[7]。目前國外術語注冊系統的技術已經非常成熟,而我國尚缺乏比較成熟的受控詞表注冊平臺。

基于以上分析,本文將在對國外OMR系統注冊過程以及系統提供的功能詳細分析的基礎上,結合我國GB/T 18391.4—2009/ISO/IEC 11179-4:2004[8]標準,構建詞表注冊平臺的系統架構,設計多職能的詞表注冊業務流程圖,分析詞表記錄項的狀態變化,最后對注冊平臺構建的相關功能和關鍵技術進行研究,以期推動我國詞表注冊平臺的開發進程。

2 詞表內容注冊流程分析

詞表注冊不僅有術語注冊,還有術語服務。術語服務是在術語注冊的基礎上提供的各類受控詞表的成員術語、概念和關系的Web服務,兩者相輔相成,術語注冊是術語服務的前提和保障。

現將詞表注冊流程分為六步,先進行詞表的機構注冊,再對詞表的元數據及其內容進行注冊,如圖1所示。

圖1 詞表內容注冊流程

(1)注冊詞表的維護機構/所有者

需要填寫詞表所屬機構的基本信息,比如機構名、國際代碼分配符、組織標識符、文檔語言、國家、通信地址、電話、E-mail、網址等機構屬性與聯系方式。

(2)注冊詞表元數據

詞表元數據即詞表的基本信息,包括詞表所屬機構、詞表名稱、詞表URL、詞表說明、詞表開發團體、詞表狀態、基礎定義域、令牌。其中詞表URL即詞表的地址,該URL可以將整個詞表加載進來;詞匯表的基礎定義域為詞匯表及其術語的腳本URIs;令牌即詞表的一個獨特的表示,可以用作RDF容器類;如某詞表的URL:http://cct.nlc.gov.cn/Classfication,基礎定義域為http://cct.nlc.gov.cn,令牌為Classification。

(3)注冊詞表的頂級模式

記錄詞表整體的通用屬性,以便于對詞表進行參考引用。包含以下信息:詞表的標簽,作為詞表的全名,將會應用在詞表列表中;命名空間的名稱,用來區分具體的模式;命名空間URI,等同于詞表的基礎定義域+令牌;說明文檔URL,如果該模式有附注的說明文檔,可以通過此URL添加進來;說明文檔注釋,指對說明文檔的解釋;語言,標簽名稱、命名空間等使用的語言。

(4)注冊詞表的概念體系

SKOS表示的受控詞表中,定義了概念體系、概念集合、頂層概念及概念,分別用skos:ConceptScheme/ skos:inScheme、skos:Collection(人名表、地名表)、skos:hasTopConcept、skos:Concept表示。此步驟需要明確所使用的SKOS概念詞匯,并添加所選詞表的概念體系,需確定概念體系對應的URI,該概念是否是頂級概念或者在哪個頂級概念之下、概念術語的狀態(未完成/發布等)、發布的語言等。

(5)注冊屬性

受控詞表中,詞間的語義關系表示概念間的屬性關系,通常采用SKOS詞匯skos:prefLabel/skos:altLabel、skos:borader/skos:narrower、skos:related表示等同、等級及相關關系。另外概念的注釋、標記符號分別用skos:definition、skos:example、skos:historyNote、skos:notation表示。需要將SKOS詞匯注冊到平臺的屬性中,提交內容包含屬性的標簽(人類可讀的屬性名稱)、SKOS詞匯(計算機可讀的SKOS元素)、URI、與此屬性相關描述。

(6)將屬性值添加到屬性中

選擇概念對象,為此概念添加已經注冊好的SKOS屬性,將具體的屬性值賦予屬性中。填寫的內容有屬性類別、屬性值、語言、狀態。

3 術語注冊平臺系統架構設計

考慮到SOA架構的簡單、精確定義的接口、粗粒度性、松耦合性、位置透明性、協議無關性等優勢,術語注冊平臺采用SOA架構,共分為四層,如圖2所示。第一層是數據存儲層,包括詞表元數據、詞表內容數據、用戶權限數據、用戶評論等;第二層是組件層,因基于SOA架構的松耦合性,基于SKOS/RDF數據的接口,對該格式的數據進行轉換從而存儲到關系型數據庫中,D2R/Drupal可以實現將關系型數據庫轉換為RDF數據[9];第三層為服務層,本層構建了與詞表的四大基礎應用相關的服務:內容校驗、詞表管理、用戶管理、詞表發布;第四層是應用層,在應用層中,提交組織的主業務是提交詞表,并管理自己的詞表,審核專家的主業務是審核詞表,注冊機構主要負責詞表管理及用戶管理??傮w而言,就是將SKOS描述的詞表經內容校驗、格式轉換后存儲到關系型數據庫中,并對其管理,符合一定的標準后,便由注冊機構使用D2R或Drupal將關系型數據庫發布為關聯數據。以D2R為例,主要由三部分構成:D2RQ Mapping的主要功能是定義將關系型數據轉換成RDF格式的Mapping規則,D2RQ Engine 功能是使用一個可定制的D2RQ Mapping文件將關系型數據庫中的數據映射成虛擬的RDF格式。該文件的作用是在訪問關系型數據時將RDF數據的查詢語言SPARQL轉換為RDB數據的查詢語言SQL(結構化查詢語言),并將SQL查詢結果轉換為RDF三元組或者SPARQL查詢結果;D2R Server是一個HTTP Server,它的主要功能提供對RDF數據的查詢訪問接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統的HTML瀏覽器調用。而Drupal除了可實現關聯數據的發布,在可視化方面表現突出:支持RDF數據可視化,以及與數字地圖、D3.js的結合使用。

圖2 注冊平臺系統架構設計圖

4 業務流程分析

4.1 多職能業務流程

詞表注冊系統需要不同角色的人員協調管理,基于GB/T 18391系列標準和技術報告,將使用注冊平臺的用戶角色分為四種:提交組織、審核專家、注冊機構以及只讀用戶,業務流程見圖3。

圖3 術語注冊業務流程圖

(1)提交組織,即詞表的所有人。提交組織首先要注冊,經過注冊機構對其身份審核后,便可登錄提交詞表元數據,即詞表的基本信息,提交完成后便生成詞表元數據表和未完成詞表;點擊未完成詞表便可進行詞表內容的提交,可以是完整詞表上傳給系統,經系統進行詞表校驗后生成候選詞表,也可以是單個概念的提交,也會記錄到候選詞表中。

(2)審核專家,即業內相關領域的權威人士,經注冊機構對其身份審核后可登錄查看詞表列表,點擊某個詞表便可以對該詞表中處于候選狀態的詞進行審核,專家審核后詞表的狀態轉變為合格詞表、失效詞表或者被替代詞表。需要注意的是提交組織和審核專家登錄平臺后對相關詞表的操作都會記錄下來,包括生成時間、修改人員等,生成歷史記錄,便于后期對詞表來源進行追蹤。

(3)注冊機構,其擁有注冊平臺的最高權限,需要對提交組織和注冊機構的用戶信息進行身份核實,查看用戶操作記錄,對惡意用戶進行剔除,編輯詞表列表,刪除虛假詞表和惡意信息;查看詞表內容,把專家審核通過后生成的詞表(合格詞表、失效詞表或者被替代詞表)連同詞表元數據發布出去,形成已發布詞表。

(4)只讀用戶,通??梢圆榭匆呀洶l布的詞表。

4.2 詞表狀態管理

從圖3中可以看出系統設定了根據詞表的管理級別來追蹤管理項從一種狀態轉變為另一種狀態的進程,將詞表的狀態分為未完成、候選、合格、失效和被替代五種。

(1)未完成狀態。提交者在正常工作的過程中,需要定義詞表的概念類、屬性及其屬性值,以完成詞表元數據及內容的編輯,需確保定義的準確有效。未完成狀態到候選狀態的轉變由提交者來決定,當提交者認為所附加的屬性足夠完整時,便可將詞表或者概念的狀態更改為候選。

(2)候選狀態。提交者確認必選的術語屬性已經完善,便進入候選狀態。候選狀態術語由業內相關領域的專家來評審,審查術語屬性是否正確,是否符合相關標準。如果提交的元數據屬性不符合上述標準,專家需要反饋給提交組織相關信息或者幫助指南。若確認術語屬性符合管理項的質量要求,包括標識符的唯一性和定義的準確性,專家就將該管理項升級到合格狀態。

(3)合格狀態。處于合格狀態的管理項意味著主管組織已經確認元數據必選屬性完整且概念屬性的質量是符合要求的。處于合格狀態的術語項也可能進入到被替代和失效狀態。

(4)被替代或失效狀態。專家需要定期對處于合格狀態的術語進行審核,判斷其是否應該進入被替代或失效狀態,同樣處于被替代狀態的術語項也可能會進入失效狀態,專家做出這兩個判定時需要給出簡短說明。

(5)發布狀態。經專家審核通過的詞表由注冊機構檢查其完整后連同詞表元數據一起發布出去,此時詞表的狀態改變為已發布。

5 基本功能分析

術語注冊管理平臺所需的基本功能有用戶管理、詞表上傳、詞表下載、詞表發布和詞表維護。

(1)用戶管理功能

包括用戶個人資料管理、用戶權限管理、用戶操作記錄管理和用戶意見管理。其中,個人資料管理需存儲四種角色的個人資料;權限管理是指不同角色的用戶權限不同,由注冊機構從安全級別的角度對資源和對象進行劃分,對不同級別的資源進行訪問控制,并將這種權限賦予角色中;操作記錄管理是指不同角色的用戶對詞表進行修改時,需要對其操作進行記錄,以便對詞表的來源以及狀態的變化情況進行追蹤;意見管理是指不同角色的用戶都可以發表對平臺、術語改進方面的意見,參與到術語注冊管理的流程中。

(2)詞表上傳功能

提交組織除了提交單個術語,還可以進行整個詞表的上傳,默認支持SKOS/RDF序列化格式的詞表文檔,上傳的詞表最終存儲在關系型數據庫中,涉及SKOS數據如何存儲到關系型數據庫中,便于對其管理。在解析數據時,任何依據特定本體的RDF工具,都可加載SKOS本體,并可創建SKOS概念,然后在屬性中填入適當的元數據。

(3)詞表下載功能

以詞表列表的方式展示所有詞表,提供某個詞表整體下載,支持詞表中單個概念下載、可視化圖形下載,同時提供XML/SKOS/JSON三種格式的數據下載方式。

(4)詞表發布功能

注冊機構通過使用關聯數據發布工具將關系型數據庫內容發布出去,允許數據消費者包括原始數據提供者,以不同的數據格式訪問、聚合中央存儲庫的數據,廣泛支持基于數據的下游服務,所有完整的數據來源對下游用戶是完全透明的。

(5)詞表維護功能

詞表維護包括詞表狀態管理和詞表綜合管理。其中詞表狀態管理是指根據詞表的狀態去管理詞表。詞表綜合管理是根據詞表概念的生成事件日志、跟蹤錯誤記錄以及信息反饋系統獲取診斷和幫助支持,編輯已經注冊的詞表元數據,更新詞表文檔的版本,對同一詞表的不同版本進行控制,擴展支持詞表間的自動映射與集成。

6 結論與展望

術語注冊管理可以實現對詞表的集中存儲和控制,促進受控詞表的發現、重用、管理、標準化和互操作,以更好地提供詞表服務。本文對該平臺的系統架構、注冊流程、狀態管理以及基本功能做了具體分析,但是對詞表存儲與管理方面國內的技術尚不成熟,國外有許多可利用的工具,如iQvoc用于管理詞匯表的開源工具,具有SKOS導入與導出功能[10],此外SKOS是以RDF為模型,所以還可以利用RDF-aware應用程序開發工具與庫來自己構建SKOS編輯系統。如何將這些工具嵌入到術語注冊管理的平臺中,將是下一步研究的關鍵問題。

[1] SKOS Simple Knowledge Organization System [EB/OL]. [2016-01-01]. http://www.w3.org/2004/02/skos/.

[2] SKOS/Datasets - Semantic Web Standards [EB/OL]. [2016-01-03]. http://www.w3.org/2001/sw/wiki/SKOS/Datasets.

[3] 歐石燕.國外術語注冊與術語服務綜述[J].中國圖書館學報,2014 (5):110-126.

[4] Liang A C, Lauser B, Sini M, et al. From AGROVOC to the Agricultural Ontology Service/Concept Server: An OWL Model for Creating Ontologies in the Agricultural Domain [C]// Proceedings of the International Conference on Dublin Core and Metadata Applications, 2006.

[5] Hillmann D, Sutton S A, Phipps J, et al. A metadata registry from vocabularies up: the NSDL registry project [C]// Proceedings of the International Conference on Dublin Core and Metadata Applications,2006: 65-75.

[6] 歐石燕.基于SOA架構的術語注冊和服務系統設計與應用[J].中國圖書館學報,2011(5):13-25.

[7] The Registry! [EB/OL]. [2016-01-03]. http://metadataregistry.org/.

[8] GB/T 30524-2014科技平臺元數據注冊與管理國家標準(GB)[EB/ OL]. [2016-01-06]. http://www.csres.com/detail/240771.html.

[9] 唐艷春.D2R在圖書館書目數據關聯服務中的應用分析[J].圖書情報工作,2014(14):132-138.

[10] 使用W3C SKOS標準提高分類管理效率[EB/OL]. [2016-01-10]. http://www.ibm.com/developerworks/cn/xml/x-skostaxonomy/.

薛秋紅,女,碩士研究生。

Research on the Construction of the Terminology Registry and Management Platform Facing SKOS

JIA JunZhi, XUE QiuHong
(School of Economics and Management of Shanxi University, Taiyuan 030006, China)

SKOS provides the knowledge organization systems a common model of the expression of the basic structure and content of the vocabularies, which lays the foundation for the realization of data association. However,after encoding vocabulary to SKOS description, it needs to be centrally stored and managed, which promotes the discovery, reuse, management, standardization and interoperability of the vocabularies. At present, the technology of foreign terminology registry and management system has been very mature, while China is still lack of relatively mature controlled vocabularies registry platform. It analyzes how vocabularies registration,combined with China GB/T 18391.4-2009/ISO/IEC 11179-4:2004 metadata registry standards. This paper constructs the system architecture of the vocabularies registry and management platform, designs the business processes of the cross-functional vocabularies registered, and analyzes the changing state of vocabularies. Finally, this paper summarizes the five basic functions required for the terminology registry and management platform and describes tools that can be used.

SKOS; Terminology Registration; Management Platform

G250

10.3772/j.issn.1673-2286.2016.2.003

* 本研究得到國家社會科學基金重點項目“基于關聯數據的中文名稱規范檔語義描述及數據聚合研究”(編號:15ATQ004)資助。

賈君枝,女,1972年生,博士,教授,研究方向:信息組織和信息檢索,E-mail:junzhij@163.com。

2016-01-18)

猜你喜歡
詞表術語概念
Birdie Cup Coffee豐盛里概念店
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
幾樣概念店
學習集合概念『四步走』
聚焦集合的概念及應用
敘詞表與其他詞表的互操作標準
國外敘詞表的應用與發展趨勢探討*
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
常用聯綿詞表
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合