?

敘詞表與其他詞表的互操作標準

2016-10-09 06:19劉華梅
國家圖書館學刊 2016年2期
關鍵詞:詞表檢索概念

劉華梅

?

敘詞表與其他詞表的互操作標準

劉華梅

我國最新修訂的敘詞表編制標準,新增了敘詞表與其他詞表的互操作內容,主要從映射模型、映射類型、映射技術、映射數據管理與維護等方面指出了敘詞表互操作的通用原則和方法,并具體分析了敘詞表與其他各種受控詞表之間建立映射及維護的問題?;ゲ僮鳂藴实奶岢?,不僅可以指導和規范我國敘詞表和其他受控詞表之間的互操作實踐,而且為受控詞表的跨系統互操作研究提供了強有力的支持,具有十分重要的意義。表1。參考文獻5。

敘詞表標準互操作受控詞表

1 引言

我國現有的兩部敘詞表國家標準是GB 13190-1991《漢語敘詞表編制規則》和GB/T 15147-1994《多語種敘詞表編制規則》,分別頒布于1991年和1994年,其內容主要是對紙本敘詞表的編制予以規范。隨著時間的推移,這兩部標準已使用了二十多年。在這一時期,計算機技術和網絡技術的巨大變革,使敘詞表的編制環境、管理水平和應用環境都發生了很大變化:從單純編目到知識組織,從紙質文獻組織到電子資源、網絡資源的組織;從敘詞表到各種概念體系,詞表種類、載體類型日趨多樣化、復雜化;編制技術手段從純手工編制發展到計算機輔助編制。在這種背景之下,敘詞表編制標準的適應性受到了嚴峻的挑戰,修訂任務自然而然地提上議事日程。

另一方面,隨著電子化、數字化、網絡化的快速發展,敘詞表、分類表等傳統知識組織工具,不僅廣泛應用于圖書、文獻的分類主題標引,也適用于網絡信息資源的組織和檢索。但主題詞表、敘詞表、分類表和網絡分類法等多種信息組織方式的存在,使得用戶在檢索相同學科或主題文獻時,需要使用不同的檢索標識,在用戶不熟悉各種詞表的情況下,檢索變得尤為困難。由此可見,要實現語義檢索,提高檢索效率,敘詞表和其他詞表之間的互操作是一條重要途徑[1]。為了實現不同信息系統間的資源共享,各國都非常重視互操作的問題。國際標準、國家標準都逐步將受控詞表互操作的內容納入到詞表標準范疇中,這更表明了詞表互操作的重要性和必要性。我國要想在該領域占有一席之地,必須借鑒國際標準中的相關內容,制定出符合我國具體實際的敘詞表標準,以指導和規范我國敘詞表和其他受控詞表互操作的實踐。

2 國際標準中有關詞表互操作內容

美國國家標準ANSI/NISO Z39.19-2005(《單語種受控詞表編制、格式與管理規則》),從2005年開始修訂,已于2010年5月13日正式發布。該標準對原標準作了全面修訂,提供了單語種受控詞表(包括同義詞環、分類表和敘詞表等)在內容、顯示、構建、測試、維護和管理等方面的原則和規范。此外,還新增了互操作的內容,包括:互操作的必要性,影響互操作的因素,多語言受控詞表、檢索、標引、集成數據庫和集成受控詞表等不同場景中互操作的應用,多個受控詞表語詞間關系的存儲和維護。最后,還在附錄中總結了實現互操作的方式,包括繼承/仿建模式、翻譯/改編模式、衛星子表模式、節點鏈接模式、直接映射模式、共現映射模式、中心轉換模式、臨時列表模式[2]。

英國國家標準BS 8723(《用于信息檢索的結構化詞表》),是英國標準局從2005年開始修訂的敘詞表標準,是對BS 5723和BS 6723進行的修訂、整合與補充。該標準首次超越了敘詞表的界限,從敘詞表擴展到結構化詞表,將分類表、主題詞表、本體、名稱規范文檔、專業分類法等收納進來,把互操作問題提升為詞表編制的一個重要組成部分。全文共包括五個部分,其中第四部分BS 8723-4為詞表之間的互操作,內容包括跨詞表互操作的結構化模型,基于上下文的映射、不同結構詞表和多語種詞表間的互操作、映射和其他關系數據的管理、映射詞表的顯示,以及映射系統的功能等等[3]。

2007年,國際標準化組織(ISO)開始以BS 8723為基礎對ISO 2788和ISO 5964進行修訂和擴展,命名為ISO 25964(《敘詞表及與其他詞表的互操作》)。ISO 25964包括兩部分內容,第一部分為用于信息檢索的敘詞表ISO 25964-1,于2011年8月15日正式發布;第二部分為與其他詞表的互操作ISO 25964-2,于2013年3月15日正式發布。其中,第二部分主要涉及敘詞表間以及和其他類型詞表之間實現互操作的原則和實際問題,描述、比較了受控詞表間實現互操作時涉及的元素和重要特點,推薦建立和維護敘詞表之間或敘詞表和其他類型詞表間的映射,另外還描述了映射類型、信息檢索中映射的應用、識別候選映射的方法、映射數據的管理、映射詞表的顯示等等[4]。

經過修訂的敘詞表國際標準,都新增了受控詞表互操作的內容。這勢必對互操作的未來發展產生重要影響,不僅為各國編制或修訂相關標準提供了經驗和可參考的模型,而且可以推動受控詞表互操作的規范化發展,促進互操作在信息服務中的應用。

3 我國敘詞表編制標準新增與其他詞表互操作內容

正是在上述背景下,全國信息與文獻標準化技術委員會(簡稱文標會)開始組織我國的敘詞表編制標準修訂工作。此次修訂工作本著遵循國際標準的原則,對之前的標準進行了徹底、全面的修訂。新修訂的標準名為《信息與文獻 敘詞表及與其他詞表的互操作》,分為兩個部分。第一部分是用于信息檢索的敘詞表,第二部分為與其他詞表的互操作,由文標會第五分會組織相關單位人員共同完成。第一部分主要起草單位有華東理工大學、國家圖書館、中國科技信息研究所、北京大學、解放軍南京政治學院、中國國防科技信息中心,于2011年開始著手修訂,2014年形成草案。該草案經過多方征求意見并修改,最終通過文標會的審查,并于2015年5月由國家標準化管理委員會批準為國家標準GB/T 13190.1-2015[5]。第二部分主要起草單位有山西大學、國家圖書館、華東理工大學、中國科學院文獻情報中心、南京理工大學,于2015年開始修訂,目前已形成草案,正在征求意見階段。在修訂過程中,各部分內容都廣泛征求并參考吸收了圖書館與信息機構專家學者的意見。

關于詞表互操作問題,在以前的國內標準中沒有專門涉及,此次專門將其作為詞表編制的一個全新的、重要的內容,單獨作為標準的一部分進行闡述?;ゲ僮鳂藴手饕獜挠成淠P?、映射類型、映射技術、映射數據管理與維護等方面指出了敘詞表互操作的通用原則和方法,并具體分析了敘詞表與其他各種受控詞表(包括分類表、標題表、規范文檔、本體、同義詞環等)之間建立映射及維護問題*信息與文獻 敘詞表及其與其他詞表的互操作 第2部分:與其他詞表的互操作(征求意見稿)。

3.1跨詞表映射的模型

映射是指一個詞表中的概念和另一個詞表中的概念建立關系的過程,是實現詞表互操作最基本的方式,因此映射將是本標準的核心。標準中首先提到敘詞表和其他受控詞表有3種基本映射模型:結構統一、直接連接、中心結構。結構統一模型中,所有參與映射的詞表的概念具有相同的等級結構和相關關系,通常用于同種類型不同語言詞表之間的映射。直接連接模型強調的是沒有相同結構的兩個或多個詞表之間的連接,詞表的每個概念與其它詞表的每個概念建立直接映射,可形成各自交互的、雙向或單向的連接。中心結構模型通常是指定一個詞表為中心或者綜合性結構,其它詞表與其建立映射,可以是中心詞表的每個概念映射到其它詞表的相應概念,也可以是其它詞表的概念映射到中心詞表的相應概念。當然,在實際應用中,三種模型也可以互相結合使用。另外,在一些特殊情況下,不需要對全部概念進行映射,可以只選擇使用的概念或者來自索引或目錄的概念進行映射。

3.2映射類型

通常敘詞表和其他詞表的映射分為三種基本類型:等同、等級和相關,如果有其他復雜的詞表類型參與映射(如本體),也可以考慮額外的映射關系類型。等同映射是指概念范圍完全一樣的概念之間建立的關系,包括簡單等同、復合等同兩種,從另一角度又分為精確等同、非精確等同及部分等同三種。等級映射是當一個概念的范圍完全包含在另一個概念的范圍之內時,則概念間建立等級映射關系,概念間的關系可以是屬種、實例、整體與部分。相關關系是指概念間在語義上有一定程度的關聯,但又不符合等同或等級映射時建立的相關映射。

3.3映射技術

傳統方式中,映射的識別是一個人工智力操作的過程,需要一個或多個熟悉相關領域、掌握映射詞表語言、能很好理解詞表結構的專家,一個概念一個概念地進行映射。當前,完全可以利用計算機輔助映射,一種方式是用計算機直接對來源詞表和目標詞表的語詞進行匹配,選出候選映射;另一種方式是利用同一元數據或標目記錄下不同詞表的共現語詞,通過共現算法選出有效的映射。當然,為了提高映射的質量,建議所有自動生成的候選映射都接受專家的審核。

3.4映射數據管理、存儲與維護

映射、映射集合和映射集群通常存儲在數據庫中,且需要對每種映射中涉及的數據(包括來源詞表、目標詞表、概念標識符、優選詞、系統符號、映射類型、映射說明等)進行詳細說明。另外,存儲模式可以用于或改造后用于映射的發布,如果需要在語義網上使用,推薦SKOS兼容格式。映射數據的維護特別復雜,應該選擇使用可持續維護映射的工具和程序。該標準中詳細列出了來源詞表或目標詞表更新時對映射的影響及需要采取的行動。比如來源詞表刪除一個概念,就需要在映射集的舊版本中設置有效注釋來表明該概念限制使用,而在映射集新版本中就要刪除該概念。

3.5與敘詞表進行互操作的受控詞表類型及建議方案

該標準涉及的互操作受控詞表類型有綜合性分類表、記錄管理分類表、專業分類表、標題表、本體、術語表、名稱規范表、同義詞環,并詳細介紹了敘詞表和各種類型受控詞表之間互操作的建議方案,相關內容如表1所示。

表1敘詞表和其他受控詞表互操作的建議方案

受控詞表類型與敘詞表互操作的建議分類表a.概念與類的映射。b.類的范圍取決于類名、上下位類、描述性注釋及相應的索引款目。c.對于簡單類建立精確等同或非精確等同映射,對于復雜類通常需要建立復合等同映射。d.映射聲明的表達使用類號表示類,而不使用類名或者相應的索引款目。標題表a.標題/復合標題與概念的映射。b.從標題表到敘詞表的映射,盡可能將來源字符串映射到目標敘詞表中先組式概念;如果沒有,則映射到目標概念的組合。c.從敘詞表到標題表的映射,來源敘詞表中任何復雜概念盡可能映射到列舉的標題或字符串;如果沒有,則按照詞表及相關文檔中提供的組配規則,創建一個適當的組合。本體a.利用已有敘詞表的內在知識,創建新的本體。b.敘詞表和本體互相補充使用,將本體的推理能力與敘詞表的檢索能力結合。c.敘詞表和本體都使用語義網標準如SKOS、OWL表示。術語表a.選擇式映射。b.術語表作為概念或語詞的來源,可用于敘詞表的構建和維護。c.檢索應用中作為敘詞表的補充支持全文檢索。名稱規范表a.選擇式映射。b.最適合建立精確等同映射。c.映射申明中使用優選詞或唯一標識符。

上述敘詞表和其他受控詞表互操作的建議僅為標準中所涉及的,在具體的操作中,還應根據受控詞表的類型、語義關系及應用場景等因素進行調整,以達到更好的互操作結果。

4 對敘詞表與其他詞表互操作標準的評價

在當前日益發展的語義環境、關聯數據的大背景下,不管是對于希望利用元搜索引擎檢索多種內容的檢索者,還是對于使用跨領域受控詞匯進行標引的標引者,實現敘詞表和其他受控詞表間的互操作都是大勢所趨。敘詞表編制標準中加入互操作內容正是順應形勢,為我國實現敘詞表和其他受控詞表互操作的實踐和研究指明方向,其優點可概括為以下幾點:

(1)該標準遵循國際標準原則,與國際標準保持一致;同時為滿足漢語詞表互操作的需要,增加了漢語語詞及映射實例,便于用戶理解和使用。

(2)該標準對各種映射模型、映射類型的選取規則,先組概念的處理規則,映射數據和關系的保存、維護,以及映射后整合詞匯的顯示等方面都做了明確說明,為實現敘詞表和其他受控詞表互操作提供了原則和適用性指南。

(3)該標準幾乎全部收納了目前已有的受控詞表,包括分類表、標題表、本體、術語表、名稱規范表、同義詞環等,覆蓋范圍廣泛;并且通過對敘詞表和各種類型受控詞表的語義構成和關系進行對比分析,為敘詞表和各種類型受控詞表之間的互操作提供了可參考的建議方案。

(4)將敘詞表互操作內容歸入詞表編制標準,不僅可以指導和規范敘詞表和其他受控詞表互操作實踐,而且為多類型、多語種、多學科的受控詞表通過互操作實現交換、共享和集成整合提供了強有力的支持,從而便于其應用于多個信息系統,實現跨系統互操作。

該標準是參考國際標準制定的全新內容,國內之前沒有詞表互操作方面的相關標準可供參考,所以難免會存在一些問題和不足,從形式和內容上總結主要有以下兩點:

(1)該標準是我國首次針對詞表互操作問題制訂的規范,并在參照國際標準的基礎上編制而成,可能存在某些語言表述不太容易理解的問題。

(2)該標準只給出了敘詞表與其他受控詞表互操作的建議,每種互操作情況下只提到了可能應用到的場景及可能出現的映射類型,而沒有提及具體實現的映射方法,對用戶來說缺乏可操作性參考。

當然,互操作問題是針對當前敘詞表編制和應用環境提出的全新內容,其制定是否符合漢語敘詞表的特點,是否適用于漢語敘詞表的互操作,都需要在實踐中進行檢驗,期待更多學者和專家參與到互操作的研究與實踐中,使我國的詞表互操作朝著更規范、更全面、更實用的方向發展。

1 張琳,宋文.從敘詞表編制標準看敘詞表和其他受控詞表的互操作[J].情報理論與實踐,2012(12).

2 Guidelines for the construction, format, and management of monolingual controlled vocabularies[S/OL]. [2016-01-07]. http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r2010.pdf.

3 Structured vocabularies for information retrieval-Guide—Part 4: Interoperability between vocabularies[S/OL].[2016-01-07].http://www.docin.com/p-278116358.html.

4 Information and documentation—Thesauri and interoperability with other vocabularies—Part 2: Interoperability with other vocabularies[EB/OL].[2016-01-07].http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658.

5 信息與文獻 敘詞表及與其他詞表的互操作 第1部分:用于信息檢索的敘詞表[EB/OL].

[2016-02-24].http://www.csres.com/notice/44921.html.

(劉華梅副研究館員國家圖書館中文采編部)

Interoperability Standard between Thesauri and Other Vocabularies

Liu Huamei

The latest revision of thesauri compilation standard in China, adds the content of thesauri interoperability with other vocabularies, mainly points out the general principles and methods of thesauri interoperability from the aspects of mapping model, mapping types, mapping technology and mapping data management and maintenance, etc. And it specifically analyses the mapping between thesauri and other kinds of controlled vocabularies. Interoperability standard not only can guide and standardize the practice of interoperability of thesauri with other controlled vocabularies, and also can provide strong support for the research on controlled vocabularies interoperability across systems, thus it has very important significance. 1 tab. 5 refs.

Thesauri Standard; Interoperability; Controlled Vocabularies

2016-01-15

猜你喜歡
詞表檢索概念
Birdie Cup Coffee豐盛里概念店
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
幾樣概念店
學習集合概念『四步走』
聚焦集合的概念及應用
華語作為第一語言教學的常用分級詞表研制
專利檢索中“語義”的表現
國外敘詞表的應用與發展趨勢探討*
常用聯綿詞表
國際標準檢索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合