?

敘詞表概念映射研究

2015-12-30 03:46陳辰
圖書館論壇 2015年1期
關鍵詞:詞形詞表等價

陳辰

敘詞表概念映射研究

陳辰

敘詞表概念映射可滿足用戶深層次的概念檢索需求。區分術語映射和概念映射的不同,從現實情況出發,提出基于ISO標準對其映射類型進行擴展使用的方法。結合敘詞表映射實驗,對概念映射方法進行探析。

敘詞表映射 概念映射 映射類型 映射方法

敘詞表映射[1]是知識組織體系互操作技術中的一種,它是為兩個或者多個詞表的術語建立映射關系,以在詞表之間實現自動的轉換和連接,從而實現不同檢索系統間的“一站式”主題檢索。敘詞表概念映射不同于術語映射,它從滿足用戶概念檢索需求出發,達到語義概念層次的映射,從而提高系統的互操作水平。

1 概念映射與術語映射的區別和聯系

相關機構和研究人員對術語映射與概念映射尚未做明確區分。但筆者認為,《ISO25964-1——敘詞表和其他敘詞表互操作:信息檢索用敘詞表》將過去基于術語的改為基于概念的詞表組織結構,而且更關注概念、以及概念間的聯系,正是反映了用戶具有概念檢索的需求。敘詞表映射為滿足用戶此需求,也需對概念映射和術語映射進行明確界定,探究兩者的不同,以明確哪些方法可達到概念層次的映射。筆者認為從映射程度上劃分,敘詞表映射分為術語映射與概念映射。

1.1 術語映射

術語映射指詞形不同而詞義相同的詞語之間的映射,它只涉及術語間的語義對等關系,而不涉及概念間的等級和相關關系。筆者將術語對等映射概括為兩種情況:一是從詞形學角度分析是同一個詞,但是由于單復數形式、全稱和簡寫、大小寫、譯文、標點差異、首字母縮寫等原因造成詞形不規范的映射情況,這些語法表現形式不一致而語義一致的詞可視為等價映射;二是詞形完全不一致但是詞義相同,如異形同義詞間也是等價映射。對等關系既可只用一種“等價映射”類型表示,如使用EM(Equivalence Mapping即等價映射,簡稱EM)表示,也可對“等價映射”進行細化,如全稱和簡寫術語的映射類型可表述為“FT/AB”(Full Term和Abbreviation,全稱和簡稱對等),單復數間的映射表示為“Si/pl”(Singular和plural,單數和復數對等)。

1.2 概念映射

概念映射是在術語等價映射基礎上,進一步實現概念間等級和相關關系的映射。相對于術語映射,它是更深層次的映射,即達到術語語義對等映射層次后,映射尚未結束,還可與其他術語進一步建立等級、相關等概念映射關系,實現多映射。比如,一體化醫學語言系統(Unified Medical Language System,簡稱UMLS)[2]項目中,其超級詞表的建立運用四級結構模式,即通過“元詞-詞串-術語-概念”四個不同層面,逐層映射來最終達到概念層次的映射,而不滿足于只達到術語層面的映射。

2 基于ISO標準的敘詞表概念映射類型分析

實施敘詞表概念映射,首先要確定映射類型?!禝SO25964-2——敘詞表和其他敘詞表互操作:與其他詞表的互操作》[3]提出的概念映射包括三種類型:等價映射、等級映射和相關映射,以及三種映射程度:精確對等、非精確對等和部分映射,三種映射類型下又包含進一步細化的映射類型,如圖1所示。

圖1 ISO25964映射關系類型

ISO是國際標準,基于利于數據交流、共享和重用的考慮,推薦使用此映射類型,以便日后的互操作。標準具有抽象性,而敘詞表具體映射過程中的關系類型卻要復雜很多,所以一方面要結合ISO標準的映射類型,另一方面在使用時要進行適度擴展,以滿足現實映射的需要。筆者以Chaplan和Neville提出的映射類型為例探討如何擴展使用ISO提出的三種映射類型。表1是整合分析情況,映射類型一欄代表ISO標準,帶有圓圈數字標志的代表Chaplan[4]提出的映射類型,不帶圓圈的數字代表Neville[5]提出的映射類型。結果顯示,除Chaplan“無匹配”沒有ISO的對應映射類型外,其他類型都是ISO映射類型的擴展。擴展分析過程涉及的歸類定義與說明如下:ISO映射類型分為等價映射、等級映射和相關映射三大類。

(1)等價映射分為簡單映射和復合映射,簡單映射根據映射程度又分為精確映射和非精確映射,“精確映射”包括語法一致和語法不一致兩種情況。語法詞形完全一致,詞義也一致的屬于“精確簡單的等價映射”,詞形不一致,比如單復數、連接符等不同,而詞義相同,筆者也將其列為“精確簡單的等價映射”;而組合匹配由于語義上與原有詞不完全對等則歸于“非精確等價匹配”中。需說明的是,表1括號中有“需進一步判定映射類型”的標識,為便于統計分析,這些映射類型暫時列入表1的相應位置,但需要進一步進行語義分析,才可以判斷其映射類型,如可能是限定詞、同形異義詞和異形同義詞等情況。

(2)等級映射根據詞表固有的關系分為屬種、實例、整體與部分三種,“通用詞匹配”屬于等級映射范疇。

(3)相關映射主要是概念層次的映射,指在語義上有關聯的詞間關系,其中反義詞匹配歸屬相關映射。

筆者將ISO映射類型與Chaplan和Neville提出的映射類型進行對比分析,發現在現實中使用ISO映射類型作為標準,并結合具體映射情況對ISO進行擴展使用的方案是可行的。ISO標準的使用不僅有利于日后數據的重用和共享,通過對標準進行擴展使用,還可更好地滿足現實需要,因此筆者建議在實施映射時,可使用等價、等級和相關三種映射類型,并根據需要對其進行擴展。

表1 ISO,Chaplan與Neville映射類型的擴展分析表

3 敘詞表概念映射方法

3.1 單映射和多映射

在映射方法上,術語映射一般采用“單映射”,即只允許和目標詞表某個術語建立一種映射關系;而概念映射則建立起“多映射”,可和目標詞表多個術語建立多個映射關系,以更好地體現概念和概念間的關系。比如,Earthquakes EM Earthquakes,只建立精確等價映射關系,屬于單映射;Earthquakes EM Earthquakes,同時Earthquakes BTM Geological hazards,既有精確等價映射,又有上位映射,屬于多映射。(BTM表示上位映射,是Broader Term Mapping的簡稱)。CAT(農業敘詞表)到聯合國糧農組織AGROVOC詞表的映射項目[6]中允許“多對一”和“一對多”的映射,即允許CAT的多個詞映射到AGROVOC上,也允許一個CAT詞映射到多個AGROVOC詞上,實質是允許建立“多映射”關系。

3.2 映射構建的影響因素

敘詞表構建映射關系應首先考慮應用需求。概念映射是多映射,它挖掘概念間的深層映射關系,可滿足用戶概念檢索需求;而術語映射只要求建立兩術語間的對等映射關系,不能滿足用戶深層次的檢索需求。此外,映射的建立還要考慮檢索系統的效率。將多映射關系應用于檢索系統時,需要系統對多映射關系進行多層展示和自動轉換,這不僅需要系統能對映射關系進行直觀展示,同時也要保證映射數據轉換的速度和效率,因此多映射關系對系統有更高的要求。

3.3 建立多映射類型的方法

3.3.1 參考已有映射關系類型

(1)在精確等價映射關系基礎上可考慮建立多映射。為詞形相同或相似的術語建立精確等價映射關系,尚不能滿足用戶概念檢索需求,尤其是相同學科或者同一檢索系統兩詞表間的精確等價映射基本不會對檢索結果有顯著影響,所以需在此基礎上進一步建立等級或者相關映射等多映射關系。

(2)等級映射一般建立單映射關系,即以“最鄰近”為原則,建立最近的上位、下位映射以保證映射數據的質量。

(3)不宜建立多次相關映射,因為相關關系在語義上不對等,如果建立多次,會造成語義上的失真,影響映射數據質量。要根據目標詞表相關映射詞與源詞表對應的映射詞的語義相關度而定,相關度大的可建立多映射關系。兩個詞是否具有相關關系以及具有多大相關度,其確定并無統一標準,為不影響映射數據整體質量,相關的映射不宜過多。

3.3.2 根據詞表本身結構和語義層次關系

詞表的結構影響映射的構建,詞表有多種結構關系和層次,可根據映射繼承性原則[7]建立多映射關系,具體方法見表2。以Life Sciences Thesaurus(Subjects)(生命科學敘詞表)第4版作為源詞表,Aquatic Sciences&Fisheries Abstracts(ASFA)Thesaurus(Subjects)(水科學和漁業文摘敘詞表)第3版作為目標詞表進行映射實驗,表中NTM表示下位映射(Narrower Term Mapping,簡稱NTM)。

表2 據詞表結構確定多映射關系示例

3.3.3 特殊映射關系的建立方法

除以上兩種映射方法外,筆者在實驗過程還發現幾種特殊映射關系的建立方法與規律,現結合實驗數據進行說明。

(1)精確等價映射基礎上的多映射關系。精確等價映射主要涉及詞形精確匹配、詞形規范匹配和同義詞匹配等,是同一概念不同表達術語間的對等映射關系。如果還考慮與其他概念建立映射,需要在此精確等價映射基礎上建立多映射關系。

①詞形精確匹配,是指詞形、詞義完全相同的兩個術語建立匹配關系,在此基礎上再構建進一步的映射關系,比如:

Bacterioplankton EM Bacterioplankton (第1層)

Bacterioplankton EM Bacteria+Plankton (第2層)

②詞形規范匹配,是指語法表現形式不一致而語義一致的兩個術語建立匹配,在此基礎上構建進一步的映射關系,即在全稱與簡稱、單復數、有無連接符術語、詞綴不同、翻譯、全稱和首字母縮寫等匹配的基礎上建立進一步映射關系,例如簡寫與全稱等價映射基礎上的進一步映射關系:

N.M.R.EM Nuclear magnetic resonance (第1層)

N.M.R.BTM Spectroscopy(第2層)

③同義詞匹配,是指詞形不一致,而語義相同或相似的兩術語間建立匹配,在此基礎上構建進一步的映射關系,比如:

Ranging behavior EM Range action (第1層)

Ranging behavior BTM Behavior(第2層)

Ranging behavior RTM Home range (第3層)

其中,RTM是Related Term Mapping的簡稱,表示相關映射。

(2)反義詞對基礎上的共同上位概念?!胺戳x詞對”通常是同一事物或者同一現象的兩個相反屬性。用戶在檢索“反義詞對”時往往希望獲取其對應上位類——共同現象或事物的信息,所以有必要建立“反義詞對”及其共同上位類映射關系,比如:

[Abiotic factors RTM(反義)Biotic factors] BTM Environmental factors

Abiotic factors與Biotic factors是Environmental factors的兩個相反屬性,Environmental factors是兩者的共同上位類,故建立上位映射關系。

(3)詞義不完全組配上的多映射關系。組配映射分為并列組配和交叉組配,組配既可完全代替源詞表術語的語義,也可能不能實現語義上的完全對等,這時可在組配映射基礎上建立進一步概念映射關系,比如:

Bacterial artifical chromosomes BTM(Bacteria+chromosomes)

Bacterial artifical chromosomes(細菌人工染色體)在目標詞表的組配關系為Bacteria+ chromosomes(細菌染色體),該組配尚不能完全代表源詞表映射詞的語義,源詞表映射詞的實際含義比目標詞表中的映射詞要廣,因此應在組配基礎上建立與源詞表映射詞的上位映射關系。

以上幾種特殊的映射關系會出現在多數映射項目中,具有共性和典型性,所以被單獨總結出來,希望為日后的映射項目提供參考。

4 敘詞表概念映射實施方案

第一,需明確敘詞表映射只有達到深層次的概念映射,才能滿足用戶概念檢索需求。通過建立概念間的等價、等級和相關映射關系,檢索系統才能基于這種底層的映射數據和關系,自動為用戶提供相應檢索詞的等價詞、上下位詞和相關詞提示,從而實現真正意義上的擴展檢索,進而提高用戶的查全率。

第二,敘詞表映射類型的確定是開展映射工作的前提。各個詞表在詞形、詞義和結構上的差異使兩個詞表間建立完全的精確對等匹配是不可能的,所以要根據詞表本身的特點以及實際需要來確定建立何種映射類型。ISO提出的等價、等級和相關映射類型比較抽象,未對現實中的何種映射關系屬于該三種映射類型做出明確規定,很難直接在實際映射項目中使用。Chaplan與Neville提出的近30種映射類型,比較全面和具體,但難免會有冗余或者重合定義的情況[8]。據此,本文通過將兩人提出的映射類型在ISO映射類型中做擴展分析,以尋求最佳映射類型的確定方案。根據分析結果,基于映射數據共享、重用的考慮,筆者建議使用ISO映射類型,并在此基礎上根據實際需要對該映射類型進行擴展使用。

第三,敘詞表概念映射方法從實施意義上講是映射確定的過程。筆者根據敘詞表映射實驗,探討了映射構建的影響因素和建立多映射類型的方法。相關機構和人員在建立多映射關系時,應考慮映射數據的實際需求與應用系統的效率等影響因素。

映射的實施方法,一方面可參考已建立的映射類型實施多映射,另一方面也可根據詞表本身的結構關系和語義關系,推斷并建立多映射關系。此外,筆者還總結幾種特殊映射關系的建立方法,如精確等價基礎上的映射關系,反義詞對基礎上的共同上位概念和詞義不完全組配上的多映射關系建立等??傊?,敘詞表概念映射工作相當繁雜,以上只是概念映射的部分實施方案,并沒有涉及映射的整體工作流程。除此之外,概念映射還涉及映射規則、映射數據質量檢測和映射數據的應用等,還需要進行進一步的研究與探討。

[1]ZengM L,Chan LM.Trends and Issues in Establishing Interoperability Among Knowledge Organization Systems[J].Journal of the American Soiety for Information Science and Technology,2004,55(5):377-395.

[2]UMLSreferenceManual[EB/OL].(2009-09-09).[2014 -03-01].http://www.ncbi.nlm.nih.gov/books/NBK 9684.

[3]ISO 25964-2:2011.Information and documentation——Thesauri and interoperability with other vocabularies——Part 2:Interoperability with other vocabularies [S/OL].(2012-10-31).[2014-05-26].http://www. iso.org/iso/catalogue_detail.htm?csnumber=53658.

[4]Chaplan M.A.,Mapping Laborline thesaurus terms to Library of Congress subject headings:Implications for vocabulary switching[J].Library Quarterly,65(1):39-61.

[5]H.H.Neville.Feasibility study of a scheme for reconciling thesauri covering a common subject[J].Journal of Documentation,1970,26(4):313-336.

[6]Liang A C,Sini M,Chang C,et al.The mapping schema from Chinese agricultural thesaurus to agrovoc[C] //Proceedings of the Fifth Conference of the European Federation for Information Technology in Agriculture,Food and Environment and the Third World Congress on Computers in Agriculture and Natural Resources.Vila Real,Portugal:EFITA/WCCA,2005.

[7]陳辰.敘詞表映射語義判定和自動推理規則探析[J].圖書情報工作,2014,58(2):126-131.

[8]Mcculloch E,Macgregor G.Analysis of mapping types for terminology services[J].Journal of Information Science,2008,34(1):70-92.

Research on Concept Mapping of Thesaurus

CHEN Chen

Concept mapping of thesaurus can meet users’needs for deep concept retrieval.This article discusses the distinctions between concept mapping and terminology mapping.Based on ISO standard,it proposes the extension use of the three mapping types.Then,it makes a detailed analysis on the methods of concept mapping.

thesaurus mapping;concept mapping;mapping types;mapping methods

格式 陳辰.敘詞表概念映射研究[J].圖書館論壇,2015(1):37-42.

陳辰(1986-),女,碩士,任職于河北金融學院圖書館.

2014-07-14

猜你喜歡
詞形詞表等價
等價轉化
編制受控詞表的著作權侵權風險及其應對策略
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
韓國學校語法中副詞形語尾的變遷
英語詞形變異及其語義信息
帶前置功能的詞形《 в сопоставлениис 》的結構與搭配
n次自然數冪和的一個等價無窮大
收斂的非線性迭代數列xn+1=g(xn)的等價數列
環Fpm+uFpm+…+uk-1Fpm上常循環碼的等價性
常用聯綿詞表
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合