?

分類主題一體化詞表的國內研究進展述評

2020-08-27 13:35姜冠蘭張敏
數字圖書館論壇 2020年8期
關鍵詞:詞表主題詞表標引

姜冠蘭 張敏

(西南大學計算機與信息科學學院,重慶 400715)

網絡信息資源日益豐富,單獨使用分類法或主題法已經不能滿足信息資源組織與利用需求,理想的模式是使用分類主題一體化語言進行集成化組織與揭示[1]。分類主題一體化詞表(以下簡稱“一體化詞表”)是分類主題一體化的具體體現,國外情報機構自20世紀60年代就開始了一體化詞表的研究。1969年英國情報學家艾奇遜·瓊編制了《分面敘詞表》,被認為是世界上第一部分類主題一體化詞表,1980年侯漢清[2]對其進行了介紹和論證。1983年《常規武器工業分面敘詞表》的成功編制,是我國一體化詞表的最早嘗試。1994年出版的《中國分類主題詞表》(以下簡稱《中分表》),是我國第一部大型綜合性的分類主題一體化詞表。2009年中國科學技術信息研究所牽頭組織了《漢語主題詞表》(以下簡稱《漢表》)的重新編制,現已完成《漢語主題詞表(工程技術卷)》和《漢語主題詞表(自然科學卷)》的出版,在詞表規模、等同率、詞間關系方面有了較大提升,推動了一體化詞表的創新發展。

分類主題一體化詞表有機融合了分類表和主題詞表,可以同時滿足分類標引與檢索、主題標引與檢索等需要,能充分發揮原有的分類法和主題法的長處,彌補各自的缺點。網絡環境下,分類主題一體化語言依然是情報組織與檢索中不可或缺的工具,因其詞匯控制的規范性、概念的豐富性、邏輯的嚴密性,一體化詞表仍然在不同領域得到廣泛應用。本研究對我國一體化詞表的構成模式、實現方法、應用方式等進行了系統梳理,希望對當前理論研究及實踐應用提供參考。

1 分類主題一體化詞表的構成模式

按照對分類類目與主題詞的映射、兼容、集成等控制手段的不同,常見一體化詞表的構成模式主要有如下3種(見表1)。

(1)分面敘詞表。通常包括分面分類表和字順敘詞表兩部分,每個敘詞均同時出現在分類表和敘詞表中,用分類號將兩部分連接,使類目和敘詞對應。通過對分類表和敘詞表進行統一的詞形、詞義和詞間關系控制,來實現二者的兼容,是最典型的一體化詞表。典型代表如《農業科學敘詞表》(以下簡稱《農表》)。

(2)分類法-敘詞表對照索引(或稱分類主題映射詞表)?!吨蟹直怼肪褪谴祟愒~表的代表。通常包括分類號-主題詞對應表、主題詞-分類號對應表兩部分內容。每個分類號下列出對應的主題詞或主題詞串,通過分類類目實現主題詞的聚類、分類和瀏覽;每個主題詞下列出對應的分類號,利用主題詞對類目作進一步地注釋與說明[3]。

(3)集成詞表。將若干敘詞表與分類表融合匯編而成的一種詞表,通常以某一部分類法或敘詞表為主,列出與分類號或敘詞相對應的其他分類法或敘詞表中的分類號或敘詞,以實現分類語言與主題語言的兼容與互換。如重新編制的《漢表》就是一個包含分類、主題和概念等不同語義級別詞匯和概念數據庫的集成知識組織系統[4],以《中國圖書資料分類法》為基礎組織敘詞表的分類顯示體系,將敘詞表和分類表有機結合。

表1 常見分類主題一體化模式及代表性詞表

2 分類主題一體化詞表的實現方法

通過對分類表和敘詞表各自的術語、參照、標識和索引實施統一的控制,可以實現二者的有機融合。在數字時代到來之前,主要是人工編制完成;隨著計算機技術的發展,分類法與主題法的自動轉換成為可能,詞表的編制開始輔以計算機技術實現。針對分類語言和主題語言的兼容互換,目前主要實現方法有直接映射、自動映射和集成法[5]。

(1)直接映射。需要人為主觀判定類目、詞匯之間的關系,建立不同詞表中詞匯間或詞匯與分類號之間的對應聯系,準確率較高,但是過多依賴于專家?!吨蟹直怼肪褪遣捎弥苯佑成涞姆椒?,實現《中國圖書館分類法》類目與《漢表》主題詞的對應,主要依靠手工對應表標引完成。

(2)自動映射。這是利用計算機對相同的元數據或編目記錄中,來源于不同詞表的語詞和分類號的共現頻次進行統計,計算語詞與分類號的相似度值,從而建立語詞與分類號的映射。自動映射需要足夠多的標引數據,并且同一文獻需要用不同分類法和敘詞表進行標注,對訓練數據的要求較高。自動映射方法主要是為實現詞表擴充與更新的自動化,使其跟上學科或資源的快速發展變化。

(3)集成法。實質上是將某一特定主題領域的多部敘詞表或分類法進行融合,在各來源詞表的基礎上建立包含所有術語及相關參照的集成詞表,通過識別等價詞及準等價詞建立詞匯轉換系統,實現分類表與敘詞表的兼容轉換。如中醫藥一體化語言系統(TCMLS)采用集成法,將各種主題詞表、分類表、工具書中相關詞匯集成,建立了與UMLS功能相似的中醫藥學及相關學科的一體化語言系統平臺。

直接映射準確率高,但是過于依賴專家,耗費大量人力;相比直接映射,自動映射的效率更高,但存在準確率低等局限;集成法能較好地保留原有知識體系的邏輯內容,但是工作量較大,在具體的實踐活動中,往往會采用多種方法相互配合。如《漢表》在重新編制過程中,就結合語義計算、共現聚類等計算機技術輔助領域專家確立詞間關系,最終構建了一個集成知識組織體系[6]。

3 分類主題一體化詞表的應用研究

現有研究中,除了綜合領域之外,分類主題一體化的研究成果主要集中在醫學和農業等專業領域。在醫學領域,利用TCMLS實現醫學文本語義關系的發現、構建中藥概念數據模型等;在農業領域,基于《農表》開展了大量研究,如構建農業領域本體、實現農業科技關聯數據的構建和發布、構建農業知識服務平臺等。一體化詞表的應用促進了網絡環境下信息資源組織及服務的展開。除了醫學和農業專業領域之外,其他領域學者也開始嘗試引入分類主題一體化模式,如國防軍事[3,7]、電子政務[8-9]等領域??傮w而言,一體化詞表主要應用于標引與檢索、詞表互操作、本體構建、關聯數據發布、知識發現等多個方面。

3.1 標引與檢索

分類主題一體化是提高檢索效率的保證,用戶可以通過分類或主題的方式進行瀏覽或檢索,并隨意切換檢索方式,還可以通過分類與主題的相互限定改變檢索范圍。如在數字圖書館中,將《中分表》與OPAC鏈接,能夠實現網絡聯機檢索目錄的功能,可以為用戶提供學科分類導航和概念檢索服務[10]?!稘h語主題詞表(工程技術卷)》和《漢語主題詞表(自然科學卷)》則通過《漢表》服務系統提供相關服務[11],實現不同顆粒度的智能查詢和檢索功能,既可以從分類層級類目入手批量獲取文獻信息,也可以通過主題概念進行縮檢與擴檢,還可以從主題和學科角度對文檔進行聚類分析。胡昌平等[12]、陳果等[13]還通過對主題詞表的分面化改造實現科技文獻檢索效果的提升,以及網絡社區分面導航系統原型的構建。

利用分類主題一體化也可以同時完成文獻信息的主題標引和分類標引,一次標引能同時獲得主題和分類標引的結果,提升標引的規范性和準確性,也能提高標引工作效率。在圖書館中,當電子化和網絡化的一體化詞表與編目系統對接之后,信息查找更為便利,縮檢、擴檢的難度降低,能實現分類主題一體化標引與編目系統的無縫鏈接,提高編目效率。

在網絡環境下,手工標引不能完全滿足用戶需求,人們開始探索利用計算技術進行自動標引,選擇自動標引的知識庫也要同時兼顧主題標引和分類標引的需要,因此一體化詞表也為自動標引提供了有利條件。卜書慶[14]構建了基于《中分表》知識組織系統的自動標引服務系統,可以支持數字資源的自動標引與自動分類,以《中分表》為基礎,不僅可以簡化標引程序,還能進行分類標引與主題標引的相互對照與檢驗。類似的,在《漢表》服務系統中,輸入需要標引的文獻標題和摘要之后,可以輸出代表性高的優選詞作為標引詞,并同時賦予文獻合適的分類號。

針對一體化詞表的自動構建和改造,王軍[15]以《中分表》為基礎,提出從已標引的結構化語料庫中提取專業領域詞匯自動豐富現有詞表的思路和方法,基于該方法,通過發現反映文獻主題的關鍵詞,并將其映射到規范的主題詞上,能夠實現自動標引和編目。何琳等[16]將標引經驗和機器學習相結合,對《中分表》進行了基于自動標引的改造,測試結果表明,改造后的《中分表》在標引深度和專指度方面都有所提高。

3.2 詞表互操作

信息資源在結構、領域、語言等方面的差異,導致了不同知識組織系統的異構性,為解決由異構系統帶來的資源共享不便的問題,檢索語言之間的兼容互換研究成為知識組織研究重點討論的問題,通過對詞表進行互操作研究則可以滿足用戶對信息資源進行跨庫、跨領域、跨語言檢索的需求。分類主題一體化詞表本質上就是由分類語言和主題語言通過映射兼容形成的知識組織系統,基于一體化詞表本身的集成特點,進一步對一體化詞表開展互操作研究能使構成的知識組織系統功能更加全面。

針對不同檢索語言之間的互操作,劉華梅等[17]以《中分表》為核心體系構建了教育集成詞庫,利用同現映射、相似度計算等方法,實現了多部分類法、敘詞表和《中分表》的兼容。在不同語種詞表間的互操作方面,部分學者研究了《農表》與AGROVOC敘詞表的映射,并提出了跨語言搜索引擎的設計方案[18-19];鮮國建[20]建立了《農表》與幾大涉農知識組織系統映射互聯的描述框架,包括AGROVOC、NALT、LCSH和EUROVOC敘詞表,但還未進行互操作具體實踐;常春等[21]等按照國際通用的標準規范,建立了《漢語主題詞表(工程技術卷)》到英文超級科技詞表間的映射關系,促進了中英文跨語言、跨庫檢索的研究和實施。在此基礎上,鄧盼盼等[22-23]等從不同角度探討了中英文敘詞表概念映射關系及方法。

一體化詞表能為構建本體等知識組織系統提供語義來源等術語服務[17]。隨著語義網的發展,OWL、SKOS、Web Service等技術被引入術語服務研究,曾新紅等[24]以《中分表》《社會科學檢索詞表》等為例,構建了中文敘詞表本體共建共享系統(OTCSS),提供面向應用程序的Web Service術語服務,實現了術語的瀏覽、標引與檢索。范煒等[25]以經過SKOS表征的《中分表》主題詞表數據為基礎,構建了面向用戶和機器的術語服務原型系統,可支持關鍵詞檢索和可視化服務。此外,《漢表》服務系統以網頁服務和接口調用的方式,提供術語檢索和瀏覽。

從現有研究來看,將一體化詞表與其他詞表進行互操作的項目并不多,且多是相同領域詞表的互操作,對于跨領域知識融合等問題的研究還較為缺乏。針對一體化詞表提供的術語服務,主要是提供術語的檢索與瀏覽功能,信息檢索之外的更多應用還需擴展。

3.3 本體構建

本體規范度高、語義豐富,可以提高異構系統之間的互操作性,能夠較好地滿足新網絡環境下信息組織需求,有助于知識共享。本體與分類表和主題詞表有相一致的特性,構建本體的方式之一就是將傳統的分類法、主題詞表等知識組織體系中的相關概念改造成本體。一體化詞表同時提供了知識的等級體系和主題概念的語義關聯,為本體的構建提供了便利條件。利用一體化詞表構建本體時,本體概念可以直接復用詞表已有的選詞,并且可以根據詞表中的各類關系獲得概念關系,直接參照詞表中的參照關系、分類號以及限義詞以確立概念屬性[26]。

在相關研究中,由于《中分表》能在各學科領域中廣泛使用,且能夠統一描述各學科領域內的知識,因此較多研究選擇《中分表》作為知識源。目前一體化詞表用于本體構建大致包括完全復用型和語義輔助型兩種方式[26]。完全復用型是指在構建本體時完全以詞表中的主題詞、分類類目詞作為術語集,通過對一體化詞表的完全復用,學者們構建了不同的領域本體,如民樂本體、圖書情報本體、旅游本體、教育領域本體等。語義輔助型是指構建本體時詞表不再用作術語集的全部來源,而是開始逐漸加入主題詞以外的自然語言,如標簽。張云中等[26]將《中分表》和大眾分類法進行融合,復用《中分表》的語義關系、分類主題詞作為構建本體的語義關系和術語集,再結合標簽語義關系和高頻標簽輔助構建了一個散文領域本體,可以對網絡資源進行深入的揭示,也可以確保本體構建所用術語集的新穎性。

3.4 關聯數據發布

一體化詞表具有豐富的概念及語義關系,能夠有效地對信息資源進行組織和利用,提高信息獲取效率。但是作為傳統知識組織系統,一體化詞表是相對封閉和孤立的系統,目前還沒有提供便捷獲取和利用的途徑,缺乏與外部網絡應用進行開放鏈接的能力,妨礙了其在網絡資源索引和檢索方面的應用能力[25]。關聯數據的出現為其指出了一個新的發展方向。關聯數據主張在不同數據間建立聯系,將孤立的資源關聯起來,因此,可以將關聯數據的理念和技術方法與一體化詞表結合。

在關聯化的一體化詞表相關研究中,將一體化詞表直接應用于信息資源關聯數據化的現有研究還較為少見,在這類研究中,一體化詞表主要作用是構建關聯數據的基本語義關系模型,為其他關聯數據提供語義結構和關系描述框架。如鮮國建[20]基于《農表》等知識組織體系,建立適用于描述多類型信息資源的多維語義關聯框架模型,為多維農業科技語義關聯數據的構建和發布提供基礎。任瑞娟等[27]依托《中分表》敘詞及詞間關系建立關系型本體庫,實現了學位論文、書目信息等多類型學術資源的語義化組織與關聯化發布。

較多研究探討了一體化詞表本身的關聯數據化實現。要實現一體化詞表的關聯化,首先要實現詞表的規范化描述,SKOS是形式化描述的首選方法。SKOS簡潔、通用、易擴展,提供的語義關系比RDF更加精確,不像OWL那樣苛求較復雜的邏輯?!吨蟹直怼分黝}詞表部分、《農表》均已進行了基于SKOS的語義轉換實踐。針對《中分表》一體化結構的描述也有學者提出了解決方案,如曾新紅[28]提出將《中分表》當成兩個獨立的概念體系進行描述,然后進行映射集成。

在發布方式上,目前已經有許多工具支持關聯數據的轉換發布,如D2R Server、Virtuoso universal server、Triplify等,鮮國建等[29]和蔡穎[30]基于Virtuoso,分別實現了《農表》以及《中分表》關聯數據發布系統的構建,Virtuoso可以將RDF儲存到關系型數據庫中,還支持SPARQL語法查詢。關聯數據集著眼于機器處理的便利,用戶理解上還存在一定難度,因此可視化十分必要。Relfinder、Graphviz、RDFGravity、Gruff等都是常見的關聯數據可視化工具。如范煒等[25]結合Graphviz和Protovis類庫實現了《中分表》主題詞部分的關聯數據可視化,能更直觀地展示相關數據,增強用戶對數據的理解。

基于SKOS的關聯數據發布能夠較好地表達概念之間的關系,但是對復雜等級體系的概念關系表達不夠充分。曾新紅[28]構建了中文知識組織系統形式化語義描述標準體系,包括通用CNKOS語義描述規范、高受控詞表的OntoThesaurus描述規范以及領域本體的OWL描述規范三部分。其中通用CNKOS語義描述規范對現有SKOS詞匯無法細致描述的語義元素進行了擴展,如受控詞表中組配概念及特種概念,分類法中交替類目、類目注釋的具體類型及其隱含語義、類號范圍等問題的處理;在此基礎上發布了《中分表》的關聯數據服務[31],但目前該服務還未提供到其他詞表的關聯,可視化等功能也還在建設中。

3.5 知識發現

隨著信息資源的爆炸式增長,用戶的需求也從信息檢索轉向知識的有效獲取。知識發現是從以各種形式表示的信息中,發現知識之間內在的聯系,為用戶提供更好的服務。從現有的概念關聯體系中,直接獲取概念術語的半監督知識發現技術具有良好的效果[32]。一體化詞表將分類法中的層級關系與主題詞表中的概念關系有機結合,能夠為知識發現提供以概念為中心的同義詞匯聚、概念及實體識別、基于范疇類目及等級體系的概念分類組織等信息,有助于優化知識發現服務[33]。

劉愛琴等[34]以《中分表》為受控詞表,設計了面向非相關文獻的知識關聯發現系統,依據主題詞的等級結構以及語義關聯或相似程度,構造文獻的隸屬和相關結構,最后計算文獻之間知識關聯程度。趙瑞雪等[35]綜合運用《農表》及其他詞表建立索引,構建了基于元數據搜索的統一發現服務,能夠實現一站式檢索、多維分面、學科導航及語義拓展功能。

隨著社會網絡的發展,大量的網絡社區也成為用戶獲取知識和解決問題的重要途徑,用戶在網絡社區的交流內容通過一定的挖掘和組織后,能實現更深層次的知識服務。陳果[32]以心血管領域為對象進行實驗,構建了基于《中文醫學主題詞表》和基于百科的結構化概念關聯體系,在丁香園心血管論壇中引入領域概念關聯體系,從概念間的細粒度關聯角度對用戶發帖內容建立相關關系,以實現知識關聯發現。

4 研究結論及展望

隨著一體化詞表的應用不斷拓展和延伸,從傳統環境下最基本的標引與檢索、詞表的互操作研究,發展到語義網環境下的本體構建和關聯數據發布,并為知識關聯提供概念支撐;從文獻信息組織擴展到網絡信息組織,并在不同的領域得到應用。其中,《中分表》《農表》的數字化建設領先于其他詞表,為一體化詞表的多方面應用奠定了較好基礎。未來還可以從以下方面實現理論與應用擴展。

(1)推動主題詞表的分面化改造。國內對于分類主題一體化的研究主要集中在醫學、農業領域,其他專業領域較少涉及。分面敘詞表是兼容性最好的分類主題一體化模式,將分面分類體系引入不同領域的主題詞表,可以彌補主題詞表缺乏內在邏輯性和分類體系的缺陷。另外,概念屬性的分面分析是本體的重要特征,因此在本體構建中分面敘詞表也能得到良好的應用。有研究調查了我國目前已編制出版的140多部主題詞表,這些主題詞表涉及多個學科領域,但現有詞表對新的信息和技術環境的不適應,使得其中70%都已處于休眠狀態,沒有得到利用與維護[36]。因此,加強主題詞表的分面化改造,是實現各類信息資源分類主題一體化的切實可行方案,可以進一步擴展分類主題一體化的應用領域。

(2)深化一體化詞表的關聯化研究。語義網絡環境中,一體化詞表要發揮語義組織與檢索、知識發現等功能,實現詞表的機器可理解、可操作、可執行是基本的前提和保障[37]。因此,如何將一體化詞表加工成形式化的、四星甚至五星的開放關聯數據是必須解決的關鍵問題。國內學者積極探索一體化詞表的關聯數據發布格式,如SKOS模型化。但許多研究聚焦于一體化詞表中主題詞表部分,對分類法部分重視不足,這也一定程度上導致了一體化詞表集成特性發揮的作用有限。部分學者曾對此提出進一步的轉換解決方案,如Zeng等[38]曾提出將OWL和SKOS結合,借助OWL的形式化邏輯解決類號組配與復分推理等問題,但是這些方案還未在實踐中得到驗證。此外,還需要對一體化詞表與其他詞表之間的關聯匹配進行深入探索,關聯數據五星標準要求就是不同RDF數據集之間構建關聯,因此還需探索不同詞表之間的語義映射方法,如引入帶有機器學習的新AI或許可以提高不同詞表間的語義互操作性[39]。

(3)加強一體化詞表的集成化、可視化研究,提升信息服務質量。在詞表的集成研究中,由于不同詞表的語義、層次結構,甚至是語言、文化的差異較大,導致詞表的集成和映射任務較為困難。鄧仲華等[40]曾提出多語種詞表的映射和擴展方案,可以為一體化詞表解決跨語言信息檢索的問題提供參考。還有學者指出利用本體和語義框架開發的敘詞表集成工具,可以解決敘詞表的層次結構模糊的問題,如VISTA工具旨在通過可視化詞匯層次結構來幫助用戶對兩個術語之間的賦值進行智能處理[41]。

用戶需求的滿足和使用的便利是詞表研究的最終目的,知識可視化和圖譜表示越來越受到歡迎,如何將這些源于其他實踐領域,但能夠提高用戶體驗的知識表示形式加以整合,也是一體化詞表需要考慮的。引入人工智能、機器學習、自然語言處理等領域的技術,探索構建知識圖譜的方法,通過一體化詞表本身的層級和概念關系,可以滿足部分推理需求,并且可以基于知識圖譜構建自動問答系統,為用戶查找問題并提高檢索質量提供幫助[42]。

探索一體化詞表實現方法與技術創新,從概念形成、概念類目映射到規范描述,均需圖書情報機構與專業機構、知識組織體系建設機構與應用機構等相關群體密切協作,提高信息資源共享程度,從而實現協同攻關。中國科學技術信息研究所提出的國家敘詞庫系統發展戰略[43],倡導加強全國性科研協作機制,對推動我國分類主題一體化詞表的發展具有重要意義。

猜你喜歡
詞表主題詞表標引
《〈漢語主題詞表〉構建研究》
《〈漢語主題詞表〉構建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
學術英語詞表研究管窺
——三份醫學英語詞表比較分析
《〈漢語主題詞表〉構建研究》
檔案主題標引與分類標引的比較分析
大數據時代數字資源的主題標引研究
關于關鍵詞標引的要求
關于關鍵詞標引的要求
國外敘詞表的應用與發展趨勢探討*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合