?

敘詞表集成化體系及應用推進研究

2022-05-19 06:58曾建勛
情報學報 2022年4期
關鍵詞:詞表集成化術語

陳 瑞,曾建勛

(1. 武漢大學信息管理學院,武漢 430072;2. 中國科學技術信息研究所,北京 100038)

1 引 言

敘詞表作為一類重要的知識組織工具,在文獻信息檢索方面發揮著重要作用。國內外根據情報檢索需求和應用陸續編制了大量的敘詞表,為用戶高效地獲取信息資源提供了便利,但是這些敘詞表資源很多未及時開發維護被束之高閣,只有很少的敘詞表相對活躍,整體應用情況不很理想。當下學科發展日新月異,知識更新迅速,科學研究的關聯度、交叉度進一步加深,對于文獻情報服務,靜態的單個敘詞表資源很難滿足涉及多學科、多主題的網絡信息環境應用需求??萍夹g語資源的規范化和集成化對于網絡信息資源的組織與利用十分重要[1],敘詞表資源的集成與應用有助于帶動現有資源的更新維護,優化知識組織體系,促進敘詞表資源規?;瘧肹2]。本文借鑒國內外詞表集成理論和實踐,構建面向不同領域、多元學科交叉融合的敘詞表集成化體系,旨在利用集成方式推動不同術語資源的規范化、形式化描述,不斷擴充、更新語義知識庫,拓展敘詞表應用范圍和應用模式,推動敘詞表資源的可持續發展。

2 敘詞表集成化應用的迫切性

2.1 敘詞表資源及其應用現狀

1959 年,美國編制第一部敘詞表,之后迅速發展。國際上敘詞表已超過2000 部,并廣泛應用于各個領域,一些主流詞表,如MeSH(Medical Subject Headings)建立了持續的更新機制[3]。1971 年出版的《航空科技資料主題表》是我國編制的第一部敘詞表,1980 年我國第一部大型綜合詞表《漢語主題詞表》正式出版,此后各專業情報機構紛紛根據需要編制一系列專業敘詞表,逐步確立了我國敘詞表編制的方法和標準[4]。以往敘詞表的編制主要是以人工為主,耗費了大量人力和時間,且更新修訂困難,已有的150 多部中文敘詞表中,僅有39%的詞表有過修訂,且修訂時間的間隔平均為10 年,修訂時間落后于相應科技的發展,而僅有9%的詞表比較活躍[5]。敘詞表的生命在于不斷地使用、維護與更新,眾多敘詞表的存在狀態及應用情況不佳,越得不到應用就會越缺乏修訂維護,導致概念過時、概念間關系簡單,久而久之不被使用。

敘詞表傳統的應用環境主要是圖書情報領域,未拓展到社會更加廣闊的知識利用環境中[6],主要原因表現在以下方面:①傳統的敘詞表資源面向專業的標引人員,對于一般用戶熟練使用有較高的要求;②眾多敘詞表資源分散在不同機構,并且缺少面向網絡的信息服務系統,未開放對外應用接口,一般用戶沒有了解敘詞表資源的機會以及獲取敘詞表資源的渠道;③傳統敘詞表主要由人工構建,知識結構簡單,難以被計算機直接自動利用,嚴重制約網絡環境下敘詞表的應用;④敘詞表資源未能與具體應用需求和應用環境相結合[7],缺乏在敘詞表資源基礎上的二次開發,很難直接應用到具體實踐中。

總體來說,當前的眾多敘詞表資源落后于相應的科學研究,缺少應用,缺乏修訂維護,這與日新月異的學科發展和知識更新現狀不匹配。同時,各領域、各學科的詞表資源分散在不同數據庫或不同的機構,各表之間缺乏互操作機制,缺乏統一的、規范化的資源描述,難以發揮整體協同作用,不具備大數據環境下計算機大規模資源處理的應用條件。隨著數字出版產業不斷發展,大數據、云計算、人工智能技術在各領域的應用都離不開基礎資源的組織和處理,敘詞表資源作為底層規范化的語義工具,應超越傳統的標引檢索,融入整個文本信息處理和知識組織過程之中[8],廣泛應用于搜索引擎、數字出版、數據挖掘和知識發現等各領域。敘詞表資源需要不斷完善內在結構和外在功能,逐漸由數字化向規模大型化、概念語義化、編制智能化和服務及應用多樣化的方向發展[9],發揮其更加廣泛的作用。

2.2 敘詞表集成化應用的必要性

國外許多機構進行了詞表集成實踐,具有代表性的集成項目有:英國高層敘詞表項目HILT(High-Level Thesaurus),采用映射方式集成67 部國際重要的敘詞表和分類表進行網絡信息服務[10];德國 KoMoHe (Kompetenzzentrum Modellbildung und Heterogenittsbehandlung)項目,對11 個學科的25 種受控詞表進行集成,實現了多個信息系統之間的分布式檢索[11];美國國立醫學圖書館組織建設UMLS(Unified Medical Language System)項目,通過概念融合方式整合了上百部生物醫學領域的術語資源,定義了54 種語義關系[12-13],構建了大型知識組織工具,并已將其應用到生物醫學專業數據庫的自動標引、智能化檢索、專業詞表的編制以及相關領域的語義關聯和知識發現中。國內參照UMLS 的體系框架和構建流程開展了一系列集成項目,包括CUMLS (Chinese Unified Medical Language System)中文一體化語言系統、TCMLS(Traditional Chinese Medicine Language System) 中醫藥一體化語言系統 、 STKOS (Science Technology Knowledge Organi‐zation System) 英文超級科技詞表等[14-15]。這些項目通過集成方式,整合多部敘詞表資源及其他術語資源,定義多種語義關系并開發面向具體應用的服務系統,推動敘詞表資源的應用。

敘詞表的集成創建具有重要意義,主要體現在以下三個方面。

(1)敘詞表的集成有助于盤活各種“閑置”的術語資源,通過集成方式進行各領域概念及概念關系的增、刪、改,帶動敘詞表資源的更新和維護,進而帶動各敘詞表的發展??梢岳米詣踊夹g集成新概念、新術語,及時反映學科知識的動態變化。傳統的知識組織結構對于等級、相關關系的描述過于寬泛和模糊,而利用集成方式融合當下語義網、本體資源的新型語義描述方式,對現有的術語資源進行深層次的語義關系細化,則有助于機器使用敘詞表資源進行知識推理。

(2)各領域的敘詞表資源進行集成,有助于擴展資源主題范圍,整合多來源、多語種、多學科、多類型的術語資源,實現更大范圍主題概念的覆蓋和語義關聯,體現大型詞表的學科集成優勢。單獨使用某一領域的敘詞表難以較好地組織和揭示網絡信息資源,利用集成方式對各領域的敘詞表、分類表、名錄、詞典、本體等不同類型的知識體系整合,可以擴充敘詞表的概念資源,同時,協同使用多種知識組織體系促進對信息資源的關聯和共享。

(3)通過集成方法建設規?;男g語資源、結構化的概念描述、豐富的語義關系、不同層次的語義資源和服務,將術語資源、語義工具和應用模式融為一體,有助于數據大規模應用取得成效。集成化的詞表資源和服務體系可以為自然語言的處理提供大規?;A資源,為信息加工提供自動切詞、自動標引、自動分類、信息抽取等功能,為知識挖掘和知識發現提供概念實體識別、語義識別、自動分類、智能推理等語義信息,起到術語規范和知識關聯等作用。

3 敘詞表集成化體系框架

圍繞規范化概念和語義關系表達,敘詞表的集成化試圖將各主題領域的敘詞表資源及各類術語資源進行歸并融合,構建一個語義關系豐富、明確的新型集成化詞表,并創新集成資源的應用和服務模式。敘詞表的集成化體系建設是一項系統工程,涉及不同語種、不同結構、不同領域術語資源的互操作及應用,需要從集成的標準、方法、過程、系統、應用出發,構建完備的集成化體系框架(如圖1 所示),標準規范體系對整個集成過程進行規范控制,是集成化過程的基礎;詞表集成化支撐體系輔助集成化過程的網絡化和自動化,是集成化過程的工具;詞表集成化概念體系明確集成后的詞表結構,是集成化的目標;自下而上的集成化過程包括多來源術語集成和語義組織與集成,生成集成化詞表;在此基礎上,提供面向用戶、面向機器的系統服務與應用,全面深化和拓展敘詞表資源的服務功能和應用機制。

圖1 集成化體系框架

3.1 標準規范體系

1)數據加工規范

在整個集成操作過程中,從數據資源的采集、存儲、篩選、描述到語義集成,都需要制定相應的操作規范和規則,以保證集成資源從形式到內容的加工質量。數據加工規范需要調研多來源術語資源的結構特征,明確詞匯資源采集的原則、數據表達規范、數據存儲格式,制定映射規則、關系校驗規則等,為整個集成操作的數據加工提供相應的標準與規范。

2)元數據統一描述

不同來源的術語資源,在總體結構、概念范圍、語義表示、存儲格式等方面均有差異,元數據描述各有區別。結構和描述的差異性為敘詞表的集成服務帶來障礙,因此,有必要設計統一的元數據框架,用統一的標記語言進行形式化描述。依據元數據設計標準,充分考慮元數據的準確性、全面性和擴展性,借鑒重用比較成熟和大眾認可的概念構詞描述形式,提煉出具體可行的元數據方案,以便保證多來源概念的統一管理。這些元數據標準和描述規范,一方面可以為不同知識組織系統之間集成融合提供支撐,另一方面可以為后續的服務應用奠定基礎,實現集成資源的網絡共建共享。

構建敘詞表統一規范的元數據框架,既需要客觀、真實地描述詞匯的來源信息和描述信息,又要充分地揭示詞匯與概念、概念與概念間的關系。元數據描述是分層的,主要分為來源描述元數據、宏觀結構元數據、詞匯概念元數據、語義關系元數據以及映射關系元數據,具體的層次框架如表1 所示。敘詞表以概念為核心,概念通過詞匯表達,對每一個來源表、詞匯及概念分配唯一的ID,便于查找和識別。來源描述元數據對來源概念、來源表(即原始詞表)進行基本描述,提供來源表各項信息。宏觀結構元數據包括主表與附表、主表與學科分類表間的關聯關系描述。詞匯概念元數據及語義關系元數據是描述的核心,詞形層面描述詞匯的名稱、拼音、英文或拉丁文、縮略語等非語義信息,詞義層面描述概念的定義、分類、概念間的關系;當前概念之間的關系主要包含等同關系、等級關系和相關關系,需按學科特征和語義類型進行拓展。集成化過程需要建立原始詞表與集成概念間映射關系、集成概念與附表術語間映射關系;除等同、上下位、相關映射類型外,可根據具體語義關系進行映射類型的細分。按照元數據框架選擇合適的形式化描述語言進行集成數據的描述與存儲。當下語義Web 技術的發展為詞表形式化描述提供了堅實基礎,單純使用一種描述機制容易丟失部分語義信息,可以采用SKOS (Simple Knowledge Organiza‐tion System)語義描述框架[16]、RDF Schema 描述機制[17]、DC(Dublin Core)元數據等多種描述方式,互相擴展補充進行敘詞表宏觀結構和微觀詞匯概念的形式化表示[18]。

表1 元數據層次框架

3)敘詞表編制、互操作標準

敘詞表資源的集成需要遵循敘詞表編制標準,依據敘詞表質量標準規范體系和詞表間互操作標準確定集成化詞表的概念體系結構,滿足敘詞表現行的一系列國際標準《信息與文獻——敘詞表及與其他詞表的互操作》(Information and documentation—Thesauri and interoperability with other vocabularies;ISO 25964)和國家標準《信息與文獻敘詞表及與其他詞表的互操作》(GB/T 13190),以及語義關系細化的本體化知識描述機制。具體到學科領域,術語表達方式存在差異,需要在遵循統一標準的前提下,按照學科特點制定具體的編制規則,并在集成過程中不斷調整完善。

3.2 詞表集成化支撐體系

敘詞表集成需要滿足不同術語來源下各學科領域專業人員的協同操作問題,有必要設計一套先進的、適用于敘詞表融合集成的操作平臺,為集成過程的自動化、集成化詞表的動態編制和維護提供強有力的支撐。該平臺依托互聯網技術,支持多用戶、分布式、可視化地協同完成集成化操作[19],包括開放式多來源數據的導入,集成化詞表的構建、審核、質量控制與管理、發布等一系列工作流程所需的各種功能模塊,平臺建設需要突出以下三方面的要求。

(1)協同操作機制。敘詞表集成化涉及各學科主題領域和專業人員,集成詞匯量眾多、語義關系復雜,需要通過分布并發式機制,實現集成化詞表的協同編制。平臺應充分考慮橫向多人同時分工協作與縱向不同過程協作的使用特點,以滿足多人、多地、隨時處理的需求,促進集成過程的實時溝通和協調。橫向協同應按不同的學科領域,以整表、詞族、概念等不同粒度建立權限分配操作管理機制,實現數據協同共享與沖突規避機制,保證集成融合過程的有序性;縱向協同需對詞表集成化全過程進行科學合理設計,包括任務指派、下發、編輯、提交、審核、監督、發布、更新,以及該過程中的數據自動核驗、人工干預等,實現集成融合的規范性。

(2)智能化輔助技術。融合集成工作平臺為集成化過程提供智能化輔助,最大限度地減輕集成過程中的人工工作量,加快集成化詞表的構建速度。積極探索概念的自動映射和自動歸并,語義關系的自動合并和語義關系沖突的自動糾錯,采用詞匯相關分析、文獻數據分析、語義關系挖掘、學科新詞發現、新術語評估等自動化處理技術,為集成工作人員提供語義關系推薦、學科分類推薦、新術語推薦等智能服務,提高集成化詞表的編制效率。伴隨著來源詞表的持續更新,集成化詞表需保持同步更新,借助自動化技術及時識別來源詞表的變更術語、及時整合科學文獻的新術語,實現詞表擴充和更新的動態發展[20],使詞表維護速度跟上學科的發展變化。

(3)可視化技術。結合中文集成化詞表的特點和用戶使用習慣,將多種可視化技術應用于詞表表示和知識組織的可視化、信息處理與操作的可視化、檢索過程和結果的可視化三個方面。采用點、線、平面圖、三維圖、數據表等方式從不同維度、不同層級全面、直觀、動態地展示詞匯概念及各種概念間的關系;集成化詞表支持多種語義關系的定義,設計一個敘詞表可視化過程,盡可能準確合理地展示出概念間豐富的語義關系,詞間關系一目了然,幫助用戶進一步明確概念的內涵,啟發用戶發現一些新的潛在信息并進行快速檢索和調整。同時,利用可視化技術優化平臺人機交互邏輯,簡化平臺操作復雜度,設計改進工作流,強化用戶體驗和反饋,輔助用戶分析、決策和管理,使集成化過程更加順暢。

3.3 詞表集成化概念體系

敘詞表集成化建設旨在繼承現有規范術語資源的經驗和成果,融合新的概念和關系,實現不同類型的知識組織體系之間的關聯整合,構建詞表集成化概念體系,生成集成化詞表。集成化詞表并非傳統意義上的敘詞表,以概念和概念語義網絡描述為核心,借助新的語義描述機制對語義關系的含義和類型進行拓展細分,采用特定的結構將各學科領域的敘詞表和相關術語資源組織匯編在一起,以獲得更好的應用性能。借鑒本體的描述機制,集成化詞表的體系結構如圖2 所示,主題概念繼承頂層概念的語義類型,將不同來源的多個詞匯、術語進行合并融合,每個概念歸入一個學科分類下;同時,保留來源詞表的詞義、概念和關系,建立多個來源表的概念與主題概念之間的映射關系,保障概念可以還原到原始的術語表中,將多來源知識組織體系有序地組織在一起;獨立的概念體系支持隨時添加新的概念和語義關系,從而對概念體系進行擴充。

圖2 集成化詞表的體系結構

頂層概念體系為所有集成的主題概念提供語義架構和分面框架,定義類體系、類屬性和類關系,具體步驟:①構建概念類,并從敘詞表的術語等級出發構建層級類;②確定概念屬性和屬性值類型,明確概念下語義類型。頂層概念體系不可能覆蓋所有的語義范圍,具體構建過程需要面向通用領域和專業領域,確定體系規模,優先采用語義明確、應用較廣的語義關系類型。從實用角度出發,認真梳理、充分借用已有的專業領域知識組織體系的結構與關系,同時,結合當下學科發展和應用需求,最終確定概念范圍的深度與廣度,進行合理的細化和描述。學科分類是涵蓋全學科的統一分類體系,確定術語資源的主要學科歸屬,亦方便為各來源概念提供統一的導航服務,輔助實現多來源概念的語義集成。對于學科分類體系的建設,參考《中國圖書館分類法》《中華人民共和國國家標準學科分類與代碼》(GB/T 13745-2009)及各專業分類體系,充分考慮學科交叉特征、類目層級深度,面向多個學科統一構建。

主表包括各學科領域的主題概念、術語、屬性和關系,主題概念包含同義詞、縮略語、注釋、分類號、英文、拉丁文、來源信息、詞頻信息等描述屬性,概念語義關系以“屬”“分”“參”進行細分。隨著敘詞表的不斷使用及網絡技術的發展,各領域敘詞表的結構與功能也在不斷發展和完善,對語義關系的描述更加靈活多樣[21]。眾多學科領域對等級關系及相關關系的語義類型和語義關系進行明確定義和細化,如等級關系又可細化分為屬種關系、整體-部分關系、類-實例關系等;相關關系表示兩個概念之間存在關聯,又可細分為物理上相關、空間上相關、功能上相關、位置上相關和概念上相關等;特殊領域需要結合學科領域特點從多方位對語義關系拓展細分,提供更加明確的、更符合用戶使用習慣的語義關系,如對于疾病的描述,可從病因、診斷、治療等角度具體化語義關系。附表可以豐富集成化詞表的術語資源,將一些名錄資源獨立于主表而存在,在不影響主表概念結構的情況下集成更多的術語資源,建立這些術語概念與主題概念間的映射關系。

4 敘詞表集成化過程和方法

眾多詞匯資源先經過采集加工建立詞匯集成庫,再進行概念層面的語義組織與集成,具體的語義集成化過程和方法如圖3 所示。針對各來源概念進行概念映射,映射主要是在不同概念體系中找到最相關的概念和參考信息。在映射的基礎上進行概念的融合集成,即集成化詞表的概念建設及概念語義關系重塑,在這個過程中需要將新詞匯、新語義關系的發現融合到概念體系中。融合集成過程可能會導致語義關系的邏輯問題,因此,需要進行關系一致性檢驗。整個集成過程離不開語義分析工具和人工專家的輔助,最終生成統一結構的集成化詞表。

圖3 語義集成化過程和方法

4.1 多來源術語集成

在集成內容上,為了有效擴展敘詞表的應用領域和應用范圍,集成的詞匯來源主要包括國家編制的綜合性詞表和各學科領域的敘詞表、分類表等規范化知識組織體系的一系列主題概念、概念關系和屬性描述,包括各類術語資源等更廣泛的詞匯概念,如詞典、名詞名錄、網絡百科、各類數據庫術語資源等大量專有名稱術語和專業科技術語。同時,集成系統的構建需要注重學科性和時效性,將學科的新進展和新術語及時集成到應用系統中。新術語的來源主要依賴兩類:一類是針對海量文獻信息資源進行數據挖掘,提取高頻概念術語;另一類則充分考慮當下用戶的需求,及時獲取用戶檢索高頻關鍵詞、用戶推薦詞等。

這些資源數量龐大,依據數據加工規范對數據進行清洗過濾,按照統一的元數據框架對術語資源規范化描述,綜合評估詞匯的詞性規范性、語義明確性、學科專業性及使用情況,篩選建立詞匯集成庫。詞匯集成庫為集成化詞表的構建提供數據來源和數據屬性參考,全面、高效地收集相關術語和術語信息(來源信息、詞頻信息、分類信息、使用信息等),保障來源詞匯的全面性和準確性。同時,詞匯集成庫包含眾多集成化詞表所沒有的術語資源作為集成化詞表的拓展和延伸,有效關聯更多的概念和詞匯,可以有效地幫助提高集成化此表資源與用戶語言的匹配效率[22]。

4.2 概念映射

不同來源的術語概念在集成時,首先需要進行概念間的映射并建立映射文件,為后續的概念融合集成提供參考。映射主要是建立多來源概念間的對應關系,找到等同映射、等級映射、相關映射關系??梢詮脑~匯層、結構層和語料層三個方面實現概念映射[23],按照這三個層次對應的映射方法歸納為基于詞形的映射方法、基于結構的映射方法和基于語料的映射方法[24]。

(1)基于詞形的映射方法。主要是基于詞匯的詞形進行匹配。對于單個詞匯,詞形相同即代表完全相似,否則判定為不相似;為了提高相似度,可以充分考慮漢語詞匯的構詞特征,借鑒基于詞素的相似度計算方法,針對多字的詞匯進行詞素的切分,通過考慮詞素匹配個數與在詞匯中的位置進行映射關系發現?;谠~形相似度獲得的映射關系,可能只是詞形相似,并非概念上的等同,需要進一步分析判斷。

(2)基于結構的映射方法。充分考慮敘詞表本身規范的結構形式,將詞表用代、屬、分、參各項結構內容作為主題詞映射的背景和語境,可以提高匹配效率。比較成熟的方法是構建詞匯語義向量空間,充分考慮結構語義信息,進行類目概念相似度的計算,最終依據匹配相似度大小和匹配類型拓展語義映射關系。

(3)基于語料的映射方法。主要是依靠外部資源挖掘類目之間的關系。根據語料資源的不同采用不同的映射方法,可以采用同義詞典(如WordNet、HowNet、同義詞林等語義詞典)有效改進基于詞性的相似度計算方法,但是通用同義詞典包含專業領域同義詞的規模往往較小,可以根據應用需求構建具體的同義詞庫??梢猿浞掷脴艘墨I資源,基于大規模語料庫統計方法進行映射,利用共現頻次關系,為概念間關系提供有益線索。

不同的概念映射方法具有各自的特點和應用場景,有的相互之間存在互補關系,在具體的集成映射實踐中,并不只是單一使用一種映射方法,需要有機地組合使用。映射作為語義集成的關鍵環節和重要方法,需要保障映射質量,減少融合邏輯問題。映射之初,必須建立明確適用的映射規則,對映射的通用規則、等同映射規則、等級映射規則、相關映射規則、組配映射規則規范化[25],討論映射的語義類型及映射的順序問題,優先建立哪些映射類型,建立映射關系后是否還拓展其他的映射類型,映射過程是否可以繼承和傳遞等,在映射過程中要充分考慮詞匯各項語義信息和語境信息,從不同角度的匹配來提高映射效率,保障映射概念的準確性。

4.3 概念建設

在統一的集成規范體系下,確定集成化詞表的概念范圍,進行概念和術語的篩選。多來源的概念詞匯難免存在交叉和重復的問題,需要對概念進行選擇和合并。對于概念的選擇,結合學科背景和實際應用需求進行調整,需要充分考慮概念的專業應用深度和廣度、概念的專指度,保障概念規范且含義清晰。在選擇概念的過程中,可以利用概念名稱、使用頻次和領域專家推薦法,以及文獻標題、摘要或關鍵詞部位和用戶檢索詞的調查分析,有效地反映當前發展趨勢和用戶應用需求,專家推薦可以保障概念的專指性和準確性,將各專業領域經常使用的、能夠準確表達科學概念的優先詞匯選定,對于一些詞頻低的概念,可根據具體應用情況進行選擇。在確定優選概念的基礎上,利用映射信息進行概念屬性的合并,將表達概念的同義詞、注釋、縮略語、譯稱、學科分類號等屬性信息進行查重、合并。依照概念的學科專業、內涵信息為每個概念分配一個或多個學科分類號,從多角度揭示概念的科學屬性,選擇與概念表達最為接近的類號,確保多個分類號之間不構成上下級關系。同時,給每個概念進行形式分類,將一個概念歸入一個語義類型,并繼承該語義類型的屬性,為后續語義關系的梳理提供規范和參考。

當前學科的交叉日益顯著,對于交叉概念的歸屬,應綜合考慮概念在相關概念體系領域的應用深度和廣度,放入某一概念體系下并建立概念間的參照關系。對于有歧義的概念,需要保障“一詞一義”,考慮是否可以改用其他詞匯,可以利用概念的屬性信息明確概念的內涵和應用領域,借助頂層概念的標簽對有歧義的概念進行限定,通過添加注釋對詞義不夠清晰的概念進行說明。對于融合過程中的一些復合概念,可以進行概念的分拆和合并,參照方面型關系構建主題概念及方面概念間的關系,進而從不同角度拓展語義關系。

4.4 語義關系重塑

豐富、明確而規范的概念間關系是集成化詞表的重要特征,是發揮其重要作用的基礎和條件保障。通過建立的等級映射、相關映射關系對概念的語義關系進行發現和細化,實現語義關系的重塑。以優選概念為核心建立邏輯合理、脈絡清晰的語義關系,一方面,是對現有規范詞表概念關系的繼承和合并,現有的眾多詞表資源包含豐富且可靠的概念關系,需要依據專業領域學科進展,圍繞優選概念的等級映射、相關映射關系剔除不合理和過時的語義關系,梳理可靠的上下位等級關系和細化不同方面的相關關系;另一方面,利用大規模語義計算技術將新的語義關系集成進來,考慮利用文獻詞匯共現關系發現、用戶檢索信息共現發現、專家和用戶推薦方式、詞匯上下文語境分析方法,并結合字面相似度計算、關聯規則算法發現新的語義關系及跨學科的術語間關系,將這些關系進行明確的形式化的表示。

在概念融合過程中,隨著概念的合并和關聯,概念體系的復雜度增加,不恰當的概念歸并容易導致概念語義模糊、產生歧義、語義關系沖突等各種邏輯問題。融合過程需要通過對概念關系邏輯的整理,提煉關系邏輯推導規則和判定規則,消除因融合導致的概念關系沖突。概念融合中常出現的邏輯問題有三種:關系沖突、關系循環和關系冗余[2,26]。關系沖突是指兩個概念之間同時存在等級關系和相關關系;關系循環是指出現互為等級關系的概念相互串接后形成收尾相接的環;關系冗余是指兩個概念之間的等級關系可以通過其他關系推導得出,不需要直接構建。關系校驗過程中,也存在部分概念之間的關系沒有邏輯錯誤,但由于來源表對概念劃分的分面角度、顆粒度的差異導致語義關系交叉,需要對這些邏輯問題進行一致性處理。這些邏輯問題涉及多個專業領域,需要借助計算機檢查發現問題,支持語義關系的可視化瀏覽,組織領域專家一一確認,人工糾正和處理。處理過程必須充分考慮概念集的使用目的、概念顆粒度的粗細,依據一定的處理規則和流程取舍優化具體的概念間關系,先進行邏輯錯誤的糾正,再考慮關系的優化,先進行一個詞族內檢查和解決,再拓展到多個詞族間進行處理,防止對某些語義關系的增刪改產生新的邏輯問題,進而保證整個集成過程有條不紊。

5 敘詞表集成化應用的推進策略

傳統的敘詞表資源在文獻資源的組織和檢索中發揮了重要作用,但其資源分散、語義體系相對簡單、應用場景單一,嚴重制約敘詞表資源在大數據環境下的應用。敘詞表集成化體系需要適應應用環境的變化,充分發揮集成資源在信息智能化處理中的作用,拓展新的應用模式。應用模式主要分為前臺服務模式和后臺應用模式:前臺服務模式主要是通過敘詞表集成服務平臺和微服務架構平臺為用戶提供良好的使用體驗和服務方式;后臺應用模式則需要整合整體概念資源,優化集成資源的組織、呈現和利用方式,提高集成化詞表的知識服務效率,兩者相輔相成,共同推進敘詞表的集成化應用。

5.1 以動態更新維護機制提升敘詞表集成化的可持續發展

很多詞表資源存在著數據應用更新不及時或者沒有更新的問題,實現集成化詞表的可持續發展,最重要的是保證集成數據的動態維護,在應用中促進不斷更新。集成系統是一個動態變化的體系,舊的術語不斷發展,新的術語不斷出現,需要建立專門的網站和維護人員進行在線管理,從數據來源、數據更新和數據應用三方面構建定期動態維護機制。將文獻語料資源新出現的重要術語概念及語義關系及時增補到集成化詞表中,滿足概念和語義關系及時、全面、準確三方面要求;重視用戶參與在線更新維護,提供實時在線反饋機制,適當吸納用戶的意見和反饋;并結合應用效果對詞表進行調整和優化,在應用中采集更新需求,并基于應用檢驗更新內容。集成化詞表的構建和完善是一個長期反復的過程,需要吸引各界社會力量參與進來,強調利用詞表的同時反哺詞表的更新,編用相互支撐形成良性循環,以保障集成化詞表的可持續發展。

5.2 以互操作接口形成敘詞表集成化的開放服務優勢

在開放環境下,集成系統資源如何得到高效利用,必須構建完備的互操作共享機制。集成系統通過術語服務與關聯數據服務將詞表資源進行整合和聯系,制定一定的共享約束條件,構建集成資源互操作共享機制。利用術語服務,進行詞表術語資源的規范和控制,實現機器可讀、可理解以及更方便的數據交換與共享,支持對詞表整體資源、術語及語義關系層面的元數據瀏覽、檢索、應用的各種Web 服務,促進分布異構資源的檢索與發現,通過API 支持機器對詞表及其內容的訪問和調用等。開發關聯數據服務,利用關聯數據一系列技術將集成數據進行鏈接結構化表示,構建計算機可理解的語義數據網絡,通過關聯數據服務與網絡中其他語義資源進行有效鏈接,在此之上構建更加智能化的應用。集成化詞表資源的術語服務不再是孤立地存在于特定的檢索系統中,而是作為一種關聯數據類型融入開放關聯的結構化語義網絡中,通過資源共享機制有效降低整合分布式異構數據源的復雜性,提高資源的利用率,通過關聯推動集成化詞表資源與其他資源形成共享服務優勢,有效推進相關知識的發現,實現數據融合和語義服務。

5.3 以合作開發機制拓展敘詞表集成化的應用場景

集成化詞表涉及的領域非常廣泛,可應用的領域也非常廣,突破圖書情報領域應用范圍,拓展應用到電子政務環境、電子商務環境、大型企業知識管理、醫學、教育等專門的行業或領域之中,建立集成化詞表與相應的應用業務相結合的應用模式,考慮嵌入特定的應用系統平臺中對特定應用場景提供詞匯支持,支持具體業務的知識組織與利用。集成化詞表資源統一的形式化描述可提供信息自動化處理的基礎數據,可以考慮與具體的行業機構進行合作開發和利用,在集成化詞表現有資源的基礎上,深度開發面向具體應用環境的專用詞表以滿足特殊需求,共享開發成果。集成化詞表可以選擇合適的平臺、網站、系統等運營平臺,推進引進平臺、網站、系統中對集成化詞表的嵌入式利用模塊,進而普及拓展集成化詞表在更大范圍的應用,充分發揮集成化詞表的社會價值和經濟價值。

5.4 以敘詞表服務平臺深化敘詞表集成化的社會影響力

集成化詞表需要基于專門的網站或平臺,作為其對外服務的直接門戶,提供術語層、概念層、語義層和工具層不同層次的知識服務。用戶通過平臺可以進行查詢、瀏覽、檢索、下載及編輯操作,免費檢索詞表中的概念,查詢術語信息,獲取同義詞、上下位詞、相關詞等語義相關的概念,了解各來源詞表的基本信息和歷史版本,根據自身需求對各詞表進行選擇和瀏覽。同時,平臺結合當下熱門技術,提供個性化服務,如為用戶提供術語概念的可視化展示、主題圖服務及敘詞表向本體轉化提供基礎服務等,方便用戶理解和使用。平臺也可適當的將集成化詞表部分內容免費授權給提供公共服務的社會機構,通過在線服務和免費的詞表應用,不斷提升集成化詞表的社會認知度,使集成化詞表在更廣泛的范圍內被大眾所認知。

5.5 以微服務架構延伸敘詞表集成化的服務功能

微服務是將傳統的單體服務拆分為多個不同的、實現某個具體功能的單一服務,然后,通過遠程服務調用實現各個服務的使用,多個服務共同組成一個完整的系統,該服務架構最大的特點是構建高度模塊化、可擴展、可定制的個性化應用平臺。圍繞集成化詞表資源開發詞表一體化微服務應用平臺,在詞表業務基礎上開展最小單元應用服務,不斷延伸集成系統的服務功能。利用微服務平臺主要提供機器可讀的詞表整體資源服務以及機器可調用的語義開發工具服務。詞表集成系統開發術語映射輔助、自動標引、知識挖掘、學科發展分析預測等語義應用工具,通過API 應用開放接口,將集成系統的術語服務、文本分析、主題分析、自動標引、學科分類等各項業務通過網絡對外發布開放,更好地推動大數據環境下敘詞表資源在中文自然語言處理、人工智能技術的應用。同時,微服務應用平臺允許其他信息系統、門戶網站接入,通過鏈接和調用到各應用系統本地,擴展其資源服務能力,最大限度地提高資源使用的便捷性,這樣將大大提高集成化詞表利用效率。

5.6 以版權管理機制推動敘詞表集成化的共建共享

敘詞表集成化涉及多渠道詞表資源的采集與整合以及集成之后詞表資源的開放共享,需要明確開發和應用各主體間的權利和義務,建立數字版權管理機制和相應授權機制,實現參與主體數據價值釋放和融合發展,進而推動集成化詞表資源更大限度地共建共享。探索建立基于詞表集成共享聯盟的版權合作機制,增加數據許可使用條款,即集成化詞表資源的編制者、發布者、使用者之間就數據使用中的義務、許可使用范圍、具體使用方式、非授權使用限制等方面達成開放共享協議,明確責任分配,在應用過程中保障各方的利益。同時,逐步細化建立可兼容多類型和多層次的靈活授權機制,面向不同的應用需求提供以學科、整表、詞族、概念、功能等不同粒度的權限分配和分級服務模式,在知識產權框架下推進集成化詞表開放應用。對于編研機構及其他公益性社會應用,需按照開放許可協議,在標注來源的前提下發布、利用;對于公司或企業以及其他的產業化應用,根據服務層次和應用效果可以適當收取費用,推動集成化詞表資源的傳播和發展。

總體來說,敘詞表集成系統有很大的應用空間,但是當前圍繞集成化詞表資源的應用工具和產品還不夠成熟,社會應用場景還有待開發,有必要提升集成資源的可獲得性和可用性、開發嵌入式語義工具、探索集成化詞表的社會應用渠道和版權管理機制,有效改善集成化詞表的獲取環境,支持更大范圍地利用敘詞表資源進行知識描述和知識發現。

6 結 語

本文針對敘詞表資源缺乏修訂、更新緩慢、自動化程度低、落后于學科發展的現狀,提出構建面向不同領域、多元學科交叉融合的敘詞表集成化體系。整個集成化體系通過標準規范體系、詞表集成化支撐體系、詞表集成化概念體系建設,利用多來源概念映射、融合方法形成集成化詞表。在保留既有語義的同時,拓展和豐富詞表內涵和關系,為大規模、開放式、合作式敘詞表創新應用服務提供有力推進支撐,實現敘詞表資源的高效、有序、可持續發展。敘詞表的集成建設借助計算機技術概念量不斷擴大,語義關系更加復雜和細化,詞表的應用逐漸從以人工為主轉換到以機器為主,從文獻檢索領域擴展到自然語言處理和知識計算服務等領域。在未來,提高集成過程自動化及智能化水平,強化敘詞表在大數據環境下的創新應用和服務,構建敘詞表的應用生態機制,仍然需要進一步研究和探索。

猜你喜歡
詞表集成化術語
面向分級閱讀的分級詞表研制*
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
貿易術語修改適用問題探討
博格華納向集成化轉型
淺析集成化建筑生產方式
基于價值鏈的企業信息化財務監控分析
大型國際活動報道的集成化呈現
基于語料庫的詞表創建原則及方法研究
翻譯適應選擇論下中醫術語翻譯探討
常用聯綿詞表
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合