?

詞表語義類型框架與學科差異分析*
——以圖書情報領域為例

2023-11-10 11:53葉均玲徐雷劉瑜
數字圖書館論壇 2023年9期
關鍵詞:圖情詞表類目

葉均玲 徐雷 劉瑜

(武漢大學信息管理學院,武漢 430072)

學科領域詞表是科技名詞統一與規范工作的一部分內容,也是一項重要的科技成果,具有重要的科學研究與應用價值。詞表的編制一方面凝結了某一學科領域的智慧,揭示了學科的基本研究對象、研究方法和知識體系等內容;另一方面,詞表一般遵循一定的信息組織原則與方法進行編制,對學科領域的知識進行系統性組織,有利于學科領域的發展以及科技名詞的使用、宣傳和普及工作。經全國科學技術名詞審定委員會發布的詞表依據學科知識體系,收錄具有學科學術特點、構成學科基礎、常用且重要的名詞。目前已陸續公布共計159個詞表,內容覆蓋基礎科學、工程與技術科學、農業科學、醫學、人文社會科學、軍事科學等領域。2019年科學出版社出版了《圖書館·情報與文獻學名詞》[1]一書,共收集編撰了3 436個該領域(不包含檔案學)的詞匯,解決了圖情學科中存在的用詞隨意、翻譯不標準、一詞多義、一義多詞等問題?!秷D書館 · 情報與文獻學名詞》分為圖書館學情報學基礎、圖書情報工作管理、信息資源建設、信息組織、信息檢索、情報分析與研究、信息服務與用戶研究、文獻學8個一級類目,具體類別的劃分主要依據詞匯主題之間的相關性,例如在圖書情報工作管理類別下又劃分有一般概念、組織機構、圖書館建筑與設施等7個二級類目,二級類目下則是具體的詞匯。這種以相關性為主的組織方式易于操作,但在對詞匯的語義內涵揭示方面存在不足,具體體現在詞匯之間缺乏豐富的語義關系、未對詞匯的本質類屬進行劃分,以及不同類別下詞匯內涵存在交叉重疊。正如《圖書館 · 情報與文獻學名詞》前言部分提到的“該學科是包含廣泛知識的跨學科領域,不僅學科內部彼此交叉甚多、很難截然分開,學科外部與其他知識也有著千絲萬縷的聯系”[1],這為從不同維度對詞表進行重新分析與組織提供了可能。本文以《圖書館·情報與文獻學名詞》為分析對象,借助頂層本體對詞表的語義類型進行再組織,同時和其他學科的術語分類體系進行對比,為對學科詞表的認識理解以及編撰提供了新的視角和啟示。

1 相關研究進展

詞表編制有助于推進領域知識體系的建設和標準化工作,對詞表的分析和應用研究則有助于審視詞表編制工作中的不足,推進詞表工作的進一步發展。其中,對領域詞表的分析可從詞表的外部和內部特征兩個維度展開:外部視角分析主要對詞表的基本情況和發展歷程進行梳理,包括詞表編制規則、基本結構[2]、詞表版本和編制機構[3]等;內部視角分析則深入詞匯內容,開展詞匯基本特征分析和詞表語義化、再組織等工作。詞匯基本特征分析[4]是對詞表內容構成的初步揭示,包含詞語分詞、詞匯聚類、詞頻分析等;而詞表語義化、再組織工作基于信息組織方法與工具,豐富或重構詞表編制方法和知識體系,例如基于簡單知識組織系統(Simple Knowledge Organization System,SKOS)等構建術語詞表間的概念關系[5]、將敘詞表轉換為本體、構建詞表頂層語義類型框架[6]等。此外,在全國科學技術名詞審定委員會公布不同學科詞表后,也有學者基于知識服務平臺“術語在線”對比分析不同學科術語含義。在詞表應用方面,國內外都有豐富的實踐,主要集中在提供術語服務和構建語義知識庫[7]等方面,例如“術語在線”可提供術語檢索、術語標注和術語圖譜等服務??傮w來說,對于領域詞表而言,提升關聯性和互操作性對于提升詞表結構化程度,推動詞表的應用和普及具有較大的價值。

2 詞匯基本特征分析

2.1 詞頻分析

詞表中包含了“數據”“信息”等原始詞匯以及經過概念組配的復合詞匯,如“科學數據”“信息組織”等。使用中文分詞工具jieba對原始詞匯進行分詞處理,對分詞結果進行詞頻統計并選取詞頻排名前100的詞繪制詞云圖,如圖1(a)所示。另外,中文詞綴一般可表達詞匯的真實語義類型,例如“最大效用原則”一詞釋義為“對有限的資源進行最優組合,使資源的有效利用達到最大的滿足程度的原則”,其詞綴“原則”即可揭示該詞匯的本質內涵,對詞綴的分析能夠進一步挖掘學科領域的核心研究對象。因此,對所有詞匯的詞綴進行詞頻統計并繪制詞云圖,如圖1(b)所示。

從圖1(a)中可以發現,“信息”一詞的出現頻次最高,這一點在詞表的組織框架上也有體現:該詞表包含了信息資源建設、信息組織、信息檢索和信息服務與用戶研究4個與信息的生產、組織、檢索和應用密切相關的部分。信息是圖書情報領域的基本對象,傳統的圖書文獻與當前的數字信息資源都屬于廣義的信息范疇,同時對信息的研究與實踐也充分體現在DIKW(Data-Information-Knowledge-Wisdom)模型從數據到信息、知識、智慧的層級結構中。如圖1(a)和圖1(b)所示,“檢索”一詞的出現頻次都位于前列,這不僅反映了檢索是圖情領域的核心研究對象,還體現了該領域以信息檢索為核心業務的實踐特征。進一步分析發現,“圖書館”“文獻”“索引”“目錄”“標引”和“服務”等的出現頻次都位于前10,體現了圖情領域研究與實踐的核心內容。一方面,圖書館、文獻等作為內容載體,在科學知識生產與消費中起到了推動知識交流與傳播的作用;另一方面,圖書館的智慧化建設、文獻的形態變革能夠進一步推動圖情事業的發展?!八饕薄澳夸洝薄皹艘眹@著信息資源的組織,體現了圖情領域注重分類方法研究和分類工具研制的特點;“服務”一詞則表明了學科研究的目的和導向,即面向用戶需求提供各種信息服務方案。此外,在對詞綴詞頻的統計上,發現“本”“法”和“分析”的詞頻排序比較靠前。其中,“法”有兩個內涵指向:一是方法,如分類法、標引法、索引法、排架法等,這體現出圖情領域較為成熟的信息組織方法體系;二是法律,如信息法、圖書館法等?!氨尽敝饕糜诿枋鑫墨I尤其是古籍的不同版本,如刻本、抄本、印本等,集中在文獻學部分,這體現了詞表的文獻學構成特征。

2.2 詞匯組織形態的不足

詞匯組織形態主要體現在詞匯所在的目錄體系上,具體來說原始詞表的8個一級類目下又另設多個更細粒度的類目,共有8個一級類目、44個二級類目,類目的設置主要依據詞匯之間的主題相關性,例如在信息組織一級類目下的分類法二級類目列出了與分類方法、分類表、分類規則等相關的詞匯。詞表的原始組織方式雖然在一定程度上反映了詞匯之間的相關性,但這種相關性粒度太粗,無法深度體現詞匯的概念內涵及詞匯間語義關系。例如,在圖書情報工作管理一級類目下,圖書館聯盟、科學數據共享同屬于合作與共享二級類目,但實際上圖書館聯盟是圖書館合作組織,科學數據共享則屬于一類事件,這兩個詞匯對應不同的事物類型,而原始的組織方式無法體現詞匯的本質屬性。再如,在圖書館建筑與設施二級類目下,有書架、書架側護板等并列的詞匯,這兩個詞匯間具有包含的語義關系,但原始的組織方式同樣無法體現這種語義關系,上述情況在整個詞表中大量存在。為探究詞表詞匯的語義本質內涵,挖掘詞匯間關聯關系,通過引入頂層本體并構建詞表語義類型框架來解決上述問題,為學科詞表的深度語義理解提供新的視角。

3 基于頂層本體的詞表語義類型框架

3.1 頂層本體選擇

本體作為概念的形式化說明,其通過領域的核心概念、概念的內涵和外延、概念之間的復雜關系來全方位地刻畫領域事物,其中頂層本體用于描述獨立于單個領域的通用性概念?;陧攲颖倔w的分類思想,將詞表中的詞匯根據術語的語義內涵重新分類。目前頂層本體的構建工作較多[8],較為著名的是SUMO(Suggested Upper Merged Ontology)[9]、UCO(Upper Cyc Ontology)[10]、IFF(Information Flow Framework)[11]、DOLCE(Descriptive Ontology for Linguistic and Cognitive Engineering)[12]、OCHRE(Object Centered High Level Reference)[13]和BFO(Basic Formal Ontology)[14]等本體。除上述本體之外,研究人員還陸續構建了其他頂層本體并將其投入大規模應用,如UFO(Unified Foundational Ontology)[15]、GFO(General Formal Ontology)[16]等。

頂層本體的語義框架較為抽象,為確保詞表語義類型框架的科學性和適用性,篩選出契合圖情領域詞匯特征、應用較為廣泛、形式較為規范的頂層本體作為可參考的語義框架。由于DOLCE融合了人類的感知和認知特征[17],相較于BFO、SUMO等本體更適合描述包含人類認知產物的抽象對象,考慮到圖情領域與社會活動和信息資源密切相關,最終選擇DOLCE作為詞表語義類型框架。

3.2 圖情詞表的語義類型框架設計

構建詞表的語義類型框架是一個自頂向下和自底向上相結合的過程:一方面,根據頂層本體的分類思想重新組織和歸類詞表中的詞匯;另一方面,基于詞匯的內涵有選擇地繼承、調整、改造DOLCE中的概念。頂層本體映射流程如圖2所示。為保證詞表語義類型框架的客觀性和合理性,一方面基于頂層本體相關研究中對類和屬性的解釋和實例來確定頂層本體的含義;另一方面結合詞匯詞綴和詞匯釋義確定詞匯的語義標簽,聚類語義標簽之后與頂層本體分類框架進行對齊、關聯,從而構建出最終的詞表語義類型框架。

全國科學技術名詞審定委員會在名詞審定章程中說明,在擬寫名詞定義時力爭按“屬+種差”模式擬出并推敲斟酌,以顯示術語間的從屬關系,即詞匯釋義文本中末位的“的”字和釋義末尾句號之間的詞匯可視為詞匯的本質類型,而詞匯后綴在一定程度上也能反映出詞匯的本質,因此結合詞匯釋義中對詞匯內涵的界定和詞匯后綴共同確定詞匯的語義標簽。詞匯的語義標簽不宜過于抽象,否則可能放大詞匯的真實含義,導致語義類型框架缺乏層次性;但也不能過于具體,否則會給后續語義標簽聚類工作帶來負擔,影響語義類型框架的簡潔性。表1給出了語義標簽的部分標引規則。在為詞匯賦予語義標簽的過程中發現,使用詞匯后綴便于尋找詞匯的同位類以及下位類,而使用詞匯釋義中的內涵界定便于尋找詞匯本質也即詞匯的上位類。由于對詞匯賦予語義標簽并進行聚類是一個自底向上的過程,在詞匯詞綴和本質類型都能體現詞匯語義特征的情況下一般優先選用詞綴,從而將具有相同本質類型的詞匯聚類,以便于后續與頂層本體分類框架映射。

在標注詞匯語義標簽后,人工開展語義標簽的聚類工作,得到32個標簽集,標簽集的名稱、含義及其包含的語義標簽示例如表2所示,將標簽集與DOLCE的分類框架進行對齊。DOLCE的頂層類有靜態實體(Endurant)、動態實體(Perdurant)、屬性(Quality)和抽象域(Abstract)[17],其中:靜態實體(Endurant)類用于描述不受時間因素限制的實體,例如Agentive Physical Object類下的實例“a human person”;動態實體(Perdurant)類則相反,其必須存在于一定的時間情境下,例如實例“跑步”“寫作”等。在對靜態實體(Endurant)類的細分方面,主要依據是否具有物理存在分為“physical”和“non-physical”,以及依據是否存在意圖、信念和欲望分為“agentive”和“non-agentive”。此外,屬性(Quality)和抽象域(Abstract)類作為分類框架的補充,屬性(Quality)內生于靜態實體(Endurant)和動態實體(Perdurant),具體有時間、地點和抽象屬性。對齊的過程中發現,在借鑒DOLCE分類思想的基礎上,應根據圖情詞表詞匯特征進一步細化對齊過程。例如,在對數字資源的分類上,“數字圖書館”“網頁”“計算機系統”等詞匯因存在于網絡空間而不具備物理屬性,但是其作為數字化資源的載體具有承載數字化信息資源的功能并且具有唯一標識符作為其存在的位置指向,因此依然將其劃分為物理對象(Physical Object)。按照上述標引規則與對齊路徑,詞表中所有詞匯都可歸入語義類型框架,詞表的語義類型框架如圖3所示。

表2 標簽集名稱及其含義

圖3 圖書情報學詞表語義類型框架

在此基礎上對原始的8個一級類目和圖3所示的32個語義類型進行交叉分析,其中將抽象屬性、時間屬性和地點屬性統一為屬性(Quality),如圖4所示。具體來說,圖4中交叉程度較高的部分主要集中在信息組織一級類目和事件語義標簽集上,整體的交叉程度不高,表明原始的詞匯組織方式和詞表語義類型框架是兩類差異較大的詞匯組織體系,詞表語義類型框架可為理解詞表提供新的視角。具體來看,在8個一級類目中,圖書館學情報學基礎類目主要包括學科、信息對象、理論學說和系統平臺等標簽集;圖書情報工作管理類目主要包括建筑場所、圖書館設備用品、人員、組織機構等標簽集,即圍繞著圖書館及其內部人員、設備情況,并收錄了相關的圖書情報機構;信息資源建設類目主要包括文獻資料、方法和信息對象等標簽集,列舉了典型的文獻資料、圖書館對文獻資料等的整理方法以及信息、資源兩類信息對象;信息組織類目主要包括目錄、方法、語詞、符號、原則標準和信息對象等標簽集,該類目的詞匯數量占比較大,這表明信息組織在圖書情報學領域的重要地位,也反映出信息組織研究的成熟度較高;信息檢索類目主要包括平臺和方法等標簽集;情報分析與研究類目主要包括方法和信息對象等標簽集,圍繞情報研究方法和情報對象;信息服務與用戶研究類目主要包括人員和心理狀態等標簽集,這也在一定程度上反映出信息服務與用戶研究的重點指向;文獻學類目主要包括文獻資料、目錄和文獻載體等標簽集,這與文獻學的學科內容緊密相關。

圖4 兩種詞匯分類框架的交叉分布圖

4 詞表分類框架的學科差異分析

考慮到圖情領域具有明顯的交叉學科特征,其發展離不開信息技術,圖情學科中的理論方法又可被應用于醫學、生物學、國家安全學等學科,因而嘗試從學科差異角度分析圖情詞表與其他學科詞表分類框架設置的差異,從而為圖情學科的定位以及圖情詞表的后續編制提供參考。參考萊頓大學的科學研究領域分類[18],收集分屬于基礎科學、工程與技術科學、生命與地球科學、生物醫學與健康科學和人文與社會科學領域的共16個詞表(見表3)的分類框架,并總結不同領域詞表的分類體系特征,與圖情詞表進行比較,探索不同學科在知識組織方面的邏輯差異??傮w來說,學科詞表圍繞概念體系的基本框架收錄科技名詞,其體系設置遵從中圖法分類原則:從理論到實踐,從基礎理論到應用;按事物發展從簡單到復雜、從低級到高級的次序,按社會及社會現象的發展過程;按從一般到具體、從總論到專論的次序。在此基礎上,不同學科領域在分類框架的設置上也表現出明顯的差異。

表3 學科領域與典型的學科詞表

基礎科學領域的詞表基于學科概念體系,直接以分支研究方向為詞表的分類框架,其類目之間具有顯著的區別,這依賴于數學、物理學等基礎性學科的悠久學科歷史,而圖情學科尚不具備該特征,其一、二級類目設置存在明顯的交叉。生命與地球科學領域詞表同樣基于學科的核心構成劃分,添加了交叉學科性質的主題,并呈現出從靜態概念到動態應用的趨勢。工程與技術科學領域的詞表按照從通論(總論)到具體研究分支主題、從理論到實踐、最后補充新興交叉學科概念的框架組織,體現出工科類學科立足于基礎學科原理、面向生產實踐的特性。相比于這兩個領域的詞表,圖情學科現有的詞表框架中尚且缺乏能夠體現交叉學科性質的詞匯[19],如數字人文、元宇宙、安全情報學、健康信息學等,這不僅表現出當前詞表在類目組織上的不足,還表明當前詞表編撰更新的滯后性。生物醫學與健康科學詞表面向醫學研究與實踐,體現出較強的實踐性和業務邏輯。例如,《精神醫學名詞》下設置了總論、癥狀與體征、診斷分類、治療和常用量表5個一級類目,圍繞著精神醫學診斷治療展開,其類目具有明顯的邏輯關系,而《圖書館·情報與文獻學名詞》目前主要以主題羅列的方式組織。人文與社會科學領域的詞表總體上也按照核心主題劃分,特別之處在于其注重梳理學科發展歷史脈絡,如《經濟學名詞》《教育學名詞》專門設置章節介紹經濟思想史、教育學史相關名詞,而《圖書館·情報與文獻學名詞》相對弱化學科歷史,僅有“圖書館史”一詞表明圖書館和圖書館事業產生和發展的歷史。

5 結論與啟示

5.1 結論與不足

從詞表內部語義特征和外部學科差異入手重新組織和認識了圖情領域詞表:先從詞頻等角度認識《圖書館·情報與文獻學名詞》的詞匯分布情況和組織形態,再從語義視角借助頂層本體的分類體系構建《圖書館·情報與文獻學名詞》的語義類型框架,最后在學科交叉融合的背景下,跳出圖情領域視角,比較全學科詞表分類框架的差異。在詞匯分布方面,《圖書館·情報與文獻學名詞》圍繞“信息”“檢索”“圖書館”“文獻”等核心詞匯,體現出圖情學科的應用性、方法性特征;在詞表組織方面,《圖書館·情報與文獻學名詞》的原始組織方式雖然在一定程度上反映了詞匯之間的相關性,但無法深度體現詞匯的概念內涵及詞匯間語義關系。在詞匯的基本組成單元即“詞匯+含義解釋”的基礎上,為總共3 436個詞匯賦予語義標簽并得到32個語義標簽集,在與頂層本體DOLCE對齊后得到詞表的語義類型框架,提供了從語義視角認識詞表的新途徑。通過與全學科詞表的比較分析,梳理了不同的詞表分類體系的特征與差異。不過,研究也存在一些不足:詞表詞匯量較大且語義關系類型多樣,在實際操作過程中難以窮盡,后續可結合具體場景來設置抽象的詞匯語義關系類型。

5.2 啟示

詞表編制和發布有助于推進圖情學科研究體系的構建和學科名詞規范化事業的發展,但是通過分析發現主要基于主題相關性的詞表組織方式未能體現詞匯的語義本質,詞匯間缺乏語義關聯。本文在詞表語義化的方向上進行了初步探索,未來可進一步探究結合詞匯主題特征和語義特征的詞表組織方法,改善詞表的編制與更新機制,推動詞表的標準化發布與應用。

具體來說,當前基于詞匯主題特征的術語組織方式的主要優勢在于可簡便快捷地將候選術語組織在一起,在組織層面操作性較強,而基于詞匯語義特征的組織方式則需要進行詳細的領域分析,構建領域概念框架及類屬結構,操作成本較高但對領域的揭示程度更高。兩種組織方法各有優劣,未來可探索結合這兩種方法的術語詞表組織方式。

通過前述分析發現,《圖書館·情報與文獻學名詞》中尚且缺乏具有交叉學科特征的前沿性詞匯,未來可思考更新詞表的新途徑,如通過構建學科語料庫、借助機器學習算法自動化抽取學科新興詞匯,再由學科專家集體決策來完善詞表的知識體系。例如,CSO(Computer Science Ontology)[20]基于包含約1 600萬種出版物的數據集,使用Klink-2算法自動生成樹狀結構的領域詞表,可通過在新發布出版物上運行該算法進行自動更新。相較于專家人工編制的詞表,CSO不用經歷漫長的詞表編撰歷程并且能夠自動化更新本體詞匯,還添加了relatedEquivalent、superTopicOf和contributesTo等語義關系來描述研究主題之間的等價、父子和貢獻等關系。這種以智能化算法為主構建學科詞表的方式值得在未來深入探索,并嘗試應用在圖情學科詞表的編制及學科新名詞的發現之中。

學科詞表相關工作的目的之一是推動科學技術名詞的宣傳推廣和應用普及,但詞表目前所依托的“術語在線”平臺僅提供術語查詢服務,而不具有數字化版本詞表的瀏覽、交互、引用等功能,這在一定程度上限制了用戶對詞表的使用。今后應當全面布局詞表的數字化、標準化發布與共享工作,以更好地促進學科研究和領域實踐。

猜你喜歡
圖情詞表類目
數字時代圖情檔學科教育的數據化創新
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
本期練習題類目參考答案及提示
新文科建設背景下的圖情檔學科建設(筆談)“新文科”呼喚圖情檔成為“硬”學科
聚青年學者之睿智 窺圖情檔學科之未來
——寫在《圖書與情報》“圖情檔青年學者專輯”出版之前
敘詞表與其他詞表的互操作標準
中國盲人數字圖書館服務情況及展望
《中圖法》第5版交替類目研究綜述
黃三角、長三角、珠三角明、清及民國通志一級類目比較*
DDC22與CLC5化學類目映射分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合