知識圖譜在數字資源開發與利用中的應用研究

2022-07-10 23:29孫安

河南圖書館學刊 2022年6期

孫安

關鍵詞：知識圖譜;數字資源;知識組織;語義化建設

摘要：知識圖譜強大的語義數據表示能力與智能化的語義數據檢索能力深受數字資源組織青睞。文章闡述了知識圖譜的概念，介紹了數字資源建設發展概況，構建了基于知識圖譜的數字資源開發與利用的技術體系，總結了知識圖譜在數字資源開發與利用中的特點，以期為相關研究提供參考。

中圖分類號：G250.7 文獻標識碼：A 文章編號：1003-1588（2022）06-0121-05

自2012年5月Google公司提出“知識圖譜”概念后，知識圖譜強大的語義數據表示能力與智能化的語義數據檢索能力深受數字資源組織青睞。近年來，數字人文研究熱不斷升溫，圖書館作為文獻信息資源的集中地，逐漸在該領域顯現出“數字資源占有”這一獨特優勢，涌現出大量圍繞數字人文數據基礎設施平臺建設的相關研究成果，主要討論如何將信息資源進行數字化、數據化、語義化轉變，以滿足人文研究與數字計算等服務要求，這給圖書館的數字資源開發與利用工作帶來了機遇與挑戰[1]。

然而，學界給“知識圖譜”概念賦予了多種含義，不同領域研究的知識圖譜其概念所指與研究方法差異頗大。文章首先理清了知識圖譜在圖書情報領域中的概念內涵，并指出筆者研究的知識圖譜屬于知識組織領域范疇;其次分析數字資源建設發展的三個階段，指出當前本體、知識圖譜、自然語言處理等語義技術被廣泛應用于數字資源的知識組織與語義描述中;再次討論了基于知識圖譜的數字資源開發與利用工作的關鍵步驟;最后對知識圖譜在圖書館學領域的應用實踐特點進行了總結，并展望了知識圖譜未來的發展趨勢及其研究任務。本研究可為當前圖書館、檔案館、博物館的數字資源建設提供技術與理論指引。

1 知識圖譜概念闡述

知識圖譜在學界被賦予了多種含義且涉及不同研究領域，主要有兩類：第一類為科學學研究范疇中的科學知識圖譜，簡稱知識圖譜（Knowledge Mapping，KM）。該研究領域主要關注科學研究發展動態及趨勢、科學熱點問題以及科研合作狀況。其概念可被定義為：用可視化的方式描述人類隨時間擁有的知識資源及其載體;繪制、挖掘、分析和顯示科學技術知識以及它們之間的相互聯系，在組織內創造知識共享的環境以促進科學技術研究的合作和深入[2]。研究方法主要有：引文分析、共現分析、統計分析、聚類分析等。圖譜類型不限，主要有：點狀圖、球狀圖、根狀圖、節點聯系圖、聚類圖、時間坐標系、戰略坐標系等一系列可視化圖譜[3]。

第二類為知識組織研究范疇中的知識圖譜（Knowledge Graph，KG），由Google公司阿密特·辛格（Amit Singhal）于2012年5月在公司官方微博上發表的“Introducing the Knowledge Graph： things，not strings”一文中正式提出，它以圖數據模型來組織互聯網中的海量數據，并通過概念（concept）、實體（entity）及其之間的相互關系（relation）描述客觀世界中的萬事萬物，實現了對客觀世界從簡單字符串描述向結構化語義描述的轉變（things，not strings），因此也被稱為語義知識圖譜[4]。其研究方法主要有2類：基于本體建模+RDF三元組圖模型方法（來源于關聯數據技術）、基于圖數據建模+屬性圖模型方法（來源于圖數據庫技術）[5]。前者強調數據的概念語義描述和數據的URI表示，有利于知識圖譜的開放與互聯;后者強調圖數據的數據模式構建和原生圖的存儲，有利于圖數據的大規模運算和圖數據的知識挖掘。

筆者研究的是第二類知識圖譜，也是當前圖書館領域關于數字資源開發與利用研究中關注較多的一類。兩類知識圖譜的概念、技術、方法、研究領域等相關內容如表1所示。

2 數字資源建設發展概況

隨著國民數字素養的不斷提高，其數字資源需求也在不斷提升，其數字資源建設已成為當前信息資源建設的重點工作?；仡櫄v史，數字資源建設按照資源的加工深度可以劃分為三個發展階段：數字化發展初始階段、數字化向數據化發展階段以及數據化向語義化發展階段。

2.1 數字化發展初始階段

數字資源建設發展初期的重點工作是將傳統文獻信息資源進行簡單的數字化加工，即加工成電子文獻。簡單數字化加工主要是利用掃描儀、數碼照相機、數碼攝像機等光學儀器設備將紙質文獻資源、實物文獻資源加工成圖像、視頻等數字資源，任務是實現信息資源載體的數字化。目前，國內各大圖書館、檔案館、博物館還保留了大量掃描件。該類數字資源輔以簡單的元數據描述，同時采用結構化關系數據庫進行存儲，可以為讀者提供查詢、檢索、下載等信息服務。由于缺乏數字資源的內容信息，數字資源蘊含的知識處于封閉狀態，還需后期人工閱讀與理解，不利于數字資源的有效傳播與利用。

2.2 數字化向數據化發展階段

該階段主要是對數字資源進行數據化、文本化建設和研究。研究內容是將簡單掃描、拍照獲得的數字化資源進行文本識別，實現數字資源的數據化方向發展，或是在數字資源加工源頭采集人工編輯錄入的可編輯電子文件。此時，數字資源能夠提供大量文獻資源的內容數據。利用文本分析工具對數據化的文獻資源進行文本分析和內容分析后，數字資源就可以支持更豐富的內容查詢與檢索，如：對文本內容進行詞性標注、關鍵詞自動生成、文本摘要提取、情感分析等。數字資源的數據化建設也為下一階段數字資源的語義化建設提供了數據基礎。

2.3 數據化向語義化發展階段

該階段主要是利用本體、知識圖譜、自然語言處理等語義技術對數據化的數字資源進行語義化建設。這里的“語義”并非指對人，而是指對機器，語義化工作的目的是增強數字資源的機器可理解程度，讓計算機更好地“讀懂”數字資源。目前，知識圖譜語義技術被廣泛應用于數字資源的知識組織與知識的語義描述中。該技術先運用本體的知識建模技術將數字資源中蘊含的知識進行知識建模，獲得數字資源中內容知識的概念模型，再從數字資源中抽取知識實例并按照概念模型進行組織。機器在讀取數據時，可以通過知識本體明白所讀取數據的概念類別、關系名稱，從而增強數據的語義表示。數字資源的語義化建設對資源的語義檢索、智慧服務提供了強有力的基礎語義數據支撐，是當前數字資源建設研究的前沿與重點開發工作。

3 基于知識圖譜的數字資源開發與利用技術體系

目前，語義化建設是數字資源建設的重點工作，富含語義表示的知識圖譜KG技術被廣泛應用其中，從知識的獲取到知識的應用——知識圖譜在數字資源開發與利用實踐活動過程中已經初步形成其理論框架與技術體系，詳見圖1。

3.1 知識建模

知識建模即構建知識圖譜的本體（ontology）或模式（schema），也即設計知識圖譜的數據骨架?；陉P聯數據技術構造的知識圖譜采用RDF三元組圖數據模型，知識建模采用本體的構建思想;基于圖數據庫技術構造的知識圖譜大多采用屬性圖模型，此時知識建模任務是構造圖數據庫的數據模式。不論是本體構建還是模式構建，其工作內涵都是定義知識圖譜中有關知識的概念、類別、屬性、關系，形成知識的語義關系模型，指導知識圖譜中的實例對象進行語義組織。以Freebase通用知識圖譜為例，其定義了2，000多個概念類型、4萬個屬性，并為每個類型定義了若干關系，以及關系的定義域和值域[6]。常見的知識建模方法有：骨架法[7]、TOVE法[8]、IDEF5法[9]、七步法[10]、Methontology方法等[11]，總體可以概括為：確定領域及任務、羅列概念元素、確定分類關系、定義屬性及關系、定義關系約束，過程中還應考慮對已有本體元素的復用，如可以通過“上海圖書館本體服務中心”下載復用已有的合適本體[12]。

3.2 知識獲取

知識獲取是指由“人工編輯知識”或“機器自動從海量文本數據中獲取知識”。人工編輯知識主要依賴專家經驗，知識產生過程耗時費力，不利于大規模知識圖譜的構建。因此，如何利用機器自動地從不同數據源中獲取知識是人們關注的焦點。數據源按照結構化程度可以劃分為結構化、半結構化、非結構化數據源。

3.2.1 結構化數據主要來源于各個企業以及互聯網公司的關系型數據庫。其數據質量較高，可采用“直接映射（Direct Mapping）”法，如采用RDB2RDF方法將關系型數據庫轉換為RDF數據集，生成的RDF數據集的語義標簽均來自原關系型數據庫中表的名稱及表的列屬性。

3.2.2 半結構化數據是一類特殊的結構化數據。它擁有說明數據的語義標簽，但其數據模式和數據組織相對結構化數據較為松散，具有結構多變、模式不統一等特點，知識抽取時較結構化數據復雜，一般采用包裝器法（Wrapper）進行數據清洗、數據標注、數據轉換、數據評估。自萬維網出現以來，半結構化數據越來越豐富，蘊含了海量的人類知識，逐漸成為大型知識圖譜獲取知識的主要來源。

3.2.3 非結構化數據（純文本）的知識獲取也叫文本信息抽?。↖nformation Extraction，IE）。它是指從自然語言文本中抽取事實知識，這些事實知識可以是一組預先指定的實體、關系或事件信息，然后將這些信息用結構化的方式進行存放，便于機器利用。隨著自然語言處理（NLP）技術的不斷發展，非結構化文本中的語義知識顯得愈發重要，知識圖譜構建技術也越來越關注如何從純文本數據中抽取知識。

3.3 知識表示與存儲

知識圖譜中的知識表示是指用什么語言和方法對知識進行建模與描述，從而方便知識的存儲與計算。知識圖譜采用什么樣的圖數據模型決定了知識表示的方法與特質。當前，知識圖譜主要存在兩種圖數據模型：一種是來自語義網技術背景下的RDF三元組圖模型，另一種是來自圖數據庫技術背景下的屬性圖模型。其中，萬維網聯盟W3C為語義網下的知識圖譜提供了RDFS/OWL本體描述語言，方便本體與本體實例數據的組織與描述，同時采用RDF三元組存儲（triple store）的方式進行存儲，常見的支持三元組存儲的數據庫管理系統有RDF4J、Virtuoso、GraphDB等。屬性圖模型由各個圖數據庫產品提供各自的知識建模語言，尚未形成行業標準，如Neo4J的Cypher語言、HugeGraph的Gremlin語言等，其存儲采用原生圖——“無索引鄰接邊”的方式進行存儲，具備高效的圖計算性能。這里需要指出，來自語義網技術背景下的RDF三元組圖模型采用的是關聯數據技術發布數據，其核心是使用URI表示資源內容，這使得知識圖譜具有開放互聯功能，為知識圖譜的開發與利用提供了一個開放包容的互聯網環境。

3.4 知識融合

知識融合是指對不同來源、不同語言或不同結構的知識進行融合，從而對已有知識圖譜進行知識的補充、更新、對齊和去重。目前，關聯數據開放項目（linked Open Data）會定期發布較為成熟的語義知識圖譜，如通用領域的Dbpedia、行業領域的DrugBank、上海市圖書館的名人規范庫等。從融合的對象看，知識融合包括本體層的融合與實例層的融合。其中，本體層融合指借助本體映射方對多個異構的本體模型進行對齊操作，包括概念、屬性、關系的對齊。實例層融合主要指對概念實例、關系實例的融合，涉及實例的補充、更新和去重等工作。

3.5 知識推理

知識推理是指基于已有的事實或知識推理出未知的事實或知識的過程。目前，利用知識推理完成知識圖譜的補全任務（Knowledge Base Completion，KBC）是關于知識圖譜的一個研究熱點。知識圖譜中的知識不一定完整，通過對已有的知識進行推理獲取新的知識，可以實現知識圖譜的補全動作，尤其是補全一些實體之間的關系，幫助完善知識圖譜的構建工作。此外，知識推理還可以用于知識圖譜的質量檢測任務，用于發現一些存在沖突的知識結論。

3.6 知識應用

近年來，隨著人工智能的研究熱度不斷升溫，知識圖譜作為機器大腦中的知識庫在各行各業中得到了越來越多的關注。例如，語義搜索、自動問答、推薦系統、決策支持、知識可視化中都能看到知識圖譜的身影。在語義搜索中，知識圖譜采用本體方法進行知識的組織與描述，為數據附上其所屬的概念或關系語義。在自動問答中，知識圖譜利用實體與實體之間的關系進行鏈接和推理，進而獲得人們所需要的答案。在推薦系統中，系統通過知識圖譜中顧客與購買商品的實體關系構建用戶畫像，以便獲得更精準的推薦依據。在決策支持中，系統可以從知識圖譜里挖掘出概率較高的關系實例作為決策依據供人采納。知識可視化是將人物之間的人際關系進行可視化展示，如親屬圈、朋友圈、學術圈等。

4 應用實踐

近年來涌現出不少關于知識圖譜在數字資源建設中的應用研究成果。楊海慈（2019）將中國歷代人物傳記資料庫CDBD作為數據源，構建了宋代學術師承關系知識圖譜并將其進行可視化展示，該知識圖譜的本體建模共設計了5個類，39個關系，囊括了48，018位人物和6，599條信息，并采用關聯技術對外發布[13]。周莉娜（2019）設計了“詩歌—詩人”二元本體和面向史學的時空經歷本體，采用網絡爬蟲技術從百科類網站、中文詩歌類網站、人名地名辭典、時空坐標等網站爬取數據，并按照設計好的知識本體進行知識抽取，最后采用RDF三元組構建知識圖譜[14]。張娜（2019）在文物知識圖譜構建關鍵技術研究中，對大量文物文本數據進行一定數量的實體關系人工標注，采用半監督學習方法訓練獲得可自動抽取文本實體關系的分類器，共定義了10種關系模式，如（博物館、收藏、書法）等，抽取后采用RDF三元組進行組織并進行可視化研究[15]。劉芳（2020）以博物館藏品為研究對象，構建了博物館藏品知識圖譜的本體模型，采用映射方法和D2R工具從第三方數據庫系統中抽取博物館藏品知識數據，并進行了知識融合和可視化展示[16]。孫鳴蕾（2020）收集作家名人檔案數據資料，構建作家名人檔案知識圖譜本體，并對名人檔案數據資料進行知識圖譜組織與可視化研究[17]。李永卉（2021）以《中國歷史地圖集》、《嘉定鎮江志》、《至順鎮江志》、北京大學出版社《全宋詩》、中華書局《全宋詞》等近十種與宋代鎮江詩詞有關的歷史文獻作為數據源，構建了宋代鎮江詩詞知識圖譜本體模型，并進行文本知識抽取，然后采用RDF三元組進行描述與圖數據庫存儲，最后進行了知識圖譜查詢和知識推理研究[18]。梁科（2021）針對古籍《山經》中的專名進行知識圖譜構建，共設計山類、水類、草類、鳥類、魚類等15個類，采用正則表達式的匹配方法抽取《山經》文本中的實體和實體關系，并采用Neo4j圖數據庫進行存儲和可視化研究[19]。歐陽劍（2021）從國內外古籍書目網絡數據庫、CBDB、在線百科等網頁中抽取古代典籍書目數據，并按照自行設計的典籍知識圖譜概念本體進行組織，所構建的典籍知識圖譜包含649，549種古籍實體、221，783位典籍責任者、1，498，383個古籍版本、13，960個地名[20]。

5 結語

采用知識圖譜的數字資源開發與利用研究工作主要集中在知識抽取、知識建模、知識的RDF三元組表示與存儲、知識的可視化方面。其中，知識建模廣泛采用RDF三元組圖模型的本體建模方法，主要設計知識圖譜中的實體概念類別及其關系類型，而采用屬性圖模型的研究相對較少。知識抽取研究中，大部分是基于結構化或半結構化的數據源，如：中國歷代人物傳記資料庫CDBD、網絡百科、專業領域數據庫等，這類研究構造的知識圖譜質量相對較高，多數研究獲取的實體與實體關系數量已初具規模。而非結構化文本數據的知識抽取研究受自然語言處理技術發展限制，尚處于研究初級階段，未來也將被廣泛關注。知識應用方面，可視化研究較為普遍，而知識推理研究較少或不夠深入，部分研究僅有若干條推理規則。在知識圖譜的數據類型方面，研究者主要圍繞文本知識圖譜進行構建，圖像、視頻等多模態知識圖譜研究相對較少，未來還有發展空間?？傊?，知識圖譜能為學科研究提供切實、有價值的參考，其研究將持續受到關注。

參考文獻：

[1] 夏翠娟.面向人文研究的“數據基礎設施”建設：試論圖書館學對數字人文的方法論貢獻[J].中國圖書館學報，2020（3）：24-37.

[2] 陳悅，劉則淵.悄然興起的科學知識圖譜[J].科學學研究，2005（2）：149-154.

[3] 秦長江，侯漢清.知識圖譜：信息管理與知識管理的新領域[J].大學圖書館學報，2009（1）：30-37，96.

[4] AMIT S. Introducing the Knowledge Graph： Things，Not Strings[EB/OL].[2021-05-12].https：//www.blog.google/products/search/introducing-knowledge-graph- things-not/.

[5] 陳濤，劉煒，單蓉蓉，等.知識圖譜在數字人文中的應用研究[J].中國圖書館學報，2019（6）：34-49.

[6] 趙軍，劉康，何世柱，等.知識圖譜[M].北京：高等教育出版社，2018：72-73.

[7]Uschold M，Gruninger M. Ontologies： Principles，methods and applications[J].The Knowledge Engineering Review，1996（2）：93-136.

[8] THAM K D， FOX M S， Gruninger M. Cost ontology for enterprise modelling[C]//Workshop on Enabling Technologies：Infrastructure for Collaborative Enterprises. IEEE，1994：111-117.

[9]SARDER M B. IDEF5 Ontology Description Capture Method [EB/OL].[2021-10-23].https：//www. pomsmeetings.org/confpapers/004/004-0127.pdf.

[10] NOY N F， MCGUINES D L. A Guide to Creating YourFirst Ontology[EB/OL].[2021-10-20].https：//www.docin.com/p-1005678470.html.

[11] JURISTO N. METHONTOLOGY： From Ontological Art Towards Ontological Engineering[J]. Ontological Engineering，1997（6）：33-40.

[12] 上海市圖書館.本體服務中心[EB/OL].[2021-10-20].http：//www.usources.cn/ont.

[13] 楊海慈，王軍.宋代學術師承知識圖譜的構建與可視化[J].數據分析與知識發現，2019（6）：109-116.

[14] 周莉娜，洪亮，高子陽.唐詩知識圖譜的構建及其智能知識服務設計[J].圖書情報工作，2019（2）：24-33.

[15] 張娜.文物知識圖譜構建關鍵技術研究與應用[D].杭州：浙江大學，2019.

[16] 劉芳，謝靖.以藏品為核心的知識圖譜設計與應用[J].數字圖書館論壇，2020（6）：8-14.

[17] 孫鳴蕾，房小可，陳忻.數字人文視角下名人檔案知識圖譜構建研究：以作家檔案為例[J].山西檔案，2020（6）：79-88.

[18] 李永卉，周樹斌，周宇婷，等.基于圖數據庫Neo4j的宋代鎮江詩詞知識圖譜構建研究[J].大學圖書館學報，2021（2）：52-61.

[19] 梁科.《山經》專名的知識圖譜構建及價值分析[D].北京：中國社會科學院研究生院，2021.

[20] 歐陽劍，梁珠芳，任樹懷.大規模中國歷代存世典籍知識圖譜構建研究[J].圖書情報工作，2021（5）：126-135.

（編校：周雪芹）