?

英漢雙語富媒體知識圖譜構建工程研究
——以CNS 英文期刊為例

2024-01-29 08:43韋向峰繆建明張全袁毅
情報工程 2023年5期
關鍵詞:音頻圖譜實體

韋向峰 繆建明 張全 袁毅

1. 中國科學院聲學研究所 北京 100190;

2. 富媒體數字出版內容組織與知識服務重點實驗室 北京 100038;

3. 中國兵器工業信息中心 北京 100089

引言

知識圖譜本質上是一種具有有向圖結構的語義網絡知識庫,其中圖的結點代表實體或概念,圖的邊代表實體或概念之間的各種語義關系[1]。知識圖譜作為一種形式化的知識表示方法,具有結構化、圖形化、可推理等優點,被廣泛應用于搜索引擎、自然語言處理、情報分析、智能客服等領域。目前通用領域有DBpedia[2]、YAGO[3]、FreeBase[4]等大規模百科知識類英文知識圖譜,中文通用知識圖譜有CN-DBpedia[5]、Zhishi.me[6]以及OpenKG.CN 平臺[7]。但是以百科知識為基礎的知識圖譜無法滿足專業化知識推理、精細化應用場景和特定領域需求,因此垂直領域的專用知識圖譜獲得了廣泛研究和發展,例如學術文獻領域的知識圖譜SciGraph[8]、OAG(Open Academic Graph)[9]、AMiner[10]、AceKG[11]。隨著知識圖譜的發展以及智能時代的來臨,知識圖譜需要融合不同的語言、包含更多模態或媒體的知識內容,例如文本、圖片、音頻、視頻等富媒體。如何自動構建跨語言、跨模態的垂直領域知識圖譜,成為知識圖譜自動構建技術研究的熱點之一。

知識圖譜的自動構建是一個復雜過程,涉及從不同數據源中抽取、整合和表示知識。一般而言,首先需要從網頁或結構化數據源進行數據采集與抽取,從中提取實體、關系和屬性等信息;接著對從不同源頭獲得的數據進行數據清洗,包括去除重復項、修復拼寫錯誤、統一格式等;然后使用自然語言處理等技術進行實體抽取、屬性抽取、關系抽取等,獲取知識圖譜的實體、屬性和關系;之后通過實體對齊、關系合并等技術對知識圖譜進行知識融合,以確保知識圖譜的一致性;最后需要進行知識表示和知識存儲,一般采用三元組表示知識圖譜,使用圖數據庫存儲知識圖譜。

本文將以構建面向世界一流英文科技期刊的跨語言多模態知識圖譜為例,探討如何從單一語種的英文科技期刊網站中自動獲取文本、圖片、音視頻等富媒體數據信息并翻譯為中文,同時探索建立生命科學、醫學、化學等領域的細粒度跨語言富媒體知識圖譜構建技術,實現富媒體實體關系的抽取、關聯、跨語言映射和存儲。本文的跨語言多模態知識圖譜技術和方法,可為其他垂直領域的知識圖譜構建提供參考和借鑒;所構建的英漢雙語富媒體知識圖譜可為下游任務如跨語言文獻信息檢索和推薦、科學研究熱點分析、科技情報監測等提供重要支撐。

1 構建方法

知識圖譜的構建方法可以分為自頂向下和自底向上兩種方法[12]。自頂向下方法一般是借助結構化的網站數據源或者領域專家的先驗知識來構建知識圖譜,通常從事先定義的領域本體開始,包括實體類別、屬性和關系等,通過規則和規范來指導實體和關系的抽取和構建;自底向上方法一般是通過自動化算法和技術從大規模的非結構化數據中抽取實體和關系,然后逐步構建知識圖譜,通常包括實體抽取、關系抽取和實體鏈接等步驟。

本文采取自頂向下和自底向上相結合的方法。首先根據CNS 等英文科技期刊網站的結構特點設計了期刊、科技論文、論文作者、科研機構、圖片、音頻、視頻等實體,并設計了各個實體的屬性和它們之間的關系,例如科技論文的摘要、發表日期等屬性,這些實體關系的設計以屬性關系為主;其次,對于非結構化的論文摘要文本內容,采用自動語步識別技術獲取摘要的背景、方法、結果和結論等語步,作為科技論文實體的細粒度屬性;第三,從非結構化的論文摘要文本中抽取學科領域的專業術語等實體,這些實體之間的關系以實體共現的語句謂詞為主;第四,將英文知識圖譜中的實體、屬性和關系翻譯為中文,然后進行單語言知識圖譜的實體消歧、跨語言知識圖譜的實體對齊;第五,將圖片、音頻和視頻等富媒體信息內容進行實體鏈接,鏈接到科技論文、主題等實體;最后,把獲得的跨語言富媒體知識圖譜存儲到圖數據庫中,以便進行后續的知識圖譜檢索和相關應用。

對于知識圖譜的構建而言,一般需要經過實體抽取、屬性抽取、關系抽取等知識抽取的處理,然后進行實體對齊、屬性對齊等知識融合的處理。對于跨語言和跨模態的知識圖譜,還需要進行跨語言的實體對齊、跨模態的實體屬性映射等處理。

如圖1 所示,本文的英漢雙語富媒體知識圖譜構建工作主要包括確定數據來源、實體抽取、屬性抽取、實體對齊、跨語言映射、跨媒體鏈接等處理步驟或階段,最后對所構建的多模態跨語言知識圖譜進行存儲及應用展示。

圖1 英漢雙語富媒體知識圖譜自動獲取系統框架

2 數據來源和實體設計

本文的數據來源是世界一流的英文科技期刊網站,主要以三大頂刊Cell、Nature、Science(CNS)及其子刊為主,同時包括生命科學、醫學、化學等學科的其他知名英文科技期刊(見表1)。利用Python 編寫的軟件程序,可自動獲取這些網站中期刊、科技論文、論文作者、科研機構等實體信息,以及相關的圖片、音頻和視頻實體信息。

表1 數據來源的主要期刊信息

本文設計的主要實體及其屬性如表2 所示。在本文設計的知識圖譜實體、屬性和關系中,主題既是實體也是屬性,實體之間通過主題或屬性形成關聯關系。主題分為生命科學、化學、醫學、綜合等學科類別,除主題外知識圖譜中的其他實體都可以歸屬于某個學科類別的主題。其中,科技論文實體處于核心重要位置,科技論文不僅關聯文本媒體形式的期刊、論文作者、科研機構,而且關聯圖片媒體、音頻媒體和視頻媒體。對于音頻媒體內容,主要通過ScientificAmerican(科學美國人)雜志中的播客網站(https://www.scientificamerican.com/podcasts/)進行自動獲取。利用數據獲取與解析的自動化工具,本文從22 個英文期刊網站中獲取了期刊的歷史科技論文及其相關屬性,其中科技論文共13135 篇,科技論文中的圖片共8738 張,科技論文中的關聯視頻共911 個,音頻媒體內容(包括音頻文件及其對應的文本內容)共4638 個。在富媒體知識圖譜中音頻實體可以通過主題或音頻文本內容中出現的科技期刊名稱與科技論文實體進行關聯。

表2 主要的實體和屬性

3 實體抽取

實體抽取是知識圖譜構建的關鍵環節之一,其主要任務是從非結構化的文本中自動識別出各種實體,并將其標注出來。對通用領域而言,實體抽取可以從文本中識別出特定名稱的實體,如人名、地名、機構名等;對垂直領域而言,實體抽取可以從文本中識別出具有特定專業含義的術語,例如醫學領域的疾病名稱、藥品名稱、醫學檢查方法等。對于表2 中論文作者、科研機構等大多數實體,很容易通過半結構化的網頁信息內容抽取得到。而在科技論文的非結構化摘要文本中,包含有各個學科領域的眾多術語或實體,如何從摘要文本中自動識別抽取得到相關學科領域的術語實體是在構建知識圖譜時需要研究解決的一個問題。

由于科技論文涉及眾多細分的學科和領域,各學科領域的專業術語的特點和規律并不相同,本文僅僅討論針對生物醫學領域的化學藥物名稱的實體抽取。生物醫學領域的化學藥物名稱有其自身的特殊性,這使得化學藥物名稱的實體抽取正確率遠低于通用領域的實體抽取正確率。這些特殊性在于以下幾個方面:(1)名稱往往很長,例如“sodium dodecyl sulphate polyacrylamide”。(2)命名方式多樣,沒有統一標準。有的采用國際理論和應用化學聯合會制定的命名方式如“8-O-trans-cinnamoyl caryoptoside”,有的采用慣用名如“captafol”,有的采用簡稱如“PCAHs”等。(3)歧義性縮寫,化學藥物名稱經常出現縮寫,且縮寫沒有統一規律。(4)不斷出現的新的化學藥物名稱,僅僅依靠詞典規則方法難以將其全部覆蓋。

實體抽取的方法可以分為:基于詞典的方法、基于規則的方法、基于統計學習的方法和基于深度學習的方法。就知識圖譜實體抽取的效果而言,基于深度學習的方法要優于其他方法。目前基于Bi-LSTM-CRF 模型的深度學習方法在化學藥物語料庫上取得的實驗結果比傳統的基于CRF 的統計機器學習方法的結果要好,成為了主流的化學藥物名稱實體抽取方法。例如,一種基于CNN-Bi-LSTM-CRF 模型用于生物醫學領域的實體識別方法[13],先利用CNN 學習單詞字符級向量,然后使用Bi-LSTM-CRF 模型進行實體識別,在BioCreative II GM 和JNLPBA2004 生物醫學語料上取得了較好的結果,但是仍有進一步改進的空間。因為這些基于Bi-LSTM-CRF 模型的深度學習方法都是在句子內部進行實體抽取,容易出現抽取得到的實體不一致的問題,也就是說,同一篇文檔中提及的相同實體由于上下文不同可能會被標注成不同的實體。

為了緩解這種文檔內抽取實體不一致的問題,本文將注意力機制引入到Bi-LSTM-CRF 模型中,將文檔作為模型的輸入單元,通過注意力機制來捕獲文檔全局信息,使同一篇文檔不同句子中的相關詞被視為相互依賴的標簽,從而進一步提升深度學習模型抽取化學藥物名稱實體的效果。首先定義輸入文檔為D={S1, S2, …,Si, …, Sm},由m個句子組成,一個句子定義為S={w1,w2, …, wi, …, wn},由n個詞語組成。文檔需要經過嵌入層(詞向量)和一個Bi-LSTM層,然后進入到一個新的注意力層,以捕獲文檔級別相關詞語的依賴信息。在注意力層引入一個注意力矩陣A 來計算當前目標詞語和文檔中所有詞語的相似度得分。注意力矩陣A 中的權重值是第t個詞wt在文檔全文范圍內對應第i個詞wi表所分配的注意力權值,利用公式(1)進行計算。

其中,score(wt,wi)是詞語wt和詞語wi之間的相似度得分函數,可通過詞語對應的詞向量之間的歐式距離、余弦距離或曼哈頓距離計算得到。為了獲取文檔級信息并學習注意力權值高的詞語信息,將得到的注意力權值對Bi-LSTM 層的輸出進行加權求和得到文檔全局向量。然后,將此全局向量和Bi-LSTM 層的輸出進行拼接,使用Tanh 函數作為激活函數,得到注意力層的輸出。最后,使用CRF 層來評估輸出標簽之間的依賴關系,使用Softmax 函數計算文檔D中標簽序列的條件概率。經過標注語料庫的訓練后,基于注意力機制的Bi-LSTM-CRF 模型可以對生物醫學領域的化學藥物名稱進行文檔級的標簽標注,實現化學藥物名稱的實體抽取。

本文采用BioCreative 評測發布的CDR 語料庫作為訓練數據集和測試數據集。CDR 原始的語料庫包含1500 個PubMed 論文摘要,分為訓練集(摘要500 篇)、開發集(摘要500 篇)、測試集(摘要500 篇)。本文把原始語料庫的訓練集和開發集合并作為本文的訓練數據集,把原始語料庫的測試集直接作為本文的測試數據集。訓練基于注意力機制的Bi-LSTM-CRF 模型時的一些超參數設置如下:詞向量維度設為50,字符向量維度設為25,字符級Bi-LSTM 神經單元大小設為25,詞語級Bi-LSTM 神經單元大小設為100,學習率設為0.001,優化函數采用隨機梯度下降函數SGD。實驗結果表明,基于注意力機制的Bi-LSTM-CRF 模型比一般的基于句子的BiLSTM-CRF 模型性能要高0.7 個百分點,而且可以減少實體抽取中的不一致錯誤。

4 屬性抽取

對文本媒體的實體屬性而言,屬性抽取是指從文本或數據中識別和提取實體的屬性信息的過程。屬性抽取的目標是從結構化或非結構化的數據中自動識別和提取實體的屬性。表2中的大多數文本媒體實體的屬性,可通過英文期刊網站內容的半結構化文本內容信息獲取,使用規則和自動化程序的方法獲得科技論文的標題、科技論文的摘要、科技論文的發表日期、論文作者的電子郵箱等屬性。

對于科技論文實體的非結構化的摘要文本屬性,可以進一步細化為背景、方法、結果和結論等語步屬性,這樣可以很方便地檢索和查詢科技論文在做哪方面的研究、使用了什么方法、得到了什么結論,豐富整個知識圖譜的屬性粒度,提高論文信息獲取和閱讀的效率。為了獲取和建立更細粒度的屬性知識,需要對非結構化的論文摘要文本內容數據進行語步自動識別。語步是指為實現語篇整體交際目的,語篇中具有某種特定交際功能的部分[14]。例如,科技論文中的摘要文本可以細分為背景、方法、結果、結論等語步,目的是向讀者簡要全面地介紹整個論文的概貌(為什么做、如何做、做的結果)。有的英文科技期刊要求論文作者自己把論文摘要劃分出語步,如The NEW ENGLAND JOURNAL of MEDICINE(新英格蘭醫學雜志)網站中的論文就給出了論文摘要的背景、方法、結果和結論的固定格式及文本內容。但大多數科技論文的摘要文本只是一段文字文本,沒有專門劃分出語步,需要利用深度學習等模型算法自動識別出科技論文摘要文本的語步。

科技論文摘要的語步屬性抽取本質上就是文本自動分類,其主要方法有基于規則的方法、基于淺層機器學習模型的方法和基于深度學習模型的方法?;谏疃葘W習模型的語步識別可充分利用句子潛在語言學特征,無論是在通用性還是效果方面均有所改善,是目前較為高效且主流的摘要語步識別與分類方式,主要采用的模型有長短期記憶網絡(LSTM)、雙向LSTM、BERT 等模型。本文的語步自動識別模型是在基于BERT 模型的SciBERT[15]的基礎上構建得到,基本參數采用了SciBERT 的預訓練參數。SciBERT 模型的訓練語料來自文獻檢索網站Semantic Scholar 的隨機采樣的論文全文,共計114 萬篇論文(其中18%來自計算機領域,82%來自生物醫學領域)。模型的深度神經網絡(Transfomer 模塊)層數為12,隱藏狀態的尺寸為768,自注意力頭數為12,共有1.1 億個參數。本文使用《新英格蘭醫學雜志》期刊網站獲得的論文摘要進行訓練,并對分類器以及BERT 模型的最后兩層網絡的參數進行優化,實現損失函數的最小化。從《新英格蘭醫學雜志》期刊網站獲得的論文615 篇,按照8:2 比例(即80%共492篇摘要文本作為訓練樣本,20%共123 篇摘要文本作為測試樣本 )進行SciBERT 模型和本文優化模型的實驗,得到如表3 所示的實驗結果。

表3 摘要文本語步自動識別的結果

5 知識融合

知識融合是指將知識圖譜中不同來源和不同結構的知識數據進行整合和合并,確保知識圖譜中的數據一致性和準確性。本文的知識融合主要是實體對齊,主要探討科技論文中抽取到的論文作者的實體對齊問題,以及分別從英文文本和中文文本抽取得到的實體的跨語言實體對齊問題。

5.1 作者實體對齊

本文中的作者實體對齊是需要判斷來自不同科技論文的同名同姓的作者是否是真實物理世界中的同一個人??萍颊撐闹挟a生同名同姓作者的原因主要有:(1)同一個人在同一個科技期刊或者在不同的科技期刊發表了不同的論文;(2)兩個或者多個不同的人具有相同的姓名,并且在同一個科技期刊或者在不同的科技期刊發表了不同的論文;(3)由于英文的姓和名排列順序與中文的排列順序不一致,或者不同期刊對論文作者姓和名排列順序的不一致,導致姓和名顛倒的兩個不同姓名的論文作者可能指向同一個人。本文共獲得論文作者165586個(未進行去重處理),去重處理后獲得124998 個;經過去重處理后獲得的科研機構實體共97238 個。

從CNS 等科技期刊網站的文本內容中可以提取出論文作者的隸屬單位、郵箱或者ORCID(Open Researcher and Contributor ID,即開放學術出版物及學術產出的作者標識符,網站:https://orcid.org/)。其中ORCID 是全世界范圍內唯一16 位身份識別碼,相當于科研工作者在學術領域的身份證。因此,如果文本媒體的知識圖譜中已經存在和待構建的論文作者實體姓名相同的論文作者實體,第一步先判斷已經存在的論文作者和待構建的論文作者這兩個實體的ORCID 是否相同,若相同則視為同一個實體,否則進行下一步的判斷;第二步,判斷這兩個實體的電子郵箱地址是否相同,若相同則視為同一個實體,否則進行下一步的判斷;第三步,判斷這兩個實體的隸屬單位是否相似或相同,若相同或者相似度達到一定閾值則視為同一個實體(相似度采用編輯距離進行計算),否則進行下一步的判斷;第四步,查找知識圖譜中是否有與待構建的論文作者的姓和名順序顛倒的論文作者實體,如果有則執行第一步到第三步的處理步驟。本文從13135 篇科技論文中抽樣得到2974 篇科技論文,作者總數為50982(不考慮姓名是否相同),姓名唯一的作者有36085 個,因此作者重名率為29.22%。對重名的論文作者進行實體對齊處理后,其實體對齊結果如表4 所示。

表4 論文作者實體對齊處理結果的準確率

5.2 跨語言實體對齊

從英文科技期刊網站中獲取的實體文本數據都是英文實體或屬性,需要將這些英文實體或屬性的內容翻譯為中文。自動化的文本機器翻譯技術可以將英文文本內容自動翻譯為中文文本內容,且具有較高的可懂率,這不僅有助于科研人員方便快捷地獲取英文科技論文信息,也有助于英漢雙語富媒體知識圖譜的構建。本文使用成熟的機器翻譯軟件將科技論文的標題、摘要等文本數據從英文翻譯為中文,從而得到中文知識圖譜中的科技論文屬性信息。利用百度翻譯開放平臺,通過Python 程序語言調用其API 接口實現了從英語到漢語的文本翻譯。使用本文第3 節介紹的實體抽取方法可以分別抽取得到中文文本和英文文本中的各種實體,包括通用領域的一般實體和學科領域的術語實體。使用跨語言實體對齊技術將這些實體進行跨語言對齊,不僅可以豐富知識圖譜中實體之間的鏈接關系,也可以為知識圖譜的應用如跨語言文獻檢索提供必要的知識基礎。

跨語言的實體對齊與單語言的實體對齊是相似的,都可以采用基于知識表示的TransE[16]、TransH[17]和TransR[18]等模型。 這些模型主要是將知識圖譜嵌入到詞向量空間,就可以對實體的相似度進行計算和處理。例如TransE 模型的基本思想是:考慮到知識圖譜由三元組(h,l,t)組成,h和t分別表示不同的實體,l用于表示兩個實體間的關系,因此可以將頭實體h的向量和關系l的向量進行L2 范式計算,所得結果應近似于尾實體t的向量。這種訓練學習的方法將知識圖譜的圖表示中實體間的關系考慮在內,因此所得到的實體向量表示也包含了實體間的關系信息。TransE 模型的訓練流程如下:(a)根據所設置的維度超參數,對實體和關系的向量進行隨機初始化。具體方法是在均勻分布中隨機釆樣,其中k 是向量的維度,然后對實體和關系的隨機初始化結果進行歸一化,即除以向量的L2 范數。(b)根據所設置的Batch 超參數b,從訓練集S=(h,l,t)中,構成正樣本。針對每一個正樣本,均替換其中的頭實體h 或尾實體t,構成負樣本集S=(h’,l,t’)。(c)根據TransE 模型的損失函數,依次選取正負樣本對模型進行訓練。損失函數如公式(2)所示,其中γ>0,是一個邊界超參數。若希望降低floss的值,則需要降低正樣本的距離d(h,l,t)并增加負樣本的距離d(h’,l,t’)。距離函數d(h,l,t)為L2 范數,即公式(3)。

為了檢驗TransE、TransH 和TransR 在跨語言知識圖譜中的實體對齊能力,本文選擇公開數據集DBpedia 的英文、中文兩種語言的知識圖譜作為訓練數據集和測試數據集(具體數量見表5)。DBpedia 中的一部分跨語言三元組之間已經建立了跨語言鏈接,具有英文數據和中文數據之間的對齊集。訓練時的一些超參數配置如下:向量空間維數m, n = 75、學習率λ= 0.01、訓練次數epoch=400。每次更新參數后,正則化實體和關系的嵌入向量的L2 范數為1。TransE、TransH 和TransR 模型的訓練結束后,使用測試集對各個模型進行測試,測試時使用Hits@10 作為評價指標。對測試集中的每一個實體對(e1,e2),其中e1為英文知識圖譜中的實體,e2為中文知識圖譜中的實體。對于每一個e1,在中文知識圖譜中尋找與之相似度最高的10 個實體{ee1, ee2, … , ee10},那么e2∈{ee1, ee2, … , ee10}的平均比例即為從英文知識圖譜對齊到中文知識圖譜的Hits@10。

表5 跨語言實體對齊處理結果的準確率

實驗數據集中,英文知識圖譜到中文知識圖譜的對齊三元組對個數為67310 個,實體對齊對的個數為7865 個。數據集按照8:2 的比例分為訓練數據集和測試數據集,TransE、TransH 和TransR 模型經過訓練后,在測試數據集上的實驗結果如表5 所示。從表5 可以看出,TransH 模型的實體對齊效果較好。因此,本文使用TransH 模型對從英文科技期刊獲得的跨語言知識富媒體圖譜中的英文文本實體到中文文本實體的對齊進行了抽樣測試,采樣了1000 個英-中實體對進行了跨語言的實體對齊測試,Hits@10 準確率為77.26%。

6 跨媒體實體鏈接

除了文本媒體形式的實體之外,本文還自動獲取了與科技論文實體相關的圖片、音頻、視頻等媒體形式的實體??萍颊撐膶嶓w與這些富媒體實體之間需要進行鏈接,建立實體之間的關系,以便進行知識圖譜的檢索、可視化和下游應用。同時,圖片、音頻和視頻等富媒體實體自身還具有一些用于描述這些實體的屬性,也需要進行屬性的抽取。

圖片媒體數據是根據科技論文的URL 地址去獲取的,可以很方便地將圖片實體關聯到科技論文實體(把科技論文的URL 地址作為唯一ID)。圖片實體的屬性除了所關聯的科技論文之外,還有自身對應的文件路徑、文件大小、尺寸大?。ò聪袼赜嬎愕拈Lx 高)、對應的文本描述等屬性。視頻媒體數據與圖片媒體類似,是根據科技論文的URL 地址去獲取的,因此可以很方便地將視頻實體關聯到科技論文實體。為了方便后續的數據處理和應用,還需要提取視頻實體的屬性數據,包括視頻文件路徑、視頻文件大小、視頻格式、時長、幀寬度、幀高度、幀速率、數據速率、總比特率、寬高比等。

音頻媒體數據主要來自Scientific American雜志的播客頻道,其內容是介紹科學知識或學術期刊上的一篇論文,音頻長度一般不超過60秒,涵蓋了生命科學、天文學、物理學、地球科學等多個領域的前沿研究成果和科技進展。該播客頻道網站還提供了音頻對應的轉寫文本,可用于對照閱讀或文本分析。為了將音頻實體關聯到科技論文實體,本文利用主題作為中間實體媒介或者音頻實體與科技論文實體之間的主題關系,把相同主題的音頻實體和科技論文實體進行實體關系的鏈接??萍颊撐牡闹黝}分為生命科學、化學、醫學、綜合類等,音頻的主題提供用戶指定主題和自動標注主題兩種方式。自動標注主題采用基于LDA(Latent Dirichlet Allocation)模型的主題分析方法,該方法主要利用主題詞語在文本中的分布,獲得“主題-詞語”分布和“文本-主題”分布,然后通過極大似然估計方法確定文本對應的主題。此外,對于音頻實體本身,還需要提取音頻實體對應的文件路徑、文件大小、采樣頻率、比特率、音頻時長等屬性。

7 知識圖譜存儲及應用

知識圖譜的形式化表達一般歸結為“<實體1,關系,實體2>”和“<實體,屬性,屬性值>”等三元組。這些三元組數據可以用關系數據庫、語義網RDF 描述語言、圖數據庫等進行存儲。本文采用圖數據庫Neo4j 進行知識圖譜的存儲和可視化。首先,需要創建科技論文實體,其屬性包括主題、URL、DOI、標題、作者、摘要、關鍵詞、來源期刊、來源期刊的卷期、發表日期、起始頁碼、結束頁碼等。其次,創建論文作者實體,其屬性包括關聯的論文URL、姓名、科研機構、電子郵件、ORCID 等。第三,創建其他實體,如圖片實體、音頻實體、視頻實體、期刊實體,以及這些實體的屬性,例如圖片或音視頻對應的富媒體文件的存儲路徑。第四,建立實體之間的關系,主要有科技論文與論文作者的關系(HAS_AUTHOR)、科技論文與圖片的關系(HAS_PICTURE)、科技論文與音頻的關系(通過主題關聯)、科技論文與視頻的關系(HAS_VIDEO)、科技論文與期刊的關系(HAS_JOURNAL)。最后,利用Neo4j 的數據庫服務和查詢界面實現整個知識圖譜的可視化查詢。

圖2 為在Neo4j 的查詢界面中查詢姓名為“Jian Zhou”的作者后返回的知識圖譜中的實體及其關系,中間的核心實體為科技論文實體,周圍的關聯節點為其屬性或者具有關聯關系的論文作者、圖片、音頻、視頻或期刊等實體。

圖2 知識圖譜的可視化查詢界面

使用本文的面向CNS 英文期刊的數據獲取與解析、英語文本自動翻譯、圖片和音視頻數據處理等技術,還可以實現英語科技期刊科技論文網頁實時自動轉換為相對應的漢語知識圖譜內容結果。如圖3 所示,輸入一個英語科技期刊的科技論文網頁地址,點擊“獲得結果”按鈕后可以實時獲取該科技論文對應的漢語富媒體知識圖譜網頁內容。其中,漢語的標題內容和摘要內容均為使用機器自動翻譯得到的結果。

圖3 英文科技網站論文富媒體知識圖譜的自動生成(示例)

8 結語

本文使用自頂向下和自底向上相結合的方法來構建英漢雙語富媒體知識圖譜,以CNS 英文科技期刊網站的學術文獻信息為例,首先在頂層設計了主題、期刊、科技論文、論文作者、科研機構、圖片、音頻和視頻等實體及其屬性,然后從半結構化的英文科技期刊網站內容中獲取了這些實體和屬性。針對非結構化的論文摘要或全文文本數據,通過深度學習模型從文本數據中自動抽取出學科領域的術語實體以及通用領域的實體,并將論文摘要細分為背景、方法、結果和結論等語步,實現對知識圖譜的實體抽取和屬性抽取。在知識圖譜構建過程中,對同名作者實體、跨語言的實體,采用規則方法和TransH 模型方法進行了實體對齊,以確保知識圖譜中實體的一致性和知識的準確性。對圖片媒體、音頻媒體和視頻媒體,提取了它們的屬性并和科技論文實體進行了跨媒體的鏈接。最后,用圖數據庫Neo4j 對知識圖譜中的實體和關系進行存儲,實現可視化查詢和跨語言知識圖譜獲取等應用。本文所構建的英漢雙語富媒體知識圖譜可以為下游任務如跨語言文獻信息檢索和推薦、科學研究熱點分析、科技情報監測等提供重要的數據支撐。

在構建英漢雙語富媒體知識圖譜的過程中,自動從文本媒體數據中抽取學科領域的術語實體的準確率并不是很高,且在領域通用性和適用性上還有待提升。在圖片、音頻和視頻媒體數據的處理上,沒有進一步地提取它們的自身特征作為屬性,未來可以使用卷積神經網絡(CNN)、梅爾倒譜系數(MFCC)、視頻特征編碼等技術進行屬性自動抽取。希望本文的探索研究能為多模態跨語言知識圖譜的構建提供參考,為科技文獻知識圖譜的進一步應用建立更加堅實的基礎。

猜你喜歡
音頻圖譜實體
繪一張成長圖譜
前海自貿區:金融服務實體
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
音頻分析儀中低失真音頻信號的發生方法
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合