?

基于圖排序和最大信息增益的領域實體抽取方法

2022-12-13 13:52張曉明鄭理欣王會勇
計算機工程 2022年12期
關鍵詞:置信度共性實例

張曉明,鄭理欣,王會勇

(河北科技大學信息科學與工程學院,石家莊 050018)

0 概述

隨著知識圖譜技術的發展,越來越多的研究開始從通用知識圖譜轉向領域知識圖譜,例如醫療知識圖譜、金融知識圖譜、電商知識圖譜、課程知識圖譜等。領域知識圖譜中的節點是領域實體,因此,領域實體的挖掘是構建領域知識圖譜的基礎。以課程知識圖譜為例,將傳統的非結構化文本形式轉化為以課程術語實體為核心的知識圖譜,更易于學生對學科架構[1]、知識點的學習。教育知識圖譜中的節點具有多樣性,如節點可以為術語、視頻資源、知識點等,而術語是最基礎、最細粒度的學習資源。因此,構建課程領域實體集對教育知識圖譜的構建起著重要的作用,為教育課程推薦、個性化學習等任務[2-4]奠定了基礎。

目前對于實體抽取方法的研究主要采用基于機器學習的方法、基于深度學習的方法和基于關系的方法。垂直領域實體抽取與公開領域實體抽取特點不同,垂直領域的語料較少,標注數據稀缺,因此基于機器學習的方法、基于深度學習的方法在領域實體抽取過程中存在一定的限制?;陉P系的實體抽取方法則是先獲得候選實體,然后在給定種子的基礎上利用實體間關系進行排序篩選,其中對于非結構文本數據源需要先構建相關度等關系再進行排序,對于結構化的知識則通過一定的策略利用已有的結構關系進行實體挖掘。

本文提出一種基于關系的領域實體挖掘方法,基于結構相關度從文本中構建實體圖以抽取領域核心實體,根據最大信息增益原理在DBpedia 中對核心實體進行擴展。通過對基于維基百科的TagMe 系統進行實體識別,計算實體間的相關度,并根據圖排序算法進行實體抽取獲得領域核心實體作為種子實體集,在CSEN、EcoEN 數據集上對實體抽取方法進行評估?;诜N子實體集在DBpedia 中計算具有最大信息增益的類,并將其實例經篩選后作為擴展實體,最終在INEX 數據集上對實體擴展方法進行評估。

1 相關工作

早期的實體抽取分為基于規則的方法[5-6]和基于統計的方法[7-8]?;谝巹t的方法抽取的實體準確率較高,但依賴領域語言特點,且領域移植性較差?;诮y計的方法利用術語共現和詞頻等特征抽取實體,對低頻術語不敏感,且依賴目標語料庫。因此,基于以上方法的局限性,目前對實體抽取的方法主要采用基于機器學習的方法、基于深度學習的方法和基于關系的方法。

1.1 基于機器學習的實體抽取

該方法一般通過序列標注[9]、術語分布等特征利用分類算法抽取實體,通常需要大量的訓練數據訓練算法模型,實體抽取的準確率較高。但不同于通用領域的數據,領域的標注數據較為缺乏,由領域專家來標注數據則會消耗大量的時間和人力資源,因此這種方法在構建領域實體集時代價成本較高。

1.2 基于深度學習的實體抽取

該方法通過對文本向量嵌入,將嵌入向量輸入到深度學習模型中,經過多個處理層的學習來抽取實體?;谏疃葘W習的實體抽取方法不需要人工特征工程,具有強大的學習能力,也是近年來較好的實體抽取方法,典型的神經網絡模型有BiLSTM[10-11]、CNN-LSTM-CRF[12-13]等,但該方法也存在一些限制,例如需要大量的標注數據,訓練模型的時間較長,且存在模型復雜、可解釋性弱的缺點。

1.3 基于關系的實體抽取

該方法通常在給定少數種子的條件下,利用候選實體間的關系進行排序來抽取領域實體。候選實體間的關系有類別信息[14]、結構路徑關系[15]、語義路徑[16]、語義距離[17]等。排序過程通常利用圖排序算法[18]通過主題信息進行編碼或利用候選實體之間的相互加強關系[19]來提高候選詞的排名效果。

基于圖排序的實體抽取方法較為常用,該方法的來源為PageRank 算法,將實體間關系緊密程度和領域實體的置信度作為衡量領域實體的依據,以此來迭代更新實體節點的置信度。例如利用單詞上下文的語義信息[20]、位置信息[21]及圖 結構的 主題信息[19]迭代更新圖,對候選術語進行排序?;趫D排序的實體抽取方法不需要大量的標注數據,不存在低頻術語不敏感問題,是效率較高的實體抽取方法。

基于關系的實體抽取方法不需要大量的人工參與,具有普適性及可解釋性的優點,因此利用該類方法構建課程領域實體集。首先利用維基百科的信息計算相關度來構建實體間關系,通過排序算法從中抽取領域核心實體,然后在知識圖譜中利用最大信息增益進行實體擴展,最后通過計算擴展實體與領域核心實體的相關度進行擴展實體的過濾,提高領域實體集的質量。

2 問題描述

本文研究的問題是如何構建領域實體集。首先從文本中構建候選實體圖,并利用圖排序算法抽取領域核心實體;然后對DBpedia 中的subject 關系利用最大信息增益原理對核心實體進行擴展;最后通過實體過濾策略進一步提高領域實體集的準確性。任務描述如圖1 所示。

圖1 任務描述Fig.1 Tasks description

對使用的符號進行以下定義,候選實體圖表示為G=(T,R),其中包括候選實體節點T和候選實體間的相關度R,ti(i=1,2,…,n)表示候選實體,rij(i=1,2,…,n,j=1,2,…,n)表示候選實體ti和tj的相關度,TC為領域核心實體集(TC?T),TC的擴展實體集表示為TE,擴展實體集篩選過濾得到的領域全部實體集表示為TD。

領域實體集獲取方法主要包括3 個步驟:

步驟1在文本中進行實體識別,計算兩兩實體間的相關度構建實體圖G,并通過基于置信度傳播的圖排序算法得到領域實體TC。

步驟2將文本抽取的領域實體TC作為種子,利用DBpedia 中的subject 關系進行實體擴展,得到擴展實體集TE。

步驟3通過篩選策略對擴展的實體過濾,以提高領域實體集的準確率,獲得領域實體集TD。

3 基于圖排序的實體抽取

基于文本的實體抽取主要分為構建候選實體圖和對候選實體排序兩大步驟。

3.1 候選實體圖的構建

構建候選實體圖的目的是利用文本中的實體及實體間的關系構建一個圖,思想為識別文本中所有的實體作為候選實體集,候選實體之間通過相關度建立相關關系,這樣就形成了一個結點為候選實體、邊為相關度的候選實體圖。

文本中的實體通常以縮讀、口語化等形式出現,使得多個名詞性短語表達的是同一實體,因此將文本語料中的名詞性短語和維基百科中的實體建立映射關系,減少冗余實體。實體映射過程利用TagMe系統[22]對輸入的文本自動識別出實體,并返回維基百科對應的實體。

候選實體間通過相關度建立關聯,候選實體間的相關度是指兩個候選實體存在相關關系的可能性大小,其取值為[0~1],值越大表示兩候選實體間的相關性越強。每個實體在維基百科中有詳細描述信息,在描述信息中提及次數較多的實體通常與該實體具有較強的相關程度,且每個相關實體都是以超鏈接形式存在的。因此,利用WML[23]模型,通過比較兩個維基百科頁面的輸入和輸出的超鏈接來衡量其語義相關度。對于兩個候選實體ti和tj,I和J是分別鏈接到ti和tj的維基百科頁面的超鏈接集合,W是維基百科中實體的集合,r(ti,tj)表示兩候選實體間的相關度,通過WML 計算,如式(1)所示:

候選實體圖G由所有的候選實體T和候選實體間的關系R組成,其中兩兩候選實體都通過相關度計算建立聯系,但由于較低的相關度值r(ti,tj)在接下來的基于置信度傳播的圖排序算法中可能引入噪聲,因此引入了一個相關度閾值α來修剪圖,即當候選實體間的相關度r(ti,tj)大于閾值α時才保留在圖G中。

3.2 基于置信度傳播的圖排序算法

對實體圖的候選實體按照與領域的相關程度排序得到領域實體。對于實體圖G中的每個候選實體ti,將conf(ti)作為領域實體的置信度。與較高置信度候選實體相關度高的實體很大可能也是該領域實體,從而可以發現其他潛在的領域實體。這里利用基于置信度傳播的圖迭代算法CCP[18]對候選實體進行排序。

首先給圖G中的每個候選實體ti分配一個初始置信度,然后通過相鄰候選實體的置信度及候選實體間的相關度迭代更新每個候選實體節點的置信度值。初始情況候選實體的置信度值由種子集決定,即將種子實體置信度值設為1,其他候選實體置信度值設為0。實體ti的置信度用conf(ti)表示,ti迭代k次后實體的置信度用confk+1(ti)表示,A(ti)表示與候選實體ti的鄰居實體。置信度更新過程則是由A(ti)投票得分的平均值計算而來,即每次置信度的更新受其鄰居實體的影響,若鄰居置信度較高,則表示該實體是領域實體的可能性也越大。達到迭代停止條件時通過設定截止置信度閾值來選擇領域實體,即置信度大于閾值的為領域核心實體TC,小于閾值的為非領域核心實體。圖傳播算法的迭代過程如式(2)所示:

其中:Z為標準化因子,取值為所有候選實體置信度的最大值;|A(ti)|表示ti鄰居節點的個數;vsk(ti,tj)為候選實體tj對候選實體ti的影響,vsk(ti,tj)定義如式(3)所示,即tj的置信度與ti和tj的相關度值乘積。

基于文本的實體抽取具體實例如圖2 所示。以數據結構課程中的部分文本內容為例,通過TagMe 系統識別出候選實體“Huffman coding,Binary expression tree,Data compression,Binary tree,Binary code,AA tree,Red-black tree”。計算兩兩候選實體間的相關度,并將相關度值小于閾值α的邊r(Huffman coding,Binary code)、r(Data compression,Binary expression tree)、r(Binary tree,Binary code)等剪枝。給定種子實體為“Binary tree,Red-black tree”,則conf0(Binary tree)=1,conf0(Red-black tree)=1,其余候選實體初始置信度為0,第1 次迭代后各候選實體的置信度更新。迭代達到停止條件后取大于置信度閾值實體TC(“Huffman coding,Binary expression tree,Binary tree,AA tree,Redblack tree”)為數據結構課程實體。

圖2 實體抽取實例Fig.2 Entity extraction example

4 基于最大信息增益的實體擴展

4.1 方法步驟

由于從文本中抽取的領域實體不夠全面,因此需要進行實體擴展。下文對使用的概念進行定義,類表示實體在DBpedia 中通過subject 關系相連的抽象概念。每個實體有多個類,例如Red-black tree 的類有Binary trees、1972 in computing 等。

利用DBpedia 的subject 關系獲得種子的類,在類中利用最大信息增益獲得與種子相關程度較高的類,稱為共性類,然后將共性類的實例作為擴展實體TE,最后通過計算擴展實體與種子的相關程度進行篩選過濾得到領域實體TD。該方法主要包括以下3 個步驟:

步驟1生成共性類。實體從不同的角度來看屬于不同的類,會劃分到不同的類下,共性類則是與種子集相關的類,即共性類能盡可能多地涵蓋種子集中的實體。

步驟2共性類實例擴展。共性類通過subject的逆關系Is subject of 得到共性類的所有實例作為擴展實體TE。

步驟3擴展實體過濾。通過計算擴展實體與種子的相關性對擴展實體進一步篩選,以提高領域實體集的準確率。

4.2 共性類生成

共性類利用種子集與類的相關性和類的抽象程度兩個因素衡量。當類的抽象程度較高時,其包含的實例通常越多,與種子集有較強相關性的概率越大,但抽象程度較高的類包含的實例也就越雜,即非領域實體就越多,因此當類同時滿足種子集與該類的相關性較高且類的抽象程度較低2 個條件時才為種子集的共性類。為平衡這兩方面因素的影響,采用最大信息增益原理將2 個條件相結合,如式(4)所示:

其中:c(t)表示實體t的所有類;ci表示其中一個類;p表示實體t的類ci與種子集TC具有共同特性的程度,取值范圍為[0,1],值越大,表示類ci與TC的共性程度越高;I表示類的抽象程度,通過類的實例個數來計算。

式(4)參考了文獻[15]實體擴展方法,其方法是在DBpedia 的DBO 體系中,根據關系路徑的抽象程度和該路徑上的實體與種子的相關程度來選擇合適的關系路徑,并對路徑上的實體進行相關度排序得到擴展實體。本文則是在DBpedia 的SKOS 體系中,通過計算subject關系對應的類與種子的相關程度及其抽象程度選擇合適的類,并對其實例進行過濾篩選,其中根據類的實例集與種子集的共現情況來計算類的相關性,通過類包含的實例個數評判其抽象程度。

最大信息增益是用來描述一個屬性區分數據樣本的能力,在這里最大信息增益是用來衡量類與種子集的共性程度,判斷是否為共性類是從該類的相關性和抽象程度兩個方面確定的。因為相關性高的類通常抽象程度較高,抽象程度低的類與種子的相關性通常較低,而生成共性類的目標是高相關性與低抽象程度,所以要平衡存在矛盾的相關程度和抽象程度方面因素,采用I(cj)-I(cj|ci)來衡量,該公式表示在計算類ci的共性值情況下,周圍類cj對ci的影響,cj的抽象程度越低且與ci的相關程度越高,對ci共性值的計算影響就越大。ci(t)值越大表示類ci與種子的相關度高,并且周邊的類也與種子相關度高,同時周邊類的抽象程度低。c*(t)表示實例t的類中最大的共性值,最大共性值對應的類作為共性類。

4.2.1 種子集與類的相關性的計算

種子集與類的相關性由種子集與類實例的交集個數判斷。判別方法如圖3 所示,對于種子集t1、t2、t3中t1的類:類1 和類2,類1 的實例包括t1、t2、t4、t5、t6,類2 的實例包括t1、t7、t8、t9,類1 的實例與種子集有t1、t2兩個相同的實例,類2 的實例與種子集有t1一個相同的實例。類的實例與種子集交集個數越多,該類與種子集的相關性越高,所以類1 比類2 具有更高的相關性。

圖3 種子集與類相關性示意圖Fig.3 Schematic diagram of correlation between seed sets and classes

通過式(5)計算類與種子集的相關性程度,將兩者的交集個數作為衡量相關性的標準。

其中:TC表示種子集;‖‖TC表示種子集的個數;E(ci(t))表示實例t的類ci的實例。

種子集與類的相關性計算具體實例如圖4 所示。以種子集TC={AVL tree,B-tree,Red black tree}中AVL tree為例,其類為Soviet inventions,Binary trees,Search trees,AVL tree 與3 個類的實例交集個數分別為1、2、2,相關度分別為1/3、2/3、2/3,則與TC相關度高的類為Binary trees、Search trees。

圖4 種子集與類相關性實例Fig.4 Correlation between seed sets and classes example

4.2.2 類的抽象程度計算

類的抽象程度是指對實體描述的粗細程度,對實體描述的越抽象,抽象程度越高,即該類的實例涵蓋范圍越廣,實體集間的相關性越小。實體擴展過程的目標則是生成抽象程度較低的類。通常抽象程度高的類,其實例數量一般也越多,抽象程度越低的類,其實例數量越少。因此,通過類的實例數量來判斷其抽象程度,計算公式如式(6)所示:其中:N為t的類中實例個數最大的值;I值越大表示類的抽象程度越低,即該類的表達粒度越細。目標是獲得抽象程度低的類,即I值越大越好。

通過式(7)探究類和周邊的類之間的相關性,其值越小表示各個類之間的關聯強度越強。類cj與類ci的相關性越強,則表明類cj對類ci的影響越重要,該值越小越好。

由于取共性類時僅將共性值最大的一個類用來擴展,使得擴展的實例較少,因此為提高領域實體的召回率,采用松弛機制適當放松生成類的條件,即為每個實體生成多個共性類,使得在保證一定查準率的同時提高擴展實體的查全率。當類ci的共性值ci(t)與最大共性類值c*(t)比值大于閾值θ時,類ci也作為實體的共性類。如圖4 中AVL tree 的類中Search trees、Binary trees 都和數據結構課程的關聯性較強,若僅選擇其中一個類來擴展,則擴展的實例較少,因此在使用松弛機制后生成了多個類,會進一步提高領域實體的召回率。

4.3 實例擴展和過濾

通過以上步驟獲取共性類,在DBpedia 中,共性類與其實例之間通過關系(Is subject of)相連,因此通過該關系提取共性類的實例作為擴展實體。例如AVL tree的類Search trees 包含的實例:Red black tree,Binary Search tree,(a,b)-tree,…均為AVL tree的擴展實體。

擴展過程也會引入噪聲,例如類Binary trees 的實例中除Binary search tree、Top tree 外,還有Interleave lower bound、Rotation distance 這樣的非數據結構的實體,因此需要對擴展實體再進行篩選。

領域實體中許多實體是由單詞拼接而成的,以數據結構課程為例統計了術語實體中由詞綴拼接而成的情況,如圖5 所示,這對判別術語實體間相似度有著很大的參考價值。

圖5 領域實體特點分析Fig.5 Analysis of domain entities characteristics

但基于字符串相似的特征具有局限性,沒有考慮到實體間結構語義相關性,因此在計算擴展實體tj與種子集TC相關度時,將基于字符串的相似度Comm(ti,tj)和基于結構的相關度r(ti,tj)進行相加作為實例與種子集的相關度Sim,如式(8)所示:

字符串相似度計算采用SMOA 算法[24]的Comm方法,如式(9)所示:

其中:分子為兩個字符串的最大公共子串長度的兩倍;分母為兩字符串的長度之和。

基于結構的相關度r(ti,tj)利 用TagMe 系統實現,原理如式(1)所示。

擴展實體篩選過程首先計算擴展實體與每個種子的相關度,然后將該擴展實體與種子集相關度均值作為該擴展實體的相關程度,最后將擴展實體按相關度值由大到小排序,取topN 為領域實體TD。

5 實驗結果與分析

5.1 實體抽取實驗分析

本節首先分析實體間相關度閾值α和圖傳播算法迭代次數兩個參數的影響,然后在最佳參數條件下與實體抽取基線方法分別在公開數據集和領域數據集上進行對比。

5.1.1 數據集和評價指標

在數據集CSEN、EcoEN[18]上進行實體抽取實驗對比。數據集CSEN、EcoEN 是從MOOC 平臺的Coursera 和XuetangX 上收集計算機科學和經濟學英文版本的課程資源,其中從8 個計算機科學課程中收集視頻字幕來形成CSEN 數據集,從5 個經濟學課程中選取視頻字幕來構建EcoEN 數據集。

實驗評測指標選擇精確率P、召回率R、F1 值、R-precision(Rp)、mean Average Precision(mAP)。精確率P是指擴展結果中領域實體個數與擴展實體個數的比值。召回率R是指擴展結果中領域實體個數與領域實體個數之比。F1 值是對精確率P和召回率R的綜合評價。Rp 是一個關注排名的信息檢索指標,給定一個包含n個種子的排名列表,它計算排序后的前n個實體中領域實體的精確率。平均精度均值(mAP)是信息檢索中評價排名列表的重要評價指標,AP 指的是在不同召回率上的準確率,mAP 是AP的平均值,如式(10)所示:

其中:n為種子的個數;Ri為n個召回率;P(Ri)表示在召回率為Ri時的準確率。

5.1.2 實體抽取實驗參數設置

實體相關度閾值α這一參數控制著實體圖中邊的建立。當α過小時,一方面使得實體圖中的邊較多,計算復雜度大,另一方面使得置信度傳播過程噪聲增大。當α過大時,會使得存在相關性的實體間因未建立邊而造成召回率較低。如圖6 所示,當α取0.2 時Rp、mAP 取得最高值,因此實體圖構建時候選實體間相關度閾值設為0.2。

圖6 不同閾值的Rp 和mAP值Fig.6 Rp and mAP values of different thresholds

迭代次數決定圖迭代何時結束,迭代次數過少會使得置信度不能充分傳播到每個實體上,導致領域實體的實體置信度值較低而被過濾掉,從而使召回率較低。迭代次數過多則會使置信度值趨于一致,從而引入非領域實體且浪費計算資源。圖7 所示為在不同迭代次數的條件下Rp 和mAP 值。迭代次數過少則無法擴展更多的領域實體,例如當初始條件時(即迭代次數為0)領域實體僅為種子,迭代次數過多則在擴展實體中引入非領域實體,例如當迭代次數過多時,高置信度的實體會被鄰居節點的投票得分拉低,導致領域實體與非領域實體置信度值趨于一致。從圖7 可以看出,迭代次數從6 到11 時尚有下降趨勢,說明迭代過程中擴展了領域實體,導致種子實體排名下降。第11 次迭代后基本不變,說明基本不再擴展更多的領域實體,所以種子實體排名也基本不變,如果繼續迭代則會使得所有實體置信度值的差值越來越小,不利于根據置信度值判定是否為領域實體,因此最佳迭代次數為11。

圖7 不同迭代次數的Rp 和mAP值Fig.7 Rp and mAP values of different iterations

5.1.3 與基線實驗的對比

實體抽取的實驗基線選取了兩個基于統計的方法TF-IDF 和PMI,兩個基于圖的方法TextRank、topic PageRank(TPR)與CCP,基線結果來自文獻[18]。從表1 可以看出(粗體數字為最優結果),在CSEN 數據集上的Rp 和mAP 評價指標僅次于最優的CCP 方法,在EcoEN 數據集上Rp 指標達到最優效果,mAP指標僅次于TPR 方法??傮w分析可以看出,本文實驗效果與CCP 接近,但本文實驗不需要搜集大量的領域資料與嵌入過程,相比而言,本文實驗的操作更加便捷。

表1 實體抽取結果Table 1 Results of entity extraction

5.1.4 領域數據集的實體抽取實驗結果

數據結構領域實體抽取數據源為數據結構教材,以每章中的節為單位進行實體抽取,評價結果為各節評測值的平均值。實驗對比基線為TextRank、TF-IDF,評價指標采用P@n、Rp 和mAP,在P@n中n分別取值5、10、20,結果如表2 所示(粗體數字為最優結果)。

表2 數據結構領域實體的抽取結果Table 2 Extraction results of data structure domain entity

由于基于圖的TextRank方法和基于詞頻統計的TFIDF 方法均受到語料規模及質量的影響,因此在語料相對較少的情況下實驗效果較差,而本文所提出的方法則是利用維基百科作為背景知識進行實體抽取,因此受語料影響較小,從而具有較好的實驗結果。

從表2 中可以看出,在評測指標P@n中,隨著n的增大,P@n呈下降趨勢,這是合理的現象。因為實體按領域性相關性排序后,在領域相關性越強的部分領域實體越密集,隨著領域性的減弱,領域實體越稀疏,所以會出現在P@n中隨著n的增大,P@n減小的趨勢。

5.2 實體擴展實驗分析

本節首先分析實體擴展實驗中參數的影響,然后將擴展方法與基線在公共數據集INEX 上進行對比,最后分析在數據結構課程領域數據集上的擴展結果。

5.2.1 數據集和評價指標

公共數據集采用INEX-XER2009[25](INEX),領域數據集采用本文構建的數據結構領域術語實體集。INEX 是一個包含60 個主題的數據集,其中每個主題包含一個問題描述和若干個種子,按每個話題給出種子個數(seed=2、3、4、5),INEX 分為4 組數據。該數據集常被用來評估實體檢索相關任務,如實體排名、實體擴展任務。數據結構領域實體由5 名計算機專業研究生手動標注,取其公認的領域實體作為數據結構領域實體集。

評估測度采用召回率R、準確率P、F1 值和前n個結果的準確率P@n,本文取P@5、P@10和P@20。

5.2.2 松弛機制參數的影響

為研究松弛機制對擴展實驗的影響,在INEX 的4 組數據上評估松弛閾值θ的影響。松弛機制的目的是獲得較高的召回率,因此這里的評測指標僅為R,結果如表3 所示。從表3 可以看出,隨著θ的減小,召回率R不斷增大。當考慮種子數量seed 的影響時,在seed 取值為2、3、4 時,隨著種子個數的增加,召回率也在提升,這表明種子越多,實體擴展方法的性能越好。當seed 取值為5 時,召回率較小,這是因為種子越多,其共性會減弱,使得召回率較低。當考慮松弛閾值θ的影響時,隨著θ的減小,召回率R不斷提高,當θ取0.6 時,R值最大,但當θ從0.7 減小到0.6 時,R的增幅較小,但每降低較小的閾值,得到的擴展實體個數會增加很多,擴展結果中有很多的非領域實體,使得實體篩選的時間較長。因此,松弛閾值取0.7。

表3 松弛機制參數θ對R 的影響Table 3 Influence of relaxation mechanism parameters θ on R

5.2.3 實體擴展與基線實驗的對比

本文實驗將與已有的7 個基線進行比較,基線和基線間的實驗結果來自文獻[18]?;€包括LDSD、BBR、ARM、QBEES、SEAL、ESER。其中,LDSD 是基于鏈接的實體擴展方法,BBR、SEAL 為基于非結構化文本的實體擴展方法,ARM 為基于關聯規則挖掘的方法,以及基于種子共同特征的QBEES、ESER 實體擴展方法。

在INEX 的4 組數據上評測P@5、P@10和P@20,將4 組結果的均值作為評測結果,如圖8 所示。

圖8 不同基線的對比結果Fig.8 Comparison results of different baselines

基于知識圖譜的擴展方法LDSD 表現較差,這是因為其利用的是文本描述中出現的帶有超鏈接的相關實體來評估實體間的相似性,沒有考慮種子的語義相關性?;谧匀徽Z言處理模型的實體擴展方法表現優于LDSD,但相較于本文基于語義結構的方法擴展效果相對較差,這也表明了基于自然語言處理模型從非結構化文本中擴展實體有一定的局限性。ARM 應用關聯規則挖掘來發現頻繁模式,利用種子間的共性提高了召回率,但其排序模型不足以達到良好的準確性。由于知識圖譜是不完整的,QBEES 應用嚴格的模式檢索類似的實體會導致召回率較低。SEAL 從搜索引擎的強大功能中收益良多,使得檢索到的網頁與種子相關度較高,然而在某些情況下很難從非結構化文本中發現和提取種子的共性。ESER 在結構化知識圖譜中通過挖掘種子的公共語義路徑擴展實體有著良好的表現,但隨著種子個數的增加,挖掘的路徑越多,導致擴展的實體精度降低。本文方法在INEX 上綜合表現最好,因為在擴展過程中僅利用了知識圖譜中的一跳路徑,即類與實例的關系,避免路徑過長出現語義漂移,再利用擴展實體與種子實體的字符串相似性和結構距離相關性對擴展實體排序,使得擴展實驗在擁有較高召回率的基礎上提高TopN的準確率。

排序后的擴展實體在相關度越高的部分領域實體越密集,隨著相關度的降低,領域實體越稀疏,所以P@n隨著n增大而減小。

5.2.4 領域數據集的實體擴展實驗結果

在數據結構領域數據集上按章節進行實體擴展,即以每章節的核心術語實體為種子在DBpedia中擴展。在實驗評價中隨機選取了3 個章節P、R和F1 值的平均值作為領域實體擴展的評測結果。不同松弛機制閾值下的實體擴展結果如表4 所示。

表4 數據結構領域實體的擴展結果Table 4 Extension results of data structure domain entity

從表4 可以看出,閾值越低召回的領域實體越多,因此將松弛機制閾值θ為0.7 時的擴展實體進行標注獲得領域實體。隨著松弛閾值的減小,P值降低,R提高,這是因為閾值越小,擴展得到的實體越多,使得R提高,同時也因為引入了更多的非領域實體使得P降低。從綜合評價指標F1 可知,當閾值θ取0.8 時,擴展的數據結構領域實體效果最佳。

5.3 結果展示

從數據結構課程文本中分別抽出各章節的核心實體,例如從講解Heap的章節中抽取出實體Binary heap、Heap(data structure)、Binomial heap,在DBpedia 中利用實體的subject 關系(Is subject of 的逆關系)選擇類Heaps,類通過Is subject of 獲得其實例,最后通過實體篩選過濾,得到擴展實體Fibonacci heap、Breadth first traversal、Treap 等。通過挖掘課程領域核心實體和從DBpedia中擴展實體共獲得數據結構領域實體1 115個,結果如圖9 所示。

圖9 實體擴展示例Fig.9 Entity expansion example

6 結束語

本文利用候選實體間結構相關度構建概念圖,通過基于置信度傳播的圖排序算法抽取核心實體,在DBpedia 中計算關系路徑的最大信息增益選擇實體的共性類,并將共性類下的實例作為擴展實體,最后通過基于字符串相似和結構相關度的排序方法對擴展概念進行過濾。實驗結果表明,實體抽取方法在CSEN 數據集上僅次于CCP 方法,在EcoEN 數據集上達到最優,實體擴展方法在INEX 數據集上的P@n均優于基線實驗。本文對領域實體相關度的計算以及擴展實體的篩選排序過程均未考慮語義上的相似度,這可能影響實體挖掘方法的魯棒性,下一步通過將文本嵌入計算實體向量的語義相似度,從而使實體間相似性的計算更加可靠全面,并利用實體間關系信息挖掘領域實體,根據圖像等多模態信息進行實體挖掘。

猜你喜歡
置信度共性實例
置信度輔助特征增強的視差估計網絡
一種基于定位置信度預測的二階段目標檢測方法
硼鋁復合材料硼含量置信度臨界安全分析研究
共性
正負關聯規則兩級置信度閾值設置方法
“數控一代”示范工程引領和推動共性使能技術在中小企業推廣應用
雷鋒精神與遼寧精神的共性研究
完形填空Ⅱ
完形填空Ⅰ
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合