?

融合多種特征的實體鏈接技術研究

2016-05-03 13:12陳玉博何世柱呂學強
中文信息學報 2016年4期
關鍵詞:知識庫語義實體

陳玉博,何世柱,劉 康,趙 軍,呂學強

(1. 中國科學院自動化研究所,模式識別國家重點實驗室,北京 100190;2. 北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101)

融合多種特征的實體鏈接技術研究

陳玉博1,何世柱1,劉 康1,趙 軍1,呂學強2

(1. 中國科學院自動化研究所,模式識別國家重點實驗室,北京 100190;2. 北京信息科技大學 網絡文化與數字傳播北京市重點實驗室,北京 100101)

實體消歧是自然語言理解的重要研究內容,旨在解決文本信息中普遍存在的命名實體歧義問題,在信息抽取、知識工程和語義網絡等領域有廣泛的應用價值。實體鏈接是實體消歧的一種重要方法,該方法將具有歧義的實體指稱項鏈接到給定的知識庫中從而實現實體歧義的消除[1]。傳統的實體鏈接方法主要利用上下文的詞語匹配等表層特征,缺乏深層語義信息,針對這一問題,該文提出的實體鏈接方法利用了多種特征,從不同的維度捕獲語義信息。為了更好地融合各個維度的特征,該文利用了基于排序學習框架的實體鏈接方法,與傳統的方法相比,節省了人工對大量的模型參數選擇和調節的工作,與基于分類的方法相比,能更好地利用到候選之間的關系信息。在TAC-KBP-2009的實體鏈接評測數據上的實驗表明,該文提出的特征和方法表現出良好的性能,在評測指標上高出參賽隊伍最好水平2.21%,達到84.38%。

實體消歧;實體鏈接;排序學習

1 引言

近年來,隨著互聯網的普及和迅速發展,越來越多的信息以數字化的方式存儲在網絡中。如何在浩繁的數據中實現深層語義檢索和查詢已經引起了眾多學者的關注。為了實現這一目標,必須構建出機器可以理解的、組織良好的結構化知識庫或知識圖譜。目前已經有很多公開的結構化知識庫,例如,YAGO[2]、KOG[3]和DBpedia[4]等。在構建和維護結構化知識庫時,不可避免地會遇到命名實體歧義的問題。因此,研究實體鏈接技術具有重要的學術價值和現實意義。

命名實體歧義指的是同一個實體指稱項在不同的上下文中可以對應到不同真實世界實體的語言現象。例如,給定如下兩個包含“Michael Jordan”的句子:

? Michael Jordan is a famous american basketball player.

? Michael Jordan is a famous professor in the field of machine learning.

上述例子中的兩個“Michael Jordan”分別對應著籃球運動員“Jordan”和機器學習領域的教授“Jordan”。實體鏈接系統的主要任務是將文本中具有歧義的實體指稱項鏈接到知識庫中的相應實體上,如果在知識庫中沒有相對應的實體,則鏈接到空實體上。實體鏈接中的關鍵問題是候選實體與實體指稱項間的語義相似度的計算。傳統的研究工作中主要利用詞袋子模型計算指稱項所在上下文文本與候選實體所在文本之間的文本相似度,進而用文本的相似度來衡量實體間的相似度,還有學者將類似的表層語義信息作為主要特征來判斷實體間的相似度。但是類似的表層語義特征都是基于詞匹配的,缺乏深層語義信息。不適用同一實體出現的上下文語境沒有匹配詞匯,或者匹配詞匯數量少的情況。例如,我們假設知識庫中有兩個名為“Michael Jordan”的實體:

? 實體名: Michael Jordan(NBA Player) 文本: Michael Jordan plays basketball in Chicago Bulls.

? 實體名: Michael Jordan(Machine Learning Professor) 文本: Michael Jordan is a famous professor in the field of machine learning.

當待消歧的實體指稱項“Michael Jordan”出現在文本“Michael Jordan wins NBA MVP.”中時,實體指稱項應當鏈接到美國籃球運動員邁克爾喬丹上,因為消歧文本中的“MVP”和知識庫實體“Michael Jordan”定義中的“basketball”和“Chicago Bulls”有非常高的語義關聯度。但上述例子中,除了實體名外,實體指稱項所在的文本與知識庫中該實體的描述文本沒有匹配的詞,導致傳統基于詞袋的模型無法取得滿意的結果。為了解決這一問題,本文挖掘并利用Wikipedia中的實體關聯知識,提出了一系列包含深層語義信息的特征,并將這些深層語義特征與表層字面特征融合,完成實體鏈接。為了更好地利用本文所提出的特征信息,在消歧階段本文利用了基于排序學習框架。相較于基于分類的實體消歧方法,基于排序學習的方法能更好地考慮候選實體間的關系。本文設計并實現了一個完整的實體消歧系統,系統由候選實體生成模塊和候選實體選擇模塊兩部分組成。進行實體消歧任務時,主要分兩個步驟完成: (1)候選實體的生成,如給定實體指稱項“Michael Jordan”,實體鏈接系統根據規則和相關知識找到其可能指向的真實世界實體,如: “Michael B. Jordan”、“Michael Jordan(mycologist)”和“Michael Jordan (basketball player)”等。(2)候選實體的選擇,系統根據實體的上下文及實體本身的知識,對所有的候選進行相似度的打分排序,根據排序的結果選擇相應的候選實體作為鏈接對象。

為了驗證本文提出的特征和方法的有效性,本文在TAC KBP 2009的實體鏈接評測數據上進行了測試。實驗表明,本文提出的特征和方法在測試數據上顯示出良好的性能。正確率達到84.38%,高出參評隊伍最好水平2.21%。

本文章節安排具體如下: 第二節介紹實體鏈接的相關工作;第三節介紹候選實體生成模塊;第四節介紹候選實體選擇模塊;第五節為實驗和結果分析;最后對本文工作進行了總結,并指出將來工作的方向。

2 相關工作

在命名實體消歧方面有很多關于實體鏈接的工作。Bagga[5]等人用詞袋模型來解決人名歧義的問題。Fleischman[6]等人利用網絡信息等特征訓練最大熵模型來解決實體歧義問題。這些方法都是通過衡量指稱項上下文文本與目標實體文本之間的相似度來判定兩者是否一致。在這些方法中很大一部分都是利用詞袋模型或者類似于詞袋模型的方法,然而詞袋模型只能捕捉表層字面匹配信息無法捕捉深層語義。

為了解決這一問題,Malin[7]等人提出了利用隨機游走的方法計算文本之間的相似度,除此之外,Han[8]等人提出利用Wikipedia作為背景知識庫,通過利用Wikipedia中的語義知識來進行消歧。利用不同的背景知識,研究者就可以得到不同的特征來進行實體消歧。

上面所述的方法中大多數都是解決單一實體鏈接問題,僅僅考慮目標實體與實體指稱項間的語義相似度。除此之外Cucerzan[9]等為了更好地對于文本內的多個實體進行消岐,建立了全局語義約束,利用協同式策略綜合考慮多個實體間的語義關聯,從而進行協同實體鏈接。本文工作主要圍繞解決單一實體鏈接問題開展。

如上所述,研究者們已經提出了很多不同的特征用來進行實體消歧,如何有效合理地利用這些特征進行消歧也是一個研究熱點,起初很多研究人員利用人工規則和權重來結合這些特征,然而這樣不僅會耗費大量的時間和精力,還缺乏泛化能力。因此,有很多學者利用機器學習上的方法來完成特征的融合。Milne[10]等訓練了很多類似SVM、C4.5和貝葉斯等典型的分類器來融合特征。這種基于分類的方法取得了不錯的效果,但是該方法不能很好地考慮到候選實體之間的關系,為了解決這一問題本文利用排序學習的方法融合特征進而完成單實體鏈接的任務。

3 候選實體生成模塊

為了完成實體鏈接,首先要從知識庫中獲得候選實體。在這一模塊,我們為每個待消歧的實體指稱項生成一組候選實體。通過對數據的分析不難發現,所有的候選實體應該在字面上和實體指稱項相似,或者雖然字面上不相似但是實質上是同一實體的不同表示(如: 別名或縮略名)。為了保證候選實體的高召回率,本文在候選生成階段首先利用了基于表層字面信息的方法擴展指稱項,將獲取字面上最相近的一部分實體作為候選實體。接下來再利用Wikipedia針對每一個擴展后的詞進一步擴展候選實體。具體方法如下:

3.1 基于表層字面信息的候選生成

在這一階段主要是召回與實體指稱項字面上相似的實體作為候選。首先我們利用Google開發的拼寫錯誤修正工具來校正拼寫錯誤,將可能的正確形式都作為候選實體加入候選列表中。接下來為了保證高召回率,本文又利用編輯距離計算實體指稱項和知識庫中每個實體間的相似度,經試驗驗證,本文選取編輯距離大于X的作為候選實體。按公式(1)計算編輯距離。

edita,b(i,j)=

(1)

除此之外,通過對數據的觀察,我們發現在待消歧的實體指稱項中有很多指稱項是縮略詞的形式,這種形式會造成很大歧義,但是其完全形式歧義很小,例如:

1) The ABC (Australian Broadcasting Corporation) is australia’s national public broadcaster.

2) In American, ABC (American Broadcasting Company) first broadcast on television in 1948.

從例子中不難看出如果我們能從上下文中對指稱項ABC進行擴展,得到其完全形式“Australian Broadcasting Corporation”和“American Broadcasting Company”,不僅能保證正確候選的召回,而且能減少候選實體與指稱項之間的歧義,所以本文中采用了Zhang[11]等提出的縮略詞擴展規則。

3.2 基于維基知識的候選生成

經過基于表層字面信息的候選生成,我們已經初步校正了拼寫錯誤、得到了縮略詞的全稱和與實體指稱項字面上相似的實體。但是還有很大一部分候選實體無法獲得,因為有很多正確候選實體與實體指稱項在字面形式上幾乎完全不一致,如: 實體“Michael Jordan”,如果在待消歧文本中出現了實體指稱項“His Airness”,則通過基于表層字面信息的方法無法將實體“Michael Jordan”作為候選加入候選實體列表,因為表層字面匹配的方法缺乏深層語義知識,無法判斷出“His Airness”是“Michael Jordan”的綽號。為了解決這一問題,在本文中我們引入了語義知識。本文挖掘并利用Wikipedia中的相關知識建立了實體指稱項候選詞典,用于補充基于表層字面信息生成候選的不足,以達到高召回率的目的。生成的部分實體指稱項字典如表1所示。

表1 實體指稱項字典實例

本文利用Wikipedia中的以下信息建立詞典:

? 重定向頁面: 自然界中很多實體的名字都不僅只有一個。這個問題也就是一義多詞問題,在Wikipedia中用重定向頁面來處理這類問題,同一個實體只有一個實體頁面,用這個實體流行度最廣的名字作為標題。針對其余的名字都建立重定向頁面,指向唯一的實體頁面。所以重定向頁面中包含很多的同義知識。

? 消歧頁面: 自然界中很多不同的實體具有相同的名字。這個問題也就是一詞多義問題,在Wikipedia中用消歧頁面來處理這類問題,消歧頁面中有一系列的鏈接信息,分別鏈向這個名字所指的不同實體。所以能從消歧頁面中發現很多候選實體。

? 錨文本信息: 在Wikipedia的文本中會將提到的重要實體鏈接到相對應實體的頁面,這就是錨文本信息,這些錨文本有的是對應實體的同義詞,有的是對應實體的別名,還有的是對應實體的名字的錯誤拼寫。能為候選的生成提供重要依據。

為了測試本文提出的候選生成模塊的召回率,我們在TAC KBP 2009-2013年的數據上都進行了測試。測試結果如表2所示。測試數據表明本文提出的候選生成模塊的有效性。

表2 候選實體生成模塊召回率測試

4 候選實體選擇模塊

基于候選實體生成模塊,我們可以得到一個實體指稱項對應的所有的候選實體,為了正確鏈接實體,我們必須對所有的候選實體排序,最終將得分最高的實體作為此實體指稱項的鏈接實體。本文對候選實體的選擇基于一個有監督的排序學習算法。對于一個實體指稱項,排序學習分類器的輸入是n個d維空間向量,其中n表示的是該實體指稱項的候選實體的數目,每一對候選實體與實體指稱項會根據特征函數生成一個d維空間的向量,其中d代表特征的個數,這些特征充分考慮了候選實體自身的信息以及指稱項上下文內容與候選實體的語義相似度等知識。通過最大邊緣化的方法來選擇候選實體,即正確的實體所獲得的分數應該高于其他的候選實體的分數同時加上一定的余量。這個約束條件等同于SVM排序學習算法[12],優化函數和約束條件為式(2)~(4)。

(2)

(3)

(4)

其中,V為損失函數,w是要學習到的關于特征的權重,c為懲罰因子。q.e是實體指稱項的正確實體,q.ek實體指稱項的其他候選實體。約束條件的物理意義是正確實體獲得的分數要盡量大于其他候選實體獲得的分數。本文的候選實體選擇模塊共使用了表層字面特征、深層語義特征和空實體特征共三類七種。各個特征將在下面進行詳細介紹。

4.1 表層字面特征

這類特征主要從表層字面信息考慮候選實體與待消歧的實體指稱項間的相似度。這類特征包括編輯距離相似度、Dice相似度、向量空間相似度和實體共現信息等特征。為了提高特征的有效性,在計算表層字面特征時我們會對文本進行預處理。具體如下:

數據預處理: 在數據預處理階段,本文會過濾掉實體名字中的括號及括號中的內容,還會考慮到縮略詞和大小寫的情況。

基于編輯距離的相似度Edit: 該特征主要用來度量候選實體名和待消歧指稱項的編輯距離,編輯距離的計算如上述公式(1)所示。

基于Dice系數的相似度Dice: 該特征主要用來衡量候選實體名和待消歧指稱項的Dice系數。如:x和y為兩個字符串,則Dice的計算如公式(5)所示。

(5)

公式中nt表示同時出現在字符串x和y中的二元組個數,nx是字符串x中的二元組個數,ny是字符串y中的二元組個數。

基于向量空間模型的篇章級相似度Bow: 該特征主要用來衡量待消歧指稱項的上下文文本和候選實體的描述文本之間的相似度。同一實體出現的上下文環境應該類似,所以這一特征在傳統的消歧方法中占有很重要的地位。計算時,應先將待消歧指稱項的上下文和候選實體的上下文用詞袋子模型表示成向量,向量中的每一維都由標準的TF-IDF計算得到,最后計算向量的余弦值作為相似度。

實體共現信息Co: 該特征為二元特征,標志著指稱項實體名是否在候選實體文本中出現,或者候選實體名是否在指稱項上下文中出現,出現則設為1,否則為0。

4.2 深層語義特征

在上述的表層字面信息特征中,主要是基于詞或者實體的匹配信息,無法捕捉到深層語義,對于上下文中匹配信息較少的情況不具備泛化能力,所以我們應當將深層語義信息考慮進來,在深層語義特征中,主要是利用從Wikipedia中獲得的背景知識計算候選實體與實體指稱項之間的深層語義關聯。具體如下:

實體流行度Pou: 這個特征主要是衡量一個實體在一篇文章出現概率的大小。本文中我們的計算方法同Han[13]一樣,統計出實體在整個知識庫中出現的總次數N,再統計被鏈接到的次數L,則L/N為實體的流行度。例如: 給出實體“Michael Jordan”,在沒有其他任務附件信息的條件下,從流行度可以知道,實體“Michael Jordan”鏈向美國著名籃球明星“Michael Jeffrey Jordan”的概率要大于鏈向伯克利大學教授“Michael I. Jordan”的概率。

基于維基實體的相似度Ws: 為了更準確地計算實體指稱項和候選實體之間的相似度,本特征使用Wikipedia知識來獲取實體之間的語義關系。類似于Han[8]等的工作,本文中實體相似度計算分為三步: ①指稱項文本中的Wikipedia實體向量表示的抽??;②兩個指稱項實體向量表示的對齊;③相似度計算。以下分別具體介紹:

① 指稱項文本中的Wikipedia實體向量表示的抽?。?為了計算實體之間的相似度,首先將每個實體e表示成Wikipedia的實體向量e={(c1,w(c1,e)),(c2,w(c2,e)),…,(cm,w(cm,e))},其中,Ci是指稱項上下文中的Wikipedia實體,而w(Ci,e)是實體Ci在指稱項e的實體向量表示中的權重。給定實體,其實體向量表示的抽取分兩步完成: 首先完成Wikipedia的實體抽取,本文利用由Milne[14]等開發的工具Wikipedia-Miner來識別并抽取,同一個指稱項文本中抽取的實體集合組成向量。還要為向量中的每維估計權重,因為不同的實體在消歧過程中起的作用是不一樣的,本文中,一個實體c在一個實體指稱項e中的重要性,計算如公式(6)所示。

(6)

其中sr(c,ci)是Milne[10]提出的Wikipedia實體之間的語義關聯。根據實體權重,我們可以過濾掉噪音實體從而提升實體消歧系統的效率和性能。

② 實體向量表示的對齊: 將指稱項用Wikipedia實體向量表示后,我們可以使用余弦相似度等傳統方法來計算實體之間的相似度。但是傳統相似度通常不能考慮到實體之間的語義關聯。因此,我們利用實體對齊方法來識別實體之間的對應關系,并以此為基礎來在實體相似度計算中融入實體之間的語義關系。給定兩個實體的向量表示el和ek,我們使用如下方法實現向量中實體的對齊: 對el中的每一個實體c,我們選擇目標實體ek向量表示中與其有最大語義關聯度的實體作為它的對齊實體,計算如公式(7)所示。

(7)

③ 相似度計算: 完成實體對齊后,指稱項相似度計算的關鍵問題是如何將這些實體對齊信息結合到相似度計算中,進而在相似度計算中融入Wikipedia語義知識?;趯嶓w對齊的結果,我們認為從一個實體el到另一個實體ek的語義關聯為“兩個實體之間所有對齊實體之間語義關聯的帶權平均”,計算如公式(8)所示。

SR(ek→el)=

(8)

按上述定義,給定兩個實體el和ek,從el到ek的和ek到el的語義關聯度是非對稱的。因此本文利用的兩個實體el與ek之間的相似度為el到ek和ek到el的語義關聯度的平均值。

經過上述的三步,我們可以計算出兩個實體的深層語義相似度,更好地捕捉實體之間的深層語義信息。

4.3 空實體特征

除了上述的兩類特征,為了更好地處理空實體的問題,本文參照Dredze[15]等人的工作,設計了空實體特征NIL,并且在候選特征中強制加入空實體作為候選,一同參與所有候選實體的打分排序,如果是空實體得分最高,則將待消歧的實體指稱項鏈接到空實體上。在本文中空實體的特征向量中只有空實體特征設定為非0,其余的特征值均為0。對于其他的候選實體來說空實體特征為0。其余的特征由上述的定義計算得到。

5 實驗結果及分析

5.1 實驗數據集

本文的實驗在TACKBP2009的評測數據集上進行。TACKBP評測中實體鏈接的任務目標是將文本中的實體指稱項與目標實體知識庫中的相應實體鏈接。TACKBP2009實體鏈接任務由目標實體知識庫和評測數據兩部分組成評測數據集,如下所示:

目標實體知識庫: 評測任務中,指稱項目標實體的相關信息存儲在目標實體知識庫中。目標實體知識庫以實體為單位組織。目前,TAC實體鏈接任務知識庫中的目標實體是從2008年10月的Wikipedia中抽取構建,在目標實體知識庫中,每一個實體節點包含如下幾方面信息: 知識庫ID、實體的類別、實體的名字、屬性信息和消歧文本。

評測數據: 評測任務中,測試數據Query以XML格式提供,每個Query能提供的信息有實體指稱項的名字、QueryID、實體所在文本的ID和實體指稱項在實體知識庫中的對應實體的ID。評測數據中總共包括了3 904個query,其中2 229個query是在知識庫中找不到對應的實體的,也就是要標記為空實體,其余的1 675個query能在知識庫中找到指定的實體。在評測數據中不同類別的實體,其中627個關于PER的query,2 710個關于ORG的query,567個關于GPE的query。

5.2 評價指標

本文采用TACKBP2009中的評測指標Micro-averagedaccuracy來評價實體鏈接的效果,計算如公式(9)所示。

(9)

公式(9)衡量了所有鏈接結果的平均準確率,其中L(q)是實體鏈接系統給出的queryq的目標實體ID ,Q是所有query的集合,C(q)是queryq的準確目標實體ID,σ(L(q),C(q))用于判斷L(q)是否與C(q)相同,不相同為0,相同則為1。

5.3 實驗設置

在實驗中我們首先不考慮空實體,僅在知識庫中能找到相應實體的數據集上進行實驗,之后在候選實體中加入空實體,在特征中加入空實體特征,在整個數據集上進行實驗,驗證考慮空實體后本文提出的實體鏈接系統的性能。與Shen[16]等一樣,本文的所有實驗數據都是在TAC KBP 2009的數據集上采用十折交叉驗證獲得的。

5.4 結果及分析

5.4.1 特征有效性分析

為了驗證本文利用的深層語義知識特征的有效性,我們將第4節提出的特征進行了不同方式的組合進行實驗。為了降低空實體對實驗的影響,實驗時我們只在能在知識庫中找到實體的1 675個query的數據集上進行測試。實驗結果如表3所示。

表3 在非空實體上的測試結果

從實驗結果上看,#2與#1對比性能提升1%左右,說明在實體鏈接的過程中單獨運用基于維基實體的相似度效果會優于單獨利用向量空間模型的相似度。證實了基于維基實體的相似度能更好的捕捉實體之間的語義信息。

#3與#1相比性能提升6%左右,相較于#1系統,#3系統又融入了三個基于表層字面信息的特征,分別是基于編輯距離的相似度、基于Dice系數的相似度和實體共現信息。結果性能上的提升說明了本文提出的這三個特征的有效性,也說明了在實體消歧階段,實體名相似與否或者實體名是否共現具有很重要的地位。

#4與#2的比較中可以看出特征實體流行度的有效性。流行度表征了一個實體在一篇文章中出現的概率,這說明一個實體的流行度越大,那么當它作為候選實體進行消歧時,其被判定為正確答案的概率也就越大。

#4的性能要優于#3,#4中的特征都是基于Wikipedia中的超鏈接等關系獲得的深層語義知識,而#3中的特征都是基于字面表層信息的。實驗結果說明基于Wikipedia獲得的知識能捕捉更多的語義知識。更有利于實體消歧的效果提升。

#5的效果明顯優于其余的對比實驗,這說明基于Wikipedia獲得的語義知識與基于表層字面特征能捕獲的知識是互補的,單獨的應用二者都不能達到最優效果,應當將兩類特征結合應用。

5.4.2 算法有效性分析

為了驗證本文利用的基于排序學習算法框架的候選實體選擇方法優于傳統的分類方法,本文實現了基于Naive Bayes的分類方法和基于SVM的分類方法來進行對比實驗,最終實驗分別在不同的特征組合下進行,用分類的方法時,首先將所有的候選實體分類為兩類,取正確的類別中概率最高的為最終鏈接的對象,具體結果如圖1所示。

圖1 基于貝葉斯分類器、Svm分類器和基于排序學習的實體鏈接系統效果對比圖

如圖,實驗在五個特征集合上進行,此實驗選擇的五種特征組合與測試特征有效性實驗中的五個特征組合一致,如: FS1(feature set1)中的特征與#1中的特征一致。在五個集合上利用排序學習算法選擇候選實體的效果都要明顯優于利用傳統分類器的效果。在FS1上性能提升最少,從0.713 4提升到0.780 9,提高6%左右,在FS5上性能提升最高,從0.794提升到0.894 9,提升10%左右。實驗結果表明,基于排序學習框架的算法更適合實體鏈接任務。

5.4.3 與state-of-Art系統性能對比

上述實驗都是針對在知識庫中能找到實體的情況進行的。為了測試系統在完整數據集上的性能,我們在候選實體中加入空實體,在特征中加入空實體特征。在TAC KBP 2009的完整數據集上進行十折交叉測試。結果與參加TAC KBP 2009的前三名[17]進行比較,結果如表4所示。

表4 系統整體性能測試和TAC KBP 2009的前三名 系統對比

系統accuracyofallqueriesaccuracyofnon-NILqueriesaccuracyofNILqueriesSiel090.82170.76540.8641QUANTA0.80330.77250.8241hltcoe0.79840.70630.8941our0.84380.79820.8778

從上述實驗結果可以看出,本文構建的系統在性能上達到84.38%,高出參加評測的最好成績2.21%。不僅說明了本文構建的實體鏈接系統的可靠性,也說明了本文利用的特征和方法的有效性。

6 總結與展望

本文針對傳統實體間相似度計算方法存在的不足,利用了一種基于深層語義知識計算實體之間相似度的方法。為了更好地融合多種特征,本文設計了一個基于排序學習算法框架的實體鏈接系統。實驗結果表明,相比于傳統的計算方法,新的相似度計算方法可以更加有效地捕捉實體指稱項文本與候選實體間的語義關聯。同時,融入了多種特征的實體鏈接系統的性能在TAC KBP 2009的數據集上取得了良好的性能,正確率達到84.38%,高出參加評測的最好成績2.21%。

下一步的工作主要包括: 1)本文建立的實體鏈接系統對空實體的處理還不完善,僅僅是指出該實體指稱項所表示的實體在知識庫中不存在,還需要將這項工作進行細化,如將空實體進行聚類并且將聚類后的空實體加入到知識庫中;2)嘗試使用其他的排序學習算法,如Listnet[18]等。

[1] 趙軍,劉康,周光有等.開放式文本信息抽取[J].中文信息學報,2011,25(6): 98-110.

[2] Fabian M Suchanek, Gjergji Kasneci, Gerhard Weikum.Yago:A large ontology from wikipedia and wordnet. Web Semantics: Science, Services and Agents on the World Wide Web, 2008,6(3):203-217.

[3] Fei Wu, Daniel S Weld. Automatically refining the wikipedia infobox ontology[C]//Proceedings of the 17th international conference on World Wide Web,2008: 635-644.

[4] S?ren Auer, Christian Bizer, Georgi Kobilarov, et al.Dbpedia: A nucleus for a web of open data. In The semantic web, 2007: 722-735.

[5] Amit Bagga, Breck Baldwin. Entity-based cross-document coreferencing using the vector space model[C]//Proceedings of HLT/ACL, 1998: 79-85.

[6] Michael B Fleischman, Eduard Hovy. x Multi-document person name resolution[C]//Proceedings of ACL, Reference Resolution Work shop, 1998: 66-82.

[7] Bradley Malin, Edoardo Airoldi, Kathleen, et al. A network analysis model for disambiguation of names in lists[J]. Computational & Mathematical Organization Theory, 2005,11(2):119-139.

[8] Han X, Zhao J. Named entity disambiguation by leveraging Wikipedia semantic knowledge[C]//Proceeding of the 18th ACM conference on Information and knowledge management, 2009: 215-224.

[9] Silviu Cucerzan. Large-scale named entity disambiguation based on wikipedia data[C]//Proceedings of EMNLP CoNLL, 2007,7: 708-716.

[10] David Milne, Ian H Witten. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and Knowledge Management,2008: 509-518.

[11] Tao Zhang, Kang Liu, Jun Zhao. The nlprir entity linking system at tac 2012.

[12] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002: 133-142.

[13] Xianpei Han, Le Sun. A generative entity mention model for linking entities with knowledge base[C]//Proceedings HLT/ACL, 2011: 945-954.

[14] David Milne, Ian H Witten. An open-source toolkit for mining wikipedia[J]. Artificial Intelligence,2013,194:222-239.

[15] Mark Dredze, Paul McNamee, Delip Rao, et al. Entity disambiguation for knowledge base population[C]//Proceedings of CL.2010: 277-285.

[16] Wei Shen, Jianyong Wang, Ping Luo, et al. Linden: linking named entities with knowledge base via semantic knowledge[C]//Proceedings of WWW, 2012: 449-458.

[17] Paul McNamee, Hoa Trang Dang. Overview of the tac 2009 knowledge base population track. In Text Analysis Conference (TAC), 2009,17: 111-113.

[18] Zhe Cao, Tao Qin, Tie-Yan Liu, et al. Learning to rank: from pairwise approach to listwise approach[C]//Proceedings of ICML, 2007: 129-136.

Entity Linking Based on Multiple Features

CHEN Yubo1, HE Shizhu1, LIU Kang1, ZHAO Jun1, LV Xueqiang2

(1. NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;2. ICDDR, Beijing Information Science and Technology University, Beijing 100101, China)

Entity linking is an important method of entity disambiguation, which aims to map an entity to an entry stored in the existing knowledge base. Several methods have been proposed to tackle this problem, most of which are based on the co-occurrence statistics without capture various semantic relations. In this paper, we make use of multiple features and propose a learning to rank algorithm for entity linking. It effectively utilizes the relationship information among the candidates and save a lot of time and effort. The experiment results on the TAC KBP 2009 dataset demonstrate the effectiveness of our proposed features and framework by an accuracy of 84.38%, exceeding the best result of the TAC KBP 2009 by 2.21%.

Named Entity disambiguation; entity linking; learning to rank

陳玉博(1990—),博士,主要研究領域為事件抽取、信息抽取和自然語言處理。E-mail:yubo.chen@nlpr.ia.ac.cn何世柱(1987—),博士,助理研究員,主要研究領域為智能問答、知識工程以及自然語言處理。E-mail:shizhu.he@nlpr.ia.ac.cn劉康(1981—),博士,副研究員,主要研究領域為信息抽取、網絡挖掘、問答系統等。E-mail:kliu@nlpr.ia.ac.cn

1003-0077(2016)04-0176-08

2014-09-15 定稿日期: 2015-03-20

國家自然科學基金(61202329, 61272332);網絡文化與數字傳播北京市重點實驗室開放課題(ICDD201201)

TP391

A

猜你喜歡
知識庫語義實體
漢語近義詞辨析知識庫構建研究
語言與語義
前海自貿區:金融服務實體
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
批評話語分析中態度意向的鄰近化語義構建
“社會”一詞的語義流動與新陳代謝
高速公路信息系統維護知識庫的建立和應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合