?

基于詞向量的中文微博實體鏈接方法

2017-04-24 10:24毛二松唐永旺
計算機應用與軟件 2017年4期
關鍵詞:知識庫語義準確率

毛二松 王 波 唐永旺 梁 丹

(解放軍信息工程大學 河南 鄭州 450002)

基于詞向量的中文微博實體鏈接方法

毛二松 王 波 唐永旺 梁 丹

(解放軍信息工程大學 河南 鄭州 450002)

實體鏈接是指給定實體指稱項和它所在的文本,將其鏈接到給定知識庫中的目標實體上。由于微博內容存在特征稀疏、用語不規范的特點,使用傳統的方法效果較差,為了準確地對微博中給定的實體進行鏈接,提出一種基于詞向量的中文微博實體鏈接方法。首先,對知識庫進行擴展,并從中文維基百科抽取同義詞構建同義詞表;然后,利用詞向量解決錯別字和外來人名音譯的問題;最后,通過詞向量計算實體指稱項和候選實體的語義相似度來進行實體鏈接。實驗結果表明,該方法在NLP&CC2013評測數據上的微平均準確率達到了91.4%。

實體鏈接 詞向量 維基百科 同義詞

0 引 言

隨著互聯網技術的快速發展,基于互聯網信息構建的知識庫的出現促使自然語言處理中出現了一項新的任務,即實體鏈接[1]。實體鏈接是指給定實體指稱項和它所在的文本,將其鏈接到知識庫中目標實體上。然而現實中的實體存在歧義性和多樣性的問題,如何將存在歧義的實體正確地鏈接到知識庫中對應的實體上在知識庫的構建與擴展、知識圖譜和信息檢索等領域具有重要的理論意義和應用前景[2]。

已有的研究大多專注于英文實體鏈接,對于中文的實體鏈接研究較晚,雖然在TAC2011中引入了中文實體鏈接任務,但它的實質是將中文實體指稱鏈接到英文知識庫中,因而屬于跨語言實體鏈接范疇[3]。而一些會議如CLP(Chinese Language Processing)和WePS(Web People Search)只是針對人名進行鏈接。2013年自然語言處理與中文計算會議NLP&CC(Natural Language Processing & Chinese Computing)設置了中文微博實體鏈接評測任務,旨在將中文微博中的實體(人名、地名、組織機構名等)鏈接到知識庫中目標實體上。NLP&CC2013會議給出中文微博實體鏈接的定義為給定一條微博,一個待鏈接的實體指稱項,以及該實體指稱項在這條微博中出現的位置。首先判斷該實體指稱項是否指向了知識庫中的某一個實體;若存在這樣的對應實體,則將該實體在知識庫中的編號輸出,若不存在,則輸出空置符NIL。

實體鏈接任務的主要步驟為先獲取實體指稱項的候選實體,之后計算實體指稱項的上下文和候選實體上下文的語義相似度,選擇相似度最大的候選實體作為鏈接的目標實體[4]。實體鏈接的核心是計算實體指稱項和候選實體上下文的語義相似度,傳統的相似度計算采用詞袋模型BOW(Bow Of Words)[5-6]將實體指稱項和候選實體的上下文表示成BOW向量,計算兩者的余弦距離得到相似度。針對文獻[5-6]僅僅考慮實體指稱項與候選實體之間的語義相似度,2011年,Han等[7]提出一種基于圖模型的協同實體鏈接方法,利用協同式策略考慮知識庫中實體間的語義關聯,建立全局語義約束,能夠更準確地對文本中的實體進行鏈接。其中圖中節點為所有的實體指稱和知識庫中的目標實體,通過使用詞袋模型的方法得到實體指稱和目標實體的語義相似度,使用基于維基百科的鏈接關系得到目標實體之間的語義相似度。2013年,Zeng等[8]通過對內容過于簡短的微博進行適當的擴充來增加實體的上下文特征,使用漸進式的詞袋模型S-BOW(Stepwise Bag-of-Words)來計算實體指稱項和候選實體之間的語義相似度。2015年,昝紅英等[9]針對微博中的實體具有多樣性的問題,提出了一種基于多源知識的中文微博命名實體鏈接方法,通過將同義詞詞典、百科資源等知識與詞袋模型相結合的方法來計算實體指稱項和候選實體之間的語義相似度,之后進行實體鏈接,實驗結果表明該方法能夠有效提高實體鏈接的準確率。

然而,基于BOW模型計算相似度的主要缺陷為假設任意兩個詞之間是相互獨立的,在計算實體指稱項的上下文和候選實體上下文的相似度時無法利用詞語中存在的同義詞、近義詞和相關詞等語義關系[10]。此外,微博內容具有長度短、語法不規范的特點,給命名實體鏈接任務增加了難度。由于微博內容長度短,使用基于BOW模型的方法對實體指稱項的上下文進行表示時會造成嚴重的特征稀疏問題;微博內容的不規范性,微博中經常出現錯別字和外來人名音譯不統一的問題,如微博中出現的外來人名“薩科齊”與知識庫中的“薩科奇”,其實二者指代的都是同一個人名。

詞向量最早由Rumelhart等[11]提出的一種詞語表示方式,Mikolov等提出的Skip-gram模型[12]可以快速地完成大規模數據的訓練,得到的詞向量在計算詞語之間的語義相似度方面更加準確。

綜上所述,為了計算實體指稱項和候選實體上下文的語義相似度更加準確,提高實體鏈接的準確率,本文提出一種基于詞向量的中文微博實體鏈接方法,使用詞向量對實體指稱項和候選實體的上下文進行表示,通過詞向量計算兩者之間的語義相似度。另外,無論是錯別字還是外來人名音譯,如“阿里巴巴”和“阿里爸爸”以及外來人名“薩科齊”和“薩科奇”,兩者之間都具有相同的語義信息,本文基于此特點使用詞向量來解決錯別字和外來人名音譯的問題。

1 中文微博實體鏈接的總體框架

中文微博實體鏈接任務可定義為如下的五元組:

G=(M,C,D,S,θ)

(1)

其中,M是實體指稱項集合,C是知識庫候選實體集合,D是實體指稱項的上下文詞語集合,S是候選實體的上下文詞語集合,θ:M×D×S→C是實體鏈接函數,將實體指稱項映射到知識庫目標實體上。

中文微博實體鏈接的總體框架如圖1所示。其中包括知識庫擴展、構建同義詞表、錯別字和外來人名音譯的處理、獲取候選實體集和實體鏈接共五個模塊。本文首先對知識庫進行擴展,然后從中文維基百科抽取同義詞構建同義詞表,之后利用詞向量解決錯別字和外來人名音譯的問題,在獲取候選實體集后,通過詞向量計算實體指稱項和候選實體的語義相似度來進行實體鏈接。

圖1 中文微博實體鏈接的總體框架

2 中文微博實體鏈接的具體流程

2.1 知識庫擴展

NLP&CC2013會議中實體鏈接評測使用的是百度百科知識庫,由于部分實體存在噪聲、不準確以及描述不全的情況,因此本文采用以下方法解決上述問題:

(1) 本文從實體的百度百科中獲取詞條標簽,對知識庫的類標進行修正。例如,知識庫中的詞條“倚天屠龍刀”,其在知識庫中的分類標簽為“地理地貌大陸”,然而該詞條標簽為“電視劇影視作品”[13],如表1所示。另外,從該詞條的字面上也可以看出該詞條屬于影視作品。

表1 “倚天屠龍刀”詞條標簽

(2) 百度百科知識庫中部分實體具有歧義性,為了更準確地描述知識庫中的實體,本文從百度百科的消歧頁面獲得每個實體的描述詞語。例如,“霸王別姬”實體總共有19個義項,其中“霸王別姬(國產電視劇)”的頁面表明該實體為電視劇名稱;“霸王別姬(歷史典故)”的頁面表明該實體為歷史典故詞語;“霸王別姬(1993年陳凱歌執導電影)”的頁面表明該實體為電影名稱。

2.2 構建同義詞表

由于微博中經常出現實體的簡稱、別稱等,為了準確地對實體進行鏈接,本文從中文維基百科[14]中共抽取735 053個同義詞形成同義詞表。具體構建方法如下:

(1) 從重定向頁面中抽取同義詞

當兩個不同的詞語所指代的含義完全相同或絕大部分人對這兩個詞語的認知一致時,維基百科不會為這兩個詞語建立兩個頁面,而是添加一個重定向鏈接,將該詞語指向另一個詞語的頁面。

(2) 從維基百科首段加粗內容抽取同義詞

維基百科的首段內容會有很多的加粗字體,該加粗字體都是該實體的簡稱、別稱、統稱等等。

2.3 錯別字和外來人名音譯的處理

詞向量的基本思想是將每個詞映射成一個k維實數向量。Mikolov在文獻[12]中指出相比于傳統的語言模型,基于神經網絡語言模型[15]NNML(Neural Network Language Model)得到的詞向量對詞的表示更加準確。本文使用Mikolov提出的Skip-gram模型在中文數據上進行訓練。其中Skip-gram模型可以通過Hierarchical Softmax[16]和Negative Sampling[12]兩種框架構造實現,本文使用的是基于Hierarchical Softmax構造的Skip-gram模型。通過詞向量計算詞與詞之間的余弦距離得到詞與詞之間的語義相似度,計算公式如下所示:

(2)

其中,v(w1)表示w1的詞向量,v(w2)表示w2的詞向量,sim(v(w1),v(w2))表示通過詞向量計算w1和w2的余弦距離得到w1和w2的語義相似度。

表2列舉了一些通過詞向量計算詞與詞之間語義相似度的測試結果。

表2 詞與詞之間的相似度

由表2可以發現和“薩科齊”相似的詞中包括“薩科奇”這種同音詞,“諾維茨基”的相似詞中也包括相似發音的詞“諾維斯基”。

本文使用以下原則來解決錯別字和外來人名音譯的問題:

(1) 待糾錯的實體指稱項和知識庫中的目標實體具有相同的字越多,則待糾錯的實體指稱項和該目標實體的匹配度越高。例如,待糾錯的實體指稱項“阿里爸爸”與知識庫中的目標實體“阿里巴巴”的匹配度要比“諾維茨基”的匹配度高。

(2) 待糾錯的實體指稱項和知識庫中的目標實體的語義相似度越高,則待糾錯的實體指稱項和該目標實體的匹配度越高。根據表2發現“諾維茨基”和“諾維斯基”的語義相似度要比“阿里巴巴”的相似度高。

(3) 待糾錯的實體指稱項和知識庫中的目標實體的長度必須相同。這里假設待糾錯的實體指稱項仍然和自身的長度相同,例如,待糾錯的實體指稱項“阿里爸爸”的真實實體仍然是四個字,不可能是其他長度的實體。

最后,選擇匹配度越高的目標實體作為待糾錯實體指稱項的真實實體。根據以上原則,計算兩者的匹配度公式如下所示:

(3)

其中,mi表示第i個待糾錯的實體指稱項,ej表示知識庫中第j個目標實體,l(mi)表示mi的字數,l(ej)表示ej的字數,sl(mi,ej)表示mi和ej相同的字數,sim(v(mi),v(ej))表示mi和ej的語義相似度;若mi和ej的字數不相等,則match(mi,ej)=0;若sim(v(mi),v(ej))的相似度小于0.5,則match(mi,ej)=0。

2.4 獲取候選實體

候選實體的獲取是實體鏈接的關鍵步驟,只有盡可能多地獲取候選實體,下一步才可能正確地鏈接候選實體。如果候選實體集中不包括目標實體,則無論使用何種方法都無法正確實現鏈接。獲取候選實體的具體方法如表3所示。

表3 獲取候選實體的具體流程

2.5 實體鏈接

獲得每個實體指稱項的候選實體之后,通過計算該實體指稱項和候選實體的語義相似度,并選擇相似度最大的候選實體。然而候選實體中最大的相似度有可能太低,相似度最大的候選實體未必是鏈接的目標實體,所以實驗中設置相似度的閾值,只有最大的相似度大于設定的閾值,則將該候選實體作為鏈接的目標實體。例如,實體指稱項“霸王別姬”總共有四個候選實體,分別為“霸王別姬(1993年陳凱歌執導電影)”、“霸王別姬(菜肴名稱)”、“霸王別姬(單機RPG游戲)”、“霸王別姬(屠洪剛演唱歌曲)”。實體指稱項“霸王別姬”所在的微博文本為“4月1日,懷念哥哥張國榮!最愛你的《霸王別姬》,美艷動人!”,從微博的上下文內容包含“張國榮”一詞可以看出,該實體指稱項“霸王別姬”與“霸王別姬(1993年陳凱歌執導電影)”條目的語義相似度最大。

本文將實體指稱項的上下文和候選實體的上下文表示成詞語的集合。通過對該實體指稱項所在的微博進行分詞,去掉停用詞后,將微博中所有的名詞作為該實體指稱項的上下文。由于實體指稱項所在的微博內容有時太過簡短,實體指稱項的上下文信息過于稀疏,而同一個話題實體之間語義相近,因此將該實體指稱項所在話題的所有實體加入到該實體指稱項的上下文中。例如,實體指稱項“霸王別姬”所在的話題所有的實體有“謝婷婷”、“梅艷芳”、“《當愛已成往事》”和“林嘉欣”等實體。另外,將候選實體的詞條標簽和該候選實體的描述詞語作為該候選實體的上下文,實體指稱項和候選實體的語義相似度計算公式如下所示:

sim(v(mci),v(ecj))

(4)

其中,m表示實體指稱項,e表示候選實體,n表示實體指稱項上下文詞語的個數,l表示候選實體上下文詞語的個數,mci表示實體指稱項上下文中第i個詞語,ecj表示候選實體上下文中第j個詞語,sim(v(m),v(mci))表示通過計算m和mci的語義相似度作為mci詞語的權重,sim(v(mci),v(ecj))表示mci和ecj的語義相似度。實體鏈接的具體算法流程如表4所示。

表4 實體鏈接的算法流程

3 實驗與分析

3.1 實驗數據

本文采用的實驗數據是NLP&CC2013提供的中文微博實體鏈接標注的數據集,該數據集包含560條中文微博,這些微博分布在53個話題中,共有826個待鏈接的實體,其中包括421個能夠鏈接到知識庫 In-KB(In-KnowledgeBase)的實體,405個不能鏈接到知識庫的實體即空鏈接(NIL)的實體。

實驗中使用的詞向量是使用Skip-gram模型在中文數據上訓練得到,其中訓練數據來源于“搜狗實驗室”的“全網新聞數據”[17]、中文維基百科語料[14]以及本文的實驗數據。

3.2 評價指標

為了評價本文方法的有效性,采用NLP&CC 2013中文微博實體鏈接任務的評價標準,即微平均準確率maa(micro-averaged accuracy)作為評價指標。其計算式如下:

(5)

為了更好地對實驗結果進行分析,本文對存在鏈接的實體集以及空鏈接的實體集這兩類實體集分別計算準確率P、召回率R以及F1值。

(6)

(7)

(8)

其中,TP表示被正確鏈接的實體個數,FP表示被錯誤鏈接的實體個數,FN表示被錯誤鏈接到另一個實體集的實體個數。

3.3 實驗結果

(1) 相似度閾值θ的影響

相似度閾值的設置影響實體的鏈接結果,通過實驗分析,實體指稱項和候選實體的語義相似度集中在[0,0.2]之間,為了得到合理的閾值,本文對相似度閾值在[0,0.2]范圍內以步長為0.01進行遍歷,結果如圖2所示。

圖2 參數θ對微平均準確率的影響

從圖2可以看出,微平均準確率隨著相似度閾值θ的增加呈現出先上升后下降的趨勢,當相似度閾值θ為0.04時,微平均準確率最高,所以相似度閾值θ的大小設為0.04。

(2) 錯別字和外來人名音譯對結果的影響

為了驗證錯別字和外來人名音譯的問題對實驗結果的影響,本文設置兩組實驗,實驗1是沒有對錯別字和外來人名音譯的問題進行處理所得結果,實驗2則是對該問題處理后所得結果,實驗結果如表5所示。

表5 錯別字和外來人名音譯對結果的影響 %

從表5結果可以看出,實驗2的微平均準確率高于實驗1的微平均準確率,而且實驗2中NIL結果的準確率比實驗1中NIL結果的準確率高出了2.47%。主要是因為一些錯別字和外來人名音譯的實體通過處理得到糾正,例如,實體“阿里爸爸”、“高小松”和“林舒壕”糾正后分別鏈接到知識庫中的實體“阿里巴巴”、“高曉松”和“林書豪”。

(3) 不同方法的實驗結果對比

為了驗證本文方法的有效性,本文選取NLP&CC2013中最好的評測結果(bestResult)以及Zeng等人[8]使用的S-BOW方法作為baseline進行對比,對實驗結果取10次求平均作為其最終結果。

表6 不同方法的實驗結果對比 %

從表6中可以看出,本文方法的微平均準確率明顯高于S-BOW的微平均準確率,主要是因為S-BOW方法在計算詞語相似度時無法利用詞語中存在的同義詞、近義詞和相關詞等語義關系,另外有些實體所在微博的內容太過簡短,實體指稱項的上下文信息過于稀疏,計算實體指稱項的上下文和候選實體的上下文的語義相似度太低,導致實體鏈接錯誤。本文方法的NIL結果略低于最好的評測結果,原因在于若實體指稱項有多個候選實體時,這些實體的最佳相似度閾值往往不同,當設置相似度閾值一樣時,會導致部分實體鏈接到NIL中。從整體來看,本文提出的方法是可行并且有效的。

4 結 語

為了準確地對微博中給定的實體進行鏈接,提出了一種基于詞向量的中文微博實體鏈接方法。首先,對知識庫進行擴展,并從中文維基百科抽取同義詞構建同義詞表。然后,利用詞向量解決錯別字和外來人名音譯的問題。最后,通過詞向量計算實體指稱項和候選實體的語義相似度來進行實體鏈接。實驗結果表明,該方法較傳統的方法的微平均準確率有了很大的提高。然而,當對人名進行鏈接時,其候選實體的職業相同或相似時,只計算實體指稱項和候選實體的語義相似度來進行實體鏈接容易出現誤判,所以在下一步的研究中,如何解決這種問題將是研究的重點方向。

[1] 郭宇航, 秦兵, 劉挺, 等. 實體鏈指技術研究進展[J]. 智能計算機與應用, 2014, 4(5): 9-13.

[2] 陸偉, 武川. 實體鏈接研究綜述[J]. 情報學報, 2015(1): 105-112.

[3] 舒佳根, 惠浩添, 錢龍華, 等. 一個中文實體鏈接語料庫的建設[J]. 北京大學學報(自然科學版), 2015, 51(2): 321-327.

[4] 趙軍, 劉康, 周光有, 等. 開放式文本信息抽取[J]. 中文信息學報, 2011, 25(6): 98-110.

[5]HonnibalM,DaleR.DAMSEL:TheDSTO/MacquarieSystemforEntity-Linking[C]//ProceedingsofTextAnalysisConference2009, 2009.

[6]BikelD,CastelliV,FlorianR,etal.Entitylinkingandslotfillingthroughstatisticalprocessingandinferencerules[C]//ProceedingsofTextAnalysisConference2009Workshop, 2009.

[7]HanX,SunL,ZhaoJ.Collectiveentitylinkinginwebtext:agraph-basedmethod[C]//Proceedingsofthe34thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM, 2011: 765-774.

[8]ZengY,WangD,ZhangT,etal.LinkingentitiesinshorttextsbasedonaChinesesemanticknowledgebase[C]//TheSecondConferenceonNaturalLanguageProcessingandChineseComputing.Springer, 2013: 266-276.

[9] 昝紅英, 吳泳鋼, 賈玉祥, 等. 基于多源知識的中文微博命名實體鏈接[J]. 山東大學學報(理學版), 2015, 50(7): 9-16.

[10]XuanJ,LuJ,ZhangG,etal.ExtensionofsimilaritymeasuresinVSM:Fromorthogonalcoordinatesystemtoaffinecoordinatesystem[C]//NeuralNetworks(IJCNN), 2014InternationalJointConferenceon,IEEE, 2014: 4084-4091.

[11]RumelhartDE,HintonGE,WilliamsRJ.Learningrepresentationsbyback-propagatingerrors[J].Nature, 1986, 323(6088): 533-536.

[12]MikolovT,ChenK,CorradoG,etal.Efficientestimationofwordrepresentationsinvectorspace[C]//ProceedingsoftheInternationalConferenceonLearningRepresentations, 2013: 1-12.

[13] 百度百科. 倚天屠龍記[DB/OL].http://baike.baidu.com/subview/11113/6730113.htm.

[14] 中文維基百科.zhwikidumpprogress[DB/OL].https://dumps.wikimedia.org/zhwiki/.

[15]BengioY,DucharmeR,VincentP,etal.Aneuralprobabilisticlanguagemodel[J].TheJournalofMachineLearningResearch, 2003, 3: 1137-1155.

[16]MorinF,BengioY.Hierarchicalprobabilisticneuralnetworklanguagemodel[C]//Proceedingsofthe10thInternationalWorkshoponArtificialIntelligenceandStatistics, 2005: 246-252.

[17] 搜狗實驗室. 全網新聞數據[DB/OL].http://www.sogou.com/labs/resource/ca.php.

ENTITY LINKING METHOD OF CHINESE MICRO-BLOG BASED ON WORD VECTOR

Mao Ersong Wang Bo Tang Yongwang Liang Dan

(ThePLAInformationEngineeringUniversity,Zhengzhou450002,Henan,China)

Entity linking refers to a given entity referring to an item and its text, linking it to a target entity in a given knowledge base. Due to the characteristics of micro-blog content sparse, non-standard terms, the use of traditional methods less effective.In order to accurately link to a given entity in microblogging, a method based on word vector for Chinese microblogging entity linking is proposed. First, the knowledge base is extended, and synonyms are extracted from the Chinese Wikipedia to construct the synonym list. Then, using the word vector to solve typos and foreign name transliteration problem. Finally, the entity link is calculated by computing the semantic similarity between the entity and the candidate entity. The experimental results show that the micro-averaged accuracy of the proposed method is 91.4% on the NLP&CC2013 evaluation data.

Entity linking Word vector Wikipedia Synonyms

2016-02-13。國家社會科學基金項目(14BXW028)。毛二松,碩士生,主研領域:社會計算。王波,副教授。唐永旺,講師。梁丹,碩士生。

TP391

A

10.3969/j.issn.1000-386x.2017.04.003

猜你喜歡
知識庫語義準確率
真實場景水下語義分割方法及數據集
漢語近義詞辨析知識庫構建研究
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
“吃+NP”的語義生成機制研究
情感形容詞‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的語義分析
漢語依憑介詞的語義范疇
機構知識庫建設的動力研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合