?

融合多特征和由粗到精排序模型的短文本實體消歧方法

2022-09-05 13:30王榮坤賓晟孫更新
關鍵詞:消歧分詞排序

王榮坤賓 晟孫更新

(青島大學計算機科學技術學院,青島 266071)

隨著知識圖譜和自然語言處理技術的快速發展,以知識圖譜作為知識庫的中文問答系統越來越多[1]。實體消歧是中文知識圖譜問答系統(Chinese Knowledge Based Question Answering,CKBQA)中的關鍵技術,目的是構建問句中實體指稱的候選實體集合,并將實體指稱鏈接到正確的實體上[2-4]?,F有的實體消歧方法主要有三類:基于分類的方法、基于圖的方法和基于深度學習的方法?;诜诸惖姆椒▽嶓w消歧看作二分類問題,利用分類器對候選實體分類[5-6],然而在分類過程中可能有多個候選實體被標記為真,所以還需要其他的方法對標記為真的候選實體進行消歧?;趫D的方法通過實體指稱和候選實體構建圖模型,使用實體流行度、上下文相似度等信息對圖模型中邊進行加權,推理目標實體[7-8],能夠考慮候選實體之間的關系,但是對于上下文信息利用不足。目前研究最多的是基于深度學習的方法,通過引入雙向LSTM 和注意力機制,充分利用實體指稱的上下文信息,有效的度量實體指稱和候選實體之間的語義匹配,提高實體消歧效果[9-10]。以上實體消歧研究聚焦于以維基百科、描述文檔等作為信息來源的長文本語境,利用實體指稱和候選實體豐富的上下文信息進行實體消歧,對于短文本實體消歧方法研究較少[11]。而在短文本實體消歧中,中文問句口語化和縮略詞[12]容易導致生成候選實體集合無法召回目標實體的問題,并且實體信息來源只有問句和知識圖譜,沒有描述文檔輔助消歧,造成上下文信息缺乏的問題。為此,在生成候選實體集合階段,通過N-Gram 分詞模型對實體分詞,構建分詞索引;在實體消歧階段,引入實體在知識圖譜中的關系、相鄰實體和實體重要性作為實體上下文信息,結合問句中的信息進行特征擬合并通過由粗到精的排序模型預測目標實體,提高實體消歧準確率。

1 融合多特征和由粗到精排序的實體消歧模型

融合多特征和由粗到精排序的實體消歧模型如圖1所示,主要包含生成候選實體集合模塊和實體消歧模塊。以問句中識別出的實體指稱作為模型輸入,通過生成候選實體集合模塊構造實體指稱的候選實體集合,然后計算每個候選實體的特征值,構造特征向量,利用粗排模型進行過濾,減少候選實體數量,并選取得分Top10的候選實體構建新的特征向量,最后通過精排模型排序,得分最高的候選實體為目標實體。

圖1 實體消歧模型框架圖

1.1 候選實體集合生成模塊

給定一個問句和實體指稱,候選實體集合生成模塊根據實體指稱到知識圖譜中選取相似的實體作為候選實體。候選實體集合是實體消歧的基礎,如果不包含目標實體,實體消歧部分就毫無意義。

(1)預處理。對知識圖譜中的實體使用Bi-Gram 和Tri-Gram 分詞的方法進行分詞,針對每個分詞和原詞構建倒排索引。N-Gram 是一個基于概率的判別模型[13],N是指由N個單詞組成的集合,本文使用的Bi-Gram 中N=2,Tri-Gram 中N=3。假設一個句子有m個字符,S=(w1,w2,…,w n),n≤m表示句子中的一個分詞,Bi-Gram 中假設一個字出現的概率僅僅依賴它前面出現的字,Tri-Gram 假設一個字出現的概率依賴它前面的兩個字。在Bi-Gram 和Tri-Gram 中S是詞語的概率計算方法分別為

其中,w i表示第i個字符,i≤n,p(S)表示分詞S是詞語的概率,p(w n|w n-1)表示第n-1個字符是S組成的情況下,第n個字符也是S組成的概率。以“嶗山風景區”為例,使用Bi-Gram 分詞后的結果Y1={嶗山,風景區},Y2={嶗,山風景區},Y3={嶗山風,景區}。其中,p(Y1)=p(嶗山)p(風景區|嶗山),p(Y2)=p(嶗)p(山風景區|嶗),p(Y3)=p(嶗山風)p(景區|嶗山風),三個概率中,“嶗山”在語料庫中比較常見,所以p(Y1)的概率比較大,“嶗山風景區”會被分詞為“嶗山”和“風景區”。

(2)生成候選實體集合。對于每個實體指稱,構造一個候選實體集合。候選實體集合的來源有兩部分,一部分是使用實體指稱到知識圖譜實體的實體索引庫中通過相似度進行召回;另一部分是使用實體指稱到知識圖譜實體的實體分詞索引庫中通過相似度進行召回,主要緩解問句中因為使用簡稱和縮略詞導致無法召回目標實體的問題。

1.2 實體消歧模塊

由于在CKBQA 中,信息來源有限,只能通過問句和知識圖譜本身的信息進行實體消歧。而大部分短文本實體消歧方法對知識圖譜本身信息利用不足,所以在實體指稱與候選實體字符相似度特征、問句與候選實體語義相似度特征兩個常用特征[14-16]的基礎上,引入了關系相似度特征、相鄰實體相似度特征、實體重要性特征,以充分利用候選實體在知識圖譜中的信息。在最終的排序環節,通過粗排模型過濾無關候選實體,縮小候選實體集合數量,然后使用精排模型預測目標實體,提高實體消歧準確率。

(1)相似度計算模型。實體指稱與候選實體的字符相似度特征計算使用編輯距離方法[17],問句與候選實體語義相似度、關系相似度和相鄰實體相似度計算使用圖2所示的語義相似度計算模型。

圖2 語義相似度計算模型圖

首先拼接文本1 和文本2,兩個文本之間使用[SEP]標記分隔,拼接后的文本頭部加入[CLS]標記,然后計算拼接文本中每個字符的詞向量、段向量和位置向量。將這三個向量相加后輸入BERT[18-19]預訓練模型對文本編碼,得到兩個文本向量a和b,最后計算向量的相似度similarity(a,b)

(2)關系相似度特征。關系相似度特征指的是問句與候選實體關系的相似度,知識圖譜KG=(H,R,E),其中H表示頭實體的集合,R表示關系集合,E表示尾實體集合。候選實體集合C={c1,c2…,c m},c i∈(H∪E),c i的關系集合R e={r1,r2,…,r n},r j∈R,關系相似度計算公式為

其中,a表示問句q經過BERT 模型編碼后的向量,b j是關系r j編碼后的向量,s(c i)表示問句q與候選實體c i關系的相似度特征,下面舉例說明。

例如問句“《西廂記》又名什么?”,對應的候選實體集合中有“<西廂記_(元代王實甫著古典戲劇)>”、“<越劇西廂記>”、“<淺析西廂記>”等多個候選實體,其中“<西廂記_(元代王實甫著古典戲劇)>”存在“類型”和“別名”兩個關系,分別計算問句作為文本1、“類型”作為文本2的相似度和問句作為文本1、“別名”作為文本2的相似度,選取最大的相似度作為問句與候選實體“<西廂記_(元代王實甫著古典戲劇)>”的關系相似度特征。存在“又名”或者“別名”這種關系的候選實體是目標實體的幾率比不存在該關系的候選實體幾率大,使用這個特征可以補充候選實體的信息,篩選掉候選實體集合中不存在目標關系的候選實體。

(3)相鄰實體相似度特征。本特征指的是問句與候選實體一階相鄰實體的相似度,計算方法與關系相似度特征計算方法相同,計算問句與候選實體每個一階相鄰實體的相似度,選取最大相似度作為問句與候選實體的相鄰實體相似度特征。例如問句“導演諾蘭2017年的哪部作品出品了?”中實體指稱“諾蘭”對應的候選實體集合中存在“<諾蘭·諾斯>”、“<諾蘭>”等多個候選實體,候選實體“<諾蘭>”存在三元組<諾蘭,職業,導演>和<諾蘭,類型,娛樂人物>,分別計算問句作為文本1、“<導演>”作為文本2的相似度和問句作為文本1、“<娛樂人物>”作為文本2的相似度,最大的相似度作為問句與候選實體“<諾蘭>”的特征值。一階相鄰實體可以作為候選實體描述信息輔助實體消歧,問句中形容詞“導演”與“<諾蘭>”的相鄰實體“<導演>”相似度較高,所以“<諾蘭>”是目標實體的概率比不存在該相鄰實體的候選實體高。

(4)實體重要性特征。候選實體的重要性特征能夠表示候選實體在知識圖譜中的重要程度,在開放領域知識問答中,重要性高的候選實體更容易成為目標實體。與常見的使用實體在圖中入度、出度計算實體重要性的方法不同,本文的重要性計算方法使用的是PageRank[20]算法。在PageRank中,一個PageRank值很高的實體鏈接到另一個實體上,被鏈接的實體PageRank值也會相應的提高,而常規方法中實體的重要性只與相鄰實體的數量有關,與相鄰實體的重要性無關,因此PageRank計算的重要性特征更加符合真實情況

其中,PR(p j)表示實體p i的PageRank值,即實體的重要性,M p i是所有對p i實體有出鏈的實體集合,L(p j)是實體p j的出鏈數目,N是知識圖譜中的實體總數,α一般取0.85。

(5)由粗到精排序模型。在生成候選實體集合階段,為了保證目標實體在候選實體集合中,召回的候選實體數量比較多,直接對候選實體集合中的實體排序會導致排序結果比較差。因此,本文利用多排序模型,先將候選實體集合的特征向量通過LR 模型進行粗排,選取分數Top10的候選實體構造新的候選實體集合,并且將粗排打分作為新的特征加入特征向量。然后通過XGBOOST 模型精確排序,預測每個候選實體是目標實體的概率,得到最終的目標實體。

2 實驗結果分析

2.1 實驗數據

本文在公開數據集CCKS2019-CKBQA(https://www.biendata.xyz/competition/ccks_2019_6/data/)上測試。數據集包括2 298 條訓練集,766條驗證集和766條測試集以及一份北京大學構建的知識圖譜PKUBASE。知識圖譜中包括255 744個實體和66 499 738條關系。CCKS2019-CKBQA 的數據集是用來評測整個問答流程的,本文在數據集的基礎上做了二次標注,僅用在實體消歧部分的實驗。

2.2 實驗設置

實驗在Windows10環境下使用Py Charm 驗證,計算詞向量的Bert預訓練模型使用的Pytorch版本的“Bert-Base-Chinese”模型,編碼器有12層,詞向量維度768維,最大句子長度設置為256。實驗分為兩部分,一部分為實體消歧實驗,分別使用不同數量的特征和不同的排序模型進行對比實驗,數據集內容是問句、問句中的實體指稱和實體指稱對應的目標實體。另一部分是N-Gram 分詞方法對實體消歧模型的影響實驗,采用相同的數據集,候選實體生成方法分別采用只使用相似度召回的方法和使用相似度召回加上N-Gram分詞召回的方法。假設有n個實體指稱E N={e1,e2,…,e n},實體指稱的預測結果E p={e1,e2,…,e n},實體指稱對應的目標實體為E t={e1,e2,…,e t},則實體消歧的準確率P、召回率R和F值分別為:P=實驗使用的數據集中實體指稱已被二次標注,所以|E p|=|E t|,P=R=F,將準確率P作為實驗結果的主要評價指標。

2.3 實驗結果

2.3.1 實體消歧模型實驗 實體消歧實驗選取了5個特征:問句與候選實體語義相似度特征(f0)、實體重要性特征(f1)、實體指稱與候選實體字符相似度特征(f2)、關系相似度特征(f3)、相鄰實體相似度特征(f4)?;谏鲜鎏卣鞣謩e構建了不同數量特征的實體消歧模型,分別是使用f0和f1特征的模型1,使用f0、f1和f2特征的模型2,使用f0、f1、f2和f3特征的模型3,使用全部特征和單排序模型的模型4以及使用全部特征和多排序模型的模型5,模型6 是CCKS-CKBQA 評測比賽第一名(https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_6_1.pdf)實體消歧部分的準確率,模型7是其他多特征模型[14]的準確率。這7個模型實體消歧的準確率結果如圖3所示。

圖3 實體消歧模型準確率對比圖

隨著使用特征的增多,實體消歧準確率會上升,模型4 相比模型6 提高了0.4%,比模型7 提高了0.29%,模型5比模型4提高了0.22%,比模型7提高了0.51%。模型5使用由粗到精多排序模型的方法,經過粗排模型減小了候選實體集合中候選實體的數量,所以實體消歧準確率高于未使用粗排的模型4。

圖4展示了排序模型中不同特征的重要性,在精排模型預測分數最重要的三個特征中,f1和f4分別為第一名和第三名。實驗結果表明,本文引入的特征在實體消歧過程中起到了重要作用。

圖4 特征重要性得分圖

2.3.2 候選實體與實體消歧實驗 表1展示了N-Gram 分詞方法對實體消歧結果的影響(實體消歧模型使用模型5),使用N-Gram 分詞召回方法后實體消歧的準確率提升了0.09%。分析實驗發現,N-Gram 分詞結果中只包含相鄰的字組成的詞,對于不相鄰的字組成的詞則不會分詞,而中文縮略詞多是原詞中不相鄰字組成的縮略詞,導致對于縮略詞的召回效果比預期效果較差。

表1 N-Gram 分詞召回對實體消歧的影響

3 結論

本文通過N-Gram 分詞召回和相似度召回相結合,引入候選實體在知識圖譜中的關系、相鄰實體和實體重要性信息,設計粗排和精排相結合的排序模型,得到融合多特征和由粗到精排序模型的實體消歧方法。在CCKS2019-CKBQA 的數據集上實驗表明,本文方法對短文本問句實體消歧效果有明顯提升,實體重要性信息和問句與候選實體的相鄰實體信息在排序時起到了重要作用。經過實驗分析,N-Gram 分詞結果都是實體中相鄰字組成的詞,而中文問句中的縮略詞還包含了大量不相鄰字組成的詞,導致N-Gram 分詞召回的方法對實體消歧準確率提升不大。所以下一步需要優化分詞模型,考慮不相鄰字組成的縮略詞,提高縮略詞的召回率,減少縮略詞對實體消歧的影響。

猜你喜歡
消歧分詞排序
排序不等式
基于關聯圖和文本相似度的實體消歧技術研究*
分詞在英語教學中的妙用
基于半監督集成學習的詞義消歧
恐怖排序
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
節日排序
基于語言模型的有監督詞義消歧模型優化研究
基于《知網》的中文信息結構消歧研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合