?

面向中文新聞語料的事件規范化研究

2021-09-26 16:25謝紅,孫銳
電腦知識與技術 2021年20期

謝紅,孫銳

摘要:本文針對中文文本事件形態存在的不統一或省略的現象,提出一種基于自舉的事件規范化方法。在中文新聞語料上的實驗表明了方法的有效性。通過對事件規范化結果的分析明確了事件分析中的一些新難點,為后續事件相關任務研究提供了思路。

關鍵詞:原子事件;事件抽取;事件模板;事件規范化

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)20-0139-02

1 引言

篇章學習任務大多以短語或語句作為單位,在學術界和工業界均取得較大的成功。從語義層面來看,詞或短語存在較大的歧義,而事件語義表達確切,無需消歧,故受到越來越多的重視,如事件知識圖譜[1]。

學術界對“事件”沒有統一的定義,但多表示為“謂詞+論元”結構。論元個數不同,事件的形態不同。本文關注原子事件,其謂詞論元結構為,分別對應事件主語、謂語和賓語。近年來,這種事件結構已被證明可有效地應用到各種任務[2-3]。

中文是一種意合的語言,在文本中會大量存在著省略和開放靈活的語法結構。主要表現在:1)原子事件的形式呈現多樣化。如,事件“人,受傷,nil”與事件“nil,受傷,人”語義相同,但語法結構是不同的。直覺地,這種語義相似的事件可采用統一的形式來表示;2)存在一些事件因省略或由于觸發詞與論元的距離過遠而丟失論元;3)部分事件會以名詞短語的形式出現。如,“四川火災”是一個名詞短語,但實際上對應原子事件“四川,發生,火災”。

可以看出,中文原子事件因表達形式靈活,必然面臨較嚴重的稀疏問題,從而給事件語義分析帶來一定的制約。受語音合成和文本規范化的啟發,本文提出一種自舉(Bootstrapping)的事件規范化(Event Normalization)方法,在爬取的新聞語料上對事件規范化進行了統計分析,同時討論了當前事件規范化面臨的問題。

2 相關工作

2.1 事件抽取

由于學術界沒有公開可用的原子事件標注語料,原子事件的抽取主要有兩種無監督的方案:一是基于規則的方法,另一種是基于關系抽取的方法。

基于規則的方法大多利用依存分析結果,例如,根據“nsubj”、“dobj”和“loc”等確定事件觸發詞和主要論元。Hu等[4]將詞性為“VB”的動詞視為事件觸發詞,借助依存分析尋找每個動詞的論元。Glavas等[5]為構建事件圖,定義了句法模板并根據依存關系提取事件論元。

基于關系抽取的方法利用了實體關系來表達事件論元的語義關聯。Balasubramanian等[6]將關系三元組中詞干化后的關系動詞作觸發詞,詞干化后的各實體詞作為事件論元。Qiu等[7]首次在中文開放文本領域實現實體關系的抽取算法,關注關系動詞為核心的三元組。

2.2 文本規范化

文本規范化是將非規范詞轉化為規范詞,進而得到規范文本的過程。大多數工作關注詞的規范化。對英文而言,可通過詞典來判斷詞的規范性。而對中文而言,由于詞的構成形式的多樣性,規范化難度更大。一般而言,通過構建非規范詞典,將規范化問題轉化為檢索問題來實現。

本文關注結構化事件的規范化問題,即如何解決中文原子事件在表現形態上的差異,以緩解原子事件的稀疏性問題,以后續事件關系分析和統計提供良好的數據保障。

3 事件規范化

通過統計觀察發現,原子事件的分布符合一種假設:大規模語料中的事件如果有更寬的分布和更高的出現頻率,則可泛化成一個標準模板。例如,兩個候選事件“人,死亡,nil”和“nil,死亡,人”,假設前者在20個文檔中出現了123次,后者在18個文檔中出現了96次。則可以將前者作為標準模板,其它與之語義相似的事件均應規范成該模板。由此可見,事件模板的生成基于事件信息,而事件的規范化則需要標準事件模板的指導。

本文采用自舉的事件規范化方法,具體流程如圖1所示,首先由初始化候選事件集合得到候選模板,對所有候選事件模板進行置信度評估,由此產生標準模板并候選事件進行修正或規范化,修正后的事件重新加入規范事件集合。此過程反復迭代,直至再無標準模板產生為止(所有候選模板置信度低于某一閾值)。

3.1 候選模板抽取

本文首先沿用基于規則的方法[7]來抽取候選事件,利用依存分析結果中的“nsubj”和“dobj”兩種關系。給定語句“民政局公布相關數據”,可得到兩個依存關系:“nsubj (公布,民政局)”和“dobj (公布,數據)”,可合并為事件“民政局,公布,數據”。

事件模板應具有泛化能力,故選擇了同義詞詞林擴展版為每個詞語提供語義標簽,如“四川”可賦予地名標簽“Di02B”,“地震”可賦予語義類別“Da09B”。由此,將候選事件按語義標簽類別進行統計,即可得到候選事件模板。

3.2 置信度評估

每個候選模板[p]采用下式進行置信度評估:

[Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]? ? ? ? ?(1)

其中,[Efreq(p)]表示事件在語料中的出現概率,[Dcover(p)]則代表事件出現的文檔概率,[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度,而文檔概率則度量了模板的文檔覆蓋度,得分最高的即為標準模板。

3.3 事件規范化

在得到標準模板后,可直接對事件集合中的不規范事件進行修正以達到規范化的目的。若事件對應多個標準模板,可根據事件與模板間的語義距離以確定標準模板的選擇。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合