?

面向中文新聞語料的事件規范化研究

2021-09-26 16:25謝紅，孫銳

電腦知識與技術 2021年20期

謝紅，孫銳

摘要：本文針對中文文本事件形態存在的不統一或省略的現象，提出一種基于自舉的事件規范化方法。在中文新聞語料上的實驗表明了方法的有效性。通過對事件規范化結果的分析明確了事件分析中的一些新難點，為后續事件相關任務研究提供了思路。

關鍵詞：原子事件;事件抽取;事件模板;事件規范化

中圖分類號：TP311? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）20-0139-02

1 引言

篇章學習任務大多以短語或語句作為單位，在學術界和工業界均取得較大的成功。從語義層面來看，詞或短語存在較大的歧義，而事件語義表達確切，無需消歧，故受到越來越多的重視，如事件知識圖譜[1]。

學術界對“事件”沒有統一的定義，但多表示為“謂詞+論元”結構。論元個數不同，事件的形態不同。本文關注原子事件，其謂詞論元結構為，分別對應事件主語、謂語和賓語。近年來，這種事件結構已被證明可有效地應用到各種任務[2-3]。

中文是一種意合的語言，在文本中會大量存在著省略和開放靈活的語法結構。主要表現在：1）原子事件的形式呈現多樣化。如，事件“人，受傷，nil”與事件“nil，受傷，人”語義相同，但語法結構是不同的。直覺地，這種語義相似的事件可采用統一的形式來表示;2）存在一些事件因省略或由于觸發詞與論元的距離過遠而丟失論元;3）部分事件會以名詞短語的形式出現。如，“四川火災”是一個名詞短語，但實際上對應原子事件“四川，發生，火災”。

可以看出，中文原子事件因表達形式靈活，必然面臨較嚴重的稀疏問題，從而給事件語義分析帶來一定的制約。受語音合成和文本規范化的啟發，本文提出一種自舉（Bootstrapping）的事件規范化（Event Normalization）方法，在爬取的新聞語料上對事件規范化進行了統計分析，同時討論了當前事件規范化面臨的問題。

2 相關工作

2.1 事件抽取

由于學術界沒有公開可用的原子事件標注語料，原子事件的抽取主要有兩種無監督的方案：一是基于規則的方法，另一種是基于關系抽取的方法。

基于規則的方法大多利用依存分析結果，例如，根據“nsubj”、“dobj”和“loc”等確定事件觸發詞和主要論元。Hu等[4]將詞性為“VB”的動詞視為事件觸發詞，借助依存分析尋找每個動詞的論元。Glavas等[5]為構建事件圖，定義了句法模板并根據依存關系提取事件論元。

基于關系抽取的方法利用了實體關系來表達事件論元的語義關聯。Balasubramanian等[6]將關系三元組中詞干化后的關系動詞作觸發詞，詞干化后的各實體詞作為事件論元。Qiu等[7]首次在中文開放文本領域實現實體關系的抽取算法，關注關系動詞為核心的三元組。

2.2 文本規范化

文本規范化是將非規范詞轉化為規范詞，進而得到規范文本的過程。大多數工作關注詞的規范化。對英文而言，可通過詞典來判斷詞的規范性。而對中文而言，由于詞的構成形式的多樣性，規范化難度更大。一般而言，通過構建非規范詞典，將規范化問題轉化為檢索問題來實現。

本文關注結構化事件的規范化問題，即如何解決中文原子事件在表現形態上的差異，以緩解原子事件的稀疏性問題，以后續事件關系分析和統計提供良好的數據保障。

3 事件規范化

通過統計觀察發現，原子事件的分布符合一種假設：大規模語料中的事件如果有更寬的分布和更高的出現頻率，則可泛化成一個標準模板。例如，兩個候選事件“人，死亡，nil”和“nil，死亡，人”，假設前者在20個文檔中出現了123次，后者在18個文檔中出現了96次。則可以將前者作為標準模板，其它與之語義相似的事件均應規范成該模板。由此可見，事件模板的生成基于事件信息，而事件的規范化則需要標準事件模板的指導。

本文采用自舉的事件規范化方法，具體流程如圖1所示，首先由初始化候選事件集合得到候選模板，對所有候選事件模板進行置信度評估，由此產生標準模板并候選事件進行修正或規范化，修正后的事件重新加入規范事件集合。此過程反復迭代，直至再無標準模板產生為止（所有候選模板置信度低于某一閾值）。

3.1 候選模板抽取

本文首先沿用基于規則的方法[7]來抽取候選事件，利用依存分析結果中的“nsubj”和“dobj”兩種關系。給定語句“民政局公布相關數據”，可得到兩個依存關系：“nsubj （公布，民政局）”和“dobj （公布，數據）”，可合并為事件“民政局，公布，數據”。

事件模板應具有泛化能力，故選擇了同義詞詞林擴展版為每個詞語提供語義標簽，如“四川”可賦予地名標簽“Di02B”，“地震”可賦予語義類別“Da09B”。由此，將候選事件按語義標簽類別進行統計，即可得到候選事件模板。

3.2 置信度評估

每個候選模板[p]采用下式進行置信度評估：

[Score（p）=Efreq（p）×Dcover（p）=|i：ei∈p|E×|j：p∈dj|D]? ? ? ? ?（1）

其中，[Efreq（p）]表示事件在語料中的出現概率，[Dcover（p）]則代表事件出現的文檔概率，[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度，而文檔概率則度量了模板的文檔覆蓋度，得分最高的即為標準模板。

3.3 事件規范化

在得到標準模板后，可直接對事件集合中的不規范事件進行修正以達到規范化的目的。若事件對應多個標準模板，可根據事件與模板間的語義距離以確定標準模板的選擇。

電腦知識與技術2021年20期

電腦知識與技術的其它文章: 微服務化二維碼防偽溯源系統; 基于熵權TOPSIS的區域道路安全評價方法; 基于機器學習的聚類數據劃分算法的研究; Web系統服務器集群部署策略研究; 基于指針數組的高精度UCOSII軟件定時器改進方案; “云貝健齒”小程序的設計與應用

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合