?

基于篇章圖模型的中文事件時序關系識別

2024-03-26 02:39李培峰
中文信息學報 2024年1期
關鍵詞:句法時序語料庫

李 婧,徐 昇,李培峰

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

事件時序關系描述了不同事件發生的先后順序[1](如前(BEFORE),后(AFTER)等)。在該任務中,事件通常指一個單獨的詞語,例如,在句子S1中,事件“示威”發生在“受傷”之前,因此,“示威”和“受傷”的時序關系為“BEFORE”。事件時序關系識別是自然語言處理中的一個重要課題,獲得了越來越多的研究者的重視,該任務對于特定領域的相關工作有很大幫助。例如,在自動摘要[2]中,可以通過理清事件發展的順序而梳理文本脈絡,有效進行摘要的推理與生成;在自動問答[3]中,可以為一些涉及到時間關系的問題提供線索,為其匹配更加合理的答案。

S1: 在警方驅散示威人群的過程中,至少有5個人受傷。

近年來,比較流行的事件時序關系語料庫有TimeBank[4]和TimeBank-Dense[5]等,然而這些語料庫都只聚焦于句子級事件時序關系,即兩個事件出現在同句或者鄰句中。句子級事件時序關系不適合應用于篇章級別的自然語言處理任務中,如文本時間軸構建和故事時間線構造等。此外,受限于語料庫,目前絕大多數事件時序關系識別研究聚焦于英文,中文事件時序關系識別研究進展較慢。相對于英文而言,中文表達方式更多變,句間連接詞更少,給該任務帶來了更大挑戰[6]。

為了進一步挖掘整篇文章中各事件間的時序關系,本文將研究篇章級中文事件時序關系識別,研究對象包括同句、鄰句和跨句的中文事件時序關系。相較于句子級中文事件時序方法,篇章級方法可更多地考慮到相距較遠的兩個事件間的時序關系,這對于一些篇章級別的下游任務有很大的現實應用價值。如圖1所示,本文在該篇章中標出了6個事件實例(用事件觸發詞表示),為了簡化此圖,只列出了其中5個時序關系(實際上任意兩個事件實例間都存在某種時序關系),包括同句、鄰句和跨句關系。該篇章圍繞一個主題展開,包含多個事件實例。為了梳理清楚事件的發展脈絡,將所有事件實例進行時序關系識別很有必要。如果僅僅在句子級研究時序關系,那么一整條時間軸將會被割裂,從而無法很好地梳理篇章脈絡及大意,無法為下游任務服務。

圖1 篇章級別事件時序關系識別示例圖

相較句子級事件時序關系識別,篇章級任務更加困難。由于跨句的兩個事件在物理上孤立,事件之間缺乏必要的句法級別的交互信息(如連接詞、共用的事件論元等)。因此,模型很難學習到兩者之間的聯系,從而難以識別兩者的時序關系。Reimers等人[7]和Naik等人[8]指出,在現有的語料庫中,篇章級事件時序關系標注的流行程度較低,這使得以前僅考慮事件對局部特征的模型不適用于篇章級事件時序關系識別,例如,最短依存路徑(Shortest Dependence Path,SDP)[9]。此外,傳遞性是事件時序關系的特有屬性,篇章級事件時序關系識別任務更需要利用不同事件實例間的時序關系傳遞性特性,以達到利用中間事件實例作為橋梁來連接相隔較遠事件實例的效果。

針對以上挑戰,本文提出一種基于篇章圖模型的中文事件時序關系識別模型,主要貢獻如下: (1)本文提出一種事件時序關系識別方法,有效地通過兩種圖模型提升篇章時序關系識別性能; (2)本文通過篇章圖模型將一個篇章中的所有事件相互連接交互信息以加強跨句的時序關系識別性能; (3)在篇章級中文事件時序關系語料上的實驗表明,本文方法的性能優于現有最好的方法。

1 相關工作

目前幾乎所有事件時序關系語料庫都集中在英文上,例如,TimeBank[4],TimeBank-Dense[5]和MATRES[10],這些語料庫都只標注了句子級時序關系,卻忽視了篇章級時序關系。在TimeBank-Dense的基礎上,Naik[9]等人第一次構建了一個篇章級別的英文事件時序關系語料TDD。中文事件時序關系語料庫相較于英文更加少,Li等人[6]創建的由700多條句子組成的時序語料庫和TempEval[1]中的一個小型事件時序關系數據集都規模太小。大部分中文事件時序關系識別的研究都在ACE2005-extended時序關系語料庫[11]上展開,該語料庫將一篇文章中預先定義類型的事件兩兩之間全部標注上時序關系,包括同句、鄰句和跨句,由此形成了全連接的篇章級中文事件時序關系語料庫。

絕大部分的事件時序關系識別研究是句子級且針對英文。在英文上,傳統的統計學習方法[12-14]專注于提取文本中的各種特征,如實體特征,詞性特征和形態學特征等,并在此基礎上使用分類器進行分類,如支持向量機,決策樹和最大熵分類器等。

隨著機器學習的發展,近期的工作多數使用神經網絡來進行事件時序關系識別。受Xu等人[15]的啟發,Cheng和Miyao[16]使用最短依存路徑作為雙向長短期記憶網絡的輸入來識別同句和鄰句的事件時序關系,在不使用任何手工特征的情況下,取得了和當時最好的模型相當的性能。Zhang等人[17]構建了一個句法導向圖模型來獲取事件間深層次的聯系。為了獲取更加豐富的特征表示,聯合學習[18]和多任務學習[19]的方法也被應用于該任務中。為了克服輸入端信息過少的限制,外部知識庫被用來增加更多的信息以達到更好的分類性能[20]。相較于句子級別的事件時序關系識別,較少的工作集中在篇章級別任務上。

篇章級事件時序關系識別相關研究較少。Naik等人[8]在篇章級語料庫TDD上復現了一些常規的方法(如MAJORITY、Bi-LSTM)。Liu等人[21]將每篇文章看作一個無導向的圖,結點代表事件,邊代表事件間時序關系,通過遮掩邊的方法來訓練模型讓其學習事件間的時序依賴關系。

只有很少的研究集中在中文上。與英文上的研究類似,早期的工作都是使用統計學習的方法,如概率決策樹(Probabilistic Decision Tree)[22]和樸素貝葉斯模型(Naive Bayesian Classifier)[23]等被用來分析句子間的時序關系。Li等人[11]第一次使用詞匯特征、句法特征和全局優化的方法(如事件相關性和連接約束)進行篇章級別的中文事件時序關系識別。

綜上所述,無論在英文上還是中文上,大多數方法只是針對句子級別的事件時序關系識別。本文提出了一種篇章級事件時序關系識別方法,通過事件句間的相鄰關系來構建篇章級別的圖模型,讓相隔較遠的事件詞之間可以進行信息交互,以達到讓事件間的關系可以互相傳遞的目的。

2 基于篇章圖模型的中文事件時序關系識別方法

本文構建兩種圖卷積神經網絡(Graph Convolutional Network,GCN)[24],分別編碼事件句的句法信息和交互篇章中所有的事件信息,再結合事件句的語義信息,對一個篇章中所有的事件對進行時序關系識別,模型圖的總體架構如圖2所示,共包含四個模塊: 1)語義信息編碼模塊: 將事件詞所在的事件句進行拼接,同時添加事件詞相關的屬性信息,獲取完整的語義信息; 2)句法信息編碼模塊: 根據以事件詞為起點的最短依存路徑構建句內圖模型,獲取與事件詞高度相關的句法信息; 3)事件信息交互模塊: 根據事件詞所在事件句的相鄰關系構建篇章圖模型,讓事件詞之間可以更好地交互信息; 4)時序關系分類模塊: 將上述特征進行融合,使用Softmax對其進行時序關系的分類預測。下面針對模型的相關模塊進行詳細說明。

圖2 模型架構圖

2.1 語義信息編碼模塊

為了更好地獲取事件句完整的語義信息,在輸入端,本文將兩個事件句進行拼接,用[E1]和[E2]分別表示兩個事件詞的開始,[E1/]和[E2/]分別表示兩個事件詞的結束。介于BERT[25]在處理序列相關任務上較優的性能,本文選用BERT在中文上的變體BERT-wwm[24]作為事件句的編碼器,并在事件詞后面添加與之密切相關的五種屬性(時態(Tense),類型(Type),極性(Polarity),泛型(Genericity),形態(Modality))以進一步擴充事件詞的特征[26]。五種事件屬性信息插入事件詞的后面,事件詞開始標簽[E1][E2]和結束標簽[E1/][E2/]分別插入兩個事件詞開始之前與屬性信息結束之后。輸入端構造如式(1)所示。

(1)

其中,[CLS]表示句子的開始,兩個[SEP]用來分隔兩個句子和表示句子的結束。{w1,…,wm}和{t1,…,tn}分別表示兩個事件句。m和n為兩個事件句的長度。{wi,…,wj}(i≥1,j≤m)和{tk,…,tl}(k≥1l≤n)分別表示兩個事件詞,長度分別為j-i+1,k+1。兩個事件詞的五種屬性分別表示為attributes_1={e1,e2,…,e5}和attributes_2={f1,f2,…,f5}。取BERT-wwm輸出端的[CLS]的表示ci作為兩個事件句融合后的語義表示,記q為一個篇章中所有事件的個數,將篇章中所有事件對語義向量兩兩融合后表示為oc={c(1,2),c(1,3)…c(2,1),c(2,3)…c(i,j)…c(q,q-q)}(i≠j),(q*(q-1))/2為篇章中所有的時序關系數。

2.2 句法信息編碼模塊

句法信息在很大程度上可以幫助模型理清一句話的結構,從而排除一些無用的冗余信息。本文使用最短依存路徑作為與事件詞相關的句法結構信息,以獲取與事件詞高度相關的句法信息。最短依存路徑是句法樹中兩個特定詞之間連接到某個相同結點的最短路徑,Cheng等人[16]首次將該方法應用于事件時序關系識別任務且提出一種公共根的假說。本文中使用的最短依存路徑是從事件詞為起點,以每個事件句的根結點為終點,構造一條從事件詞到根節點的最短依存路徑。

圖卷積神經網絡[27]通過鄰居結點之間的傳播和聚合來學習更加豐富的特征,被廣泛用于學習圖結構的高級特征,并取得了顯著的效果。因此,本文使用GCN作為句法信息的編碼器,以最短依存路徑上的詞語為結點,詞語間是否有依存關系為邊(有關系則為1,否則為0),邊為雙向且加入自環,構造一種句子級別的圖模型。結構如圖2的句法信息編碼模塊所示,其輸入端的SDP為圖1中句子S8的最短依存路徑。

在圖模型的輸入端,本文使用Li[28]等人提出的一種中文詞向量,將最短依存路徑上的詞語通過該詞向量映射為實值向量集合iadp={i1,i2,…,is},其中s為最短依存路徑的序列長度,該向量集合作為圖模型的結點特征,圖模型的傳播如式(2)所示。

(2)

2.3 事件信息交互模塊

篇章級別的事件時序關系大多數關系都為跨句關系。由于跨句的事件實例相隔較遠距離,語義不連續,句子結構無法通過Cheng等人[16]提出的虛擬根相連。因此,此前專注于研究同句和鄰句的時序識別方法并不適用于跨句。提升篇章級別事件時序關系識別的性能,必須要提升跨句事件時序關系的識別準確度。鑒于時序關系特有的傳遞性,本文將一個篇章中所有的事件構建成篇章級圖卷積模型,通過節點之間的特征傳遞聚合,以補充兩個相隔較遠的事件詞之間的額外信息,以此來提升跨句事件時序關系分類的性能。

在構建篇章級別圖模型時,以一個篇章中所有的事件詞作為結點,以兩個事件詞所在的事件句是否相鄰作為邊,若相鄰則為1,否則為0,且為雙向的關系,對每個事件句都加入自環,如圖2中的事件信息交互模塊所示。這樣可以通過相鄰句的不斷傳播擴散特征,來豐富跨句事件詞的特征,以達到將跨句事件相連的目的。

圖模型的傳播公式與2.2節相同。該篇章級別圖模型與2.2節的句內圖模型不共享參數,圖模型的層數設置為2,在輸入端,事件詞的特征為2.2節中的h,σ為ReLu函數。事件特征集合中的每個事件詞在句內圖模型中都聚合了其所在的最短依存路徑的句法特征,因此在篇章級圖模型中每個事件將攜帶豐富的句法特征,通過將句法特征進行傳播融合以連接本來無法相連的跨句事件詞。在圖模型的輸出端,獲取一個篇章中所有事件詞的表示d={d1,d2,…,di,dj,…,dq},將兩兩事件表示進行拼接,得到od={d(1,2),d(1,3),…,d(2,1),d(2,3),…d(i,j)…,d(q,q-1)}(i≠j),其中,d(i,j)=di⊕dj,⊕表示拼接,每個篇章中的時序關系數為(q*(q-1))/2。每個拼接的事件對除了包含了自身事件句的句法特征,還融合了篇章中其他事件句的句法特征,以幫助模型進行時序關系識別。

2.4 時序關系預測模塊

該模塊將上述模塊所獲得的所有事件對(T個)的語義信息Oc以及融合后的句法信息Od進行全連接融合,使用激活函數ReLu進行非線性融合,再使用Softmax進行時序關系分類預測后得到結果O。計算公式如式(3)所示,其中,Oc為T*m的語義矩陣,Od為T*n的句法矩陣,m和n分別為語義模塊和句法模塊的維度數。W和b分別為全連接層的權重矩陣和偏置。本文采用學習率為3e-5的Adam優化器來最小化交叉熵損失(Cross-Entropy)并且通過反向傳播來更新參數。

O=Softmax(ReLu(W* (oc⊕od)+b))

(3)

3 實驗

本節首先介紹數據集和實驗相關參數的設置;接著對比本文的模型和其他模型運行效果;最后進行消融實驗分析。

3.1 實驗設置

本文采用Li等人[11]標注的基于ACE2005-extended中文事件時序關系語料庫,該語料庫標注了每兩個事件詞之間的時序關系并形成了一個全連接圖,該語料庫標注了四種時序關系: 前(BEFORE)、后(AFTER)、重疊(OVERLAP)和未知(UNKNOWN),樣本統計如表1所示??梢钥闯?跨句的事件對占比高達71.8%,這足以說明跨句的事件時序關系識別對于篇章級別的事件時序關系識別非常重要。

表1 ACE2005-extended樣本統計

本文采用和Li[11]等人一致的數據劃分和評測標準。采用五折交叉驗證(具體劃分與Li一致)并且使用相同的評估指標Accuracy,該指標在該任務中與Micro-F1相同,因為每兩個事件間的時序關系必然屬于上述四種時序關系之一。

本文使用Pytorch作為深度學習的框架,在每一折中本文訓練15個epochs,batch的大小為2,并加入Early Stopping和Dropout防止過擬合,分別設置為5和0.5。外部詞向量的維度為300,BERT-wwm的輸出維度為768。

3.2 實驗結果

為了驗證本文提出模型的性能,本文將與其他6個基準系統比較,具體如下:

(1)MAJORITY: 給所有事件對的事件時序關系分配一個占比最多的時序標簽;

(2)GIM[11]: 使用傳統機器學習進行時序關系推理的方法,輸入端使用多種特征,結合自反性和傳遞性進行全局優化;

(3)DGIM[11]: 在GIM基礎上融入了事件相關性約束、連接約束、事件同指約束等全局優化方法,是目前在ACE2005-extended上中文事件時序關系分類任務效果最優的方法;

(4)SDP[16]: 在TimeBank-Dense語料庫中首次使用SDP,將SDP上的詞語、詞性、依存關系拼接作為雙向長短期記憶網絡(Bi-directional Long Short-Term Memory,Bi-LSTM)的輸入,本文將其模型復現后在中文語料庫上進行實驗;

(5)GCN[29]: 在TimeBank-Dense語料庫中利用圖卷積神經網絡獲取最短依存路徑上不相鄰的詞語的依存關系。本文將其復現后在中文語料庫上進行實驗;

(6)TRIMI[26]: 利用BERT-wwm和Bi-LSTM分別編碼語義信息和聯合SDP上的句法信息,在ACE2005-extended上進行實驗。

表2給出了基準模型和本文所提出模型的整體和三個子類別(同句、鄰句和跨句)的Micro-F1??梢钥闯?本文所提出的模型在整體Micro-F1獲得了最優性能71.87%,且本文所針對的跨句時序關系識別性能比目前最優的模型TRIMI提升了1.68。此外,通過相鄰事件句的信息交互可以將兩個事件句的語義信息和句法信息相連接,鄰句的識別性能提升0.82。然而,同句的識別性能相較于TRIMI下降了0.4,這可能是由于同句的事件之間本身具有較強的語義信息和句法連結,篇章圖模型的傳播聚合為其引入了一些冗余信息,使得模型混淆進而無法正確判斷其時序關系。表2中的實驗結果充分證明了本文方法在篇章級別事件時序關系識別任務中的有效性。

表2 不同模型在ACE2005-extended事件時序關系語料庫上的結果(顯著性測試: p<0.05)(結果省略%)

從表2可以看出,在未依賴大量手工標注特征的情況下,本文所提出的方法與傳統的統計學習的方法GIM和DGIM相比,在總體Micro-F1獲得了更優的性能(+7.75/+3.51)。雖然DGIM針對該任務融合了多種約束進行全局優化,然而在三個子類別尤其在跨句上,本文所提出的方法相較于DGIM提升了3.49。由此可見,篇章級圖模型的構造對跨句的事件時序關系識別有很大的幫助。

神經網絡方法SDP和GCN主要是針對同句事件時序關系識別,因此應用于篇章級事件時序關系語料庫ACE2005-extended時,并未取得很高的性能。此外,由于ACE2005-extended語料庫中同句占比很小(11.1%),這兩種方法在同句事件時序關系識別上也并未取得很好的性能。而本文所提出的方法在整體和三個子類別的性能上都相較于SDP和GCN有了很大的提升,這說明本文根據最短依存路徑構造的句內圖模型和篇章級別的圖模型可以很大程度上提升篇章級別的事件時序關系識別性能。相較于目前最優的模型TRIMI,除了同句該子類別外,本文提出的方法都獲得了一定的提升,即使TRIMI中也使用了Bi-LSTM編碼句法結構信息,但本文采用圖模型來編碼句法信息,并接著將篇章中的所有事件信息進行交互,使得跨句事件可能獲得更多的信息,足以說明本文提出方法的有效性。

3.3 實驗分析

為了驗證本文所提出不同信息對整體、同句、鄰句和跨句的影響,本文設計了以下消融實驗: (1)-句內GCN: 刪除句內圖模型。即直接使用外部詞向量Embedding后的事件詞表示作為篇章級圖模型的輸入; (2)-篇章GCN: 刪除篇章級圖模型。即在圖2中刪除事件信息交互模塊;(3)句內GCN替換為Bi-LSTM: 將句內圖模型替換成Bi-LSTM。即在句法信息編碼模塊中,將最短依存路徑作為Bi-LSTM的輸入,將最后一個時間步的雙向向量表示拼接后作為篇章級圖模型的輸入。結果如表3所示。若去除本文模型中的句內GCN(-句內GCN),而直接使用編碼后的事件詞作為篇章級圖模型的結點,性能在整體下降了0.94,且在三個子類別上皆有所下降(-0.56/-1.07/-0.62)。這是由于句法信息對提升事件時序關系識別的性能有所幫助,GCN可以很好地聚合不相鄰詞語間的特征。以這樣的事件詞表示來構建篇章級GCN的節點,可以為其他事件提供更多有關本事件的信息,以彌補輸入端信息過少的缺陷。

表3 消融實驗結果(結果省略%)

刪除篇章級圖模型(-篇章GCN),整體和跨句的性能下降較多(-2.63/-2.68),因為篇章級別的事件時序關系中絕大部分還是跨句,而針對于跨句的事件時序關系識別。本文使用篇章級GCN將不同事件之間的特征進行傳播聚合,若去除了該部分,則跨句的性能會大幅下降??缇涞氖录吉毩⒋嬖?不連續的語義和句法信息都容易導致模型將其錯誤分類。如圖1所示,其中S1中的“砍殺”和“送往”的時序關系是“AFTER”,然而僅靠兩個事件句無法將兩個事件詞進行相連。由于輸入到篇章圖模型的事件詞表示都融合了最短依存路徑信息,因此通過中間句子的事件詞“嗑藥”、“行兇”等,可以將S1中的砍殺的主人公“一名男子”與S8中的“精神恍惚的歹徒”進行連接,進一步判斷“砍殺”和“送往”的時序關系為“AFTER”。對比實驗結果證明本文提出的圖模型GCN能更好地提升跨句的事件時序關系識別性能。

此前Bi-LSTM通常被應用于編碼最短依存路徑,而相較于Bi-LSTM,GCN作為最短依存路徑的編碼器性能更優(+0.74),這是因為Bi-LSTM是按照時間步來處理詞語,即使有正和反兩個方向,SDP上離得較遠的詞語在傳播的過程中依然會丟失一些特征,無法獲取長期依賴,而GCN是通過鄰居結點來不斷地傳播聚合,相較于Bi-LSTM可以更好地保留特征。

4 結論

本文提出了一種基于篇章圖模型的中文事件時序關系識別方法。該方法利用句內圖模型編碼最短依存路徑,構造篇章級別事件圖來交互信息,再加以進一步融合兩個事件句的語義信息,以更好地進行篇章級別事件時序關系的識別。在ACE2005-extended上的實驗表明,本模型在跨句和整體性能上都取得了最佳性能。

猜你喜歡
句法時序語料庫
基于時序Sentinel-2數據的馬鈴薯遙感識別研究
句法與句意(外一篇)
基于Sentinel-2時序NDVI的麥冬識別研究
述謂結構與英語句法配置
《語料庫翻譯文體學》評介
句法二題
詩詞聯句句法梳理
一種毫米波放大器時序直流電源的設計
基于JAVAEE的維吾爾中介語語料庫開發與實現
DPBUS時序及其設定方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合