?

結合主題和位置信息的兩階段文本摘要模型

2023-09-21 15:49任淑霞趙宗現饒冬章
智能計算機與應用 2023年9期
關鍵詞:解碼器編碼器文檔

任淑霞, 張 靖, 趙宗現, 饒冬章

(1 天津工業大學軟件學院, 天津 300387; 2 天津工業大學計算機科學與技術學院, 天津 300387)

0 引 言

文本摘要生成是從輸入文檔中有效地壓縮和提取信息,同時保留其關鍵內容的過程。 典型的摘要生成方法包括抽取式和生成式。 抽取式摘要技術通過在原文中選擇一個句子子集來生成摘要,方法簡單且內容與語法更準確,但存在著內容冗余、語義不一致以及信息缺失等問題;生成式摘要通過使用自然語言生成(NLP)方法產生具有理解力的新詞或短語生成摘要,可以更好的理解文檔,生成更符合人類所能理解的摘要。

Rush 等[1]受到神經機器翻譯成功的啟發,在2015 年首次將seq2seq 和注意力機制結合起來應用于文本摘要任務中;Chopra 等[2]提出模型編碼器,同樣使用卷積模型構造,但添加了輸入單詞的位置信息,而解碼器則基于循環神經網絡構造。 以上方法相比于傳統的方法,效果有了極大的提升,但仍存在著未登錄詞(Out-Of Vocabulary,OOV)、生成重復以及長程依賴的問題。 2017 年,See 等[3]提出了一種帶有覆蓋的混合指針生成器架構(PTGEN)。 首先使用混合指針生成器網絡,通過指向從源文檔復制單詞,有助于信息的準確再現,緩解OOV 問題,同時保留通過生成器生成新單詞的能力;其次,使用一個覆蓋機制來跟蹤總結的內容,從而避免生成重復問題。 同年,Paulus 等[4]提出了一種用于生成式摘要的深度強化模型(DRM),該模型是對PTGEN 的改進,通過一個內注意力機制和一個新的學習目標來進一步解決生成重復的問題;2018 年,Narayan等[5]為了解決長程依賴問題,提出了一個完全基于卷積神經網絡(CNN)的主題條件神經模型,與循環神經網絡(RNN)相比,CNN 能夠捕獲文檔中的長距離依賴關系并識別相關內容。

隨著預訓練語言模型在NLP 領域的快速發展,其在文本摘要任務中的應用也有極大的進展。 Liu 等[6]在2019 年提出了一種新的基于BERT 的文檔級編碼器(BERTSUM),該編碼器能夠對文檔進行編碼,并獲得其句子的表示,同時提出了一種通用的抽取式摘要和生成式摘要框架,性能有了極大的提升。 然而,其模型編碼器只嵌入了句子的相對位置信息,而沒有嵌入絕對位置信息,對抽取摘要的結果造成影響。 除此之外,BERTSUM 模型更善于探索局部標記之間的關系,而對于更高層次(如句子、主題)的語義理解并不充分。 近年來,預訓練模型在文本摘要領域的發展主要在提升缺少標簽數據情況下的模型性能,而對于如何解決預訓練框架中的全局語義問題并沒有過多的研究。

為了進一步提升文本摘要生成的性能,本文采用了抽取-生成兩階段混合式摘要生成方法。 首先,對源文檔的重要信息進行選擇、合并、壓縮或刪除;其次,將提取得到的重要信息當作新的源文檔,利用生成式摘要技術進行摘要生成。 混合式方法結構非常清晰,只需將抽取階段的結果當作生成階段的輸入,而不需要從根本上改變其架構。

本文構建了抽取-生成兩階段的摘要框架,對抽取的句子進行摘要生成,在兩階段間傳遞信息的同時大大減少句子冗余。 首先,在兩個階段同時引入主題嵌入形成雙主題嵌入,融合了豐富的語義特征,以捕獲更準確的全局語義表示,從而提升生成摘要的質量;其次,在抽取式階段引入句子絕對位置嵌入,將句子位置信息進行完全整合,獲得更全面的摘要抽取輔助信息,從而提取更加重要的句子以進行摘要生成。 實驗結果表明,本文提出的模型在CNN/Daily Mail 數據集上取得了較好的結果。 本文還進行了人工評估實驗,其結果也優于其他對比模型。

1 本文模型研究

本文模型的體系結構如圖1 所示。 本文的模型是抽取-生成兩階段的微調模型,通過將抽取式摘要生成和生成式摘要生成技術結合起來以幫助生成更高質量的摘要。 模型兩個階段都在編碼器中添加主題嵌入以捕獲更豐富的全局語義信息,并且在抽取式階段添加句子絕對位置嵌入來完全利用句子位置信息,提取高質量的摘要信息。

圖1 模型的體系結構Fig. 1 The architecture of model

模型將源文檔D表示成一個包含n個句子的文檔{s1,s2,…,sn},其中si表示第i句在文檔中的文本順序。 兩個階段的編碼器都是采用類似BERT 的結構。

首先,插入兩個特殊標記對輸入文本進行預處理,在每個句子的開頭插入標記[CLS],利用該標記計算出的輸出來整合每個序列中的信息,在每個句子的結尾插入標記[SEP],作為句子邊界的指示符;其次,利用分段嵌入來區分句子,達到在不同層次學習相鄰句子特征或段落句子特征的目的。 由于Transformer 的自我注意層處于不同位置的相同單詞具有相同的輸出表示,因此需要引入位置嵌入來恢復位置信息,本文使用正弦位置嵌入來允許模型學習給定序列中標記的相對位置。 為了全面準確地表達每個序列的上下文信息,本文添加了主題嵌入。

對于每個輸入句子,本文通過4 種嵌入類型即標記嵌入、分割嵌入、位置嵌入和主題嵌入的總和輸出,以充分表達句子的語義特征;將前面的輸出結果h0通過一個多層的雙向transformer 進行處理,得到上下文嵌入向量,式(1)和式(2):

其中,LN 為層歸一化操作;MHAtt 為多頭注意操作;FFN 為兩層前饋網絡操作;上標l表示堆疊層的深度。

最終輸出的上下文嵌入表示為c[c1,c2,…,cn],其中ci為第i個[CLS]標記對應的向量,可以被看作是第i個句子si的向量表式。

1.1 雙主題嵌入

預訓練語言模型主要針對詞或句子級別進行設計,因此在捕獲整個文檔的語義方面表現不佳。 比如,BERTSUM 模型更善于探索局部標記之間的關系,而在更高層次,如句子、主題的語義理解方面做的并不好。 因此,本文添加主題信息嵌入來解決全局語義缺失問題,模型采用雙主題嵌入,即在抽取和生成兩個階段同時引入主題嵌入,雙主題嵌入降低了源文檔無關信息的干擾,更準確的捕獲全局語義信息。 主題模型擅長捕獲文本的全局語義,本文使用潛在的狄利克雷分配(LDA)來獲得文檔和單詞的主題分布。

讓表 示 一 個 由 一 系 列 文 檔{D1,D2,…,Dm} 組成的文檔集,每個文檔D由一系列單詞 {w1,w2,…,wn} 組成。 LDA 的生成過程:

其中,α0是狄利克雷先驗的超參數,βzn表示給定主題分配的單詞的主題分布zn。

抽取階段引入的主題嵌入T主要依賴源文檔的文檔主題分布zn和單詞主題分布wn,而在生成階段引入的主題嵌入T′主要依賴源文檔的文檔主題分布zn以及抽取后文檔單詞的主題分布。 式(3)和式(4):

本文通過雙主題嵌入降低了文檔冗余信息的影響,更準確的捕獲文檔的全局語義信息,進一步提高了生成摘要的質量。

1.2 絕對位置嵌入

為了捕獲文檔級特征以提取摘要,BERTSUM模型在 BERT 輸出的頂部構建了句子間的Transformer 層,但Transformer 并沒有對其輸入句子的絕對位置信息進行編碼,且BERT 中的位置嵌入層也不能提供文檔級的句子位置信息。 但對抽取式摘要來說,句子位置信息對于文檔重要信息的提取十分重要。 因此,本文通過句子的絕對位置嵌入來合并句子位置信息,解決了BERT 中的位置嵌入層不能在文檔級別提供句子位置信息的問題。

假設摘要生成句代表源文檔的主要內容,抽取式摘要可以定義為源文檔中的每個句子分配標簽yi∈{0,1} 的任務,0 或1 代表著當前句子是否作為摘要提取的句子。 抽取式階段的流程如圖2 所示。

圖2 抽取式階段流程Fig. 2 The process in extractive stage

通過編碼器編碼獲得句子向量ci后,引入句子絕對位置嵌入p[p1,p2,…,pn],pi代表著第i個句子在文檔中的絕對位置,最后通過摘要判斷層來獲得最終的標簽以提取摘要。 本文的摘要判斷層使用兩個句子間Transformer 層和簡單分類器的組合,即式(5)和式(6):

其中, PosEmb() 表示絕對位置嵌入,Transformer() 表示句子間Transformer 層。

在Transformer 的輸出上添加一個線性全連接層,并使用一個sigmoid 函數進行二分類,獲得預測標簽Yi,式(7):

其中,σ表示sigmoid 函數;表示Transformer的頂層的第i個句子si的向量;L表示二分類之前堆疊了Transformer 層數。

如果標簽結果為0,則將該句子歸為背景知識,用于生成式階段編碼器的預訓練任務;如果標簽結果為1,則將該句作為抽取式階段的抽取結果,用于生成式階段的摘要生成。

本文通過句子的絕對位置嵌入來將句子位置信息進行完全整合,解決了BERT 中的位置嵌入層不能在文檔級別提供句子位置信息的問題,獲得更全面的摘要抽取輔助信息。

1.3 抽取-生成兩階段模型

抽取-生成兩階段混合式摘要方法首先通過抽取式技術對源文檔中的重要信息進行提取,然后將其作為新的文檔通過生成式技術進行摘要生成。 其將兩種方法結合起來生成摘要,取長補短,進一步提升模型的性能。 但傳統的混合式摘要方法只是簡單的將抽取式方法和生成式方法結合起來,對于輸入的源文檔內容的利用并不是很充分。

而本文使用的抽取-生成兩階段的框架,將源文檔內容分為兩大類,一類是抽取式階段作為摘要結果的句子,用于下一階段的摘要生成任務;另一類是其余不作為抽取摘要結果的句子,用于下一階段編碼器的預訓練任務。 這種改進降低生成摘要冗余的同時不丟失源文檔的其他背景知識,使得最終生成的摘要對于源文檔的概括更加全面。

本文將源文檔D通過抽取式階段得到每個句子的預測標簽yi, 再將標簽為1 的句子提取出來,作為一個新的源文檔D′,輸入至生成式階段。 對新的源文檔D′進行預處理,再次通過4 種嵌入來捕獲豐富的語義特征,得到嵌入后的結果E′,其過程如式(8):

將詞嵌入的結果通過Transformer 層得到新的上下文嵌入向量C′, 再將其傳入解碼器進行解碼,最終輸出生成的摘要。

本文的編碼器是預處理的BERT 模型的變體,解碼器是隨機初始化的6 層Transformer。 為了避免編碼器和解碼器之間存在的不匹配問題,本文編碼器和解碼器使用兩種不同的Adam 優化器。 兩個優化器的β1和β2設置相同,都使用β1=0.9 和β2=0.999, 而warmup 和學習率則不同, 式(9) 和式(10):

其中,和分別是每個step 的編碼器和解碼器的學習率。

因為經過預處理的編碼器應該以較小的學習速率和更平滑的衰減進行微調。 這樣,當解碼器變得穩定時,編碼器可以以更精確的梯度進行訓練。 因此本文的參數設置:編碼器的學習率為0.002,warmup 為20 000,解碼器的學習率為0.1,warmup為10 000。

本文使用抽取-生成兩階段框架,不僅降低了生成摘要的冗余,而且利用文檔的背景知識減少了摘要內容的缺失,進一步提升了模型的性能。

2 實驗測試與分析

2.1 數據集

本文實驗使用的數據集是CNN/Daily Mail,由CNN 和Daily Mail 的新聞文章和文章的簡要概述組成。 本文使用常用的標準分割方法進行訓練、驗證和測試。 具體將數據集分割為90,266/1,220/1,093個CNN 文檔和196,961/12,148/10,397 個Daily Mail 文檔。 在CNN 的參考摘要中有52.90%的二元組,在Daily Mail 中有52.16%的二元組。 該數據集由于語料庫大、文本長而被廣泛應用于自動文本摘要任務,適用于抽取式模型和生成式模型。

2.2 實驗設置

所有模型都在OpenNMT 的PyTorch 版本上實現,同時本文選擇了“BERTbase”對模型進行微調,共有110 M 的參數。 詞匯量為30 522,詞嵌入維度為768。 對于主題的數量,本文設置為1。 當主題數量為1 時,摘要生成的指導效果最好。 本文的Transformer 解碼器有768 個隱藏單元,所有前饋層的隱藏大小為2 048,模型在Tesla P100 GPU 上訓練200 000步,每5 步進行梯度積累,模型檢查點每隔5 000步在驗證集上保存并評估。 本文根據驗證集上的評估損失來選擇前3 個檢查點,并報告測試集上的平均結果。 本文使用Adam 優化器,并以0.002和0.1 的學習率來訓練編碼器和解碼器。 此外還對編碼器和解碼器設置了兩個Adam 優化器,分別為β1=0.9,β2=0.999, 摘要的最大句子長度設置為512。 為了正則化,本文使用dropout 并將dropout 率設置為0.1。

2.3 實驗結果及分析

本文將提出的模型與下面幾種模型進行了比較:

(1) TransformerABS:其編碼器是有6 層的Transformer,具有768 個隱藏單元,前饋層的隱藏大小為2 048,而其解碼器與BERTSUM 模型相同。 本文將此模型作為基準。

(2)PTGEN-COV:該模型通過指針直接從原始文本中復制單詞,并保留通過生成器生成新單詞的能力[5]。

(3)BERTSum:該模型使用預訓練語言模型進行摘要生成,是一個經過微調的BERT 變體[6]。

(4)T-BERTSum:該模型基于BERT 強大的體系結構和額外的主題嵌入信息來指導上下文信息的獲?。?]。

本文對于實驗結果的評估分為兩種方式。 為了確保公平的比較,本文使用完全相同的實驗設置來進行對比模型的結果呈現。

實驗結果的評估分為自動評估和人工評估兩種方式。

2.3.1 自動評估

本文 使 用 ROUGE ( Recall - Oriented Understanding for Gisting Evaluation)度量來自動評估生成摘要的質量。 ROUGE 是一組用于評估自動摘要的度量標準,其將自動生成的摘要與參考版本(通常手動生成)之間的重疊數量進行比較,以計算相應的分數[8]。 其基本思想是將模型生成的摘要與參考摘要的n元組貢獻統計量作為評判依據。 本文使用ROUGE-1 和ROUGE-2 作為評估信息量的標準,ROUGE-L 作為評估流利性的標準。 本文將每個ROUGE 評分的精確度和召回率的調和平均值(即F1 分)作為評價標準。 本文的模型和比較模型在CNN/Daily Mail 數據集上的自動評價結果見表1。

表1 在CNN/DailyMail 數據集上的ROUGE 評分Tab. 1 ROUGE scores on the CNN/DailyMail dataset

由表1 可知基于BERT 的預訓練模型在很大程度上優于其他模型,這說明使用預訓練模型對于模型的評估結果會有顯著的提升。 除此之外,本文的模型評分總體上優于實驗對比的其他模型,這說明本文提出的模型對于生成摘要的質量有一定的提升。

同時,本文對模型的學習位置嵌入和主題模型兩個模塊分別進行了消融實驗來檢驗是否對模型具有優化效果。 由表1 可知,添加了學習位置嵌入模塊沒有加入主題嵌入模塊的效果好,這主要是因為學習位置嵌入模塊主要是對抽取式摘要的結果進行了優化,相比于加入主題信息提升全局語義來說效果沒有那么明顯。 但兩者相結合之后,最終結果都比兩者單獨使用效果要好。

2.3.2 人工評估

本文還通過人工判斷來評估生成的摘要。 從測試集中選取100 篇文章,對模型進行匿名實驗,并隨機選取3 名志愿者,將實驗模型生成的摘要進行匿名評分,評分范圍從1 ~5,分數越高,說明模型能力越強。

評估包括以下內容:

(1)突出性:生成的摘要再現原始信息或觀點的能力;

(2)連貫性:生成的摘要與文章主題是否一致,即生成的內容是否混亂;

(3)冗余性:生成的摘要中冗余詞多少。

對CNN/Daily Mail 數據集進行人工評估的結果,見表2。 與自動評價結果一致,本文的模型取得了較好的成績,進一步證明本文的模型能夠很好地對原始文檔進行建模,并準確地捕獲關鍵信息。 在突出性和連貫性方面,本文模型都比其他模型分數高。 在冗余度評價上,PTGEN-COV 與本文的模型獲得了相同的分數。 PTGEN-COV 引入了基于指針網絡的復制機制,避免了重疊詞的產生。 而本文的模型結合了主題嵌入和絕對句子位置嵌入,更好的利用了上下文,同時抽取-生成模型相結合共享信息,減少冗余。

表2 模型人工評價的得分Tab. 2 The score of manual evaluation of model

2.3.3 其他實驗

本文對于不同主題數量對于模型結果的影響在CNN/DM 數據集上進行了實驗,實驗結果如圖3 所示。 可以看出,當主題數量為1 時,摘要生成的效果最好;當主題數量大于1 時,模型生成摘要效果會逐漸降低,說明過多的主題對語義的表達是多余的。

圖3 在CNN/DailyMail 數據集上不同主題數量的ROUGE 評分Fig. 3 ROUGE scores for different number of topics on the CNN/DailyMail dataset

除此之外,本文還進行了超參數的相關實驗,對不同編碼器和解碼器學習率組合方案下的困惑度(Perplexity)進行評估,實驗結果見表3,可見當組合方案為lrE=0.002,lrD=0.1 時,困惑度最小,因此選取此方案為模型參數。

3 結束語

本文提出了一種結合雙主題嵌入和句子位置嵌入的抽取-生成兩階段自動摘要生成模型。 該模型通過引入雙主題嵌入來捕獲更準確的全局語義信息,并且通過在抽取階段引入句子絕對位置嵌入將句子位置信息進行完全整合,獲得更全面的摘要抽取輔助信息。 同時兩階段框架的使用不僅降低了生成摘要的冗余,還利用文檔的背景知識減少了摘要內容的缺失,進一步提升了模型的性能。 實驗結果表明,本文提出的模型在CNN/Daily Mail 數據集上取得了較好的結果。

猜你喜歡
解碼器編碼器文檔
淺談Matlab與Word文檔的應用接口
科學解碼器(一)
有人一聲不吭向你扔了個文檔
科學解碼器(二)
科學解碼器(三)
線圣AudioQuest 發布第三代Dragonfly Cobalt藍蜻蜓解碼器
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設計
基于RI碼計算的Word復制文檔鑒別
JESD204B接口協議中的8B10B編碼器設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合