融合多層注意力表示的中文新聞文本摘要生成

2023-11-02 12:35雷景生唐小嵐

計算機應用與軟件 2023年10期

王騫雷景生唐小嵐

(上海電力大學上海 201300)

0 引言

隨著互聯網的飛速發展以及智能手機的普及,海量的文本信息進入并影響著人們的生活。如何從這些越來越龐大的數據中快速獲取自己想要的信息成為當下閱讀的一個難題。文本自動摘要技術應運而生,它可以對長篇文檔“閱讀理解”之后概括出短小易懂的文本,從而便于讓人們快速了解文本內容,掌握數據信息。目前文本摘要主要分為抽取式文本摘要和生成式文本摘要。

抽取式摘要是指從原文中選擇比較重要的句子并提取出來作為摘要,這些句子常常包含一些關鍵詞或者能夠反映文章主旨的詞語。早期的抽取式摘要可以通過獲取包含高頻詞的句子[1],甚至可以直接選擇文章的前幾句作為摘要[2]。圖模型的興起為提高抽取式摘要的性能找到了突破口,它可以將文章中每個句子視作圖結構中的節點,句子間的關系視作連接節點的邊,如經典算法TextRank[3]?；诖?張云純等[4]提出了基于圖模型的多文檔摘要生成算法。羅芳等[5]提出了融合主題特征的多維度度量的文本摘要模型MDSR,通過定義主題重要度等概念,結合其他統計特征提高了摘要生成質量。隨著神經網絡的出現,抽取式摘要技術迎來了巨大的革新。Chopra等[6]提出了可以解決序列數據任務的循環神經網絡RNN(Recurrent Neural Network);同樣作為序列數據,Sutskever等[7]提出了Seq2Seq(sequence-to-sequence)模型,現在已成為文本摘要領域常用的架構之一;隨后Bahdanau等[8]在序列模型的基礎上提出了注意力機制,它可以模仿人的閱讀習慣,極大地提升了文本摘要的效率。

生成式摘要是將文本數據送入計算機,這類似于人的閱讀過程,需要捕捉和歸納形成文章的主旨大意。生成式摘要可以包括原文本中沒有出現過的詞匯,更符合人類的習慣,因此越來越受研究人員的青睞。Perez-Beltrachini等[9]提出了一種包含層次解碼器的序列模型,它從文檔和句子兩個角度分別學習詞向量并加以組合,并結合LDA算法為每一個句子分配一個可能的主題,使得生成的句子表意全面且緊扣主題。寧珊等[10]提出了融合關鍵詞的文本摘要生成方法,它通過提取文中關鍵詞及相鄰詞的信息來達到提升主題關聯度的目的。倪海清等[11]提出了基于語義感知的短文本摘要生成模型,它結合了BERT預訓練模型,并且用參考摘要作為監督以計算不一致損失,生成了質量較好的文本摘要。潘慧[12]通過無監督的關鍵句抽取算法得到關鍵句,并將其壓縮為短文本,然后在短文本的基礎上運行模型生成摘要。Nallapati等[13]通過對關鍵詞建模以及捕捉句子到單詞的結構,使生成的摘要結構規范嚴謹,這給本文提供了良好的思路。上述方法都有結合注意力機制,雖然在一定程度上提升了語義表示,但是未能注重中長文本中經常出現的遠距離詞句關聯,忽略了遠距離詞句的依賴信息,造成文本表征不全面。

為了解決上述問題,本文提出了融合多層注意力表示的文本摘要方法。該方法總體沿用Seq2Seq架構,使用Transformer進行編碼與解碼。首先通過對中長文本進行抽取式分割,得到用于后續生成式摘要訓練的主體文本和輔助文本。然后對主體文本進行圖卷積訓練和依存句法分析,從句間信息和句子結構兩個方面,得到相關詞句的動態表征;同時對輔助文本進行高頻主題詞抽取。最后將以上三種信息以三種注意力表示與Transformer進行融合,加強輸入文本的信息表征,從而輸出表意更加全面的文本摘要。

1 本文模型

本文的主體研究路線如圖1所示。

圖1 論文研究路線

圖1中,首先將中文文本進行預處理,并通過預訓練模型得到詞向量,接著通過TextRank算法將文本分為主體文本和輔助文本;然后對主體文本進行圖卷積和依存句法分析,分別得到包含句間序列信息的詞向量表征和包含句法結構信息的依存詞對,同時對輔助文本進行高頻主題詞的挖掘,盡可能地利用文本信息,這里主要用到的方法是LDA和TF-IDF;最后將這三種信息送入Transformer模型并對模型稍作改進,得到最終的摘要。

1.1 預訓練模型

ALBERT是BERT模型的優化模型之一。它將原始BERT模型的Embedding Dimension(簡稱E)與Hidden Dimension(簡稱H)解綁,采用矩陣因式分解的方法,將原本的參數量V×H優化為V×E+E×H,大大減少了模型參數。

傳統Transformer的每一層參數都是獨立的,導致層數增加時帶來參數量的大幅上升。ALBERT模型將所有層的參數共享,相當于只學習第一層的參數,并在剩下的所有層中重新用該層的參數。實驗發現,使用共享參數不僅可以減小參數規模,提升運算速度,還可以有效地提升模型穩定性。

另外,ALBERT將BERT模型中的“下一個句子預測”任務改為“句子順序預測”,提高了多種下游任務的表現。

本文基于減少實驗參數及提升詞向量表征的綜合考量,采用ALBERT模型對輸入文本詞匯進行訓練。

1.2 TextRank算法

TextRank是抽取式文摘領域的經典算法,它是一種用于文本的基于圖的排序算法。它的基本思想是將每個句子視作節點,句子間的相似度視作連接節點的邊上的權值。為每個節點初始化一個值,通過不斷迭代計算直到收斂。最終將結果值最高的K個節點即句子作為最終摘要。

TextRank一般模型可以表示為一個有向有權圖G=(V,E),由點集合V和邊集合E組成。本文將中文數據集以句號分割得到的每一個句子vi作為節點,以vi、vj兩個句子間的詞匯共現度作為節點上邊的權重wij。對于一個給定的點vi,(vi)為指向該點的點集合,Out(vi)為點vi指向的點集合。點vi的得分定義如下：

(1)

式中：d為阻尼系數,表示從圖中某一節點指向其他任意點的概率,一般取0.85[14]。

對于給定的句子Si和Sj,詞匯共現度計算公式如式(2)所示。

(2)

式中：sim(Si,Sj)表示兩個句子的共現度。

每個頂點的最終取值與初始權值的選擇無關,初始權值只會影響算法迭代直到收斂的次數?？紤]到阻尼系數d取0.85,它表示圖中某一節點指向其他任一點的概率為0.85,則可認為該節點對自身的轉移概率為0.15,即本文為每個句子節點賦初始權重為0.15。另外,TextRank算法中任意一點的誤差率小于給定的極限值就可以達到收斂,文獻[14]認為該極限值是一個經驗值,一般取0.000 1即可令絕大部分節點的誤差率達到收斂,因此本文取該極限值為0.000 1。

當算法收斂時,按照得分從高到低排序,取前40%的句子組合做主體文本。這里的40%是因為本次實驗所用的樣本平均長度在10個句子左右(以句號分割),后續的對比實驗要求樣本平均長度為4,所以只取結果中前40%的句子,以達到數據集的一致性。

1.3 依存句法分析

依存指的是非對稱的、二元的中心詞與依賴詞之間的關系。依存句法分析通過分析語言單位內成分之間的依存關系揭示其句法結構。對于計算機來說,理解詞匯本身的意思是很難的,但是可以通過理解詞匯所承受的語義框架來描述該詞匯。

依存句法分析認為句子中的核心動詞是支配其他成分的中心成分,它本身不受支配。其次,其他成分間也存在支配關系。例如,“他一邊喝小米粥,一邊看小米電視?！边@句話中,核心動詞是“喝”,它與“看”是并列關系;“喝”與“小米粥”、“看”與“小米電視”分別是動賓關系。但是句子中的“小米粥”與“小米電視”有相同的部分“小米”,如果僅僅只關注這個部分,相應的詞向量會很難區分二者的差異。而通過依存句法分析之后,會很容易明白二者各自的含義。

依存分析的結果表示為有向圖,如圖2所示。

圖2 依存句法分析有向圖

本文只關注三種主要的關系：動賓關系dobj,如“喝”與“小米粥”;并列關系conj,如“喝”與“看”,復合關系compound,如“小米”與“電視”。將這些關系表示為依存詞對,如<喝,小米粥>,詞對中的兩個詞可能相鄰,也可能距離稍遠;然后用詞位置信息替代,將其和原始詞向量送入Transformer編碼器,其中詞位置信息指的是該詞在句子中從前往后的位置;取最后一層encoder中每個詞對應位置的隱藏層狀態向量,將兩個詞向量簡單拼接,作為decoder的輸入。

1.4 圖卷積神經網絡

圖卷積網絡(Graph Convolutional Network,GCN)是近幾年流行起來的神經網絡模型[15]。原始卷積神經網絡(Convolutional Neural Networks,CNN)的感受野受制于目標詞,很難滿足大多數場景的需求?，F實生活中很多場景都呈現網狀結構G=,其中：V代表節點,E代表節點間的關系。而文本序列由于具有時序性,前面的詞句或多或少會影響到后面的詞句,且不同的詞句可以構成不同的節點。這樣同時具備了圖結構的節點和邊信息,因此本文嘗試使用圖卷積神經網絡(見圖3)對文本數據進行向量化表示并且學習更高層次的表征。

圖3 圖卷積網絡的概念

如圖3所示,GCN包含輸入層、輸出層和中間的隱藏層。H(0)表示經過訓練的詞向量組成的句矩陣輸入,H(N)表示輸出。中間每一個隱藏層的計算公式為：

(3)

(4)

將詞向量矩陣作為一個節點,句子之間的相似度作為邊的權重,構建圖網狀結構。這里的構建過程與TextRank算法的圖構建過程是相似的,但是迭代計算的原理不同。GCN的權重傳播原理如圖4所示。

圖4 GCN節點權重傳播圖

圖4中,A、B、C和D分別表示不同的節點,以節點A為例,圖4(a)表示第一步：發射,將其他節點自身的特征信息經過變換后發送給節點A,可以理解為對節點特征進行抽取變換;圖4(b)表示第二步：接收,將節點A及其鄰居節點的特征信息聚合起來,即融合該節點的局部信息;圖4(c)表示第三步：變換,把前面的信息聚合之后做非線性變換,增加向量的表達能力。

圖卷積巧妙地將CNN的局部注意力轉換為一個節點對其鄰居節點的注意力,這無疑更加符合人類對網狀結構的認知。通過圖卷積神經網絡的訓練,可以得到更加具有綜合性、概括性的詞向量。從某種意義上講,圖卷積將文本的時間序列轉變成了空間序列,所以不用考慮之后的Seq2Seq架構再次使用LSTM等循環神經網絡。

1.5 LDA與TF-IDF

本節主要是通過LDA與TF-IDF算法對輔助文本進行高頻主題詞的挖掘,輔助文本指的是對原始文本進行抽取式提取關鍵句之后剩下的文本內容。這部分文本中也必然包含著一些能夠表達文章主題的、頻繁出現的詞匯,因此對其進行信息挖掘很有必要。

1.5.1LDA

LDA算法是一種文檔主題生成模型,其主要原理簡單來講就是“文章以一定概率選擇了某個主題,然后又在這個主題下以一定概率選擇了某個單詞”,通過這樣一個層次關系將“文檔w-詞匯d”的關系拓展為“文檔w-主題t-詞匯d”。因此LDA算法的核心公式為：

p(w|d)=p(w|t)×p(t|d)

(5)

LDA整個模型中所有可見變量以及隱藏變量的聯合分布為：

p(wi,zi,θi,Φ|α,β)=

(6)

式中：wi表示文本中第i個詞;zi表示第i個主題;θi表示從狄利克雷分布α中取樣生成文本i的主題分布;zi,j表示從主題的多項式分布θi中取樣生成文檔i第j個詞的主題;Φ表示從狄利克雷分布β中取樣生成主題zi,j的詞語分布,其具體分布形式寫為φzi,j;wi,j表示從詞語的多項式分布Φ中采樣生成的最終詞語。

最終一篇文檔的單詞分布的最大似然估計可以通過對式(6)中的θi、Φ進行積分以及對zi進行求和得到,即：

(7)

根據式(7),本文目的是得到主題分布zi和詞匯分布wi。常用的方法是采用Gibbs采樣對其進行參數估計來得到主題-詞參數矩陣Φ和文檔-主題矩陣θ,最終得到輔助樣本中各篇文檔的主題詞。

1.5.2TF-IDF

TF-IDF算法常用于計算文本中的加權詞頻,得到文本中較為重要的詞。TF指的是詞頻,IDF指逆文本頻率指數。其主要思想是：一個詞若能在一篇文章中高頻出現,且在其他文章中很少出現,則認為這個詞能夠代表這篇文章,即該詞是這篇文章的關鍵詞。

(8)

(9)

式(8)表示第i個詞條的TF值,其中分子表示某篇文章中包含第i個詞條的個數,分母則表示這篇文章的總詞條數目。式(9)表示第i個詞條的IDF值,括號內分子表示數據集中的文章總數,分母表示數據集中包含第i個詞條的文章總數,之所以要加1,是為了避免分母為0;boolean(i)表示如果第i個詞條在第m篇文章中,則為1,反之則為0。最終的TF-IDF計算公式為：

TF_IDF=TF×IDF

(10)

TF_IDF值越大,則這個詞成為一個關鍵詞的概率就越大。

通過以上兩種算法分別得到輔助樣本中每個文本的主題詞與關鍵詞,本文對這兩個集合取交集得到最終的高頻主題詞。

1.6 融合多層注意力表的Transformer模型

通過1.3節、1.4節和1.5節,分別得到依存詞對、圖卷積表示以及輔助樣本中的高頻主題詞,現在將它們分別輸入Transformer模型中,進行學習以及文本摘要的生成。

1.6.1傳統的Transformer模型

Transformer模型是由Google團隊為解決Seq2Seq問題而提出的,它用全attention的結構代替了長短期記憶網絡LSTM,在自然語言處理領域取得了很好的效果。Transformer模型的結構如圖5所示。

圖5 Transformer結構圖

Transformer包括n個編碼器和n個解碼器,每個編碼器中又包含兩個子層,分別是多頭注意力層和前饋層;解碼器在編碼器中兩層的基礎上,又加入一個編碼-解碼注意力子層。除此之外,上述所有子層之后都有一個殘差連接和歸一化層,目的是為了連接低維的向量、減小不同范圍數據的不利影響。

文本數據通過編碼和嵌入位置信息之后,進入編碼器,通過多頭自注意力層對文本不同位置的信息進行學習,然后在前饋層調整權重等參數;通過n個這樣的編碼器,在最頂端輸出包含隱藏層信息的狀態向量,再次輸入解碼器;解碼器的大致步驟和編碼器相同,但是自注意力層只處理輸出序列中靠前的位置,因為靠后位置的信息會對輸出序列進行引導,達不到預測目標位置詞匯的效果。

1.6.2融合多種注意力表示的改進Transformer模型

傳統的Transformer模型在編碼解碼時通過設置多頭注意力層對句子不同的位置進行局部注意力感知,最后將其拼接為完整的詞向量。這種局部注意力只能對目標詞周圍視野內的詞信息進行學習,但是有時候無意義地對周圍詞信息進行學習非常浪費計算成本和時間,因為可能相鄰的兩個詞或多個詞并沒有多大的關聯,僅僅是文本語義上的遞進,或者稱之為“自然堆砌”。因此引導局部注意力機制向更有效率的方向聚焦非常有必要。

本文在傳統局部注意力的基礎上,使用前文提到的圖卷積表示的詞向量作為Transformer編碼器的基礎輸入,結合依存詞對和高頻主題詞的信息,設計了以下改進的Transformer模型。

首先將高頻主題詞分別與圖卷積表示的詞向量矩陣進行相似度計算,得到每個詞與高頻主題詞相似度的由高到低的排序,計算公式如下：

(11)

式中：wj表示句子中的第j個詞;gi表示高頻主題詞集中的第i個詞。通過將兩個詞向量進行相乘,得到它們之間的相似性,繼續計算該詞與下一個主題詞的相似性,依此類推,最后將所有相似度累加,得到該詞與主題的整體相關度。將句子中的每個詞都計算其與主題的相關度,選擇相關度最高的TopK個詞,并對這些詞設置特殊標記位,原理圖如圖6所示。

圖6 改進的Transformer結構

圖6中Wd和Wd′分別表示原始滑動窗口長度和擴展之后的窗口長度。帶星號的位置表示與主題高度相關的詞。

處理完文本輸入之后,將其放入Transformer模型進行學習。當第一個編碼器學習到具有星號標記位的詞時,將滑動窗口的左右長度各放大一個單位。因為該詞與主題相關度高,故認為其周圍的詞也可能包含更多的主題信息,這樣在頂層編碼器能夠使目標詞學習到更多周圍詞的信息。

在最后一個編碼器學習完畢之后,根據依存詞對儲存的位置信息,將對應詞的隱狀態向量提取出來,隨后放入解碼器進行學習。

進入解碼階段,大致步驟和傳統的Transformer解碼器相同。不同之處在于,如果解碼的時候碰到了具有依存信息的詞時,則將該詞周圍位置的詞隱狀態向量改為和該詞具有依存關系詞的隱狀態向量?？紤]到有些詞并沒有依存關系,因此對這些詞依然采用原來的局部注意力處理。即：

Attention=(1-p)×D_Attention+

p×L_Attention,p∈{0,1}

(12)

式中：D_Attention表示依存注意力;L_Attention表示局部注意力。

綜上,將圖卷積表示的詞向量作為基礎輸入,此為第一種注意力表示;根據高頻主題詞的信息,將傳統局部注意力適當放大,以學習到更多主題信息,此為第二種注意力表示;按照依存關系對目標詞進行更遠距離的信息學習,此為第三種注意力表示。

2 實驗與結果分析

2.1 實驗數據集

本文采用文本摘要研究領域較為通用的數據集,即NLPCC2017任務中面向今日頭條的新聞文本摘要數據集,該數據集涵蓋民事、科技、娛樂、醫學、軍事等十多個領域內的中文新聞內容,每一篇新聞文本都含有新聞對應的人工撰寫的摘要,可用于評估針對互聯網媒體網站上新聞文檔的自動摘要技術。訓練集包括文本內容和參考摘要共100 418條,測試集包括文本內容和參考摘要共4 000條。

2.2 實驗過程

首先對數據進行預處理：由于本文研究的是中長文本摘要,因此先將文本過短的新聞進行剔除,剔除后新聞數量約為10萬條;然后對文本進行分詞、去停用詞、詞性標注等工作;最后按照圖1的流程進行實驗。詞性標注的工作是為了之后的依存句法分析便于進行。

2.3 實驗結果評價指標

本論文實驗采用國際通用的摘要評價指標ROUGE,ROUGE分數用于計算生成摘要與參考摘要的詞匯重疊度。本文采用其中的ROUGE-1、ROUGE-2、ROUGE-S4。ROUGE-1和ROUGE-2分數分別表示公共詞長度為1和2的重疊度,這兩個指標直觀簡潔,能夠在一定程度上反映詞序;ROUGE-S4表示詞間最大距離為4,比n-gram模型更能深入反映句子級詞序。

2.4 實驗環境及參數設置

本實驗的環境配置和參數設置分別如表1和表2所示。

表1 實驗環境配置

表2 實驗參數設置

2.5 實驗結果分析

為了探究本文模型的優劣,選擇以下摘要模型作為基線模型,分別是經典的TextRank抽取式摘要模型(取得分最高的兩個句子組成摘要)、傳統的Transformer生成式摘要模型、羅芳等[5]提出的MDSR摘要模型、寧珊等提出的融合關鍵詞的摘要模型(下文簡稱為“關鍵詞模型”)。后兩種模型由于建立在短文本數據集上,因此直接使用本文中的主體文本作為數據集進行實驗。為了證明數據集的基準性,本文還與NLPCC2017文本摘要任務中排名靠前的NLP@WUST團隊的實驗模型[16]進行對比。該團隊使用基于句子抽取的特征工程來獲得抽取式摘要,并通過句子壓縮算法進一步提高摘要質量。另外,針對本文的多層注意力表示,設置多個消融分析實驗,觀察其中各層注意力的效果。

2.5.1本文模型與基線模型對比實驗

通過在NLPCC 2017文本摘要集上對各模型進行復現實驗,得到五個基線模型與本文模型的ROUGE分數,具體如表3所示。

表3 各模型結果對比實驗結果(%)

為了更直觀地觀察分析結果,將該表數據繪制為如圖7所示的折線統計圖。

圖7 各模型對比實驗結果圖

可以看出,本文提出的融合多層注意力表示的文本摘要方法在各項指標上均有提升。與經典的TextRank算法模型和傳統的Transformer序列模型相比較,本文模型效果有了一倍多的提升,分析原因可知,本文提出的多層注意力表示已經將TextRank算法的思想、傳統的Transformer模型涵蓋在內,并且在其上有了更大的改進,因此會有一個很大的提升。與MDSR模型、關鍵詞模型相比較,本文模型的ROUGE-S4分數分別增加了3.95百分點和1.50百分點,原因在于本文模型在照顧到高頻主題詞的基礎上,不僅增加了句法結構方面的知識和相關的遠距離注意力跳轉,還對相鄰詞句進行了更高層次的圖卷積表示,極大地豐富了詞向量的表征。NLP@WUST團隊的模型ROUGE-2分數為22.53%,是所有實驗中最高的,但是ROUGE-S4分數比本文模型低2.42百分點,分析原因可知該團隊的模型用特征工程的方法,結合多種詞句特征在原文中選擇出具有代表性的詞匯,但是并沒有對長距離詞句關系進行探究,因此呈現出詞匯共現度高但是句子級詞序描述不足的結果。綜上所述,本文提出的方法可以被證明對文本摘要具有可行性,且能達到較好的效果。

2.5.2本文模型各層注意力消融分析實驗

為了探究本文方法中各層注意力表示的效果,設置以下消融分析實驗。以傳統的Transformer序列模型作為對照,分別以GCN、依存詞、主題詞三種注意力表示、三者之間兩兩結合以及最后三者綜合起來進行對比分析,得到如圖8所示的條形統計圖(為了方便對比,去掉了解釋性最差的ROUGE-1分數)。

圖8 各注意力消融分析結果圖

由圖8看出,在第二至第四組實驗中,GCN加Transformer的表現最好,其ROUGE-2、ROUGE-S4分數比依存詞加Transformer分別高了約3百分點和2百分點,比主題詞加Transformer分別高了約4百分點和2.5百分點;在第五至第七組實驗中,GCN加依存詞和Transformer的ROUGE得分最高,分別比其他兩組的得分高了約2百分點、4百分點。這表明,同數量層的注意力表示中,包含圖卷積GCN表示的實驗效果是最佳的,其次是依存詞,最后是主題詞。分析原因可以知道,實驗中先做的是圖卷積表示,每個詞向量都學習到大量周圍詞以及相鄰句子的知識,而依存詞和主題詞分別在其基礎上進行優化改進,且主題詞是在輔助文本中挖掘得到,主體文本中已經包含了許多主題相關的關鍵詞,因此對實驗的積極影響都相對較小。

2.6 典型示例說明

為了更加具象化實驗數據的解釋性,實驗還選取了數據集中的一條新聞樣本在各個模型下生成的摘要進行對比說明。如表4所示,其中包括文本內容、參考摘要、對比實驗的摘要以及本文模型的摘要。

表4 各模型生成的摘要示例

可以看出,TextRank、MDSR、NLP@WUST的結果屬于抽取式摘要,而Transformer、關鍵詞模型、本文模型的結果屬于生成式摘要。TextRank和MDSR的摘要可讀性較差,前者直接抓取了文本的前兩句內容,后者則僅生成了關鍵詞的集合;Transformer和關鍵詞模型的摘要大意和參考摘要貼合,但是句式結構糅雜,部分語義模糊的問題很明顯;而NLP@WUST團隊模型的摘要缺少主語。本文模型利用圖卷積和依存關系解決了長距離依賴和句式結構的問題,并且通過挖掘高頻主題詞使得摘要進一步貼合主題,所以生成了可讀性更好、表意完整、句式結構嚴謹的摘要。

3 結語

本文針對傳統的文本序列模型向量表征不全面,且融合句法結構信息方面稍顯欠佳的問題,提出了一種融合多種注意力表示的文本摘要方法。本方法適用于中長文本數據集,首先通過抽取式摘要技術將文本分割為主體文本和輔助文本,然后利用圖卷積網絡、依存句法分析和高頻主題詞得到融合后的注意力表示,最后將其送入Transformer序列模型中,得到文本摘要。實驗結果相較于經典的算法模型和目前的幾個研究更優,下一步的工作是研究如何融合更多更復雜的句法結構,且巧妙地改進注意力模型來獲得質量更高的文本摘要。