?

案件要素句子關聯圖卷積的案件輿情摘要方法*

2021-02-25 12:16韓鵬宇余正濤高盛祥黃于欣郭軍軍
軟件學報 2021年12期
關鍵詞:文檔輿情卷積

韓鵬宇,余正濤,高盛祥,黃于欣,郭軍軍

1(昆明理工大學 信息工程與自動化學院,云南 昆明 650504)

2(云南省人工智能重點實驗室(昆明理工大學),云南 昆明 650504)

案件輿情是指與案件相關的互聯網輿情,與一般的新聞輿情相比,案件輿情具有敏感性、特殊性,有著更大的社會影響.案件輿情摘要能夠從案件相關新聞文本中摘取重要信息,從而簡化新聞文本長度,幫助用戶在大量的輿情數據中獲取輿情事件的關鍵信息,對于案件輿情的監控與及時處理有著重要的作用.

案件輿情摘要本質上是一種特定領域的多文檔摘要任務,在多文檔摘要的研究中,關鍵問題是對句子的重要性進行評價,并以此抽取摘要句子.傳統方法有基于統計的摘要方法[1-4]、基于主題模型的摘要方法[5-7]和基于圖的摘要方法[8-11]等.基于統計的方法一般通過詞頻、句子位置、句子相似度等這類特征來評價句子的重要程度,然后通過一定的策略選取重要句子得到摘要,其中具有代表性的方法有基于詞頻-逆文檔頻率(TF-IDF)的統計方法[1].Hong 等人[4]提出了一種簡單的多文檔摘要方法,用詞的概率作為輸入,然后選擇平均詞概率較高的句子作為摘要.基于主題模型的方法一般采用狄利克雷分布(LDA)的方法得到文本簇中預設數量的主題,然后采用不同的算法計算句子和主題的相似度來得到摘要句.例如:劉娜等人[6]引入主題重要性的概念,將LDA 建立的主題分成重要和非重要兩類,并使用詞頻、位置等統計特征和LDA 特征一起計算句子權重;吳仁守等人[7]提出一種方法將新聞事件劃分為多個不同的子主題,在考慮時間演化的基礎上同時考慮子主題之間的主題演化,最后將新聞標題作為摘要輸出.還有很多研究者提出了一些基于圖的方法[8-11],將文本表征成一張圖,圖中使用句子或其他單元作為頂點,用邊連接兩個有相似性或者關聯關系的頂點,使用各種方法計算句子相似度或關聯關系來構建邊.典型的有Mani 等人在1997 年最早使用圖模型進行多文檔摘要任務的研究[8].Mihalcea 等人在基于PageRank 算法的基礎上,提出了一種基于圖排序的TextRank 模型[9].Li 等人[10]利用主題和句子之間的關系,將主題模型集成到圖排序中.Yasunaga 等人[11]提出一種圖卷積的多文檔摘要方法,統計句子中出現的動名詞組合數、位置信息等特征來進行構圖,然后用圖卷積的方法對句子進行分類.

基于統計的摘要方法雖然實現簡單且有一定效果,但對于句子的打分一般都是比較孤立的,忽略了文本結構信息、尤其是句子與句子之間的關聯關系.基于主題模型的方法一般針對沒有特定主題的多文檔摘要任務,不適合主題明確的案件輿情摘要.基于圖的方法雖然可以較好地表征句子間的關聯關系,但構圖方法一般是通用方法,不涉及特定要素或關鍵詞之間的關聯關系.

以上方法無論是基于統計、主題模型和圖模型的,多是通用領域的無監督多文檔摘要方法.針對案件輿情這一特定領域問題,需要更好地考慮案件主題的相關信息以及跨文檔句子之間的關聯關系.同一案件相關的多篇新聞文本構成一個文本簇,具有與特定案件相關的主題,這一主題可以通過一些案件要素來進行表征.如表1所示,在“奔馳女車主維權案”中,案發地、涉案主體、案件描述:“西安、奔馳4s 店、女車主、利之星、發動機漏油、消費者維權”等關鍵詞就是該案件的案件要素,代表其主題信息.可以看出:這些案件要素貫穿于多篇新聞文本,共現于和案件主題相關的句子當中,并且集中出現在參考摘要中,對于句子關系的表征和摘要生成的準確性都有著重要的作用.又因為句子都是詞的集合,因此在抽取句子形成摘要的過程中,需考慮異構的句子關聯圖特征:借鑒基于統計的方法,引入詞節點來得到句子的特征表示,借助案件要素節點來加強與案件主題相關的句子間的關聯關系,然后再學習這些關系來對句子的重要性進行評價.在如何對圖進行學習方面,借鑒Yao 等人提出的一種基于圖卷積的文本分類方法[12]使用兩層圖卷積神經網絡來對圖中節點的特征進行學習,可以很好地學習到圖中的結構信息.針對以上分析,本文探索在句子關聯圖中用詞節點和案件要素節點強化句子間關聯關系的表征,研究使用圖卷積的方法預測句子的得分,然后經過去重和重排序進而得到摘要.

本文的主要貢獻總結如下:

1) 提出在案件輿情領域進行多文檔摘要的研究探索,創新性地引入案件要素信息來指導摘要句的抽取;

2) 提出一種基于案件要素句子關聯圖卷積的摘要模型,融入案件要素節點、詞節點,并構造異構圖來對文本簇進行建模,有效利用了文本語義特征、句子與案件要素之間的關聯關系等特征;

3) 與多種多文檔摘要方法進行比較評估,在收集的案件輿情摘要數據集上進行了實驗,驗證了本文方法的有效性.

Table 1 Case analysis of case-related public opinion表1 案件輿情實例分析

1 模型結構

本文提出一種基于圖卷積的案件輿情摘要方法,融合句子、詞和案件要素共同構建跨文檔的句子關聯圖,再用圖卷積的方法得到每個句子的重要性得分,經過去重和重排序得到文本摘要.模型部分參考了Yao 等人2019 年在文本分類領域有關圖卷積的相關工作[12],將其應用于多文檔摘要領域,并進行了改進,具體結構如圖1所示(圖中展示了一個案件對應的文本簇的核心處理過程,圓角矩形節點表示句子,矩形節點表示詞,菱形節點表示案件要素,圓形節點表示句子的分類),其中,S1.2表示第1 個文本中的第2 個句子,W表示詞,C表示案件要素.

Fig.1 Case-related public opinion summarization method based on graph convolution of sentence association graph with case elements圖1 基于案件要素句子關聯圖卷積的案件輿情摘要模型

模型包括3 個主要部分,分別是融合案件要素的句子關聯圖模塊、基于圖卷積的句子分類模塊、摘要生成模塊.下面分別對以上部分進行介紹.

2 融合案件要素的句子關聯圖構建方法

2.1 案件要素

案件輿情文本摘要可以看作特定領域的摘要問題,同一案件相關的多篇新聞構成一個文本簇,這些文本具有相同的案件相關信息.通過對案件本身和新聞輿情的特點進行分析,定義了一些案件要素來表征案件的主題信息,包括“案件名、案發地、涉案人員、案件描述”這4 個要素作為案件要素,具體實例見表2.

Table 2 Case elements表2 案件要素表

表2 中以南京摩托車飆車案為例,“案發地”包括案發的城市地區和案發的具體場所,例如“江蘇、南京、高速公路”等.“涉案主體”不僅僅局限于受害人、嫌疑人和其代稱,還包括關鍵證人,相關家屬等所有與案件相關人員.“案件描述”是指發生的是什么事情以及一些其他案件關鍵詞,例如“飆車、危險駕駛”等.通過對每一個案件構建一組案件要素,來表征案件相關信息.共構建了50 組案件要素.

2.2 關聯圖構建方法

本節引入詞節點來得到句子的特征表示、句子間的關聯關系,借助案件要素節點來加強與案件主題相關的句子間的關聯關系.使用詞頻-逆文檔頻率(TF-IDF)、互信息(PMI)、同屬關系、包含關系等方法來計算邊的權重,構建了一個包含句子、詞和案件要素這3 種節點的句子關聯圖:

其中,集合V表示圖中節點的集合,由3 部分構成:句子集合S、詞集合W和案件要素集合C.

? 句子集合s={s1,s2,…,sl}里共有l個句子,是不同文本簇的所有文檔經過去除特殊字符、分句、去除短句子等預處理之后的句子總和.其中,s2表示第2 個句子,l表示句子集合的大小;

? 詞集合w={w1,w2,…,wm}是對所有文本簇使用jieba 分詞工具進行分詞以及去停用詞等操作后得到的詞表,其中,m表示詞表大小;

? 案件要素集合c={c1,c2,…,cn}共有n個案件要素,包括所有不同案件的案件要素,其中,c2表示第2 個案件要素.E表示圖中邊的集合:E={(vi,vj)|v∈V},其中,vi表征圖中第i個節點.

因為圖中有3 種節點,所以圖的鄰接矩陣A 由9 個分塊矩陣構成,見公式(3).其中,ASS表示句子和句子 節點的關系矩陣,ASW表示句子和詞節點的關系矩陣,表示句子和案件要素關系矩陣的轉置:

共有6 種邊,每種邊的定義和計算見公式(4):

其中,Aij表示第i和第j兩個節點之間邊的權值.這6 種關系的具體計算方法是:

(1) 對于句子與句子關系矩陣ASS,使用同屬關系來計算:當一個句子和另一個句子同屬于一個文本時,在它們之間連接一條邊;

(2) 對于句子與詞關系矩陣ASW:使用詞頻-逆文檔頻率(TF-IDF)的方法來計算詞節點wj和句子節點si之間邊的權重,見公式(5):

其中,si表示第i個句子節點,wj表示第j個詞節點,TF表示詞在句子中的詞頻,IDF表示詞在所有文本中出現的頻率.當一個像“的”這樣的高頻詞在所有文本中出現的頻率越多,其IDF值就越低.通過在句子和大量詞之間構建關聯關系,可以用詞來表征句子的特征,同時也在所有句子之間構建了一層關聯關系;

(3) 對于句子與案件要素關系矩陣ASC,使用包含關系來計算:當一個案件要素出現在某個句子中時,在它們之間連接一條邊;

(4) 對于詞與詞關系矩陣AWW:使用互信息(PMI)來計算兩個詞節點之間邊的權重,見公式(6):

其中,wi和wj表示第i和第j個詞節點,兩個詞的相關性越大,其PMI值也就越大.當PMI的值小于0時,表示兩個詞相關性為負,也就是互斥的,此時,兩個詞之間邊權重為0;

(5) 對于詞與案件要素關系矩陣AWC:案件要素會出現和某一個詞相同的情況,當案件要素和某一個詞恰好相同時,在它們之間連接一條權重為1 的邊;

(6) 對于案件要素與案件要素關系矩陣ACC,使用同屬關系來計算:當一個案件要素和另一個案件要素同屬一個案件時,在它們之間連接一條邊.

通過以上方法,可以構建一個融合案件要素的句子關聯圖.下一步,在此基礎上使用圖卷積的方法得到每個句子的重要性評價.

3 圖卷積層

圖卷積網絡(GCN)是一種在圖上學習的神經網絡,可以直接處理圖,并利用圖的結構信息.圖卷積網絡具有強大的學習能力,研究表明:兩層的GCN 即可以得到很好的學習效果,過多的層數可能導致節點之間更加趨同.因此,在本文實驗中也采用兩層的GCN.

在第2.2 節構造的句子關聯圖G中,節點總數size=l+m+n.因為每一個節點在進行圖卷積的時候,既要包含周圍節點的特征,又要包含自身的特征,所以每個節點還應該有一個連接到其自身的閉環,還需要將鄰接矩陣A 對角線上元素初始化為1,即Aij=1,最后構成一個大小為size×size的圖的鄰接矩陣A:

令圖的度矩陣為D,表示每一個節點和多少個其他節點相連,其中,度矩陣對角線上元素為

根據公式(7)和公式(8),可以得到可以進行圖卷積操作的規范化的矩陣:

將節點的特征矩陣X 初始化為一個和鄰接矩陣A 一樣大小的單位矩陣,相當于使用one-hot向量表示節點的特征.

在第1 層圖卷積網絡中:

其中,L(1)表示第1 層的輸出,是規范化的鄰接矩陣,X 是特征矩陣,W1是參數矩陣,激活函數使用ReLU.在第2 層圖卷積網絡中,使用softmax進行分類,如公式(11)所示:

采用交叉熵作為模型的損失函數:

其中,s是訓練集中參與計算損失的所有句子,yi表示第i個句子的標簽,表示第i個句子的預測結果.通過兩 次圖卷積操作后,可以得到每一個句子節點的分類結果,表示每一個句子的得分.

4 摘要生成

摘要句既要反映文檔的中心思想,又要具有低冗余性和一定的時序關系.通過前面的方法得到每一個句子評分之后,需要從中選取得分最高的幾個句子,對其進行去重和排序,具體流程如下所示.

(1) 對于測試集中不同的文本簇,分別進行摘要生成;

(2) 對于一個文本簇,首先選取一個得分最高的句子加入候選摘要句集合中;

(3) 然后選取下一個句子和候選摘要句集合中的每一個句子計算相似性,其值若小于相似性閾值,則將該句子加入候選摘要句集合中;

(4) 重復第(2)步的操作,直到候選摘要句集合長度超過摘要預期長度;

(5) 最后再對候選摘要句集合中的句子按照文檔的爬取順序(代表文章發表的時序)以及句子在文檔中出現的順序排序,得到最終的多文檔摘要.

5 實 驗

5.1 數據集

本文針對50 個案件,構造50 組案件要素,使用爬蟲程序從互聯網上搜集相關新聞,對數據清洗去噪,得到50個文本簇.每個文本簇包含10 篇文檔.對每個文本簇人工撰寫摘要,最終構建出案件輿情摘要數據集.見表3.

Table 3 Dataset表3 數據集

5.2 評價標準

本文采用自動摘要任務中常用的一種評價指標ROUGE 來作為介紹評價指標.ROUGE 是基于摘要中n元語法(n-gram)的共現信息來評價摘要的一種方法,包括ROUGE-1,ROUGE-2 等.ROUGE-L 和ROUGE-N 相似,是一種基于最長公共子序列的評價方法.ROUGE 值越高,說明摘要效果越好.例如,ROUGE-N 的一般計算方法見公式(13):

其中,分子表示模型輸出的摘要和參考摘要中同共現的n-gram 的個數,分母則表示參考摘要中的n-gram 個數.

5.3 實驗設置

實驗采用2 層圖卷積網絡,特征矩陣每一行使用one-hot向量來初始化,第1 層輸出的節點特征向量為200維,第2 層輸出的節點分類向量為10 維.Dropout設置為0.5,學習率設置為0.02,訓練輪次設置為400,提前截至的容忍度設置為12,摘要預期長度設置為200.

本文共設置了3 組對比實驗和1 個實例分析.

? 第1 組對比實驗對比了本文模型和10 個基準模型的性能,其中包括未融入案件要素的消融實驗:“句子+詞+GCN”;

? 第2 組對比實驗研究了不同句子分類數目對生成摘要質量的影響,設置2,5,10 和20 等4 種不同的分類數目,使用本文模型分別進行實驗;

? 第3 組實驗研究了去冗余步驟中,不同相似度計算方法對摘要的影響,其中,rouge 方法閾值設置為0.8、jaccard 方法閾值設置為0.8、tf-idf 方法閾值設置為0.8 和word2vec 方法閾值設置為0.9;

? 實例分析選取了針對“快遞員遭投訴自殺”案件的摘要實例進行對比分析.

5.4 基準模型

本文共選擇了10 個基準模型,分別在案件輿情摘要數據集上進行實驗,得到ROUGE-1,ROUGE-2 和ROUGE-L 這3 種評分.基準模型包括LEAD,Centroid,LexPageRank,TextRank,Submodular,ClusterCMRW,Query+ MR,LDA,Manifold-Ranking 和“句子+詞+GCN”,其中,部分代碼由開源工具包PKUSUMSUM 提供.

? LEAD 是一種依靠句子在文章中的位置來抽取摘要的方法,研究表明,文章中的重要信息很大概率會出現在文章開頭部分;

? Manifold-Ranking[13]是一種類似PageRank 的方法,利用流行排序進行多文檔摘要;

? Query+MR 在Manifold-ranking 模型的基礎上增加了一個案件要素集合作為查詢句,來對句子節點之間的權重進行調整,然后得到摘要;

? LDA 方法通過使用LDA 對文本簇進行主題聚類,然后尋找含有主題信息最多的句子作為摘要;

? Centroid[14]是一種基于質心的多文檔摘要方法,通過尋找中心詞最多的句子來得到摘要;

? ClusterCMRW[15]是一種基于馬爾科夫鏈和隨機游走的多文檔摘要方法,利用文檔集中句子之間的鏈接關系來生成摘要;

? Submodular[16]利用次模函數的單調遞減特性來抽取句子作為摘要;

? LexPageRank[17]和TextRank[9]都是一種基于圖的關鍵詞提取算法,將句子視為節點,通過計算圖中每個節點的得分,來選擇得分最高的幾個句子作為摘要;

? “句子+詞+GCN”表示未融入案件要素的圖卷積神經網絡方法.

5.5 實驗結果分析

第1 組實驗為了驗證本文模型的有效性,與10 個基準模型進行了對比實驗,其中,和“句子+詞+GCN”對比以驗證融入案件要素的有效性.選取ROUGE-1,ROUGE-2 和ROUGE-L 這3 種評分,實驗結果見表4.

根據表4 的實驗結果可以看出:

1) 在采用ROUGE-1 的評價方法中,本文模型和其他基準模型相比,有0.43~6.07 的提升,說明了本文模型的優越性;

2) 對比TextRank,LexPageRank 和本文模型,雖然同為基于圖的方法,但是圖卷積比這兩種方法具有顯著的效果提升,充分說明了圖卷積方法在多文檔摘要任務上的優越性;

3) 對比“Manifold-Ranking”和“Query+MR”的結果可以看出,引入案件要素作為查詢條件來指導摘要生成是有作用的;

4) 對比“句子+詞+GCN”和本文模型的ROUGE-1 和ROUGE-2,本文模型分別提升了3.37 和2.92,說明在案件輿情領域,融合案件要素構建句子關聯圖的方法是有效的,能夠很好地表征跨文檔句子之間的關聯關系,對于指導抽取出更貼近多文檔主題的摘要句有著重要作用.

Table 4 Comparison of experimental results between our model and the baselines表4 本文模型與基準模型實驗對比結果

第2 組實驗研究了使用圖卷積進行句子分類時,句子的不同分類數目對于摘要質量的影響.設置2,5,10和20 等4 種不同的句子分類數目,選取ROUGE-1,ROUGE-2 和ROUGE-L 作為評價指標,實驗結果見表5.

Table 5 Comparison experiments of different classification numbers表5 不同分類數目對比實驗

根據表5 的實驗結果可以看出:在句子分類數目為10 的時候取得的摘要效果最好,分類數目較低會略微降低摘要質量,分類數目過高會嚴重降低摘要的質量.分析可能是因為分類數目的不同導致了句子分類準確率的不同.

第3 組實驗研究了不同相似度計算方法對摘要性能的影響,分別使用rouge(0.8),jaccard(0.8),tf-idf(0.8)和word2vec(0.9)等4 種.其中,基于word2vec 使用詞向量+average pooling 來表示句子信息.選取ROUGE-1,ROUGE-2 和ROUGE-L 作為評價指標,實驗結果見表6.

Table 6 Comparison experiments of different similar computing methods表6 不同相似度計算方法對比實驗

根據表6 的實驗結果可以看出:前3 種相似度計算方法得到的結果一致.可能的原因是:在本實驗中,得分較高的幾個句子之間的差異性是比較大的,這3 種方法對句子差異性的敏感程度是相似的.Word2vec 的方法效果略好一點.

如表7 的實例分析中,從測試集中選取了“快遞員遭投訴自殺”案件,針對該案件的部分基準模型生成的摘要進行實例分析.

根據表7 可以看出:

1) 對比TextRank 和本文模型,本文結果在事件表述的完整性上有著較好的效果;

2) 對比Centroid 模型結果,本文模型摘要更加貼近文本簇的中心思想;

3) 對比“句子+詞+GCN”的結果可以看出本文模型在連貫性和可讀性上有一定的優勢.

Table 7 Example of summary comparison of “courier suicide”表7 “快遞員遭投訴自殺”案摘要對比實例

6 結束語

針對案件輿情摘要任務,本文提出一種融合案件要素關聯和句子關聯的構圖方法,有效地通過案件要素融入了案件主題信息,很好地表征了跨文檔的句子關聯關系.使用圖卷積的方法充分學習到了圖中的結構信息,抽取的摘要句和基準模型相比取得了一定的效果提升.

在下一步的工作中,擬更多地去探索上下文關系、語義關系、篇章結構關系和邏輯關系等其他關系對摘要生成的作用.

猜你喜歡
文檔輿情卷積
淺談Matlab與Word文檔的應用接口
基于3D-Winograd的快速卷積算法設計及FPGA實現
有人一聲不吭向你扔了個文檔
卷積神經網絡的分析與設計
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
消費輿情
基于RI碼計算的Word復制文檔鑒別
輿情
輿情
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合