?

基于TF-IDF和word2Vec的中文文本自動摘要模型

2023-06-24 12:39龔永罡郭遠南

中國新通信 2023年2期

關鍵詞：相似度

龔永罡?郭遠南

摘要：隨著互聯網時代的數據爆炸，在短文本信息數量迅速增長的環境下，為了更好地進行中文本摘要模型的計算，本文針對短文本的文本特征提取和相似度計算進行了深入研究。本文將優化的TF-IDF模型和Word2Vec模型結合起來，進而提出一種兼顧短文本統計特征和語義特征的合并加權Word2Vec和TF-IDF的文本特征提取算法，將文本進行向量化表示；隨后，在文本的相似度算法中，基于短文本的特征，選取了余弦相似度算法，對短文本間相似度值進行了有效計算。實驗結果表明，使用TF-IDF和Word2Vec結合模型與傳統單個模型相比，生成出的文摘準確性更高，質量更好。

關鍵詞：? 文本特征；相似度；Word2Vec；TF-IDF；余弦相似度

一、引言

隨著互聯網技術的飛速發展，人類也進入了信息海量獲得的時代，各種各樣的信息以驚人的速度呈現在我們生活的各個方面。海量信息中除了一小部分是紙質信息外，絕大部分信息來源都為數字化、移動化和網絡化的閱讀，該種信息來源帶來了與傳統閱讀習慣完全不同的模式。閱讀模式的變革對信息質量提出了更高的要求，為了滿足更好的閱讀標準和高質量的信息傳遞的要求，需要深入研究相關技術手段對于文本信息的合理壓縮，并基于壓縮的內容實現對于關鍵信息的篩選，盡最大的可能獲得文本信息中最為關鍵且有價值的內容信息。本研究為了解決上述文本信息中存在的各種問題，以中文自動文本摘要作為主要的研究對象和內容，針對新聞等短文本內容的文本摘要提取問題，設計了一個基于TF-IDF和Word2Vec的文本特征提取和相似度計算模型，并運用實際數據對模型進行驗證。

二、國內外研究綜述

國內外基于文本的自動摘取技術最早可以起源于20世紀60年代，由美國學者Luhn[2]率先提出文本自動摘取的概念，隨后借助于互聯網技術的發展，形成了自動生成和抽取式兩種文本自動摘取的形式[3]。自動生成式摘要由于在進行文本抽取的過程中對于詞語的順序不進行排序，因此存在文字不通順，對于原有文本信息的概括性較差的問題[4]；而自動抽取式文本主要通過從序列到序列的框架文本抽取，因此在進行關鍵詞和文本的抽取過程中，可以保證語句的通順，在對于文本自動摘要的過程中，通常使用自動文本抽取摘要技術[5]。

在Word2Vec模型中，分別存在 CBOW 與 Skip-Gram 模型兩種計算方法，在實際的運用中，前者可以用于文章連續的詞匯預測，而后者可以通過關鍵詞匯預測上下文，兩種算法的結合實現了對文本特征和語義的有效提取和應用，在文本摘要生成的建模和相似度計算中體現了良好的計算性能[7]。1999年，Aone通過TF-IDF算法來對文本中的關鍵詞進行提取，并用提取到的關鍵詞代表文本的主要特征，隨后使用樸素貝葉斯算法對文本中句子的概率進行了詳細計算，通過將TF-IDF算法和樸素貝葉斯算法的結合，提升了文本模型的分類效率。但是由于TF-IDF僅僅針對詞語的頻率進行了考量，并未能全面考慮特征信息在文本中的整體分布問題，因此在對于文本特征的反映并不全面，也未能反映全部的詞語含義，因此后期又有部分學者針對上述問題進行了改進，程龍等學者為了克服TF-IDF和關鍵詞提取的沖突問題，提出可卡方檢驗法，重新構建了關鍵詞的抽取系統，建立了基于文件存儲、預處理、度量值計算、排序抽取和優化輸出等全過程，對于文本特征提取的全過程進行了進一步的優化[11]。

雖然中文文本自動摘要的研究逐漸發展，并在文本特征提取、圖模型等問題中取得了豐富的研究成果，但是在對于短文本進行自動摘要還是存在諸多問題，并未能取得十分滿意的效果，因此本文通過對文本自動摘要任務的基礎研究，對短文本建模和相似度計算進行了著重研究，將TF-IDF模型和word2vec模型結合起來，進而提出一種兼顧短文本統計特征和語義特征的合并加權word2vec和TF-IDF的文本特征提取算法，將文本進行向量化表示。

三、相關算法和模型

（一）詞頻和逆文檔頻率（TF-IDF）模型和優化

TF-IDF是一種統計算法，主要用于對文本中單個詞語對于文件集或資料庫文件重要程度的評估和計算。TF-IDF的計算模型其實是詞頻和逆文檔頻率的乘積，即為TF-IDF。在該式中，詞頻表示的是指定詞匯t在特定文檔d中出現的頻率，其可以用下式表示：

（1）

上式中，ni， j表示特征詞ti在文本中dj的出現概率；表示的是文本中dj中該詞語的次數和，k代表文本中dj的總詞數。

IDF則主要指的是特征詞語的逆向文件頻率，通常由總文檔數據除以包含該詞語的文檔總數得到，主要計算公式如下：

（2）

在上式中，表示語料庫中的文檔總數，表示包含該特征詞ti的文檔數目，如果該特征詞在語料庫中未有體現，則使用? 表示。

（二） Word2Vec模型

在Word2Vec模型中，分別存在 CBOW 與 Skip-Gram 模型兩種計算方法，通過上述兩種模型的計算可以得到高質量的詞向量，Word2Vec的詞向量維度一般為100-300之間，大大減少了計算的復雜性，同時對于原有語義進行了充分獲取，計算了兩個詞匯間的相似程度。以上這兩種算法的映射的關系可以對CBOW和Skip-Gram兩種算法的訓練目標優化函數進行如下表示：

（3）

（4）

上式中C為文本庫中所有的詞語，k為wt上下文窗口大小。

四、文本特征提取和相似度計算

（一）文本特征提取

本研究在對短文本特征的提取過程中采用了優化后的TF-IDF和Word2Vec相結合的算法，該特征提取的主要步驟如下。首先，需要對短文本集進行預處理，將文本中無關的內容進行刪除，隨后對其文本進行分詞后，去除停用詞。隨后，利用對于相關短文本中的語料訓練Word2Vec，初步得到詞的向量化表示。根據文本中dj出現的詞，將其進行向量累加，最終得到短文本向量即V（dj ）。特征詞匯t的Word2Vec的詞向量表示則為W2V（t）。因此，可以得到如下表達式：

第三步，將通過上文中的優化后的TF-IDF算法中計算得到的詞權重與上文中Word2Vec的詞向量相乘，即可得到融合后的加權文檔向量Weighted_V（dj ），可表示為：

（5）

最后，需要將上述加權后的Word2Vec模型和TF-IDF模型進行進一步的結合。首先將Weighted_V（dj ）和進行了標準化，同時引入了平衡參數，α [0，1]因此，得到了結合后的新的文本向量U（dj ），其可以進一步表示如下：

（6）

（二）相似度計算模型

本研究選用了余弦相似度的距離計算方法，假設有向量χ＝（χ1，χ2，…，χn）以及y＝（y1，y2，…，yn），則向量間的余弦距離的具體計算公式如下：

（7）

基于上文中的公式，可以得出其具體計算流程如下：

五、實驗環境及結果

（一）實驗環境

操作系統：Windows 10? 64位中文版

CPU：Intel（R） Core（TM） i7

內存：16G

GPU：RTX 2060。

數據來源：新浪微博開放平臺。

（二）實驗結果

本次實驗計算ROUGE-1和ROUGE-2兩個評價指標，評價所需人工文本摘要由兩人同時給出，最后計算綜合共現率。人工評價方法則人工按照文摘的評價標準對生成的文摘打分，從句子的連貫性、邏輯性、符合主題等幾個方面打分，分數為0至5分。選取十篇相同主題的中文文章進行實驗。

實驗結果表明，將TF-IDF和Word2Vec結合應用到中文自動摘要中，文摘效果得到了顯著的提升，且提升了整個文摘生成的效率。

六、結束語

本文根據短文本的特點，對短文本建模和相似度計算進行了著重研究。在建模階段，將TF-IDF模型和Word2Vec模型結合起來，進而提出一種兼顧短文本統計特征和語義特征的合并加權Word2Vec和TF-IDF的文本特征提取算法，將文本進行向量化表示。通過理論分析和實驗，本研究的模型具有較高的運算速度和準確性，為今后提升文摘質量和拓寬文摘模型的研究提供思路。

作者單位：龔永罡郭遠南北京工商大學人工智能學院

參? 考? 文? 獻

[1]黃鳴奮.后信息爆炸時代的數碼閱讀[J].福建論壇（人文社會科學版），2015（02）：59-67

[2]Luhn H P. The? automatic? creation? of? literature? abstracts[J].? IBM? Journal? of? Research and Development， 1958，15（09）： 159-165..

[3]郭紹華.網絡信息檢索技術的現狀及發展趨勢[J].黑龍江教育學院學報，2011，30（6）：200-202.

[4]馮勇，劉瑤，徐紅艷.一種基于標簽用戶模型的個性化信息檢索方法[J].小型微型計算機系統，2014，35（09）：2004-2008.

[5]王健.基于統計的Web文本自動摘要技術[J].科學導報，2016（08）：132-137.

[6]勞南新，王幫海.基于BERT的混合字詞特征中文文本摘要模型[J].計算機應用與軟件，2022（06）：039.

[7]蔡中祥，孫建偉.融合指針網絡的新聞文本摘要模型[J].小型微型計算機系統，2021，42（03）：5.

[8]符升旗，李金龍.基于分層信息過濾的生成式文本摘要模型[J].微型機與應用，2021，40（05）：62-67.

[9]龔永罡，王嘉欣，廉小親，等.基于SiameseLSTM的中文多文檔自動文摘模型[J].計算機應用與軟件，2021，38（03）：287-290，326.

[10]吳世鑫，黃德根，李玖一.基于語義對齊的生成式文本摘要研究[J].北京大學學報：自然科學版，2021，57（1）：6.

[11]程龍.基于改進TF-IDF算法的信息抽取系統設計與實現[D].北京郵電大學，2019.

猜你喜歡

改進的協同過濾推薦算法

中國新通信(2016年22期)2017-01-13

模糊Petri網在油田開發設計領域的應用研究

計算技術與自動化(2016年4期)2017-01-11

相似度算法在源程序比較中的應用

電腦知識與技術(2016年21期)2016-10-18

基于混合信任模型的協同過濾推薦算法

電腦知識與技術(2016年20期)2016-08-19

基于灰度的圖像邊緣檢測與匹配算法的研究

電腦知識與技術(2016年13期)2016-06-29

句子比較相似度的算法實現?

電腦知識與技術(2016年7期)2016-05-19

影響母線負荷預測的因素及改進措施

科技視界(2016年10期)2016-04-26

基于粗糙集的麗江房價研究

現代經濟信息(2016年3期)2016-03-24

一種基于深網的個性化信息爬取方法

電腦知識與技術(2016年2期)2016-03-22

中國新通信2023年2期

中國新通信的其它文章: “互聯網+”時代高校通識教育發展研究; 信息技術與五年制高職課程教學的深度融合; 封閉性準則視角下強人工智能體刑事主體地位之否定; 卷煙工廠主數據治理方法與實踐; 空管培訓中心培訓管理系統設計和實現; “互聯網+”環境下高校學生就業教育與管理工作研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合