?

虛假評論特征提取檢測技術研究

2023-10-31 09:39張锏予
智能計算機與應用 2023年10期
關鍵詞:評論者特征提取分類器

張锏予

(沈陽理工大學 信息科學與工程學院, 沈陽 110158)

0 引 言

隨著電子商務與互聯網技術的迅猛發展,消費者的消費方式也從傳統的線下消費轉移到了線上購物。 而消費者為選擇合適的商品,會參考商品的用戶評論信息。 消費者判斷相關商家的誠信度和商品質量的好壞會受到虛假評論的影響,這些虛假的評論信息會誘導消費者對一些不符合實際的商家服務、商品價值、商品質量等進行選擇,嚴重干擾了消費者的購物選擇,擾亂了網絡電商的運營。

針對網上購物場景中的虛假評論,本文采用評論特征提取檢測技術,確定虛假評論中的標識文本內容,將虛假評論與其他真實評論區分開。 隨著機器學習的應用與發展,虛假評論特征提取檢測技術的發展與日俱進[1]。 但由于虛假評論是由商家或企業利用大量水軍發布的,而水軍可以通過多個賬號進行評價,留下的痕跡難以捕捉,目前沒有先進的技術可用于檢測這些虛假評論,所以高精確率、低成本要求、方便客戶操作和有效篩選的虛假評論特征提取技術的研究是未來的重點研究方向。

1 相關工作

虛假信息泛濫,品牌誠信對建立消費者信任至關重要,置信度有可能直接轉化為利潤。 檢測過濾出虛假評論,對于確保在線評論反饋系統的完整性、可靠性至關重要。 目前主要有2 種解決方法:一種是基于傳統方法的特征提取檢測;另一種是基于深度學習的特征提取檢測方法。

1.1 基于傳統方法的特征提取

基于傳統的提取評論方法是根據事實情況,手動的核對虛假信息中的虛假內容及觀點,通過將信息表達與核實的真實表達比較,判斷評論信息的準確度。 而手動核對虛假信息又可分為兩種方式,一種是基于專家的手動核查,通過對評論的整段評價,對詳述內容的可靠性評級,對詞句、語法的正確表達進行篩選、評價,保證評論提取的準確率,但是當評論檢測數量激增時,準確性會大打折扣;另一種是眾包的方法,利用群眾的數量優勢對評論進行提取篩查,可以獲得較低的成本付出,但是人工方法檢測虛假評論的精度僅為57%,評論提取的準確率不高是尚未解決的問題[2]。

1.2 基于深度學習的特征提取

隨著深度學習算法的不斷發展,深度學習算法也應用在特征提取領域[3]。 卷積神經網絡(CNN)被應用在矩陣分解模型中,通過從評論中提取需要的特征量,對評論進行評分預測,并通過概率矩陣分解達到特征提取的效果,但模型無法驗證評論特征的重要程度。 Trans-Nets[4]通過拓展,構建了基于并行神經網絡的Deep-Conn 雙塔結構模型,將隱藏層的引入作為評論描述和商品實際特點的轉化;而D-ATTN(Dual Attention model)模型以及NARRE(Neural Attentional Regression model with Reviewlevel Explanations)模型在Deep-Conn 模型的基礎上引入注意力機制,可以輕松的抓到評論文本中的中的關鍵要素及信息[5-6];DAML 模型集成了交互注意力機制,在捕獲用戶和商品特征后,展現用戶和特征評論的關聯,特征交互由神經因子分解機完成[7]。

1.3 基于機器學習的特征提取

基于機器學習提取特征包含4 個部分,分別是:基于文本內容重復評論提取特征;基于評論人屬性與行為提取特征;基于評論主觀性的特征提??;基于特征融合的方法。

1.3.1 基于文本內容重復評論提取特征

對于大部分發布虛假評論的用戶而言,不論評論的是同類型商品還是不同類型商品,虛假評價內容都具有極高相似度[8]。 當某些評論里的內容和語言表達出現一定程度的相似或覆蓋時,就可將相似的部分作為特征提取的訓練集,對訓練集進行虛假評論特征提取訓練。

1.3.2 基于評論人屬性與行為提取特征

Hussain 開發了一個評論圖來捕捉評論、評論者和商店之間的互動,評論的真實性是可以計算的,但這種方法沒有使用任何評論文本信息[9]。 相比之下,Wang[10]提出的方法僅基于文本特征,研究了幾個特征類別對垃圾評論識別的影響,包括打分時間、內容、情感、產品或個人資料特征。

1.3.3 基于評論主觀性的特征提取

從評論主觀性角度分析,需要引入情感特征。如果評論中的表達顯得過于吹捧或者詆毀,則很可能是虛假的無意義評論,因此可以通過情感分析體現評論內容的主觀性和褒貶性。 在現有研究中,一般利用情感詞匯的極性對文本的情感傾向進行評價,目前主要有利用情感詞數或利用情感詞典計算情感強度的加權得分兩種度量方法。

1.3.4 基于特征融合的方法

在檢測虛假評論時,不僅需要提取關于評論內容的特征,還需要提取其他特征,如評論者信息、評論者關注數量、收藏商品等來輔助檢測。

2 多機器學習分類器比較

由于虛假評論與真實評論特征散亂,欺詐隱蔽性較強,無明顯分布區分度,故而需要借助多種機器學習算法,進行有監督檢測學習。 當前使用較多的機器學習分類器包括K 鄰近(KNN)、支持向量機(SVM)、樸素貝葉斯(NB)、決策樹(DT)等等。

2.1 K 鄰近(KNN)

K 鄰近算法分類是測量文本特征中不同特征值互相的距離。 假設特征空間中樣本的K個最鄰近的都同屬一種類型,那么在特征空間中的這個樣本也屬于這個類型。 KNN 算法具有很多優點,操作簡單、理論清晰且無需參數支持等。 在多種分類要求的問題上,KNN 可提供更高的效率及準確度,但是KNN 算法對樣本數量的要求較高,需要使用很大的算力,內存消耗大。

2.2 支持向量機(SVM)

支持向量機通過給定系統的訓練樣本集,使得系統在訓練樣本集中找到無數個超平面,區分不同類型的樣本。 通過超平面做分類的支持向量機無需將樣本集中的所有樣本進行計算,可以提高運算效率,節省內存。 支持向量機的缺點是在計算時需要將一些沒有規章且維度較低的數據,在核函數的映射下,映射到高維空間,且使用超平面將樣本區分,較為復雜。

2.3 樸素貝葉斯(NB)

樸素貝葉斯算法是貝葉斯公式和條件獨立假設方法的結合應用。 當文本中的某些特征項不能通過直接統計獲得,則可以使用概率公式進行轉換,通過加強的假設,將概率進行乘法運算,從而得到對應的屬性概率。

樸素貝葉斯算法可以設置先驗概率,通過一系列簡單的數學計算就可以實現,大大節省了內存和運算時間,缺點是僅適用于文本樣本,且樣本特征相互獨立。

2.4 決策樹(DT)

決策樹是一種基本的機器學習模型,可以用樹形圖表示的樹結構,以此表示各個屬性與其對象值之間的映射關系。 在決策樹的整體結構中,每個葉節點代表一個待預測的標簽類型,每個內部節點對應于一個屬性,如果某些節點具有與之相對應的屬性,則二者之間可能存在分支。 針對提取的特征應用決策樹進行預測,通過遞歸分割過程,直至實現所有的子集包含一樣的目標量,但決策樹算法在訓練過程中時間成本較高。

2.5 融合分類器(LGB)

輕量級梯度提升分類器LGB 在不損害準確率的條件下加快GBDT 模型的訓練速度,且占用內存更少,主要目的是利用弱分類器(決策樹)迭代訓練以得到最優模型,廣泛應用于分類、預測等領域。

3 實驗驗證與結果分析

3.1 數據集

本文使用公開可用的Yelp 數據集,該數據集應用廣泛且聲譽良好,采用Yelpzip 子集進行實驗。 該數據集中86.78%的數據被標記為真實評論,13.22%為虛假評論,顯然非常不平衡。 因此,在建立相應的分類模型之前,采用下采樣算法平衡數據集,減少分類器的識別誤差。 這種方法優點是減少數據中的噪聲點,避免過擬合,缺點是減少了可學習的數據量。

3.2 實驗特征提取

Salminen J[11]分析得出在虛假評論檢測任務中,行為特征比單一文本特征更加有效。 故本文選用基于特征融合的方法提取Yelp 酒店和餐廳領域中行為和文本特征,并分析其有效性。

(1)活躍時間窗(AW):虛假評論者很可能在短時間內進行評論,通常不是長期活躍的成員。 將該評論者的最后一次和第一次評論的時間戳之差作為活動窗口,檢測每一位評論者在指定時間窗內的活躍度。 大多數的虛假評論者的活躍時間為2 個月,而真實評論者的活躍時間少于10 個月。

(2)最大評論數(MNR):表示一天內的最大評論數。 在數據中,約三分之一的虛假評論人在一天內發布了所有的評論,大部分的虛假評論人每天寫6 條或更多的評論,而真實評論者的日評論率非常適中。

(3)評論計數(RC):表示評論者的評論數量。大多數的虛假評論者發布評論數量在11 條之內,而半數的真實評論者評論數量超過40 條。 虛假評論者和真實評論者評論數量有明顯的區分。

(4)正面評價百分比(PR):正面評價(高于3分)占全部評價的百分比越高越可疑。 大多數的虛假評論者的目標是提升企業口碑,正面評級較多。而在現實生活中,由于評價標準不同,真實評論者的評級表現出均衡的分布趨勢,不同范圍的評論者擁有不同比例的正面評論。

(5)評論長度(RL):大多數虛假評論的平均評論長度限制在135 個單詞以內,而大多數真實用戶的平均評論字符長度高于200 個字符。

(6)評論人偏差(RD):虛假評論者偏離一般消費者評級共識的數量。 為了測量評論者的偏差,首先計算一個評論人與同一產品的其他評論人之間的絕對評分偏差;其次,取其所有評論的所有評級偏差的平均值,計算該評論者的平均偏差。 在滿分為5的尺度上,偏差可以從0 ~4。 大多數真實評論人在五星尺度上的絕對偏差為0.6,這表明真實評論人與其他真實評論人對產品有評級共識,而大多數虛假評論者與真實評論者的評級偏差較大。

(7)最大內容相似度(MCS):即同一評論者的任意兩條評論內容的余弦相似度。 大多數真實評論人在評論中幾乎沒有相似度(以0.16 余弦相似度為界);而大多數的虛假評論者在評論中有較高相似度。

通過融合上述7 種互不相關的有效特征,可提高虛假評論檢測水平。 信息融合越全面,特征提取效率越高。

3.3 實驗結果分析

由于消費者在消費前習慣于參考平臺的最新消費評價信息,使得虛假評論往往在某一時間窗內呈爆發趨勢。 選取Yelpzip 子集近兩年的評論數據,并隨機選取其中80%數據集作為訓練集,其余作為測試集,采用交叉驗證法,比較不同分類模型的預測性能優劣,分類結果見表1。 從召回率來看,LGB 模型是檢測效果最佳的模型。

表1 交叉驗證機器學習模型分類結果Tab.1 Classification results of different machine learning models%

AUC(Area Under the Curve of ROC)是評估分類器性能的主流數值指標,能夠很好地平衡使用不同概率閾值的預測模型的真陽性率和假陽性率,所以針對嚴重不均衡的評論數據集,往往將高AUC值作為預測性能的首要評價指標。 將下采樣法應用于Yelp 數據集,機器學習模型分類結果見表2。 各個分類器模型的AUC值均有所提高,LGB 模型增長最為顯著,證實了基于分類器融合的有監督方法在虛假評論檢測中具有較好效果,但需要在召回率和精度之間做出權衡。 此外,單純基于文本重復、評論人行為和評論主觀屬性中一方面進行特征提取的檢測效果遠低于多特征融合特征提取。 因此,虛假評論檢測精度與互不重疊的有效文本特征數呈正相關。

表2 下采樣后機器學習模型分類結果Tab.2 Classification results after downsampling %

4 結束語

本文針對Yelp 數據集中的已標注虛假評論,提取虛假評論的文本特征和行為特征,運用多種機器學習比較融合的方法,對虛假評論進行有監督機器學習分類。 實驗結果表明,Yelpzip 數據集極不均衡且虛假評論特征隱蔽性強,有監督方法在虛假評論檢測中具有一定效果;提出利用下采樣法在分類檢測過程中平衡檢測精度和召回率;有監督方法在實際應用中取得了較好效果,也可為下一步設計基于在線虛假評論特征自動提取檢測技術方法提供參考。

猜你喜歡
評論者特征提取分類器
人工智能技術的電子商務虛假評論者檢測
基于D-S證據理論的電子商務虛假評論者檢測
基于Daubechies(dbN)的飛行器音頻特征提取
BP-GA光照分類器在車道線識別中的應用
Bagging RCSP腦電特征提取算法
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于情感特征和用戶關系的虛假評論者的識別
基于評論關系圖的垃圾評論者檢測研究
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合