?

用戶評論與產品銷售量的相關性研究

2020-11-16 22:34李躍武梁凱
關鍵詞:線性回歸聚類分析

李躍武 梁凱

摘要:通過LSTM模型和Word2Vec對數據進行預處理以及量化評論,可以獲得客戶對產品偏愛程度的相關信息。建立了視覺監控模型來及時監視客戶的評論,通過聚類分析,來確定產品的評分預警點。研究結果發現:對于微波爐產品,評分、評論和幫助等級與產品評論數量有很大的相關性。對于吹風機、嬰兒奶嘴、微波爐的評分預警點分別為1、2、2。

關鍵詞:LTSM;線性回歸;SPSS;聚類分析

文本的情感傾向性分析,即針對每一條文本,實現正向、中性和負向的三分類,以識別其情感傾向。以此為基礎,去建立視覺監控模型,處理評分評定和評論文字情感傾向性問題。通過分析之前的數據來檢測數據預警點。

1 基于LSTM模型的數據處理

1.1 數據處理流程

首先,歸納具有相同product_parent類型的案例,即具有相同product_parent特征的案例總數,獲取CNT_PP作為因變量。然后,使用LSTM長期和短期存儲網絡處理獨立變量審閱標題和審閱主體中的現有文本。利用LSTM模型,訓練了一個文本分類器,它可以識別三種情緒:積極,中立和消極。

具體流程如下:

(1)進行句子的特征提取。利用多維向量解決單詞的多向散度。為了解決高維向量的變化范圍,使用word2vec模型來擬合實際文本評估。

(2)完成單詞分類并轉換為高維向量后,通過建立遞歸神經網絡,將矩陣形式的輸入編碼轉換為低維一維向量,同時保留最有用的信息。

(3)經過上述處理后,評論文本被重新定義為否定/肯定評論,并對處理后的注釋進行情感評分。(負分+正分=1),得分示例表1所示。

(4)對三種產品的評估得分進行分級([0,0.2],(0.2,0.4],(0.4,0.6],(0.6,0.8],(0.8,1.0)),并計算頻率。

1.2 數據處理分析

對自變量進行分類,計算平均值并將其視為一個。

首先,將position_probs的值分為五個級別,每個級別的間隔為0.2。數字越大,position_probs的值越高。幫助等級的價值分為五個等級,每等級間隔為100,分別用數字表示。數值越大,幫助等級的數值越大。

接下來,計算上述處理后的每個product_parent的評分評分,有用票數和positive_probs的平均值,并將其標準化。

2 線性回歸模型的建立和求解

2.1 模型建立

本次線性回歸模型僅以微波爐產品為例,來分析產品的評分,評論和有用評分與產品受歡迎程度之間的相關性,使用線性回歸模型解決了該問題。首先,建立線性回歸方程:

2.2 模型求解

根據分析,R值大于90%,R平方和經調整后大于80%。在此分析中,D-W殘留測試的值為2.212。參考Durbin Watson表并結合R的相關值,可以認為該回歸模型的擬合效果非常好。通過分析,可以看出方差分析的顯著值為0.00,小于標準值0.05,說明自變量Star_avg_01,positive_avg_01,Helpful_avg_01和因變量Cnt_pp之間具有顯著的線性關系。同時,我們得到線性回歸方程中的相關系數,α=1.807,β=-23.164,γ=337.313,θ=26.346。

通過分析,殘差的分布沒有明顯的規律性,表明變量之間沒有自相關,因此可以直接使用回歸模型。從以上分析可以看出,對于微波爐產品,評分,評論和幫助等級與產品評論數量有很大的相關性。

3 檢測模型的建立與求解

3.1 模型準備

(1)數據處理

在評價文本分析的過程中,情感分析和量化也是基于LSTM模型而進行的,這里不再贅述。獲得每個評估的情感分數后,將其記錄為正值。

(2)模型的基礎

我們的可視化模型側重于評分和評論文字情感傾向性的數據測量。通過對先前數據的分析,我們可以得到數據預警點進行預警。我們的預警點是確定閾。當測得的數據低于預警點時,公司應注意持續關注,并采取一定措施,避免輿論失控等嚴重事故對產品銷售的不利影響。

接下來,我們將為三種產品(吹風機,微波爐和奶嘴)建立數據測量方法和相應的警告點。

3.2 模型建立

假設每個評論分布在接下來的十個評論中。換句話說,假設s評論的有效性僅在S+1到S+10評論中起作用。為了便于數據處理,最后的十個評論首先被刪除,然后進行預測。

(1)評分預警點的建立

為了確定預警點,首先選擇每個評論文本的評分(記錄為評分)和此文本之后的10個評分的平均值(記錄為影響評分),然后對這些數據進行無監督的聚類處理。

完成上述步驟后,我們將使用它們的真實數據對三個產品進行建模,并獲得數據的聚類結果。

將十個評論之后的每個評論平均值的評分評定值導入SPSS中,以進行KNN無監督聚類分析。分析之后,可獲得以下兩個聚類中心:(5,4.1)和(2,3.8)。將這個聚類結果與日常生活相聯系,可以將2和5作為警告點,分別表示評分的低級警告點和評分的高級警告點。對于微波爐來說,通過相同的分析步驟以及在相同的聚類分析操作之后,兩個聚類中心分別為(4,3.7)和(1,3.3)。將兩個值分別作為高級別警告點和低級別警告點。對于嬰兒奶嘴來說,兩個聚類中心分別為(4.8,4.3)和(2.0,4.3)。將兩個值分別作為高級別警告點和低級別警告點。

(2)文本評論預警點的建立

為了確定預警點,在此選擇了每個文本注釋的情感極值(記錄為評分)和此文本后的10個評分情感極值的平均值(記錄為影響等級),并選擇了這些數據由無監督的群集處理。

因此,評論通常具有三個區別:正面,負面和中立。因此,在處理該實驗時,我們選擇將實驗數據匯總為三類。

在KNN無監督聚類分析之后,吹風機的相關數據可以獲得三個聚類中心:(0.93,0.83)(0.66,0.77)(0.35,0.55)。在這里,將0.93和0.35視為高警告點和低警告點。對于微波爐,我們采用相同的分析方法,在KNN無監督聚類分析之后,可以獲得三個聚類中心,分別為(0.91,0.83)(0.58,0.73)(0.00,0.002)。在此,將0.91和0.00分別視為高警告點和低警告點。對于嬰兒奶嘴,三個聚類中心分別為(0.93,0.88)(0.66,0.76)(0.38,0.72)。在這里,將0.93和0.38視為高警告點和低警告點。

3.3 建模結果

通過聚類分析模型對上述數據進行處理后,可以建立基于評分和輿論分析的實時檢測模型。

實時監控模型的機制是檢測評分和情緒極性的當前趨勢,并以視覺形式顯示出來,以便及時監控購物評價,實現評論文本的高頻有效詞匯云顯示。在視覺檢測系統中,我們使用正面和負面的詞云來顯示評論文本,并檢測負面/正面/中性評論的數量和輿論的總體變化趨勢,實時銷售和其他參數作為數據測量手段,向制造商提供信息。圖1是一個示例(以吹風機的銷售為例,并假設時間是最后一次售出吹風機)。

4 總結

本文通過LSTM模型實現了用戶評價文本的三種分類和量化,并以此為基礎,建立了關于評分、評論和有用評分與產品受歡迎程度之間的線性回歸模型,證明了產品的銷量與其評分、評論和有用評分有很強的相關性。

在量化評論的基礎上,本文提出了可視化檢測模型,通過聚類分析,求得了三種產品的預警點;通過對吹風機的模擬來看,也取得了很好的效果。

參考文獻:

[1] 王坤亮. 漢語情感傾向自動分類方法的研究[J]. 軟件, 2013, 34(11): 73-76.

[2] 姚天昉, 程希文, 徐飛玉, 等. 文本意見挖掘綜述[J]. 中文信息學報, 2008, 22(3): 71-80.

作者簡介:李躍武(1999-10),漢,男,山東聊城,本科在讀,研究方向:用戶評論與產品銷售量的相關性研究。

猜你喜歡
線性回歸聚類分析
國道公路養護管理與規劃研究
農村居民家庭人均生活消費支出分析
基于省會城市經濟發展程度的實證分析
基于聚類分析的互聯網廣告投放研究
“縣級供電企業生產經營統計一套”表輔助決策模式研究
企業退休金收支平衡的研究
企業退休金收支平衡的模型分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合