□ 孫麗男 康冰冰 王 鑫 王佳惠 胡錦秀
(黑河學院 黑龍江 黑河 164300)
伴隨著互聯網技術的高速發展,線上購物已經成為人們日常生活中的主流購物方式之一,多數消費者會在各類電商平臺購物后留下一些評論,為其他消費者提供一些參考。本文將采取文本挖掘的方法分析電商助農產品的評論數據,首先采集京東電商平臺上助農產品的評論數據,然后采用中文分詞、情感傾向分析等方法對所挖掘出的文本評論數據進行分析,并對文本評論數據的情感傾向性判斷,有效、準確的從互聯網電商評論數據中分析出消費者的需求和滿意度,為電商平臺助農產品營銷提供決策支持。
伴隨著國家扶貧攻堅政策的不斷升級,助農產品越來越受到大眾的關注,許多電商平臺紛紛響應國家政策開辟助農板塊,用戶評價成為平臺運營重要的參考依據。
本文利用Python采集京東商城助農產品的評論,共抓取了105836條評論,數據抓取過程中,每個商品的評論只能顯示前100頁即每個商品只能抓取到1000條評論,同時將非結構化的文本數據轉化為可檢索的結構化數據,用表格形式儲存,如表1所示。
表1 京東平臺上采集的數據結構示意圖
采集完數據后需要先對數據進行預處理,在電商平臺評論數據中常出現的需要處理的數據有以下四種類型:
1.語句中帶有重復詞的評論。例如:“這家的蘋果真的真的真的真的太好吃了?。?!”和“差差差差差,再也不會回購了”,針對這類評論本文選擇壓縮去詞的方式處理,只從每條評論中多個重復詞中提取一個重復詞,例如“這家的蘋果真的太好吃了”和“差,再也不會回購了”。
2.商家雇傭水軍刷出的好評,此類好評的特點為,評論篇幅長,圖片數量多,當天追加大篇幅評論,同一賬號在同一商品下多次好評,這種評論我們選擇的處理方式為剔除。
3.無意義的評論,分為兩種,第一種為系統默認好評,即由于買家未在規定時間內對商品評價,導致系統給出的默認好評;第二種為由標點符號,英文字母,數字,不明語義的句子等組成的評論,這種評論我們也選擇剔除處理。
4.完全相同的評論,在評論中有時會出現兩條或多條完全相同的評論,針對這類評論采取文本去重的方法,即逐一對比評論內容,去除完全相同的評論。
在數據預處理中,剔除了大量無效評論,最終共剔除100694條評論,得到有效評論5142條,評論利用率為0.49%。
情感分析是指所挖掘的文本內容表達的觀點與含義,是識別某個主體對某客體的功能及效用主觀感受,這種主觀感受褒貶不一,而情感分析就是根據這種褒貶不一態度來進行情感傾向性研究。本文采用HowNet進行語義分析,求出得分,通過得分來判斷文本情感傾向,得分為正數則表明文本表達的為“正面情感”,若得分為負數則表明文本表達為“負面情感”。具體分析框架如圖1所示。
圖1 文本傾向性分析框架圖
通過HowNet計算出所采集的京東助農產品的評論的得分情況,根據所得出的分數,來進行情感分析,分析結果如圖2所示
圖2 文本情感分析結果
助農產品的褒義的評論即正面情緒高達79.58%,對助農產品持中立看法的為7.91%,而對助農產品的貶義評論即負面情緒僅為12.51%,由此可見經過分析后得出消費者對京東商城助農產品的滿意度較高,大部分消費者對助農產品持有的是積極的態度。
本文從評論中整合提取高頻詞匯,制作詞云圖,如圖3所示。圖中字號越大代表該詞出現頻率越高,其中“好吃”,“新鮮”,“味道”出現頻率極高,說明消費者在購買京東平臺助農產品時最注重產品的口感和產品是否新鮮,對價格的關注程度也在其次,說明消費者比起價格更在意產品本身的質量,商家應該把產品質量放在第一位。詞云圖中還出現了一些消極情緒的詞匯。例如“最差”,“一般般”,“破損”,“想象”等詞都頻頻出現,說明商家還需提高產品的包裝和質量。
圖3 詞云統計圖
圖4所示的網絡語義圖左側主要為消費者對產品本身的評價,包括口感,質量,價格等,右邊主要為消費者在平臺的購買體驗評價,包括物流,售后,服務,包裝等,由網絡語義圖能看出消費者最在意產品的品質和味道,這一點與詞云圖得出的結論相似;消費者會因為產品口感,品質決定是否回購該產品;在購買助農扶貧產品時也更在意產品的品質;消費者會因為產品味道和分量和質量等因素給出差評,產品的包裝破損導致產品分量不夠及破損,商家應加強產品包裝質量。
圖4 網絡語義圖
本節在語義網絡情感分類結果的基礎上,對不同情感傾向下的潛在主題分別進行挖掘分析,從而得到不同情感傾向下用戶對助農產品不同方面的反映情況。經過LDA主題分析后,評論文本被聚成3個主題,每個主題下生成10個最可能出現的詞語以及相應的概率。
表2 LDA差評主題分析結果
表3 LDA好評主題分析結果
根據助農產品差評的3個潛在主題的特征詞提取,主題1中的高頻特征詞,即不甜、不夠、失望、很差、不要、磕碰、個頭、速度、客服和太慢,主要反映助農產品的質量不好,沒有達到部分消費者的期望值;主題2中的高頻特征詞,即熱門關注點主要是太小、態度、酸、活動、一般、不好吃、垃圾、不新鮮、質量、大小不一,主要反映出消費者認為助農產品的質量及服務態度存在問題。主題3的高頻特征詞主要是爛、破損、重量、下面、壞果、不符、均勻、沒熟、包裝、打蠟;主要反映出部分商家發貨慢、包裝差及規格等與描述不相符等。
根據助農產品好評的3個潛在主題的特征詞提取,主題1主要反映出大部分消費者認為助農產品性價比較高,口感香甜;主題2反映出助農產品的質量不錯,對商品的整體比較滿意,同時“物美”一詞也在熱門詞中,可能是因為存在一部分比例的消費者在選擇助農產品時比較注重產品的外觀,主題3主要反映出消費者對助農產品的發貨速度、口感及營養較為滿意。
綜上所述,消費者對于京東電商平臺上助農產品的整體滿意度較高,更加注重產品質量,對于產品包裝及物流等方面滿意度較差,京東電商平臺可根據上述分析結果制定有效的助農產品營銷策略。