?

基于文本挖掘的SUV汽車客戶情感分析

2023-05-10 13:49原顯冬
中國市場 2023年10期

摘?要:文章首先采用網絡爬蟲技術爬取客戶對SUV汽車的在線評論數據并完成數據清洗工作;其次構建通用情感詞典與汽車領域專用情感詞與短語;再次分別對SUV汽車各指標的評論數據進行情感分析;最后按照小型、緊湊型、中型、中大型與大型的分類分別對SUV各指標情感分析結果進行統計分析,得出客戶對不同類別的SUV汽車各指標情感傾向分布以及情感傾向度均值情況,以期為企業在設計與優化SUV汽車產品時有所幫助。

關鍵詞:情感詞典;情感傾向;SUV汽車

中圖分類號:F274????文獻標識碼:A?文章編號:1005-6432(2023)10-0128-05

DOI:10.13939/j.cnki.zgsc.2023.10.128

1?引言

汽車產業作為我國經濟發展的重要支柱產業,是“制造強國”與“網絡強國”建設的重要支持和融合載體。據2022年3月汽車工業經濟運行情況數據顯示:1—3月,汽車產銷分別完成648.4萬輛和650.9萬輛,同比分別增長2%和0.2%[1]。而面對激烈的市場競爭,如何動態把握客戶情感傾向以提高客戶需求滿意度,是汽車企業打造自身核心競爭力的重要方式之一。在傳統意義上,往往通過電話回訪、問卷調研、銷售客服反饋等途徑獲取客戶需求,所得信息往往難以具有高效價值。如今,微博、論壇、公眾號等社交媒介不斷升級,使得互聯網成為人們獲取信息、分享經驗的重要平臺[2]。在網絡評論爆炸式增長的過程中,網絡爬蟲技術實現了快速有效挖掘大量網絡評論信息的功能,而情感分析技術在汽車領域的應用可快速分析客戶對SUV汽車產品的主要情感傾向及其強度,為企業精準把握客戶情感、及時調整產品方案提供了支持。

2?數據爬取與預處理

2.1?數據爬取

網絡爬蟲技術是按照一定規則自動地抓取萬維網中有關信息的一種程序或者腳本[3]。它是通過模擬瀏覽器,并向服務器發出獲取頁面數據請求,收回服務器所返回的數據,經解析后獲取網頁中所需的信息。

2.2?數據預處理

采用網絡爬蟲技術爬取SUV汽車在線評論原始數據時,由于數量龐大且質量參差不齊,使得所爬數據會出現特征項缺失、錯位、重復等異常情況。文章針對特征項數據缺失情況采用Excel表格直接刪除;針對特征項錯位情況采用Excel表格“條件格式”中“突出顯示單元格規則”的“文本包含”命令標注后依次手動刪除;針對內容重復情況采用Excel表格的“刪除重復項”命令自動刪除和“設置高度重復項”命令標記后手動刪除。

通過對原始數據預處理后,最終保留23987條客戶對SUV汽車的在線評論數據,其中包括5634條小型SUV評論、12544條緊湊型SUV評論、5363條中型SUV評論、334條中大型SUV評論和112條大型SUV評論數據。預處理后的數據示例如表1所示。

3??文本情感分析

文本情感分析又稱文本意見挖掘,是從客戶意見中提取情感傾向信息的技術[4]?;谇楦性~典的方法指利用情感詞典獲取文本中情感詞的情感值[5],再通過加權計算確定文本的整體情感傾向[6]。在汽車領域,有學者通過建立線性回歸方程計算汽車內飾、質量等對汽車銷量的影響[7];也有學者運用回歸模型對汽車口碑評論和銷量數據研究用以推斷在線口碑的重要性[8];還有學者運用概率統計、數據挖掘關鍵詞方法探尋不同關鍵詞的關系[9]。文章采用基于情感詞典的方法對SUV汽車在線評論數據進行情感分析,并對分析結果進行統計分析。情感分析的主要步驟有:①對句子進行中文分詞;②構建通用情感詞典,包括通用情感詞、程度副詞、否定詞的構建;③構建汽車領域專用情感詞與短語;④評論數據進行情感傾向與情感傾向度分析;⑤對情感分析結果進行匯總。

3.1?數據中文分詞

中文分詞作為基于情感詞典進行情感分析的基礎環節,分詞的效率和準確性會對分析結果產生較大影響。文章采用目前較為流行且效果較好的隱馬爾可夫模型實現分詞工作,簡稱HMM模型。HMM模型主要通過對文本中字在字串中的序列進行標注來實現句子分詞,即字在構詞中均占據特定位置,用BMES四種標簽表示,其中B代表詞首,M代表詞中,E代表詞尾,S代表單字成詞。采用HMM模型中文分詞效果示例見表2。

3.2?通用情感詞典構建

情感詞典是包含數字、文本和符號的集合,是情感分析系統的基礎知識庫。文章在整理前人研究的基礎上,通過合并、去重、修正后,形成文章所需的通用情感詞典。

3.2.1?通用情感詞構建

在構建通用情感詞時,考慮到受主觀因素的影響,同一情感詞可能在不同情感詞典中具有不同情感極性。文章采用Polarity投票方式確定通用情感詞最終情感極性。當出現極性次數相同時,根據權威性,設定知網(HowNet)情感詞典>臺灣大學(NTUSD)簡體中文情感極性詞典>清華大學中文褒貶義詞典>大連理工大學情感詞典>數據管家自帶詞典的方式確定最終情感詞極性。當出現情感詞僅存于一部詞典且同時具有負向與正向極性時,需結合汽車領域知識,采用人工篩選確定最終情感詞極性。所構建的通用情感詞典示例如表3所示。

3.2.2?程度副詞構建

程度副詞作為體現漢語程度量的主要語法手段,其在文本中出現和使用的頻率較高。王力先生在《中國現代語法》中指出可根據“有無比較對象”原則將程度副詞分為相對程度副詞和絕對程度副詞兩類。相對程度副詞是需要通過比較才體現出程度差別的詞,可分為四小類:“最”類,表示程度非常高;“更”類,表示程度有所增加或變化;“比較”類,表示程度相比較深;“稍”類,表示程度輕微或比較低。絕對程度副詞是能夠獨立表示程度的詞,也可分為四小類:“極”類,表示程度非常高;“太”類,表示程度較高;“很”類,表示程度高于常規水平;“有點”類,表示程度上較低或輕微。文章在總結前人研究成果的基礎上,根據量級差異將程度副詞整理為四個類別,即“最”和“極”類、“更”和“太”類、“比較”和“很”類、“稍”和“有點”類,示例如表4所示。

3.2.3?否定詞構建

在目前的語言系統中否定詞數量并不多,但卻構成了與所有肯定成分相對立的另一面。學者楊伯峻等在《古代漢語語法及其發展》中列出二十幾個單語素否定詞[9];學者張誼生在《現代漢語副詞研究》中列出了28個否定副詞[10];學者李泉在《漢語語法考察與分析》中列出16個否定副詞[11];學者張斌在《現代漢語虛詞詞典》中收錄17個否定詞[12]。文章在整理前人研究的基礎上,得出用于文章的否定字詞(包含單語素和多語素否定詞),否定詞詞典示例如表5所示。

3.3?汽車領域專用情感詞與情感短語構建

在汽車領域中,有些正向情感詞可能會導致負向情感傾向,比如評論語句“這車的方向盤很輕,油耗偏高,噪聲較大”中詞語“很輕、偏高、較大”在通用情感詞典中均表示正向情感,但分別與“方向盤、油耗、噪聲”中性詞語結合后均帶有負向情感。因此,在使用情感詞典對SUV汽車在線評論進行情感分析前,需建立汽車領域專用情感詞與短語。文章通過收集多位研究者的研究以及查閱部分評論內容,整理出文章使用的汽車領域專用情感詞與短語,示例如表6所示。

3.4?情感傾向的分析

情感傾向是主體對客體的一種客觀喜惡評價,其主要由情感傾向方向和情感傾向度來衡量。采用基于情感詞典方法對SUV汽車產品在線評論數據情感傾向分析時,首先需對情感詞典中的情感詞賦予一定數值,其中正向為1,負向為-1,否定為-1,程度副詞根據不同量級分別賦值(其中“最”和“極”類為3,“更”和“太”類為2.5,“比較”和“很”類為2,“稍”和“有點”類為1.5);然后對每個指標的評論進行情感分析,得出所有評論情感值。

3.5?情感分析結果匯總

對每個指標所求情感值進行匯總,得到每條評論以及所對應指標的情感值得分匯總表,匯總示例如表7所示。

4?情感傾向結果分析

4.1?小型SUV情感傾向分布與傾向度均值分析

小型SUV總評論數5634條,對情感值得分結果統計后得到各指標情感傾向分布與情感傾向度均值柱狀圖,如圖1和圖2所示。

由圖1可知,客戶對小型SUV的正向評價中外觀占比最高,超過90%;油耗占比最低,未能超過70%。負向評價中外觀占比最低,未超過5%;動力與舒適性占比較高,均超過20%。由圖2可知,客戶對小型SUV的外觀情感均值最大,接近5;對油耗的情感均值較小,不到2;對內飾、配置、操控情感均值相差不大,均在3左右。

4.2?緊湊型SUV情感傾向分布與傾向度均值分析

緊湊型SUV總評論數12544條,對情感值得分結果統計后得到各指標情感傾向分布與情感傾向度均值柱狀圖,如圖3和圖4所示。

由圖3可知,客戶對緊湊型SUV的正向評價中外觀占比最高,超過90%;空間占比第二,超過85%;油耗占比最低,未能超過70%。負向評價中外觀占比最低,未超過5%;內飾、動力、油耗與舒適性占比均在15%左右。由圖4可知,客戶對小型SUV的外觀情感均值最大,接近5;空間情感均值排第二,略超4;油耗情感均值最小,未達到2;內飾、配置、動力、操控、舒適性情感均值相差不大,均在3左右。

4.3?中型SUV情感傾向分布與傾向度均值分析

中型SUV總評論數5363條,對情感值得分結果統計后得到各指標情感傾向分布與情感傾向度均值柱狀圖,如圖5和圖6所示。

由圖5可知,客戶對中型SUV的正向評價中外觀占比最高,略超90%;內飾、空間、操控、舒適性占比相差不大,均在85%左右;配置、動力、油耗均未超過80%,且油耗占比最低。由圖6可知,客戶對中型SUV的外觀情感均值最大,在5.5左右;對內飾、空間、舒適性的情感均值均超過了4;油耗的情感均值最低,未達到2。

4.4?中大型SUV情感傾向分布與傾向度均值分析

中大型SUV總評論數334條,對情感值得分結果統計后得到各指標情感傾向分布與情感傾向度均值柱狀圖,如圖7和圖8所示。

由圖7可知,客戶對中大型SUV的正向評價中外觀、內飾、空間、操控占比相差不大,均超過85%;配置、動力、舒適性的占比均超過80%;油耗占比最低,接近75%。由圖8可知,客戶對中大型SUV的外觀情感均值最大,超過5;對內飾、空間、操控、舒適性的情感均值相差不大,均在4左右;對油耗的情感均值最低,未達到2。

4.5?大型SUV情感傾向分布與傾向度均值分析

大型SUV總評論數112條,對情感值得分結果統計后得到各指標情感傾向分布與情感傾向度均值柱狀圖,如圖9和圖10所示。

由圖9可知,客戶對大型SUV的正向評價中外觀、空間、操控、舒適性占比相差不大,均超過90%;內飾和動力的占比均在85%左右;油耗與配置占比相當,均在75%~80%。由圖10可知,客戶對大型SUV的外觀情感均值最大,略超5;對內飾、空間、操控、舒適性的情感均值相差不大,均在4左右;對配置的情感均值略低于3;對油耗的情感均值最低,未超過2。

5?結論

文章首先采用網絡爬蟲技術爬取客戶對SUV汽車在線評論數據,其次通過情感分析得出SUV汽車外觀、內飾、空間、配置、動力、操控、油耗、舒適性指標客戶在線評論所具有的情感值得分,再次按照小型、緊湊型、中型、中大型與大型的分類分別對SUV各指標情感值得分結果進行統計分析,最后得出客戶對SUV各指標情感傾向分布以及情感傾向度均值情況。統計結果顯示,無論是何種車型的SUV,客戶對SUV的正向評論占比遠遠高于負向以及中性評論占比,且正向評論中外觀占比均占據首位,油耗占比均位于末尾;情感均值得分中外觀均值得分占據首位,油耗均值得分位于末尾。由此可知,客戶對SUV外觀最為滿意,而對油耗最為不滿意,汽車企業在SUV汽車產品設計與改進時可加大對降低油耗的投資力度,提高客戶情感的滿意度。

參考文獻:

[1]2022年3月汽車工業經濟運行情況[J].現代制造技術與裝備,2022,58(4):2.

[2]新一代人工智能發展規劃[J].科技導報,2018,36(17):113.

[3]羅春.基于網絡爬蟲技術的大數據采集系統設計[J].現代電子技術,2021,44(16):115-119.

[4]陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.

[5]CHEN?L?C,LEE?C?M,CHEN?M?Y.Exploration?of?social?media?for?sentiment?analysis?using?deep?learning[J].Soft?computing,2020,24(11):?8187-8197.

[6]PAN?D?H,YUAN?J?L,LI?L,et?al.Deep?neural?network-based?classification?model?for?sentiment?analysis[C].In:?6th?International?Conference?on?Behavioral,Economic?and?Socio-Cultural?Computing,Beijing,China.New?York,USA:?IEEE,2019.

[7]程小葉.汽車在線口碑對消費者購買行為影響的實證研究[D].哈爾濱:哈爾濱工業大學,2012.

[8]張魯,趙帥.汽車在線口碑對消費者購買行為的影響研究[J].汽車工業研究,2016(12):28-35.

[9]賀暢,趙威,陳陌.基于網絡輿情分析的汽車市場及消費研究[J].汽車工業研究,2016(4):4-9.

[10]楊伯峻,何樂士.古漢語語法及其發展[M].北京:語文出版社,1989.

[11]張誼生.現代漢語副詞研究[M].上海:學林出版社,2000.

[12]李泉.現代漢語副詞研究[M].北京:北京語言大學出版社,2001.

[13]張斌.現代漢語虛詞詞典[M].北京:商務印書館,2003.

[作者簡介]原顯冬(1990—),漢族,內蒙古呼倫貝爾人,研究方向:企業管理理論和方法。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合