?

數字貿易對消費者行為的影響研究

2024-05-04 03:35徐晨旸
中國商論 2024年7期
關鍵詞:數字貿易時間序列關聯規則

摘 要:本文選取2022年抽樣的淘寶數據進行分析與挖掘,并基于K-means算法對買家進行聚類分析,初步篩選出疑似刷單行為的買家和賣家。在剔除這些用戶后,又利用回歸分析法分析賣家獲得評價、信用評價體系、賣家店鋪等級對銷量的影響;采用LSTM算法對銷量數據的時間序列進行預測;通過Apriori關聯規則算法找到買家與賣家和商品之間的關聯。其中,在賣家獲得評價對銷量的影響中,建立獎勵函數來描述好評和差評的影響,結果顯示獎勵函數與銷量呈正相關關系。在信用評價體系對銷量的影響中,服務和發貨對銷量的影響較大。賣家店鋪等級,則無明顯關系。預測的銷量數據雖沒有較好的結果,但給出了合理的解釋。關聯結果顯示,買家與賣家和商品之間有一定的聯系,本研究僅供參考。

關鍵詞:數字貿易;數據挖掘;聚類分析;回歸分析;時間序列;關聯規則

本文索引:徐晨旸.<變量 2>[J].中國商論,2024(07):-085.

中圖分類號:F063.2;F742 文獻標識碼:A 文章編號:2096-0298(2024)04(a)--04

隨著科技的發展、移動互聯網的普及和數據傳輸速率的提高,網絡對人們生活的影響日益顯著。越來越多的人習慣于網絡購物,作為電商平臺的佼佼者——淘寶,發展規模和電商數據可謂是驚人。過去十年,淘寶注冊用戶從2010的3.7億上升至2022年的8億。在此背景下,海量數據的背后有著不可估量的價值。如何挖掘、利用數據已成為各個行業、企業競爭的焦點。本文從數據預處理、數據挖掘、總結與展望,這三步來對2022年抽樣的淘寶數據進行分析與挖掘。

1 數據預處理

1999年,Pyle首次提出并強調了數據預處理在數據挖掘過程中的重要性,并闡述了數據預處理過程在數據挖掘中占據了60%的時間[1]。

本文的參考數據來自四個文件,dsr.csv(以下簡稱四項評分表)、user.xls(以下簡稱賣家信息表)、trans.csv(以下簡稱詳細交易表)、rate.txt(以下簡稱賣家評價表)。其中,參考數據是從2022年4月10日到2022年10月10日的抽樣數據。

本文先進行了數據假設,再對上述四個文件進行了消除噪聲、缺值數據處理、數據類型轉換等四個操作[2]。數據預處理并不代表之后的數據不再處理,只是進行了初步的處理,而后對得到的疑似刷單行為的買家和賣家也進行了處理。

1.1 數據假設

本文做如下假設:

(1)詳細交易表中買家購買的數量是一個整體,不考慮具體時間前后的影響,即先有了評價、四項評分,才有了賣家的銷量。

(2)賣家評價表中的0代表賣家獲得了中評,對其他買家的影響微乎其微,在考慮評價對銷量的影響時,這部分數據予以剔除。

(3)由于抽樣數據的不完整性,關聯數據表之后,對有評價無銷量或者空缺數據的數據,本文認為是系統原因造成的無效數據予以剔除。

(4)產品類型是影響消費者購買決策的一個不可忽視的因素[3]。在考慮評價對銷量的影響時,忽略產品類型的影響,也不考慮搜索引擎以及廣告等對銷量的影響,只考慮評價這個單因素。

(5)買家只購買一位賣家或幾位賣家的商品且購買的數量超過100將視為惡意刷單用戶。

1.2 消除噪聲

買家的四項評價指標為0到5的整數[4],本文將四項評分表中商品得分進行了四舍五入處理以消除數據收集過程中的系統誤差。自此本文得到處理后的詳細交易表。

1.3 缺值數據處理

由于四項評分表的四項評價指標(服務、發貨、物流、商品得分)存在缺值,需要對其進行數據處理。常見的方法有:插值法、回歸法、統計估計法等。該表中除物流得分缺值約占24.2%外,其他三項占比不高,服務得分缺值約占2.2%、發貨得分缺值約占2.3%、商品得分缺值約占0.9%。對于缺少兩項及以上的數據因為只占1.09%左右,本文予以剔除。本文將物流得分作為自變量y,其他三項作為因變量x1、x2、x3進行多元線性回歸[6]。由實驗結果可得,y=0.2479x1+ 0.5919x2+0.145x3,然后用此回歸方程來填補只缺物流得分的記錄條。F值為529030,P值近乎為0,說明回歸的模型較好。自此本文得到處理后的四項評分表。

1.4 數據類型轉換

根據淘寶賣家店鋪20個等級,本文將賣家信息表中的等級替換成相應數字,如:1星級為1,1鉆為6,1皇冠為11,2紅冠為17。而本身信用得分為0的商家,售出的商品為0,予以剔除。信用得分小于等于3的商家替換成0[5]。自此本文得到處理后的賣家信息表。

2 數據挖掘

2.1 聚類分析

模式識別也叫模式分類,可以分為監督模式識別與非監督模式識別。本文根據樣本特征將樣本聚成幾個類,使屬于同一類的樣本在一定意義上是相似的,而不同類之間的樣本則有較大差異[7]。這種非監督模式識別也稱為聚類。

本文對詳細交易表的買家、總費用、購買數量三列數據進行了聚類分析,旨在對買方網絡進行分類,根據其消費水平大致分為三類:低、中、高消費水平。本文一共選取了637192位買家進行基于K-means的聚類分析。

圖1 聚類結果

結果顯示位為低消費水平,254位為中消費水平,6004位為高消費水平。其中藍色、綠色、紅色分別為低、中、高消費水平的質心。

2.2 回歸分析

本文對數據進行說明,回歸分析中的銷量數據均指剔除刷單買家后詳細交易表中買家購買的數量,而不是賣家信息表和詳細交易表中的總銷量。且本文假設,具體的時間前后對銷量無影響。

2.2.1 賣家獲得評價對銷量的影響

剔除刷單賣家后,關聯賣家評價表和詳細交易表,剔除評價為0的數據后,發現部分數據,賣家獲得了評價但是并沒有銷量,予以剔除。接下來,文章對8094位賣家進行分析。

對于好評和差評,本文建立簡單的獎勵函數g(ID,x1,x2) = a1x1+a2x2。其中,ID為賣家ID,x1為好評數量,x2為差評數量,a1+a2=1。若好評對銷量的影響更顯著,則x1>x2。

由于刷單以及惡意評價屢見不鮮,購物人群并沒有那么在意口碑。鑒于此,本文假設好評和差評對銷量的影響相同,即a1=a2=0.5,并算出每個賣家的獎勵得分。最終,本文得到賣家ID-獎勵得分-銷量表。

以獎勵得分作為自變量,銷量作為因變量進行線性回歸分析,得到線性回歸方程:y(銷量)=5.8793+0.5694×獎勵得分。線性回歸圖見圖2。

圖2 線性回歸

方程通過F和T檢驗,R2為0.458。R2過小,存在著欠擬合的現象。接下來,對其進行多項式回歸而R2反而減小。因此本文并沒有對其修正,一方面疑似刷單賣家并沒有剔除干凈(異常點并不能完全剔除),另一方面賣家數量比較多,采樣的數據不全而且分布并不理想。光從圖像上觀察,本文認為結果已在接受范圍內了。

2.2.2 信用評價體系對銷量的影響[8]

本文得到詳細交易表所有賣家9264家的總銷量和10842家賣家的平均四項信用評價體系。兩者根據賣家ID關聯得到7677名賣家ID-銷量-服務-發貨-物流-商品表。

當四項評分作為自變量,銷量作為因變量進行回歸分析時見表1,自變量都落入拒絕域。此時模型不是太好。

本文使用AIC法則來選擇最優模型,得到最優的模型是將服務和發貨得分引入模型。新方程通過F和T檢驗,得到回歸方程:y(銷量)=598.9469+30.4838×服務得分-146.3415×發貨得分。從方程上來看,銷量與服務呈正相關,與發貨得分成反比。更好的解釋是,有部分人覺得產品和服務并沒有問題,于是產生了銷量,發貨和物流有一定的關系,很多人將兩者混淆起來[9],并且發貨和物流沒有建立完整的體系,所以得分低很好理解。于是,有了銷量、高服務分卻是較低的發貨得分。后續查看數據也得到了驗證。

2.2.3 賣家店鋪等級對銷量的影響

關聯剔除刷單賣家后的賣家信息表和詳細交易表,得到賣家ID-銷量-店鋪等級表。結果顯示,店鋪等級與銷量并沒有呈明顯的線性關系和非線性關系。店鋪等級和銷量見圖3。

圖3 店鋪等級-銷量散點圖

2.3 時間序列分析

時間序列是指將某種現象某一個統計指標在不同時間上的各個數值,按時間先后順序排列而形成的序列。時間序列法是一種定量預測方法,亦稱簡單外延方法,在統計學中作為一種常用的預測手段被廣泛應用,是一種動態數據處理的統計方法[10]。

本文對四項評分表的日期進行提取,剔除疑似刷單買家和賣家之后,得到賣家ID-買家ID-日期表。累計每個月的1號至31號的銷量,得到日期銷量折線圖。

圖4 日期銷量折線圖

其中,31號因只有3天,而1號至30號均有六天,所以31號的銷量明顯比30號少一倍乃至更多。接下來,本文對5月、6月、7月、8月每天銷量數據作為學習樣本,以9月數據作為測試樣本建立LSTM模型。實驗結果運用均方根誤差(RMSE)作為評價指標,具體公式如式(1)所示:

重復實驗100次,選取RMSEmin=556.25的預測,得到圖5。其中藍色為測試樣本,橙色為預測樣本。

從圖5看出,每個月的20號左右和月底前幾天的銷量明顯高于其他時間。四項評分表的數據來源有兩種:一是買家收到貨物后的及時評分,二是買家收到貨物后的十五天的自動評分。時間序列分析中的銷量是以評分后的銷量來計算的,所以真實的顧客下單時間為月初前幾天和月中15號左右以及月末后幾天。淘寶購物主力還是大學生群體和工薪階級,工薪階級月中發工資,大學生群體月末月初拿到生活費,自然而然這個時間段銷量提升。

圖5 測試-預測圖

圖5結果顯示,RMSEmin=556.25,預測的結果也不是很理想。本身商品的買賣受季節性波動非常大,而拿節假日和假期期間的數據(5、6、7、8月)來預測9月數據缺乏一定的依據。在數據量較小的情況下進行LSTM時間序列分析,導致均方根誤差偏大,預測準確性也不是很好。

2.4 關聯規則分析

在剔除惡意刷單買家和賣家后,得到買家ID-賣家ID-價格表。本文對買家與賣家和商品進行關聯。

本文對數據進行基于Apriori算法的關聯,其中最小事務同時發生數為10,最小置信度為0.5,接下來將展示三條數據結果。

(frozenset({‘120810098}),frozenset({‘277836633s, 5.5}),10,1.0):表示買家ID為120810098的客戶,當他購買賣家ID為277836633商家中的商品時,一定會購買價格為5.5元的商品。

(frozenset({‘128268950}),frozenset({‘89486154s, 800}),12,0.923):表示買家ID為128268950的客戶,當他購買賣家ID為89486154商家中的商品時,有92.3%的概率會購買價格為800元的商品。

(frozenset({‘3,84471847}),frozenset({‘288922974 s}),36, 1.0):表示買家ID為84471847的客戶購買3元價格的商品時,一定是在賣家ID為89486154商家處購得。

3 總結與展望

回顧全文,本文得到如下的結論和相應的展望:

(1)得到疑似刷單買家和賣家名單。通過后續的分析發現,雖然剔除名單后的數據更準確,但是刷單玩家并沒有完全剔除干凈,而且也沒有很好的依據判定刷單等惡意行為。希望后續能找到很好的依據來進一步剔除刷單玩家。

(2)將買家聚成三類有一定的效果。但是,低消費水平買家占絕大多數,可以進一步考慮分更多的類將低消費水平買家分得更清晰。

(3)本文建立的獎勵得分與銷量呈線性正相關關系,獎勵得分越高,銷量越高。R方太小,模型存在欠擬合現象,后期應進一步對惡意刷單行為進行剔除。如今,口碑影響力越來越大,差評占的比重也越來越大,商家更應該提高商品質量以減小差評在評價中的比例來提高獎勵得分,最終影響銷量。

(4)服務得分和發貨得分分別與銷量成正比和反比。大家對四項評分太過于武斷、主觀,甚至存在較多的缺失數據。對于淘寶,應該建立更加完善和激勵的四項評分體系。對于商家,應該提升服務水平。

(5)店鋪等級與銷量并沒有呈明顯的線性關系。淘寶店鋪等級就呈現兩頭少中間多的規律。那時的買家也未過分關注店鋪等級信息,導致分析的結果并沒有明顯的關系。

(6)時間序列分析的預測效果并不是很好。樣本量不夠多,且商品的交易受季節性波動較大,對更大的樣本量可能會有較好的預測結果。

(7)實現買家與賣家和商品之間的關聯,可以給用戶推送相關聯的賣家店鋪的動態和推薦同價位的商品,以提高客戶滿意度。本文并沒有實現推薦算法,希望后續能將關聯的結果與推薦算法相結合,以實現對買家集店鋪、商品類型、價格于一體的推薦功能。

參考文獻

鄭躍平. 基于約束數據預處理的Web日志挖掘研究[D].福州: 福州大學,2006.

張治斌,劉威.淺析數據挖掘中的數據預處理技術[J].數字技術與應用,2017(10):216-217.

薛文怡. 電子商務在線口碑與觀察性學習對產品銷售的影響[D].天津: 河北工業大學,2016.

龐鑫. 基于演化博弈的淘寶網動態評分對賣家銷量的影響研究[D].濟南: 山東大學,2018.

小狼.五六折? 全新的返利模式[J].電腦迷,2010(20):79.

劉鋒,譚祥勇,何卓.函數性線性回歸模型分析方法及其應用[J].重慶理工大學學報(自然科學),2015,29(11):135-138.

顏子寒,張正軍,王雅萍,等.基于加權馬氏距離的改進深度嵌入聚類算法[J].計算機應用,2019,39(S2):122-126.

韓旭芳. 基于開放API的電子商務個性化服務推薦研究[D].石家莊: 石家莊鐵道大學,2011.

Sakurai Y , Papadimitriou S , Faloutsos C . BRAID: Stream mining through group lag correlations[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005. ACM, 2005.

楊青,王晨蔚.基于深度學習LSTM神經網絡的全球股票指數預測研究[J].統計研究,2019,36(3):65-77.

猜你喜歡
數字貿易時間序列關聯規則
浙江數字貿易發展現狀和趨勢探究
貿易強省建設視角下河南省數字貿易發展策略研究
基于“鉆石模型”的中國數字貿易國際競爭力實證研究
數字經濟時代的企業運營創新變革
關聯規則,數據分析的一把利器
基于時間序列的我國人均GDP分析與預測
基于線性散列索引的時間序列查詢方法研究
關聯規則挖掘Apriori算法的一種改進
基于關聯規則的計算機入侵檢測方法
基于組合模型的能源需求預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合