?

數據挖掘在超市大數據中的應用

2016-04-27 16:28梁婧婕曹婷
商場現代化 2016年7期
關鍵詞:關聯規則數據挖掘大數據

梁婧婕+++曹婷

摘 要:大數據時代,各行各業匯集了龐大的數據,如何使這些數據得到充分的利用,數據挖掘是最關鍵也是最基礎的工作。在本次研究中,將數據挖掘技術與購物籃思想理念相結合,運用R語言,對南京一家超市五個月內的銷售數據進行研究分析。具體有65536條數據,有31869條銷售記錄,2242種類商品,將這些商品分為192小類商品,基于食品分類規則將該超市食品分為38類。此次研究過程如下:首先,運用R語言,使用編寫字典的方式,對所獲取的數據進行清洗,生成結構化數據。然后,在三方面對數據挖掘。一,數據描述性統計挖掘。二關聯規則挖掘。最后,用圖表的形式展示此次研究的成果。此次煙酒店意義:利用初級數據挖掘的理論支持,幫助企業更好地分析、了解客戶,最終贏得客戶的競爭是該研究的重要的意義和實際應用價值。

關鍵詞:大數據;數據挖掘;購物籃;超市銷售;關聯規則

一、研究背景

1998年的《哈佛商業評論》刊登過這樣一個案例,20世紀90年代美國沃爾瑪超市中,沃爾瑪超市管理人員分析銷售數據時發現了一個令人難以理解的想象:在某些特定的情況下,啤酒與尿布這兩件毫無關聯的商品會經常出現在同一購物籃中。1993年美國學者Agrawal提出關于通過分析購物籃中商品集合,從而找出關聯關系的關聯算法,并根據商品之間的關系,找出客戶的購買行為.Agrawal從數學計算機算法角度提出了商品關聯關系的計算方法--Apriori算法。沃爾瑪嘗試將Apriori算法引入到數據分析中,并獲得成功,為超市銷售產生了開拓性的影響。于是產生了“啤酒與尿布”的故事。

近幾年,數據挖掘技術在零售業,電信業,金融業等許多領域得到了廣泛的應用。為了更加清楚地了解學習數據挖掘在大數據環境下的應用。此次,我們對數據挖掘中的部分分析功能在零售業(基于一小型超市)的應用做一些粗略的研究與學習,基于關聯規則,購物籃,Apriori算法等分析商品銷售狀況,探索出更多的類似于啤酒與尿布這樣的規則等,輔助決策者了解銷售全局,降低庫存成本,進行市場分析等。

二、文獻回顧

數據挖掘出現于20世紀80年代后期,90年代有了突飛猛進的發展。2001年,GartnerGroup的一次高級技術調查將數據挖掘和人工智能列為“未來三到五年內將對工業產生深遠影響的五大關鍵技術”之首,并且還將并行處理體系和數據挖掘列為未來五年內投資焦點的十大新興技術前兩位。美國麻省理工學院在2001年1月份的《科技評論》(TechnologyReview)提出將在未來5年對人類產生重大影響的10大新興技術,其中第3項就是數據挖掘。

數據挖掘技術已被廣泛的應用于各個領域。在零售業領域,很多大型的零售商都采用了數據挖掘工具進行決策分析,關聯規則挖掘已經投入應用領域,交叉管理,庫存控制好客戶分析設計都是零售業數據挖掘的主要內容。以沃爾瑪為例他就采用了BO的方案。LuisCavique的購物籃分析的可擴展算法研究;AndreasMilda,ThomasReutterer提出了一個改進合作過濾方法以及預測二進制購物籃數據的交叉目錄購買情況;HorngJinhChangd的基于聚類分析和關聯規則分析的潛在客戶購買行為的期望模型研究;FransCoenen,PaulLeng的基于分類精確度的關聯規則閾值影響等。

國內對數據挖掘的研究較晚,沒有形成整體的力量。1993年國家自然基金首次提出支持數據挖掘領域的研究項目。目前,國內的許多科研單位和高等院校競相開展數據挖掘和知識發現的基礎理論及應用研究。復旦大學一直從事這方面的研究,朱揚勇等把一個應用于特征規則基于差異化的興趣度定義運用到關聯給則中,重新設立了興趣度;武漢科技大學的張新霞等提出基于統計相關性的興趣度量;東南大學宋愛波等提出了一種解決規則組合爆炸問題的方法,建立了一個帶約束規則挖掘算法的模型,對Apriorii算法進行優化。還有其他相關研究。

但是,當前國內零售業數據挖掘工作還處于探索階段。據了解,許多零售業企業使用收賬結賬設備獲取的相關銷售數據,都沒有得到充分利用,這些數據本來都可以幫助零售企業實施交叉銷售,控制庫存,降低庫存風險等創造更大的商業價值,卻被忽略。所以,我們以南京市一家蘇果超市為主體,使用購物籃的思想,從數據的獲取,到數據清洗,再到關聯規則分析等一系列系統的方法,研究與運用數據挖掘技術。

三、研究對象及方法

本研究所用的超市銷售數據來自于南京市某一家蘇果便利店的一個月內的月銷量數據。數據大約有六萬多條。包括商品的單號,商品銷售時間,商品名稱,銷售單價,銷售數量,銷售金額。其中,部分是一個單號包含一個商品,其余為是一個單號包含多個商品。所以,本次研究不僅對購買了一個商品的購物籃進行描述分析,同時也對購買多個商品的購物籃進行關聯規則分析。

采用購物籃分析方法。購物籃分析就是通過購物籃所顯示的交易信息來研究顧客的購買行為,其直觀意義就是顧客在購買一種商品的同時有多大的意愿購買另一種商品。研究商品之間的關聯規則。這一規則中包含兩個參數:支持度(support)和置信度(confidence)。支持度(Support)的公式是:Support(A->B)=P(AUB)。支持度揭示了A與B同時出現的概率。置信度(Confidence)的公式是:Confidence(A->B)=P(A|B)。置信度揭示了A出現時,B是否也會出現或有多大概率出現。

四、數據清洗

隨著信息技術的不斷發展,各行各業都建立了很多的計算機信息系統,所以也就產生了大量的數據。當需要對數據進行分析的時候,直接獲取的數據并不能夠直接進行數據分析。主要表現在:數據冗余、數據重復、臟數據等問題。為了使得數據能夠有效地支持相關的運作與分析,必須對數據進行清洗與處理,使之成為結構化數據。所以數據清洗也就是各種數據分析如OLAP(關聯分析)、數據挖掘的前提與基礎。在R軟件中,通過建立字典的方式進行數據的清洗。

我們在對超市數據進行數據清洗的方法是構建字典,具體步驟如下:

1.建立鏈接:用read直接讀取數據所在的文件,建立鏈接。

2.編寫字典:根據商品的貨號,提取出每一種商品的關鍵字,定為搜索的字符(searchword)賦予它替換的名稱(replacenames),把類似的商品給予相同的名稱,如:洗衣護理劑,柔順劑,都給它附名柔順劑。其中,忽略商品的生產廠商。(注:因為主要研究方向與生產廠商無關)這樣的話,可明確商品類型,依據連鎖超市商品分類明細表指標,對所有的商品進行分類(categorys),如:家居用品,飲料,調料制品,糧食類等總共38種。

3.名稱替換:使用for循環語句,按照字典里的關鍵字對原始數據里所有的商品進行對比,測試,找到相同的賦與替換名稱與分類。結果如下(部分)。如果沒有搜索到對應的關鍵字,則用other_names代替。這樣,打開清除后的數據文件,查看清洗后的結果,對沒有與之相對應的關鍵字的商品再進行字典的補充,知絕大部分的商品都搜索到與之相匹配的關鍵字。這樣,就完成了字典的編寫,與得到清洗后的結構化數據。

4.數據的重組:對于相同單號的數據合并在一起,則為一個顧客購買的商品。加載reshape程序包,把整體的數據打碎(melt),讓其回到一個一個數據點的狀態,根據觀測的id名稱和變量名稱定為,再根據id名稱和變量名稱進行重新的組合,將同一個顧客買的所有商品都排列到一行。這里,假定購買最多的一個客戶買了20種商品。在每一行顯示該客戶所買商品名稱,買的不足20種的則用“@”表示。得到的數據就是完全清理好的數據,保存到新的文件夾.

五、結果分析

1.數據描述性統計分析

(1)數據的基本信息

在65536條銷售數據中,分類匯總產生結構化數據后共有31869條消費記錄,其中購買一件商品的顧客購物籃有19778個,購買一件以上商品的購物籃有12091個,分別占總體銷售數據的62.06%和37.94%,購買一件商品的比例稍高;在包含一件以上商品的12091個購物籃中,顧客大多購買2-4件商品,占總體的88%左右。

通過分析銷量最多的10種商品發現,該超市銷售38類商品中,銷售量最多的是飲料(19.1%),其次是熟食速食(14.0%),第三是休閑食品(11.5%)。銷量最多的10種商品的銷量占總銷量的81.0%。銷量最少的10種商品的銷售比例只占0.6%,其中最少的三種商品是服裝服飾、鞋帽類、土產干貨,其銷量的比例都不到0.02%。

通過分析銷售金額最多的10種商品,該超市銷售38類商品中,銷售金額最多的是煙草(19.8%),其次是飲料(13.9%),第三是蛋奶類(9.4%)。銷售額最多的10種商品的占總銷量銷售額比例為82.4%。

2.關聯規則的發現

(1)總分類關聯規則

①由圖1可知,在對飲料進行關聯規則挖掘時發現,顧客在購買了飲料時,有可能同時購買蔬果(1.2%),熟食速食(1.3%),營養保健品(7.9%),塑料制品(21.6%)與休閑食品(34.3%)。顧客在購買飲料時一般有34.3%的可能性會同時購買休閑食品,這里的塑料制品被認為是塑料袋,這是一般規則。同時,顧客還有可能購買營養保健品,由此推斷,顧客買飲料可能是看望長輩或家庭宴會,所以有7.9%的可能性購買營養保健品。

②由圖2可知,顧客在購買休閑食品時,有1.3%的可能會同時會購買餅干糕點或糖果類商品,這是我們生活經驗的一般規則。同時發現,顧客在購買休閑食品時也極有1.33%的可能購買蔬果,3.67%的可能性購買醬菜。據推測,這可能是主婦在為孩子購買零食時,會購買生活必需品。

③根據圖3,顧客在購買調味制品時,會對糧食和醬菜有需要,購買可能性分別為1.5%和4.6%,這是主婦在購物時的一般規則;同時發現,顧客在購買調味制品時,也可能購買家用清潔(2.3%)和個人潔護(3.5%)等日用品,這可能是主婦在為家庭內添置一些食品,日用品等生活必需品。

(2)明細分類關聯規則

明細分類商3中銷量前5的商品分別為水,香煙,腸,茶和購物袋。下面對香煙,香腸和茶作明細商品關聯規則分析。

①對香煙的關聯規則

由圖4可知,香煙與打火機這兩類商品的置信度較高,為3.2%,說明此次關聯規則挖掘貼近顧客的日常需求,這是對一般關聯規則的有效驗證。同時還發現,顧客在購買香煙的同時,有1.3%的可能性會購買香皂,有1.5%的可能性會購買鞋刷。據推測,這可能是由于顧客在購買香煙時會幫妻子購買一些日用品。除此之外,發現顧客在購買香煙時,對粥和可樂的購買分別為2.9%和3.5%,有較高的關聯度。

②對香腸的規則

在對香腸進行關聯規則挖掘時,由圖5可知,顧客也會同時購買其他零食,其中對丸子和鳳爪的購買可能性分別為1.9%和1.1%。同時發現,顧客在購買香腸的同時有1.03%的可能性會購買杯子。據推測,顧客可能是由于要宴請客人所以會同時購買香腸和水杯等餐桌必需品。

③對茶的關聯規則

對茶進行關聯規則挖掘,由圖6可知,顧客在購買茶時,購買咖啡,可樂等替代飲品的可能性分別為5.0%和3.6%,擁有較強的可信度,說明對超市商品的分類擺放其實是有助于商品銷售的。同時發現,顧客在買茶的同時,有1.3%的可能性會購買鞋刷,據推測這可能是由于妻子在為丈夫購茶飲時,會同時買家用清潔用品。

3.時間序列挖掘

根據折線圖7,我們推斷出以下結論:圖中七天每天營業時間7:00am~21:00pm中,商品銷量和銷售額均先走勢平緩,之后達到峰點,隨后下降,即在18:00pm~20:00pm達到峰點,說明此超市在此時間段人流量最大,推測可能是18:00pm以后,人們下班回家,會順便帶生活必需品或休閑食品等需要的商品回家。

由圖8發現,發現周銷量和銷售額的變化趨勢相同,均是由平緩到峰值再下降,且峰值出現點均在18:00pm~20:00pm間,銷售額=銷量×單價則說明在高峰期單價銷售差別不大,即此超市在18:00pm~20:00pm每日銷售商品類似。

六、結論與建議

通過對六萬條超市數據進行挖掘,獲取描述統計信息,為管理者進貨安排給出合理化建議。關聯規則挖掘,在本次研究中發現,買飲料的人極有可能會買營養保健品;購買休閑食品的時候會買醬菜;買香煙的人極有可能會買鞋刷;買香腸的人會買水杯。根據得出的這些隱含的規則,可幫助管理者進行更好地貨架拜訪,從而提高超市銷售量,同時增強顧客的購物體驗。這一挖掘內容延于沃爾瑪的啤酒與尿布的故事,也是本次研究的重點。其中挖掘到的新的關聯規則是本次研究的創新點。時間序列分析可得到超市的購買高峰期,從而幫助管理者合理的進行人員的安排。

研究后發現,我們可進行如下改進,在數據的獲取方面,在條件允許的情況下獲取更加豐富的數據資源,此作為深入研究的必備條件。再者,進一步的學習關聯規則算法,為研究提供理論支持。最后,多方面的進場分析,從客戶以及決策中兩方面的角度考慮分析,是研究結果更加全面。

參考文獻:

[1]鄭繼剛.數據挖掘研究的現狀與發展趨勢[J].紅河學院學報,2010.

[2]袁劍秋.基于關聯規則算法在數據挖掘中的研究與應用[D].成都理工大學碩士論文,2009.

[3]T.Mitchell.MachineLearning.McGraw-Hill,Boston,MA,1997.

[4]林凡.數據挖掘在零售業交叉銷售的作用[D].黑龍江碩士學位論文,2009.

[5]R.C.Holte.Very Simple Classification Rules Perform Well on Most Commonly Used Data sets.Machine Learning,11:63-91,1993.

猜你喜歡
關聯規則數據挖掘大數據
數據挖掘綜述
軟件工程領域中的異常數據挖掘算法
關聯規則挖掘Apriori算法的一種改進
基于關聯規則的計算機入侵檢測方法
基于大數據背景下的智慧城市建設研究
基于R的醫學大數據挖掘系統研究
一本面向中高級讀者的數據挖掘好書
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合