?

優化的K-means 聚類算法在客戶細分中的應用研究

2023-09-21 15:49
智能計算機與應用 2023年9期
關鍵詞:細分聚類距離

唐 欣

(北方民族大學數學與信息科學學院, 銀川 750021)

0 引 言

互聯網技術的快速成長,帶動了電商、教育、醫療以及生物科技等領域的不斷突破創新,大數據成為生活中不可或缺的一部分,使得交通出行、網上購物、線下支付等一系列活動簡便快捷。 信息多元化,數據挖掘與獲取信息密不可分,通過數據清洗、轉換以及集成等方式來挖掘有效信息。 聚類分析是數據挖掘常用的聚類方法,利用同一類簇相似性高,不同類簇相似性低的行為準則劃分數據,市場研究人員也常常將這一方法運用到客戶細分中。

20 世紀50 年代中期,美國學者溫德爾史密斯根據市場細分準則提出了客戶細分的概念[1]。 即基于某一標準,將企業庫中的所有客戶劃分為多種類型的客戶群的過程[2]。 利用聚類分析對客戶劃分的方法,能夠挖掘更多有用信息,幫助企業了解客戶的消費行為、習慣以及購物偏好等相關信息,達到更好地為客戶提供個性化、差異化服務與體驗的目的,進而有針對性地制定營銷策略,促進公司持續健康發展。

不同的企業往往會制定不同的客戶細分準則,挖掘客戶特點,建立與客戶之間的聯系,實現公司利益最大化。 Wang L 等[3]人從生命周期的角度出發,認為客戶在生命的不同階段會產生感知差異,而這種差異往往會帶來不同的消費行為;王璀璨等[4]從客戶價值的角度出發,優化客戶關系管理系統,實現對電商企業的客戶細分;Hughes 等[5]從客戶行為的角度出發,通過建立RFM 模型(R代表最近一次消費時間、F代表消費頻率、M代表消費總金額),了解客戶消費行為習慣,做出不同價值分類,為企業更加有針對性地管理提供新思路。 根據八二法則可知,企業的80%利潤往往是來自于20%的忠誠客戶[2],說明了利用RFM 模型,通過給出不同客戶的價值分類,將這部分客戶轉化為忠誠客戶后,他們重復購物能力往往能為企業帶來更多的利潤來源,而維持這部分客戶遠遠小于獲取一個新客戶所要花費的成本。

很多學者為了更好地探索客戶細分模型,常常利用數據挖掘的手段,結合聚類分析的方法來對客戶進行劃分。 原慧琳等[6]從微觀和宏觀兩個角度出發,利用K-means 聚類算法對零售會員數據進行特征劃分;楊琳等[7]根據民航客戶自身特點,結合聚類分析方法,對RFM 模型進行了改進,進一步提高了民航企業的服務質量;閆春[8]等利用輪廓系數改進K-means 選取聚類數目,并在壽險數據中為挽留高價值客戶提供了較高的決策依據。 因此,將聚類分析方法應用到不同類型的客戶群的劃分中,能夠幫助企業了解不同客戶需求,給出客戶價值定位,重新構建客戶管理體系,提供個性化服務。 本文將優化的K-means 算法應用到RFM 模型中,實現對客戶數據的聚類,并根據聚類結果找出企業庫中的忠誠客戶,從而有效制定營銷策略。

1 相關知識

1.1 K-means 算法

在聚類分析中,K-means 聚類是最常見的一種數據挖掘算法,是由Macqueen 提出來的基于劃分的聚類方法[9]。 K-means 算法的聚類速度快,操作簡單快捷,但聚類過程也存在一些缺陷,如依賴初始聚類中心的隨機選取、極易受異常值影響、聚類結果不穩定等[10]。 該算法通常使用歐氏距離來作為衡量兩個對象之間的相似度指標,劃分聚類結果,其基本思想是選擇任意的k個初始聚類中心,計算出剩余數據對象與聚類中心的歐氏距離,找到距離最近的k- 1 個聚類對象,不斷更新迭代聚類中心,直到誤差平方和(SSE),即準則函數收斂,得到聚類結果,表示為C={C1,C2,…,Ck}。

假設有n個m維屬性的數據集U∈{xp}(p=1,2,…,n),記ci(i=1,2,…,k)為k個聚類中心,每個聚類中心ci都有m維屬性,記為cij(j=1,2,…,m),則每個對象xp距離每個聚類中心ci的歐式距離定義為式(1):

誤差平方和定義為式(2):

1.2 優化的K-means 算法

K-means 作為無監督學習算法的一種,不需要提前知道聚類類別,能夠對無標識的對象進行聚類。利用歐氏距離做相似度度量指標,得出相同一類簇的距離越小,其相似度越高;不同類簇的距離越大,其相似度越低。 該方法在聚類過程中會因為受到極端值的影響而改變類簇的緊密性與離散性,降低整個聚類的準確性。 本文從樣本間的關系出發,首先采用高密度代替距離均值的方式,利用公式(3)計算最近鄰密度選取數據集中樣本密度較高的點作為第一個初始聚類中心c1,將其余對象劃分到已確定聚類中心的類別當中。

其中,xp(p=1,2,…,n) 表示n個m維數據集。

其次,在剩下的沒有被劃分類別的對象中,采用歐氏距離,利用公式(4)和公式(5)找到離c1最遠的下一個臨時聚類中心點ck并聚類:

其中,Denλ(xpi,ci) (pi=1,2,…,ni) 表示與聚類中心ci距離小于λ的所有數據對象;ni表示Denλ(xpi,ci) 中的對象數目;A為任意正常數。

λ的計算公式為

利用公式(7)計算該臨時聚類中心的密度,搜索距離其密度平均值最近的數據對象作為更新的聚類中心;如此迭代,直到得到所有初始聚類中心。 得到所有數據對象的二支聚類結果,表示為

K-means 聚類算法通常是任意選取k個聚類中心,通常帶有一定的隨機性。 本文提出了一種優化選取初始聚類中心的方法,利用樣本分布信息,選擇密度最高的點作為初始聚類中心,有效解決了人為因素干擾或者極端值影響導致聚類陷入局部最優的問題;限制聚類對象在λ的范圍內,更加精準地遠離了噪聲點的干擾;最終聚類結果中能夠滿足同一類簇的相似程度最高,不同類簇的相似程度最低的條件,確保了聚類的穩定性。

2 優化的K-means 算法的實驗驗證

實驗環境:Intel,CPU16 GB 內存,512 GB 固態硬盤,Windows10 操作系統,開發工具是Python3.8。

2.1 數據集選取

本文從UCI(University of CaliforniaIrvine)數據集中選取了5 組真實數據集,實驗數據集描述見表1。

表1 實驗數據集描述Tab. 1 Dataset description of experiment

2.2 實驗結果與分析

在實際聚類的過程中,為了確保數據的準確性,在聚類之前對數據均采取了無量綱化處理。 同時,本文利用兩個聚類有效性指標:內部指標Davies-Bouldin-Index(DBI)及外部指標Accuracy(ACC),驗證本文提出的優化后的K-means 算法的聚類有效性。 DBI 指標是通過數據對象之間的緊密程度和分離程度來判斷其內部結構和分布狀態,DBI 越小,說明同一類的相似性越高,不同類的相異性越高;ACC 指標是比較最終聚類結果與數據集原始真實標簽值,從而判斷數據的準確性。 實驗結果見表2,

表2 UCI 數據集上的實驗結果Tab. 2 Experiment results of UCI dataset

由表2 可知本文算法在數據集上擁有更小的DBI,說明優化后的K-means 算法同一類簇之間的緊密性高,不同類簇之間的分離性高;同時,本文算法在數據集上均擁有了較高的準確率,聚類效果較好。 說明表明優化的K-means 聚類算法更具有有效性,將其應用到客戶細分模型中去,可實現更好的聚類結果。

3 優化算法在客戶細分中的應用

3.1 模型構建

本文利用Kaggle 競賽平臺中下載的2011 ~2014 年全球消費數據樣本“Global Superstore”,選擇了5 191條美國“Business-to-Customer”領域的消費數據,消費時間為2011 年1 月4 日至2014 年12 月31 日。

首先,將數據進行預處理。 對給出的5 191條消費者數據進行訂單編號、日期、金額等指標進行篩選,樣本均在正常范圍內,無異常數據。

其次,創建RFM 模型,得到一份只含有R、F、M3 個指標409*3 的消費者數據(其中,R表示消費者最近一次交易時間距離2014 年12 月31 日的天數,F表示消費者在這4 年內的消費總頻次,M表示消費者在這4 年內的消費總金額),部分數據見表3。

表3 消費者的RFM 指標數據(部分)Tab. 3 The RFM indicator data of consumers(partly)

對409 位消費者數據的RFM 模型進行描述性統計分析見表4。

表4 消費者的描述性統計Tab. 4 Descriptive statistics of consumption data

通過表4 可知,R、F、M3 個指標之間存在較大的差異性,為了避免3 個指標的量級不同而影響到聚類結果,本文采用“Z-core 標準化”的方式處理數據,降低不同指標之間的差異,確保指標之間的變量具有可比性,標準化后的消費者的RFM 數據見表5。

表5 標準化后消費者的RFM 數據(部分)Tab. 5 The RFM indicator data of standardized consumers(partly)

3.2 聚類效果分析

用優化的K-means 算法對全球消費者數據進行聚類,將這409 位消費者聚成4 類,聚類結果見表6。 根據這4 個客戶群來劃分客戶類型,分別表示為核心客戶、保持客戶、一般客戶以及挽留客戶4 種。

表6 優化后的K-means 算法的消費者聚類結果Tab. 6 Consumer clustering results of optimized K-means algorithm

C1 為核心客戶,對于企業來說,這類客戶有較高的忠誠度,雖然人數不多,僅僅占整個人數的13.14%,但是平均消費頻率快,間隔次數短且消費金額高,是對企業發展貢獻最多的一類客戶。 企業需要抓住這類核心客戶,多與客戶溝通,時刻關注其購物需求,提供最大品牌優惠力度,開通特殊服務通道,推送有買有送的小禮品贈送服務,提升其購物體驗,保證核心客戶始終對企業有較高的滿意度。

C2 為保持客戶,人數在企業中的占比最多,占到了企業的2/3,但是消費水平處于一個比較居中的狀態,在RFM 模型中,雖然、值不如核心客戶C1,但其平均消費頻率更高,綜合來看依舊能保持在一個相對較好的消費水平。 因此企業應該尤為關注這類消費者,進行問卷調查,了解其消費偏好,及時調整企業自身存在的不足,并為其推出商品打折、滿減、優惠券等活動,促進其購買意愿,縮短消費間隔,增加消費頻次,可以將部分客戶轉化為忠誠客戶,減少這類客戶的流失。

C3 為一般客戶,這類客戶最終的RFM 模型中的3 個指標均不如C1 和C2,但是從來看,他們的消費能力并不算太差,說明其購買行為存在較大的隨意性,屬于沖動型消費人群,可能在遇上如年中大促等大型活動時才會產生較高的購買意愿。 因此,企業應該減少對這類客戶的資源投入,減少維護成本,在公司商品促銷、降價等活動中,利用短信、公眾號等渠道進行推送,吸引消費。

C4 為挽留客戶,這類客戶平均最近一次消費的時間有一年多,對于企業來說創造收益的價值較少,但是其人數占據總人數的6.56%,可能是新用戶,應該把握其消費取向,調整相關營銷策略,適當減少其消費間隔,吸引消費。

4 結束語

本文利用樣本間的分布,采用密度與距離兩者相結合的方法優化了K-means 聚類算法,通過聚類有效性指標驗證了該算法的有效性;將優化的Kmeans 算法應用到客戶細分模型中,并由此得出結論:留住高價值客戶,提高其對品牌的忠誠度;放棄低價值客戶,節省企業成本。

本文的算法在提高聚類準確率的同時,為企業分析客戶群提供了一種新的聚類方法,幫助其精準定位,有效營銷,具有一定的現實意義。 然而,如今的客戶細分的標準也開始呈現多樣性,不再局限于單一的RFM 模型。 因此,接下來將從數據特征出發,探究更多的劃分標準。

猜你喜歡
細分聚類距離
深耕環保細分領域,維爾利為環保注入新動力
算距離
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
1~7月,我國貨車各細分市場均有增長
每次失敗都會距離成功更近一步
整體低迷難掩細分市場亮點
愛的距離
一種層次初始的聚類個數自適應的聚類方法研究
紙媒新希望 看新型報紙如何細分市場逆勢上揚
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合