?

基于機器學習技術的黃鶴樓品牌零售戶價值分析研究

2023-06-22 19:14王琴馬琳陳力
現代信息科技 2023年5期
關鍵詞:機器學習

王琴 馬琳 陳力

摘? 要:卷煙零售戶是煙草企業賴以生存的重要保障。為科學有效把握卷煙市場行情,合理制訂黃鶴樓品牌銷售服務的市場策略和方針,以黃鶴樓品牌零售戶樣本作為基礎,從其訂單特征入手,運用K近鄰分類算法,快速充分地對零售戶價值進行分類,構建出黃鶴樓品牌的零售戶價值分類模型。該模型可以有效推進智能營銷工作,實現市場營銷高質量發展,從而更好地服務于黃鶴樓品牌,服務于精準營銷。

關鍵詞:零售戶價值分類;K近鄰算法;機器學習

中圖分類號:TP391;G203? ? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0132-04

Retail Merchants Value Analysis of Yellow Crane Tower Brand Based on Machine Learning

WANG Qin, MA Lin, CHEN Li

(Wuhan Wendao Information Technology Co., Ltd.,? Wuhan? 430040, China)

Abstract: The cigarette retail merchants are an important guarantee for the survival of tobacco companies. In order to scientifically and effectively grasp the cigarette market situation, reasonably formulate the Yellow Crane Tower brand sales and service market strategy and policy, with the Yellow Crane Tower brand retail merchants samples as a basis, this paper starts from the order characteristics, uses K-nearest neighbor classification algorithm to fast and fully classify the retail merchants value, build the Yellow Crane Tower brand retail merchants value classification model. This model can effectively promote the intelligent marketing work and realize the high-quality development of marketing, so as to better serve the Yellow Crane Tower brand and serve the precision marketing.

Keywords: retail merchants value classification; K-nearest neighbor algorithm; machine learning

0? 引? 言

卷煙零售戶是煙草企業賴以生存的重要保障,是煙草企業和廣大煙草消費者溝通的橋梁和紐帶,在卷煙銷售渠道中占據著重要地位[1]。卷煙零售戶直接與消費者接觸,擁有巨大的直接價值和潛在價值。直接價值決定了當前卷煙品牌的盈利水平。潛在價值則更關乎著未來是否可持續發展及長遠的利潤保持。卷煙品牌在全國各個地區的銷售情況可從卷煙零售戶下的訂單中快速、直觀地獲取,是卷煙品牌在各地卷煙市場銷售情況分析中關鍵的一個環節。據統計,掌控關鍵指標前20%的零售戶信息可影響接近80%的目標消費者,這種強鏈接的供需關系充分體現了卷煙零售戶直接與消費者對接的強關聯性,這種銷售關系模式在卷煙銷售渠道中占據重要地位,是煙草行業發展的咽喉所在。因此,根據現有的銷售數據、訂單數據、市場價格數據,借助分析工具對卷煙零售戶進行價值分類,進行量化分析,推動打造結構合理的零售體系,這對于更好地把握卷煙市場,為卷煙品牌的銷售服務確定有效的市場策略和方針起到重要的參考及指導作用[2]。因此,快速有效地對零售戶價值情況進行充分、全面、合理、科學的分類,促進卷煙貨源分配政策更加科學化、規范化、智能化,使卷煙貨源的組織與投放更加精準,為卷煙品牌的未來發展決策發揮舉足輕重的作用[3]。

當前,湖北中煙成立的智能營銷小組正從多個方面運用智能化手段,全力推進智能營銷工作開展,全面實現市場營銷高質量發展。如何科學、快速獲取黃鶴樓品牌的有價值的目標零售廣也是該工作中的重要一環,本項目將著力于通過機器學習智能化研究黃鶴樓品牌的零售戶的價值分析,持續提升發展效益,使得整體質量發展向好,從而更好地服務于黃鶴樓品牌,服務于精準營銷。

1? 黃鶴樓品牌零售戶樣本研究

各卷煙品牌在全國各個地區的銷售數據可從卷煙零售戶下的訂單中快速、直觀地獲取。它是對各卷煙品牌在全國卷煙市場銷售情況分析中最關鍵的一個環節,同時卷煙銷售數據中零售戶質量也是煙草行業高質量發展工作中的重要指標之一。

隨著人工智能的機器學習技術的日益發展,物流數據的智能化和信息化給煙草零售戶的銷售行為提供越來越多的便利。當前,湖北中煙成立的智能營銷小組利用機器學習算法對2021年上半年黃鶴樓品牌的湖北省內訂單中的零售戶質量進行研究分析,從中提取了關于零售方向中刻畫煙草零售戶質量的更顯著特征,以便更好地服務于黃鶴樓品牌,服務于精準營銷。這個項目對黃鶴樓品牌的發展具有重要的意義。

本次項目實驗數據為黃鶴樓煙草2021年上半年湖北省內訂單的詳情數據,數據總量約22.58萬條,初始特征為銷售業態以及黃鶴樓品牌的總訂單量、需求量、最大訂購量等總計31個特征值。

根據銷售業態來看,其中食雜店17.24萬戶,便利店2.72萬戶,其他0.91萬戶,煙酒店0.79萬戶,商場0.7萬戶,娛樂服務0.18萬戶,未知業態556戶。其中食雜店占比較多,達到76%,這也側面反映出食雜店銷售的范圍廣,同時因為食雜店更多地擁有柜臺式服務,顧客更有可能在購買其他產品的時候也同時咨詢挑選并購買黃鶴樓產品。

根據零售戶所在地區來看,總計涉及17個地市,其中,分布較多的地區分別為:武漢3.73萬戶,黃岡2.93萬戶,荊州1.93萬戶,襄陽1.75萬戶,宜昌1.72萬戶;分布較少的地區分別為:鄂州5 751戶,仙桃4 754戶,天門3 836戶,潛江3 474戶,林區550戶。從各地區的銷售戶數據可看出,人口基數的大小很大程度影響零售戶的數量。黃鶴樓品牌營銷部可考慮在人口密集區域增加黃鶴樓產品的購進頻次和覆蓋程度。

其中,營銷系統的核心價值客戶數量為1.68萬戶,占總客戶數的7.4%,其中,基礎戶1.34萬戶,重點客戶0.25萬戶,核心客戶0.09萬戶。通過數據驅動的分化,可以對三種類型的核心價值零售戶分別積極采取相應的措施,增加零售戶忠誠度,提高黃鶴樓品牌寬度,從而促進黃鶴樓品牌銷量與市場狀態協調發展。

本次項目利用機器學習的分類算法,學習出1.68萬核心價值客戶的分類特征,繼而擬合剩余20萬的客戶特征,對其進行類型劃分。

2? 黃鶴樓品牌零售戶價值分類模型研究

黃鶴樓品牌零售戶價值分析模型將依據以上樣本研究進行構建,構建的模型基于機器學習中的K近鄰算法,該模型將為黃鶴樓品牌的零售戶做出價值分類,模型流程如圖1所示。

2.1? 特征提取與處理

根據黃鶴樓品牌零售戶樣本分析,此次實驗包含22.58萬條數據,31個特征。其中數據特征如業態、黃鶴樓訂單量、月購進量、月進貨額、月訂購次數等。

在構建零售戶價值分類模型之前,需要對原始數據進行數據清洗及特征提取。數據清洗是將重復、多余的數據篩選清除,將缺失的數據補充完整,將錯誤的數據糾正或者刪除,最后整理成為可以進一步加工、使用的數據。圖2和圖3中展示了黃鶴樓訂單量和黃鶴樓競品訂單量這兩種特征在進行數據清洗前后的分布情況,其中,左圖中有2個噪點,代表競品訂單量在150以上,通過篩選查看這兩名客戶的信息,分別為武鐵和襄鐵局,為特殊客戶,不在本次研究范圍內,因此要將其剔除,右圖展示了剔除后的分布情況。

特征選擇類似于降維技術,其目的是減少特征的數量,區別在于特征選擇會選擇要從數據集中保留或刪除的要素,而降維會創建數據的投影,從而產生全新的輸入要素[4]。圖4、圖5、圖6、圖7展示了各個特征的分布情況。

本次實驗使用相關性系數來對特征進行選擇,相關系數是最常用的統計度量。用一個數來描述兩個變量之間的相關聯的程度。常用的三種相關系數為:皮爾遜相關系數,斯皮爾曼相關系數,Kendall相關系數[5]。本次模型采用皮爾遜相關系數,皮爾遜相關(Pearson correlation),通常用字母r表示,衡量兩個隨機變量之間的線性關系(或者說線性關聯度)[6]。兩個變量之間的總體(population)的皮爾遜相關系數定義為兩個變量之間的協方差和標準差之積的商(或者說,歸一化的協方差,其定義如式1所示[7]:

(1)

估算樣本的協方差和標準差,可得到(樣本的)皮爾遜相關系數,常用英文小寫字母r代表,r的表達式如式2所示:

(2)

此次實驗通過皮爾遜相關系數,計算每個特征與其他特征之間的相關性,最終選取其中7列特征,分別為:業態,高價位訂貨金額,純高端訂貨金額,普一類訂貨金額,二類訂貨金額,黃鶴樓訂貨金額,競品訂貨金額。

在特征選取完成以后,考慮到此處是每個價格檔位煙的訂購金額以及業態(此處的業態已經轉化為1~6的數字),需要對數據進行標準化、歸一化的處理,其作用是主要解決數據無量綱化處理,通過消除數據的單位限制并將其轉換為無量綱的純數字,可以防止某一維或某幾維對數據影響過大,同時有抗異常值的能力,比較穩定,適合嘈雜的數據場景,這里將采用均值方差歸一化的方式進行特征處理[8]。

2.2? K近鄰模型構建

本文選用K鄰近算法對黃鶴樓品牌零售戶進行價值分類。K近鄰算法是數據挖掘技術中最簡單的機器學習算法之一,該算法能夠用于分類、回歸、降維、矩陣分解、聚類、異常值檢測,等等,本文提到的K近鄰算法將用于分類任務[9]。該算法的核心思想是“物以類聚,人以群分”,當需要判斷綠色實例的類別時,查看它附近的所有類別,采取多數表決的決策規則(紅色2個多于藍色1個),因此把綠色實例歸類到紅色。

本次實驗對黃鶴樓品牌零售戶的數據進行特征選取之后,將數據劃分為測試集及訓練集,在建立訓練集時,確定訓練數據及其對應的類別標簽;然后把待分類的測試數據與訓練集數據依次進行特征比較;從訓練集中挑選出最相近的k個數據,這k個數據中投票最多的分類,即為新樣本的類別[10]。K近鄰算法首先會計算測試數據各個訓練數據之間的距離,對距離從小到大進行排序,選取距離最小的k個點,然后確定k個點類別的出現頻率,最后出現頻率最高的類別作為預測分類[11]。

2.3? 模型驗證

K近鄰算法模型構建完成后需要對該模型進行調優驗證,通過K近鄰算法結合網格搜索、交叉驗證等方式,對數據進行擬合,其中,網格搜索是設置若干組超參數,使每組超參數都用交叉驗證來評估準確性,最后根據準確率來選出最優參數建立模型。交叉驗證是模型調參的過程,第一步,把訓練數據進一步分為訓練集和驗證集,通過K折交叉驗證法,即步驟一:把訓練數據平均分成K(這里的K是K折中的K,不是模型的K)份,拿其中一份來驗證,其他用訓練模型;步驟二:重復步驟一,但是驗證集選擇不一樣的,這樣可以進行K次。步驟三:把K次的結果求一個平均值,就得到這個參數值的準確率。步驟四:重復步驟一到三,選取準確率最高時的參數作為模型參數。

本次實驗參數包含weights、n_neighbors、p,n_neighbors是鄰居數量,當weights=uniform時,所有距離權重相同,不考慮距離。當weights=distance時,p值才有意義:當p=1時,使用曼哈頓距離計算;當p=2時,使用歐式距離計算;當p=3或其他時,使用閔可夫斯基距離計算。通過配置GridSearchCV(網格搜索),尋找最佳KNN最佳模型參數組合,其中共設置兩組參數,第一組為:n_neighbors=[1-20),weights=uniform;第二組參數為:n_neighbors=[1-20),weights=distance,p=(1-10),共擬合950次。從擬合的結果來看,第一組參數忽略距離權重效果最佳。表1展示了第一組n_neighbors從1到19,weights=uniform時的模型分數值。

3? 結? 論

K近鄰算法精度高、對異常值不敏感的優點可以很好地模擬零售戶的價值分析,運用K近鄰算法搭建黃鶴樓零售戶的價值分析模型可以快速高效地尋找省內有價值的目標零售戶,使煙草企業可以更好地按照零售戶群體不同的價值來進行分配資源,將有限的資源得以合理地利用。下一步可繼續將機器學習技術的方法應用到黃鶴樓品牌的月度、滾動銷售預測、調撥預測、消費者洞察分析等多方面的預測分析場景中去,更好地服務于湖北中煙的精準營銷。

參考文獻:

[1] 徐維超.相關系數研究綜述 [J].廣東工業大學學報,2012,29(3):12-17.

[2] 蘇毅娟,鄧振云,程德波,等.大數據下的快速KNN分類算法 [J].計算機應用研究,2016,33(4):1003-1006+1023.

[3] 黃世反,沈勇,康洪煒,等.基于KNN的煙草企業檔案文本自動分類算法研究 [J].計算機科學與應用,2014,4(9):13.

[4] 鄭國柱. 基于SOA和ESB技術的煙草行業主數據管理平臺的設計與實現 [D].北京:中國科學院大學(工程管理與信息技術學院),2016.

[5] 楊繼志,郭敬.機器視覺在煙草行業的應用 [J].機電產品開發與創新,2011,24(6):124-126.

[6] 張萍.新一代信息技術在煙草行業中的多元化應用對策研究 [J].天津農業科學,2021,27(1):34-37+43.

[7] 張煥家,郭大權.煙草物聯網大數據平臺架構研究與應用探討 [J].信息技術與信息化,2020(1):129-131.

[8] 蒲可. 數據驅動的煙草生絲水分控制系統設計與實現 [D].綿陽:西南科技大學,2022.

[9] 章惠民.福建煙草商業系統大數據技術研究與應用 [J].中國煙草學報,2019,25(6):98-104.

[10] 安梓郡.山東省煙草公司發展戰略研究 [D].濟南:山東大學,2019.

[11] 曾嘉.大數據在煙草銷售中的應用分析 [J].中國集體經濟,2021(36):62-63.

作者簡介:王琴(1981—),女,漢族,湖北荊門人,工程師,本科,研究方向:信息化項目管理及實施、大數據管理與應用;馬琳(1987—),女,漢族,山東泰安人,工程師,碩士,研究方向:信息化項目管理及實施;陳力(1987—),男,漢族,湖北黃石人,工程師,本科,研究方向:信息化項目管理及實施、云計算。

收稿日期:2022-10-15

基金項目:黃鶴樓科技園科技項目(2022JSZN4KJ-XX2-010)

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網中“人工智能”的應用
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合