?

基于K-means聚類分析的航空旅客在線購票行為研究

2019-12-24 05:51
新營銷 2019年8期
關鍵詞:訂票購票旅客

(中國民航大學經濟與管理學院 天津 300300)

引言

隨著互聯網以及手機支付的快速發展,越來越多的旅客在出游時選擇線上購買機票的方式,旅客購票渠道主要分為兩種,一是通過航空公司官方網站進行購票,二是通過第三方訂票平臺購買機票。線上購票日益成為主流的購票方式。不同的旅客懷揣著不同的目的選擇購票方式,有的用戶追求線上購買的方便快捷和高效,有的則是為了更大的折扣和更低廉的價格,如何對這些旅客進行有效分類,并通過不同的營銷策略來吸引他們訂票將成為航空公司和第三方訂票平臺需要思考的主要問題。

傳統的航空旅客主要依據旅客的累計飛行里程將乘客劃分為不同的會員等級,對旅客的聚類也主要通過用戶的基本信息諸如性別、年齡、職業、收入等傳統因素。根據飛豬平臺2017年統計結果顯示,超過83%的飛豬平臺用戶是“85后”的年輕人。隨著用戶的年輕化,出行需求也隨之變革,年輕一代的消費習慣更趨向個性化與定制化。航空公司和第三方訂票平臺要想吸引這部分在線訂票旅客,就要抓住不同類別旅客的特征并推行不同的營銷策略。

一、聚類指標的選取

本文在聚類指標的選取上參考了前人的研究成果。呂紅霞等在《基于聚類分析的鐵路出行旅客類別劃分》中采用了分層凝聚類法中的凝聚法進行變量聚類,并選擇年齡、性別、月收入、出行目的、費用來源等指標對旅客樣本進行聚類;顧兆軍等在《基于潛在類別模型的航空旅客分類》中運用了潛在類別模型對民航旅客進行分類,選取了旅客的性質、購票方式、艙位性質、提前購票時間、離港時刻以及離港日期是否是節假日等指標反映旅客的出行目的;許青林等在《一種基于航空旅客行為的旅客細分模型》中提出一種旅客價值評價模型來提高旅客細分的準確度,分別選取了TSDHFG6個指標。

參考以上研究中所選擇的航空旅客的主要特征并加入在線購票旅客的特點,本文選取的劃分依據包括如下指標:年齡、購票渠道、選擇該種購票渠道的原因、提前購票時間、出行目的、購票時最主要考慮的因素以及旅客每日上網時間。通過對以上指標進行量化作為在線購票旅客的屬性特征,用于旅客樣本的聚類分析。

二、基于K-means算法的在線購票旅客聚類模型構建

K-means算法是最常用的基于劃分的聚類方法,根據數據樣本中的屬性值之間的相似度來對數據樣本進行區分。隨機的選取K個初始的聚類中心,不斷地迭代,直到取得目標函數的最小值或無法進一步地優化,則生成最后的模型,即為聚類的最終結果。

我們選擇K-means聚類算法是因為它是一種較為成熟的聚類算法,該算法本身具有優化迭代功能,可以克服樣本數量較少時聚類的不準確性。另外,由于只是針對部分小樣本所以可以降低總的聚類時間復雜度。

以本文為例,我們一共選取了816個樣本,每個樣本信息具有7個屬性值,分別為年齡、購票渠道、購票原因、提前購票時間、出行目的、每日上網時間、購票主要考慮因素。這7個屬性從不同的維度描述了各個樣本數據的特征。每一個樣本最終都會被劃分到一個簇族中,我們設定將816個樣本劃分為K個簇族,最終就會生成K個聚類中心。

在線購票旅客聚類的模型如下

(1)

其中,k表示聚類個數,xj表示第j個在線購票旅客,ui表示第i類在線購票旅客的聚類中心,V表示樣本xj到其所在類別聚類中心ui的距離平方和。

三、在線訂票旅客聚類過程

(一)實驗過程

1.數據預處理

數據來源包括計算機訂座系統(CRS)中的旅客PNR記錄及在線調查問卷,隨機抽取2017年6-12月CRS中的數據,整理問卷所得數據,對數據進行量化和定性描述,實驗數據集包含816個樣本,有7個屬性如表1所示。

表1 在線購票旅客特征數據集

其中,年齡A1~A6分別代表18歲以下、18~24歲、25~35歲、35~45歲、45~60歲及60歲以上;購票渠道B1~B4分別代表航空公司官網、代理人網站、微信支付寶和其他;購票原因C1~C7分別代表可以購買折扣票、推出附加服務(如旅行路線、酒店預定)、購票方便、無需下載App、熟人或朋友推薦、受廣告影響、單位指定售票點購買;提前購票時間D1~D6分別代表當天、出發前1~3天、出發前4~7天、出發前8~14天、出發前15~30天、出發前30天以上;出行目的E1~E5分別代表公商務出差、探親訪友、度假旅游、學生上學和其他;每日上網時間F1~F4分別代表一小時以下、1~3小時、3~5小時、5小時以上;購票主要考慮因素G1~G7分別代表時刻、價格、航空公司品牌、航班班次、機型、托運額度及餐食、其他。

2.基于K-means算法的初步聚類

選取在線購票旅客特征數據,對在線購票旅客的7個屬性指標數據進行聚類,初始聚類中心為軟件自動生成,分別選取K均值為2、3、4、5、6等多個參數進行實驗分析。通過HART檢驗,發現聚類數為3時得到的聚類效果最好,初步將在線購票旅客分為3類。

(二)聚類有效性檢驗

Hart指標可以用于聚類分析中最佳聚類數的檢驗,Ha≤10時,其最大值對應的類數作為最佳聚類數。

(2)

式中:k為聚類數,n為樣本個數,trW(k)為組間離差矩陣的跡。由表2可知,Hart指標得到的最佳聚類數均為3。

表2 不同聚類數的Hart值

(三)聚類結果分析

表3描述了最終聚類中心各個旅客特征的情況,根據聚類有效性檢驗以及聚類有效性評價指標得到K=3時聚類效果最好。

表3 最終聚類結果

聚類結果如表3所示,對各個簇族進行分析,我們可以將聚類1概括為“年輕的休閑旅客”。該類別旅客的年齡組成主要為25~35歲,主要的購銷渠道為代理人網站,選擇該類渠道的主要原因是可以購買到折扣票,提前購票時間主要為8~14天,出行目的為旅游度假,每天使用手機上網的時間多數在3~5小時,購票時最關心的因素為票價。

聚類2與聚類1較為相似,只在兩個屬性上略有差異。聚類2可以概括為“窮游的學生旅客”。該類別的購票者的年齡組成主要為18~24歲,主要購銷渠道同樣為代理人網站,選擇該類渠道的主要原因是朋友推薦,提前購票的時間主要為8~14天,出行目的主要為旅游度假,每天使用手機上網的時間大概在3~5小時,購票時最關心的因素仍然為票價。

聚類3可以概括為“高品質的中年旅客”,該類別旅客的年齡組成主要為35~45歲,主要的購票渠道為代理人網站,選擇該類渠道的主要原因是受到廣告的影響,提前購票的時間為4~7天,出行目的主要為探親訪友,每天使用手機上網的時間在1~3小時左右,購票時最關心的因素為航空公司的品牌。

四、在線購票旅客聚類的營銷管理應用

根據問卷調查顯示,71%的旅客會選擇通過多種渠道比較來購買機票,且大部分乘客表示不會忠誠于一家訂票平臺。這說明隨著可供選擇的訂票平臺的增多,旅客會更加理性地選擇符合自身需求的購票方式。

對于聚類1“年輕的休閑旅客”而言,該類乘客購票的主要目的是旅游度假,購票時考慮的主要因素是票價,說明該類乘客對價格的敏感程度較大。針對該類旅客,購票平臺可以推出少量的節假日特惠旅行機票,并且在旅客出行前一至兩個月就為乘客推送該條線路上的機票信息,設置低價提醒。

對于聚類2“窮游的學生旅客”而言,該類乘客的最大特點是時間充裕,對票價較為敏感。所以針對該類乘客,航空公司以及訂票平臺可以在學生出行較為集中的一些線路中開設學生特惠機票。另外,“90后”是喜歡社交的年輕一代,要想提高這一類旅客的購票忠誠度,第三方訂票平臺可以打造自己的社交圈,讓用戶在其App上發布自己的出行動態,旅行攻略,并給予其積分獎勵或者其他的訂票優惠獎勵,提高訂票平臺的分享度。

對于聚類3“高品質的中年旅客”而言,該類乘客在航班選擇上考慮的首要因素是航空公司的品牌,且出行的目的主要為探親訪友??梢娫擃惵每透又匾暵眯械捏w驗、服務、舒適度以及航班安全性。購票平臺在吸引該類乘客時應注重推送高品質的航班信息,如較好的航班時刻、大型的航空公司、舒適度更高的機型。

五、結論

本文以通過線上購買機票的航空旅客為研究對象,運用K-means聚類算法對旅客樣本進行聚類,并根據聚類有效性指標對聚類結果進行分析得到了如下結論。

(1)基于K-means聚類算法,可以很好地利用在線購票的航空旅客自身屬性,將旅客劃分成不同類別,基于聚類有效性指標以及假設檢驗,可以確定劃分結果的準確性,將具有相似屬性的旅客劃分為同一類別。

(2)通過對前人的研究總結,我們選取了7個屬性值來描述樣本的特征,通過K-means聚類算法,以及Hart聚類有效性指標得到將樣本劃分為3類時聚類效果最好,說明聚類結果準確可靠。這三類旅客可分別概括為“年輕的休閑旅客”,“窮游的學生旅客”,以及“高品質的中年旅客”。

由于本文的數據量較少,在聚類結果上可能存在一些誤差。另外,由于K-means聚類自身的局限性即無法自行選擇初始聚類中心也可能對最終的實驗結果造成影響。

猜你喜歡
訂票購票旅客
不同的購票方法
非常旅客意見簿
直擊痛點的“候補購票”可多來一些
鐵路候補購票服務擴大到全部列車
航空訂票惡意行為檢測方法
我是人
訂票姑娘
給小旅客的禮物
金旅客車
稍安勿躁
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合