?

基于特征工程的民航旅客價值判斷方法研究

2024-05-09 15:28姚佳童郜美華楊勃吳越伯陳曦繳健
中國信息化 2024年4期
關鍵詞:航司旅客聚類

姚佳童 郜美華 楊勃 吳越伯 陳曦 繳健

一、引言

隨著民航信息化建設推進以及民航市場競爭日趨激烈,僅僅知道和了解顧客對航空公司已經或正在提供的服務產品的滿足程度是不夠的,只有以目前的服務產品為基礎,進一步研究和掌握旅客對航空公司服務產品的信任和忠誠程度,對于航空公司發掘潛在的旅客和需求,留住現有旅客,增加未來市場的銷售才具有重要意義?;诖?,本模型從不同維度出發,對旅客在民航市場中的價值以及消費趨勢進行評估,將旅客價值應用于旅客細分,為航空公司優化營銷資源分配,完善服務體系和市場策略,實現收益的高質量增長提供參考依據。

二、研究意義

(一) 提升市場競爭力

隨著航空市場的競爭加劇,航司需要更加精準地識別并滿足旅客的需求,以吸引和保留客戶。研究旅客價值可以幫助航空公司更好地理解旅客的消費行為和偏好,制定更加個性化的服務策略,提升旅客滿意度和忠誠度,增強市場競爭力。

(二) 優化資源配置

通過對旅客價值的深入研究,航司可以更加精確地預測旅客需求,優化航班安排、座位配置和機票定價等。這不僅可以提高航司的運營效率,減少資源浪費,還可以為旅客提供更加便捷、舒適的旅行體驗。

(三) 提升盈利能力

旅客價值的研究有助于航司識別高價值旅客,從而制定更加精準的市場營銷策略。通過為高價值旅客提供定制化服務、優惠政策和增值服務等,航司可以進一步提升旅客的購票意愿和支付意愿,從而增加公司的營業收入和利潤。

(四) 推動行業創新

旅客價值的研究不僅關注現有的旅客需求,還致力于發掘潛在的旅客需求和市場機會。這有助于推動航司在服務、產品和技術等方面的創新,為旅客提供更加多元化、個性化的旅行選擇。

三、實現技術

在本算法中,主要的三大步驟為特征工程、模型訓練以及模型預測,在特征工程中,主要涉及的技術為:

向量化(Vector Assembler):Vector Assembler是一個轉換器,將給定的列構成的列表組合成單個向量列。作用是對于將原始特征和不同特征轉換器生成的特征組合成單個特征向量,以便訓練機器學習模型。

標準化(Min-Max Scalier):標準化就是將需要處理的數據在通過某種算法處理后,限制將其限定在一定的范圍內。本算法用到的標準化方法為線性標準化,也稱min-max標準化、離差標準化,是對原始數據的線性變換,使得結果值映射到[0,1]之間。

獨熱編碼(One-Hot Encoder):One-Hot編碼,又稱為一位有效編碼,主要是采用N位狀態寄存器來對N個狀態進行編碼,每個狀態都有獨立的寄存器位,并且在任意時候只有一位有效。

線性回歸(Linear Regression):線性回歸是一種數據分析技術,通過使用一個相關的已知數據值來預測未知數據的值,以數學方式將未知變量或因變量以及已知變量或自變量建模為線性方程。線性回歸模型相對簡單,使用易于解釋的數學公式來生成預測。

決策樹(Decision Tree):決策樹是一種機器學習的方法。是一種樹形結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類結果。

隨機森林(Random Forest):隨機森林是一種由決策樹構成的集成算法,屬于集成學習的一種。隨機森林具有對高維數據的訓練也有很好的表現,無需特征選擇,可以計算出特征的重要程度,不容易過擬合,訓練速度快,對數據不平衡有良好支持等優點。

梯度提升回歸樹(GBT):基分類器是決策樹,既可以用來回歸,也可以用作分類。梯度提升回歸樹預測精度高,適合低維度數據,能處理非線性數據,對于異常值的魯棒性比較強。

聚類(Clustering):是按照某個特定標準把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大,即聚類后同一類的數據盡可能聚集到一起,不同類數據盡量分離。

四、算法設計思路

(一) 功能概述

旅客價值模型分類的目標是通過數據處理、聚類以及模型訓練,利用訓練好的模型預測將旅客進行消費價值屬性群體劃分,分成四類群體:重要保持客戶、重要發展客戶、重要挽留客戶以及一般與低價值客戶。

(二) 整體架構

旅客價值分類模型的整體架構分為三個部分。

將旅客使用聚類分類,并利用規則確定每一類的旅客價值標簽; 離線特征工程生成歷史旅客價值模型訓練的統計特征;根據特征進行模型訓練,對要分類的旅客進行特征工程處理,利用訓練好的模型對要分類的旅客進行旅客價值分類。

(三)總體設計

1. 計算指標

本節利用聚類的方法及相關領域的經驗,給出一套能初步判定旅客當前價值以及消費趨勢的規則,其中涉及到的規則有:

(1) 基于旅客的身份信息構建的規則:是否為大客戶;是否為常旅客。

(2) 基于旅客的購票頻率構建的規則:最近一次乘機出行距今時間;最近一年內的乘機次數。

(3) 基于旅客的消費能力構建的規則:最近一年的航段票價總花費;最近一年的機票升艙總花費;最近一年的飛行總里程;最近一年的機票平均折扣。

根據以上規則,選取一部分旅客,給相應的規則賦予不同的權重來標記出旅客的出行目的,并使用聚類算法分類出四個類別,參照規則將重要保持客戶、重要發展客戶、重要挽留客戶以及一般與低價值客戶與聚類出的四類結果進行對應,將不同類型的旅客劃分到不同的標簽中。

2. 特征工程

首先,從旅客行程表和航班計劃表中,根據實際業務,選取17個初始特征,內容如下:旅客ID、起飛時間、艙位、團隊出行標識、航段票價、大客戶標識、VIP標識、托運行李重量、特殊服務標識、付費座位標識、付費升艙錢數、其他消費錢數、常旅客標識、航班飛行里程、出發日期、出發機場、到達機場。

針對上述特征的缺失值和異常值,處理規則是選取該缺失特征匯總出現頻次最多的值為該值的填充值和修正值。對上述特征進行特征工程衍生處理,衍生出的特征為:旅客唯一標識(ID)、最后一次飛行距離現在的時間間隔、最近一年的出行次數、最近一年的平均航班折扣、平均跟團出行次數、航段總票價、大客戶標識、行李總重量、使用特殊服務的平均次數、付費選座總錢數、付費升艙總錢數、選座總里程、常旅客標識、總飛行距離、總飛行平均折扣、其他花費總額、旅客價值登機(標簽)。

之后將上述特征進行標準化、獨熱編碼以及向量化,方便作為模型的輸入進行訓練。

3. 模型訓練

將上個步驟中的特征工程后的數據分成訓練集和測試集兩部分,分配的比例為8:2,將訓練集分別輸入到線性回歸、決策樹、隨機森林以及梯度提升回歸樹模型中進行訓練,之后分別計算出上述四個訓練好的模型在測試集上的準確度(采用計算交叉熵損失的方法), 經過測試,使用K-means聚類算法和隨機森林算法訓練出的模型具有最優異的正確率,將模型導出并保存到指定路徑中。

4. 模型預測

獲取歷史一年已完成的用戶以及航班相關數據,先進行特征工程處理,然后將輸出的特征傳入到上個步驟中已保存的模型進行預測,對每個旅客預測出的結果即為旅客的價值等級:重要保持客戶的結果值為1;重要發展客戶的結果值為2;重要挽留客戶的結果值為3;一般客戶與低價值客戶的結果值為4。

5. 輸出結果

結果表中的內容包含有如下字段信息:旅客唯一標識號(ID);旅客所屬的價值等級。

五、結語

本文深入研究了民航領域的旅客價值判斷問題,提出了系統性的旅客價值分類模型方法。該方法通過聚類分類方法,將旅客精準劃分為不同群體,并為每一類賦予相應的價值標簽,從而更細致地理解其消費行為和潛在價值。離線特征工程提取歷史數據中的統計特征,充分反映旅客行為模式和價值趨勢。最后,利用這些特征和一系列模型對旅客進行價值分類,實現精準評估和有效管理。這一方法不僅提高了旅客分類的準確性,也為航空公司進行用戶畫像和精準營銷提供了數據支持,有助于優化資源配置,提升市場競爭力,推動民航業的可持續發展。

猜你喜歡
航司旅客聚類
NOAA聯合航司推出溫室氣體追蹤新技術 可測量飛機飛行途中溫室氣體
非常旅客意見簿
“隨心飛”變“鬧心飛”,薅羊毛套路有多深?
更正說明
黑票代
我是人
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
給小旅客的禮物
一種層次初始的聚類個數自適應的聚類方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合