?

基于多種機器學習算法的員工離職預測模型對比及解釋研究

2021-11-05 14:17喬源陳夢帆
商訊·公司金融 2021年27期

喬源 陳夢帆

作者簡介:喬源(2000— ),男,漢族,遼寧大連人。主要研究方向:供應鏈管理。

摘 要:人才是企業的核心,如何留住人才是人力資源的核心命題?;诖?,本文首先建立了員工離職預測指標體系,接著使用7種機器學習方法對員工是否離職進行預測,并從準確率,f1得分,AUC,召回率,敏感度等五個評估指標進行綜合評估。實證結果表明:XGBoost算法具有高準確率和穩定性,較其他算法更優良。進而,本文采用cover準則對特征重要性進行了分析,員工是否離職決策更滿足社會人假說,員工往往更傾向于追求自我實現和工作的自我契合,企業應優先滿足員工社會層面的自我需求,有效防止員工離職。

關鍵詞:機器學習算法;員工離職預測;特征重要性

互聯網時代下,人才流動頻繁,核心員工的主動辭職,不僅會給公司正常運營造成影響,降低企業受益,而且會導致客戶流失,商業機密泄漏等諸多危害,如何通過歷史數據或員工標記準確判斷員工的離職傾向是人力資源管理的新研究方向。企業不再滿足于探究某一兩個變量或者因素和員工的離職的關系,因為員工離職往往是深思熟慮,眾多因素有機結合的結果,因此對員工大數據特征進行機器學習顯得很有價值。

通過收集員工特征大數據對于員工離職的預測不僅是人力資源領域的核心問題,也是機器學習算法研究的重要方向,部分學者側重某一或幾種因素的研究,李揚研究國有企業員工幸福感維度對于員工離職的影響,葉仁蓀等研究組織承諾的影響;而大部分學者則從機器學習的角度出發,并不關心內在的因素解釋,反而通過大數據機器學習的方式,最快最好地預測員工離職的結果,如劉婷婷選取IBM平臺樣例數據,運用C4.5決策樹預測員工離職傾向,張紫君則采用GBDT算法預測員工離職的問題,更多的是算法的縱向結合或者橫向比較。

但是目前學界對于離職預測往往僅追求的算法的精度,且所采用的算法大多是黑箱算法,難以直觀解釋。為進一步提升離職預測模型的性能及可解釋性,本文基于IBM數據科學公布的員工離職數據進行分析,橫向比較機器學習主流算法,通過預測準確率,f1得分,AUC得分,召回率,敏感度五項指標對模型評價和對比,最后通過性能最優的XGBoost算法以及其特征重要性解釋分析員工離職決策的成因,對降低員工離職率,改善企業人才資源配置,提高企業綜合績效等方面具有一定的參考意義。

一、變量說明及預處理

(一)數據來源與變量選取

本文數據來源DataFound平臺(https://www.datafountain.cn)上發布的IBM員工公開數據,數據包括定性和定量數據,選取全數據集33個字段,2000多條數據,具體數據名稱及含義如下表1所示:

(二)數據預處理

首先,本文對數據進行歸一化處理:

其次,為防止由于最終標簽的不均衡導致的誤差采用SMOTE方法按照1:1進行均衡采樣,SMOTE的原理是:對于少數類樣本a,隨機選擇一個最近鄰的樣本b,然后從a與b的連線上隨機選取一個點c作為新的少數類樣本,基本公式如下:

首先生成一個0-1之間的隨機數:rand(0,1)

其次選取一個少類樣本X原,并選取其相鄰最近樣本X相鄰,最終通過如下公式:

X新=X原+rand(0,1)*(X相鄰-X原)

使得樣本在標簽特征是否離職滿足處均勻分布。

二、研究原理

(一)傳統機器學習方法

本文采用三種傳統的機器學習方法:支撐向量機(SVM),其本質是一種線性分類器,是以訓練樣本為研究對象,通過某種事先選定的關系映射出一個樣本的高緯特征空間,并在其中找到一個超平面對樣本進行線性分類;決策樹(DT)是一種樹形分類器,即采用某種標準(如:C4.5,ID3等)通過搜索遍歷每一個節點的特征選擇,最終獲得一種最優分類的過程;邏輯回歸(LR)是一種線性分類方法,通過非線性變換的Sigmoid函數,采用梯度下降,或者二階的步長因子等對樣本進行二維空間的線性分類。

(二)集成學習方法

除了上述傳統的機器學習方法外,本文采用四種集成學習的方法:隨機森林(Random Forest)隨機森林是一種將多棵決策樹集成的算法,其中的每一個單元——每棵決策樹都是一個分類器,對于一個固定的輸入樣本,隨機森林通過Bagging思想,以一種算法投票的方式,從N棵樹會的N個分類結果選出最終的輸出,以提升相比于單一樹模型的分類結果的準確度;梯度提升樹(GBDT)也是一種組合樹型算法,以回歸樹作為基分類器,其核心就在于,每棵樹是從先前所有樹的殘差中來學習,以前模型中損失函數的負梯度值,作為新樹的殘差來對新樹進行優化,具有較好的優化性能。xgbBoost算法是GBDT算法的升級版,其在分類過程中就是不斷地添加決策樹,通過特征分裂來生成新樹,來擬合上次樹預測的殘差,從而達到優化的效果;LightGBM是一種基于決策樹算法的分布式梯度提升框架,每次從當前所有葉子中找到數量較大,分裂增益較大的葉節點,分裂形成新樹,如此循環,在xgb基礎上有效地減少空間和時間的小號,對cache優化也更加友好。

三、實證結果

(一)相關性分析

進行機器學習算法測試之前,先進行變量相關性分析,結果如下:由圖1可知,變量和目標都存在相關性,但雙變量之間的相關性都不高,這體現了員工離職往往不是由一個或兩個因素決定的,一般來說,離職都是一種深思熟慮之后的決定,說明本文通過大數據機器學習的方法統籌考慮所有變量整體研究具有一定的意義。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合