基于三階段集成學習的信用卡欺詐檢測研究

2023-02-22 03:01阮素梅孫旭升甘中新

運籌與管理 2023年12期

阮素梅, 孫旭升, 甘中新

(1.安徽財經大學金融學院,安徽蚌埠 233030; 2.合肥工業大學管理學院,安徽合肥 230009; 3.Solbridge International School of Business,Woosong University, Daejeon 300814, South Korea)

0 引言

欺詐是指用狡猾手段使人發生錯誤認識從而施詐于人的故意行為。信用卡欺詐則是指為了謀取個人經濟利益故意使用偽造、廢棄的信用卡或盜用他人信用卡進行惡意消費和惡意透支的行為。近年來,互聯網的快速發展促進了各大傳統行業的變革,而“互聯網+信用卡”的結合更是促進了信用卡在全球范圍內的普及。僅在2018年,全球信用卡欺詐的損失就高達278.5億美元。BUONAGUIDI等[1]表明:2020年“新冠”肺炎流行期間,全球發生信用卡欺詐案件數量更是激增,美國4月份信用卡欺詐交易的金額同比增長了35%。為避免信用卡欺詐帶來的巨大的經濟損失,眾多學者都致力于研究信用卡欺詐檢測系統,以阻止欺詐交易的發生。

信用卡欺詐交易檢測通常包括不均衡樣本處理、特征工程和模型搭建三個環節。LIN等[2]提出信用卡交易數據集通常在前兩個階段呈現出樣本類別高度不平衡和特征冗余的特點,即正常交易遠多于欺詐交易并且交易數據特征的維度較高。這些特通常會導致模型對多數類樣本產生過擬合,從而導致模型的預測精度下降。近年來,隨著機器學習算法的興起以及其展現出的良好性能,學者們將其引入到信用卡欺詐檢測系統中,包括人工神經網絡(ANN)[3]、邏輯回歸(LR)[4]、支持向量機(SVM)[5]、決策樹(DT)[6]等單一模型和極端梯度提升(XGBoost)[3]、隨機森林(RF)[7]等集成學習模型。其中,集成學習通過綜合若干基模型的學習成果提升模型的泛化能力,是解決訓練過擬合的重要方法[8]。但是,以往研究通常僅在模型搭建這一環節使用了集成學習,并沒有通過集成學習解決前兩個環節中的樣本不均衡和特征冗余問題,因而檢測效果差強人意。

針對以往研究存在的不足,本文嘗試從特征選擇、不平衡處理以及分類器融合進行三階段集成學習,將集成學習的思想貫穿始終,并據此提出“FS-IFKK-Stacking”模型:第一階段針對數據集特征冗余,分別采用六種基學習器篩選最優特征,并結合投票方法得到低維重要特征子集;第二階段針對數據集高度不平衡性,基于孤立森林IsolationForest[8]、K-Means++聚類以及KNN-IFKK重采樣算法生成若干個具有代表性的平衡數據組供模型訓練使用,第三階段基于Stacking算法集成由11種機器學習單一模型組成的模型,并結合多數投票法Majority voting構建異構集成模型作為最終預測模型?；跉W洲信用卡交易數據的預測實驗表明,本文提出的“FS-IFKK-Stacking”模型對信用卡欺詐檢測效果顯著優于基于原始樣本訓練得到的單分類基準模型。相對于表現最佳的基準模型,該模型對欺詐交易的召回率Recall提升了3.27%,AUC值提升了0.44%。本文提出的“FS-IFKK-Stacking”是對現有信用卡欺詐交易模型的有效改進。具有重要的理論意義和實踐價值。

1 三階段“FS-IFKK-Stacking”檢測模型

1.1第一階段:特征選擇

信用卡欺詐數據中存在的特征高維度、冗余特征會影響傳統檢測模型的性能,因此要對其進行特征選擇,常用的方法包括主成分分析(PCA)、互信息、隨機森林,XGBoost特征排序等方法,但是不同的方法有各自優缺點,例如PCA算法使用方差衡量信息量,并且可以消除原始數據特征間相互影響的因素,但生成的特征模糊性高、可解釋性不強;互信息算法具有簡單、易實現的優勢,但容易導致特征冗余,同時易受邊緣概率影響,偏向于選擇稀有特征;隨機森林隨機選擇決策樹節點劃分特征,能夠高效地對高維樣本進行訓練,但傾向于選擇取值較多的特征。只運用一種方法并不能有效滿足高維信用卡欺詐數據的特征選擇,使用集成方法將多個基分類器特征選擇的結果進行排序,將各種特征子集的交集選為最優特征選擇結果能夠提高特征選擇的魯棒性。

本文將過濾法(Filter)、封裝法(Wrapper)和嵌入法(Embedded)結合起來進行特征選擇,首先將過濾法中的卡方檢驗、互信息分類以及嵌入法中的帶L1懲罰項的邏輯回歸、極端提升樹、XGBoost和LightGBM這六種基模型進行特征選擇,對這六種模型選擇的最優特征進行投票。特征每被選中一次得一張票,刪除得2張及以下票數的弱特征,本文最終保留得4張及以上票數的強特征,將得3張票數的特征列為臨界特征。為了進一步檢驗臨界特征的有效性,本文引入了封裝法,將得4張及4張以上票數的特征集列為A組,3張及3張以上票數的特征集列為B組,將A、B兩個特征組輸入多個模型進行訓練對比效果,最終選出能夠明顯區分信用卡欺詐交易的最佳特征組。

1.2 第二階段:數據不平衡處理

解決信用卡欺詐數據高不平衡性問題的重采樣方法包括欠采樣和過采樣,LIN等[2]研究證明了欠采樣技術優于過采樣技術,因此本文基于欠采樣方法的改進?；贙-Means聚類的欠采樣是目前常用的欠采樣方法,其核心思想是對多數類樣本進行聚類,從每個簇中提取聚類中心點或聚類中心點近鄰來代表各個簇的多數類樣本,直至多數類樣本數量接近少數類樣本。但是K-Means算法對異常點和噪聲敏感,受初始聚類中心的位置影響較大,同時該聚類欠采樣方法僅僅選取各簇中一個代表性的點,可能會刪除多數類中有價值的樣本點。為了彌補單一欠采樣技術的不足,本文提出一種基于孤立森林、K-Means++聚類、KNN的平衡數據的方法——IFKK。

孤立森林(Isolation Forest)是由FEI 等[8]提出的一種異常點檢測算法。該方法將異常點定義為容易被孤立的離群點,即稀疏并且距離密度高的群體較遠的樣本點。IFKK方法通過IsolationForest去除異常點和噪聲,隨后使用K-Means++算法優化初始聚類中心選擇和提升算法收斂速度,保證了平衡數據組中樣本的代表性。本文利用KNN算法提取各簇聚類中心第一最近鄰點和少數類樣本組成第一平衡數據組,再提取各簇聚類中心第二最近鄰點和少數類樣本組成第二平衡數據組并進行下一步迭代。最終,本文根據數據規模共提取出21組具有代表性的平衡數據組,以保證均衡樣本的多樣性。

1.3 第三階段:集成模型

欺詐檢測模型包括單一的機器學習模型和集成學習模型,眾多研究證明主流的集成學習模型要優于單一機器學習模型。集成學習模型中常用的Bagging和Boosting是只包括單一基模型的同質集成學習器,而Stacking算法屬于異構集成學習器,基模型的種類更加多樣化,能夠實現“博采眾長”。不同基模型間較低的相關性可以提高算法的誤差校正能力,因此基模型差異度和精度越高,最終Stacking集成算法的效果也會更好。

圖1和圖2是加入了交叉驗證的Stacking算法示意圖。第一層基模型訓練過程如圖1所示,用Model1對訓練集進行五折交叉驗證生成Model1的新特征New Feature,包含了每折訓練時的預測值Predict1,Predict2,Predict3,Predict4,Predict5,同時每一折訓練時對測試集進行預測并求均值得到Model1的預測值Aver-test1,即輸入元模型的新特征。第二層元模型訓練過程如圖2所示,將第一層n個基模型得到的新特征及目標值和Target輸入元模型進行訓練,將第一層基模型得到的測試集預測值帶入元模型進行預測得出最終結果Pred。

圖1 第一層基模型訓練過程

圖2 第二層元模型訓練過程

為了增強Stacking分類效果,本文將基與性能較優的GBDT的三種改進算法XGBoost,LightGBM,CatBoost作為基模型,由于第一層基模型的輸出結果和最終分類標簽呈線性相關的關系,因此本文在第二層元模型上選擇高效快捷的邏輯回歸模型。為了進一步提高模型的泛化能力,本文將第二階段IFKK方法生成的21組平衡數據分別用Stacking算法進行擬合產生測試集樣本21個預測值,利用多數類投票法“少數服從多數”的原則,將產生的超過一半數量的相同預測值作為測試集樣本的最終預測值?；谌A段集成學習的信用卡欺詐檢測流程如圖3所示。

圖3 信用卡欺詐檢測流程圖

2 實證研究與分析

本節首先介紹了數據集和評價指標,然后通過欺詐檢測模型對數據集進行訓練預測,對實證結果進行分析。本文基于python3.7進行程序開發,使用5折交叉驗證提高模型的泛化能力,其中訓練集占80%,測試集占20%,所有模型均使用網格搜索法進行調參。

2.1 數據集

本文使用的數據集選自Kaggle提供的歐洲持卡人2013年9月兩天內的信用卡交易數據,該數據集共有284807個樣本,無缺失值,其中包含284315個信用卡合法交易樣本,492個欺詐樣本,不平衡比例為1:577;數據集共31個特征,其中1個特征是目標標簽Class,表示該樣本是否為欺詐交易數據,值為1表示是,0表示否;30個特征表示信用卡交易的相關信息,出于保密原因,除了“Time”和“Amount”這兩個特征外用PCA轉換得到V1到V28這28個特征變量,“Time”表示交易發生時間,單位為秒,本文將其轉換為每天以小時為單位的時間,“Amount”表示信用卡交易金額,特征“Time”和“Amount”的數據規格和其他特征不一致,對其進行標準化處理。為了讓測試集滿足欺詐交易真實的不平衡分布,劃分訓練集和測試集時按照原始不平衡比例1:577均勻劃分。

2.2 評價指標

為了盡可能地檢測出欺詐交易并盡可能地少地判錯合法交易,本文選取了召回率Recall來衡量欺詐交易檢測的效果,Recall即所有真實欺詐交易實例中預測為欺詐交易的比例;并選取接收者操作特征曲線ROC曲線下面積AUC值作為綜合評價標準對模型進行評估,AUC值可以看作從所有樣本中隨機選取一對正負樣本,正樣本預測為正的概率值大于負樣本預測為正的概率值的概率,AUC值在0.5和1之間,AUC值越接近1,表示模型的分類性能越好。

2.3 實驗結果分析

基模型選擇的最優特征如表1所示。特征每被選中一次得一張票,我們拋棄得票數在2票及2票以下的弱特征,共刪除12個特征,保留得票數在4票及4票以上的強特征,共保留12個特征,記為A組,將得票數為3票的6個臨界特征加入A組形成B組,共18個特征。為了檢驗臨界特征的有效性引入封裝法,將A,B兩個特征組分別輸入多個模型進行訓練并對比效果,結果如表2所示。

表1 基模型特征選擇排序

表2 FS-IFKK方法與基準方法對比實驗結果

將原始特征輸入模型進行擬合后,我們發現在未加入GBDT算法的Stacking模型中,魯棒性強的SVM的分類效果最好,召回率Recall達到了0.9061,AUC值達到了0.9431;將 GBDT第一種改進算法XGBoost加入Stacking算法時,X-Stacking的效果提升明顯,AUC值達到0.9451;當繼續加入GBDT第二種改進算法LightGBM時,XL-Stacking的效果進一步提升,AUC值達到了0.9455;加入GBDT第三種改進算法CatBoost時,XLC-Stacking的效果最佳,Recall達到0.9102,AUC值達到0.9465,分類效果優于基模型,由此可以看出基于原始數據的Stacking欺詐檢測方法是有效的,且分類效果優于單一分類器。從表2可以看出經過集成特征選擇FS后的A特征組比B特征組在各模型上得到的效果均更好,這說明6個臨界特征可能是冗余特征影響了模型性能,應該剔除,因此在后續實驗中,本文使用A特征組進行數據實驗。A特征組包括V2,V3,V4,V7,V8,V9,V10,V11,V12,V14,V16,V17這12個特征。另外,從表2可以看出在A特征組上依次引入GBDT三種改進算法時,Stacking算法的性能得到了不同程度的提高。其中,引入GBDT三種改進算法(XGBoost、LightGBM和CatBoost)的XLC-Stacking的分類效果最好,Recall高達0.9122,AUC值高達0.9477,這說明基于FS-Stacking的欺詐檢測方法是有效的。為了進一步提升模型性能,我們使用集成了孤立森林IsolationForest、K-Means++聚類、KNN的IFKK方法來生成多個平衡數據組輸入模型進行對比實驗,為了驗證本文提出的三階段集成學習方法在信用卡欺詐檢測識別上的有效性,表2對比了原始數據和經過FS-IFKK方法處理后的數據在各模型上的分類效果。從表2中可以看出經過FS-IFKK方法處理后的數據在各模型上的分類效果均得到顯著提升,其中GBDT的三種改進算法XGBoost、LightGBM和CatBoost的分類性能在基模型中表現優異,并且將這三種算法依次引入Stacking中性能將得到進一步提升,其中同時引入GBDT三種改進算法的XLC-Stacking算法的性能最好,召回率Recall達到0.9388,AUC值達到0.9499,與原始數據中分類性能最佳的基模型CatBoost作對比,召回率Recall提升了3.27%,AUC值提升了0.44%。

綜合以上實驗結果可以發現,在FS-IFKK方法投票選取重要特征和處理不均衡樣本數據集之后,本實驗選取的基準模型對信用卡欺詐的識別能力均有提升;在進一步使用Stacking方法集成單分類模型之后,最終模型的預測能力在單分類模型的基礎上進一步提升。三階段模型實現了模型預測能力的“階梯”狀提升。

3 結論

針對高維不均衡的信用卡交易數據集,僅在某階段使用集成學習是遠遠不夠的,在模型訓練的各個環節都使用合適的集成學習方法。本文提出的“FS-IFKK-Stacking”將集成學習的思想貫穿信用卡欺詐交易檢測任務的三階段,同時解決了數據特征高維性和樣本不均衡性問題,證明了集成學習在特征選擇、不均衡樣本處理和構建預測模型的三階段具有重要作用和良好表現。