?

基于多模型融合Stacking 集成學習保險欺詐預測

2023-09-05 06:00繆智偉韋才敏
關鍵詞:保人欺詐預測

繆智偉,韋才敏

(汕頭大學數學系,廣東 汕頭 515063)

0 引 言

顧客購買保險產品的最終目的是通過轉移風險來增強自身面對未來不確定事件的能力.現今,我國大部分公民都具有通過購買保險來防范未來不確定事件風險的意識,比如我們看病會用醫療險,在購買車之后往往會投保車險等.這些在我們真正遇到相應事故的時候,都可以幫助我們將風險轉嫁給保險公司,降低自身的經濟壓力,是一種很好的提前預防的保險方式.任何一種從大眾中籌集的巨額資金,然后通過一定的規則重新分配到部分人的金融機制,在這個過程很容易出現信用、道德危機.保險也不例外.

保險欺詐行為識別面臨較大挑戰.傳統保險公司主要依靠內部定性判別方式和專家的經驗判斷進行保險欺詐行為的識別.但是由于保險欺詐手段多樣化、數據量大且復雜等原因,如果單靠以往傳統的保險欺詐識別方法進行識別,不僅難以精準地識別出騙保行為,而且還會產生大量的人工成本.

現今,在精準識別保險欺詐行為的問題上,許多保險公司通過搜集、整理被保人的個人信息以及理賠事故信息,形成一套屬于自己公司的數據庫,并且聘請高級數據工程師來構建屬于自己公司的保險騙保行為的檢測系統.雖然使用大數據手段進行保險欺詐行為的識別,可以提高檢測的準確性和效率,但是也面臨一些問題.首先是數據不平衡:保險欺詐行為在數據中的比例相對較小,這導致了數據的不平衡.因此,在訓練深度學習模型時,需要采取一些措施來平衡數據,以避免模型對少數類別的識別性能下降.其次,可解釋性:深度學習模型通常被視為黑盒模型,難以解釋其預測結果的原因.在保險欺詐行為的識別中,可解釋性是非常重要的,因為保險公司需要知道模型是如何判斷被保人是否存在欺詐行為的,以便更好地制定反欺詐策略.最后是,模型選擇和優化:在深度學習中,模型的選擇和優化是關鍵,但是不同的模型需要不同的參數設置和訓練方式,需要耗費大量的時間和計算資源.

因此,針對以上保險欺詐識別系統的不足,本文提出基于XGBoost 與LightGBM的Stacking 模型融合集成學習模型.文章第一部分對LightGBM、XGBoost 進行算法機理的介紹與推導,第二部分將詳細描述基于多模型融合Stacking 集成學習方式的保險欺詐識別模型的原理和構建方法,第三部分用阿里云天池保險欺詐行為數據集對構建的模型進行實證檢驗,第四部分是結論.

XGBoost 和LightGBM 都是目前應用較為廣泛的集成學習算法,它們的主要特點是具有高效性、準確性和可擴展性.這些特性使得它們在數據挖掘、預測分析、自然語言處理、圖像識別等領域得到廣泛應用.

本文選擇了基于XGBoost 與LightGBM 的Stacking 模型融合集成學習模型,主要是因為這兩個模型具有以下特點:1.XGBoost 和LightGBM 是當前最流行和最優秀的梯度提升樹模型,能夠高效地處理大規模的高維數據,并具有很好的預測性能. 2. 在Stacking 模型融合中,XGBoost 和LightGBM 作為基礎模型可以很好地利用其優點,如高準確性、良好的魯棒性、高效性等,同時通過融合可以進一步提高模型的預測性能.3.XGBoost 和LightGBM 模型都具有很好的可解釋性和可視化性,能夠幫助分析人員更好地理解模型的預測結果和特征重要性.

1 算法理論介紹

1.1 LightGBM 算法機理

LightGBM(Light Gradient Boosting Machine)是一種以高效率的并行訓練計算的方式實現GBDT 算法,總結其優點:訓練的速度比初始訓練框架要快,占用的內存空間更小,獲得更高的精確度,可以以較快的速度處理海量的數據.

GBDT 二元分類算法基本步驟:

對于二元分類GBDT,如果用類似于Logistic 回歸的對數損失函數,則損失函數為:

其中y∈{-1,+1}.則此時的負梯度誤差為

對于新生成的決策樹,計算各個葉子節點處的最優殘差擬合值為

由于上述方程比較難進行計算,一般我們采用近似值來代替

1.2 XGBoost 算法機理

XGBoost 的Gradient Boosting 方法是通過對損失函數、正則化處理、切分點搜索和并行化結構設計等進行改進,從而加快了模型的訓練計算速度.舉例,在傳統的GBDT算法實現的時候,模型在訓練計算第n 棵決策樹的時候需要使用到前面n-1 棵樹的殘值計算值,這一步驟需要較大的算力和內存空間,從而導致面對海量數據的時候,該算法難以實現并行.而XGBoost 通過將求解的目標函數進行二階泰勒展開,這樣模型在計算求解的時候每一個數據點上的損失函數只需要計算出一階導和二階導,進而可以提高算法并行的速率.

與傳統GBDT 相比,XGBoost 算法在推導中以一種新的方式進行構造新樹.這里主要介紹XGBoost 構造新樹的方法.將ft和Ω 的表達式帶入近似求解的目標函數中,忽略與ft無關的常量,可以得到:

最后一式中的Gj和Hj定義為:

因為求解目標函數可以看做一個是關于N 個相互獨立的變量ωj的二次目標函數,可以直接通過計算求解得到極小值點:

然后將極小值點帶入到目標函數,求解出目標函數值.

緊接著,開始構造新樹的結構.上面式子中Obj*表示當我們確定了一顆樹的時候,可以在其目標函數上確定最多可以減去多少值,因子我們可以把它們叫做樹的結構得分.Obj*越小說明新樹的結構就越好,然后應用貪心算法列舉出不同的新樹結構,篩選出結構得數最小的樹.

在每一次進行計算的時候,都要對已有新樹的葉子引入分割計算,都要通過下面的計算式子.

采用分割計算并不會影響目標函數的值,因為在對新的葉子進行分割計算的時候,會對新的葉子進行一定懲罰,這個操作可以對樹的減枝進行優化.若引入分割計算所產生的增益效果小于一個給定的閾值時,我們可以去除掉這個分割.通過這樣的方式就可以重新確定了新樹的結構.

2 基于多模型融合Stacking 集成學習方式的保險欺詐識別模型

2.1 基于Stacking 的集成學習原理

Stacking 是近幾年在人工智能領域比較流行的集成學習的框架.通常,Stacking 的大框架是一個多層嵌套的模型,第一層我們可以稱做特征學習層,里面包含了n 個不同類型的模型,可以是支持向量機、多元回歸模型、神經網絡等,將不同模型預測結果整理合并成一個新的特征集,并作為最后一層模型輸入,最后一層模型再根據所給的數據標簽,進行訓練計算,這樣就得到一個基礎Stacking 集成學習框架.[16-17]

圖1 Stacking 集成學習示意圖

為使訓練出來的新的特征集充分代表原始訓練數據的特征,我們會在第一層的模型里面采用擬合度較高的訓練模型,例如XGBoost、神經網絡、SVM 等.值得注意的是,第一層的模型框架里面涵蓋了許多不同模型,不同模型計算原理有所差別,第一層模型的主要目的是自動有效地提取出原始數據的非線性變化的特征,但是這樣很容易出現過擬合的問題.

因此,為了更好地解決過擬合的問題,我們通常會在第二層使用一些比較簡單的預測模型.如果第二層模型在使用復雜的神經網絡訓練模型,極大概率會加大預測結果出現過擬合的嫌疑.

從上述的分析可以得出,一個優秀的Stacking 預測模型的關鍵在于第一層的訓練模型是否能夠有效地提取出原始數據之間的非線性變化的關系,然后在通過最后一層的簡單學習,能夠在第一層的基礎上,結合簡單模型結構,使得模型在預測的時候具有一定的泛化能力和準確率.

2.2 從傳統的Stacking 到改進的Stacking

2.2.1 傳統的Stacking

首先,如圖2 所示,是一個傳統的Stacking 集成學習模型結構示意圖.圖中,第一次模型結構中分別使用不同類型的預測模型去訓練同一批次的訓練集數據,這樣做可以有助于模型能夠利用不同基礎學習器的優點然后去訓練出不同特征之間的非線性關系,得到具有代表性的新生成的特征值.其次,再通過第二層模型結構中簡單的預測模型——邏輯回歸,訓練預測得到最終的預測值.

圖2 傳統Stacking 集成學習示意圖

2.2.2 改進的Stacking

本文使用的是一種改進的集成學習框架,如圖3 所示,框架的第一層不僅使用不同的模型,還使用有差異的訓練數據,這進一步增大了模型輸出值之間的差異性(相關性低),這樣的差異性往往適用于訓練數據和預測數據不是同分布的領域,可以增強預測的穩定性.

圖3 改進Stacking 集成學習示意圖

并且我們將第一層Stacking 生成的新的特征和原有的特征進行合并作為第二層的輸入,這樣做可以有效地防止出現過擬合.在第二層框架中選擇采用多種分類預測算法,包括邏輯回歸、K 近鄰、高斯貝葉斯、決策樹、集成學習分類模型,其中集成學習分類模型有隨機森林、Bagging、LightGBM、XGBoost.

2.2.3 改進Stacking 模型的構建過程

下面舉例進一步說明:

1)首先將數據集劃分為訓練集和測試集兩組數據,并將訓練集隨機分成5 份train1到train5 這五個部分.

2)選定基礎學習模型.本文示例中選擇了XGBoost,LightGBM,隨機森林作為基礎學習模型.以隨機森林解釋例子,依次選用劃分后5 份訓練集中的四份作為訓練集,然后使用5 折交叉驗證的方法進行模型訓練,最后在測試集上進行預測結果. 這樣會得到在訓練集上由隨機森林模型訓練出來的5 份預測結果和在測試集上的1 份預測值B1,然后將5 份預測結果縱向重疊拼接成新的A1 特征.LightGBM 模型和隨機森林模型部分也采用相同的方法進行模型預測,生成新的預測特征.如圖4 所示.

圖4 改進Stacking 集成學習模型構建示意圖

3)在三個基礎模型訓練完畢后,將其在訓練集上的預測值分別作為3 個“特征”A1,A2,A3,然后使用LR 模型進行訓練并建立LR 模型.

4)利用訓練好的Logistic 分類模型來預測測試集,在模型的第一部分的三個基礎學習模型上會生成新的三個特征,Logistic 在進行預測的時候通過利用新生成的三個特征以及原始數據的特征,通過訓練得出分類預測結果.

5)在做Stacking 的過程中,如果將第一層模型的預測值和原始特征合并加入第二層模型的訓練中,則可以使模型的效果更好,還可以防止模型的過擬合嫌疑.

3 算例驗證與分析

3.1 算例數據

為驗證本文所構建模型的科學性和可靠性,本文實驗使用基于阿里云天池保險反欺詐公開信息作為數據集.數據集中標簽——是否存在欺詐行為(fraud),若該被保人的理賠事件存在欺詐行為取1,否則取0.

本文的特征工程包括以下三類(共43 個特征,僅列出部分重要特征,見表1):項目基本信息包括年齡、每年的保費、保險責任上限.被保人基本信息包括被保人學歷、被保人職業、被保人興趣愛好、資本收益、資本損失.被保人理賠事故基本信息包括碰撞類型、出險類型、目擊證人、是否有警察記錄的報告、整體索賠金額等.

表1 特征工程匯總

3.2 評價指標

查準率(precision):模型對保險事件的信息進行預測,預測結果中存在保險欺詐行為的樣本有N 個,樣本中真實存在保險欺詐行為的樣本有M 個,即precision=M/N.

3.3 Stacking 模型融合

3.3.1 基于遺傳算法的模型融合參數優化

以XGBoost 模型為例,此處使用遺傳算法,在有限的數值空間內搜索最優的學習率ε 與樹的最大深度Z 參數使訓練得到的模型具有較強的泛化能力和準確率.

3.3.2 預測結果對比分析

本節對比所提方法與傳統機器學習模型及其模型融合系統的預測性能.首先,測試單一分類預測模型,包括邏輯回歸、高斯貝葉斯、決策樹、集成學習分類模型,其中集成學習分類模型有Bagging、LightGBM、XGBoost. 其次,分別設置兩組,一組是XGBoost 算法與LightGBM,另一組是隨機森林與支持向量機,兩組進行Stacking 模型融合生成新的兩個特征,新生成的兩個特征和原有的40 個特征合并作為第二層Stacking訓練模型的輸入,在Stacking 的第二層中選擇使用多種分類學習模型,包括Bagging、LightGBM、XGBoost 等,以檢驗改進的Stacking 模型融合方法的預測性能.各模型的參數均由遺傳算法優化得到.最終預測結果如表2 所示.

表2 預測結果對比 %

根據表2 的預測結果可得如下結論.

(1)總體而言,基于XGBoost 模型與LightGBM 的Stacking 模型融合預測精度高于未進行模型融合的預測精度.主要是因為XGBoost 和LightGBM 在第一層的模型中有效地提取了保險欺詐數據集中不同特征之間的非線性關系,然后再通過最后一層簡單模型訓練,使得集成學習器的錯誤率呈指數級下降,最終趨于零.通過融合可以達到“取長補短”的效果,綜合個體學習器的優勢是能降低預測誤差、優化整體模型性能. 而且,如果單個基學習器對非線性關系的捕捉、預測的精度越高、模型的多樣性越大,Stacking 模型融合預測效果就會越好.

(2)單一模型預測結果里面XGBoost 的準確率最高,其次是GBDT. 結合前文XGBoost 的推導內容,可以知道傳統GBDT 在優化時只計算了損失函數的一階導數,而XGBoost 通過將求解的目標函數進行二階泰勒展開,這樣模型在計算求解的時候每一個數據點上的損失函數只需要計算出一階導和二階導,進而可以提高算法并行的速率.為了更好地降低模型預測結果的方差和控制模型的復雜程度,XGBoost 在損失函數里加入了正則項.正則項降低了模型預測結果的方差,使訓練得出的模型更加簡單,能很好地防止過擬合,這也是XGBoost優于傳統GBDT 的一個特性.

(3)通過對比有無模型融合預測準確率,可以發現在Stacking 的第二層模型訓練中使用決策樹分類器的準確率是最高的,其次是XGBoost,并且也可以得出不同基礎分類器,得到預測準確率有明顯的差異.

(4)通過對比XGBoost 算法與LightGBM、隨機森林與支持向量機兩組實驗結果,可以發現,XGBoost 算法與LightGBM 大部分的實驗具有較高的預測準確率,這說明了在Stacking 模型第一層中使用XGBoost 算法與LightGBM 可以很好提取數據特征的非線性關系,進而提高模型的預測性能.相比之下,支持向量機和隨機森林也是常用的分類算法,但相對于XGBoost 和LightGBM,在處理大規模數據和非線性問題時可能會存在一些瓶頸,對于參數調節和特征處理等方面的要求也更高一些.同時,XGBoost 和LightGBM 都是基于梯度提升的算法,能夠自適應地學習到數據中的復雜關系,相對于支持向量機和隨機森林更具有優勢.

3.4 特征重要性

特征重要性(Feature Importance)的核心思想是計算依據某個特征進行決策樹分裂時分裂前后的信息增益,信息增益越大,該特征越重要.通過計算出模型中特征的重要性可以直觀得出具體哪一個特征對于預測結果具有較大的影響力,可以從定量的角度去解釋機器學習的預測結果.下面打印出最高準確率的Stacking 模型的特征重要性,其模型結構為在第一層模型中使用XGBoost 模型與LightGBM 來預測新特征,然后在第二層中采用決策樹分類器.如圖5.

圖5 最優Staking 集成學習模型特征重要性

觀察圖3,可以知道Stacking 模型融合下,被保人的職業、發生保險事故的城市、發生保險事故的地區、資本收益、資本虧損是比較重要的分類特征.根據此結果,本文向保險行業建議在對被保人保險欺詐行為核查的時候重點關注這些重要的特征,并且通過海量的大數據挖掘出保險欺詐行為在這些特征的潛在規律.

4 結語

保險行業中,被保人通過欺詐進行騙保,不僅對保險行業造成巨大損失,更會制約我國保險業的發展.長期來看,如果我國能夠構建一個信息可信度高、數據庫范圍廣、信息層次更豐富的征信體系,這將會為我國的保險行業提供一個更加有保障、有活力的生態空間.短期而言,最有效的方法是保險公司基于海量的用戶數據,構建識別準確、性能穩定的保險欺詐行為識別模型.本文結合人工智能的前沿理論研究,提出一種基于改進XGBoost 與LightGBM 模型融合的Stacking 集成學習方式的保險欺詐行為預測模型,對保險公司被保人保險欺詐行為的識別具有啟示意義,有助于保險公司更好地識別被保人的騙保行為,強化自身風控體系.經過對阿里云天池挑戰賽公開的保險欺詐數據集的驗證與測試,結果表明,相比傳統機器分類模型,本文提出的基于XGBoost 與LightGBM 模型融合的Stacking 集成學習模型在欺詐行為識別方面具有更高的預測性能與準確性,這得益于本文所提出的特征工程和模型融合方法,以及使用多種分類學習模型進行訓練和參數優化的策略.同時,本研究通過計算并可視化出最優分類模型不同特征的重要性結果,發現被保人的職業、發生保險事故的城市、發生保險事故的地區、資本收益、資本虧損是識別保險欺詐行為的重要特征.這些結果不僅對保險公司提供了重要的參考和指導,也為相關研究提供了寶貴的經驗和啟示.

猜你喜歡
保人欺詐預測
關于假冒網站及欺詐行為的識別
關于假冒網站及欺詐行為的識別
長期護理保險申保人的疾病特征分析
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
唐初隴右地區商貿問題考釋二則
警惕國際貿易欺詐
社會保險基本情況
不必預測未來,只需把握現在
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合