?

基于LightGBM與SHAP的信貸違約預測方法研究

2024-04-29 05:24戴崢琪,雷億輝,彭晨,夏廣萍
關鍵詞:信貸風險

戴崢琪,雷億輝,彭晨,夏廣萍

摘要:機器學習方法在信貸領域取得了較好的成果,但由于缺乏可解釋性,應用受到限制,為增加其可信度和透明度,克服“黑盒”模型缺乏可解釋性的缺陷,基于LightGBM算法建立信貸違約預測模型,并設計SHAP算法對模型的結果進行解釋。結果表明,模型性能更好,預測精度更高,其精度高達88.61%;SHAP算法解釋結果表明“信用組合的分類”“要支付的剩余債務”“每月EMI付款”等因素對信貸決策有著重要影響。

關鍵詞:信貸風險;LightGBM算法;SHAP算法;可解釋性

中圖分類號:F832.4? ? ? ? ? ? ? ? ? ? 文獻標志碼:A

Research on credit default prediction method based on LightGBM and SHAP

DAI Zhengqi1, LEI Yihui1, PENG Chen2, XIA Guangping1

(1. School of Mathematics and Statistics, Jishou University, Jishou 416000, China2. School of Computer Science and Engineering, Jishou University, Jishou 416000, China)

Abstract: Machine learning methods have shown promising results in the credit domain; however, their application is constrained by a lack of interpretability. To enhance credibility and transparency, and overcome the opacity inherent in “black box” models, a credit default prediction model based on the LightGBM algorithm is established. Additionally, the SHAP algorithm is employed to elucidate the models outcomes. The findings indicate superior performance of the proposed model, achieving an impressive prediction accuracy of 88.61%. Furthermore, SHAP algorithm interpretations reveal the significance of factors, such as “Credit-Mix” “Outstanding_Debt” and “Total_EMI_per_month” in influencing credit decisions.

Key words: credit risk; LightGBM algorithm; SHAP algorithm; explainability

信貸是現代經濟的重要組成部分,它為個人和企業提供了從銀行等金融機構獲取資金的途徑。然而,借款人向金融機構申請貸款時,往往存在信息不對稱、逆向選擇等問題,信貸違約概率的預測存在較大不確定性[1],這對從事貸款業務的金融機構來說是極其不利的。因此,使用有效的信貸違約預測模型,合理地評估借款人的信用違約風險,做出正確的信貸決策,是保障金融機構資金安全、維護金融市場穩定的重要手段。

傳統的信貸決策主要依賴于人工信用評分,該類方法通過對借款人的收入、資產、負債以及歷史信用等信息進行評分,根據評分結果判斷是否為借款人提供貸款。由于此方法容易出現主觀偏差和誤判,增加信貸風險,許多學者提出基于統計學方法的信貸風險預測模型?;诮y計學方法建立的模型具有穩健性和透明性等優點,被廣泛應用于信貸違約預測[2-3]。然而,這些模型結構簡單,不能有效地提取非線性信息,預測精度相對較低。針對此問題,DUMITRESCU等[4]在決策樹算法的基礎上,改進Logistic回歸模型的框架,有效解決了Logistic回歸模型無法擬合非線性關系的問題,顯著提高了預測精度;MUNKHDALAI等[5]提出了一個由線性和非線性部分組成的部分可解釋的自適應softmax回歸模型,該模型解決了信貸決策中的不平衡二分類問題,同時提高了預測精度。

隨著大數據時代的到來,機器學習算法因其高預測精度等優點被廣泛應用于信貸領域。BAHNSEN等[6]基于Logistic回歸算法和機器學習算法建立個人信貸評分模型,通過對比可知,機器學習算法的預測精度更高;吳瑞琪[7]基于機器學習算法中的感知機算法建立信用評分模型,進一步提高模型預測精度。然而,當處理大規模信用數據集時,簡單的基于機器學習的基礎分類器難以捕捉復雜的非線性關系,因此,WANG等[8]提出兩種對偶策略集成樹,以減少噪聲數據和數據冗余屬性的影響,獲得相對較高的分類精度;LIU等[9]提出了兩個基于樹的增強梯度提升決策樹模型,進一步提高了模型性能。但上述模型均使用橫截面數據,不能有效解決時變問題,因此,XIAN等[10]在生存分析和梯度提升決策樹模型的基礎上提出了SurvXGBoost模型,該模型不僅性能較好,并且能夠達到動態預測的效果。與傳統的機器學習算法相比,上述集成學習模型預測精度更高,但缺乏可解釋性。而在信貸決策過程中,相關人員需要了解模型的決策依據,以提高決策的合理性和可靠性,故在信貸決策等高風險領域中模型的可解釋性至關重要。

為解決模型缺乏可解釋性問題,將LightGBM集成學習算法應用于信貸風險預測,在保證其預測精度的基礎上,采用SHAP算法對模型結果進行解釋,增強模型的可解釋性。主要貢獻如下:1)建立基于LightGBM算法的信貸風險預測模型,該模型性能優于Logistic回歸、決策樹、隨機森林和支持向量機等信貸風險預測模型;2)通過貝葉斯優化算法對模型的超參數進行優化,進一步提高模型的性能;3)利用SHAP算法對影響信貸決策的重要因素進行分析,提高模型的可解釋性,為信貸人員進行信貸決策提供參考依據。

1模型與算法

1.1信貸風險預測模型建模流程

采用基于LightGBM算法的信貸預測模型,并結合SHAP算法對模型結果進行解釋,以增加模型的可解釋性。具體的實現過程見圖1。

1.2LightGBM算法介紹

LightGBM算法是一種高效的梯度提升決策樹框架,其高效性主要源于兩方面:第一,采用基于直方圖的決策樹算法,通過構建特征直方圖并將其劃分為離散的箱,減少了需要考慮的特征值數量,加速了計算速度并降低了內存占用;第二,采用梯度單邊采樣技術,通過識別具有大梯度的實例,然后基于閾值對具有小梯度的實例進行采樣,減少了每次迭代中需要考慮的實例數量,加快了收斂速度并避免了過擬合問題。

LightGBM算法是由k個基模型所組成的求和函數,如式(1)所示:

y^i=∑kt=1ftxi(1)

式中:xi代表第i個樣本的輸入特征;ft代表第t個基模型;y^i代表第i個樣本的預測值。損失函數可由預測值與真實值進行表示,如式(2)所示:

L=∑ni=1lyi,y^i(2)

式中:n代表樣本容量;l代表第i個樣本的損失函數;yi代表第i個樣本的真實值。在此基礎上建立目標函數,如式(3)所示:

Obj(θ)=∑ni=1lyi,y^i+∑kt=1Ωft(3)

式中:Ω代表正則化項;θ為模型參數。通過Softmax函數能夠得到每個類別的概率。具體地,設模型一共訓練了k棵樹,第m棵樹的輸出結果為fm(x),則樣本點x屬于類別c的概率為

pc(x)=∑km=1wm·Ifm(x)=c∑km=1wm(4)

式中:wm為第m棵樹的權重;I為指示函數。通過Softmax函數能夠了解各類別的概率分布,能夠對借款客戶進行分類,通過不斷優化目標函數,在一定程度上可以提高LightGBM算法的分類精度。

1.3SHAP特征重要性評估指標

SHAP算法是一種解釋機器學習模型預測結果的方法。通過為每個特征提供一個重要性分數,即Shapley值,可量化每個特征對模型預測結果的貢獻程度,幫助研究人員理解每個特征對模型的影響程度。因此,SHAP算法在金融、醫療、自然語言處理等領域得到廣泛應用。

在SHAP算法中所有特征都被視為“貢獻者”,通過計算每個“貢獻者”的Shapley值來衡量其對最終輸出值的影響,公式如下:

yi=ybase +fxi,1+fxi,2+…+fxi,k(5)

式中:xi,k代表第i個樣本的第k個特征;f(xi,k)代表xi,k的Shapley值;ybase代表整個模型的基線;yi代表第i個樣本的預測值。直觀上,當f(xi,k)>0,說明該特征對預測結果有正向作用;反之,當f(xi,k)<0時,說明該特征對預測結果有反向作用。

2數據預處理與特征提取

2.1數據集介紹

使用的數據集“Credit score classification”來源于Kaggle平臺。該數據集提供了經過脫敏處理后的借款客戶個人信用的相關信息,例如職業、月基本工資、年收入等。數據集包含27個特征和1個標簽,共100 000條數據,每行數據代表一個樣本。

2.2數據預處理

2.2.1缺失值處理

對數據集中特征的缺失情況進行了可視化處理,可視化結果見圖2。由圖2可知,“月基本工資”和“貸款類型”等特征的缺失值較多,高達10%以上,本文使用該客戶其他樣本中對應特征的眾數進行填充。以“月基本工資”為例,當某客戶某月的“月基本工資”缺失時,將以該客戶其他月份“月基本工資”的眾數進行填充。

2.2.2異常值處理

為確保信貸風險預測模型的準確性,需進行異常值處理。針對數值型數據,本文將箱線圖的最大值作為異常值的判定標準,超出最大值的數據視為異常值。以“月基本工資”為例,根據圖3可知,“月基本工資”的最大值為13 500,而部分數據卻超出了最大值,因此,將這部分數據視為異常值并刪除對應的樣本,確保異常值對預測模型的影響最小化。

2.2.3標準化處理

在實際應用中,不同特征的單位和量級不同,會對模型的訓練和預測產生較大的影響。為了消除數據特征之間單位和量級的差異,本文對數據進行標準化處理,標準化的計算公式為

x*=(x-μ)σ(6)

式中:x代表輸入特征;μ代表輸入特征的均值;σ代表輸入特征的標準差。

3實驗

按照4∶1的比例劃分訓練集和測試集,構建基于LightGBM、Logistic回歸(LR)、隨機森林(RF)、支持向量機(SVM)、決策樹(DT)算法的信用評分預測模型,并使用貝葉斯優化算法進行超參數優化,提高模型的分類預測精度。

3.1超參數優化

采用貝葉斯優化算法在訓練集上對5個模型(表1)進行超參數優化。貝葉斯優化算法通過構建函數的后驗分布描述需要優化的函數,隨著觀察次數增加,后驗分布會逐漸改善。該算法會平衡探索和開發的需要,在每個步驟中,高斯過程被擬合到已知樣本,后驗分布與探索策略相結合,用于確定下一個應該探索的點。

3.2模型評價

為評估模型的性能,本文采用多種評價指標,包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值。其中,準確率代表正確分類的樣本占全部樣本的比例;精確率代表預測為正例的樣本中,真正為正例的樣本所占的比例;召回率代表所有真正為正例的樣本中,預測為正例的樣本所占的比例;F1綜合精確率和召回率,用于綜合評價模型的性能;AUC值是用于評估分類模型性能的指標,公式如下:

Aaccuracy=TP+TNTP+TN+FP+FN(7)

Pprecision =TPTP+FP(8)

Rrecall=TPTP+FN(9)

F1=2·Pprecision ·RrecallPprecision+Rrecall(10)

式中:TP代表正類被預測為正類的樣本數量;FN代表正類被預測為負類的樣本數量;FP代表負類被預測為正類的樣本數量;TN代表負類被預測為負類的樣本數量。當涉及到多分類問題時,上述評價指標不能直接使用。多分類問題可視為多個二分類問題,通過計算各類別的評價指標并采用加權平均,考慮不同類別的重要性,可以得出最終的評價指標。其計算公式如式(11):

waverage=1n∑ni=1wi×si(11)

式中:n表示類別數;wi表示第i個類別的權重;si表示第i個類別的評價指標得分,如準確率、精確率等。

3.3實驗結果

為評估本文所建立模型的性能,采用了LR、RF、SVM、DT作為對比模型,具體實驗結果見表1。

根據對比實驗結果可知,基于LightGBM算法的模型在準確率等評價指標上都優于LR、RF、SVM和DT模型,因此,后續進一步對基于LightGBM算法建立的信貸預測模型的結果進行解釋,增強模型的可解釋性和透明度。

4基于SHAP算法的模型解釋分析

基于LightGBM算法的信貸風險預測有較高的預測精度,但由于其是“黑盒”模型,使得信貸決策人員難以像線性回歸一樣了解對決策結果起關鍵作用的特征。針對此問題,引入了SHAP算法對模型結果進行解釋,在提供特征重要性排序的同時,著重解釋了不同特征值對預測結果產生的具體影響。此外,考慮到該解釋方法應用于個人信貸風險評估領域,本文在解釋預測結果時不僅注重宏觀層面,還針對每個客戶進行了微觀層面的解釋。通過綜合的解釋方式,幫助決策者全面理解模型的決策過程,并為每位客戶的信用風險評估結果提供個性化的解釋。

4.1宏觀層面的預測結果解釋

4.1.1特征重要性解釋

圖4展示了特征重要性排序及其對違約傾向的影響,由圖4(a)可知,“要支付的剩余債務”“持有的信用卡數量”“信用卡利率”“信用組合的分類”“付款日期算起的平均延遲天數”等因素對模型預測結果有顯著影響。圖4(b)為SHAP摘要圖,其中每個點都代表一個樣本,顏色代表特征的數值,從藍到紅表示數值由小到大,結合圖4(b)可知,“要支付的剩余債務”“持有的信用卡數量”“信用卡利率”“付款日期算起的平均延遲天數”的Shapley值隨著特征數值增加而增加,表明其與違約概率呈正相關關系,當特征值較大時,客戶違約的可能性也較大;而“信用組合的分類” 的Shapley值隨著特征數值增加而減少,表明其與違約概率呈負相關關系,當特征值較大時,客戶違約的可能性較小。

4.1.2變量相關解釋

圖5展示了上述4個對違約概率有正向影響的特征依賴圖,由圖5可知,Shapley值的增長趨勢隨著上述特征數值的增加而呈上升趨勢,這意味著隨著這些特征值的增加,客戶違約概率也隨之增加。

綜上,從宏觀角度來看,基于SHAP算法研究特征重要性排序、探索特征之間的相互作用,能夠從全局上掌握各項特征對信貸違約的影響機理,有利于制定更有效的信貸風險管理策略和決策。

4.2微觀層面的預測結果解釋

不同客戶受相同指標影響作用各不相同,僅從宏觀角度分析信用貸款的影響過于籠統,不能清晰明了地分析影響機制。因此,綜合考慮客戶相關的信用信息,提供個性化解釋更為重要。圖6為某一被拒絕借款客戶的信貸預測結果解釋圖,圖中不同長度、不同方向的箭頭表示相關特征對信用違約概率的影響。箭頭向右表示對應特征對違約概率有正向作用,箭頭向左表示對應特征對違約概率有反向作用,箭頭的長度代表對應特征對違約概率影響的程度。結合圖6可知,“信用組合的分類”“要支付的剩余債務”等特征變量會增加違約概率,而“每月EMI付款”會降低違約概率。

通過個性化解釋,信貸機構能夠更加全面深入地了解客戶,減小信貸風險及損失;對于客戶來說,他們能夠了解影響其貸款申請被拒絕的重要因素,從而理解并接受信貸決策人員的決策結果,或者通過制定合理的解決方案,提高成功獲得貸款的概率。

5結論

基于LightGBM算法建立信貸風險預測模型,并采用SHAP算法對模型的結果進行解釋,彌補了模型在可解釋性方面的缺陷。實驗結果表明,LightGBM算法在預測精度等方面性能更好,同時,SHAP算法提供的解釋有助于相關人員全面理解影響信貸決策的重要因素,從而準確地評估借款人的信用風險,降低錯誤決策的潛在風險,提高信貸決策的準確性和可靠性。

參考文獻:

[1]鮑星, 李巍, 李泉. 金融科技運用與銀行信貸風險: 基于信息不對稱和內部控制的視角[J]. 金融論壇, 2022, 27(1): 9-18.

[2]SHEN F, WANG R, SHEN Y. A cost-sensitive logistic regression credit scoring model based on multi-objective optimization approach[J]. Technological and Economic Development of Economy, 2020, 26(2): 405-429.

[3]D'AMATO A, MASTROLIA E. Linear discriminant analysis and logistic regression for default probability prediction: the case of an Italian local bank[J]. International Journal of Managerial and Financial Accounting, 2022, 14(4): 323-343.

[4]DUMITRESCU E, HUE S, HURLIN C, et al. Machine learning for credit scoring: Improving logistic regression with non-linear decision-tree effects[J]. European Journal of Operational Research, 2022, 297(3): 1178-1192.

[5]MUNKHDALAI L, RYU K H, NAMSRAI O E, et al. A partially interpretable adaptive softmax regression for credit scoring[J]. Applied Sciences, 2021, 11(7): 3227.

[6]BAHNSEN A C, AOUADA D, STOJANOVIC A, et al. Feature engineering strategies for credit card fraud detection[J]. Expert Systems with Applications, 2016, 51: 134-142.

[7]吳瑞琪. 基于感知機算法的個人信用貸款評估模型研究[J]. 通訊世界, 2019, 26(2): 233-235.

[8]WANG G, MA J, HUANG L, et al. Two credit scoring models based on dual strategy ensemble trees[J]. Knowledge-Based Systems, 2012, 26: 61-68.

[9]LIU W, FAN H, XIA M. Credit scoring based on tree-enhanced gradient boosting decision trees[J]. Expert Systems with Applications, 2022, 189: 116034.

[10]XIAN Y, HE L, LI Y, et al. A dynamic credit scoring model based on survival gradient boosting decision tree approach[J]. Technological and Economic Development of Economy, 2021, 27(1): 96-119.

猜你喜歡
信貸風險
農村信用社信貸風險管控思考
商業銀行信貸風險影響因素分析
基于多元線性回歸分析的我國商業銀行信貸風險防范研究
商業銀行中小企業信貸風險管理研究
新常態下銀行信貸風險管理探析
我國供應鏈融資的現狀分析及發展展望
農村信用社信貸業務中的操作風險與防范措施
商業銀行信貸風險形成的內部因素
四川農戶小額信貸風險防范研究
地方性商業銀行防范和化解信貸風險的思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合