?

基于兩步子抽樣算法的貸款額影響因素研究

2023-04-08 07:19潘登李莉莉
關鍵詞:均方樣本量信用

潘登 李莉莉

摘要:

針對Kaggle網站貸款數據冗余導致數據分析低效、計算成本高等問題,采用兩步子抽樣算法抽取樣本,構建嶺回歸模型擬合貸款額,分析貸款額影響因素。實證結果表明,貸款額與資金總額付款、循環賬戶數量、信用額度等多方面因素相關;相較于簡單隨機抽樣方法,基于兩步子抽樣方法建立嶺回歸模型參數估計均方誤差降低21.35%,平均標準誤降低36.79%,有效提高了數據分析效率和準確性。

關鍵詞:

貸款額;嶺回歸;兩步子抽樣

中圖分類號:F830.859???????? 文獻標志碼:A

目前中國經濟體制改革深入發展,市場經濟體系不斷完善,金融業貸款業務逐漸向個人全面開放,個人貸款業務品種和業務范圍愈發完善。隨著經濟發展以及社會大眾消費觀念改變,個人貸款業務接受度大幅提升。研究發現,個人借貸行為影響因素主要包括家庭人口、社會資源、家庭總資產等[1],社會網絡承擔重要角色[2];債權人信任水平越高,提供個人貸款額越多[3],但各因素對貸款額影響作用尚不明確。銀行信貸政策明確規定,要根據借款人還款能力和還款意愿綜合確定個人貸款數額。由于借款人還款能力和還款意愿等信息不穩定性導致貸款額存有不確定性[4],如月收入、循環賬戶數量、未還貸款金額等,如何根據貸款數據提取有效信息確定貸款額成為金融機構面臨的問題之一。海量貸款數據會占用大量存儲空間,增加數據分析計算量,提高了計算機數據處理硬件要求,因此成為研究貸款額影響因素一大阻礙?;谔崛祿畔⒌淖映闃臃椒軠p少計算負擔[5],最優子抽樣算法的相關研究主要基于線性回歸模型[6]、logistic回歸模型[7]、Softmax回歸模型[8]、分位數回歸模型[9]、嶺回歸模型[10]、Kriging模型[11]等,各個模型基于實際數據驗證子抽樣算法優良性,為后續研究提供理論基礎。貸款數據普遍存在多重共線性,會增加線性回歸系數方差,使模型預測結果脫離實際[12]。嶺回歸模型是解決多重共線性問題有效方法之一[13],為保證系數顯著有意義,通常采用嶺跡法計算挑選最佳嶺參數值[14],嶺回歸模型理論技術成熟,實際操作簡便,廣泛應用于產業結構調整[15]、居民消費分析[16]、知識產權保護[17]等領域。本文針對大維度貸款額數據,采用3種不同抽樣算法選取樣本,分別建立嶺回歸模型,基于回歸運行結果的平均運行時間、估計均方誤差、平均標準誤等指標綜合評價3種算法計算效率和準確度,根據實際回歸結果綜合分析貸款額影響因素。

2.3 不同抽樣方法比較

使用R軟件調用數據,分別采用uniform、mmse、mvc抽取樣本,建立嶺回歸模型。兩步子抽樣實際操作通常保持第一次抽樣樣本量r0不變,計算第二次抽樣入樣概率,改變第二次抽樣樣本量r,最后估計樣本量為r0+r。固定r0=300,默認rr0,取r=[300,2000],間隔100?;跇颖竟烙媴抵?,計算均方誤差MSE=1S∑Ss=1β⌒s-β︿ols2,其中,β⌒s表示利用第s次抽樣樣本所得嶺回歸模型參數估計值,β︿ols表示全樣本嶺回歸模型參數估計值,S表示抽樣次數。每組抽樣運行1 000次,比較平均值。不同抽樣方法下,參數估計平均均方誤差越小,說明基于該抽樣方法和該樣本量所構建模型越接近利用全部數據所構建模型,該抽樣方法效果越好。

由圖1(a)可知,uniform均方誤差平均值最高,mvc均方誤差平均值明顯低于另外兩種抽樣方法。mvc平均均方誤差比uniform低0.412 1,準確度提高37.78%;比mmse低0.355 5,準確度提高34.33%,說明利用mvc抽樣所得參數估計值更接近利用全樣本估計結果,擬合效果較好。增大第二次抽樣樣本量,3種方法MSE均有小幅度下降。uniform最小誤差仍高于mmse與mvc最大誤差。由此可見,對于大維度數據集,提升第二次樣本量,子抽樣結果準確性提升有限,為了提高準確性而加大樣本量就失去了抽樣意義。要提高估計準確度,改進方法要比增加抽樣樣本量更有現實意義。

在Windows10操作系統,AMD 5900X中央處理器,32GB內存運行環境中計算CPU運行時間,分別利用3種抽樣算法完成1 000次參數估計,取各算法運行時間平均值。由圖1(b)可知,不同抽樣方法所用平均運行時間有明顯差別:mvc與mmse兩種抽樣方法運行時間均明顯少于全樣本估計運行時間,mvc運行時間相較于mmse少約0.15 s,計算效率提升約62.5%。這是由于mvc抽樣方法不涉及計算M-1H,運行時間相較于mmse算法有明顯優勢。增加二次樣本量,mmse運行1 000次總耗時增加9.6 s,mvc總耗時增加6.5 s。

以第一次抽樣樣本量r0=300,第二次抽樣樣本量r=1 000為例,基于3種抽樣方法分別抽取樣本,記錄估計參數及相應標準誤。按照如上步驟,每種抽樣方法重復運行1 000次取平均值。

基于uniform、mvc、mmse抽樣算法所得平均標準誤均大于全樣本嶺回歸模型平均標準誤。由圖1(c)可以發現,多數變量下,uniform置信區間范圍最大,mmse置信區間最??;估計第1個和第15個變量參數時,3種方法的置信區間較大。抽樣算法本質是利用子樣本建立模型,所抽取樣本量相較于全樣本規模非常小,因此標準誤均高于全樣本?;趗niform所得平均標準誤最大,說明采用uniform估計精準度最差。mmse算法下15個估計參數標準誤最低,與mvc相比平均降低21.93%,與uniform相比平均降低65.82%,因此mmse算法估計精準度優于mvc算法和簡單隨機抽樣。mvc抽樣算法平均運行時間和平均均方誤差方面優于mmse抽樣算法,但估計精準度劣于mmse抽樣算法,同時二者估計精準度和均方誤差皆優于簡單隨機抽樣。

分析影響因素可知,利用全樣本估計參數結果共有7個變量系數為負,說明貸款額與這7個變量呈負相關,與另外10個變量呈正相關。變量系數絕對值越大,影響貸款額越明顯?!澳壳百Y金付款總額”、“目前持有本金”、“借款人信用檔案中未結信用額度的數量”、“令人滿意的賬戶數量”、“總銀行卡高信用/信用額度”5個變量顯著影響貸款額,變量“目前資金付款總額”系數最大為1.612,說明該變量有最大正向影響,資金付款總額每增加1美元,貸款額就會增加1.612美元;變量“目前持有本金”系數最小為-1.225,說明該變量有最大負向影響,持有本金每增加1美元,貸款額就會減少1.225美元。金融機構確定貸款額更看重消費能力,傾向于向高消費水平客戶提供高貸款額,而向保守消費且有存款的客戶提供較少貸款額。除了消費水平,信用水平因素也明顯影響貸款額?!敖杩钊诵庞脵n案中未結信用額度的數量”系數為-0.580 9,表明客戶信用水平越低則獲取貸款額越少;相反“令人滿意的賬戶數量”、“總銀行卡高信用/信用額度”系數分別為0.533 9、0.382 3,表明信用水平越高獲取貸款額越高。消費水平與信用水平是影響貸款額主要因素,貸款額影響因素研究為銀行等金融機構針對不同用戶確定貸款額度提供了參考。

3 結論

本文采用3種算法抽取樣本,建立嶺回歸模型擬合貸款額,解決數據冗余繁雜及多重共線性問題,研究貸款額影響因素。研究結果表明,客戶消費水平與信用水平明顯影響貸款額,貸款額與目前資金付款總額、目前持有本金、借款人信用檔案中未結信用額度數量等因素相關。比較兩步子抽樣算法與簡單隨機抽樣,前者參數估計均方誤差和平均標準誤較低,更接近全樣本結果。比較兩步子抽樣第二次入樣概率πmmsei與πmvci,后者平均均方誤差降低34.33%,參數估計平均運行時間降低62.5%,提高估計準確度同時解決計算機處理冗雜數據運行時間過長問題;前者參數估計平均標準誤相比于后者降低21.93%,二者皆優于簡單隨機抽樣。本文側重兩步子抽樣算法處理復雜數據,選取所有對貸款額有影響解釋變量引入模型,后續研究可精簡解釋變量,提高模型預測能力。

參考文獻

[1]李巖,丁啟軍,趙翠霞. 不同類型農戶貸款行為特征及其影響因素——基于連續6年農戶貸款面板數據[J]. 中國農業大學學報, 2016, 21(1): 157-166.

[2]張華泉,劉杰,吳平. 社會網絡對農戶借貸行為的影響——基于CFPS2010~2018數據的實證研究[J]. 農村經濟, 2022(5): 88-97.

[3]董詩涵. 社會信任與個人貸款供給行為[J]. 金融論壇, 2020, 25(6): 71-80.

[4]林建華. 一種用于確定小微貸款額的盲數模型及其應用[J]. 海南金融, 2013(4): 45-49.

[5]李晨露. 大數據下廣義線性模型的參數估計算法[J]. 系統科學與數學, 2020, 40(5): 927-940.

[6]徐禮文,廖丹. 大樣本線性回歸模型的子抽樣及變量選擇[J]. 統計與決策, 2022, 38(2): 5-9.

[7]WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113: 829-844.

[8]YAO Y Q, WANG H Y. Optimal subsampling for softmax regression[J]. Statistical Papers, 2019, 60(2): 585-599.

[9]WANG H Y, MA Y Y. Optimal subsampling for quantile regression in big data[J]. Biometrika, 2021, 108(1): 99-112.

[10] 李莉莉,靳士檑,周楷賀. 基于嶺回歸模型大數據最優子抽樣算法研究[J]. 系統科學與數學, 2022, 42(1): 50-63.

[11] 周楷賀,李莉莉.基于單元間距離估計的不等概率抽樣算法及應用[J].青島大學學報(自然科學版), 2023, 36(2): 5-10.

[12] 肖霞,伍興國. 線性回歸中多重共線性的幾何解釋[J]. 統計與決策, 2021, 37(21): 46-51.

[13] 尹康. 常用統計軟件關于嶺回歸計算原理的比較分析[J]. 統計研究, 2013, 30(2): 109-112.

[14] 劉文卿. 基于泛嶺估計對嶺估計過度壓縮的改進方法[J]. 數理統計與管理, 2011, 30(4): 614-619.

[15] 范德成,張偉. 中國三次產業結構與初次分配結構變動關系的實證研究[J]. 數理統計與管理, 2013, 32(5): 769-776.

[16] 陳鈺芬. 我國居民收入、人口、教育、財政政策和貨幣政策與居民消費模型的實證分析[J]. 數理統計與管理, 2004(2): 10-14.

[17] 蘇為華,孔偉杰. 基于知識產權保護的國際貿易和FDI技術溢出效應研究[J]. 統計研究, 2010, 27(2): 58-65.

Research on Loan Amount Based on Two-step Sampling Algorithm

PAN Deng, LI Li-li

(College of Economics, Qingdao University, Qingdao 266061, China)

Abstract:

Aiming at the problem of low efficiency of data analysis and high calculative cost caused by the loan data redundancy of Kaggle website, two-step subsampling algorithm was used to sample. Ridge regression model was used to fit loan amount and analyze the impact of different factors on loan amount. The results show that the loan amount is related to various factors such as the total capital payment, the number of revolving accounts, and the credit line. Compared with simple random sampling, the ridge regression model based on two-step sampling method reduce mean square error by 21.35% and standard error by 36.79%. The two-step subsampling algorithm can effectively improve the efficiency and accuracy of data analysis.

Keywords:

loan amount; ridge regression; two-step subsampling algorithm

收稿日期:2023-02-24

基金項目:

國家社科基金(批準號:2019BTJ028)資助;山東省金融應用重點研究項目(批準號:2020-JRZZ-03)資助。

通信作者:

李莉莉,女,博士,教授,主要研究方向為金融統計、統計調查與預測。E-mail:lili_lee2003@126.com

猜你喜歡
均方樣本量信用
一類隨機積分微分方程的均方漸近概周期解
醫學研究中樣本量的選擇
為食品安全加把“信用鎖”
Beidou, le système de navigation par satellite compatible et interopérable
信用收縮是否結束
航空裝備測試性試驗樣本量確定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
信用中國網
信用消費有多爽?
基于抗差最小均方估計的輸電線路參數辨識
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合