?

基于生成對抗網絡的個人信用風險評估研究

2022-06-26 07:02魏全
科教創新與實踐 2022年14期

魏全

摘要:數據不平衡條件下的信用風險評估是一項重要但具有挑戰性的任務,其表現為違約者類別的數量不夠。本文提出了一種基于多源異構信用數據的不平衡生成對抗網絡來緩解當前的類別不平衡信用評分問題。具體地說,本文設計了一個融合模塊,將來自多個來源的異構信用數據整合到一個統一的潛在特征空間中。然后設計了一個基于生成對抗性網絡(GAN)的平衡模塊,為不平衡數據集的少數類生成新樣本的潛在表示。最后將GAN的性能與多種傳統的機器學習采樣算法進行了比較,實驗表明本文所提出的GAN在真實數據集上具有明顯優于比較方法的性能。

關鍵詞:信用風險評估;數據不平衡;生成對抗網絡

1.引言

近年來,我國人民的收入和消費能力水平得到不斷提升,消費場景不斷豐富,人們的消費觀念逐步升級,信貸消費已經成為消費的主要形式之一。越來越多的金融機構大力發展信貸業務,直接促進了我國個人信貸市場規模的持續擴大。日益增長的貸款需求及較高的不良貸款率促使著銀行業金融機構在不斷簡化信貸審批流程的同時,要更加關注信貸資產風險的控制。

信用評分風險評估旨在自動判斷是否應該批準或拒絕信用申請,以降低信用風險和減少不良貸款。由于其在銀行和其他金融機構[1]的廣泛應用,引起業界越來越多的關注。以往的大多數工作都采用了傳統的機器學習方法,如支持向量機、決策樹和邏輯回歸方法來建立信用風險評估模型。受計算機視覺和自然語言處理領域深度學習成功的啟發,最近的幾項研究采用了深度學習算法,如卷積神經網絡[2]和深度信念網絡[3]的信用風險評估。

信用評分數據通常是結構化數據和半結構化數據的混合數據,稱為多源異構數據,如用戶檔案數據和基于時間的用戶行為數據。大多數研究只關注單一類型的數據,但沒有融合這兩種類型的數據來提取高級隱藏特征。一些研究[4]平等地對待各種數據,未能捕捉到用戶支付行為隨時間變化的動態,而另一些研究[5]只關注用戶行為數據,而不是對信用評分任務至關重要的用戶檔案數據。這些傳統的方法無法從這些多源異構信用數據中挖掘和融合豐富的潛在信息。在這種情況下,多源的集成異構數據被認為是信用評分的重要研究點之一。同時研究表明,普通采樣方法重疊區域的樣本在提高不平衡數據的分類性能方面發揮著更重要的作用。然而,如何有效地消除重疊區域中的多數類樣本,同時避免因丟失原始分布而導致分類性能下降,仍然是一個懸而未決的問題。

2.文獻綜述

不平衡學習對于傳統算法來說是一項具有挑戰性的任務。研究人員意識到類別的不平衡確實會影響信用評估的分類,通過設計了上采樣和下采樣的方法去關注信用風險評估中的多數類和少數類,分析了采樣技術對信用評分中類別不平衡問題的適用性[6, 7]。數據采樣的方式有非常多種,值得一提的是,SMOTE算法[8]及在其基礎上一些改進的方法[9]在信用風險評估中得到廣泛應用并取得不錯的效果,有效緩解了數據不均衡帶來的偏差。

Shen[10]等人對SMOTE采樣方法進行改進之后生成少數類樣本,利用這種采樣技術來處理不平衡的信用數據能夠有效克服了SMOTE合成噪聲樣本的問題,提高信用風險評估模型在處理不平衡數據時的性能。Wang等[11]人改進并集成了過采樣、欠采樣和混合采樣等多種采樣方法以獲得平衡的信用數據集。然而,這些算法共同的缺點是創造的少數類樣本具有相同的特征性質,新樣本與原始數據具有很高的重疊性,并不一定能為模型提供有效信息。

本研究考慮了上述所有的局限性,首先,整合來自多個來源的異構數據,其次提出了基于生成對抗網絡,通過為少數類生成新的代表性樣本來恢復數據集的平衡,以緩解信用評分任務中的類別不平衡問題。

3.數據來源及分析

本研究的數據集選取了中國某商業銀行的個人信貸數據,包含了用戶的基本信息和交易數據。數據集中正常樣本個數有25141個,違約樣本有6852個。其中個人基本信息數據中一些特征變量存在缺失嚴重的現象,必將導致特征信息損失嚴重,對其進行刪除。交易數據中不存在缺失值,主要對交易時間進行了一系列時間特征的提取,并將字符型的類別特征,如交易方式、交易特征、一級交易代碼進行獨熱編碼的處理,以便后續進行特征構造。

4.商業銀行客戶信用風險評估

針對多源異構信用數據,本文對交易數據構造用戶的靜態和動態風險特征,并與個人基本信息進行融合,然后加入數據不平衡處理模塊,提高模型預測的性能。具體的流程如圖1所示。

4.1特征工程

(一)基于RFM模型的客戶價值特征

交易數據中用戶的每筆交易主要包含了三大維度特征:一是交易類型,如支出、收入、支付方式及交易對象等;二是交易時間,其中蘊含了用戶消費的行為習慣;三是交易金額,能夠反映了用戶的消費能力和財富情況。借鑒RFM模型對客戶價值衡量的思路,本文針對交易數據構造個人的用戶價值特征。具體表示為:R反映個人最近的交易活躍度,如最近一次交易的時間;F代表一段時間內用戶不同類型交易的次數,如:支付的次數、收入的次數,日均交易次等;M反映用戶在一定時間內的不同交易類型的交易金額,如:日均收入、日均支出、周均支出等。

(二)個人交易行為的序列特征

單筆交易信息包含了時間、金額、交易方向等特征,由于特征的類型不同,無法采用相同的處理方式。針對不同類型的特征變量,本文將采用合適的方式進行處理。對于交易時間,我們提取每筆交易的時間特征,如年、月、周、日等,同時衍生為周末和工作日等特征;對于類別型特征,進行獨熱編碼處理為稀疏矩陣;對于金額等數值型變量,直接進行輸入。

本文選取在一定的時間段內擁有交易記錄的用戶樣本,但是由于不同用戶的交易筆數存在差異,假定用戶在該段時間內的交易筆數為n,為了使得交易數據的序列向量表示能夠變成統一的結構輸入到神經網絡中,需要對用戶的交易記錄數量進行統一。如果某用戶交易記錄數超過n,將選取最后的n筆交易作為輸入.對于不足n筆交易的用戶,我們將其交易序列前面補充0使其滿足與其他樣本向量的維度相同。

(三)交易數據的窗口聚合特征

單一的交易信息并不足以揭露出個人的信用風險,同時交易記錄之間的時間間隔非常不規則,從分鐘到天不等。這種時間間隔的不規則性導致很難提取交易時間序列的周期。因此我們考慮用戶交易行為的一種更有效的方法是使用交易數據的聚合函數構造出一些特征。首先將用戶在一段時間內的交易記錄按照每周進行分組,然后計算這一段時間段內不同類型的交易數量、交易數量比例、交易金額、交易金額比例。為了在較長的過程中識別用戶的行為模式,本文通過把用戶的歷史交易數據中按照每周的窗口進行聚合得到矩陣特征,其目標是根據用戶的交易歷史創建一個活動記錄,揭示當前的交易行為與以往的不同程度。

4.2數據不平衡處理

生成式對抗網絡(Generative adversarial network,GAN)是Goodfellow等人提出一種無監督算法,從剛提出就引起了許多研究人員的關注,繼而在計算機視覺、自然語言處理、語音等領域取得了不俗的表現,并向其它一些領域逐漸延伸。生成式對抗網絡不同于以往的生成模型預先假設生成樣本服從某種分布,而是基于隨機的噪聲生成原始樣本分布的新樣本。GAN網絡最大的創新是結合了生成網絡和判別網絡兩部分,生成網絡能夠根據輸入的隨機噪聲去構建映射函數生成新的樣本,判別網絡的能夠將生成器的生成樣本與真實樣本進行比較,然后將結果反饋給生成器,直到最終生成的新樣本近似服從真實樣本的分布,兩種網絡是一種相互對抗優化的關系。

5.實驗及分析

5.1分類評估指標

單一評價指標無法準確、全面、綜合衡量模型的預測性能??紤]到評價標準在實際應用領域中的特點和局限性,為了更準確和全面地評價個人信用風險評估模型真實預測效果,本文采用了信用風險評估領域中四個主要的評價指標來綜合評價模型的性能:準確率(Accuracy)、AUC(Area Under Curve)、F1值和KS(Kolmogorov-Smirnov)曲線。

5.2實驗結果分析

針對基于多源異構信用數據融合中的不平衡問題,本文提出的一種基于GAN的數據不平衡處理方法,其能夠最大限度地學習原始數據中少數類樣本地分布,從而生成接近真實分布地少數類樣本。同時與現有機器學習主流采樣方法,如SMOTE、ADASYN、Borderline-SMOTE、SVM-SMOTE、Random Over-Sampler、SMOTE-Tomek等進行對比,驗證本文所提出的方法的性能,結果如表1所示。

從表1可以看出,在經過不同數據采樣方法之后,傳統的數據不平衡處理方法在四個評價指標上均低于本文的方法。Random Over-Sampler、SMOTE以及基于SMOTE的其它改進方法的評價指標雖然總體評價不錯,但由于在信用風險評估對違約用戶的錯誤分類要比預測正常用戶有害得多,我們更關注模型識別具有違約風險用戶的能力。

本文所提出的GAN模型優于所測試的傳統采樣方法。從本質看,基于GAN的數據生成方式主要是通過輸入隨機噪聲,讓生成器與判別器互相對抗優化去獲得近似真實分布的數據,這樣生成的數據因為與原始數據之間有著非常大的共性和顯著性特征,數據質量更高。而對于傳統的采樣方法,都是在整體數據中的局部進行抽樣,這樣的結果就不如GAN穩定。本文所提出的GAN模型通過生成樣本來平衡數據類可以學習到原始樣本少數類足夠的規律信息,更準確地識別具有違約風險的用戶,這在信用風險評估場景中是十分有意義的。

參考文獻:

[1] 顧洲一, 胡麗娟. 機器學習視角下商業銀行客戶信用風險評估研究[J]. 金融發展研究, 2022(01).

[2] Zhang X, Han Y, Xu W, et al. HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture[J]. Information Sciences, 2021(03).

[3] 熊志斌, 吳維燁. 基于深度信念網絡的信用評估研究[J]. 科研信息化技術與應用, 2019(03).

[4] Zhang Y, Wang D, Chen Y, et al. Credit risk assessment based on long short-term memory model[C].International conference on intelligent computing. 2017(02).

[5] 陳煜, 周繼恩, 杜金泉. 基于交易數據的信用評估方法[J]. 計算機應用與軟件, 2018(05)

[6] Crone S F, Finlay S. Instance sampling in credit scoring: An empirical study of sample size and balancing[J]. International Journal of Forecasting, 2012(01).

[7] Marqués A I, García V, Sánchez J S. On the suitability of resampling techniques for the class imbalance problem in credit scoring[J]. Journal of the Operational Research Society, 2013(07).

[8] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002(06).

[9] Wang L. Imbalanced credit risk prediction based on SMOTE and multi-kernel FCM improved by particle swarm optimization[J]. Applied Soft Computing, 2022(04).

[10] Shen F, Zhao X, Kou G, et al. A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique[J]. Applied Soft Computing, 2021(01).

[11] Wang D, Dong L, Wang R, et al. Targeted speech adversarial example generation with generative adversarial network[J]. IEEE Access, 2020(08).

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合