馬楠藍 李雨芹 曹 云 吳沁欣
(西華大學,四川 成都 610039)
在構建該信用風險評估系統時,一是采用的是Weka軟件。該軟件能對數據進行初步處理、分類、回歸、聚類、關聯規則等,并實現可視化操作。本文對收集的數據采用了初步處理、利用Apriori關聯規則挖掘分析的方法。
二是利用MSBNx貝葉斯網分類工具,采用貝葉斯信念網絡分類進行類型劃分,利用相關的算法。以此確定出因素之間的相關關系以及相應的概率,為模型的建立以及結論的產生提供參考依據。
本文選取6類最具代表性的指標,即財產狀況、年齡、婚姻狀況、有無固定電話、信用保證金額、信用等級。由于Weka軟件只識別英文,將以上6類用英文代替,分別是property、age、status、telephone、credit amount、class。調查結果如表1所示。
表1 樣本調查結果
首先對數據進行初步處理,以保證數據挖掘的質量。依次進行數據缺失項處理;數據的標準化處理;數據的規范化處理,規范到[-1,+1]區間。
使用Apriori算法獲取關聯信息并進行分析,對初步處理的數據進行關聯規則挖掘。采用支持度、置信度2個指標,分別確定數據集的頻繁程度、Y在包含X的事物出現的概率。同時將滿足最小支持度、最小置信度閾值的規則稱為強規則。
首先,采用支持度閾值為25%、置信度閾值為85%,對挖掘的最佳關聯規則第 1、2條進行分析。結果表明有房產與信用額度有強關聯(lift=1.22>1);年齡在35~49與信用額度小關聯較小(lift=1.07)。隨后采用置信度閾值為55%進行分析,找出:“status=male single,telephone=none ==> property=real estate”規則的置信度和提升讀。結果表明有房產單身男性與沒有電話號碼有強關聯規(lift=1.22)。
通過上述過程得出的結果,運用MSBNx工具中的貝葉斯信念網絡分類方法進行分析,得出最終的結果。
貝葉斯信念網絡分類:首先,將年齡與信用額度離散成 3類,得到年齡與信用額度離散結果,隨后,構建貝葉斯信念網絡分類進行類型劃分,如圖1中橢圓圈及箭頭所構成的網絡。最后,可求得信用等級(class)好(Good)、壞(bad)的概率。例:求“有車、年齡超過 50歲、無電話、信用額小于 3000”的信貸評級。
圖1 信用風險評估結果
根據系統給出的結果得出good、bad概率分別為0.835443、0.164557,信用等級好的概率大,故銀行可提供貸款給借款人。
由于實際情況復雜,本文只選取6類代表性指標調查,設計出信用風險評估系統,并給出操作示范。最終決策客觀、規范,實現風險控制的目標。同時為其他需要信用風險評估的機構或組織提供了一個有效的操作方法,這是該信用風險評估系統更為深層的作用。