?

考慮文本情感特征的電商小微企業信用風險預警

2023-02-22 03:08鮑新中
運籌與管理 2023年12期
關鍵詞:信用風險小微預警

徐 鯤, 李 瑩, 鮑新中

(北京聯合大學 管理學院,北京 100101)

0 引言

目前以電商小微企業為研究對象的信用風險預警指標體系初具雛形,但并未形成定論。學者們進一步強調了定性指標對小企業信用風險評估的重要性[1,2],這意味著構建電商小微企業信用風險的指標體系必須契合電商小微企業特性。隨著云計算、大數據在信息采集、智能決策等方面為互聯網融資賦能,信用風險評估視角得以擴展:通過挖掘云計算庫中儲存的多層次、多維度、時效性強的結構化數據與非結構化數據[3],以多維度動態數據分析小微企業的經營流水、營收趨勢、交易網絡[4]、客戶交易行為[5]等。在形式多元化的數據中,學者們逐漸聚焦蘊含豐富信息的文本,李成剛等[6]指出上市公司信息披露文本的可讀性、相似度、情感語調能深度反應公司信用風險。而對于電商小微企業而言,最具特點的非結構化數據莫過于平臺上公開的消費者在線評論文本,在線評論文本中所隱含的消費者主觀情緒會潛移默化的影響后來消費者對產品的態度、對企業的偏好[7],進而影響其風險感知程度[8],這會對電商小微企業的信用產生極大的影響。因此深度挖掘在線評論數據可以有效補充電商小微企業信用相關信息,提升信用風險預警的效果。

本文收集生鮮行業電商小微企業在線評論文本數據,運用LDA法提取在線評論的文本特征,采用情感分析量化電商小微企業信用風險指標,并結合電商小微企業相關的資質指標、經營指標構建契合電商小微企業的信用風險預警指標體系,以此為基礎對生鮮行業電商小微企業信用風險進行預警分析??紤]到預警模型的優化,本文將“兩步法”優化網格搜索算法與隨機森林算法結合搜尋最優參數點,在保證效率的同時構建合理、精準的隨機森林模型。

1 主客觀兩維度信用風險指標體系設計

1.1 理論基礎、樣本選擇、數據來源與處理

本文結合LI和QIAO[9]、CAI等[10]、王冬一等[11]的相關研究,并考慮電商小微企業本身特質,選擇最為權威的5C要素理論作為基礎,搭建電商小微企業信用風險評級指標體系的框架。研究對象為淘寶平臺上C2C生鮮行業小微企業,研究樣本來源于淘寶電商平臺,使用Python語言編程采集相關數據,于2021年7月31日共爬取1000條店鋪數據,經篩選后獲得822家樣本數據。收集數據后對在線評論文本進行預處理,刪除系統自動評論、去除重復評論、人工剔除無關評論、篩去過短無實際分析意義的評論后,共篩選出淘寶生鮮行業店鋪822家,獲取在線評論33756條。

1.2 電商小微企業信用風險指標體系形成

本文的指標體系分為客觀指標和主觀指標。指標體系形成的步驟如下:

Step1通過查閱文獻、歸納總結,初步獲取指標體系中的各指標。

Step2利用Python編碼構建LDA主題模型,輸出主題、特征詞、權重,對LDA主題模型提取的特征詞進行分析、歸納、凝練、總結后,得到4個主觀指標,分別為產品品質評論情感(A8)、物流包裝評價情感(B11)、性價比評價情感(B12)、店鋪服務評價情感(C5)。

Step3采用構建情感詞典的方式對指標體系中的主觀指標進行情感量化。

Step4調用Python中的sklearn包實現隨機森林輸出特征重要程度,并據此對前文獲取的25個指標進行篩選剔除,形成最終的指標體系,篩選后指標體系共有21個二級指標。

基于主客觀維度的電商小微企業信用風險預警指標體系見表1。

表1 基于主客觀維度的電商小微企業信用風險預警指標體系

2 信用風險預警模型設計

2.1 預警閾值確定

將電商小微企業信用風險劃分為無風險、輕度風險、中度風險、重度風險4個類別,首先計算RWIt值,公式為:

(1)

其次以正態分布的原理在95%的置信概率下設定風險類別的閾值,作為劃分電商小微企業信用風險的分界線,據此設定界定電商小微企業信用風險類別閾值(ηi),設計四段式電商小微企業信用風險程度判定區間。電商小微企業信用風險綜合預警指標閾值具體計算公式如下所示,式(2)至式(4)分別表示三個閾值η0,η1,η2。

(2)

(3)

η1=1/2[η2+1/2(η0+η2)]

(4)

若RWIt值小于閾值η2,則說明該企業處于重度信用風險階段;若RWIt值大于η2小于η1,則定義該企業處于中度信用風險階段;若RWIt值大于η1小于η0,則定義該企業處于輕度信用風險階段;若RWIt值大于η0,則定義該企業的信用非常好,無信用風險。

2.2 隨機森林預警模型設計與優化

隨機森林預警模型的設計與優化步驟如下:

Step1SMOTE算法處理不平衡數據。SMOTE算法的實現公式見式(5)。

xnew=x0+random( )(x0i-x0)

(5)

其中random( )∈[0,1],代表[0,1]內的一個隨機數,xnew代表新合成的樣本,x0則是代表少數類中的原始樣本,x0i代表每次隨機選擇的x0的第i個最近臨近樣本。

Step2構建標準RF模型。設由n棵樹h1(x),h2(x),…,hn(x)構成一片隨機森林,設訓練樣本集合為D(X,Y),其中X為樣本所具有的特征屬性,Y為每個樣本對應的類別屬性。式(6)表示模型正確分類票數超過不正確分類最大票數的程度,該值越大,表明模型的分類效果越好。

(6)

泛化誤差的表達式如式(7)所示,其中Px,y表示概率值,PX,Y(mg(X,Y)<0)表示間隔函數小于0的概率,即預測誤判概率,泛化誤差越低,模型的分類性能越好。

PE*=PX,Y(mg(X,Y)<0)

(7)

隨機森林具有收斂性,假設θk,存在隨機森林hk(X)=hk(X,θk),當森林中的決策樹增加到一定程度后,式(7)將服從強大數定律,序列θk將收斂至式(8),該式說明RF不會因決策樹變多而出現過擬合,存在一個有限的泛化誤差值。

(8)

(9)

Step3運用“兩步法”網格搜索算法優化。第一步在較大范圍內劃分大網格,通過粗搜索的思想篩選出最優參數可能的范圍;第二步在最優范圍附近以小步長進行精細搜索,劃分出更為密集的網絡,在該網絡上選擇出最優點。

Step4使用最優參數構建RF模型。

3 實證研究

3.1 實證過程分析

本文的實證步驟如下:(1)使用SMOTE和ADASYN兩種隨機過采樣算法進行平衡處理,對比分析處理后構建的標準隨機森林模型性能,驗證使用SMOTE算法的合理性;(2)對比Logistic模型、CART模型和標準隨機森林模型在平衡與非平衡數據集上性能,驗證使用平衡數據集的必要性;(3)基于平衡數據集進行模型對照試驗,驗證隨機森林模型的優越性;(4)構建“兩步法”網絡搜索算法優化隨機森林組合預測模型,對標準隨機森林模型進行參數優化;(5)隨機選取時點和樣本進行對比分析,驗證預警模型的可推廣性和說服力。本部分模型驗證時使用最常用的準確率(ACC)、精確率(P)、召回率(R)和F值。

3.2 不同不平衡數據處理方法的比較分析

分別采用SMOTE和ADASYN進行處理,生成平衡數據集,并將得到的平衡數據集按照2:8劃分測試集與訓練集,對比構建的標準隨機森林模型的性能。兩種不平衡數據處理方法處理后的數據情況見表2,標準隨機森林模型的性能對比見表3。

表2 SMOTE和ADASYN平衡處理前后的數據情況

表3 基于SMOTE和ADASYN平衡處理的標準RF模型

表2的結果顯示,平衡處理前,無風險、輕度風險、中度風險和重度風險樣本分別占總樣本的1.946%,85.888%,11.192%和0.973%,分布十分不均衡。處理后的平衡數據集中,四類風險樣本各占25%,樣本達到平衡。表3的結果顯示,基于SMOTE平衡處理后形成的平衡數據集構建的標準隨機森林模型,輸出的測試集準確率(ACC)、精確率(P)和F值為97.30%,召回率(R)為97.40%。與ADASYN平衡處理后的模型相比性能更高,故本文使用SMOTE算法處理數據集,進行后續的模型構建是合理可行的。

3.3 平衡數據集與非平衡數據集上模型性能比較分析

分別將邏輯回歸(Logistic)、決策樹(CART)、隨機森林(RF)三種預警模型在平衡數據集和非平衡數據集上輸出的評估值進行對比,詳見表4。

表4 基于非平衡與平衡數據集的模型對比

結果顯示,平衡數據集上Logistic模型正確預測電商小微企業風險類別的概率提高了0.87%。而精確率(P)和召回率(R)則出現了極大幅度的變化,探究這種現象產生的根源應從混淆矩陣入手。式(10)和式(11)分別代表非平衡數據集上和平衡數據集上的混淆矩陣,在式(10)的混淆矩陣中,實際為重度風險樣本僅有一個,這一樣本一旦被錯分,會極大幅度拉低整體預測精度,也間接使非平衡數據集輸出的精確度和召回率受到較大影響;在平衡數據集輸出的混淆矩陣式(11)中,各樣本量較均衡,不會出現較為極端的情況,更能如實反映模型真實狀態。這也印證了處理不平衡數據集的必要性。

(10)

(11)

對于CART模型,相較于非平衡數據集,平衡數據集上四個指標均達到了百分之九十以上,且優化后的指標整體高于Logistic模型輸出的指標,說明決策樹易產生局部最優解的特性導致其預測結果并不穩定,受到不平衡數據的影響更大。

對于RF模型,在非平衡數據集中,RF模型的整體準確率(ACC)和精確率(P)明顯小于在非平衡樣本集中的Logistic模型和CART模型,從混淆矩陣入手尋找產生這種極度差異的原因,在RF模型輸出的混淆矩陣中(見式(12)),重度風險類樣本僅有一個被劃分至測試集,且該樣本被誤判,這拉低了RF模型整體的精確率(P),致使其表現效果不佳,同樣也降低了作為精確率和召回率調和均值F1的輸出值。

(12)

通過上述對比進一步分析可知,無論是在單個模型還是在集成模型上,數據平衡與否均會對模型精度產生較大的影響。通過CART模型與RF模型的對比更能說明集成模型在抗干擾性稍優于單個模型,但與之對應的是二者所受數據集不平衡影響均較大,這也印證了如果不考慮樣本的平衡性可能會產生較為嚴重的誤判。

3.4 平衡數據集上不同模型性能比較分析

在平衡數據集上驗證不同預警模型,首先通過十折交叉驗證,可以明顯看出RF遠優于Logistic和CART。

在平衡數據集上,輸出Logistic、CART、標準RF、經參數調優的隨機森林四個模型的預測準確率如表5所示。結果顯示經參數調優的隨機森林模型準確率達到了98%以上。因此調參后的隨機森林模型可以更為準確的幫助貸款方辨別電商小微企業所處的信用風險階段,從而輔助其對是否放貸做出決策。

除此之外,平衡數據集上Logistic模型的召回率為92.67%,CART模型的召回率為94.07%,隨機森林模型的召回率為97.9%,調參后的隨機森林模型召回率為98.417%,說明在調參后的隨機森林模型中,每類預測結果的樣本中真正為該類的樣本占全部樣本的比例較高。也說明了本文的模型具有更高的預測精度。對比標準隨機森林模型與調參的隨機森林模型輸出的指標也以看出,調參后隨機森林模型的各個評價指標均優于未調參的隨機森林模型。

表5 Logistic、CART、標準RF、經參數調優的隨機森林四個模型的預測準確率對比

綜合評價指標結果、進行模型對比后發現,調參后的隨機森林算法各方面的預測精度均高于其余對照組,即該模型對電商小微企業信用風險的預測最為準確,最能準確判斷電商小微企業信用風險所處的階段,能更好的協助電商小微企業辨別自身信用風險,為貸款機構是否融資提供依據。

3.5 基于“兩步法”網格搜索算法的隨機森林參數優化

進行參數優化的過程中主要關注tree與features兩個參數??紤]到該參數的特性,首先,繪制tree的成長曲線尋找森林中決策子樹數量的波動閾值,通過tree成長曲線的初步判斷,當森林中決策子樹的棵數在(50,200)范圍內時,隨機森林模型的精度平穩波動,即存在一個最優值確保模型的精度最高,因此可先將該參數的值粗略劃分在(50,210)之間。

其次,運用“兩步法”網格搜索算法尋找構建森林的最優子樹數量。設定森林中決策子樹的數量k取值為(50,210),步長設定為20,使得參數在全局尋優的過程中按照大網格進行搜索,輸出結果當tree參數為190時,隨機森林模型的預測準確率達到97.43%;考慮到大步長設定為20,沒有考慮到190前后各20的網格,因此,進一步細化網格步長,設定k的取值為(170,210),步長為10,輸出當tree參數為200時,隨機森林在測試集上的預測準確率達到97.47%;再次采用“兩步法”的思想,進一步縮小參數最優值可能的范圍,設定k的取值為(190,210),步長為1,最終輸出tree參數為206時,隨機森林在測試集上的預測準確率達到最優值97.52%,為進一步驗證在(190,210)區間內,tree參數為206時模型最優,繪制隨機森林模型泛化誤差與森林中決策子樹個數的關系圖(詳見圖1),可以看出tree在206,207之間某一點,模型的泛化誤差最小,因此本文經過優化后取tree的參數為206,基本上使得隨機森林模型精度最大化。

圖1 泛化誤差與決策子樹個數關系

由于參數features取值范圍固定,與tree參數有所不同,因此在此對“兩步法”思路進行調整,先輸出參數features不同取值所對應的模型泛化誤差,從整體上觀察隨機森林模型泛化誤差與參數features的關系(輸出的關系見圖2),可以看出features參數在(5,8)區間內存在泛化誤差最小值,但是難以直觀確定何處最優,因此運用“兩步法”優化的思想,首先設定features的取值為(5,8),設置步長為1,進行全局搜索,最終得到features最優值為6。

圖2 泛化誤差與隨機選擇特征變量個數關系

將tree=206,features=6帶入原始標準隨機森林模型中,得到模型精度為98.41%,較之原始隨機森林模型精度97.88%提升了0.53%的精度,較之僅優化tree參數的隨機森林模型提升了0.18%的精度,說明該參數的優化使得模型泛化錯誤向最低點移動,優化有效。故最終確定建立的隨機森林模型中tree=206,features=6。

3.6 不同數據時點平衡數據集上模型結果比較分析

為驗證本文構建的電商小微企業信用風險預警模型的可推廣性和說服力,本文隨機選取2021年7月31日、2021年8月15日、2021年8月30日和2021年9月15日四個時點,隨機抽取樣本電商小微企業中的40%進行驗證。

結果顯示,在隨機抽取的樣本中,不同時點采用本文構建的信用風險預警模型預測的結果均與店鋪所屬的信用風險預警閾值一致或相近,故從整體來看,本文構建的預警模型是具有可推廣性和說服力的。以店鋪1和店鋪10為例。店鋪1的預警閾值是1,表明店鋪的起始風險程度是輕風險,隨機選取的四個時點的風險預警結果顯示,店鋪1也屬于輕風險范圍,說明模型預警結果準確;店鋪10的起始風險屬于無風險類型,而隨機選取的四個時點的風險預警結果中,2021年7月31日依舊為無風險,其余三個時點均為輕風險,表明店鋪10的風險水平發生了輕微波動,但波動幅度不大,預測結果與預警閾值的這種差異可能與電商小微企業本身經營不穩定、波動性大有關。

4 結束語

文章考慮多場景電商小微企業信用風險影響因素,從主觀維度和客觀維度兩方面構建符合電商小微企業的信用風險預警指標體系;劃分四級風險類別閾值,并通過優化參數構建隨機森林模型;通過真實樣本數據驗證預警模型的可行性,得到結論如下:

(1)構建了考慮文本情感特征因素的電商小微企業信用風險預警指標體系,并通過實證研究檢驗了指標體系的有效性。

(2)使用SMOTE算法對不平衡數據集進行處理,并通過實證研究發現平衡數據集無論對單一模型還是集成預警模型均十分重要。

(3)構建了“兩步法”網絡搜索算法優化隨機森林組合預測模型。并結合實證分析驗證了本文所構建的電商小微企業信用風險預警模型的適用性與精準性。本研究既為大數據背景下運用非結構化數據探究信用風險預警模型、科學預測電商小微企業信用風險提供新思路,也有助于推動電商小微企業信用風險預警與時俱進。

猜你喜歡
信用風險小微預警
小微課大應用
法國發布高溫預警 嚴陣以待備戰“史上最熱周”
小微企業借款人
園林有害生物預警與可持續控制
淺析我國商業銀行信用風險管理
京東商城電子商務信用風險防范策略
小微企業經營者思想動態調查
機載預警雷達對IFF 的干擾分析
個人信用風險評分的指標選擇研究
解決小微金融機構的風控難題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合