?

基于融合模型的機器學習算法識別財務造假的研究
——以制造業為例

2022-10-17 08:32陳雨芳趙英杰吳昕劼
統計與管理 2022年7期
關鍵詞:財務數據決策樹樣本

陳雨芳 趙英杰 吳昕劼

(長春大學 理學院應用統計系,吉林 長春 130024)

一、引言

近幾年來,財務造假事件依然持高不下,操作手法更是多種多樣。據統計展示,2020年國家共查辦上市公司財務造假事件59起,約占信息處理總案件的1/4,為了保證市場的正常穩定發展,查除上市公司財務造假問題不可懈怠。面對上市公司多年的財務數據報告,如何通過合理數據指標篩選進行跟蹤分析和研究,根據有效的理論構建良好的財務造假識別模型,從而避免投資者踩雷,并能有效的解決市場監督機構和廣大投資者共同關心的問題。學者劉君和王理平(2006)[1],依據上市公財務數據,使用徑向基概率神經網絡算法構建財務造假識別模型。陳國欣、呂占甲等(2007)[2],使用邏輯回歸模型,使用等同的造假與非造假上市公司的29個財務數據建模,結果顯示Logistic回歸的識別率為95%。此外,也有學者試圖使用多種模型進行研究。李康(2011)[3],利用組合模型思想,構建邏輯回歸模型和神經網絡的組合預測模型。對上市公司財務數據進行建模,認為組合模型比單個模型識別效果更好。成雪嬌(2018)[4],構建多個識別模型進行綜合,使用投票法機制對上市公司是否造假進行決策。國外諸多學者也進行了研究,國外學者 Green(1997)[5],Fanning 和 Cogger(1998)[6],在此方面研究較早,使用神經網絡DNN對上市公司財務數據進行實證分析,利用公司資產、壞賬準備、盈利等指標構建財務造假識別模型。區別于使用單個模型,Ophir Gottlieb(2006)[7],以美國上市公司財務數據為研究對象,分別構建Logistic回歸、SVM和貝葉斯模型,對比得出Logistic回歸和SVM 效果較好。P.Ravisankar等人(2010)[8],對比了多種數據挖掘方法,最終發現概率神經網絡(PNN)構建的模型識別效果最好等。

基于模型組合這一個研究思路,本文在構建公司財務造假識別模型中,不僅包含有常用的機器學習模型,比如RL、DT等模型,也使用了比較火熱的集成學習算法XGBoost進行建模,同時使用Voting和Stacking算法進行模型融合,以模型的AUC值和Accuracy作為評估指標,對比不同機制下模型的準確率,最終發現使用Stacking融合得到的模型效果最好,并以此作為最終預測模型。本文通過上市公司財務造假識別的研究,使得投資者識別了財務造假的公司,保障了投資者的權益,避免“黑天鵝”事件的發生,降低投資者的盲目性。同時也能給監管部門提供相應建議,給出上市公司在財務造假上更加傾向的財物指標作為重要核對對象。

圖1:文章整體框架圖

二、數據處理及特征工程

(一)數據樣本選取與預處理

本文實驗原始數據源于第九屆泰迪杯競賽中披露的11310組真實財務報表數據,包含了363項數據指標,其中前10個指標為無關變量指標,因此真實有用的財務數據指標共353項。選取0(財務正常)和1(財務造假)作為目標變量。

在財務數據的處理過程中,參考資料得知,現有的填補方法包括常值插法、熱卡插值法、回歸插值法等缺失值填補法都存在一定不足,比如使用均值填補的時候會改變數據的原始分布,造成一定的抽樣誤差,因為不同公司之間規模大小不同,財務情況也不會完全相同,所以使用均值填充的時候會損失一部分信息,不能很好地表示每個公司之間的差別,此外公司間的財務結算標準可能存在差異,均值填充不能很好地體現出缺失值的不確定性。本文做了缺失值填補效果的對比性分析,通過在正常數據中隨機取點,記錄下非空點值。將該位置重新賦值為空,通過多種缺失值填補方法,計算扣取點的真實值與填補值之間的誤差,對比MSE和MAE的結果。結果如下表1所示,認為隨機森林填補缺失值的方法最為有效?;谝陨峡紤],本次填補缺失值我們選擇的是機器學習中的隨機森林算法。

表1:各方法缺失值填充效果對比表

建立模型之前需要進行數據預處理,對于缺失比例過多的指標,如果選擇使用小部分已知數據去填補大部分未知的數據,可能會造成填補的數據偏離數據的真實情況,對模型預測產生干擾,因此刪除是比較可靠的方法。本文對指標數據缺失大于50%的指標選擇剔除,對于缺失數量較少的指標,經過對比填充效果,選擇使用隨機森林進行缺失值填補,最終得到建模數據集。

(二)財務指標選取

對于模型來說,指標分為相關指標、無關指標、冗余指標,因此我們需要對其進行指標篩選工作,剔除一部分無關和冗余的特征,留下含有較大信息量的相關特征。由于提供的財務數據中財務指標比較齊全,包含了大部分常見的財務特征,因此本文不選擇使用特征構造的方法,認為提供的特征能很好識別財務造假情況。剔除冗余和不相關的特征能夠使得模型更加精確,同時在模型訓練過程中也可以更好更快發現數據中隱含的信息和規律。指標選擇的方法有很多,比如:嵌入式(embedding)、包裹式(wrapper)、過濾式(filter)等。

在使用Lasso算法篩選變量的時候,得到的變量只有三個,使用三個變量進行建模會損失很多信息,因此Lasso篩選結果僅作為參考。然后使用正態性檢驗(KS檢驗和W檢驗)檢測各指標是否服從正態分布,結果顯示大部分指標是不符從正態分布的。接著使用曼惠特尼非參數方法,篩選出在造假數據和非造假數據中存在顯著區別的指標變量,一共47個指標。接著使用隨機森林進行進一步指標篩選,根據各個指標對隨機森林每一棵樹的貢獻程度,得到占據總得分80%的指標作為建模指標,一共篩選出29個指標如表2所示。

表2:最終篩選財務指標

未分配利潤 0.035864741 應付職工薪酬 0.023144投資活動產生的現金流量凈額 0.033201561 取得投資收益收到的現金 0.021956銷售費用 0.033164612 收到其他與經營活動有關的現金 0.021564收到其他與投資活動有關的現金 0.033079546 分配股利、利潤或償付利息支付的現金 0.017263應付利息 0.032806095 少數股東損益 0.016675投資活動現金流出小計 0.031568338 實收資本(或股本) 0.016544支付的各項稅費 0.024197018 營業收入 0.016466支付給職工和為職工支付的現金 0.023953429 營業成本 0.016066非流動負債合計 0.023901551 經營活動現金流入小計 0.0157歸屬于少數股東的綜合收益總額 0.021085614

(三)特征篩選效果檢驗

SHAP主要作用是量化每個特征對模型所作預測的貢獻情況,主要思想是博弈論中Shapley值的方法,通過計算每個特征對prediction的貢獻,對模型判斷結果進行解釋,該方法的整體框架如圖2所示。

圖2:SHAP框架圖

目前多數解釋機器學習模型的都是基于簡單模型(比如線性回歸模型),而一些復雜常用的機器學習模型是不容易理解的。對于樹模型,SHAP使用Shapley值作為一種可加特征歸因方法,并滿足三大屬性:局部準確性(Local accuracy),一致性(Consistency)和缺失性(Missingness)。隨機森林模型衡量特征重要性的指標有信息增益(Gain)、分裂次數(Weight)、節點樣本量(Cover)。不同的重要特征指標選擇會導致特征重要性排序不一致,雖然通過重要性排序可以基本看出特征維度在模型中要重要性。但該指標沒有給出重要性的積極或負向影響,無法判斷特征與最終預測結果的關系是如何的。SHAP值則彌補了目前樹模型算法可解釋性的不足,很好的展示了變量對模型起到的正負性影響。

首先對一個label為1的樣本(即存在財務造假的數據)進行SHAP值可視化分析,結果圖3所示(黑白展示下,SHAP值可視化圖片做了特殊處理,便于查看)。

圖3:label為1的樣本SHAP值可視化

接著對label為0的某一樣本進行SHAP值可視化分析,結果如圖4所示。

圖4:label為0的樣本SHAP值可視化

上圖4中右側淺色斜線部分表示該特征的貢獻是負向的,左側深色部分表示該特征那個的貢獻是正向的,而寬度表示的是該特征對于目標變量的影響程度,寬度越寬,說明該特征的影響越大。從兩個圖中可以看出,在圖3中可以看出可供出售金融資產指標(AVAIL_FOR_SALE_FA)為深色正向排在最前面,而且長度最長,說明在造假公司的數據中可供出售金融資產特征起到的作用是最大的,說明該特征對于公司造假具有很強的識別能力。兩圖對比展示了特征在非造假公司的數據與造假公司作用的區別,因此從結果上可以看出使用非參數方法+隨機森林的組合方法篩選得到的特征具有很強的財務造假識別能力。

(四)數據不平衡處理

由于篩選出的變量數據中存在嚴重的數據不平衡問題,其中造假公司數據與非造假公司的比例約為250∶1。如果未處理該問題,訓練出的模型就會傾向于樣本量較多的數據,這樣得到的模型結果偏差較大甚至毫無意義。因此在建模之前使用SMOTE算法對少數類樣本重抽樣,使得造假數據和非造假數據的比例為1∶1,避免機器學習模型對少數類樣本欠學習。

SMOTE算法主要步驟如下:

1、使用歐式距離計算少數類(需要采樣的類Smin)中每個樣本xi到該類中其他樣本的距離,得出k個最近位置。

2、根據設定采樣比例N確定不平衡樣本需采樣的數量,接著從k個最近位置中隨機選擇若干個樣本。

3、根據隨機選擇出的緊鄰樣本xj,與原樣本x計算構建新樣本。

三、造假識別模型建立及優化

(一)財務造假模型選擇及評估指標

對財務造假的研究過程中發現,財務造假的重要影響因素可以歸納為財務指標因素和非財務指標因素兩種,而財務因素大致又可以分為償債能力,成長能力,盈利能力,運營能力以及現金流量等方面,這些因素在一定程度上可以反映出公司的財務和經營狀況。本文選擇XGBoost模型、邏輯回歸模型(Logistic Regression)以及決策樹模型(Decision Tree)對上述指標進行深入挖掘分析,建立財務造假識別模型,以下是對這三種機器學習模型以及模型評價指標進行簡要說明。

1、決策樹模型(DT)

決策樹是一種具有分類與回歸作用的算法,本文建立的是財務識別分類算法,因此主要討論的是分類樹。分類決策樹是一種描述分類的樹形結構,旨在基于訓練數據學習經驗對目標分類做出判斷。決策樹從根節點開始,在生長過程中需要選擇合適的分裂節點,最終得到一棵完整樹模型。常用的選擇標準如下:

(1)純度。純度可以理解為數據之間的相似度,純度越高作分裂節點越好;

(2)信息熵。信息論中表示信息的不確定度,定義為:

(3)信息增益。表示在得知X信息后Y信息不確定性的減少程度,其中特征A對集合D的信息增益g(D,A) =H(D)-H(D|A),其中H(D)表示集合D的信息熵,H(D|A)表示為特征A信息已知后集合D的經驗條件熵。

(4)信息增益比。為改正信息增益會偏重選擇分類較多的特征作為分裂節點,使用帶來更大信息增益比值的特征進行分裂更加合理,即:

(5)基尼指數。描述數據的純度,集合D的基尼指數為:

其中屬于第k類的數據子集用CK表示,K表示類的數量。得到的基尼指數值越大,樣本集合的不確定性就越大。

本文使用基尼指數的方式利用上市公司財務數據建立CART分類決策樹,使用預剪枝的方式對完整決策樹進行修改,減少過擬合情況的發生,更大程度提升模型的泛化能力。

2、邏輯回歸模型(LR)

邏輯回歸模型中雖然帶有回歸二字,卻是經典的分類模型。二分類問題上,Logistic通過對特征數據壓縮至0和1之間達到分類的效果,模型的條件概率分布為:

模型使用極大似然估計法來求得w參數,對應似然函數為:

對L(w)求極大值,得到w值的估計。

3、XGBoost模型

XGBoost模型是一種集成模型,通過將多個基學習器(比如單棵決策樹)組合成一個各項性能都有所提升的強學習器。XGBoost的思想是一種提升樹模型,通過前向分布算法,每次擬合前一個樹的殘差學習K棵決策樹的加法模型,并通過貪心算法找到局部的最優解。

每一次迭代中,尋找使整體損失值下降最大的特征建樹,因此目標函數可以寫成:

接著使用泰勒展開對目標參數求取近似值:

樹模型中復雜度可以使用樹的深度、中間節點數量、弱學習器的個數等衡量。XGBoost中加入了L2正則項來防止模型過擬合,假設一棵樹中包含T個葉子節點,每個葉子節點上的樣本權重為ωj,則模型的復雜度Ω(f)定義為:

其中復雜度的第一部分控制著樹結構,第二部分為正則項,可以通過判斷葉子節點的數量T來判斷樹的深度,γ為自定義控制葉子數量的參數。帶入正則項后,最終XGBoost的目標函數為:

4、Voting算法

投票法,常用的有加權投票法和簡單投票法,通過加權重的方式將多個模型得到的結果進行投票表決,票數多的結果獲勝,避免了單一模型的精度不足問題,同時一定程度可以防止過擬合的發生。

5、Stacking算法

Stacking是對訓練數據建立單學習器預測結果的二次學習,使用真實結果與單學習器的預測結果訓練一個相對簡單的學習器,對測試數據輸出進行整合。

6、模型評估指標

(1)混淆矩陣。展示了數據的真實類別與預測結果之間的關系。

表3:混淆矩陣

(2)識別準確率(Accuracy)

(3)識別反饋率(Recall)

(4)ROC曲線。受試者工作特性(Receiver Operating Characteristic ROC)曲線是由橫軸為假正例率與縱軸為真正例率構成的曲線圖,可以反映出分類模型的效果,是二分類問題的常用評價指標。其中ROC曲線下的面積大小就是AUC值,反映分類器正確分類的統計概率,AUC值越接近1表明模型分類效果越好。

(二)模型建立

使用 XGBoost模型、Logistic模型、決策樹模型、Voting和Stacking等方法結合篩選出來的變量建立財務造假識別模型,經過網格搜索和交叉驗證等方法得到性能最優的模型,各個模型在測試集上的結果如下表4所示。

表4:單個模型和stacking融合效果對比

圖5:Logistic模型的ROC曲線

圖6:決策樹模型的ROC曲線

圖7:XGBoost模型的ROC曲線

圖8:Voting和Stacking效果對比圖

通過對比模型效果,可以看出單個模型中XGBoost模型得到的效果很好,AUC的值和準確率都很高,表示模型可以很好地學習到數據中的規律。雖然XGBoost中加入了正則項來控制模型的過擬合,但是模型還是存在一定程度上的過擬合,其他單個模型都有各自的優點,得到的預測效果也不盡相同。對比與單個模型,Voting融合得到的結果相較于全部模型平均來說會更好一點,在預測精度方面得到了一定的提高。表現效果最好的是Stacking融合得到的結果,通過二次建模,將單個模型的預測結果進行整合,最終得到更加準確的結果。

四、結論

本文使用制造業上市公司財務數據結合機器學習算法及模型融合思想,建立了財務造假識別模型,主要目的是構建最優的分類預測模型來識別制造業中上市公司的財務數據中是否存在造假情況。通過對比指標篩選的結果可以看出,財務是否造假與支付其他與籌資活動有關的現金、投資支付的現金、收到的稅費返還、營業外支出、未分配利潤、應付利息、投資活動現金流出小計、支付的各項稅費、應付職工薪酬、少數股東損益等等有著顯著關系,在判斷是否存在財務造假方面具有較強區分能力。本文在識別模型選取上,使用XGBoost、決策樹、Logistics回歸這三種建模方法??紤]到單模型的魯棒性、識別能力和泛化能力可能存在不足,本文選擇使用組合模型的思想,結合上述三種模型采用Voting投票方法和Stacking層疊方法進行建模,這樣建立的模型較為穩定,不存在嚴重過擬合且效果較好。結果顯示Voting算法得到的ACC為98.5%,而Stacking得到的ACC為99.1%,Stacking策略的效果更好,對于財務造假的識別能力更強。綜上所述,本文通過篩選影響指標構建融合的上市公司財務造假識別模型具有較高的識別準確性及現實意義,在能夠給投資者提供投資參考的同時,也能給監管者提出相關建議,使得公司財務數據得到更好地監管。

猜你喜歡
財務數據決策樹樣本
簡述一種基于C4.5的隨機決策樹集成分類算法設計
規劃·樣本
2018上市公司中報主要財務數據(8)
2017上市公司年報主要財務數據(6)
2017年上市公司年報主要財務數據(1)
2018上市公司中報主要財務數據(3)
人大專題詢問之“方城樣本”
隨機微分方程的樣本Lyapunov二次型估計
決策樹學習的剪枝方法
決策樹在施工項目管理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合