?

基于機器學習算法的上市企業內部控制缺陷預測研究

2024-04-15 12:03博士博士生導師
財會月刊 2024年7期
關鍵詞:變量樣本預測

袁 濤(博士),黃 寰(博士生導師)

一、引言

內部控制作為企業經營管理的重要手段,在防范風險和保障企業可持續發展方面發揮著關鍵作用(劉啟亮等,2012)。我國自2006年頒布《上市公司內部控制指引》開始,就要求企業每年對內部控制詳細情況發布內部控制評價報告(劉瑾和趙納暉,2022)。2008年,財政部聯合五部委頒布了《企業內部控制基本規范》,要求企業不僅要出具內部控制評價報告,還要聘請有資質的中介機構對報告進行鑒證。2010 年,為了配合基本規范的執行,財政部又聯合五部委頒布了《企業內部控制配套指引》等文件,規定了企業在內部控制評價報告中應當披露的詳細內容。至此,我國企業內部控制體系初步形成(喻彪和楊剛,2022)。

上市公司對內部控制的有效性進行自我評價,有助于其發現隱藏的內部控制缺陷,并通過制定整改和糾正措施,規避和減少內部控制缺陷給企業帶來的風險(曾慶超和許諾,2022)。但是,上市公司對內部控制信息的披露容易受到諸多因素的影響。一方面,企業管理層為了避免披露內部控制缺陷信息對企業聲譽造成不利影響,會減少對內部控制缺陷信息的披露,甚至可能會人為篡改內部控制缺陷評價報告。另一方面,企業投資者對于企業披露的內部控制缺陷信息十分關注,如果企業向外界傳達了企業內部控制有效性欠缺等內控缺陷信息,勢必影響投資者的投資選擇,從而增加企業投融資的壓力,給企業帶來不良的經濟后果(黃志剛等,2020)。為了規避上述風險,企業存在選擇性披露和隱藏內部控制缺陷信息的動機(蔣盛益等,2010)。

但是,如果企業不能夠及時準確地披露內部控制缺陷信息也同樣會面臨風險。一方面,這會對企業的信譽造成一定程度的損害;另一方面,內部控制缺陷如果不能及時披露和整改,必然會增加企業在未來的經營風險(倪靜潔和吳秋生,2020)。另外,錯誤的內部控制缺陷信息披露也會誤導和欺騙企業的利益相關者,提高利益相關者遭受損失的可能性。因此,通過開展企業內部控制缺陷研究,對可能存在的企業內部控制缺陷進行預測,并將預測結果提供給企業的利益相關者,對于完善企業內部控制體系具有重要的現實意義。

現有文獻對于企業內部控制缺陷的研究主要以理論研究為主,而利用大數據和信息技術手段對企業內部控制缺陷進行預測研究的文獻較少。因此,本文以機器學習算法為基礎,構建了邏輯回歸、判別分析、支持向量機、決策樹和隨機森林模型,利用我國上市企業的財務信息和非財務信息作為特征變量來預測企業的內部控制缺陷。這為企業內部控制缺陷的研究提供了新的思路,豐富了企業內部控制缺陷研究的內容,也為機器學習技術運用于企業內部控制缺陷預測研究提供了可能。

二、研究設計

(一)樣本選擇和數據處理

本文以2012 ~2021 年我國A 股上市企業為研究對象。根據《企業內部控制基本規范》和《內部控制——整合框架》等文件以及現有文獻的做法,內部控制缺陷可以按照缺陷嚴重程度或缺陷成因等進行分類??紤]到本文主要研究不同嚴重程度的內部控制缺陷,故只按照缺陷嚴重程度對內部控制缺陷進行劃分,將企業內部控制缺陷按照嚴重程度分為重大缺陷、重要缺陷和一般缺陷。其中,將內部控制存在重大缺陷的樣本企業標記為正樣本,將不存在重大缺陷的樣本企業標記為負樣本。另外,選取相對應上市企業的財務狀況、企業治理和審計監管信息作為預測數據。

為了保證樣本數據的規范性和完整性,本研究剔除了130多家金融類上市企業,并對數據不全或缺失的樣本進行了剔除。通過篩選整理,最終獲得26230個樣本。其中:企業內部控制存在重大缺陷的正樣本7856 個,占全樣本的比例為30%;不存在重大缺陷的負樣本18374 個,占全樣本的比例為70%。正負樣本比例約為1∶2,兩組樣本的數量趨向平衡,不存在類別不平衡的問題,因此,本研究的數據集不需要通過欠采樣或者過采樣等方法來緩解類別不平衡的問題。另外,為了防止預測模型出現過擬合問題,本研究在預測模型中加入正則化項或罰項來緩解預測模型的過擬合問題。為了更好地評估機器學習算法對企業內部控制缺陷的預測性能,本文按照7∶3的比例將正負樣本劃分成模型的訓練集和測試集,訓練集的樣本數據用來擬合訓練模型,測試集的樣本數據用來進行模型預測和性能評估。所有樣本數據均來源于CSMAR數據庫和企業年報。

(二)特征選擇

1.財務狀況與企業內部控制缺陷。財務狀況信息能夠反映企業內部控制情況。通常來說,財務績效和經營狀況越差的企業,其內部控制有效性越低,內部控制質量也越差(葉康濤等,2015;Askari 和Anwar,2020)。已有研究表明,企業在進行投資、融資等生產經營活動時,內部控制缺陷出現的概率最高,相應企業的財務績效水平也處于行業平均水準以下(劉啟亮等,2013)?;谏鲜龇治?,本文選取部分財務指標來對企業的財務狀況進行衡量,具體包括:以利息保障倍數、流動比率和資產負債率來衡量企業的償債能力;以總資產增長率、凈利潤增長率、營業收入增長率和營業成本增長率來衡量企業的發展能力;以應收賬款周轉率、應付賬款周轉率和固定資產周轉率來衡量企業的營運能力;以總資產凈利率、凈資產收益率和營業凈利率來衡量企業的盈利能力。另外,存在內部控制缺陷的企業,抵抗風險能力普遍較弱,因此還選取經營杠桿和財務杠桿指標來衡量企業的風險水平。

2.公司治理與企業內部控制缺陷。公司治理與內部控制之間存在著相輔相成、相互促進的關系,二者具有高度的相關性(李萬福等,2011;Tan等,2020)。已有研究表明,健全的內部控制機制要有完善的公司治理結構作為支撐,而內部控制的創新和深化也將促進公司治理結構的完善。健全的公司治理是內部控制有效運行的基礎和保障。在完善的公司治理結構環境下,股東大會、董事會、監事會和管理層各司其職、相互制衡,以此保證內部控制制度的建立和實施,有利于企業內部控制系統的良好有序運行,從而達到提高企業經營效率與加強企業信息披露的目的。反之,如果公司治理結構不完善,無論多么有效的內部控制制度設計也會流于形式(Kim 和Arun,2014;Du,2014)。因此,本文選取實際控制人兩權分離率、股權制衡度、機構投資者持股比例、是否兩職合一、董事會規模、獨立董事比例等指標衡量公司治理。

3.審計監管與企業內部控制缺陷。相關研究顯示,超過70%的內部控制缺陷是在對企業進行審計的過程中發現的。而設置審計委員會、聘請會計師事務所對企業財務報告進行外部審計,體現了企業管理層對內部控制的重視程度。變更會計師事務所則體現了企業的審計監管是否連續,已有研究表明,頻繁進行會計師事務所變更的企業,發生內部控制缺陷的比例通常更高。而是否披露內部控制審計報告和披露審計意見類型則反映了企業獨立審計的客觀性。一般而言,對于內部控制質量差、經營狀況不佳以及風險較高的企業,會計師事務所會投入更多的人力和資源來開展審計工作,因此會收取比內部控制質量較好企業更高的審計費用。除此以外,會計師事務所的規模和專業化程度也是影響其審計收費的因素之一。上述主要特征變量定義如表1所示。

表1 變量定義

(三)機器學習算法

支持向量機是在一個二分類數據集合中,通過學習給定數據集合的特性,判斷新輸入的數據屬于哪個分類數據集的非概率性二進制線性分類模型。支持向量機模型的應用范圍比較廣,在線性和非線性分類模型中均可使用。支持向量機模型的優化通常是通過轉換核函數來實現,因此核函數的選擇決定了最終支持向量機械模型的準確性。常見的核函數模型包括Linear、Poly、Rbf 和Sigmoid。

邏輯回歸是一種離散選擇方法模型,一般常用于二分類問題,是具有表示兩個不同范疇的輸出變量結果的分類模型。如果樣本類別為正的概率在0.5以上,樣本視為正,否則為負。判別分析是根據線性函數值來進行分類的算法。判別分析的基本思想是投影,選擇合適的投影方向將原來在高維空間的樣本數據投影到低維空間,再在低維空間進行分類。通過投影將每個樣本的差異最小化,使得投影樣本的間隔盡可能大,然后對處理后的樣本進行判別和分類。判別分析由于應用的限制條件較少,因此應用范圍較廣。決策樹是一種使用非參數數據挖掘方法對所要分析的數據以樹形數據結構來展示決策規則和分類結果的模型,它是一種主要應用于數據科學領域尋找最接近目標決策的分類方法。隨機森林是由Leo Breiman在2001年提出的一種分類算法模型,它是在決策樹模型的基礎之上通過Bootstrap 方法,從原始訓練樣本集中重復隨機抽取生成新的訓練樣本來訓練,最終生成多棵決策樹,從而組成隨機森林。隨機森林模型實質是對決策樹模型的一種改進,該方法基于多個決策樹,進一步提高了準確度,以此輸出分類或平均預測值。

(四)評價體系

1.混淆矩陣。表2中,機器學習混沌矩陣是表示實際值和預測值關系的矩陣,行由實際值構成,列由預測值構成,這樣構成的矩陣的各個值表示滿足該情況的個數。本研究利用機器學習技術,將企業的內部控制評價結果分為內部控制不存在重大缺陷(數值取0)和內部控制存在重大缺陷(數值取1)兩種。樣本根據實際值和模型預測值的組合,形成了4個類別,這些類別分別為TP(True Positive)、FP(False Positive)、TN(True Negative)和FN(False Negative)。TP 表示的是企業內部控制缺陷的預測值和實際值均為1(內控存在缺陷)的情況個數。TN表示的是企業內部控制缺陷的預測值和實際值均為0(內控不存在缺陷)的情況個數。FP表示的是預測值為1但實際值為0的情況個數。FN表示的是預測值為0、實際值為1的情況個數。這四類樣本加起來就是完整的數據集,分類結果的混淆矩陣如表2所示。

表2 混淆矩陣

2.準確率、召回率、精準率和F1-score。根據表2的混淆矩陣,可以計算出準確率、召回率、精準率和F1-score。其計算公式分別如下:

準確率為:Accuracy=(TP+TN)/(TP+FP+TN+FN)

精準率為:Precision=TP/(TP+FP)

召回率為:Recall=TP/(TP+FN)

F1-score 為:F1-score=(2×Recall×Precision)/(Recall+Precision)

準確率(Accuarcy)表示的是分類無誤的樣本數據與全部樣本數據的比值,準確率越高,模型的分類效果越好。相對于其他評價指標,準確率最直觀。精確率(Precision)代表的是正確預測為1(Positive)的占全部預測為1(Positive)的比例,精確率越高,1(Positive)的樣本識別越精確。召回率(Recall)是與精準率存在矛盾關系的分類指標,它代表的是正確預測為1(Positive)的占全部實際為1(Positive)的比例。為了更加準確地評價模型的識別能力,一般還會選擇F1-score(對精確率和召回率進行綜合計算后的指標)來參與模型的預測評價。

3.ROC曲線和AUC值。ROC曲線是以真正類率(TPR)為縱軸、偽正類率(FPR)為橫軸,隨著分類閾值不斷變化形成的一條特征曲線。AUC(Area Under Curve)值被定義為ROC 曲線下的面積。一般而言,AUC 值越大,預測結果的正確率越高。

(五)特征變量的數據處理

1.數據歸一化。為了縮小數據間的差異,提高預測模型的算法效率,需要對特征變量的數據進行歸一化處理。公式如下:x*=(x-μ)/σ。其中,μ為樣本均值,σ為樣本標準差。歸一化操作之后數據的均值為0,標準差為1。

2.多重共線性檢驗。為了防止特征變量之間因存在多重共線性,而對之后的預測模型產生誤差影響,本文需要先對相關指標進行共線性檢驗。本研究使用方差擴大因子方法對選用的特征變量進行共線性檢驗,檢驗的結果通過得到的VIF 值來判斷,如果0<VIF<10,則表明不存在共線性。檢驗結果如表3所示,特征變量的VIF值都在1.00 ~1.57 之間,滿足檢驗要求,可以進行模型預測。

表3 描述性統計和共線性診斷結果

三、機器學習模型預測結果

(一)描述性統計

表3 是本研究所選特征變量的描述性統計結果。根據結果顯示,內部控制存在缺陷的樣本和內部控制不存在缺陷的樣本在財務狀況、公司治理和審計監管等特征變量上存在顯著差異。

在財務狀況方面,內部控制存在缺陷樣本的償債能力明顯弱于內部控制不存在缺陷的樣本,具體表現為前者的利息保障倍數、流動比率的均值都小于后者且均值差在1%的水平上顯著。資產負債率前者明顯高于后者且在1%的水平上顯著。除此以外,內部控制存在缺陷樣本的發展能力和盈利能力也弱于內部控制不存在缺陷的樣本。具體表現為前者的總資產增長率、凈利潤增長率、總資產凈利潤率、凈資產收益率和營業凈利率的均值都小于后者且均值差在5%或1%的水平上顯著。而對企業風險水平和運營能力的特征進行比較發現,雖然上述特征變量的均值差不顯著,但是內部控制存在缺陷樣本的經營杠桿、財務杠桿和應付賬款周轉率的均值都明顯高于內部控制不存在缺陷的樣本。應收賬款周轉率和固定資產周轉率也都明顯低于內部控制不存在缺陷的樣本,這說明內部控制存在缺陷的樣本企業面臨的經營財務風險更大,發生壞賬損失的可能性更大,其運營能力更低。

在公司治理方面,內部控制存在缺陷的樣本在實際控制人兩權分離率和機構投資者持股比例方面高于內部控制不存在缺陷的樣本。同時,內部控制存在缺陷樣本的股權制衡度和是否兩職合一的比例低于內部控制不存在缺陷的樣本。另外,在董事會規模和獨立董事比例方面,內部控制存在缺陷的樣本與內部控制不存在缺陷的樣本的差異不太明顯。這說明相對于內部控制不存在缺陷的樣本,內部控制存在缺陷的樣本具有實際控制權較為集中、股權制衡度不高、管理職權分散等特點。

在審計監管方面,內部控制存在缺陷樣本在披露內控審計報告中的比例高于內部控制不存在缺陷樣本;負責審計的會計師事務所的變更前者也更頻繁;審計意見類型前者對審計結果的看法和所持的態度也比后者更消極;在審計費用的支出上,前者也明顯高于后者。上述特征變量的樣本均值差都在1%的水平上顯著。綜上所述,內部控制存在缺陷的企業在財務狀況、公司治理和審計監管方面與內部控制不存在缺陷的企業存在差異,且前者弱于后者。

(二)機器學習模型的預測結果

本研究使用判別分析、支持向量機、邏輯回歸、決策樹和隨機森林等機器學習算法,構建了企業內部控制缺陷預測模型。各模型的預測結果見表4。

表4 機器學習模型的預測結果

在預測模型的準確率方面:首先,隨機森林的準確率最高,為71%;其次為支持向量機Linear核函數模型的70%;然后是Rbf核函數、判別分析、邏輯回歸、Sigmoid核函數和決策樹模型,均為69%;最后是Poly 核函數模型,為68%。準確率反映了模型對企業內部控制存在缺陷和不存在缺陷預測的預測正確情況。對于預測模型的精準率,最高的是隨機森林、決策樹和支持向量機Rbf核函數模型,為63%;其他模型的精準率均位于56%~61%之間。精準率衡量的是模型出現誤判的概率。對于預測模型的召回率,最高的是隨機森林,然后是判別分析和決策樹模型,最低的是支持向量機的Sigmoid 核函數和Linear核函數模型,所有模型的召回率均在50%以上。召回率反映的是模型對企業內部控制缺陷識別的漏檢率,召回率越高,漏檢的概率就越小。對于預測模型的F1-Score值,隨機森林的F1-score 最高,為58%;最低的是支持向量機的Linear 核函數和Sigmoid 核函數模型。F1-score 值越大,說明模型的質量越高。除上述可以評估模型預測性能的指標以外,本文也會使用ROC 曲線和AUC 值來對模型進行評價,ROC曲線是根據混淆矩陣以FPR為橫坐標、以TPR 為縱坐標所繪制的曲線。而ROC 曲線圍成的面積就是AUC 值,一般AUC值越大,模型預測效果就越好。根據表4,所有模型的AUC 值都大于0.5,表明機器學習模型具有預測價值。其中AUC值最大的模型是隨機森林,達到了0.77。這說明相對于其他模型,隨機森林的預測效果最好。上述結果表明,根據機器學習算法建立的模型能夠對企業內部控制是否存在缺陷進行預測,并且通過準確率、精準率、召回率、F1-score 以及ROC 曲線和AUC 值對各個模型進行評價后發現,隨機森林模型的預測效果最好。

(三)特征變量重要性和可視化分析

本研究還需確認對預測企業內部控制缺陷貢獻度最高的特征變量。特征變量重要性的計算方式是通過構建樹類模型,并使用Feature_Importances 方法獲得在樹模型中每個特征變量的特征分裂次數以及利用該特征分裂后的增益來計算特征變量的重要性。根據上述各機器學習模型的預測性能,最終選擇了表現較好的隨機森林模型來計算特征的重要性。為了便于觀察,按照特征變量的貢獻度,從大到小進行了排列,根據圖1特征變量的重要性可以發現,每個特征都對模型的學習效果產生了影響。其中,影響力排名前三的特征變量分別是審計費用、機構投資者持股比例和總資產增長率,其特征貢獻度分別為5.57%、3.24%和2.21%。這說明審計費用、機構投資者持股比例和總資產增長率對企業內部控制缺陷的預測起到了重要作用。

圖1 特征變量重要性

為了進一步挖掘特征變量影響企業內部控制缺陷發生的重要因素和影響方式,本研究采用SHAP方法對企業內部控制缺陷預測模型的運作過程和貢獻分布進行可視化分析。Shapley值常用于研究合作博弈中各參與方的價值,后被用于解釋復雜模型中特征的價值。SHAP方法的工作原理是將每個特征值的貢獻分配到不同的特征變量中,然后計算每個特征變量的Shapley 值,最后將計算得到的Shapley值與特征值相乘得到該特征變量對于預測結果的貢獻。SHAP 方法有助于理解機器學習模型的預測結果,識別預測模型不足之處并加以改進,進而提高模型的預測能力。

在圖2中,左側顯示各個特征變量的名稱,右側對應的是各特征變量映射SHAP value(SHAP 值)后的取值范圍和大小。圖2中Feature value(特征值)的顏色由淺色到深色,表示特征取值由小到大。當橫坐標SHAP value 的值大于0時,代表該特征正向提升了預測模型的貢獻值;當SHAP value 的值小于0時,代表該特征降低了預測值,起反向作用。根據圖2可知,審計費用對預測模型的貢獻度最高,且審計費用深色樣本的SHAP value均小于0,這說明審計費用降低了企業內部控制缺陷出現的概率,審計費用有助于企業內部控制目標的完成。機構投資者持股比例的深色樣本也基本落在SHAP value 小于0 的一側,這說明外部投資也能夠抑制企業內部控制缺陷出現的概率??傎Y產增長率的深色樣本絕大多數落在SHAP value 大于0 的一側,這說明企業資產經營規模擴張的速度越快,公司內部控制缺陷出現的概率就越高。具有類似性質的還有是否兩職合一、流動負債比率和實際控制人兩權分離率等。

圖2 特征變量對預測模型的貢獻分布

四、研究結論

本研究以2012 ~2021 年在我國A 股上市的企業為研究對象,通過選取衡量企業財務狀況、公司治理和審計監管的26 個特征變量的26230 個數據為樣本,構建了判別分析、邏輯回歸、支持向量機、決策樹和隨機森林等利用機器學習算法預測企業內部控制缺陷的模型,并對各個模型的預測性能進行了評價。評價的結果顯示,隨機森林模型的預測性能優于其他預測模型,可運用于企業內部控制缺陷的預測。研究還發現,在使用隨機森林模型預測企業內部控制缺陷的過程中,審計費用、機構投資者持股比例和總資產增長率等變量的特征貢獻度最高,對企業內部控制缺陷的預測起到了重要作用。最后,采用SHAP方法對特征變量進行貢獻分布可視化分析,深度挖掘了特征變量影響企業內部控制缺陷出現的影響機理。

保障企業生產經營活動正常運行、控制和防范各類風險是企業實施內部控制的目的。而企業實施內部控制的關鍵是準確識別內部控制缺陷。因此,研究利用機器學習算法預測企業內部控制缺陷,有助于企業管理層識別潛在的風險,完善企業的內部控制體系,減少各類風險給企業帶來的經濟損失,并為企業的投資、融資以及經營管理等重大決策提供參考。

【 主要參考文獻】

黃志剛,劉佳進,林朝穎.基于機器學習的上市公司財報舞弊識別前沿方法比較研究[J].系統科學與數學,2020(10):1882 ~1900.

蔣盛益,汪珊,蔡余沖.基于機器學習的上市公司財務預警模型的構建[J].統計與決策,2010(9):166 ~167.

李萬福,林斌,宋璐.內部控制在公司投資中的角色:效率促進還是抑制?[J].管理世界,2011(2):81 ~99+188.

劉瑾,趙納暉.基于機器學習的企業內部控制重大缺陷預測[J].財會月刊,2022(3):123 ~131.

劉啟亮,羅樂,何威風等.產權性質、制度環境與內部控制[J].會計研究,2012(3):52 ~61+95.

劉啟亮,羅樂,張雅曼等.高管集權、內部控制與會計信息質量[J].南開管理評論,2013(1):15 ~23.

倪靜潔,吳秋生.內部控制有效性與企業創新投入——來自上市公司內部控制缺陷披露的證據[J].山西財經大學學報,2020(9):70 ~84.

葉康濤,曹豐,王化成.內部控制信息披露能夠降低股價崩盤風險嗎?[J].金融研究,2015(2):192 ~206.

喻彪,楊剛.內部控制重大缺陷與企業勞動投資效率[J].財會月刊,2022(13):32 ~40.

曾慶超,許諾.機器學習對上市公司年報錯報的識別研究——財務重述預測的視角[J].中國注冊會計師,2022(2):43 ~48.

Askari Sikdar.,Anwar Hussain.IFDTC4.5:Intuitionistic Fuzzy Logic Based Decision Tree Fore-transcational Fraud Detection[J].Journal of Information Security and Applications,2020(52):1 ~13.

Du X..Does Religion Mitigate Tunneling?Evidence from Chinese Buddhism[J].Journal of Business Ethics,2014(2):299 ~327.

Kim Soo Y.,Arun Upneja.Predicting Restaurant Financial Distress Using Decision Tree and Ada-Boosted Decision Tree Models[J].Economic Modelling,2014(36):354 ~362.

Tan Duojiao,Bilal,Simon Gao,Bushra Komal.Impact of Carbon Emission Trading System Participation and Level of Internal Control on Quality of Carbon Emission Disclosures:Insights from Chinese State-Owned Electricity Companies[J].Sustainability,2020(5):1788.

猜你喜歡
變量樣本預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
抓住不變量解題
用樣本估計總體復習點撥
也談分離變量
推動醫改的“直銷樣本”
不必預測未來,只需把握現在
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合