基于機器學習算法的上市企業內部控制缺陷預測研究

2024-04-26 12:35袁濤黃寰

財會月刊·上半月 2024年4期

袁濤黃寰

【摘要】上市企業內部控制缺陷信息是企業利益相關者進行決策的重要參考，人為操縱內部控制缺陷認定以及錯誤披露內部控制缺陷信息會引發企業未來的經營風險?；跈C器學習算法構建的預測模型能夠對企業的內部控制缺陷進行有效預測，有助于企業對潛在風險進行預警。實證研究表明：與判別分析、邏輯回歸、支持向量機、決策樹等利用機器學習算法預測企業內部控制缺陷的模型相比，隨機森林模型在預測的準確率、精準率、召回率、 F1-score和AUC值方面綜合表現更好。在使用隨機森林模型預測企業內部控制缺陷的過程中，審計費用、機構投資者持股比例和總資產增長率等特征變量起到了重要預測作用。進一步采用SHAP方法對特征變量進行貢獻分布可視化分析，深度挖掘特征變量對企業內部控制缺陷出現的影響機理。

【關鍵詞】機器學習；內部控制缺陷；隨機森林模型；準確率；精準率

【中圖分類號】F279.23? ? ? 【文獻標識碼】A? ? ? 【文章編號】1004-0994（2024）07-0030-6

一、引言

內部控制作為企業經營管理的重要手段，在防范風險和保障企業可持續發展方面發揮著關鍵作用（劉啟亮等，2012）。我國自2006年頒布《上市公司內部控制指引》開始，就要求企業每年對內部控制詳細情況發布內部控制評價報告（劉瑾和趙納暉，2022）。2008年，財政部聯合五部委頒布了《企業內部控制基本規范》，要求企業不僅要出具內部控制評價報告，還要聘請有資質的中介機構對報告進行鑒證。2010年，為了配合基本規范的執行，財政部又聯合五部委頒布了《企業內部控制配套指引》等文件，規定了企業在內部控制評價報告中應當披露的詳細內容。至此，我國企業內部控制體系初步形成（喻彪和楊剛，2022）。

上市公司對內部控制的有效性進行自我評價，有助于其發現隱藏的內部控制缺陷，并通過制定整改和糾正措施，規避和減少內部控制缺陷給企業帶來的風險（曾慶超和許諾，2022）。但是，上市公司對內部控制信息的披露容易受到諸多因素的影響。一方面，企業管理層為了避免披露內部控制缺陷信息對企業聲譽造成不利影響，會減少對內部控制缺陷信息的披露，甚至可能會人為篡改內部控制缺陷評價報告。另一方面，企業投資者對于企業披露的內部控制缺陷信息十分關注，如果企業向外界傳達了企業內部控制有效性欠缺等內控缺陷信息，勢必影響投資者的投資選擇，從而增加企業投融資的壓力，給企業帶來不良的經濟后果（黃志剛等，2020）。為了規避上述風險，企業存在選擇性披露和隱藏內部控制缺陷信息的動機（蔣盛益等，2010）。

但是，如果企業不能夠及時準確地披露內部控制缺陷信息也同樣會面臨風險。一方面，這會對企業的信譽造成一定程度的損害；另一方面，內部控制缺陷如果不能及時披露和整改，必然會增加企業在未來的經營風險（倪靜潔和吳秋生，2020）。另外，錯誤的內部控制缺陷信息披露也會誤導和欺騙企業的利益相關者，提高利益相關者遭受損失的可能性。因此，通過開展企業內部控制缺陷研究，對可能存在的企業內部控制缺陷進行預測，并將預測結果提供給企業的利益相關者，對于完善企業內部控制體系具有重要的現實意義。

現有文獻對于企業內部控制缺陷的研究主要以理論研究為主，而利用大數據和信息技術手段對企業內部控制缺陷進行預測研究的文獻較少。因此，本文以機器學習算法為基礎，構建了邏輯回歸、判別分析、支持向量機、決策樹和隨機森林模型，利用我國上市企業的財務信息和非財務信息作為特征變量來預測企業的內部控制缺陷。這為企業內部控制缺陷的研究提供了新的思路，豐富了企業內部控制缺陷研究的內容，也為機器學習技術運用于企業內部控制缺陷預測研究提供了可能。

二、研究設計

（一）樣本選擇和數據處理

本文以2012 ～ 2021年我國A股上市企業為研究對象。根據《企業內部控制基本規范》和《內部控制——整合框架》等文件以及現有文獻的做法，內部控制缺陷可以按照缺陷嚴重程度或缺陷成因等進行分類?？紤]到本文主要研究不同嚴重程度的內部控制缺陷，故只按照缺陷嚴重程度對內部控制缺陷進行劃分，將企業內部控制缺陷按照嚴重程度分為重大缺陷、重要缺陷和一般缺陷。其中，將內部控制存在重大缺陷的樣本企業標記為正樣本，將不存在重大缺陷的樣本企業標記為負樣本。另外，選取相對應上市企業的財務狀況、企業治理和審計監管信息作為預測數據。

為了保證樣本數據的規范性和完整性，本研究剔除了130多家金融類上市企業，并對數據不全或缺失的樣本進行了剔除。通過篩選整理，最終獲得26230個樣本。其中：企業內部控制存在重大缺陷的正樣本7856個，占全樣本的比例為30%；不存在重大缺陷的負樣本18374個，占全樣本的比例為70%。正負樣本比例約為1∶2，兩組樣本的數量趨向平衡，不存在類別不平衡的問題，因此，本研究的數據集不需要通過欠采樣或者過采樣等方法來緩解類別不平衡的問題。另外，為了防止預測模型出現過擬合問題，本研究在預測模型中加入正則化項或罰項來緩解預測模型的過擬合問題。為了更好地評估機器學習算法對企業內部控制缺陷的預測性能，本文按照7∶3的比例將正負樣本劃分成模型的訓練集和測試集，訓練集的樣本數據用來擬合訓練模型，測試集的樣本數據用來進行模型預測和性能評估。所有樣本數據均來源于CSMAR數據庫和企業年報。

（二）特征選擇

1. 財務狀況與企業內部控制缺陷。財務狀況信息能夠反映企業內部控制情況。通常來說，財務績效和經營狀況越差的企業，其內部控制有效性越低，內部控制質量也越差（葉康濤等，2015；Askari和Anwar，2020）。已有研究表明，企業在進行投資、融資等生產經營活動時，內部控制缺陷出現的概率最高，相應企業的財務績效水平也處于行業平均水準以下（劉啟亮等，2013）?；谏鲜龇治?，本文選取部分財務指標來對企業的財務狀況進行衡量，具體包括：以利息保障倍數、流動比率和資產負債率來衡量企業的償債能力；以總資產增長率、凈利潤增長率、營業收入增長率和營業成本增長率來衡量企業的發展能力；以應收賬款周轉率、應付賬款周轉率和固定資產周轉率來衡量企業的營運能力；以總資產凈利率、凈資產收益率和營業凈利率來衡量企業的盈利能力。另外，存在內部控制缺陷的企業，抵抗風險能力普遍較弱，因此還選取經營杠桿和財務杠桿指標來衡量企業的風險水平。

2. 公司治理與企業內部控制缺陷。公司治理與內部控制之間存在著相輔相成、相互促進的關系，二者具有高度的相關性（李萬福等，2011；Tan等，2020）。已有研究表明，健全的內部控制機制要有完善的公司治理結構作為支撐，而內部控制的創新和深化也將促進公司治理結構的完善。健全的公司治理是內部控制有效運行的基礎和保障。在完善的公司治理結構環境下，股東大會、董事會、監事會和管理層各司其職、相互制衡，以此保證內部控制制度的建立和實施，有利于企業內部控制系統的良好有序運行，從而達到提高企業經營效率與加強企業信息披露的目的。反之，如果公司治理結構不完善，無論多么有效的內部控制制度設計也會流于形式（Kim和Arun，2014；Du，2014）。因此，本文選取實際控制人兩權分離率、股權制衡度、機構投資者持股比例、是否兩職合一、董事會規模、獨立董事比例等指標衡量公司治理。

3. 審計監管與企業內部控制缺陷。相關研究顯示，超過70%的內部控制缺陷是在對企業進行審計的過程中發現的。而設置審計委員會、聘請會計師事務所對企業財務報告進行外部審計，體現了企業管理層對內部控制的重視程度。變更會計師事務所則體現了企業的審計監管是否連續，已有研究表明，頻繁進行會計師事務所變更的企業，發生內部控制缺陷的比例通常更高。而是否披露內部控制審計報告和披露審計意見類型則反映了企業獨立審計的客觀性。一般而言，對于內部控制質量差、經營狀況不佳以及風險較高的企業，會計師事務所會投入更多的人力和資源來開展審計工作，因此會收取比內部控制

（五）特征變量的數據處理

1. 數據歸一化。為了縮小數據間的差異，提高預測模型的算法效率，需要對特征變量的數據進行歸一化處理。公式如下：

x?=（x-μ）/σ。其中， μ為樣本均值， σ為樣本標準差。歸一化操作之后數據的均值為0，標準差為1。

2. 多重共線性檢驗。為了防止特征變量之間因存在多重共線性，而對之后的預測模型產生誤差影響，本文需要先對相關指標進行共線性檢驗。本研究使用方差擴大因子方法對選用的特征變量進行共線性檢驗，檢驗的結果通過得到的VIF值來判斷，如果0

三、機器學習模型預測結果

（一）描述性統計

表3是本研究所選特征變量的描述性統計結果。根據結果顯示，內部控制存在缺陷的樣本和內部控制不存在缺陷的樣本在財務狀況、公司治理和審計監管等特征變量上存在顯著差異。

在財務狀況方面，內部控制存在缺陷樣本的償債能力明顯弱于內部控制不存在缺陷的樣本，具體表現為前者的利息保障倍數、流動比率的均值都小于后者且均值差在1%的水平上顯著。資產負債率前者明顯高于后者且在1%的水平上顯著。除此以外，內部控制存在缺陷樣本的發展能力和盈利能力也弱于內部控制不存在缺陷的樣本。具體表現為前者的總資產增長率、凈利潤增長率、總資產凈利潤率、凈資產收益率和營業凈利率的均值都小于后者且均值差在5%或1%的水平上顯著。而對企業風險水平和運營能力的特征進行比較發現，雖然上述特征變量的均值差不顯著，但是內部控制存在缺陷樣本的經營杠桿、財務杠桿和應付賬款周轉率的均值都明顯高于內部控制不存在缺陷的樣本。應收賬款周轉率和固定資產周轉率也都明顯低于內部控制不存在缺陷的樣本，這說明內部控制存在缺陷的樣本企業面臨的經營財務風險更大，發生壞賬損失的可能性更大，其運營能力更低。

在公司治理方面，內部控制存在缺陷的樣本在實際控制人兩權分離率和機構投資者持股比例方面高于內部控制不存在缺陷的樣本。同時，內部控制存在缺陷樣本的股權制衡度和是否兩職合一的比例低于內部控制不存在缺陷的樣本。另外，在董事會規模和獨立董事比例方面，內部控制存在缺陷的樣本與內部控制不存在缺陷的樣本的差異不太明顯。這說明相對于內部控制不存在缺陷的樣本，內部控制存在缺陷的樣本具有實際控制權較為集中、股權制衡度不高、管理職權分散等特點。

在審計監管方面，內部控制存在缺陷樣本在披露內控審計報告中的比例高于內部控制不存在缺陷樣本；負責審計的會計師事務所的變更前者也更頻繁；審計意見類型前者對審計結果的看法和所持的態度也比后者更消極；在審計費用的支出上，前者也明顯高于后者。上述特征變量的樣本均值差都在1%的水平上顯著。綜上所述，內部控制存在缺陷的企業在財務狀況、公司治理和審計監管方面與內部控制不存在缺陷的企業存在差異，且前者弱于后者。

（二）機器學習模型的預測結果

本研究使用判別分析、支持向量機、邏輯回歸、決策樹和隨機森林等機器學習算法，構建了企業內部控制缺陷預測模型。各模型的預測結果見表4。

在預測模型的準確率方面：首先，隨機森林的準確率最高，為71%；其次為支持向量機Linear核函數模型的70%；然后是Rbf核函數、判別分析、邏輯回歸、 Sigmoid核函數和決策樹模型，均為69%；最后是Poly核函數模型，為68%。準確率反映了模型對企業內部控制存在缺陷和不存在缺陷預測的預測正確情況。對于預測模型的精準率，最高的是隨機森林、決策樹和支持向量機Rbf核函數模型，為63%；其他模型的精準率均位于56% ～ 61%之間。精準率衡量的是模型出現誤判的概率。對于預測模型的召回率，最高的是隨機森林，然后是判別分析和決策樹模型，最低的是支持向量機的Sigmoid核函數和Linear核函數模型，所有模型的召回率均在50%以上。召回率反映的是模型對企業內部控制缺陷識別的漏檢率，召回率越高，漏檢的概率就越小。對于預測模型的F1-Score值，隨機森林的F1-score最高，為58%；最低的是支持向量機的Linear核函數和Sigmoid核函數模型。F1-score值越大，說明模型的質量越高。除上述可以評估模型預測性能的指標以外，本文也會使用ROC曲線和AUC值來對模型進行評價， ROC曲線是根據混淆矩陣以FPR為橫坐標、以TPR為縱坐標所繪制的曲線。而 ROC 曲線圍成的面積就是AUC 值，一般AUC值越大，模型預測效果就越好。根據表4，所有模型的AUC值都大于0.5，表明機器學習模型具有預測價值。其中AUC值最大的模型是隨機森林，達到了0.77。這說明相對于其他模型，隨機森林的預測效果最好。上述結果表明，根據機器學習算法建立的模型能夠對企業內部控制是否存在缺陷進行預測，并且通過準確率、精準率、召回率、 F1-score以及ROC曲線和AUC值對各個模型進行評價后發現，隨機森林模型的預測效果最好。

（三）特征變量重要性和可視化分析

本研究還需確認對預測企業內部控制缺陷貢獻度最高的特征變量。特征變量重要性的計算方式是通過構建樹類模型，并使用Feature_Importances方法獲得在樹模型中每個特征變量的特征分裂次數以及利用該特征分裂后的增益來計算特征變量的重要性。根據上述各機器學習模型的預測性能，最終選擇了表現較好的隨機森林模型來計算特征的重要性。為了便于觀察，按照特征變量的貢獻度，從大到小進行了排列，根據圖1特征變量的重要性可以發現，每個特征都對模型的學習效果產生了影響。其中，影響力排名前三的特征變量分別是審計費用、機構投資者持股比例和總資產增長率，其特征貢獻度分別為5.57%、 3.24%和2.21%。這說明審計費用、機構投資者持股比例和總資產增長率對企業內部控制缺陷的預測起到了重要作用。

為了進一步挖掘特征變量影響企業內部控制缺陷發生的重要因素和影響方式，本研究采用SHAP方法對企業內部控制缺陷預測模型的運作過程和貢獻分布進行可視化分析。Shapley值常用于研究合作博弈中各參與方的價值，后被用于解釋復雜模型中特征的價值。SHAP方法的工作原理是將每個特征值的貢獻分配到不同的特征變量中，然后計算每個特征變量的Shapley值，最后將計算得到的Shapley值與特征值相乘得到該特征變量對于預測結果的貢獻。SHAP方法有助于理解機器學習模型的預測結果，識別預測模型不足之處并加以改進，進而提高模型的預測能力。

在圖2中，左側顯示各個特征變量的名稱，右側對應的是各特征變量映射SHAP value（SHAP值）后的取值范圍和大小。圖2中Feature value（特征值）的顏色由淺色到深色，表示特征取值由小到大。當橫坐標SHAP value的值大于0時，代表該特征正向提升了預測模型的貢獻值；當SHAP value的值小于0時，代表該特征降低了預測值，起反向作用。根據圖2可知，審計費用對預測模型的貢獻度最高，且審計費用深色樣本的SHAP value均小于0，這說明審計費用降低了企業內部控制缺陷出現的概率，審計費用有助于企業內部控制目標的完成。機構投資者持股比例的深色樣本也基本落在SHAP value小于0的一側，這說明外部投資也能夠抑制企業內部控制缺陷出現的概率?？傎Y產增長率的深色樣本絕大多數落在SHAP value大于0的一側，這說明企業資產經營規模擴張的速度越快，公司內部控制缺陷出現的概率就越高。具有類似性質的還有是否兩職合一、流動負債比率和實際控制人兩權分離率等。

四、研究結論

本研究以2012 ～ 2021年在我國A股上市的企業為研究對象，通過選取衡量企業財務狀況、公司治理和審計監管的26個特征變量的26230個數據為樣本，構建了判別分析、邏輯回歸、支持向量機、決策樹和隨機森林等利用機器學習算法預測企業內部控制缺陷的模型，并對各個模型的預測性能進行了評價。評價的結果顯示，隨機森林模型的預測性能優于其他預測模型，可運用于企業內部控制缺陷的預測。研究還發現，在使用隨機森林模型預測企業內部控制缺陷的過程中，審計費用、機構投資者持股比例和總資產增長率等變量的特征貢獻度最高，對企業內部控制缺陷的預測起到了重要作用。最后，采用SHAP方法對特征變量進行貢獻分布可視化分析，深度挖掘了特征變量影響企業內部控制缺陷出現的影響機理。

保障企業生產經營活動正常運行、控制和防范各類風險是企業實施內部控制的目的。而企業實施內部控制的關鍵是準確識別內部控制缺陷。因此，研究利用機器學習算法預測企業內部控制缺陷，有助于企業管理層識別潛在的風險，完善企業的內部控制體系，減少各類風險給企業帶來的經濟損失，并為企業的投資、融資以及經營管理等重大決策提供參考。

【主要參考文獻】

黃志剛，劉佳進，林朝穎．基于機器學習的上市公司財報舞弊識別前沿方法比較研究［ J］．系統科學與數學，2020（10）：1882 ～ 1900．

蔣盛益，汪珊，蔡余沖．基于機器學習的上市公司財務預警模型的構建［ J］．統計與決策，2010（9）：166 ～ 167．

李萬福，林斌，宋璐．內部控制在公司投資中的角色：效率促進還是抑制？［ J］．管理世界，2011（2）：81 ～ 99+188．

劉瑾，趙納暉．基于機器學習的企業內部控制重大缺陷預測［ J］．財會月刊，2022（3）：123 ～ 131．

劉啟亮，羅樂，何威風等．產權性質、制度環境與內部控制［ J］．會計研究，2012（3）：52 ～ 61+95．

劉啟亮，羅樂，張雅曼等．高管集權、內部控制與會計信息質量［ J］．南開管理評論，2013（1）：15 ～ 23．

倪靜潔，吳秋生．內部控制有效性與企業創新投入——來自上市公司內部控制缺陷披露的證據［ J］．山西財經大學學報，2020（9）：70 ～ 84．

葉康濤，曹豐，王化成．內部控制信息披露能夠降低股價崩盤風險嗎？［ J］．金融研究，2015（2）：192 ～ 206．

喻彪，楊剛．內部控制重大缺陷與企業勞動投資效率［ J］．財會月刊，2022（13）：32 ～ 40．

曾慶超，許諾．機器學習對上市公司年報錯報的識別研究——財務重述預測的視角［ J］．中國注冊會計師，2022（2）：43 ～ 48．

Askari Sikdar.， Anwar Hussain. IFDTC4.5：Intuitionistic Fuzzy Logic Based Decision Tree Fore-transcational Fraud Detection［ J］．Journal of Information Security and Applications，2020（52）：1 ～ 13．

Du X.. Does Religion Mitigate Tunneling？ Evidence from Chinese Budd-hism［ J］．Journal of Business Ethics，2014（2）：299 ～ 327．

Kim Soo Y.， Arun Upneja. Predicting Restaurant Financial Distress Using Decision Tree and Ada-Boosted Decision Tree Models［ J］．Economic Modelling，2014（36）：354 ～ 362．

Tan Duojiao， Bilal，Simon Gao， Bushra Komal. Impact of Carbon Emission Trading System Participation and Level of Internal Control on Quality of Carbon Emission Disclosures： Insights from Chinese State-Owned Electricity Companies［ J］．Sustainability，2020（5）：1788．

（責任編輯·校對：李小艷? 黃艷晶）

【基金項目】四川省科協科技智庫調研課題（項目編號：sckxkjzk2024-2）；西南科技大學博士基金資助成果（項目編號：23sx7111）；成都市哲學社會科學規劃重點項目（項目編號：2023CS119）；成都理工大學研究生質量工程研究項目（項目編號：2023YJG107）

【作者單位】1.西南科技大學經濟管理學院，四川綿陽 621010；2.成都理工大學學術期刊中心，成都 610059；3.成都理工大學商學院，成都 610059。黃寰為通訊作者