?

機器學習模型輸入指標選擇方法研究
——以上市公司財報舞弊判別為例

2023-12-01 03:26劉佳進博士
商業會計 2023年21期
關鍵詞:舞弊機器樣本

劉佳進(博士)

(福州大學計劃財務處 福建福州 350116)

上市公司信息披露準確與否將對財報使用者的決策產生較大的影響。近年來,上市公司的舞弊手段越發多樣化和隱蔽化,且更加具有針對性,僅依靠傳統分析手段較難發現舞弊行為。機器學習模型不同于傳統分析手段,其通過輸入特定的樣本數據進行訓練和擬合并進行預測分析的方法,能發現傳統分析手段難以識別出的問題,目前已經有越來越多的研究開始關注這一領域。機器學習模型的應用較為簡單,只需輸入特定的財務報告指標,根據模型輸出結果即可快速判別上市公司是否存在財務舞弊,其財務報告數據是否可以信賴,這對于財務報告使用者決策將大有助益。

機器學習模型本身不依賴數據背景,僅僅是通過分析數據之間的內在邏輯進行訓練和擬合,因此,要想提升判別的效果,一是訓練集樣本的分類需要足夠準確,二是輸入指標反映的信息要盡可能全面,信息缺失將影響機器學習模型的訓練效果。

一、現有研究選取輸入指標的特點和存在的不足

現有相關研究聚焦于機器學習模型的應用,嘗試利用不同的機器學習模型判別上市公司是否存在舞弊行為,并利用測試集驗證判別的效果。在模型選擇方面,相關研究主要選取支持向量機、神經網絡和隨機森林模型等作為判別模型,在輸入指標的選取方面,不同研究之間差異較大,具體有如下特點:

(一)依據經典舞弊模型選取指標

部分研究在選擇輸入指標時,會參考經典的舞弊模型,如冰山理論、舞弊三角論、GONE 理論等,根據舞弊產生的動因對應的指標作為輸入指標進行機器學習模型的訓練和分析。根據現有研究結論,這種輸入指標的選取方法確實可以取得較為滿意的實證結果,但帶有主觀的色彩,同時,這種研究方法更傾向于驗證現有的舞弊而非發現潛在的舞弊,實際上是利用現代的方法驗證傳統的理論。若有舞弊行為的上市公司意識到經典舞弊模型的相關指標可能會被重點關注,就會通過技術手段粉飾這些關鍵指標,如果仍依據經典舞弊模型選取指標,則訓練形成的模型就可能會在識別舞弊上誤判。

(二)依據主觀判斷選擇輸入指標

除了上述依據經典舞弊模型選擇指標的方式外,也有一部分研究在選擇輸入指標時并沒有明顯的模型依據,僅根據研究者個人的判斷選取輸入指標,這將導致此類研究選擇輸入指標缺乏統一的標準,使得不同研究之間選擇的指標差異較大,甚至存在不同研究采用完全不同的兩套輸入指標體系的情況。此類研究之間唯一可以比較的結果就是判別準確率,但該準確率受到模型參數、輸入指標和輸入樣本等各方面的影響,很難比較不同的輸入指標對舞弊判別結果的影響程度。

(三)聚焦于靜態指標

現有的研究選取指標會傾向于選擇靜態的指標,對于不同年度之間變動率的指標選擇較少。上市公司的舞弊行為,一般會影響超過一年的財務數據,反映到財務報告數據中,就是進行財務舞弊前以及舞弊后的年份,上市公司特定的指標值會出現異常的反彈,因此,變動率的指標就顯得尤為重要,也應當加入輸入指標體系的構建中。

綜上所述,現有的研究在選擇輸入指標方面缺乏統一的標準,選擇方式也較為主觀,使得不同研究之間輸入指標差異較大,導致許多財務信息并未進入到機器學習模型中進行訓練,輸入信息的缺失可能會影響機器學習模型判別的效果。

二、改進輸入指標選取的思路

根據現有研究選取輸入指標存在的問題,結合機器學習模型有別于傳統的財務分析模型,本文改進了輸入指標的選擇方法。

(一)輸入指標要盡可能覆蓋可取得的各類財務信息

為確保能夠充分利用現有的各類財務信息,機器學習模型需要大量的輸入指標,在選取的過程中,應當避免人為因素干擾導致財務信息的缺失。因此,初始的輸入指標體系應該盡可能涵蓋所有可獲取的有用的信息。

(二)指標選擇應當最大化正負樣本的特征差異

上市公司財務舞弊判別的本質就是一個“是否”“有無”二分類的問題。因此,在機器學習模型的訓練過程中,如能將正負樣本的特征差異最大的幾個指標篩選出來,則能有效提升判別的效率。因此在選擇輸入指標的過程中,要盡可能選取正負樣本差異較大的指標,以提升舞弊判別的效率。

(三)利用實證模型對指標進行篩選

在選擇上述正負樣本差異較大的指標時,應當采用經典舞弊模型的因子、因素進行篩選,而非主觀判斷選擇,這樣能夠避免人為干預造成的信息遺漏。另外,還應當比較初始輸入指標和篩選后的輸入指標在構建機器學習模型中的判別效果,以確認篩選指標的有效性。

綜上所述,要想提升機器學習模型舞弊判別的效果,需要盡可能多的指標組成初始指標集,并篩選出正負樣本差異較大的指標輸入并進行訓練,比較初始輸入指標和篩選后的指標訓練的模型在測試集中的判別效果。而利用Logistics 回歸分析模型,可以從大量的指標中篩選出較為顯著的指標,因此,本文將使用初始輸入指標體系和利用Logistics 回歸分析模型篩選后的敏感指標體系,分別使用機器學習模型訓練和驗證判別效果。

三、模型構建

(一)樣本選取

確定上市公司財務報表是否存在虛假披露行為,可以依賴的判斷標準有兩個,一是年度報告的審計意見,二是監管機構的處罰記錄。若上市公司財務報告被會計師事務所出具了非標準審計意見,且該審計意見的內容和公司當年披露盈利相關,則可以認為上市公司發生了財務舞弊行為;若監管機構對上市公司某一年的財報定性為虛假披露,那么即使當年該上市公司的財務報告審計意見為無保留意見,同樣可以認為該上市公司在當年發生了舞弊行為。

根據上述思路,本文按照如下方法選擇舞弊樣本:選擇2008—2021年度會計師事務所出具非標準審計意見,該審計意見的內容和公司當年披露盈利相關的滬深A股上市公司,以及2008—2021 年度會計師事務所出具無保留意見,后續監管機構對該公司的違規行為提出處罰,處罰的違規期間屬于2008—2021年,且該違規行為涉及當年披露盈利的滬深A股上市公司作為“舞弊組”,取得處罰記錄的截止日期為2022年10月31日。

在選取舞弊公司樣本時,同時選取與舞弊公司同行業①行業分類依據IFind同花順行業分類,取最明細類、資產規模相近、年度報表審計意見為無保留意見且后續年度未被監管機構處罰的滬深A 股企業作為正常公司,通過舞弊公司與正常公司1∶1 進行配對,以減少行業及規模因素造成的數據特征差異。

若舞弊樣本在不同年份連續發生同類型的舞弊行為,只取發生舞弊行為的首年作為研究樣本,以消除重復舞弊造成的研究差異;如在同年或者不同年份發生了超過一類的舞弊行為,則視同為不同的舞弊樣本。由于金融類公司財務報告格式與其他類公司不同,本文剔除所有的金融類上市公司,因同一家公司在同年度發生不止一種舞弊行為視同為不同的樣本,本文選取了461家舞弊公司,共531個舞弊樣本。舞弊樣本所屬行業分布如表1所示。

表1 舞弊公司樣本行業分類

由此可見,舞弊公司樣本分布是以制造業為主的各類行業。將各個樣本根據舞弊手段及發生舞弊的年份分類如表2所示。

表2 樣本舞弊手段匯總

以上為樣本舞弊公司的數量,研究過程中依據上述要求共選取了531 個樣本,其中舞弊類型為關聯方交易的樣本130 個、隱瞞大額事項的樣本76 個、虛構交易的樣本172 個、準備計提的樣本153 個。對照公司的樣本數量與舞弊公司1∶1配對,數量相同。

(二)確定初始輸入指標

輸入指標很大程度決定了所提取的數據走向,如前述分析,若輸入指標不足,一些特征信息被遺漏,可能對研究結果造成較大的影響。本文結合現有文獻常用的分析指標,結合同花順數據庫中評價上市公司償債能力、營運能力、盈利能力、成長能力以及財務報告常見的各類財務指標,剔除重復的、不易獲得的指標,最終確定了91 個指標作為初始輸入指標(見表3),以減少人為選擇因素造成的指標缺失,影響模型的初始輸入指標分布于各類財務報表,并涵蓋了各類的財務信息。

其中“是否法人股東”和“是否變更事務所”這兩個指標為啞變量(虛擬變量),公司第一大股東為法人的取1,公司股東為自然人的取0,在舞弊公司發生舞弊行為的當年,變更過會計師事務所的取1,否則取0,正常公司是否變更事務所的年度取與其配對的舞弊公司的舞弊年度,首次上市視同為不變更,因會計師事務所合并等客觀原因造成的事務所變更也視同為不變更。含有Δ 標記的指標為舞弊當年對上一年的指標變動率。

(三)篩選敏感指標

根據舞弊種類的不同,將數據分四類輸入Logistic 回歸分析模型,在因變量的選取中,舞弊公司結果選擇1,正常公司結果選擇0,選擇前向步進方法,篩選出如下指標:

1.關聯方交易舞弊敏感指標。從下頁表4 可以看出,經過篩選,對于關聯方交易舞弊公司,其與正常公司的敏感指標集為S1,有息稅折舊攤銷前利潤/負債合計、已獲利息倍數、凈資產收益率ROE(扣除/加權)、應收賬款周轉天數、經營活動產生的現金流量(億元)等5 個指標??梢钥闯?,關聯方交易會引起應收賬款數量的變動,因此應收賬款的相應指標也可能指向關聯方交易舞弊。

2.隱瞞大額事項舞弊敏感指標。從表5 可以看出,對于隱瞞大額事項舞弊公司,其與正常公司的敏感指標集合為S2,有Δ速動比率、每股留存收益、Δ營業總收入、Δ基本每股收益、現金流量比率、Δ 現金凈流量、凈資產收益率ROE(加權,公布值)等7個指標??梢钥闯?,如果企業隱瞞大額的事項,其在一些指標的前后年度變動率上的變化將較為明顯。

表5 隱瞞大額事項敏感指標

3.虛構交易舞弊敏感指標。對于虛構交易舞弊公司,其與正常公司的敏感指標集合為S3,有每股留存收益、Δ毛利、Δ營業總收入、投入資本回報率ROIC、流動資產周轉率5個指標。這些指標說明如果上市公司發生了虛構交易舞弊行為,主要通過盈利能力和成長能力指標表現出來。其中“Δ 毛利”的“B”值(回歸系數)為-0.00031,“S.E,”值(標準誤差)為0.00016,限于篇幅,表格中保留三位小數,故僅顯示為-0.000和0.000。見表6。

表6 虛構交易舞弊敏感指標

4.準備計提舞弊敏感指標。對于采用準備計提手段進行舞弊的公司,其與正常公司的敏感指標集合為S4,有Δ 應收賬款周轉率、Δ 固定資產營業收入比、存貨周轉率、Δ利潤總額、投入資本回報率ROIC、應收賬款周轉率6個指標。這說明,準備計提舞弊公司和正常公司在營運能力指標上存在較大的差異。表7中“Δ利潤總額”的“B”值(回歸系數)為0.00023,“S.E,”值(標準誤差)為0.00011,限于篇幅,表格中保留三位小數,顯示為0.000。

表7 準備計提舞弊敏感指標

5.總體敏感指標。我們發現,“Δ 應收賬款周轉率”這一指標在模型中并未在10%的顯著性水平上統計顯著??紤]到本文采用的是Logistic逐步回歸的方式,盡管在準備計提舞弊敏感指標中,“Δ 應收賬款周轉率”這一指標的顯著性不佳,但通過加入該指標能夠對Logistic回歸分析模型整體的顯著性有貢獻,因此本文采用了該指標作為準備計提舞弊敏感指標之一。

通過上述實證分析可以發現,四類舞弊的敏感指標不完全相同,但是部分指標存在重合,說明不同的舞弊手段可能造成同樣的指標敏感,取S1—S4指標集的并集形成總體敏感指標集合S 進行機器學習模型訓練和測試,總體敏感指標集合S共計20個指標,具體包括:息稅折舊攤銷前利潤/負債合計、已獲利息倍數、凈資產收益率ROE(扣除/加權)、應收賬款周轉天數、經營活動現金流量(億元)、Δ速動比率、每股留存收益、Δ營業總收入、Δ基本每股收益、現金流量比率、Δ 現金凈流量、凈資產收益率ROE(加權,公布值)、Δ毛利、流動資產周轉率、Δ應收賬款周轉率、Δ固定資產周轉率、存貨周轉率、應收賬款周轉率、投入資本回報率ROIC、Δ利潤總額等。

四、實證結果及分析

(一)實證結果

依次選取現有研究常用的機器學習的人工神經網絡、支持向量機和隨機森林模型,利用2008—2020年A股上市公司選取的926個樣本作為訓練集分別輸入各個模型進行訓練,并將2021年的140個樣本作為測試集測試各模型的泛化效果。

1.人工神經網絡模型判別結果。作為機器學習應用較為廣泛的算法,人工神經網絡算法在模式識別、回歸分析等多個領域中均有較為穩定的表現,而人工神經網絡的種類也較多,本文采用學術界應用較為廣泛的BP神經網絡作為分類判別的模型。使用人工神經網絡算法的判別混淆矩陣結果見表8。

表8 人工神經網絡判別混淆矩陣

2.支持向量機模型判別結果。構建支持向量機模型中,本文采用RBF 核函數進行模型構建,RBF 核函數有C(懲罰因子)和γ(核參數)兩個必備的參數,為保證訓練的質量,本文通過網格搜尋和交叉驗證的方法,尋找最優的參數。支持向量機模型的判別結果見表9。

表9 支持向量機判別混淆矩陣

3.隨機森林模型判別結果。隨機森林模型是以決策樹為基礎的集成模型,當輸入待分類的樣本時,通過抽樣形成子樣本,并將每個子樣本通過決策樹進行分類,依據每個決策樹的判別結果,通過投票法決定最終模型的輸出。利用隨機森林模型進行上市公司舞弊判別結果見表10。

表10 隨機森林判別混淆矩陣

(二)結果分析

通過分析上述回歸分析以及不同機器學習模型判別表格,可以得出以下結論:

1.Logistics 回歸分析模型可以用于敏感指標篩選。通過Logistics 回歸分析模型的步進方法篩選后,這些敏感指標大多數都在模型中在10%的水平上統計顯著,這說明篩選出的指標在正負樣本中差異較大,可以用于模型的訓練。

2.通過Logistics 回歸分析篩選的指標能夠提升機器學習舞弊判別效率。對比上述三種機器學習的效果可知,通過Logistic 回歸分析前向步進方法篩選出的敏感指標作為輸入指標,在測試集中的判斷準確率均有了一定程度的提升,這是因為敏感指標作為輸入指標,機器學習模型能夠更加容易地區分開“舞弊組”與“正常組”樣本,且有一定的泛化能力。

3.隨機森林模型在初始指標集就有不錯的表現。在初始指標集作為輸入指標時,隨機森林模型的判別準確率就超過了80%,這說明隨機森林模型自身能夠較好地利用訓練集樣本信息,其算法是通過抽樣的方式形成決策樹并通過投票法組合多棵決策樹的預測結果來形成最終結果,該方法本身就是現有信息的篩選,因此利用初始輸入指標訓練判別效果也比較好。

五、結論

本文的結論與貢獻主要有:第一,克服了現有相關研究中模型輸入指標選取較為隨意的問題,選擇了盡可能多的、涵蓋范圍廣的財務報告指標作為初始輸入指標體系,充分利用了上市公司披露的財務信息;第二,構建了初始輸入指標后,根據舞弊手段的不同,通過Logistics回歸分析篩選出最大化舞弊組和正常組上市公司的相關指標形成敏感指標集,并實證檢驗了敏感指標集的篩選有助于提升機器學習模型的舞弊判別效率;第三,比較了常見機器學習模型應用于上市公司財報舞弊判別的效果,在實際應用于未知樣本的舞弊判別時,可以綜合幾個模型的識別結果,若某個上市公司的樣本數據在這幾個判別模型中得到一致的結果(如都被模型判別為是舞弊公司或都是正常公司),則無疑更能說明其是否存在舞弊行為。

猜你喜歡
舞弊機器樣本
機器狗
機器狗
淺談財務舞弊與防范
用樣本估計總體復習點撥
會計電算化環境下會計舞弊的應對策略
未來機器城
推動醫改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
我國上市公司財務舞弊識別模型初探
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合