企業所得稅稅收風險識別中隨機森林算法的應用研究

2024-01-17 09:54卞平原

貴陽學院學報(自然科學版) 2023年4期

卞平原

(池州職業技術學院國際經濟貿易系,安徽池州 247000)

納稅人的數量與規模正隨著經濟的快速發展和經濟主體的多元化而快速擴張,與此同時,也出現一些偷稅漏稅的行為。[1]我國一直致力于改革稅收征管模式,其中的重點內容就是要防范稅收流失并最大程度規避稅收執法的相關風險。[2]風險管理是通過各種信息化和非信息化的手段對可能出現的各類風險進行識別、分析和解決,盡可能降低風險帶來的不利影響和后果。[3-4]風險管理中的風險識別要求稅務機關在稅收征管工作中確定所有可能帶來損失和不確定性的風險來源,及時評估其危害度和可能造成的不利后果,并提前做好應對準備工作。[5-6]企業所得稅具有稅務重、難以轉嫁和計算復雜的特點,更容易出現納稅人出于主觀意愿或無意識的偷稅漏稅現象。[7]研究基于大數據背景,對隨機森林算法做出了相應的改進,并將其用于企業所得稅的稅收風險識別中,旨在為稅務機關開展稅收風險管理提供參考。

1 隨機森林算法在稅收風險識別中的應用研究

1.1 基于決策樹約簡的改進隨機森林算法

隨機森林(Random Forest,RF)算法是使用多個分類回歸樹(Classification And Regression Tree,CART)對數據樣本進行訓練和預測的一種分類器,但是RF算法較決策樹分類器擁有更優秀的泛化能力和分類效果。[8-9]研究在RF算法的基礎上,根據決策樹的分類精度和樹間相似性進行決策樹數量約簡,進一步提高RF算法的分類性能。改進后得到的基于決策樹約簡的隨機森林算法(Random forest algorithm based on decision tree reduction,RFDTR)的流程圖如圖1所示。

圖1 RFDTR算法的流程圖

由圖1可知,RFDTR算法主要包括兩個部分,一為傳統的RF算法,二為約簡決策樹過程。通過約簡的方式可去除不符合要求的決策樹模型,將留下來的樹組合為子森林,以此來減少模型存儲和預測時間的成本。RF算法通過bootstrap抽樣進行有放回地抽取原始樣本后,采用CART構建基分類器模型。具體方式是通過基尼指數最小化準則或均方誤差(Mean Average Error,MAE)最小化準則從分裂特征集中選擇最優分裂特征和切分點用于分類或回歸。如式(1)所示計算樣本集合D的基尼指數G(D)。

(1)

式(1)中,Pk為第k類樣本所占的比例,K為樣本類別的數量。假設某一個特征H有n個取值,那么可以定義樣本集合D在H已知的情況下的基尼指數G_index(D,H)如式(2)所示。

(2)

根據式(2)可得到基于基尼系數的最優劃分特征標準。然后需要對決策樹進行約簡,約簡操作分為選取高精度子森林和聚類選擇多樣性子森林兩步。選取高精度子森林時利用驗證集計算單棵決策樹的AUC值,將AUC值作為決策樹的分類精度。然后找到比原始森林F中的單棵決策樹的分類精度平均值A_Auc更高的子森林SubF,如式(3)所示。

(3)

式(3)中,ti是第i棵決策樹,Auci是其AUC值。該選取方式選擇決策樹的數目是不固定的,如果子森林SubF中的決策樹數量超過了原始森林中決策樹數量B的2/3,那么將SubF作為待聚類子森林,否則就降低選擇標準繼續選取高精度決策樹。具體的策略是計算所有決策樹AUC值的標準差σ,然后如式(4)所示繼續選擇決策樹,直到組成待聚類子森林。

SubF={ti：Auci≥A_Auc-σ}

(4)

選取高精度子森林的操作在一定程度上導致了隨機森林整體多樣性下降,在進行分類時可能會出現分類結果集中、相似度高的情況。在這種情況下出現分類錯誤就會導致與之相似度高的其他決策樹也出現分類錯誤。研究采用改進的K-Means++聚類算法對待聚類子森林SubF進行聚類,該算法的運行流程如圖2所示。

圖2 K-Means++聚類算法的流程

如圖2所示,算法首先從SubF對驗證樣本的分類結果數據X中選擇M個數據作為初始聚類中心。具體步驟是隨機選擇一個樣本作為初始聚類中心,然后遍歷數據并將每個數據x與聚類中心成對多樣性度量作為兩者的最短距離Dist(x)。Dist(x)越大的點越有可能被選取為聚類中心,其被選取的概率Pc如式(5)所示。

(5)

然后使用輪盤法選擇下一個聚類中心,直到選擇出的M個聚類中心保持不變或得到最大迭代次數。該算法使用輪廓系數來衡量聚類效果并確定最佳K值。不同簇的輪廓系數如式(6)所示進行計算。

(6)

式(6)中,DAa和DAb分別表示樣本點xi到該類簇和最近類簇中所有樣本點的平均距離。整體的輪廓系數如式(7)所示。

(7)

式(7)中,N為數據集中的樣本數量。通過聚類選擇高精度低相似的決策樹組成隨機森林后,對分類結果進行統計得到最終的預測結果,再使用如式(8)所示的簡單多數投票決策得到最優的分類結果。

(8)

式(8)中,T(α)為測試樣本α的組合分類模型;A為測試樣本集中樣本的數量。Y為輸出變量;I(·)為指示性函數。

1.2 基于隨機森林算法的風險識別模型構建與評價方法

稅收風險廣義上是指相關企業在進行納稅申報、申請退稅、代扣代繳、開具發票等一系列涉稅活動時,由于主觀故意或者客觀過失而發生的,在一定程度上違反了稅務機關某些規定的,會影響行為人利益帶來的不確定性。[10-11]房地產行業由于兼具實體與金融行業,其財務處理具有一定的復雜性。而房地產行業稅收風險識別需要兼顧及時性和有效性。這是因為房地產行業的財務資料在較長的開發周期中如果出現保管不當、財務人員工作更替或業務水平不足的情況,就很容易造成財務數據的不真實性,進而影響相關稅務機關的檢查工作。為滿足稅收風險識別的任務要求,首先需要對相關企業的數據進行抽樣、清洗和轉換等預處理操作。稅務核心征收數據為通過相關的查詢途徑,根據時間維度獲取到的2020年某市房地產行業數據,來源于企業的納稅申報和稅務登記。出于數據安全的考慮,相關數據已進行了相應的加密處理,如企業名稱采用數字編號代替。數據清洗又稱數據過濾,是通過剔除樣本數據中不符合判定規則的數據來提高分析結果的準確率,具體包括了數據初始化、注銷和非正常企業的去除和殘缺或明顯有誤數據的刪除等操作。然后研究以稅務核心征收數據為風險指標建立的支撐,以企業依法納稅產生的申報數據為風險指標的選擇依據,從資產、成本、費用和收入等角度建立了稅收風險指標。企業所得稅稅收風險指標如表1所示。

表1 企業所得稅稅收風險指標體系

不同風險指標對于風險識別的影響程度是不相同的,因此在確定模型使用的風險指標體系后,還需要根據隨機森林的重要性度量確定對識別結果影響最大的指標。對隨機森林中的任一棵決策樹,首先使用OOB數據計算其數據誤差erOOB1(xi),再對OOB數據中所有樣本的特征xi加入噪聲干擾并重新計算誤差erOOB2(xi)。對N棵決策樹進行重復操作,如式(9)所示計算特征xi的重要性。

(9)

式(9)中,IM(xi)代表了變量的重要性,其數值大小與特征的重要性成正比。IM(xi)<0說明該變量有明顯噪聲,會對模型產生負面影響。研究選擇正確率、精確率、召回率和F1分數四個指標來評估基于隨機森林算法的風險識別模型的分類性能。F-Measure是精確率和召回率加權調和平均,如式(10)所示。

(10)

式(10)中,β∈[0,∞),其取值代表了對精確率和召回率的不同側重,β=1時的結果,即為F1分數。

2 企業所得稅稅收風險識別模型的運行效率與識別結果

成功構建基于隨機森林的企業所得稅稅收風險識別模型后,研究進行了模型參數選擇與模型性能檢驗實驗和企業稅收風險識別實驗。實驗使用的稅務核心征收數據為通過相關的查詢途徑,根據時間維度獲取到的2020年某市房地產行業數據,數據來源為企業的納稅申報和稅務登記。實驗數據集中包含了該市2035戶行業門類為房地產業的企業,通過數據清洗剔除667戶企業數據后得到的最終實驗樣本為1368戶。隨機森林算法中有兩個參數對算法的運行效率和分類結果有重要影響：決策樹個數和每次隨機屬性的個數,兩者與OOB誤差率的關系如圖3所示。

圖3 隨機森林相關參數的選擇

從圖3(a)中可以看出,隨機森林中的決策樹為300時,誤差率有劇烈波動,此后個數一直增加到400,中間仍有小幅度波動。當決策樹個數等于400時誤差線趨于平穩,因此模型中設置決策樹為400棵。觀察圖3(b)可以發現誤差率最低點對應的屬性個數為6,因此隨機森林算法中參數mtry設置為6。隨機森林算法的評估分析實驗結果如圖4所示。

圖4 不同算法的ROC曲線圖

圖4所示的ROC曲線可以反映分類識別模型的敏感度和模型自身的特異性連續變量的客觀評價依據。但當分類模型準確率相差不大時無法憑借肉眼判斷優劣,這時就需要使用ROC曲線組成的圖像面積數值來標識分給模型的好壞。這個面積數值在評價中被稱為AUC,如圖4所示,隨機森林分類識別模型的AUC為0.95,而決策樹的AUC僅為0.87,實驗結果表明,隨機森林算法具有較好的分類性能。企業所得稅風險識別模型的性能檢驗結果如圖5所示。

圖5 企業所得稅稅收風險識別模型的性能

如圖5所示,隨機森林算法和改進的隨機森林算法在7種算法中均擁有較高的正確率和F1值。而基于改進隨機森林算法的識別模型的準確率和F1分數最高,分別為90.20%和88.70%,較次優秀的隨機森林算法分別提升了5.13%和4.60%。同時改進隨機森林算法識別模型的運行時間也是7種算法中最低的,較原始的隨機森林算法減少了33.33%,既驗證了改進措施的有效性,又表明識別模型可以有效識別企業所得稅的稅收風險。某房地產企業所得稅稅收風險識別結果報告如表2所示。

表2 某房地產企業所得稅稅收風險識別結果報告

由表2可知,該企業的申報值與模型判斷值具有較大差異,其中風險點營業收入和利潤總額的風險概率均在70%以上,證明該房地產企業明顯有少繳納企業所得稅的問題,主要問題指向為少計營業收入和多計銷售費用。在企業一般收入風險報告中,該企業的營業收入風險概率為78.21%,可能存在完工項目未及時結轉收入、銀行按揭帶寬未及時確認收入、拆遷安置房收入未入賬、租賃收入未申報等問題。一般企業成本支出顯示營業外支出的風險概率為70.20%,存在較大差異,表明該企業可能存在的問題有：捐贈是否按稅法政策合理扣除、是否存在自然災害造成的非正常損失、資產盤點是否真實有效、是否按流程處置固定資產和無形資產等。具體的風險點需要通過核查企業賬目信息才能確定。

3 結論

企業所得稅是我國稅務部門目前征收的18個稅種中稅源覆蓋范圍最廣的,占稅收收入總額的比重也在逐年上升。企業所得稅對會計核算的要求很高,稅收流失的風險也遠高于其他稅種。因此研究考慮到隨機森林算法優秀的泛化性能和分類精度,通過約簡決策樹進一步提高RF算法的分類性能,在建立企業所得稅稅收風險指標體系的基礎上構建了稅收風險識別模型。在模型算法的性能評估實驗中,RF算法獲得了最高0.95的AUC,驗證了隨機森林算法用于風險識別模型的可行性。對不同算法構建的識別模型進行識別檢測實驗后發現,基于改進隨機森林算法的識別模型準確率、F1分數和運行速度較原始的隨機森林算法模型分別提升了5.13%、4.60%和33.33%,可以運用到企業所得稅稅收風險識別中。