?

我國醫藥制造業上市公司財務風險預警研究

2023-05-26 08:51古麗思

古麗思

【摘 ?要】在新冠肺炎疫情防控常態化背景下,我國醫藥制造業呈現良好的發展態勢。醫藥制造業上市公司具有良好的投資價值,研究其財務風險將有利于投資者評估醫藥制造行業未來發展情況并進行投資決策。論文以我國A股醫藥制造業上市公司為研究對象,基于其償債能力、盈利能力、營運能力、現金流分析、發展能力及風險水平6個維度構建財務風險預警評價指標體系,利用Stacking算法實現財務風險預警,并對比K-近鄰、Logistic回歸、決策樹3種單一分類器的預測效果。結果表明,提出的Stacking算法整體性能明顯優于其他模型,準確率、F1-Value及AUC值均高達98.5%以上。

【關鍵詞】醫藥制造業;財務風險預警;Stacking;不平衡數據;遞歸特征消除

【中圖分類號】F406.7;F832.5;F426 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2023)04-0164-03

1 引言

由于經濟全球化的不斷深入,使得資本市場的規模持續地擴大,企業之間貿易的頻繁發生及企業經營環境的日趨復雜使得其很容易陷入財務風險當中?;诖?,構建適合的財務風險預警機制是必要的,因為它可以預測企業可能將面臨的危機并能及時化解。在已有的文獻研究中,還沒有文獻研究我國醫藥制造業上市公司的財務風險情況,在后疫情時期,醫藥制造業上市公司能否抓住機遇,持續良好的發展態勢需要進一步量化分析,對于投資者而言,在進行投資時亦存在較高的風險,對現有上市公司進行財務風險分析具有必要性?;诖?,本文以A股醫藥制造業上市公司為研究對象,利用Stacking集成算法實現財務風險預警,并根據預測結果提出相應建議。

2 文獻回顧

Ohlson(1980)采用Logistic算法構建預測公司破產的概率模型,結果證明公司規模、資本結構、經營狀況和變現能力指標對公司破產具有顯著影響。吳世農和盧賢義(2001)采用Fisher線性判定分析、多元線性回歸和Logistic回歸3種方法基于我國140家上市公司的21個財務指標數據分別構建3種財務風險預警模型,研究結果表明Logistic模型預測性能最優,誤判率最低。楊淑娥和徐偉剛(2003)基于Altman提出的Z分數模型結合主成分分析法,以我國上市公司為研究樣本,提出Y分數財務風險預警模型,研究結果表明Y分數模型具有良好的預測效果。鄭茂(2003)以我國112家上市公司為研究對象,采用概率模型和Logistic模型構建相應的財務風險預警數學模型,研究表明我國上市公司的財務信息是有效的,具有較強的預測能力,且線性概率模型和Logistic模型對財務風險也具有較好的識別能力。宋彪等(2015)通過爬取60家企業的相關新聞、博客等網絡數據構建大數據指標,結合其財務指標構建了更為全面的財務風險預警指標體系,并利用支持向量機(SVM)模型進行預測,研究結果表明引入大數據指標后模型預測效果短期內有所提升,長期有明顯提高。

由上述分析可知,企業財務風險預警的方法已經由傳統的統計類方法轉向新興的機器學習算法?;诖?,本文擬初步選取反映醫藥制造業上市公司償債能力、營運能力、盈利能力、現金流分析、發展能力和風險水平6個維度的35個財務比率指標構建了我國醫藥制造業上市公司財務風險預警指標體系,同時使用SMOTETomek綜合采樣算法以解決樣本不平衡問題,在特征選擇上,使用遞歸特征消除(Recursive Feature Elimination,RFE)算法根據隨機森林(Random Forest,RF)擬合結果選擇貢獻度高的前15個特征,最后構建Stacking集成算法結合網格搜索構建財務風險預警模型。

3 研究設計

3.1 樣本選取與數據來源

本文選取2022年我國A股317家醫藥制造業上市公司作為研究對象(根據證監會2012版行業分類),按照其是否被特別處理來劃分是否財務風險預警,即將ST和*ST上市公司視作高財務風險企業(即需財務風險預警),非ST上市公司視作低財務風險企業(不需財務風險預警)。在本文研究的317家上市公司中,高財務風險企業數量為9家,低財務風險企業數量為308家。選取317家企業2015年至2022年的財務數據進行實證研究,數據來源于CSMAR數據庫中公司研究系列欄目。

3.2 醫藥制造業企業財務風險預警指標體系構建

在變量選取層面,本文在前人大量研究的基礎上,結合我國醫藥制造業上市公司財務風險成因初步選取反映企業償債能力、營運能力、盈利能力、發展能力、現金流分析和風險水平6個維度累計35個財務指標構建了我國醫藥制造業上市公司財務風險預警指標體系,如表1所示。

3.3 數據預處理

本文首先對現有35個特征進行缺失情況統計,對缺失比例超過20%的特征進行剔除;對缺失比例5%~20%的特征采取以該特征的分布邊緣值進行填充,其分布邊緣值計算見式(1);對缺失比例低于5%的特征采取以各企業該特征字段的均值進行填充。同時,對重復樣本數據進行剔除,最后對數據進行歸一化處理。

padding values=mean+3×std ? ? ? ?(1)

其次,可以看到樣本數據極度不平衡,正負樣本比例約為1∶30,為解決樣本非平衡的問題,利用SMOTETomek綜合采樣算法,實質是SMOTE過采樣算法結合Tomek Link欠采樣算法實現在通過SMOTE方法對少數類樣本進行過采樣后進行樣本的清洗,剔除了部分由于過采樣產生的噪音數據。具體而言,SMOTETomek綜合采樣算法判定噪聲數據的主要思想是當找不到第三個樣本到某兩個樣本的距離低于兩個樣本間距離時,就認為兩個樣本中有一個為噪聲數據。在剔除噪音數據后,有利于后續模型的訓練,且在經過SMOTETomek綜合采樣算法處理過后,正負樣本比例為1∶1。

3.4 特征篩選

在特征選擇層面,本文采用遞歸特征消除(Recursive Feature Elimination,RFE)算法,通過給定其隨機森林(Random Forest,RF)算法進行擬合,根據特征重要性移除權重比較低的特征,并重新擬合模型,重復此過程,直至指定數量的特征被保留下來。本文設定最終保留15個特征,算法輸出結果為保留流動比率、資產負債率、產權比率、權益乘數、應付賬款周轉率、資本密集度、總資產凈利潤率(ROA)、凈資產收益率(ROE)、營業毛利率、銷售費用率、管理費用率、財務費用率、財務杠桿、經營杠桿、綜合杠桿。

3.5 Stacking算法設計

機器學習作為人工智能的一個分支,涉及數理統計、概率論、計算機原理等多門學科。隨著現代網絡信息技術的快速發展,機器學習逐漸在金融、醫療等眾多領域得到了廣泛的應用,并取得了一定的成果。機器學習分為監督學習、半監督學習、無監督學習和強化學習4類。其中,監督學習(Supervised Learning)主要解決分類和回歸問題,如垃圾信息分類、新聞情感分類、房價預測等問題。其特點是采用有標簽的數據進行模型訓練和測試,而本文的財務風險預測即適用于監督學習算法。集成學習(Ensemble Learning)是通過某種策略將多個個體學習器結合而得到的一個強學習器,通常較單個分類器具有更好的學習效果。Stacking是一種機器學習集成算法,其通過將多個模型組合在一起進而構成一個性能更優的單一模型。其將原始數據輸入多個模型中(亦稱初級學習器)進行訓練,再將每個模型的預測結果作為新的特征輸入一個新的模型當中(亦稱次級學習器),最后得到最終預測結果。本文利用K-近鄰算法(K-NearestNeighbor,KNN)、支持向量機算法(Support Vector Machine, SVM)和決策樹算法(Decision Tree,DT)作為初級學習器,利用邏輯回歸模型(Logistic Regression,LR)作為次級學習器構建Stacking集成模型。同時,本文結合網格搜索對模型進行調優。

4 實證分析及結果

4.1 評估指標

在樣本非平衡情況下,衡量模型性能的好壞更重要的是盡可能將全部財務風險高的企業識別出來,即更注重模型將高財務風險企業找出的正確率。本文使用準確率(Accuracy)、查全率(Recall)、查準率(Precision)、F1-Value及AUC值對本文所構建的財務風險預警模型進行性能評估。上述指標都可基于混淆矩陣計算而來,下面對混淆矩陣進行具體說明。定義TP表示真正例,即實際為正樣本且被預測為正樣本的個數;FP表示假正例,即實際為負樣本但被預測為正樣本的個數;TN表示真負例,即實際為負樣本且被預測為負樣本的個數;FN表示假負例,即實際為正樣本但被預測為負樣本的個數,而混淆矩陣即由這4個指標所構成的矩陣?;诖?,可得準確率、查全率、查準率的計算公式依次為:

由式(2)~式(4)可知準確率指模型預測正確的樣本數占樣本總數的比例;查全率指實際為正例的樣本中模型找對的比率,即衡量模型找回正樣本的能力;查準率指模型預測為正例的樣本中實際正例所占比率。而往往查全率和查準率是矛盾的,一個高另一個就低,那么為了同時考慮到查全率和查準率,就引入了F1-Value指標,其是查全率和查準率的調和平均數,計算公式如下:

AUC指ROC曲線下的面積,對比準確率、查全率、查準率、F1-Value 4個指標,其能夠反映當給模型不同的分類閾值時模型的不同性能表現情況。同時,AUC具有對不平衡數據不敏感的優勢且AUC指標也易與隨機猜想的結果進行比較,能較好度量模型的性能,AUC值介于0.5到1之間,AUC值越大說明模型性能越好,當AUC值小于等于0.5,即說明模型結果與隨機猜想一樣甚至更差,說明模型沒有預測價值。

4.2 模型結果分析及比較

本文按8∶2劃分訓練集和測試集,將訓練樣本數據輸入本文所構建Stacking模型進行模型訓練,在測試集上進行預測得到預測結果,并與KNN、Logistic回歸、決策樹3種模型預測性能進行對比,得到這4種模型的輸出結果(見表2),發現本文構建的Stacking集成模型性能最優,在準確率、查全率、查準率、F1-Value及AUC值上都明顯優于其他3種模型。

進一步分析并進行可視化,得到圖1。

5 結語

本文以我國A股317家醫藥制造業上市公司為研究樣本,結合其財務信息構建了我國醫藥制造業上市公司財務風險預警指標體系,采用了SMOTETomek綜合采樣算法實現了樣本均衡,在數據清洗層面,以企業為單位進行分組填充缺失值等,使用了遞歸特征消除(RFE)算法來進行特征篩選,最后構建了Stacking集成算法進行財務風險預警。通過實證分析,得出結論:本文所提出的Stacking集成學習算法較K-近鄰、決策樹、Logistic回歸這種單一分類器具有更好的準確率、F1-Value及AUC值等,其對于機器學習、深度學習在我國醫藥制造業上市公司財務風險預警的應用方面具有一定意義。

【參考文獻】

【1】Ohlson J A.Financial Ratios and the Probabilistic Prediction of Bankruptcy[J].Journal of Accounting Research,1980,18(1):109-131.

【2】吳世農,盧賢義.我國上市公司財務困境的預測模型研究[J].經濟研究,2001(06):46-55+96.

【3】楊淑娥,徐偉剛.上市公司財務預警模型——Y分數模型的實證研究[J].中國軟科學,2003(01):56-60.

【4】鄭茂.我國上市公司財務風險預警模型的構建及實證分析[J].金融論壇,2003(10):38-42+50.

【5】宋彪,朱建明,李煦.基于大數據的企業財務預警研究[J].中央財經大學學報,2015(06):55-64.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合