?

基于Stacking模型融合的ESG評級預測研究

2023-05-30 10:48李虹霖
計算機應用文摘 2023年8期
關鍵詞:機器學習

李虹霖

關鍵詞:ESG; Stacking算法;ADASYN算法;機器學習

1引言

ESG理念由環境(Environment).社會(Social)、公司治理( Governance)3方面組成,于2004年在聯合國正式發布的報告中被首次提及,如今逐漸成為國際廣泛認可的主流投資理念[1]。2022年5月27日,國資委發布《提高央企控股上市公司質量工作方案》,明確提出要構建具有中國特色的ESG信息披露規則、ESG績效評級和ESG投資指引,并實現2023年相關專項報告披露“全覆蓋”。這足以看出當下ESG的重要性。而研讀文獻后發現,我國的ESG研究還處在發展期,多數研究還集中在基本理論和ESG評級體系的構建與完善上[2-4]。這些研究中鮮有機器學習等算法理論的延伸:極少數采用數據挖掘算法,也僅僅是應用在數據采集、缺失值處理以及用單一模型建模探究ESG評級后的影響上[5-8]。如今,大數據繁榮發展,機器學習在ESG的表現上卻鮮有人知?;诖?,本文將機器學習滲透到ESG領域,并將多個模型集成分析,旨在為后續ESG評級相關研究奠定理論基礎與拓寬研究道路,也為機器學習算法提供新的可適用場景;同時,本文針對Stacking融合算法存在的不足進行改進,在日后的研究中為其進一步精進提供幫助。

2基本理論方法

2.1Stacking算法理論

Stacking融合算法最早由Wolpert[9]于1992年提出,其基本思想是利用算法的差異性進行多層疊加,增強模型預測精度和泛化能力。它能夠將多個模型的預測結果相融合,再投入其他模型中預測,實現將多個模型進行多層疊加。以2層Stacking融合為例,其基本算法理論如下。

其算法第一層框架為基學習器,通常選擇多個不同分類器。并在每個基學習器訓練時加入交叉驗證,即對任意模型Mi,做K折交叉驗證,且將每一次訓練集交叉驗證預測結果均儲存為Pi,則對于每個模型Mi來說,會有Pi=[Pi,…,pk],同時每次交叉驗證都需要對原測試集進行預測,即同時獲得一個模型在原測試集上的預測集ti,那么對于模型Mi來說,就會得到Ti=的數據維度將會是原測試集的K倍,為達到與原測試集相同的維度,需對Ti求取平均值。

其算法第二層框架為元學習器,其輸入特征由原數據的真實標簽Y與基學習器訓練后的P=(Pi)共同構成。由于變量特征過少,若元學習器過于復雜可能會導致過擬合,因此通常選用簡單邏輯回歸模型(L)。經過元學習器模型訓練后,對第一層訓練的測試集結果進行預測,并得到最終的預測結果。具體算法框架如圖1所示。

2.2改進Stacking算法理論

2.2.1第一層訓練框架的加權優化

在傳統Stacking模型中,每次迭代模型都需要在原測試集上再預測一次,故K折交叉驗證會使每個基學習器都在原測試集上預測K次,進而使預測集維度擴大K倍,因此需要對預測集取平均,但沒有考慮到基學習器擬合效果的影響[10]。而元學習器的訓練卻依賴于基學習器的預測集,所以基學習器的擬合效果不容忽視。故本文所改進的Stacking模型在測試集取平均日寸加入了精度衍生出的權重因子,為高精度預測集賦予較小權重,即T'i =wixTi,其中:

2.2.2第二層訓練框架的特征改進

在傳統Stacking模型元學習器訓練時,只采用基學習器預測集,若選擇2個模型進行Stacking融合,則特征變量X只包含2個模型的預測標簽。這就導致特征變量少,可能丟失特征信息[11]。但若將特征全部投入,又產生變量冗余,且元學習器的訓練集中已經包含原有變量的預測結果,再加入全部變量容易造成模型的過擬合。因此,本文提出在元學習器訓練前加入特征選擇的步驟,將篩選后的特征變量與基學習器預測集相結合,以構成元學習器的新訓練集。

常見的特征選擇方法有遞歸特征消除法(RFE)、LightGBM特征重要性法等。由于RFE是基于后向迭代的算法,容易陷入局部最優,且如果選擇的模型穩定性不高,則它也不穩定。而LightGBM在特征選取上更靈活,且在訓練過程中已記錄其特征重要性,不用額外進行特征選擇,故本文選用LightGBM來進行改進算法中的特征選擇。

3數據處理

3.1數據來源

ESG數據主要是由企業的財務報告、企業社會責任報告與企業ESG報告等披露。本文主要收集和訊網企業社會責任板塊中2010~2021年所有可獲取的指標、CSMAR數據庫中的部分環境表現指標,并結合其他數據庫進行查缺補漏。若上述數據源有缺失的,再輔以搜索上市企業的ESG報告等公開報告,通過Python中的pdfplumber庫進行采集補充。最終共收集到39 468條樣本數據,獲取42個基礎指標,其中14個是/否二分類指標、27個數值指標、1個5分類指標(ESG評級),涵蓋企業財務、環境表現、社會表現與公司治理4方面。具體情況如表1所列。

3.2數據預處理

3.2.1缺失值處理

ESG的概念在我國還處在新興上升期,屬于非強制性披露指標,企業對其相關的披露很少:又因為它目前沒有統一衡量標準,進而導致企業所披露的指標充斥著差異性與隨意性。所收集到的數據極可能面臨數據缺失的問題。同時,在采用Python進行PDF處理時,會利用OCR識別技術提取表格數據,而目前識別準確率只能達到90%左右,并不能保證100%正確,且會跳過無法識別的表格。綜合以上各因素的影響,最終所收集到的數據集有一定的缺失值,直接使用會導致模型預測效果大打折扣,需對其進行缺失值處理。

如圖2所示,空白比例越大則樣本缺失越嚴重,可以明顯看出產品開發支出、技術創新理念、技術創新項目數、反商業賄賂培訓、環保投入金額、節約能源種類數及公益捐贈金額7個特征的缺失率大,而數據較完整的大多為財務報表中所涵納的指標。這是由于企業對財務報告的披露十分嚴格,而對于其他類型指標的披露具有自主性,故鮮少披露。針對上述7個高度缺失的指標,即使采用數據挖掘手段進行填充,對模型也無較大意義,因此直接剔除。而針對缺失值數量非極端的情況,本文選擇隨機森林填充法替換,即利用隨機森林算法進行擬合填充。隨機森林是非常有效的集成學習算法,對于缺失值的擬合填充效果較好,不論連續型、分類變量均適用。

3.2.2數據不平衡性處理

當分類模型的標簽類別不均衡時,占比越大的類會成為影響準確率最主要的因素。在此情況下,通常會減少或忽略少數類,以多數類進行訓練的模型,在少數類上的表現自然不盡如人意,導致模型的實際應用價值較低。因此,樣本類別不均衡是數據預處理日寸需要重點關注的問題。

為解決該問題,通常選擇簡單易實現的過采樣方法。其中,2個優良算法即為合成少數過采樣算法(SMOTE)與自適應綜合過采樣算法(ADASYN)。前者根據少數類,利用最近鄰算法人工合成新樣本;而ADASYN則是在少數類的低密度特征空間區域中生成更多的合成樣本,在高密度區域中生成較少的樣本,其最大的特點是能夠自動決定每個少數類樣本需要產生的合成樣本數量,而不是像SMOTE那樣對每個少數類樣本均合成相同數量。故本文選擇ADASYN方法平衡樣本數據。優化后結果如表2所列。

由表2可知,原數據集中ESG評級為D的企業最多,評為A的企業寥寥無幾,B,C,E級的企業數量相差不大,但遠少于D級,足以體現其嚴重的不平衡性。經過ADASYN算法優化后,大量填充了少數類樣本,樣本例數量趨于平衡,樣本量也由之前的3.9萬擴充為了17.2萬,增長了約3倍。

4實例分析與結果

數據集預處理后,采用Python進行模型實驗。分別將2種模型用Blending與Stacking算法進行融合。2種算法的主要區別在于在基學習器的訓練中是否采用交叉驗證。Blending算法的基學習器直接對K個模型分別進行訓練與預測,未進行交叉驗證,故它也不需要對原測試集預測集取平均。

實驗中,本文均選擇表現較好的LightGBM與KNN模型作為基學習器,并對Stacking模型做5折交叉驗證,元學習器均選擇LR模型。針對傳統Stacking算法存在的問題,本文提出了改進方案,詳見本文2.2節。對于改進后的Stacking模型,基學習器與元學習器的選擇不變。設置訓練集與測試集的比例為8:2;交叉驗證為5折;其他模型參數設為默認值。

在輸入特征的改進上,為不丟失重要變量,設定max_ num—features參數的閾值為剔除缺失后的總特征數34,并選擇增益galn作為判斷依據。

如圖3所示,在增益值為2000時出現了急劇變化,故將閾值設定為2000。最終剩余18個特征,特征變量剔除比為47.06%。則新特征集一共包含20個特征變量,仍由LR模型訓練。最終各模型實驗結果如表3所列。

從表3可以看出,相較于單- LGBM與KNN模型.Stacking算法擬合效果更好;同時,它的訓練效果也比Blending模型更佳,則可以認為加入交叉驗證后獲取新訓練集進行預測的效果會比采用直接預測后獲取的新訓練集的效果更佳,側面驗證了交叉驗證的優異性。而本文提出的加權與特征選取改進后的Stacking模型融合算法是幾種模型中表現最佳的方法,準確率達到85.87%,說明該方法在ESG評級預測上是有效的。

5結束語

本文利用Stacking算法將集成學習器再度融合,并拓展到ESG評級領域,為ESG的評級系統提供了可選擇的思路。從某一層面來說,其驗證了利用機器學習進行ESG評級的有效性,為機器學習在ESG領域進一步的應用提供了理論基礎。但本研究還存在諸多不足,其一在于數據指標的缺失上,不過隨著未來ESG領域監管的加強,信息披露的增加,該問題將得到極大地改善;其二在于模型選取上,在后續研究中,可以通過網格搜索算法選取基學習器。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網中“人工智能”的應用
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合