?

基于特征選擇和違約鑒別的我國上市公司債券違約預警模型研究

2024-03-04 02:31白鈺銘姜昱汐
工程數學學報 2024年1期
關鍵詞:指標值債券指標體系

白鈺銘, 姜昱汐

(大連交通大學經濟管理學院,大連 116028)

0 引言

近年來,我國債券市場飛速發展,中國人民銀行金融市場司發布的《2021 年金融市場運行情況》[1]中指出,2021 年全年我國債券市場共發行各類債券61.9 萬億,同比增長8.0%,截至2021 年末,我國債券市場托管余額133.5 萬億元,同比增長16.5 萬億元,已成為全球第二大債券市場。債券市場快速發展的同時也出現了債券違約頻發。2014 年“11 超日債”違約是我國第一次發生實質性債券違約,根據中央結算公司發布的《2021 年我國債券市場違約回顧與展望》[2],截至2021 年末,我國債券市場累計有243 家發行人發生違約,共涉及到期違約債券685 期,到期違約金額合計約6 184.17 億元。找出影響債券違約的關鍵因素,并建立違約鑒別精度高且具備實用性的債券違約預警模型,對投資者和中國債券市場的健康穩定發展都具有重要意義。

當前關于債券違約預警的相關研究,主要可分為三個方面。

一是債券違約影響因素研究。蔣敏等[3]發現,過度負債和經濟下行會導致高績效企業債券違約,資金周轉不足和經濟下行會導致低績效企業債券違約;肖艷麗和向有濤[4]發現,剩余期限(年)、票面利率、流動比率、長期負債占比和應收賬款周轉率等五個指標特征是引起債券違約風險的主要因素,影響貢獻度占到80%,有形資產比率和長期負債占比超過相應閾值時,會分別產生拉低和拉高債券違約的風險;Li 等[5]指出,債券違約率與發債公司能源消耗成正相關,與發債公司的社會責任感、公司治理能力以及財務表現呈負相關;羅朝陽等[6]研究了金融周期和全要素生產率與債券違約的關系,研究發現金融周期頂部發生債券違約的概率較大,全要素生產率與債券違約呈負相關。

二是債券信用評級指標體系研究。陳學彬等[7]從債券發行公司的財務指標、債券市場指標、債券評級指標、宏觀經濟環境指標、行業景氣指標、地區經濟景氣指標等六個方面構建指標體系;Ma 等[8]從債券基本信息、債券發行主體基本信息、債券信用評級情況、債券發行主體財務信息以及宏觀因素等五個方面構建指標體系;Giesecke 等[9]從股票收益率、股票收益波動率、無風險利率、信用利差、消費增長、知識產權增長、通貨膨脹率、GDP 增長等八個方面構建指標體系;姚瀟等[10]從債券發行人基本信息和財務指標中選取8 個因素構建指標體系。

三是債券違約預警方法研究。按照債券違約預警方法的發展階段,可將其分為三類,分別是以因子評分和Z-score 為代表的財務指標類分析法[11–14]、以Credit Metirics、Credit Portfolio View、CreditRisk+、KMV 等為代表的量化指標信用風險分析方法[15–19]和以邏輯回歸、神經網絡、支持向量機、隨機森林等單模型和集成模型為代表的機器學習算法[10,20–22]。

從現有研究來看,當前關于債券違約預警的相關研究已經取得了很多成果,但還存在一定的不足。

債券違約影響因素方面,已有文獻主要集中在發債主體的個別財務情況、企業經營情況、企業屬性、所在地區宏觀環境以及債券基本信息等,而這些影響因素只是說明了哪些指標會影響到債券違約,但不能對債券違約進行預警。

債券信用評級指標體系方面,已有文獻的指標體系主要從部分債券基本信息、債券發行公司財務指標、債券發行公司非財務指標以及宏觀情況等方面構成債券信用評級指標體系。但都是只考慮某一方面的指標,并沒有從上述多個維度全面反映債券違約風險特征。

債券違約預警方法方面,財務指標分析方法通常只關注某一方面的指標而忽視掉其余的影響因素。因此,這種分析方法只能確定影響因素,卻無法進行違約預測;對基于量化指標信用風險分析方法的系列模型,Credit Metirics、Credit Portfolio View 和CreditRisk+等是基于大量違約統計信息,適用于相關數據完整度高的研究對象,而KMV 模型考慮的指標不僅較少,還假定了資產收益等固定不變,與債券實際情況不符;基于機器學習的違約預警方法主要分為傳統機器學習算法和深度學習算法。很多傳統機器學習算法存在降維效果差、精度不高或計算速度慢等各類問題,深度學習方法則因為模型復雜的網絡結構導致計算結果的可解釋性不強,這對需要考慮經濟意義可解釋性的債券違約預警問題并不適合,且采用深度學習模型要想獲得比較高的一個精度,需要較大的樣本數據和計算時間。

此外,以上三個方面的實證研究中,關于債券違約預警影響指標的數據時間窗包括t、t ?1 和t ?2(即債券違約發生在t期,違約預警指標數據為同期、滯后一期和兩期),但是現有研究通常是主觀選取一個時間窗,對選擇哪一個時間窗更合理并沒有依據,且沒有考慮債券違約預測中,違約和非違約樣本數量差距大會導致的樣本非均衡問題,這也影響了預測結果的精度。

根據上述分析,本文從以上幾個方面進行改進。第一,本文從發債主體內部財務指標、發債主體內部非財務指標和發債主體外部指標三個方面出發,對已有文獻的指標進行歸類整理,其中已有文獻中的“債券發行公司財務指標”對應本文的“發債主體內部財務指標”、“債券發行公司非財務指標”對應本文的“發債主體內部非財務指標”,“債券基本信息”和“宏觀情況”合并為本文的“發債主體外部指標”,最終以19 個維度,615 個指標構建初始指標池,彌補現有研究中指標體系結構不清晰信息不充分的不足。第二,采用SMOTE 方法對樣本進行均衡化處理,消除樣本類別不均衡對預測精度的影響。第三,通過XGBoost 方法構建違約預警模型,選取不同時間窗數據進行計算,并根據計算結果反推最優違約預警特征指標組合和最優預測時間窗,保證了以較精簡的指標體系達到較高預測精度的目標,并改變了現有研究主觀選取違約預警時間窗的弊端。通過本文模型與其他常用違約預測模型的結果對比分析,本文模型具有降維效果好、計算速度快、穩定性好和可解釋性強的優勢。

1 基于特征選擇和違約鑒別的我國上市公司債券違約預警模型構建

1.1 樣本數據的處理

1.1.1 缺失值處理

缺失值是指不能獲取的指標值,對于缺失值處理的整體思路是用最差值填補缺失值。按照指標的性質,可將指標分為定量指標和定性指標。指標的性質不同,填補缺失值的方法也不同。

1) 定量指標填補缺失值方法

定量指標是指可以用具體數值表示的指標,從指標對預測結果的影響又可將定量指標細分為正向指標、負向指標和區間指標。

正向指標是指指標值越大,越不容易違約,例如流動比率、速動比率等指標;負向指標是指標值越小,越不容易違約,例如有形資產負債率、長期資本負債率等指標;而區間指標是指當指標值處于某一特定區間時越不容易違約,指標值與這一特定區間的距離越遠越容易違約,例如管理層平均年齡等指標。

設i為第i個指標,j為第j支債券,v′ij為用于填補的指標值,vij為原始指標值,m為債券總數,qi1為區間指標的區間最小值,qi2為區間指標的區間最大值,(qi1+qi2)/2 為區間指標的區間的中間值。

正向指標對于用來填補缺失值的數值的計算公式為

若按照公式(1)的計算結果偏離了該指標的合理范圍,則用已知指標值中的最小值填補,計算公式為

例如流動比率這一指標,永遠不可能小于0,若公式(1)的計算結果小于0,則用公式(2)計算[23]。

負向指標對于用來填補缺失值的數值的計算公式為

同樣,若公式(3)的計算結果偏離了該指標的合理范圍,則用已知指標中的最大值填補公式,具體如下[23]

區間指標對于用來填補缺失值的數值的計算思路是計算與最優指標區間距離最遠的那個已知指標值,并用那個指標值填補,區間指標的填補值的計算公式如下[23]

2) 定性指標填補缺失值方法

定性指標是指不能直接將指標值代入數學模型進行計算的指標,如產權性質等指標。對定性指標,填補缺失值的思路是將定性指標的指標值按類別分成不同的等級,然后用最差的等級填補缺失值。

1.1.2 指標數據標準化

未經過標準化的數據經常存在三個問題,即定性指標的非結構化數據處理及標準化、數據存在異常值、不同指標數據之間的量級及單位不同等,本文采用下面的方法進行處理,將其轉換為標準化數據。

1) 定性指標數據標準化

定性指標的非結構化數據需要將其轉化為結構化數據,并將指標值按等級劃分好的各個檔次進行賦值。本文在賦值時,根據現有研究的常用處理辦法,按照對結果的影響程度等距賦予[0,1]之間的值[24–25]。

2) 異常值處理

異常值處理的整體思路是將異常值進行縮尾處理,即整個數據集的前后1%的數據視為異常值,然后將前后1%的異常值分別用最臨界的非異常值替換。

3) 指標數據歸一化

指標數據的歸一化是將所有指標數據轉化為[0,1]之間的數值[26–27],不同性質的指標數據的歸一化方法不同,按照缺失值中指標的分類,三類指標的具體歸一化公式如下:

令i對應指標,j對應債券,xij是第j支債券第i個指標的標準化數據,vij為原始指標數據值,m為債券總數。正向指標數據歸一化的公式如式(6)所示,負向指標數據歸一化的公式如式(7)所示[28–29]。

令qi1為區間指標i的下界,qi2為區間指標i的上界,區間指標數據歸一化公式如式(8)所示[30–31]。

1.1.3 基于SMOTE 的非均衡樣本處理

雖然我國債券違約的數量在逐年增多,但我國債券市場上非違約債券的數量仍遠大于違約債券。因此,債券數據是非均衡樣本,而采用非均衡樣本進行分類預測,模型的預測結果會偏向于樣本數量多的那一類,將其應用于債券違約預測,容易導致對違約債券識別精度降低,而違約是債券違約鑒別中更關注的問題,即為金融領域重點關注的第二類錯誤(type II error,即將違約樣本預測為非違約樣本占總違約樣本的比例)。因此,為提高模型的預測精度和實用性,需要用有效方法解決樣本非均衡問題。

本文采用SMOTE 過采樣方法解決樣本非均衡問題,相比隨機過采樣等方法通過復制樣本來增加少數類樣本,SMOTE 過采樣通過少數類樣本的鄰近樣本合成新的少數類樣本,最后使得少數類樣本與多數類樣本的樣本數量相同,該方法得到的數據在滿足樣本數量增大的同時提高了樣本質量。

用SMOTE 方法合成違約債券的步驟如下。

每個債券有n個指標,每個指標數據可以通過公式(9)生成。對于每個指標重復上述過程,得到m0?m1個新的違約債券樣本數據。

1.2 基于特征選擇的債券違約預警指標體系構建

1.2.1 債券違約預警指標體系構建思路

本文構建債券違約預警指標體系的思路是在盡可能保證模型預測精度的基礎上,選取更精簡且具備經濟意義完備性的指標體系,保證模型預測的可靠性和實用性,包括指標海選、指標篩選和指標體系確定等幾個步驟。

1.2.2 指標海選

依據全面反映債券違約風險特征的指標體系建立條件,根據債券違約風險的影響因素,參考惠譽、標普、穆迪、中誠信等國內外專業評級機構的評級指標體系,梳理國內外經典、高質量文獻中的指標體系以及債券違約影響因素,從多個維度進行指標海選。

1.2.3 基于數據可獲性的第一次指標篩選

為保證數據的完整性以及實證部分的可行性,刪除不可獲得和極少數債券才有數據的指標,以此來確保最后保留的指標其數據具備可獲得性。

1.2.4 基于特征選擇和違約鑒別的第二次指標篩選

特征選擇是指在不損失特征信息的前提下,從選取的高維特征指標中刪除信息重復和對違約鑒別影響低的指標,選擇反映預測精度好和指標體系規模小的特征指標集,從而降低模型復雜度,提高模型預測精度。

本文采用XGBoost 方法的指標篩選是一種嵌入式特征選擇方法,該方法將特征選擇過程與學習器訓練過程融為一體,二者在同一優化過程中完成,相比其他兩類常用降維方法(過濾式和封裝式),該方法計算效率高、降維效果好且計算簡便。

1.2.5 根據計算結果反推最優特征指標集和預警時間窗

依據指標體系需要同時滿足指標體系精簡且預測精度高的指標體系構建條件,對采用上述方法用不同期數據計算得到的結果進行對比分析,從違約鑒別精度和模型精簡性兩個方面,確定包含最優特征的指標體系,并確定違約預測最優時間窗。

1.3 基于XGBoost 的債券違約預警模型構建與評估

1.3.1 XGBoost 算法

本研究是根據債券違約的特征因素來對其違約狀態進行預測,選取的研究對象是我國上市公司債券,而我國債券市場缺少足夠的違約統計信息,因此,CreditRisk+、KMV 等基于大量違約統計信息的模型不適合本文的研究問題,而根據違約特征預測違約狀態的問題是機器學習中常見的有監督的分類問題,通過對現有監督問題的算法進行分析,最終采用穩定性好、預測準確率高、解釋性強的XGBoost 算法[32],其屬于集成學習算法,是通過多個學習器來完成學習任務。相比單一學習器構建的預警模型,集成學習將多個學習器結合起來,泛化性能更好,其中XGBoost 算法不僅計算速度快、精度高,而且在目標函數中加入了正則項實現降維。因此,適用于債券違約預測模型的特征篩選和違約預警模型構建。

XGBoost 的預測結果為每棵樹的預測結果之和,具體為

其中fk是每棵樹的預測結果,xi是第i個特征樣本的特征向量值。

XGBoost 算法的目標函數為

其中l(·)代表損失函數,用來度量預測值?yi和實際值yi的差別,?是正則項,具體為

其中gi和hi分別代表一階和二階導數。

考慮優化計算中常數項不起作用,因此刪除常數項,得到目標函數

將公式(12)代入公式(15)后,得到目標函數

令Gj=∑gi,Hj=∑hi,當ωj=?Gj/(Hj+λ)時,目標函數的最小值為

XGBoost 的模型尋優是通過給定參數下進行樹分裂實現,樹分裂點的計算公式為

其中Gain 代表結構評分,其值越大,表明切分后的目標函數值越低,GL、HL、GR和HR分別對應節點分裂后左右兩邊的子樹。

1.3.2 模型評估

為驗證模型的有效性,需要對模型進行預測精度檢驗,綜合已有的關于違約鑒別的文獻[26,28,33–34],本文共引用了7 個判別精度標準對模型進行檢驗,分別為精確率(precision)、樣本總體預測精度(accuracy)、f1分數(f1-score)、AUC(Area Under the ROC Curve)、第一類錯誤(type I error)、第二類錯誤(type II error)、幾何平均值(g-mean),選取的這7 個判別精度標準不僅包含了對整體預測精度衡量,還包含對違約和非違約兩個類別預測精度的衡量。因此,可以更全面地度量模型預測精度,各項精度判別指標的計算公式中涉及到的參數如表1 所示。

表1 指標參數

精確率的計算公式

precision 的值越大表示模型判別違約的效果越好。樣本總體預測精度的計算公式

accuracy 的值越大,表示模型的預測性能越好。f1分數的計算公式

f1-score 是精確率與召回率的調和平均,f1-score 的值越大,表示模型的預測性能越好。AUC 是ROC 曲線與X軸圍成的面積。AUC 的值越接近1,模型的判別能力越好,當AUC 值小于0.5 時,認為模型無效[35]。第一類錯誤的計算公式

g-mean 的值越大表明模型的預測效果越好。

2 基于特征選擇和違約鑒別的我國上市公司債券違約預警實證研究

2.1 樣本數據選取及來源

2.1.1 樣本數據的選取

現有研究通常采用3 組違約預測時間窗,即t ?m(m= 0,1,2),m代表指標體系中各指標數據滯后期,即用第t ?m年的指標數據,預測債券第t年的違約狀態。

債券違約預警的目的是根據影響債券違約的特征指標數據,采用預警模型預測其未來的違約狀態,而m= 0 的時間窗口無法實現提前預警目的。因此,本文采用滯后1 期和2 期的時間窗作為備選預警時間窗口,并通過預測結果來確定最優時間窗。

因為中國債券市場在2014 年才出現發生實質性違約的債券,因此,本文所選取的債券樣本為2012~2020 年上市公司發行的在市債券,包括公司債和金融債。

2.1.2 樣本數據的來源

本文從國泰安數據庫獲取2012 年1 月至2020 年12 月的中國債券基本信息數據以及發債主體的財務數據和發債主體的非財務數據,從銳思數據庫獲取債券違約數據,從中國經濟社會大數據研究平臺獲取宏觀環境數據。初始指標池共提取615 個指標,其中包含發債主體財務指標375 個,發債主體非財務指標178 個,債券基本信息指標58 個,宏觀指標4 個,其中指標數據為2012~2020 年,違約狀態為2013~2021 年。

2.2 樣本的處理

2.2.1 構建t ?m時間窗口樣本

根據2.1.1 節的分析可知,本文選取的樣本的違約預警時間窗分別為t ?1 年和t ?2 年,其中t ?1 年包含45 878 支債券,t ?2 年包含13 671 支債券。

2.2.2 原始數據預處理及標準化

將原始數據進行填補缺失值的預處理,然后將處理后的數據進行標準化(異常值處理和歸一化)。在填補缺失值時,從控制風險的角度出發,用指標樣本中的最差值填補缺失的指標值,采用公式(1)~(5)來進行缺失值填補。采用前后1%的縮尾來完成異常值處理。采用公式(6)~(8)來進行指標數據歸一化。

2.2.3 基于SMOTE 方法的非均衡樣本處理

根據1.1.3 介紹的SMOTE 方法,對于每個t ?m(m=1,2)年時間窗口樣本進行非平衡數據處理,保證樣本中的違約樣本總數與非違約樣本總數達到1:1,即得到違約狀態均衡的樣本。本文采用Python 語言編程,實現非平衡樣本處理過程,經過SMOTE 處理前后的樣本數如表2 所示。

表2 經過SMOTE 處理前后的樣本數

2.2.4 樣本數據劃分

本文將經過SMOTE 處理后的樣本經過兩次劃分,劃分為訓練樣本,驗證樣本和測試樣本。第一次劃分:劃分初始訓練樣本與測試樣本。將樣本按照初始訓練樣本和測試樣本為8 : 2 的比例進行隨機劃分,為了保證隨機劃分的樣本保持類別均衡,在該過程采用分層隨機抽樣。為了避免隨機抽樣結果的不穩定,共進行5 次抽樣,得到5 組初始訓練樣本與測試樣本。第二次劃分:將第一次劃分得到的初始訓練樣本按照十折交叉驗證的方法進行樣本劃分并應用于XGBoost 模型訓練,即占總樣本80%的初始訓練樣本劃分為樣本量為9 : 1 的新的訓練樣本與驗證樣本,而占總樣本20%的測試樣本不加入模型訓練,只用于模型精度檢驗。

跟所有樣本都參加十折交叉驗證相比,本文的測試集沒有影響模型訓練。因此,測試精度更能反映預測模型的泛化能力。

2.3 債券違約預警模型指標體系的構建

2.3.1 基于數據可獲性的第一次指標篩選

刪除不可獲得和極少數債券才有數據的指標。第一次指標篩選從初始的615 個指標中刪除了358 個指標,保留了257 個指標。第一次指標篩選結果如表3 所示。

表3 第一次指標篩選結果

2.3.2 基于特征選擇和違約鑒別的第二次指標篩選

在本部分,首先基于網格搜索法確定超參數,然后根據不同時間窗的預測精度和降維效果確定指標體系,完成指標第二次篩選。

1) 網格搜索法

網格搜索法[36]是指將指定的參數進行枚舉,通過將評估函數中的參數進行交叉驗證得到最優參數的算法。具體操作時,把需要優化的參數取值規定在一定范圍內并劃分成網格,這樣之后遍歷網格內所有的取值,然后依次將這些數據放入分類器中進行訓練,并采用交叉驗證法對參數的表現進行評估,在遍歷了所有參數組合之后,比較訓練集分類的準確率,找到分類效果最好的那組參數組合。

本文采用的是網格搜索與十折交叉驗證相結合的方法尋找XGBoost 模型的最優超參數,得到的最優超參數具體見表4。

表4 XGBoost 參數說明

2) 指標體系確定

根據計算結果,分別對t ?1 期和t ?2 期的最優指標體系進行對比分析,其中t ?1 期時間窗的預測結果最好,根據t ?1 年時間窗數據得到第二次指標篩選結果如表5 所示。

表5 t ?1 年第二次指標篩選結果

從表5 可以看出,經過第二次篩選得到的評價指標對應金融界普遍認可的5C 原則,即品質、能力、資本、擔保和環境,證明本文得到的指標體系在經濟意義上符合業界共識,可為投資者和監管部門提供決策和監管參考,具有經濟意義。

2.4 債券違約預警模型構建及精度測算

本部分首先計算混淆矩陣的相關指標,然后根據混淆矩陣計算其他7 個精度指標,根據預測結果得到的最優預測時間窗為t ?1。因此,本部分只給出根據t ?1 年指標得到的最優預測精度,對不同時間窗和不同模型的7 個精度指標對比見本文的2.5。

在t ?1 年根據模型訓練組(訓練集和驗證集)的預測情況,計算得到混淆矩陣如表6。根據表6 的混淆矩陣,采用公式(19)~(24),計算得到債券違約鑒別模型訓練組的精度,其中precision = 97.24%, acc = 98.28%,f1-score = 98.30%, AUC = 99.69%, type I error=2.82%, type II error=0.63%,g-mean=98.27%。

表6 訓練組混淆矩陣

顯然,不論是模型總體的鑒別精度,還是對違約和非違約債券的鑒別精度,均在97.1%以上,說明模型對債券的違約鑒別能力較強。

根據訓練得到的模型,采用t ?1 年測試集數據進行預測,得到測試集混淆矩陣如表7 所示。

表7 測試集混淆矩陣

根據測試集混淆矩陣,采用公式(19)~(24),計算得到債券違約鑒別模型測試集的精度,其中precision=97.58%, acc=98.45%,f1-score=98.47%, AUC=99.75%, type I error=2.47%, type II error=0.62%,g-mean=98.45%。

綜上可見,不論是模型總體的鑒別精度,還是對違約和非違約債券的鑒別精度,均在97.5%以上,說明本文構建的違約預警模型對債券的違約鑒別能力較強。

2.5 精度對比分析

下面從不同時間窗和不同模型的預測精度兩個方面進行對比分析,確定最優債券違約預測模型和違約預警時間窗。

2.5.1 不同時間窗的對比分析

綜合考慮預測精度和指標體系精簡度,確定最優債券違約預測模型和最優預警時間窗。表8 和表9 給出了t?1 和t?2 時間窗分別對應的最優預測模型的計算結果,其中指標體系規模對比如表8 所示,測試樣本精度如表9 所示。為方便計算平均精度,在表9 中將所有評估指標均轉化為正向指標,即精度越高代表預測效果越好,即對表9 第6 行第3 列的type I error,在t ?1 期的負向評估指標值2.47%,轉換后變為97.53%,代表type I error 在t ?1 期的正向評估指標值。

表8 各時間窗最優指標體系的指標個數

表9 各時間窗最優小組的測試集精度對比(%)

根據表8 可知,t ?1 期的指標個數為55,t ?2 期的指標個數為75,因此t ?1 期的指標體系規模小于t ?2 期,該指標體系更精簡。

根據表9 可知,t ?1 期所有評估指標的精度均優于t ?2 期,因此t ?1 期的預測精度要好于t ?2 期。

綜合表8 和表9 的計算結果可知,當時間窗口為t ?1 期時,模型預測精度高且指標體系規模小,可以作為最優債券違約預警時間窗。

2.5.2 不同模型違約預測結果的對比分析

本部分選取7 個在違約鑒別領域常用的分類模型,從指標體系規模、預測精度和計算時間三個方面,進行模型預測對比分析。具體采用的模型為邏輯回歸(Logistic Regression, LG)[37]、支持向量機(Support Vector Machine, SVM)[38]、Adaboost(Adaptive Boosting, Ada)[39]、隨機森林(Random Forest, RF)[35]、線性判別模型(Linear Discriminate Analysis, LDA)[40]、樸素貝葉斯(Naive Bayes, NB)[41]、隨機梯度下降(Stochastic Gradient Descent, SGD)[42]。

指標規模對比分析結果如表10 所示,表10 的指標體系規模排名是將指標體系規模由小及大排名的,即指標體系規模越小越靠前。

表10 各模型指標體系規模對比

從指標體系的規模進行對比分析。觀察表10 可以發現,XGBoost 的指標個數為55,是所有對比模型中指標個數最少的,因此XGBoost 是降維效果最好的模型。

精度對比分析結果如表11 所示,表11 的每一個評估指標對應兩行數據,第一行為模型精度指標,第二行為該精度指標在8 個模型中的排名,序號越小精度越好;type I error 和type II error 中分別包含了這兩個指標的正向和負向精度及排名,type I error 和type II error 正向精度的計算方式同2.5.1。

表11 各模型精度對比(%)

從模型違約鑒別精度進行對比分析。觀察表11 可以發現,XGBoost 的精度檢驗結果都較好,平均精度最高。

表12 為各模型的運行時間對比,第一行為計算時間,第二行為排序,當時間越短,排序越靠前。

表12 各模型計算時間對比

從模型運行時間的角度進行對比分析。觀察表12 發現,XGBoost 的運行時間雖然比大部分非集成學習的單一算法要長,但是卻比其他集成學習(Ada 和RF)的計算時間短。

綜合表10~12 的計算結果可以看出,雖然XGBoost 的計算時間略高與NB、SVM 等單學習器模型,但是XGBoost 在指標體系規模和精度上要明顯占優;且同集成學習的算法相比,無論是計算精度、降維效果還是計算時間,XGBoost 都優于RF 和Ada。因此,綜合違約預警指標體系精簡度、預測精度、計算時間三個方面,XGBoost 模型的綜合表現最好,是實現債券違約預警的有效算法。

本文選取的對比模型中沒有使用當前比較流行的深度學習網絡結構(如ChatGPT 采用的Transformer),一是從模型的可解釋性角度來講,以Transformer 為代表的大模型依賴大量數據實現參數優化,訓練過程為黑箱,導致了模型的可解釋性較差,而金融領域中的債券違約預警,在考慮預警精度的同時,也要考慮模型的經濟可解釋性,只有具有可解釋性的模型才能支持債券風險管控,從這個角度來說,基于XGBoost 構建的違約預警模型比基于Transformer 的深度學習大模型更具有優勢;二是從模型的工作效率上來講,基于Transformer 的大模型參數太多,存在對樣本需求量太大、模型訓練時間長、硬件成本高等弊端,對基于特征指標體系進行違約預警的問題并不適用,且本文基于XGBoost 訓練得到模型已經達到較高的預測精度。因此,在有限樣本條件下,本文構建預警模型的方法效率更高。

2.6 計算債券違約預警模型的特征權重

下面,本文根據得到的最優違約預警模型,計算該模型對應的特征指標權重,以確定各特征的重要性,特征指標的重要性程度計算結果如表13 所示。

表13 特征指標的重要性

由表13 可知,特征指標的權重是歸一化的,可以直觀地了解各個指標的重要程度,不僅證明了XGBoost 算法具有可解釋性,還使本文所選取的指標體系經濟意義更明確,這也是該方法得到的模型相比其他方法的模型(特別是深度學習模型)在債券投資和風險管理上的重要優勢。

3 結論

本文所提出的基于t ?1 期的債券違約預警時間窗符合預測精度高和指標體系精簡的目標,相比現有研究人為設定預警時間窗更合理。本文以預測精度高且指標體系規模小為目標反推最優債券違約預警時間窗,經過多個時間窗的精度以及指標體系規模的對比發現,t ?1 期的債券違約預警效果最好,即滯后一期是指標數據的最優預警時間窗。

本文所提出的指標體系相較于現有研究有較大改進,所涵蓋的信息更完備,且符合金融界認可的5C 原則。本文所提出的指標體系不僅涵蓋了發債主體內部財務指標、非財務指標,還包括外部宏觀指標和債券基本信息。相比現有研究,本文選取的最優模型比現有的指標體系在財務指標上增加了“長期借款與總資產比”、“應收賬款與收入比”等指標;在非財務指標上增加了“兩權分離率”、“產權性質”等指標;在外部宏觀指標上增加了“所在省城鎮居民家庭人均可支配收入”;在債券基本信息上增加了“可回售性”等指標。篩選后建立的指標體系符合5C 原則,經濟意義合理。

本文采用XGBoost 算法,在保證違約鑒別精度的同時對指標體系起到降維的效果,并給出關鍵因素重要性程度。經與7 個在違約鑒別領域較為常用的分類模型比較,本文的模型相較于其他模型具有降維效果好、計算速度快、穩定性好以及可解釋性強的特點。

猜你喜歡
指標值債券指標體系
淺談食品中大腸菌群檢測方法以及指標值的對應關系
層次分析法在生態系統健康評價指標體系中的應用
供給側改革指標體系初探
維修性定性要求評價指標融合模型研究
1995年—2013年地方預算內財力、中央返還及上解情況
一種新的武器裝備體系能力指標變權算法
測土配方施肥指標體系建立中‘3414
土地評價指標體系研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合