?

基于決策樹的多因子選股模型研究

2024-02-26 15:11李夢圓
生產力研究 2024年2期
關鍵詞:多因子決策樹預測

李夢圓

(貴州大學 經濟學院,貴州 貴陽 550025)

一、引言

1952 年馬科維茨在《資產組合的選擇》,引出概率論和線性代數可相融合且應用于投資組合策略,而我國量化投資發展時間較為短暫,2004 年我國才接續呈現資產管理機構進行選股投資組合,而黨的十九大以來我國堅持各項證券市場體制改革,人工智能逐漸滲透于股票市場,國務院發布于2017 年7月20 日的《新一代人工智能發展規劃》引出智能金融一詞,其基于大數據將金融與人工智能有效融合為一個體系。

機器學習算法是人工智能發展于證券市場的新動力,量化交易方式注重選股等事件驅動判斷,因而可以解釋金融資產價格原理,也可基于技術分析對金融資產價格進行合理預測。從國內外股票市場分析發展現狀歸納出兩種方式。一是基本分析,基于宏觀環境、公司財政環境以及所處行業全方位分析股價變動范圍;二是技術分析,基于歷史相關數據根據統計方法、圖形等分析股價變動趨勢,借此幫助投資者在最佳時機買賣。

決策樹是機器學習中兼具可讀性高和分類效率快的優點的算法之一,在股票預測領域具有良好表現,它較于神經網絡等算法結構全面,更易于投資者理解。本文的貢獻:首先有效融合機器學習與技術分析在一定程度優化傳統選股模型,基于滬深300 成分股相關數據從多方面選取因子以多種決策樹模型構建投資組合,幫助投資者構建投資組合贏取超額收益,且基于決策樹模型挖取其背后暗含的理論信息。

二、文獻綜述

(一)多因子模型相關模型文獻綜述

國外多因子選股模型研究起源于Markowotz 均值-方差理論,Fama 和French(1993)[1]引出第一個多因子模型,集市場組合、賬面市值比及市值因子構建三因子模型預測證券收益率。Eugene 和Kenneth(2015)[2]改良三因子模型,加入RMW 和CMA 構建五因子模型發現其在我國A 股市場未必得到超額收益?;ヂ摼W技術普及后學者們將傳統多因子模型有效融合符合邏輯的計算機技術提高模型效率,Markm(1997)[3]基于構建動量因子和Fama-French三因子形成四因子模型,實證發現此模型幾乎可解釋一些股票型共同基金的收益。而我國資本市場相較國外發展較緩,學者們突破金融理論本土驗證,多方位創新研究方向。黃興旺等(2002)[4]基于Fama-French 三因子模型證明價值因子對股市波動不有效,規模因子有效。趙培騫和王德華(2007)[5]基于成長性和股東權益兩個指標構建多因子選股模型實證發現所選因子與股票價格之間呈正相關關系。李志冰等(2017)[6]基于五因子模型表明其對于股票收益率影響更為顯著。趙靜(2016)[7]認為選擇行業輪動效應結合多因子模型,此模型對金融市場風險控制更有效。

(二)決策樹相關文獻綜述

1966 年Stone 等人引出單概念系統,而后國外學者們逐步提出ID3 和ID4 等算法。Sorensen 等(2000)[8]基于決策樹采取股票價格動能等六項指標篩選美國科創板優質股票,實證發現這樣的組合可以提高收益。Breiman(2001)[9]基于隨機森林對樣本分層抽樣,與決策樹相融合發現處理樣本較大的數據有優勢。而國內學者的研究主要集中于決策樹在量化投資領域的預測和分類,談敘(2013)[10]基于決策樹中每個變量等特征選取建立金融時間序列模型,實證發現可顯著提高股票收益預測精確度。沈金榕(2017)[11]基于CART 決策樹算法選取財務指標作為逐步回歸變量實證建模評估模型的有效性。張茂軍等(2022)[12]基于決策樹原理選取分類標簽和值的特征構建CLBIB-VSD-CART 算法,實證分析螺紋鋼期貨交易策略。

學術界研究成果大多集中因子適用性和模型合理性,然而股票市場環境日趨復雜,金融數據是高度不平穩時間序列,傳統建模方法已不能科學預測。學者們選取隨機森林等模型,構建多因子組合模型分析股票市場股價變動趨勢,本文采取人工智能算法優化傳統選股模型組合優化提高預測的準確性,基于決策樹可擴展性強符合投資者實際操作中的邏輯思維,基于此構建投資組合為我國股票市場量化投資策略的發展提供參考。

三、相關理論和模型介紹

(一)量化投資理論

1952 年馬克維茲首次引出現代組合管理理論,而后Sharpe 等人于1963 年引出CAPM 模型奠定基石。量化選股與量化投資內涵呼應,基于數學理論工具對大量數據定量化分析、搭建定量模型,融合計算機和數量統計對海量數據分析金融資產價格等因素之間的聯系。優點有:(1)客觀性:基于各類定量化模型和輔助工具,避免主觀性錯誤;(2)系統性:角度多層次,選擇性廣,從各類行業,等層次估值、預測等;(3)分散化:利用不同風險不相關的投資組合提高收益。

(二)多因子量化模型

多因子選股模型基于APT 理論、CAPM 模型及Fama-French 三因子模型構建,選取以某種規律性變化影響股價的因素,以此搭建自動交易的量化投資模型,消除情緒因素對擇股不利影響來分析最新交易數據,使多因子選股模型具有實效性和持續性。選股步驟如下:

1.因子選取。從規模、盈利等因子選取部分增強模型信息捕獲性。

2.因子有效性檢驗及刪除冗余因子。參考已有文獻基于排序法對因子進行有效性測驗以保證模型不被數據耦合干擾,將所選因子按照分值排序劃分為n 組計算各自收益,且計算高分位組合獲取超額收益概率、低分位組合失敗概率等,因子打分情況與此對應的收益率情況呈現顯著相關性。

3.構建多因子選股模型。傳統多因子量化選股有打分多因子、基于因子排序多因子和基于因子回歸多因子模型,三種都選取去除冗余因子構建模型。本文基于決策樹模型將選取期間的收益率以High、Middle、Low 比較三種算法效率。

(三)策略樹理論

1.定義。決策樹對變量值拆分來建立分類規則構建樹狀分類結構,利用自身樹狀劃分形成路徑的機器學習技術,分為兩個步驟:一是從訓練樣本單個節點開始對特征空間基于變量影響效果大小排序選擇變量和變量值。二是對選出的變量矩形分類進行效果比較。決策樹每個分支表示變量判斷條件,每個非節點為映射對象,每個葉子節點是預測結果,當分類結果一致即停止生長得到一個決策樹預測模型。

2.模型構建。決策樹算法有分類回歸樹CART等算法,其思想是基于遞歸算法將數據劃分為不同矩形區域,進而判斷數據點是否滿足。具體步驟:首先是特征選擇,基于信息增益等選取樹杈指標構建根節點,劃分后的數據有序程度越高,劃分規則越合理。其次,決策樹生成,基于選取特征分類劃分數據集,若符合條件則構建葉節點,若不能則繼續劃分。最后,剪枝:決策樹算法預測結果相對準確,為避免過度擬合,使用簡化模型從已生成決策樹剪掉一些葉結點平衡的預測誤差和數據復雜度。

(四)決策樹分類

1.ID3 算法。ID3 算法基于信息增益準則選取決策樹各節點特征遞歸且以極大似然法進行概率模型選取。首先計算根節點所有可能特征的信息增益并選取最大特征作為節點特征,由此取值構建子節點,然后遞歸上述過程直到沒有可選特征或所選特征信息增益最小得到最終決策樹。

2.C4.5 算法。C4.5 算法基于ID3 算法選取信息增益來衡量特征進行優化處理離散型和連續性屬性類型數據。特征Q對訓練數據集W的信息增益比E可表示為此特征的信息增益R與數據集W基于特征Q熵值的比,即:

3.CART算法。CART指分類樹回歸算法模型,基于特征選擇、樹枝生成及剪枝,同時假設決策樹為二叉樹,且內部節點特征值有“是”和“否”,分類過程中遞歸輸入數據劃分成有限的數量單元來確定概率分布,具體步驟如:(1)生成過程:輸入訓練數據集生成盡量大的決策樹。(2)剪枝:基于驗證數據集對選取生成的決策樹最優子樹,并以損失函數最小值為參考標準。(3)在所有特征中計算基尼系數,選取數值最小的特征作為最小切分點劃分為兩個子節點,將數據集對應兩個子節點整個過程遞歸使用直到滿足停止條件形成最終CART決策樹。

4.隨機森林算法。2001 年LeoBeeiman 引出隨機森林模型是基于決策樹構造組合的定義,其優化決策樹算法,在初始樣本中可放回隨機抽取相關樣本基于決策樹訓練,此過程重復生成不同決策樹形成森林,其中每一顆決策樹都是獨立訓練樣本形成。其優點為:(1)方便性:對原始數據無需過度操作,可基于測試集分類預測。(2)速度快:各棵決策樹相互獨立分類預測,聚焦特征因子集從而效率提高。(3)不過度擬合:隨機性引入不會陷入過度擬合,適應性較強。具體步驟為:(1)從整個訓練樣本隨機有放回的選取n個樣本構成一個訓練集來讓一棵決策樹訓練,此過程重復m次構成m個訓練子集。(2)從這個集合隨機選取l 個特征組成特征子集,分別對以上m個訓練子集和構造的m個決策樹訓練。(3)將測試樣本放入隨機森林中進行分類預測得到預測結果,最后將m個分類結果集合就是投票數據最終結果。

(五)回測方法

量化投資決策過程結束后需要通過一些有效指標體系評價其績效,如:最大回撤率、夏普比率等。

1.最大回測率。最大回撤率是投資策略組合的最大回測力度,衡量某一個時間區間內的一個時間點往后推遲至整個組合凈值最低時能夠回測的最大值,公式為:

其中pi指投資組合某天的凈值,pj則為pi后某天的凈值。

2.夏普比率。夏普比率得到的基金收益率通過風險調整,即投資者每多承擔一單位總風險會得到多少超額報酬,公式為:

四、實證部分

(一)實證步驟

第一,因子選??;第二,篩選股票;第三,構建股票;第四,回測。

(二)選股和因子選取

1.選股。本文選取2015 年12 月31 日至2018年9 月28 日滬深300 指數成分股數據,基于Jupyter相關模塊編寫,將所得數據去極值等。

2.因子選取。因子選取關鍵在選取區分度和有代表性因子,參考已有文獻從盈利等因子類型選取2015 年12 月31 日至2018 年9 月28 日中12 個季度18 個有效因子進行有效性測試,選取的因子與因子季度性測試如表1、表2 所示。

表1 選取因子

表2 季度因子IC 值

從結果看,如2016 年3 月31 日dv_ttm值為-6.64975E-05,ps_ttm、pb、roa、roic、fcff及quick_ratio指標大于0.1;2018 年3 月31 日pb、eps、roe、roa、roic及quick_ratio均大于0.1,其余小于0.1??梢钥闯鲆蜃又g波動起伏空間較大和所選因子與股票收益相關性較差意味著個股選取因子對股票收益的影響很難得到有效因子,因此最終選取日平均收益率、日命中率、累計收益率、波動率、最大回撤率、年化夏普比率、在險價值、風險價值上的超額收益8個指標有效性測試。

(三)因子有效性測試

1.IC值。IC呈現選取股票因子值和其下一期收益率相關系數來衡量因子預測能力。IR是股票超額收益均值/標準差,它可衡量因子選股能力,本文選取因子IC和IR值如表3 所示。然而本文從兩個方面進行冗余變量剔除,一是IC值大于0.05 可認為此因子為有效因子。二是借鑒已有研究選擇分段IC值篩選:相關關系數值在-0.2~0.2 區間外的因子為有效因子,相關數據如圖1 所示。

圖1 因子分段IC

表3 因子IC 和IR 值

2.單因子有效性測試。將最終確定的八個因子進行有效性測試,以pe_ttm因子為例:按照因子值大小升序排序前20%股票劃分第一組,以此類推最后20%劃為第五組,最終選取的估值因子有pe_ttm、dv_ttm,結果顯示其對股票收益率敏感度較低。結果如表4 所示。

表4 單因子有效性測試回測結果

3.構建投資組合。本文借鑒已有研究選取五等分區間回測法,選擇pe_ttm、eps、roe、roa、roic、dv_ttm、netprofit_yoy、turnover_rate、gc_of_gr、total_mv構成有效因子池。將所選因子劃分為5 個區間并計算平均收益率、日命中率、累計收益率、波動率、最大回撤率、年化夏普比率、在險價值、風險價值上的超額收益8個指標進行數值排序。

4.決策樹模型構建。表5 顯示三種模型中ID3效果優于其他兩種,而隨機森林是基于多棵決策樹力量來量化分析,具有改善決策樹的過渡擬合現象,因此隨機森林模型優于決策樹算法。

表5 模型實證結果

五、回測結果

回測部分選取2018 年12 月28 日至2019 年12 月31 日基于以上ID3、C4.5、CART 及隨機森林四個算法投資組合選取表現最優秀的算法與上證綜指績效進行對比,來表明投資組合策略有效性,同時考察最優決策樹策略組合相應的High、Middle及Low 組合有效性。High、Middle 及Low 組合呈現層級遞減變動,證明本文投資組合回測構建有效,且所選研究期間High 的累計收益率高于同期上證綜指累計收益。結果如表6 所示。

表6 回測結果

六、結論與展望

(一)結論

隨著量化投資不斷作用于我國股票市場,量化投資包含預測、套利、交易及資產配置四個模型,而多因子選股基于收益率和因子之間近似的線性關系去篩選高收益股票組合,機器學習算法能夠提高此組合的準確性。本文基于滬深300 指數成分股相關數據構建多因子選股模型,實證證明機器學習算法可有效預測股票收益。

最后選取2018—2019 年股票收益數據回測并與上證綜指相比發現基于決策樹的多因子選股模型可以實現超額收益的目標,最后選取效果較好的決策樹模型與上證綜指進行回測比較,發現基于決策樹模型的多因子選股模型有較好的效果。

(二)展望

我國目前量化投資領域的實證研究明顯還不成熟,理論支撐相對薄弱,我國股票市場近年來受政策與市場參與者很難量化,在構建多因子模型中只能選取市場收益率來模擬經濟環境變化對股票收益率的影響,隨著量化投資領域成熟,市場有效性提高可以使得財務數據更真實,分析價格和宏觀因素對國家收益率的預測會更科學而準確,最后決策樹劃分規則可以基于股票類型分析歸納形成最優結果。

猜你喜歡
多因子決策樹預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
基于BP神經網絡的多因子洪水分類研究
基于打分法的多因子量化選股策略研究
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
基于多因子的ZigBee安全認證機制
不必預測未來,只需把握現在
基于決策樹的出租車乘客出行目的識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合