?

基于DMD-Xgboost電商概念股的交易量化預測算法

2023-12-20 03:18
關鍵詞:特征值模態電商

童 珺 儀

(北京郵電大學 理學院,北京 100876)

隨著大數據時代的發展,人們更傾向于用數據去解釋一些規律事件,比如用戶畫像分析預測,股市預測,產品銷售量預測等等,從而達到數字化分析預警,有助于使用者群體實現更加合理化的決策.鑒于此,學者們在定量預測運算的基礎上,衍生出一系列的預測模型.如處理時間序列模型的季節平滑、Hole現象趨勢模型、ARIMA模型等;利用機器學習的決策樹模型、支持向量機(SVM)模型、長短時記憶網絡(LSTM)等;基于統計學框架的方差分析(ANOVA)、假設檢驗、回歸分析等.模型輸出結果將作為預測的直接依據,因此模型的準確度十分重要.然而對于大多數現實意義數據,其內在規律十分隱蔽,并非任意的預測模型都能給出較高的精確度,受因素影響多、敏感性高的數據預測就成為一大難點.本文就復雜的股市數據進行預測分析,并以此為高維非線性敏感樹的處理提供新思路.

2021年,伴隨著基金市場的巨大波動,人們對于投資市場態度愈加兩極分化,相較于傳統“望聞問切”的投資方式,人們更傾向于量化投資,尋求以最低的風險獲得最大的收益.而股市本身具有波動性和強隨機性,所以在收益預測方面,經濟學家們一直在嘗試.目前也已有大量研究從不同角度出發,在傳統經濟學領域和計算機科學領域的基礎上展開探討.

在傳統經濟學領域上,1970年Eugene Fama[1]提出“有效市場假說”(Efficient Markets Hypothesis),該假說認為,任何投資者均為理性經濟人,其決策經過一定的思考,在有效市場的前提下,每只股票的市場價格都反映了已經發生或者尚未發生但是預期會發生的事情.這一假說也成為資本市場不斷提高有效性的起點.2000年徐嫩霞等[2]利用經濟序參量和經濟預測建立了“智能股票預測系統”.2003年Dennis Olson 等[3]將會計比率因素作為輸入變量,利用普通最小二乘和Logistics回歸技術得到了較好的收益預測效果.2009年Wei L等[4]提出GARCH方法改進了傳統計量經濟學模型,使之產生更加準確的樣本外預測.2011年,李竹薇[5]通過對中國證券投資者的交易策略、交易行為和預測能力進行分析,填補了國內在該研究領域的空白.

在計算機領域,2008年王莎[6]通過改進后的BP神經網絡對股市進行預測,并取得較好的仿真性能.2010年王文波等[7]通過EMD和神經網絡的結合提高了預測精度.2016年吳玉霞等[8]發現移動平均自回歸模型對于短期靜態股價預測有較好的效果.2016年張貴生等[9]分析了傳統線性模型解決非線性模型的不足,通過近鄰互信息的方式融合了與目標股指數據關系密切的周邊證券市場的相關變化信息.2018年韓山杰等[10]將Tensorflow應用于股票預測中,將深度學習和股票預測結合.與此同時,學者們也逐漸意識到人為主觀因素對股票市場的作用.2013年祝宇[11]利用文本挖掘技術提取網絡信息中體現的投資者情緒特征,并以此研究網絡信息與股票市場的關聯機制.2016年石兆偉[12]利用股吧中投資者的情緒信號作為輔助,從而預測股票未來趨勢.2019年吳璇等[13]分析了上市公司財務報告對投資者的投資決策產生的影響.

綜合以上文獻,目前的研究過程中缺乏根據市場特點對數據指標內在關聯的挖掘以及高維非線性數據特點,只是籠統地將數據集與主客觀因素銜接且研究多針對單一股,應用范圍受限,本文創新性地采用學科交融的方式,從非線性時間序列數據特點考慮,設計了一套利用針對一簇概念股的非線性復雜動力系統模型DMD特征分解,再融合機器學習Xgboost的股價預測算法.動力學模態分解(DMD,Dynamic Mode Decomposition)是實現Koopman分析的一類常用算法.特別是針對大量高維數據,其優良的降維分析能力使得DMD算法被廣泛應用于非線性測量數據的分析預測.盡管算法被提出在“動力系統”領域,但學者們逐漸將其運用在各類問題中并取得重大突破.2015年張青山[14]提出在DMD算法進行旋渦動力學分析,2016年寇家慶等[15]人提出了跨聲速抖振的DMD模態分析,2017年葉坤等[16]人利用DMD方法負圓柱繞流進行穩定性分析.2016年Jia-Chen Hua等[17]人利用Koopman模式分析解釋了股票市場的四個未知的周期變化. 2020年史建楠等[18]人將DMD模型與長短期記憶神經網絡(LSTM)融合,針對特定唯一股票實現更高的價格預測精度.Xgboost(Extreme Gradient Boost)算法是一種集成學習算法,2019年[19]史佳琪等人實證證明了多模型融合的集成學習具有更高地預測效果.2020年陳振宇[20]等人對滬深300股指期貨1分鐘高頻數據進行研究發現處理經濟數據時,Xgboost預測能力優于傳統的神經網絡.

實證中,本文選擇了2019年9月1日~2021年9月1日期間電子商務平臺概念股日交易數據.近些年來,電子商務的普及吸引了大量學者的注意力,2013年黃海龍[21]研究了電商平臺的形成背景分析并總結了互聯網的金融模式,2014年徐潔[22]等人分析了互聯網金融和新型融資之間的重要聯系,2014年王達[23]從網格經濟學視角對中美互聯網金融進行比對并提出深入研究電子商務的意義,2015年張江洋[24]等人探索了電子商務金融模式的特殊交易市場,2017年邵弘強[25]分析了電子商務對特定領域的對策研究,2019年劉航[26]等人基于數字經濟的健康發展詳細闡述了電商互聯網與數字經濟的重要理論分析并提出一系列政策建議.電子商務的重視程度愈來愈高,由此本文為研究結果的普適性和合理性,引入電商概念股,以一類數據的形式進行實證研究,并提出合理化建議.

本文創新點為:1)對一類數據進行歸納總結,通過學科交融模型的優勢,消除了量化交易中人為因素的干預,使得機器學習模型得到最好效果;2)通過模型驗證,可以有效地挖掘股票市場信息,這對量化投資的技術預測提供了新思路,也為非線性高維數據的預測模型提供改進方案;3)將電商與大數據時代相連接,利用技術手段對龐大數據集進行專業化處理,凸顯價值規律,對行業發展和社會信息化建設提供有力支撐.

1 相關概念及方法

本文將基于DMD模型和Xgboost的融合對近三年電商領域股市進行分析預測并提出一種新型時間序列量化交易模型.

1.1 特征分解模型—DMD

DMD算法是基于Koopman算子的特征分解算法,其主要功能是針對非線性時間序列數據,創新地將基于時間的功率譜分析和基于空間的主成分分析合二為一,最終產出系統當前時刻的重構數據以及未來時態的預測數據.設x1,x2,…,xM是原始數據中M個時間序列截面數據,每個時間序列截面數據包含N個樣本,記N×M矩陣X=[x1,x2,x3,…,xM]為數據集X.在Koopman算子的影響下,存在矩陣A使得系統下一時刻數據和上一時刻的數據產生關聯,也就是xt+1=A·xt,受到Krylov的思想啟發,將原始數據寫成如下形式:

(1)

1.2 機器學習模型—Xgboost

2016年陳天奇[29]提出了Xgboost算法,從而開啟智能化學習時代,相比于傳統的梯度提升樹,Xgboost具有如下優點:1)支持自定義代價函數,可被展開至二階使得更多的信息得到保留;2)L2正則化的引入可以降低模型的復雜性,避免過擬合;3)借鑒隨機森林中列抽樣的優勢,在減少計算量方面更勝一籌;4)在缺失值處理上有自己獨特的劃分,減少了數據預處理工作量;5)支持多線程并行;6)高速緩存壓縮算法和每輪迭代交叉驗證的加入提升了模型的效率.

利用上一節的DMD模型進行特征分解并重構原數據,直至重構數據的|D2-D|近似為時認為e-6重構數據具有代表性,由此得到具有價值的影響指標,并將處理后數據列入Xgboost模型進行運算.

具體設計原理如下:

Step 1:構建目標函數

(2)

(3)

由于模型采用加法訓練,即t時刻的預測=t-1時刻的預測+t時刻的函數值,公式為

(4)

Step 2:利用泰勒展示求近似值

Ω(ft)

(5)

Step 3:重新定義樹

用葉子得分定義樹,每個樣本落在一個葉子結點上,qx表示樣本x在某一個葉子結點上,則該節點得分為

ft(x)=Wq(x)

(6)

Step 4:更新目標函數

用每一個葉子節點得分重新組合目標,記Ij={i|q(xi)=j}得到

(7)

(8)

計算最優函數值

(9)

2 模型設計

2.1 數據的收集

1)電商平臺下的概念股.概念股表示的是一類具有很強的投資者共識和廣告效應的股票集合,本文設計了電商平臺下的概念股系統,包括電商、電子支付、物流三類關鍵詞并進一步細分從而界定所涉及的概念行業.自2019年以來,電商平臺隨著“線上消費”升級轉型,也迎來了自己的挑戰與機遇,其中“直播電商”進入爆發期.

2)數據來源.因此本文選取國泰安CSMAR 2019年9月1日~2021年9月1日期間電商平臺概念股日交易數據,剔除缺失數據及ST企業.保證了數據的真實性、有效性和完整性.

2.2 DMD特征提取

DMD算法能應用于股票系統,主要是由于股票系統存在的復雜性和高維離散非線性性質,Koopman方法能夠將非線性系統升為到一個線性維度空間下,在保證不會損失信息的前提下,對該復雜系統進行全局線性化.DMD算法作為目前應用最廣泛的Koopman算子的近似算法,能夠捕捉股市價格變化的模態特征和潛在行為模式.

2.3 Xgboost模型預測

由于DMD算法需要更具實際情況人為選擇基函數,模型的結果很容易受到主觀因素的限制,故單一使用DMD算法缺乏客觀依據.故本文選擇在DMD算法提取特征后,利用更為精確的Xgboost模型,避免了人為因素的干擾,使得結果更加具有說服性.

2.4 評價指標體系建立

對預測效果進行度量的時候本文選取均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)作為衡量標準,RMSE為均方誤差的平方根,MAE描述觀測值與真實值誤差絕對值的平均數,當RMSE數值較小時,模型的精確度較高,但是RMSE受異常值影響明顯,所以輔以MAE值,保證預測更準確.

其公式如下:

(10)

(11)

3 實驗及結果分析

本文對電商概念股所收集的指標數據進行分析預測,首先針對每個指標提取DMD特征,在模態分解完成后可以獲取概念股系統中的動態模態,以特征值uk表示.uk分解對應股票市場模態下包含信息的多少,由此在DMD分解當中得到的第一個特征值u1起到決定性作用,稱為決定特征,其包括了絕大多數的模態信息.

本文利用Matlab將特征值畫在單位圓區域上,當特征值落在單位圓外部時,表示該指標有日益顯著趨勢,反之,如果特征值落在單位圓內部時,表示該指標的影響力越來越低.此外,有部分特征值存在沒有虛部的情況,此時這類指標的變化是較為顯著的,也是股票市場的變化主要因素.本文為了進一步研究DMD-Xgboost方法的應用效果,配合計算需求,將電商概念股數據集分為訓練集、測試集和驗證集.實驗結果處理如下:

在處理器中DMD分解得到特征階段,得到如下變化規律,決定模態總體圍繞0進行波動,當數值超過0或者低于0時意味著該指標具有不穩定性.

圖1為特征值傅里葉變換值在復平面中的數值分布圖,圖1中橫坐標為特征值實數部分,縱坐標表示特征值虛數部分,橫坐標為正數時表示該指標呈現上升趨勢,當橫坐標為負數時呈現下降趨勢;縱坐標絕對值越大表示波動情況越明顯,縱坐標絕對值越小表示指標越穩定.接著本文利用直方圖展示波動規律,特征值虛部在0~1之間的約20個;虛部在1~2之間的約23個;虛部在2~3之間的約20個;虛部在3~4之間的約3個.這表示多數指標呈現為弱波動態或趨于穩定態,而發生明顯波動的少于全體的5%,符合股票交易市場普遍情況和篩選指標的影響力作用條件.由此我們可以找到波動頻繁的指標進行重點分析并重構歷史數據,從而找到內在規律.

圖1 特征值數值分布圖(增長率-頻率)Figure 1 Distribution of eigenvalue values (growth rate-frequency)

下面以歸一化的000150為例,展示本文算法的預測過程.

Step 1:利用DMD模型進行特征分解并重構原數據,直至重構數據的|D2-D|近似為e-6時認為重構數據具有代表性,由此得到影響指標.

由圖2可以看出,圖中特征值的復平面分布圓上基本呈現為上下對稱,符合特征值共軛對稱的性質.其中分布圓內的點顯示收斂狀態,表示隨著時間的演變,其影響力在不斷減小,而分布在圓外的點起影響力在不斷增加.特殊地,在Lm(wt3)=Lm(wt6)=Lm(wt593)=Lm(wt645)=Lm(wt707)=0,這些點分布在復平面圓的橫向對稱軸上,分別對應了兩個收斂態,一個平穩態和兩個增加態.

圖2 矩陣A的特征根分布復平面圓Figure 2 Complex plane circle of eigenroot distribution of matrix A

圖3展示各個模態的形態以及在利用DMD方法得到的非線性數據混合信號分離展示.

圖3 模態分布圖Figure 3 Modal distribution diagram

通過對比發現,原始數據模態還原程度較好,在一定程度上三種模態進行概括,為下面Xgboost方法的使用提供了降維鋪墊.由于隨機高頻噪聲的加入,在細節中看出與原始數據存在微小差異,由此計算偏差熱力圖,數據符合|D2-D|

Step 2:利用Xgboost對概念股數據進行預測

首先將數據集按照60%、20%、20%的比例拆分為訓練集、測試集、驗證集.通過訓練,將模型回測檢驗得到RMSE值為0.053 187 061 806 792 86.

通過計算RMSE對實驗結果的合理性進行評估,其值越小表示模型越精確,擬合效果越好,本文試驗得到結果為RMSE=0.117 176 517 115 127 64,具有可信度.見圖4.

圖4 模型回測及預測圖Figure 4 Model backtest and prediction graph

Step 3:實驗對比與分析

本文在電商概念股中,比對本文融合模型實驗結果、單一DMD結果、單一Xgboost結果、常規常用方法的預測準確率如表1、2所示.

表1 DMD-Xgboost方法與其他機器學習方法預測效果比較Table 1 Comparison of prediction effectiveness between DMD-Xgboost method and other machine learning methods

表2 DMD-Xgboost方法對比其他機器學習方法提高率Table 2 Improvement rate of DMD-Xgboost method compared with other machine learning methods

由此可見,本文方法的預測結果較其他機器學習方法均有一定程度提升.

4 結 語

數據預測模型主要是根據提供的數據進行預測得到不同的結果,再通過不同的結果進行決策,如何合理運用機器學習相關知識加以創新去解決金融數據的分析預測以及提供金融投資領域的決策建議,是最近幾年學者們廣為熱議和積極研討的問題.本文選擇將電商平臺數據整理為概念股,運用DMD和Xgboost的方法對電商概念股數據進行分析和預測,并且系統地比較了這些算法的分別預測效果和融合模型的預測效果,最后將結果和單一DMD、單一Xgboost以及相關傳統機器學習算法進行對比,凸顯了融合模型具有更好的預測能力,由此得出以下結論:

1) 從數據上分析,改變了以往從宏觀上處理數據忽視數據內部規律的弊端,從金融數據本身規律入手,引入概念股并對這一類股票數據進行模態分析,用DMD算法消除量化交易中人為因素的主觀性,通過將Ritz特征值判斷模型的趨勢,從而找出最具影響力的指標,作為Xgboost模型的輸入指標,避免了機器學習對非線性市場信息的不敏感性.

2)從模型上對比,五種方法的對比預測結果通過建立的評價指標體系體現,可以明顯看出,融合模型的預測效果優于其他方法,強有力地證明了DMD-Xgboost方法在金融數據分析及金融投資領域的有效性.

3)由于股票市場的復雜非線性,很多信息的累計都沒有達到閾值的時候,很難使得機器學習模型對其做出反饋,這就導致資產價格預測產生有偏估計和截斷誤差,所以在數據選擇上本文選擇一類數據簇去構造特征工程,避免了單一股的隱形趨勢被忽略.與此同時,相較于傳統的模型加權融合,本文選擇對每個模型各取所長,實現預測結果的突破.

4)隨著大數據時代的融合革新,電子商務潮的推進也逐漸技術化和專業化,相較于傳統模式,大數據技術可以幫助人們收集更加全面完整且有效的信息,做出更加合理的決策.面對如今電子商務大數據化愈加強烈的趨勢,有效數據的提取往往受到數據量的限制,如何在更少數據中更加敏銳且及時地提取更有效的信息以及如何尋找最佳投資周期值得下一步重點研究.研究電商平臺股市趨勢也有助于擴大人的自主選擇權、拓展“產業網絡”以及滿足了不同人群的價值需求,為推進“互聯網+”的國家行動計劃,促進電商和其他行業的融合創造良好的社會環境.通過本文的模型分析,可以對現階段的網絡電商提出合理化建議.首先是做好數字化資源的收集和整理,便于更廣泛人群了解并深入;其次是降低電商“距離感”,增加產品豐富度;最后是要引入深度學習技術,精準定位,滿足用戶個性化和動態化的需求.

猜你喜歡
特征值模態電商
電商助力“種得好”也“賣得火”
一類帶強制位勢的p-Laplace特征值問題
單圈圖關聯矩陣的特征值
電商贏了,經濟輸了
電商鄙視鏈中的拼多多
國內多模態教學研究回顧與展望
基于商奇異值分解的一類二次特征值反問題
基于HHT和Prony算法的電力系統低頻振蕩模態識別
電商下鄉潮
關于兩個M-矩陣Hadamard積的特征值的新估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合