融合新聞影響力衰減的碳價格多元分解集成預測

2024-02-06 03:47張大斌黃均杰凌立文胡煥玲

河南科技大學學報(自然科學版) 2024年1期

張大斌,黃均杰,凌立文,胡煥玲

(華南農業大學數學與信息學院,廣東廣州 510642)

0 引言

碳交易是中國實現“雙碳”目標的重要舉措,其作為強而有力的碳排放控制機制,通過碳排放權的流轉形成碳價格[1]。碳價格受到政策、能源和社會事件的影響,且數據具有非線性的復雜特征,導致準確預測碳價格十分困難,因此眾多學者致力于碳價格預測研究。準確預測碳價格,有助于政府制定合理的交易機制,以及幫助市場參與者制定投資決策[2]。

隨著大數據和信息技術的發展,將與碳價格相關的大量新聞信息獲取、分析、量化為時間序列,并與碳價格融合進行預測,有助于提升預測精度。已有研究利用新聞來構建與氣候相關的變量,預測湖北和廣東碳價格[3];結合在線新聞數據和谷歌趨勢非結構化數據預測碳價格[4];通過在線新聞文本挖掘投資者關注碳市場的關鍵詞,構建基于顆粒群優化的長短期記憶神經網絡碳價格預測模型[5]。新聞具有實時性和影響力,融合新聞數據提供了更全面的信息來源,有助于揭示碳價格的變化趨勢。但在實際情況中,新聞對碳價格的影響通常不僅限于當天,而是在未來一段時間內產生持續的影響[6]。文獻[7]引入霍克斯過程來估計財經新聞的時間衰減影響。文獻[8]量化新聞文本中的情感信息,發現新聞對公眾情緒的影響呈指數衰減。新聞中表達的觀點可以向公眾傳達碳市場多方面的信息和意見,融合新聞影響力衰減可以更好地反映新聞信息的累積效應,提供更全面的信息,有利于提高預測精度,對碳價格預測具有重要啟發。

雖然引入新聞文本數據可以增加預測的信息量,但由于數據本身的復雜性,預測變得更加困難。文獻[9]創新性提出 TEI@I方法論,強調“先分解后集成”的思想,將原始時間序列分解為具有不同特征的分量,再分別進行預測,集成得到預測結果。常用的單變量分解方法,例如經驗模態分解(empirical mode decomposition,EMD)在分解多元數據時,需要對各通道數據逐一分解,不適用于多元數據同時分解。文獻[10]使用多元經驗模態分解(multivariate empirical mode decomposition,MEMD)技術同時分解澳大利亞日度電力峰值負荷和氣象。文獻[11]實現了1種新的多元變分模態分解策略進行碳價格預測,同時將多個高度非線性和非平穩變量分解為包含相對規則的本征模態變量(intrinsic mode function,IMF)。研究結果表明,通過多元分解方法可以同時考慮多種因素之間的相互影響,更好地揭示數據的內在規律,從而提高預測性能。

鑒于上述新聞影響力衰減的量化問題,以及碳價格和新聞的多元分解對分析其相互關系和提高預測精度的重要性,本文提出了1種融合新聞影響力衰減的碳價格多元分解集成預測模型,并以中國湖北碳價格為例進行實證分析。本文研究貢獻主要體現在以下兩點:一是對碳交易相關新聞進行過詞頻統計和指數衰減,將衰減后的新聞影響力與碳價格數據融合進行預測,顯著提高預測精度。二是針對單獨分解在處理多元數據的局限性,采用噪聲輔助多元經驗模態分解(noise assisted multivariate empirical mode decomposition,NAMEMD)同時分解碳價格和新聞多元數據,保證了不同通道分量的個數和頻率尺度匹配,為碳價格預測建模提供新思路。

1 研究方法

1.1 新聞影響力量化方法

1.1.1 新聞文本關鍵詞詞頻統計

新聞關鍵詞的詞頻統計,是指對新聞文本進行關鍵詞提取,并計算特定關鍵詞在每則新聞文本出現的次數,以量化新聞影響力。這種關鍵詞詞頻統計方法能夠展示新聞的熱門話題,更全面地理解和分析新聞信息。本研究所使用的碳交易相關新聞數據來源于碳排放交易門戶網站,運用中科院NLPIR中文分詞系統[12]對所有新聞文本進行分詞、關鍵詞提取,選出與碳價格相關的詞頻前5的關鍵詞:碳交易、碳市場、碳排放、減排、碳配額。通過對每日新聞文本中包含特定關鍵詞的詞頻進行頻次統計,該詞頻值的大小反映了當天新聞的影響力大小,揭示了關鍵詞在新聞中的重要性和影響力。

1.1.2 新聞影響力衰減方程構建

本文致力于構建新聞影響力衰減方程,以更準確地描述新聞對碳價格的影響隨時間的衰減過程。在現實情況下,新聞報道的影響力不會持續保持不變,隨著時間的推移,其影響逐漸減弱。參照文獻[13]關于網絡新聞呈現指數衰減的研究和物理學的牛頓冷卻定律[14],本文假設新聞影響力隨著時間的推移以指數形式逐漸衰減,定義新聞影響力指數衰減方程[6]的公式如下:

N′(t)=-αN(t)。

(1)

求導N(t)的函數表達式:

(2)

根據lnx的導數為1/x,得到:

lnN(t)=-αt+c。

(3)

求解可得:

N(t)=Nte-αt,

(4)

其中:N(t)為衰減函數,即N在t時刻的新聞影響力衰減值;t為時間,t=0時,N(0)=Nt為初始時間單位新聞影響力產生的影響;α為衰減指數,其值大于0;e-αt為衰減系數。

(5)

1.2 多元分解與重構方法

多元數據通常包含多個維度的信息,具有復雜的關聯和交互作用,導致預測建模變得困難。對時間序列進行分解可以降低復雜度,提高預測準確性[16]。針對多元數據,通過多元分解和重構,從中提取數據特征和分析數據模式,可以降低時間序列復雜性,提高預測性能。

1.2.1 噪聲輔助多元經驗模態分解

EMD方法適用于單變量時間序列,針對多元數據,文獻[17]對EMD進行改進,提出了MEMD,但存在模態混淆現象導致預測誤差較大。為了減少原始數據和重建信號之間的偏差,文獻[18]提出NAMEMD算法,它在MEMD基礎上,添加了高斯白噪聲,與多元輸入數據同時分解,以同步分析多維信號,有效避免IMF中的模態混疊問題,具體方法如下:

(6)

(Ⅵ)通過h(t)=v(t)-m(t)提取中間分量h(t),若h(t)滿足終止條件即成為多元IMF,否則將v(t)-h(t)作為新的輸入信號,重復(Ⅱ)～(Ⅵ)步;

(Ⅶ)減去噪聲對應的m維分量,得到原始信號X(t)的Q個多元IMF和殘差Res(t):

(7)

1.2.2 樣本熵重構

樣本熵理論以可以衡量時間序列的復雜性[19],序列越復雜,樣本熵值越大;若序列越簡單,其值越小。樣本熵的計算步驟[20]如下:

(Ⅰ)將原始時間序列y(t)重構成d維的向量序列yd(i)={y(i),y(i+1),…,y(i+d-1)},其中i=1,2,…,N-d+1。

(Ⅱ)定義向量yd(i)和yd(j)之間的距離Dij,為兩者對應元素中差值最大的1個,即

Dij=max|y(i+k)-y(j+k)|。

(8)

(9)

(Ⅳ)將維數d加1,重復(Ⅰ)～(Ⅲ)步,計算得到Bd+1(r),序列的理論樣本熵為:

(10)

1.3 預測與評價方法

1.3.1 預測方法

本文采用支持向量回歸(support vector regression,SVR)、極限學習機(extreme learning machine,ELM)、長短期記憶網絡(long short-term memory,LSTM)和多層感知機(multi-layer perceptron,MLP)機器學習模型,4種模型包含了基于支持向量機的回歸模型、單層和多層神經網絡以及深度循環神經網絡模型,在機器學習領域具有一定的代表性,在預測系統、圖像處理等多個領域得到了廣泛的應用[21]。

其中SVR是基于支持向量機的回歸模型,其原理是將非線性的問題轉化為線性問題,通過核函數將數據映射到高維特征空間,從而使數據在特征空間中線性可分,然后,在特征空間中尋找最優的超平面,使得距離該超平面最近的樣本點到該超平面的距離最大化來實現回歸[2];ELM是一種單隱層前饋神經網絡模型,其主要思想是隨機初始化輸入層與隱層之間的權重和偏置,然后將訓練數據輸入到網絡中,通過線性學習算法快速地計算隱層輸出權值矩陣和輸出層權重。隱層的權重和偏置是隨機初始化的,因此不需要進行迭代學習,可以快速地得到模型的參數;LSTM是一種特殊的循環神經網絡,其核心是通過引入門控機制,實現記憶和遺忘的功能,控制信息的流動和保存,有效地捕獲和記憶長期依賴關系。在訓練過程中,使用反向傳播算法計算誤差,并更新模型參數[11];MLP是一種基于反向傳播算法的多層前向神經網絡。其核心是通過多個神經元的嵌套,形成多個隱層,實現非線性映射。在訓練過程中,反向傳播算法可以計算每個神經元的誤差,并將誤差反向傳播到前面的神經元中,從而調整每個神經元的權重和偏置值,能夠處理更復雜的非線性關系[22]。

1.3.2 評價準則

為了評價模型的預測能力,本文采用常用的4種評價指標:平均絕對誤差(mean absolute error,MAE),均方根誤差(root mean square error,RMSE),平均絕對百分比誤差(mean absolute percentage error,MAPE)和決定系數(R-squared)以綜合評判模型的預測效果。相關計算公式如下:

(11)

(12)

(13)

(14)

2 模型構建

本文考慮新聞數據對碳價格的影響,設計了新聞影響力衰減的時間序列計算方法,提出了融合新聞影響力衰減的碳價格多元分解集成預測模型,框架如圖1所示。具體步驟如下:

圖1 預測框架圖

第1步:數據采集和預處理。獲取湖北碳價格和新聞文本數據,通過統計新聞文本關鍵詞的詞頻以量化新聞影響力,基于指數衰減方程計算得到新聞影響力衰減時間序列。

第2步:時間序列分解。運用噪聲輔助多元經驗模態分解方法NAMEMD對碳價格和新聞序列同時進行分解,得到分解結果。

第3步:樣本數據集重構。由于分解所得序列具有不同時間尺度,基于樣本熵理論重構各序列分解結果,得到碳價格和新聞的高頻、低頻和趨勢項。

第4步:碳價格預測。將碳價格和新聞的高頻、低頻和趨勢項作為SVR、ELM、LSTM和MLP預測模型的輸入,對碳價格進行預測,并通過加和集成得到最終結果。

第5步:模型驗證。本文提出的模型與未考慮新聞衰減的碳價格歷史時間序列和未考慮多元分解的碳價格和新聞時間序列的預測結果進行對比,通過4種評價指標驗證了所提模型的有效性。

3 實證分析

3.1 數據來源

全國八大碳排放權交易試點市場的交易情況如表1所示,截至2023年2月17日,8大碳市場開市至今累計成交總量300 438 084噸。湖北碳市場成交量占比29.54%,湖北作為成交量最大的試點市場,市場交易機制成熟,交易量和成交額都占據了較大份額,市場化程度高。因此,本文通過湖北碳排放權交易中心(http://www.hbets.cn),選取2014年4月2日至2022年10月12日的湖北碳交易現貨日度收盤價1 812個數據進行研究分析,訓練集和測試集的劃分比例為8∶2。

表1 全國碳交易市場現貨交易情況

碳交易新聞文本數據來源于中國碳排放交易專門網站(http://www.tanpaifang.com),該網站的碳交易新聞文章主要來源:新華網、中國證券報、第一財經和中國能源報等,日期范圍與碳價格數據的日期范圍相同。

3.2 數據預處理

本文的新聞文本數據預測處理主要包含詞頻統計和指數衰減2個部分,其中,詞頻統計方法通過對關鍵詞進行數量統計來實現分析,具體步驟如下:

第1步:數據檢索。從碳排放交易專門網站獲取碳交易新聞文本信息。

第2步:文本數據預處理。對獲取的新聞正文文本內容進行預處理,主要包括數據清洗、分詞、停用詞過濾、標記化。

第3步:關鍵詞提取和詞頻統計。使用中科院NLPIR中文分詞系統對新聞文本進行關鍵詞提取,選出與碳交易相關的詞頻前5的關鍵詞:碳交易、碳市場、碳排放、減排、碳配額。統計新聞文本中含有這5個關鍵詞的詞頻以量化新聞影響力,得到新聞文本特征。

第4步:數據可視化。新聞關鍵詞通過創建詞云來可視化數據,詞云圖如圖2所示,該詞云根據術語頻率顯示最重要的單詞和短語,直觀地呈現了主題信息。

圖2 詞云圖

在指數衰減處理部分,本文對于當天沒有新聞數據的詞頻,記為0;對于當天出現多條新聞的情況,計算其詞頻平均值以量化新聞影響力。新聞影響力以指數函數的形式隨著時間推移逐漸減弱,經過本文設計的新聞影響力衰減方程計算后,得到每日連續的新聞影響力衰減時間序列,該時間序列的每日數據反映了當日以及前7天的新聞數據共同產生的影響。計算新聞影響力衰減時間序列,提供了更加全面的視角來捕捉新聞對碳價格的影響,有利于準確地預測未來的碳價格走勢。

3.3 數據映射

數據映射是構建數據集的基礎,將新聞影響力衰減數據與湖北碳價格數據的日期進行對應,并進行歸一化處理。本文構建了2014年4月2日至2022年10月12日的碳價格時間序列和新聞影響力時間序列的數據樣本,如圖3所示,新聞影響力衰減時間序列與碳價格序列的走勢呈現更明顯的關聯。為衡量碳價格和新聞的相互依賴程度,計算兩者的互信息,互信息值越大,說明碳價格和新聞的關系越密切[23]。原始的新聞時間序列與碳價格序列的互信息值為0.564,增加指數衰減后的互信息值為0.832,表明指數衰減時間序列與碳價格時間序列之間的相關性較大,指數衰減影響力計算方法的有效性和可行性。

圖3 碳價格、新聞影響力和新聞影響力衰減時間序列

3.4 分解集成預測

由于碳價格和新聞數據在時間序列上呈現出非線性和高噪聲等特征,為了更準確地預測碳價格,并分析碳價格波動特征的內在模式,首先,采用NAMEMD方法同時分解湖北碳價格與新聞影響力衰減時間序列,分別得到碳價格和新聞的10個IMF分量和1個Res(t)殘差。

其次,計算碳價格和新聞每個分量的樣本熵值,結果如圖4所示,由于分量越多,累計誤差越大,可能導致整體預測精度降低,因此將IMF進行重構,可以提高建模速度和預測精度[24]。結果顯示碳價格和新聞的前6個IMF分量的樣本熵值都超過其他IMF的值,波動劇烈且沒有明顯的趨勢,將IMF1～6重構為高頻項。相比之下,最后兩個分量的樣本熵值遠遠低于其他分量,具有明顯的趨勢,較好刻畫了原始序列的波動,重構為趨勢項(IMF10～11),其余部分重構得到低頻項(IMF7～9),碳價格和新聞分量重構序列如圖5所示,重構后的IMF變化趨勢更明顯,便于進一步提取各IMF的波動特征,更好地訓練預測模型[25]。

圖4 分量樣本熵值折線圖

圖5 碳價格和新聞分量重構序列圖

最后,運用SVR、ELM、LSTM和MLP預測模型,分別對碳價格單變量時間序列、融合新聞影響力的碳價格時間序列、融合新聞影響力衰減的碳價格時間序列和融合新聞影響力衰減的碳價格多元分解重構時間序列4組方案進行預測,并通過線性集成得到最終預測結果。為了評價模型的預測能力,本文采用了常用的4種評價指標,包括平均絕對誤差(MAE),均方根誤差(RMSE),平均絕對百分比誤差(MAPE)和決定系數(R2)。

3.5 實驗結果與分析

本文設計了4組實驗方案以充分驗證融合新聞影響力衰減的碳價格多元分解集成預測方法的可行性與有效性,獲得的預測誤差結果對比如表2所示,黑色加粗為最優結果,將MAPE和R2評判標準以柱狀圖展示,如圖6和圖7所示。

表2 不同方案的預測誤差結果對比

圖6 評判標準MAPE柱狀圖

圖7 評判標準R2柱狀圖

(Ⅰ)單模型對比實驗

為驗證本文所用的MLP模型相較于其他模型在預測性能方面的優越性,本文將MLP與SVR、ELM和LSTM模型的預測效果進行對比。通過對比表2中的第1組實驗方案結果,可以看出MLP模型在預測誤差值MAE和MAPE方面表現最佳,分別為1.106和2.85%,這是由于MLP模型具有較強的非線性建模能力,可以通過多層神經元的組合實現非常復雜的非線性映射關系,從而更好地擬合真實數據的分布。相比之下,SVR是基于核函數實現的非線性回歸算法,在處理復雜數據時可能無法有效地捕捉其非線性關系;ELM預測性能高度依賴于隨機初始化的權重,可能在不同的初始化下產生不同的結果,導致模型的穩定性較差;而LSTM則在處理長期依賴關系序列具有相關優勢,但引入了許多門控單元和記憶單元,增加了計算量和訓練時間。

(Ⅱ)融合新聞數據對比實驗

為驗證本文提出的融合新聞數據對碳價格預測相較于只考慮碳價格歷史數據的優越性,本文考慮融合碳交易新聞的非結構化數據對碳價格的影響,通過引入新聞文本進行特征提取,統計與碳交易相關的詞頻前5的關鍵詞詞頻以量化新聞影響力,挖掘其對碳交易價格預測的信息增量價值。第2組實驗方案中,與只考慮碳價格的預測模型進行對比,融合了新聞文本數據的碳價格預測誤差指標值均小于僅使用碳價格的預測誤差,其中ELM和MLP模型的RMSE值分別降低了17.65%和8.53%,實證分析表明,本文所提出的融合新聞影響力的碳價格預測模型有利于提升碳價格的預測準確性,為碳市場的分析和決策提供了有效的參考價值。

(Ⅲ)新聞影響力衰減策略對比實驗

為驗證新聞影響力指數衰減策略相較于未考慮衰減處理的優越性,本文基于詞頻統計和指數衰減提出了1種碳新聞影響力指數衰減序列的量化方法,通過將新聞影響力進行指數衰減處理,發現指數衰減后的新聞影響力與碳價格數據呈現更高的相關性,其互信息值由0.564提升至0.832,這表明指數衰減策略對于提升新聞影響力與碳價格之間的關聯性具有積極的影響。在實驗中,將第2組和第3組實驗方案進行對比,其中第3組實驗方案考慮了指數衰減的新聞影響力時間序列,而第2組則未進行指數衰減處理。實驗結果顯示:在所有指標上,第3組方案增加了指數衰減的預測精度均優于第2組方案模型,證實了指數衰減策略不僅提高了新聞影響力與碳價格之間的相關性,還驗證了融合新聞影響力指數衰減時間序列對提升碳價格預測精度的有效性。

(Ⅳ)多元分解集成策略對比實驗

為驗證“多元分解-集成”預測方法的有效性,本文將經過多元分解處理的融合新聞影響力衰減的碳價格預測模型與未進行分解的模型預測效果進行對比。經過NAMEMD分解處理后的預測模型表現更好,第4組實驗的模型預測誤差均小于第3組未考慮分解的模型,且R2有所提升,其中融合新聞影響力衰減的碳價格NAMEMD-MLP模型的預測性能最優。碳價格和新聞多元數據,其內在的規律比較復雜,采用NAMEMD分解方法能夠自適應地將非平穩、非線性的多元數據進行平穩化處理,保證了不同通道分量的個數和頻率尺度上都匹配,實驗結果表明“多元分解-集成”策略可以提高預測精度和模型擬合度。

3.6 DM檢驗

為了進一步判斷所提模型在預測性能是否有顯著性差異,采用DM統計量[2]進行檢驗。DM檢驗的原假設是預測模型在預測性能上無顯著差別,DM統計量的定義為:

(15)

本文采用第4組方案和第1組方案的不同模型進行單側DM檢驗,來判斷第4組方案融合新聞影響力衰減的碳價格多元分解集成預測模型是否比第1組方案碳價格單變量預測模型具有顯著優越性。DM檢驗結果見表3,第4組方案在1%或10%的顯著性水平下均拒絕原假設,即與第1組方案碳價格單變量預測顯著不同并優于第1組方案,進一步證明了本文所提融合新聞影響力衰減的碳價格多元分解集成預測模型具有顯著優勢。

表3 DM檢驗結果

4 結論與展望

(1)構建了1種融合新聞影響力衰減的碳價格多元分解集成預測模型,不僅克服了缺乏對其他影響因素的考慮,導致預測結果存在一定滯后性的問題,還規避了單變量分解方法無法捕捉多變量聯合影響的固有缺陷。相較于未考慮新聞影響力衰減以及多元分解集成的模型,融合新聞影響力衰減的碳價格多元分解集成預測模型有效地提高了碳價格的預測準確性,表現出優異且穩定的預測性能。

(2)新聞數據主題提供了與碳價格密切相關的信息,對碳價格預測精度提升有重要影響。經過指數衰減的新聞影響力數據與碳價格數據的相關性更高,新聞指數衰減方法提供了1種量化新聞影響力的重要手段。指數衰減考慮了不同時間點的新聞對碳價格的影響力遞減情況,更準確地反映了新聞對碳價格的短期影響,為碳價格預測提供更多有效的信息,提高了對碳交易價格變動的解釋性和碳價格的預測精度。

(3)基于NAMEMD分解集成策略能夠自適應地將非平穩、非線性的多元數據進行平穩化處理,這對于處理復雜性的碳價格和新聞數據具有重要意義。NAMEMD分解得到的每個分量具有不同的時間尺度和振幅特征,充分提取各分量特征將數據進行重構,從而減少了累計預測誤差,對整體預測精度有明顯提升。

本文提出的融合新聞影響力衰減的碳價格多元分解集成預測研究模型,能有效提高預測精度,為碳價格預測提供新思路。另外,本研究未來還可以嘗試在模型中加入更多與碳價格相關的政策和經濟等影響因素,以進一步提升模型的預測性能。并且進一步探索本文方法是否能應用于其他領域的數據預測,以提高方法的通用性。