?

基于時序分解和隨機森林的時間序列多步預測算法

2024-01-05 12:42文家璇
關鍵詞:模態建模精度

文家璇, 王 苗, 劉 濟

(華東理工大學信息科學與工程學院, 上海 200237)

由于事物發展的影響因素不明確或者數據采集困難,許多預測問題演變為單變量時間序列預測問題,即從過去的時序數據中挖掘其自身內在的規律,從而對其未來發展趨勢進行預測[1]。本文考慮此類單變量時間序列的多步預測問題,例如國際原油價格預測、維修備件需求預測、政府負債率預測、氣象風速預測等。

時間序列預測模型有統計學預測模型、機器學習和深度學習預測模型、混合預測模型三大類。經典的統計學時間序列預測模型常見的有指數平滑法[2]、移動平均自回歸[3](Auto Regressive Integrated Moving Average,ARIMA)等,適用于線性和平穩的時間序列預測。機器學習和深度學習算法是最近幾年被廣泛使用的時間序列預測方法,如支持向量機[4](Support Vector Machine,SVM)、長短期記憶神經網絡[5](Long Short-Term Memory,LSTM)、隨機森林[6](Random Forests,RF)等,具有模型構造靈活、適應性好、精度較高的優點。其中,RF 具有參數較少、泛化性能良好、實現較為簡單等更為良好的特性,被許多學者青睞。Fiona 等[7]利用衛星收集的氣象、植被等變量作為影響因子,建立了預測花粉濃度的RF 模型。Abul 等[8]利用RF 模型預測比特幣和黃金價格的方向,結果表明RF 模型的精度高于常用的logit 模型。RF 是一種集成學習算法,它構造若干性能不同的基學習器,再通過一定的策略進行集成,本文采用RF 算法建立時序分解后的各子序列預測模型。

基于模態分解的時間序列預測方法利用將復雜模態分解為較簡單模態進行預測更為容易的思想,它屬于混合預測模型的一種,目前有大量學者對此進行研究[5,9-13]。常見的時序分解方法有小波分解(Wavelet Transform,WT)、經驗模態分解(Empirical Mode Decomposition,EMD)和變分模態分解(Variational Modal Decomposition,VMD)等。VMD 方法由Dragomiretskiy 等[12]提出,可有效避免EMD 方法存在的模態混疊現象,并具有良好的噪聲魯棒性,被廣泛應用于時間序列預測研究中。Zhang 等[9]將VMD 和粒子群算法優化的支持向量機回歸結合,建立了短期電力負荷預測模型,并得到了精度較高的結果。Li 等[10]則是利用VMD 將原始負荷數據分解為不同的子模態,然后使用基于蚱蜢算法的最小二乘支持向量機模型預測每個子模態的結果,求和得到最后的預測結果,與其他方案相比,該算法取得了最優結果。本文提出采用VMD 方法對復雜時間序列進行分解,從而建立預測模型。

目前,時序分解預測算法存在3 個方面的問題:(1)VMD 算法中分解子序列個數K和懲罰因子α的取值對結果影響很大,大多數研究使用人工經驗取值,存在很大隨機性[14];(2)各子序列的模態特征各不相同,但現有研究仍然采用單一模型對不同子序列進行建模,沒有利用各模態的相異性進行針對性的處理,導致部分子序列預測精度高、部分子序列的特征卻沒有充分挖掘[4-5,13-14];(3)絕大多數文獻的時序分解是對所有歷史數據進行一次分解,再在各子序列劃分訓練集和測試集進行建模[14-16],這種思路在建模階段使用了測試集數據,實際應用時顯然是不可行的。

針對上述問題,本文提出一種新的基于VMD 分解的時間序列預測方法,首先采用遺傳算法對VMD 分解過程進行參數尋優,VMD 分解參數K和α隨時間序列不同而自適應變化。其次,針對各子序列模態特征的不同,使用RF 構造若干差異顯著的基學習器,對不同特征的子序列進行充分學習并建立較為準確的預測子模型。上述建模過程僅僅在原始數據的訓練集上完成,實際測試(或應用)時,每產生一個新的已知數據,將其添加到歷史數據末尾,重新進行VMD 分解和預測及重構,本文的這種實時分解預測思路能滿足實際應用需要。

1 相關基礎理論

1.1 VMD

VMD 是一種自適應非遞歸信號分解方法。它通過將輸入信號x(t) 分解為一組離散的準正交帶限模態子序列uk,將維納濾波器推廣到多個自適應頻帶,通過VMD 分解獲得的模態主要分布在中心頻率wk附近[17]。VMD 分解本質是一個變分優化問題,旨在最小化每種模態的帶寬,可表示為:

其中:uk(t) 表示第k個子模態,k=1,···,K;wk表示其中心頻率;x(t) 表示輸入信號; δ (t) 表示狄拉克δ函數;?t表示求時間梯度;j表示虛數單位; ? 表示卷積運算符。

為了求解式(1)的優化問題,通常引入二次懲罰因子和拉格朗日乘子來處理約束,可以得到增廣拉格朗日修正方程,

1.2 RF 算法

RF 算法是一種基于決策樹和隨機子空間理論的集成學習算法。其基本思想是構造若干性能不同的基學習器,并通過一定的策略組合基學習器的預測結果[18]。

其中:I(條件) 表示滿足條件,返回值為1;不滿足條件,返回值為0。

RF 這種隨機子空間的集成學習策略,對于本文研究的問題有較大優勢,由于使用VMD 分解得到的各個子序列具有顯著差異性,單一結構的預測模型難以適用于每個子序列,導致部分子序列預測精度高、部分子序列的特征卻沒有充分挖掘。而RF 框架下,每個序列模型都是由基于自身樣本和屬性擾動獲得的基學習器構成,有助于對不同特征的子序列進行充分學習并建立較為準確的預測模型。

2 VMD 的改進

由于VMD 的參數K和 α 對分解結果有較大的影響,本文引入排列熵(Permutation Entropy,PE)概念進行VMD 參數的優化,以獲得最優分解參數K和 α 。Bandt 等[19]于2002 年提出排列熵作為衡量時間序列復雜度的一種指標,因為熵本身反映的就是一種有序的程度,熵越小說明越有序,因此可以將序列的排列熵值作為對分解后子序列容易預測程度的一種度量。

其中: P E(uk(n)) 為第k個子序列uk(n) 的排列熵值。將適應度函數的最小值作為尋優目標,以期望獲得熵值最小、模態復雜度最低的子序列。

基于遺傳算法的變分模態分解算法(GA-VMD)流程如圖1 所示,對于每個參數K和 α 的個體,首先對原始時間序列進行VMD 分解,計算所得到的K個子序列的排列熵均值(PE 的計算可參考文獻[18])作為個體適應度,再進行遺傳操作獲得子代。該過程循環迭代,直到滿足終止條件(大于最大代數Gmax)。

圖1 基于遺傳算法的變分模態分解算法(GA-VMD)流程Fig.1 Flow of variational modal decomposition based on Genetic Algorithm (GA-VMD)

3 基于GA-VMD 和RF 的預測算法

3.1 實時分解策略

從已有文獻仿真研究可以發現,基于時間序列分解的預測建模往往是將全部時間序列數據進行一次分解,然后在每個子序列上劃分訓練集和測試集,用子序列訓練集數據建立預測子模型,再用子序列測試集數據逐個輸入預測子模型,檢驗模型的預測精度[14-16]。這種分解和建模策略存在不合理性,實際應用時測試數據是未知的待預測值,而一次分解策略將測試數據加入分解序列,分解過程已經預先學習了未來數據的特征,因此其最終預測精度很高,但實際上這樣的模型是沒有使用價值的。

本文針對一次分解策略存在的不合理和不實用問題,提出實時分解框架下的預測方法:對原始時間序列先行劃分訓練集和測試集,建模階段只對訓練集進行GA-VMD 分解,在每個子序列上訓練預測子模型;預測階段,每增加一個測試數據,將其添加到原始序列末尾,對新的序列進行GA-VMD 分解,再在每個子序列上用已建立的預測子模型進行實時預測。為了更清楚地對比一次分解和本文提出的實時分解策略,列出兩種策略的偽代碼如圖2 所示。

圖2 兩種分解策略偽代碼Fig.2 Pseudo code of two decomposition strategies

3.2 多步預測策略

時間序列多步預測常用的建模方法有迭代多步、多輸出多步和多模型多步預測[20]等。圖3 為3 種多步預測策略的對比圖。其中,m表示輸入序列長度,h表示預測步數,xn表示真實序列值, ︿xn+h表示預測值。

圖3 多步預測策略對比Fig.3 Comparison of multi-step prediction strategies

迭代多步預測方法使用上一時刻的預測值來預測下一時刻的值,因此預測誤差會累積,導致誤差隨預測步數增加急劇增大。多輸出多步預測方法一次性預測多個時間步的值,預測模型的輸出是多維的,模型結構簡單,但訓練出一個較為精確的模型存在較大困難。多模型多步預測方法對每個預測步分別建立預測模型,這樣既可以避免迭代多步的誤差累積,精度較高,又可以避免建立多輸出精確模型的困難,但是建模代價較高,耗時較長。

本文將對比討論3 種多步預測方法在基于時序分解的時間序列預測中的應用效果,以期得到一些一般性結論。

3.3 GA-VMD-RF 預測算法

綜合前幾節所述,基于實時分解、遺傳算法優化的變分模態分解和多模型多步預測等策略,本文提出的GA-VMD- RF 預測算法流程如圖4 所示。

圖4 VMD-GA-RF 預測算法流程圖Fig.4 Flow chart of VMD-GA-RF algorithm

歷史時間序列首先被劃分為訓練集 T A(n) 和測試集 T E(n) 。

(1)建模階段。僅在訓練集上(序列長度為NTA)進行GA-VMD 分解,得到K個最優子模態序列uk(n),k=1,···,K。利用RF 算法在每個子序列上進行預測模型訓練,建立各RF 子模型k,所建立的RF 子模型將在預測階段被使用。

(2)預測階段。首先設置測試樣本索引 count ,每獲得測試集 TE(n) 的一個樣本時,索引自動加1,分解時間序列長度也增加1。對已獲得的所有時序數據(序列長度為NTA+count )進行GA-VMD 分解,得到K個子序列uk(n),k=1,···,K。運用已建立的RF 子模型進行多步預測,然后重構求和各子模型的多步預測值,獲得最終的多步預測結果。預測隨時間遞進,每次預測當前時刻下的多步預測值,當下一個時刻到來時,前一時刻的真實值將被添加到原始序列末尾,參與到下一個時刻的多步預測。

4 實驗和分析

本文的實驗數據來自于科羅拉多山脈的美國國家風速觀測站[14]、UCI 數據網站和datahub 網站,數據 集1 為 美 聯 儲10 年 期(1953 年4 月 至2020 年1 月)美國政府債券的名義收益率的數據,數據集2 為歐洲布倫特原油價格自2017 年1 月1 日至2022 年6 月13 日的數據,數據集3 為科羅拉多山脈2022 年5 月10 日的風速數據,如圖5 所示。

圖5 數據集1~3Fig.5 Dataset 1—3

采用平均絕對誤差(MAE),平均百分比絕對誤差(MAPE) 和均方根誤差(RMSE) 對模型的預測結果進行評價,計算公式見式(7):

將本文提出的算法與單一預測模型SVM、LSTM及時序分解預測模型VMD-RF、GA-VMD-LSTM 預測模型進行對比,并且,每種算法都同時測試了多模型多步預測(記為“MM”)、迭代多步預測(記為“IT”)、多輸出多步預測(記為“MO”)。圖6~8 所示為多模型多步預測策略下的預測曲線,圖中灰色區域為真實值??梢钥闯?,所提出的GA-VMD-RF 算法在一步、二步及三步預測點上預測精度較高,且相比于各對比算法總體表現更穩定。雖然GA-VMDLSTM 算法也具有相當的預測精度,但是它的性能不夠穩定,在個別數據集如數據集2 上的預測精度不如GA-VMD-RF 算法。

圖6 數據集1 預測結果Fig.6 Prediction result of dataset 1

圖7 數據集2 預測結果Fig.7 Prediction result of dataset 2

圖8 數據集3 預測結果Fig.8 Predication result of dataset 3

為了更加清楚地定量對比各算法,將所有實驗結果的MAE、MAPE、RMSE 指標作圖,如圖9 所示。其中每種算法同顏色的三柱從左至右依次表示MM、IT、MO 的結果。

圖9 數據集1~3 預測誤差指標Fig.9 Predication error indicators of dataset 1~dataset 3

觀察圖9 可以發現:(1)對比單一預測模型算法SVM 和LSTM,所提出GA-VMD-RF 算法的MAE、MAPE 和RMSE 在數據集1~3 的預測步1~3 上均有顯著的下降,如數據集1~3 的預測步1~3 的MAPE平均降低了51.9%、47.5%、18.3%;31.1%、28.6%、18.7%和47.1%、37.3%、23.4%;(2)對比不經參數優化的VMD 分解預測算法VMD-RF,所提出GAVMD-RF 算法的MAE、MAPE、RMSE 3 個指標在數據集1~3 上平均降低了7.7%、8.1%、7.8%,說明GA優化的VMD 對于預測性能確有提升;(3)對比于基于LSTM 模型的混合算法GA-VMD-LSTM,所提出算法GA-VMD-RF 的MAE、MAPE、RMSE 3 個指標在數據集1 上平均降低了9.1%、11.1%、8.6%,在數據集2 上平均降低了21.0%、21.0%、17.2%,在數據集3 上平均降低了8.0%、7.5%、7.5%,在數據集2 上表現更優,體現了RF 在不同模態建模方面的優勢;(4)對比MM、IT、MO 這3 種多步預測策略,多模型多步預測(MM)總體上具有更高的預測精度,因此被作為GA-VMD-RF 算法最終所采用的策略。此外,雖然本文所提出的GA-VMD-RF 算法的MAPE 在3 個數據集上接近或超過10,看似比一些文獻結果更大[14-16],但仔細對比可以發現,這是因為采用了實時分解策略導致的,盡管精度有所下降,但卻具有實際可應用性。

5 結束語

本文針對具有強非線性、波動性和不平穩性的復雜模態時間序列預測問題,提出一種基于遺傳算法優化變分模態實時分解和隨機森林的多步預測算法:引入排列熵來度量分解子序列的復雜度,采用遺傳算法優化時序分解過程;充分利用隨機森林算法通過樣本擾動獲得的數據挖掘優勢,對不同模態的子序列分別建立差異顯著的預測模型;將所有的分解和建模過程建立在實時分解框架下,使算法具有可用性。通過多個公開數據集的實驗,得到采用多模型多步預測策略較優的一般性結論。最終所提出的GA-VMD-RF 算法的1~3 步預測結果相比于其他4 種對比算法預測精度更高、性能更穩定,誤差指標MAE、MAPE 和RMSE 分別平均降低22.6%、21.7%、21.5%。

猜你喜歡
模態建模精度
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
基于PSS/E的風電場建模與動態分析
不對稱半橋變換器的建模與仿真
基于DSPIC33F微處理器的采集精度的提高
GPS/GLONASS/BDS組合PPP精度分析
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
改進的Goldschmidt雙精度浮點除法器
由單個模態構造對稱簡支梁的抗彎剛度
三元組輻射場的建模與仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合