?

基于數據分解和深度強化學習的交通流預測方法

2023-08-09 05:51劉嘉輝杜金
關鍵詞:時間序列

劉嘉輝 杜金

文章編號:1003?6180(2023) 03?0028?07

摘? 要:提出一種基于數據分解和深度強化學習(DRL)的交通流預測框架.為了減輕不規則波動的影響,利用局部加權回歸時間序列分解方法將數據分解為趨勢分量、季節分量和剩余分量.趨勢分量由門控循環單元(GRU)訓練,季節分量和剩余分量作為環境狀態采用策略梯度算法和強化學習模型學習,根據門控循環單元網絡的趨勢預測結果,環境狀態對預測結果進行及時調整.實驗結果表明,本文提出的方法優于其他模型.

關鍵詞:交通流預測;強化學習;時間序列;策略梯度

[? ?中圖分類號? ? ]TP391[? ? 文獻標志碼? ?]? A

Traffic Flow Prediction Method Based on Data Decomposition

and Deep Reinforcement Learning

LIU Jiahui, DU Jin

( School of Computer Science and Technology, Harbin University of Science and Technology,

Harbin 150080,China)

Abstract:A traffic flow prediction framework based on data decomposition and deep reinforcement learning (DRL) is proposed. In order to mitigate the impact of irregular fluctuations, the time series decomposition method of local weighted regression is applied to decompose data into trend component, seasonal component and residual component.The trend component is trained by gated recurrent unit (GRU), while the seasonal and residual component are trained as environmental states by the strategy gradient algorithm and reinforcement learning model, and the prediction results are timely adjusted according to the gated recurrent unit networks trend prediction results and environmental state.The experimental results show that the proposed method is superior to other models.

Key words: traffic flow prediction; reinforcement learning; time series; strategy gradient

隨著經濟發展,機動車輛數量迅速增加,導致交通擁擠、交通事故、環境污染等問題.準確預測未來交通流量的變化趨勢是緩解交通問題的基礎,交通流預測是智能交通系統的重要指標.

基于深度學習的模型廣泛用于交通流預測,然而對交通流數據的非平穩波動難以及時預測.隨著強化學習(RL)在機器人控制領域的深入應用,一些人將強化學習引入到預測過程中.其中一種基于半監督深度強化學習(DRL)的網絡異常流量檢測模型可以提高預測性能.此外,根據RL可以預測加密貨幣價格的變化.將網絡流量預測問題建模為馬爾可夫決策過程,通過蒙特卡羅Q學習預測網絡流量,以滿足所提出機制的實時要求.邊緣云故障預測的自動概念漂移處理框架,利用RL選擇最合適的漂移適應方法以及適應所需的數據量.對于數據集相對較小的領域,可以利用DRL技術構建一個基于時間的鏈接預測模型,使用相對較小的真實數據集進行訓練.基于強化學習非線性時間序列智能預測模型可以將強化學習與隱馬爾可夫模型相結合,強化學習運用統計方法,采用歷史觀測數據作為回報,優化模型參數,提高預測精度.由于網絡結構的復雜性和大量的網絡參數,深度網絡訓練非常耗時,因此,DRL的學習效率有限.從近似策略迭代強化學習算法誤差分析的角度,一種新的基于近似策略的加速算法被提出,以提高DRL的效率.DQN算法分析這三種神經網絡的適應性,是可以獲得能夠更好預測結果的集成模型.代理人的日間行車燈決策過程通常不透明,一個自我監督的可解釋框架可以發現可解釋的特征,從而使非專家也能輕松理解RL代理.

本文提出一種基于數據分解和深度強化學習的框架(簡稱D-DRL).D-DRL的基本思想是利用對交通流數據的分解,提取季節因子以減輕季節波動的影響,利用DRL模型對分解后的交通流數據作預測.

1 相關工作

交通流數據容易受天氣影響,如果出現極端天氣,交通流量將急劇下降.為了減輕不規則波動的影響,提高交通流預測的性能,使用STL算法對交通流進行分解,對不規則波動信息進行分離.與其他分解過程相比,STL對數據中的異常值具有很強的魯棒性,可生成健壯的分量子序列.分量序列的魯棒性可以提高應用子序列預測的精度.STL算法是一個過濾過程,用于將時間序列分解為三個組成部分:趨勢、季節和剩余分量.趨勢分量代表長期低頻變化,季節成分代表時間序列中周期頻率的變化,殘差部分表示原始時間序列減去趨勢和季節的剩余結果.時間序列、趨勢分量、季節分量和剩余分量分別用Yt,Tt,St和Rt表示.

Yt=Tt+St+Rt, t=1,2,… N.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

STL由兩個遞歸過程組成:嵌套在外部循環中的內部循環,每次傳遞都包含一個更新季節成分的季節平滑,然后是更新趨勢成分的趨勢平滑.每一次外循環都由內循環組成.魯棒性權重將在下一次內循環運行中使用,以減少瞬態、異常行為對趨勢和季節成分的影響.假設進行內部循環的初始運行,獲得殘差、趨勢和季節成分的估計值.表示為:? ? ? ? ? ? ? ? ? ? ? ? ?Rt=Yt - Tt - St .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

時間點t的魯棒性權重表示為:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Pt=B(|Rt|/h).? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)

式(3)中,B是雙平方權重函數,h= 6 median (|Rt|).

GRU網絡是專門為時間序列信號設計的,該網絡是基于長短期記憶(LSTM)的改進網絡模型.與LSTM相比,GRU有可以自動學習的特征,可有效對遠距離相關信息建模,減少選通單元的數量,從而減少處理時間,保持準確性.它的可伸縮性有利于構建更大的模型.GRU將LSTM模型的門控制信號減少為兩個門,即更新門和重置門.圖1顯示了GRU模型的總體結構.

圖1中x1,x2和xt是輸入值,h0,h1和ht是存儲在每個GRU網絡中的狀態,y1,y2和yt是GRU網絡的輸出.GRU神經網絡是由多個神經單元模塊組成的鏈模型.

Deep Q-Network(DQN)可以訓練AI代理使用未經處理的像素進行比人類玩家更好的Atari視頻游戲.然而,雖然DQN解決了高維觀測空間的問題,但它只能處理離散和低維的動作空間,對于交通流預測任務,有連續的動作空間,不能直接應用.無模型方法Deep DPG(DDPG)將DQN與確定性策略梯度(DPG)算法相結合,可以在學習策略的同時處理連續的動作空間,再次保持超參數和網絡結構不變.

DDPG通常由一個代理以離散的時間步長與動態環境交互組成.在每個時間點t,代理都會收到一個狀態st,采取一個動作at并收到一個獎勵rt,DDPG的目標是學習一項策略,該策略的目的是最大化未來折扣獎勵的總和Rt.

式(4)中,γ表示范圍從0到1的折扣因子,用來度量當前獎勵對未來獎勵的重要性.動作價值函數描述了在狀態st下執行動作at后以及隨后遵循策略后的預期回報.

2 基于數據分解和深度強化學習的交通流預測框架

本文提出的基于數據分解和深度強化學習的交通流預測框架(D-DRL)見圖2.

利用STL算法將交通流數據分解為趨勢分量、季節分量和剩余分量,以減輕不規則波動的影響.用GRU網絡訓練分解后的趨勢分量,用GRU-DDPG網絡訓練季節分量和剩余分量.在GRU-DDPG網絡中,交通流數據、GRU網絡和DDPG網絡輸出用于計算GRU-DDPG模型的獎勵值.訓練后將兩個分支合并為一個輸出,實現交通流預測.

使用在Critic網絡結合GRU網絡的DDPG-GRU神經網絡模型,通過在強化學習,使用深度確定性策略梯度方法與環境交互,構建強化學習中的代理模型,并將GRU網絡添加到關鍵網絡中進行改進.GRU-DDPG模型通過Actor網絡根據環境狀態輸出動作,Critic網絡通過參與者網絡輸出的動作和環境狀態估計當前策略的價值,使用GRU網絡了解關鍵網絡中的狀態,以增強對時序信息的感知.此外,Actor網絡和Critic網絡都有一個目標網絡和一個在線網絡.目標網絡通過緩慢跟蹤在線網絡進行更新,以確保目標網絡的穩定變化.在GRU-DDPG模型與環境的交互過程中,DDPG-GRU模型根據環境提供的狀態選擇動作輸出,從環境中獲取獎勵和下一時刻的狀態st+1和獎勵rt,動作和行動信息下一時刻的狀態存儲在內存緩沖區中.通過從緩沖區中選擇最小批量數據學習和更新參數.

環境狀態構建.利用STL算法對交通流時間序列Yt進行分解,得到交通流序列的趨勢分量Tt、周期分量St和剩余分量Rt.GRU網絡用于預測分解得到的趨勢序列Tt.由于代理在強化學習中所做的行動選擇受到不斷變化環境的影響,因此,代理被用來預測剩余的波動.強化學習的狀態包括交通流時間序列的剩余波動序列,即State=St+Rt.

代理輸出的動作不是直接的下次交通流,而是根據GRU網絡對分解的趨勢序列Tt趨勢預測tt之后的加減運算,即交通流時間序列的波動值.因此,agent動作定義為動作空間中的連續動作,動作空間是歸一化后的波動范圍,具體獎勵函數為:

rt =-|at+tt-lt| .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)

式(5)中,rt表示在時間上獲得的獎勵值,at是代理在時間t上的動作值,tt是時間t上的趨勢預測值,lt是與時間t相對應的交通流量值.為了讓代理獲得足夠的經驗來學習,在前k個回合給代理動作添加噪聲,然后去除噪聲,以便代理能夠更加專注地提高預測準確性.

由于交通流時間序列數據是一組連續的數據,因此,狀態以時間順序開始和結束.為了學習更多經驗,根據以下公式選擇環境狀態的開始和結束:

statestart= random(state0, statemax) .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)

stateend = min((statestart+stepmax), statemax) .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)

式(6)和式(7)中,statestart表示開始狀態,random是一個隨機函數,state0是交通流時間序列的初始序列,statemax是交通流量時間序列的最后一個序列,stepmax是一個代理在單個回合時間內探索的最大步數.

本文提出的D-DRL框架使用GRU-DDPG模型作為代理具體學習過程,如GRU-DDPG-DRL算法所示,每個訓練過程包括五個步驟:

Step1:初始化關鍵網絡、參與者網絡和緩沖區R和參數k.

Step2:循環并隨機選擇開始位置開始探索.

Step3:根據是否小于選擇動作.

Step4:計算獎勵并存儲轉換信息.

Step5:從緩沖區和更新網絡中選擇最小批量數據.

算法1-GRU-DDPG-DRL算法描述如下:

1: Initialize the Actor,critic,R and k

2: for epoch to MAX_EPOCH do

3: Receive initial observation state

4: for step to do

5: if epoch< k:

Select action by selector with exploration noise

else:

Select action only GRU-DDPG

6: Receive from the environment

7: Store transitions(st, at, rt, st+1) from R

8: Select min batch data from buffer

9: Set y and update critic by minimizing the loss

10: Update the actor networks using the policy gradient

11: Soft update process of the target networks

12: end for, end for

3 實驗結果與分析

3.1 數據集描述

實驗數據選自英國高速公路的交通數據集.采樣間隔為15分鐘,不考慮平日和周末的交通流量數據.經過歸一化預處理后,將訓練集和測試集按照4:1的比例進行劃分.由于實驗數據太多,因此,選取部分交通流數據繪制交通流數據曲線,以便直觀地顯示交通流的變化.圖3顯示了數據集的詳細信息.可以看到交通流數據的最大值為500左右,最小值為0左右.整體具有周期性,但波峰與波谷處較為不平穩.

3.2 評價指標

使用四個評估指標,即平均絕對誤差(MAE)、均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)和決定系數(DF)來評估該模型的預測精度.MAE使用絕對誤差描述實際值和預測值之間的平均偏差.RMSE是實際值和預計值之間殘余誤差的標準偏差,MAPE以平均絕對百分比衡量誤差,MAE,RMSE和MAPE是與量表相關的指標.DF 的取值范圍為0~1,用于衡量實際值與預測值之間的擬合優度.

3.3 數據集重構分析

STL算法可以分解周期大于2的任何時間序列、季節數據.時間序列可以通過較小周期的分解來平滑和過濾.為了測試分解周期對D-DRL算法的影響,繪制以分解頻率為橫坐標的MAE值的箱型圖(圖4).可以看到,隨著分解周期的增加,MAE值隨之增加.分解頻率在從3到4的過程中增加最為明顯.

分解后的STL分解后的數據曲線如圖5所示.觀察到的是數據的原始曲線,趨勢、季節和殘差是STL分解的趨勢項曲線、季節項曲線和殘差項曲線.趨勢曲線與原始曲線的趨勢基本相同,在25,75個時間點附近達到峰值,在30,100個時間點處達到低谷.曲線比原始曲線更平滑.剩余項在波峰附近劇烈波動,在波谷處平緩波動.

從圖6中可以看到,強化學習中狀態數據的acf值在0和1處的變化很大,然后在0左右上下波動.可以看出狀態數據不具有明顯的趨勢,大部分數據集中在0附近,其余數據呈現以0為中心并隨著距離越遠數據分布逐漸減少.

3.4 預測結果分析

為了評價基于D-DRL的交通流預測模型的有效性,選擇RDPG,BI-LSTM,Transformer以及STL-SVR進行對比.以RMSE,MAE,MAPE和DF作為實驗的測量指標.

表1顯示了交通流預測比較方法的結果.與未使用STL時間序列分解的RDPG,BILSTM,Transformer等模型相比,STL-SVR,STL-GRU,D-DRL等模型的RMSE,MAE,MAPE均小于單一模型,DF均大于單一模型,表明其預測均具有較高的準確性.STL算法可以有效降低交通流數據中波動對預測結果的影響,其中D-DRL的RMSE,MAE,MAPE,DF值分別為5.766,4.130,0.031,0.998,表明通過結合深度學習與強化學習的方法,進一步提高了預測的準確性.總體而言,D-DRL的預測效果優RDPG,BI-LISTM,Transformer,STL-SVR和STL-GRU,表明D-DRL具有更好的預測性能.

4 結論

本文提出了D-DRL法,用于交通流預測.首先,為了減輕不規則波動的影響,使用STL算法將數據分解為趨勢分量、季節分量和殘差分量.趨勢分量由GRU訓練,季節分量和殘差分量由GRU-DDPG模型添加、組合和訓練.在GRU-DDPG網絡中,將GRU網絡添加到DDPG模型的關鍵網絡中,可以使GRU-DDPG模型以矩陣的形式處理交通流的時間特征信息,從而提高對時間狀態的感知.將GRU-DDPG模型的GRU輸出與預測趨勢的GRU輸入相結合,并將其與實際值進行比較,GRU-DDPG模型可以在原始數據和交通流之間創建直接的非線性或線性映射,而不會高度依賴提取特征的質量.實驗結果表明,該方法在準確性和穩定性方面優于傳統方法.

未來,我們將把實驗擴展到更多的交通數據集,以測試D-DRL方法的泛化能力.交通網絡中不同位置的道路交通流相互影響,通過多智能體的協調可以提高預測的及時性和準確性.

參考文獻

[1]宋大華,宋大全,章慧鳴.Logistic方程混沌周期點與精度研究[J].牡丹江師范學院學報:自然科學版,2020(01):22-26.

[2]彭輝,周瑩青,李瑜琪.人工智能在數字出版行業的應用研究[J].牡丹江師范學院學報:社會科學版,2020(02):1-10.

[3]谷嘉煒,韋慧.XGBoost-ESN組合模型股價預測方法[J].牡丹江師范學院學報:自然科學版,2022(01):1-5.

編輯:琳莉

猜你喜歡
時間序列
基于分布式架構的時間序列局部相似檢測算法
基于嵌入式向量和循環神經網絡的用戶行為預測方法
醫學時間序列中混沌現象的初步研究
基于時間序列分析南京市二手房的定價模型
基于Eviews上證綜合指數預測
上證綜指收益率的影響因素分析
基于指數平滑的電站設備故障時間序列預測研究
基于時間序列的我國人均GDP分析與預測
基于線性散列索引的時間序列查詢方法研究
基于組合模型的能源需求預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合