?

使用AVL數據的公交到站時間CEEMD-LSTM預測模型

2023-12-28 12:47賴元文王鈜民
關鍵詞:時段路段公交

賴元文, 王鈜民

(福州大學土木工程學院, 福建 福州 350108)

0 引言

自動車輛定位(auto vehicle location, AVL)系統可借助GPS衛星獲取公交車輛實時經緯度坐標、 速度、 進出站標識、 時間戳等數據, 后臺預測到站時間并迅速發布到各手機應用程序, 有助于出行者獲取實時公交信息并制定出行方案, 既有利于合理安排時間, 又可緩解城市交通擁堵[1].

現有公交到站時間預測模型主要從考慮更全面的公交運行時間影響因素和平穩化處理原始數據兩個角度來提升預測精度[2]. 考慮歷史到站數據的預測方法操作簡單, 流程短, 適用于交通狀況簡明的公交線路, 許多學者研究影響公交到站時間的因素, 采用線性回歸模型進行預測[3]; 楊敏等[4]采集公交歷史數據建立時間序列模型, 研究影響因素與到站時間的關系; 支持向量機方法可控制輸入的變量, 從而表現公交到站時間與一些影響因素之間的關系[5]. 考慮數據非平穩性的方法致力于原始數據平穩化處理, 卡爾曼濾波能夠同時考慮數據的實時性和非平穩性, 被應用于公交到站時間預測[6]; 粒子濾波可以擺脫原始信號中噪聲的影響, 通過實驗證明該方法較卡爾曼濾波有更高精度[7]; 神經網絡模型能夠處理復雜的函數, 被廣泛運用于各類預測中[8], 起初多層前饋神經網絡模型預測效果較好[9], 但隨著深度學習的發展, 長短期記憶(long short term memory, LSTM)逐漸取代早期的神經網絡模型, 該方法易于感知時間序列的變化, 且預測精度高, 受到許多學者推崇[10]. 近期有些學者考慮使用門控循環單元進行預測, 目前預測效果不佳. 由于原始數據受突發事件影響呈現復雜非線性, 而互補集合經驗模態分解(complementary ensemble empirical mode decomposition, CEEMD)可以分解原始信號的時間尺度特征[11], 使數據趨于平穩, 基于此, 本研究采集自動車輛定位數據, 構建預測公交到站時間的CEEMD-LSTM模型.

本研究采集AVL數據, 提出一種依托原始AVL數據得到公交路段運行速度的方法, 考慮公交線路的時空特征, 通過Adam算法進行LSTM參數尋優, 引入CEEMD平穩化處理原始時序, 構建CEEMD-LSTM公交到站時間預測模型, 結合算例, 以減少與實際到站時間偏差為目標進行試驗, 得到CEEMD-LSTM到站時間預測模型的偏差較LSTM更小的結果, 驗證本研究提出的公交到站時間預測方法行之有效.

1 方法及原理

1.1 LSTM神經網絡模型

LSTM包含Sigmoid和tanh函數, tanh將數值限制在值域[-1, 1]之間, Sigmoid則將數值壓縮到0~1之間, 0會被直接剔除掉, 1會被完整地保留. 二者之間相互交互, 構成了遺忘門、 輸入門和輸出門, 每個門的目的是刪減或增加細胞狀態中的信息, LSTM細胞狀態的詳細更新過程如圖1所示, 其中σ為Sigmoid函數, tanh為tan函數,ft、it、ot分別為遺忘門、 輸入門、 輸出門中的細胞狀態,Ct為候選狀態,ht為當前LSTM中輸出的細胞狀態.

圖1 LSTM細胞單元更新詳細過程Fig.1 Detail process of LSTM cell unit update

1.2 CEEMD方法

經驗模態分解(empirical mode decomposition, EMD)是一種時序平穩化的方法[12]. 在EMD過程中, 原始信號會被分解成多個本征模態函數(intrinsic mode function, IMF)和殘差, IMF表示原始數據中不同尺度的局部振蕩特性, 殘差則反映了原始數據本該具有的趨勢特征. 但該過程會出現模態混疊的現象, 即分解公交到站時間序列時, 不易感知突發事件的影響.

為解決EMD存在的問題, Wu等[13]添加指定幅值的白噪聲, 盡可能減少白噪聲對原始時序的影響. 該方法計算量大, 隨后衍生出CEEMD[14], 改為添加互為相反數的白噪聲, 后經平均處理消除噪聲影響. CEEMD相較于EMD可在相同次數的分解中, 得到幅值更小的殘差, 節省計算資源. 在公交到站時間預測上, CEEMD步驟如下.

(1)

步驟3計算公交運行速度上下包絡線均值, 可得到時間序列的均值包絡線m0(t).即

(2)

步驟4進行篩分, 計算原始時間序列于均值包絡線的差, 將其稱為中間信號. 即

c0(t)=x0(t)-m0(t)

(3)

r0(t)=m0(t)

(4)

步驟5判斷中間信號是否滿足以下IMF判別的兩個條件: 即極值點個數是否大致相等、 上下包絡線是否大致呈軸對稱. 若滿足, 該中間信號就是IMF分量, 若不滿足則重復上述步驟.

步驟6將殘差r0(t)作為下一次篩分的初始數據x1, 繼續進行篩分可得到IMF2. 則有

x1=r0(t)

(5)

步驟7重復以上過程, 直至原始時間序列被分解成多個本征模態函數和殘差. 則有

(6)

式中:ci代表分解得到的多個本征模態函數;rn(t)代表無法再分解的殘差.

2 構建CEEMD-LSTM公交到站時間預測模型

2.1 CEEMD過程

本研究首先采集連續多個工作日的公交AVL原始數據, 考慮公交運行的時空特征, 得到按照站點劃分的各路段運行速度原始時序特征, 使用Matlab R2016b編寫CEEMD. 公交路段運行速度CEEMD分解圖如圖2所示. 圖2中, 橫坐標表示樣本序號, 縱坐標表示路段區間速度. 從圖2中可以看出: 隨著分解過程的進行, 相較于EMD, CEEMD過程中本征模態函數的頻率逐漸趨于平穩, 只需個位數的分解次數就可以達到更低的IMF量級.

圖2 CEEMD結果圖Fig.2 Results of CEEMD

2.2 模型構建

本研究將線路首、 末班次間的運行時間定義為公交運行時間, 公交運行時間按照時間間隔劃分為若干個時段. 預測場景為: 在工作日t時段, 有一乘客想乘坐a路公交, 他此時位于a路公交沿線的站點i+n站或正打算前往該車站, 此時獲悉最近的公交車輛bus1正在路段站點i-1至站點i的位置o行駛. 他想知道bus1需要多久才能到達自己所在的i+n站, 即到達i+n站的到站時間, 預測模型如圖3所示.

圖3 CEEMD-LSTM預測模型Fig.3 CEEMD-LSTM prediction model

3 案例分析

3.1 原始數據及處理

預測時間長度設置過長則無法體現速度波動, 設置短則加大預測難度, 經多個觀測時段長度時序變化分析, 選取20 min作為預測時段長度. 收集公交AVL數據, 共獲取福州市公交303路上行方向在2002年2月28日—3月4日全天45個時段, 共6 525條運行速度數據. 該線路全長15.85 km, 共30個站點, 相鄰站點劃分為一個路段, 輸入模型前需要數據預處理[15].

通過高德定位開發調用接口獲取福州市公交303路上行方向所有站點經緯度坐標, 在Arc GIS 10.8中添加XY坐標將站點經緯度可視化, 根據線路折點增添了242個特征點.

相鄰特征點a(lon, a,lat, a)、b(lon, b,lat, b)之間的距離sa, b計算式為

(7)

(8)

式中:LON, a、LAT, a、LON, b、LAT, b代表特征點a、b經度、 緯度的弧度形式; ΔLAT=LAT, b-LAT, a, ΔLON=LON, b-LON, a, 半正矢公式havesinθ=(1-cosθ)/2;R代表地球半徑, 取R=6 378 137 m.

相鄰站點A、B間的距離sA, B為

(9)

式中:sA, B為相鄰站點A、B間的距離, m;n為相鄰站點間的特征點總數.

計算進站時間tB與前一站出站時間tA之差, 得到該班次公交在該路段的運行速度.

(10)

式中: Δt為路段運行時間, s;tB為進站時間;tA為前站出站時間;vA, B為A、B站點間的速度, m·s-1.

3.2 實驗設置

在CEEMD-LSTM神經網絡模型中, LSTM有眾多輸入參數, 其中samples是輸入運行速度的條目, 可根據訓練情況進行設定; timesteps是時間步長, 代表每次輸入的運行速度樣本數量, 設置越大, 隱藏層的循環層數就越多, 迭代速度降低; input_dim是輸入模型的數據維度. 除此之外, 還需要輸入激活函數、 神經網絡層數、 每層中的神經元數、 模型的優化器等參數, 將CEEMD處理的公交運行速度特征分量作為輸入, 分別對輸入時序長度為5~15進行實驗, 綜合考慮模型預測精度和時效性, 選擇每次梯度更新樣本數為10, 激活函數選擇Tanh, 誤差函數選擇均方誤差, 優化器選擇Adam優化算法, 該方法可以處理非平穩數據, 通過計算梯度為公交到站參數設計獨立的學習率, 避免梯度爆炸.

為探究神經網絡層數, 分別對單、 雙層神經網絡下的CEEMD-LSTM模型進行了試驗, 結果如表1所示. 在同等數據條件下雙層神經網絡預測結果要優于單層神經網絡. 這是因為雙層神經網絡能夠感知到公交路段平均運行速度中更多的時序特征. 受到樣本數量的制約, 隨著神經網絡層數的增加, 預測結果會出現過擬合的現象, 導致誤差上升, 為了平衡預測精度與訓練時間的關系, 最終選取雙層LSTM模型用于公交平均運行速度的預測. 通過以上實驗, 確定最優的網絡結構組合如表2所示.

表1 不同網絡層數預測結果比較Tab.1 Comparison of prediction results of different network layers

表2 參數設置表Tab.2 Parameter setting table

3.3 評價指標

選用平均絕對值誤差(EMA)、 均方根誤差(ERMS)和平均絕對百分比誤差(EMAP)來驗證優化LSTM組合模型的效果, 指標值越接近零可視為預測精度越高, 公式為

(11)

3.4 實驗結果對比分析

為了驗證CEEMD-LSTM模型的有效性, 分別使用時間序列預測方法整合移動平均自回歸模型(autoregressive integrated moving average model, ARIMA)、 單一LSTM、 EMD-LSTM及CEEMD-LSTM等4種方法. 選取2022年2月28日—3月3日29個路段45個時段的路段運行速度作為訓練集, 2022年3月4日29個路段45個時段的路段運行速度作為測試集, 進行單個預測時段長度為20 min的多時段速度預測.

為驗證各模型預測效果, 選擇路段4(磨洋河站至上洋站)和路段15(省彩印廠站至雙子星大廈站)進行公交路段運行速度預測, 路段4受非機動車流和平交口影響, 路段15受早晚高峰客流和共線公交滯站影響, 均表現出較大的速度波動. 圖4、 5分別為各模型對路段4、 15全時段運行速度預測, CEEMD-LSTM的預測結果最接近真實數據, 且較EMD-LSTM模型更準確地預測出速度的波動, LSTM可以預測出一些明顯速度的波動, 但對波動變化局部極值的預測存在一定的誤差. 此外, ARIMA模型預測結果僅體現大致的運行速度走向, 許多波動均未有效預測, 因此認為該方法較為適用外界干擾因素較小的公交到站時間預測. 對于像公交運行速度這樣易受到交通路況干擾的情況, 預測效果大大降低, 也應證了運行速度時序特征本身的非平穩性, 需要經過CEEMD平穩化處理原始數據, 計算各模型預測誤差如表3所示.

表3 全天多時段速度預測誤差表Tab.3 Table of speed prediction error in multiple periods of the day

圖4 各模型對路段4運行速度預測圖Fig.4 Prediction effect of the segment 4 running speed predicted by each models

從評價指標來看, CEEMD-LSTM模型路段4的MAE分別比EMD-LSTM、 LSTM和ARIMA低了0.041 8、 0.271 7和0.897 9 m·s-1, RMSE分別比EMD-LSTM、 LSTM和ARIMA低了0.027 2 、 0.320 4 和1.014 m·s-1, MAPE則是比另外3種方法分別低了1.3%、 5.7%和9.63%; 而路段15的MAE分別比EMD-LSTM、 LSTM和ARIMA低了0.066 5、 0.276 8和0.587 5 m·s-1, RMSR分別比EMD-LSTM、 LSTM和ARIMA低了0.021 8、 0.300 4和0.608 9 m·s-1, MAPE則是比其余3種方法分別低了0.75%、 5.59%和9.63%.

進行公交到站時間預測, 以303路早高峰(7: 00—9: 00)為例, 通過重構結果得到預測模型在各路段早高峰時段下的路段運行速度, 計算公交到達下一個站點的時間, 即為預測得到的公交到站時間, 重復操作預測一個班次所有站點的到站時間, 見圖6 和表4.

表4 早高峰公交到站時間預測效果對比Tab.4 Bus arrival time prediction in morning peak

圖6 303路早高峰公交到站時間預測圖Fig.6 Prediction of 303 bus morning peak arrival time

由圖6和表4可知, 經過CEEMD優化后早高峰時段到站時間的預測誤差有所降低. 從不同預測模型來看, CEEMD-LSTM、 EMD-LSTM的平均絕對百分比誤差較低, 而ARIMA和LSTM模型的預測誤差大于上述兩種模型. 從到站時間預測精度來看, LSTM神經網絡模型在前期的預測誤差較小, 但隨著站點的增加, 單一LSTM預測準確度有所降低, 而CEEMD-LSTM模型仍能保持較高的公交到站時間預測精度, 驗證所提模型的優勢.

4 結語

本研究考慮公交運行路段、 運行時段和工作日影響, 構建使用AVL數據預測公交到站時間的CEEMD-LSTM模型. 首先采集公交AVL數據, 經預處理得到路段運行速度, 引入CEEMD方法進行優化, 將路段運行速度平穩化處理, 使用Adam優化器進行LSTM模型參數尋優, 重構預測結果輸出預測路段多個時段下公交運行速度, 進而根據車輛實時位置, 計算到站時間. 綜合比較3項評價指標, 本研究提出的CEEMD-LSTM模型預測效果最好.

使用AVL數據預測公交到站時間的CEEMD-LSTM模型對已安裝車載AVL設備的城市公交線路到站時間預測效果較好, 下一步可考慮對公交數據進行重構填補, 進一步縮短時間段劃分閾值, 對公交數據更多時間維度進行分析. 此外, 后續也將繼續擴充原始數據樣本量, 以期能將公交在周、 月維度上的運行規律考慮進去.

猜你喜歡
時段路段公交
冬奧車道都有哪些相關路段如何正確通行
一元公交開進太行深處
部、省、路段監測運維聯動協同探討
A Survey of Evolutionary Algorithms for Multi-Objective Optimization Problems With Irregular Pareto Fronts
基于XGBOOST算法的擁堵路段短時交通流量預測
四個養生黃金時段,你抓住了嗎
等公交
傍晚是交通事故高發時段
分時段預約在PICC門診維護中的應用與探討
分時段預約掛號的實現與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合