?

高速鐵路日??瓦\量的EMD-Informer組合預測方法

2024-03-07 12:32毛成輝徐光明
鐵道學報 2024年2期
關鍵詞:客運量參數設置步長

秦 進,胡 冉,毛成輝,小 虎,徐光明

(中南大學 交通運輸工程學院,湖南 長沙 410075)

客流預測可為鐵路運輸企業的運輸組織相關決策提供科學的數據支撐,尤其是高速鐵路(以下簡稱“高鐵”)日客流量預測,更是優化和調整列車開行方案、鐵路客運產品和客運營銷策略的重要依據。近年來,鐵路客流預測方法也一直都是領域內相關學者和工程師的研究熱點之一,并先后基于灰色預測法、時間序列法、支持向量機法和神經網絡等方法,提出系列預測方法,同時還發現多種方法組合的預測模型,在預測精度和收斂速度等方面具有更好的表現[1]。

目前對于鐵路客運量預測的研究中,汪志紅等[2]提出建立適應中國鐵路客運量的三時段春節季節調整的ARIMA(autoregressive integrated moving average model)預測模型。錢名軍等[3]提出將基于SARIMA(seasonal ARIMA)結合廣義自回歸條件異方差的組合預測模型,得出其預測性能優于單一SARIMA預測模型的結論。隨著機器學習的發展,更多研究以神經網絡為主要預測模型。王卓等[4]采用加入動量因子的方法,提出鐵路客運量長期預測的改進BP(back propagation)神經網絡模型,該模型精度高于單一BP預測模型。Tsai等[5]提出利用集成神經網絡預測鐵路短期客流,用不同的模型處理不同的輸入,得到的輸出誤差比傳統的多層感知器低。汪健雄等[6]以出日月趨勢特征、日月周期性特征、春運-暑運特征和假期特征作為模型的輸入變量,建立雙層次的BP神經網絡模型。吳華穩等[7]利用徑向基神經網絡(RBF)對鐵路日客貨運量進行混沌預測。馮冰玉等[8]則提出在RBF神經網絡前后分別增加灰化層和白化層,該方法通過增加原始數據規律性提高預測精度。史峰等[9]利用變分模態分解和遺傳算法優化的BP神經網絡模型進行高鐵日??瓦\量的預測。魏堂建等[10]設計日期和節假日標簽并作為輸入的一部分構建雙層平行小波神經網絡高鐵日客運量中期預測。李潔等[11]利用LSTM(long short-term memory)神經網絡預測高鐵短期客流,并分析了參數對模型的影響。滕靖等[12]利用粒子群算法優化的LSTM神經網絡模型預測城際短期客流。我國鐵路客運量的預測研究向神經網絡等方法靠攏,且最新的研究方法更多基于LSTM神經網絡。也有學者提出考慮數據趨勢、數據預處理和優化參數的組合預測方法。

在我國高鐵運營中,乘客購票大多數為點到點的提前購票,其購票產生的原因一般僅與日期及其出行需求有關,而乘客的出行需求則更多地與出發地和到達地有關,同時呈現出時間上的周期性特征。因此目前的客流預測研究較多依賴于對時間序列預測有較優效果的循環神經網絡(recurrent netural network,RNN)及其變體模型,而注意力機制的使用更多是在提取時間特征方面或者為人工神經網絡預測后的數據賦予權重。以transformer[13]為例的注意力機制模型在序列到序列問題上取得較大突破,Informer[14]模型改進了其計算復雜度并使其適用于時間序列問題。本文將舍棄RNN且完全依托注意力機制的Informer模型引入高鐵客流的預測中。同時,針對高鐵日客運量的周期性變化特征,利用可挖掘高鐵運量內生模態特征的經驗模態分解(empirical mode decomposition,EMD)算法進行數據預處理,有利于提高Informer的預測效率,從而提出基于EMD和注意力機制Informer的高鐵日客運量組合預測方法。此外,本文對京滬高鐵線路客運量和各OD客運量進行單獨的數據分解、模型訓練和模型預測,使得線路和OD的內在客運量特征可以在深度學習中得到充分的挖掘,預測效果更具有合理性。

1 EMD和Informer方法基礎

1.1 經驗模態分解(EMD)

EMD方法是由Huang等[15]提出的一種非線性非平穩自適應信號處理方法,該方法能夠根據數據的局部特征時間尺度,將信號序列自適應地分解成為有限的、數量較少的若干個中心頻率不同的固有模態函數IMF(intrinsic mode function)。相比其他方法,EMD分解方法擁有無需設定子序列數量、操作簡單和分解效果好等獨特優勢,因此在序列分解問題中得到廣泛運用。在高鐵客流數據的規律分析中,EMD可用來挖掘原始OD客流數據在不同時間尺度下的內在周期性特征和整體客流趨勢。

EMD分解必須滿足以下兩個基本條件:①在整個數據集中,極值點的數量和過零點的數量必須相等或最多相差1;②由局部極大值定義的包絡線和由局部極小值定義的包絡線的均值在任意點處均為0。EMD的過程就是從原始數據序列x(t)中提取IMF的篩選過程,算法步驟如下[15]:

Step1準備原始數據序列x(t),設置迭代次數n=1。

Step2識別x(t)中的所有局部極值,包括最小值emin,n(t)和最大值emax,n(t)。

Step3使用三次樣條線生成所有局部極大emax,n(t)的上包絡線和所有局部極小emin,n(t)的下包絡線。

Step4計算emax,n(t)和emin,n(t)的均值mn(t),生成均值的包絡線為

(1)

Step5計算時間序列數據x(t)與mn(t)的差值。定義固有模態函數hn(t)為

hn(t)=x(t)-mn(t)

(2)

Step6檢查hn(t)是否滿足前面提及的兩個基本條件。如果是,則定義cn(t)=hn(t)為數據序列x(t)的第n個IMF,并更新原始數據x(t)為

x(t)←x(t)-hn(t)

(3)

否則,使用hn(t)替換x(t):x(t)←hn(t)。

Step7若當殘差變成單調函數、常數值或只有一個極值的函數而不能再提取IMF時,算法終止,輸出n和所有IMF,并計算rn(t)=x(t)-hn(t);否則,n←n+1,并返回Step2。

由此,原始數據序列x(t)分解成n個分量和一個殘數rn(t),即原始數據序列x(t)可表示為

(4)

篩選得到的每個IMF,從高頻到低頻排列,均描述原始時間序列數據中的某種局部特征。

1.2 注意力機制和Informer模型

注意力機制(attention mechanism)是人工智能深度學習方法中最常用的算法機制之一,最初由Bahdanau等[16]提出,用于處理序列到序列問題的模型,它在傳統的“編碼器-解碼器”框架上引入概率分布,獲取各輸入數據在輸入序列中的影響度,并且作用到解碼器上獲得輸出數據。在注意力機制的實現普遍依賴于RNN的背景下,Vaswani等[13]舍棄掉RNN而提出完全基于注意力機制的Transformer模型,Transformer模型結構見圖1,其中自注意力機制(self-attention)和多頭注意力機制(multi-head attention)是該模型的核心組成成分。

圖1 Transformer模型結構

Transformer模型的提出,最初是為了處理序列到序列中的語言翻譯問題,因此模型的輸入和輸出部分具有極高的復雜度,難以應用于時間序列的預測。為解決該難題,Zhou等[14]剔除原Transformer模型中專屬語言翻譯的數據位置編碼等功能,對原模型中的編碼器和解碼器構造進行了相應的改進,構建能適用于時間序列的預測模型,即Transformer模型的變形體——Informer模型,Informer模型結構見圖2。

圖2 Informer模型結構

為了解決自注意力機制中概率分布具有潛在的稀疏性的問題,在Informer模型中提出概率稀疏性的自注意力機制(ProbSparse self-attention)[14],即

(5)

在原始的Self-attention中,每個關鍵向量都對所有查詢向量進行處理,而ProbSparse Self-attention允許每個關鍵向量只處理有限個占主導地位的查詢向量,這大幅減少了對查詢向量的處理數,有效降低了計算的時間復雜度和空間復雜度。

相對Transformer模型,Informer在編碼器提出自注意力蒸餾機制,利用最大池化和ELU激活函數處理兩個ProbSparse Self-attention層之間的連接(圖2的藍色梯形部分),自注意力蒸餾機制的主要作用是在其中去除冗余的數據,只傳輸注意力層中高影響度的關鍵信息,進一步縮短計算時間。

Informer的解碼器由兩個相同的多頭注意力層組成,其輸入向量為

(6)

2 高鐵日??瓦\量EMD-Informer預測模型

針對高鐵日??瓦\量的預測問題,構建EMD-Informer組合預測模型。采用EMD分解高鐵日??瓦\量數據,能夠獲取涵蓋線路或OD內在特征及周期特征的子序列,有利于Informer模型更高效地挖掘數據間的內在聯系,從而提高訓練效率和預測精度?;谠摻M合預測模型,提取高鐵客運量的歷史數據作為預測輸入數據,構建常用的單步預測和更貼近高鐵運輸生產計劃的超前預測的數據結構,制定模型參數的選擇參考規則。

2.1 EMD-Informer模型

本文所提出的高鐵日??瓦\量的EMD-Informer的組合預測模型,結構框架見圖3。

圖3 EMD-Informer組合模型結構框架

考慮未經標準化處理的變量往往會導致神經網絡的學習訓練失敗,對輸入數據集的連續型變量的數據項進行最大-最小歸一化處理,可加快網絡訓練時的梯度下降速度[18]。為加快模型訓練效率,首先選擇對數據序列進行最大-最小歸一化變換處理,即

(7)

式(7)將數據歸一化到[0,1]之間,在預測結束時對數據進行反歸一化處理即可得到最終的預測值,即

(8)

另外,EMD-Informer模型中選取均方誤差(mean square error,MSE)作為損失函數Loss,即

(9)

由此,EMD-Informer組合模型的具體計算步驟,可描述如下:

Step1準備客運數據序列集合。

Step2使用經驗模態分解方法EMD對數據進行序列分解,得到n個固有模態分量IMF。

Step3對數據集分組,對各分量進行歸一化處理后,以前80%數據為訓練集,后20%數據為測試集。

Step4根據確定好的輸入步長和超參數組合,輸入訓練集數據到Informer模型中,模型在編碼器自注意力板塊中學習訓練各數據在序列中的重要度,向前反饋到解碼器中,以損失函數判定訓練程度。測試集輸入到完成訓練的Informer模型中,獲得各個分量的預測序列,并進行反歸一化處理。

Step5將預測獲得的m個預測序列進行求和重構

2.2 模型輸入及輸出

高鐵日??瓦\量數據是典型的時間序列數據,模型采用滑動時間窗口的方式獲取輸入數據和輸出數據,進行高鐵日??瓦\量的單步預測和超前預測。

單步預測是最常見的時間序列預測形式,具體為,若算法輸入第1天到第l天的高鐵運量數據為{x1,x2,…,xl},則輸出結果為第l+1天的預測客運量yl+1。

在高鐵日??瓦\量預測的應用實景中,由于客運量預測值是鐵路運輸企業開展未來一段時間內列車運輸組織工作的重要支撐,因此僅針對歷史數據后一天客流的單步預測,在實際應用中會受到一定的限制。為了滿足鐵路運輸組織計劃性的提前量需求,同樣需要提前相應時間段進行未來某天客運量的預測,即還需要基于歷史客票數據進行提前若干天的跨期預測。

在既有研究中,對未來某時刻客運量的預測,可以采用滾動預測方法[17],也可以直接采用當前真實的歷史數據進行超前預測[18]??紤]滾動預測存在不斷積累和放大預測誤差的可能性,這里選擇后一種超前預測方式,即當算法輸入第1天到第l天的客運數據{x1,x2,…,xl},則輸出結果為第l+s+1天的預測客運量yl+s+1。單步預測實際可以認為是提前量為1d的超前預測,即此時s=0。

為了獲得EMD-Informer方法在不同提前天數下的預測有效性,在算例的超前預測中,根據EMD分量的顯著周期,將分別設定s=3、7d,即分別提前4、8d進行預測,并對預測結果進行計算與分析。

2.3 模型超參數設置規則

基于深度學習的預測模型在開始預測前,需要設置相關的超參數,合理的超參數設置可以使模型得到更好的訓練和預測效果。超參數設置方法主要包括人工調參、網格搜索和優化算法調參3種,其中網格搜索是獲取最優超參數的傳統方法,但其搜索計算時間往往較長[19],優化算法調參則更適用于復雜問題的大空間搜索尋優[19]。

本文所提出的預測模型中,涉及的超參數主要為輸入步長、訓練次數和批次大小,多頭注意力的頭數等超參數,其中輸入步長一般和數據序列的周期性保持一致。本文后續將結合人工調參和網格搜索兩種方法的優點,計算確定適用于高鐵日客運量組合預測的超參數合理取值范圍,形成高效的超參數設置規則。

3 算例分析

為了驗證所提出的EMD-Informer模型在不同維度和不同數據集中的預測效果,根據2016年8月1日至2017年7月31日共365d的京滬高鐵客票數據,提取了京滬高鐵全線以及包括一個長區間(北京南—上海虹橋)和3個短區間(北京南—廊坊、南京南—鎮江南、蘇州北—無錫東)的全年日??瓦\量,共9個數據集,每個數據集均包含365個數據,時間單位為d。預測時將分別選取數據集中前10個月(303d)的數據作為訓練集,后2個月(62d)的數據作為測試集。京滬高鐵線路示意圖及實驗OD區間見圖4。

圖4 京滬高鐵線路示意圖及實驗OD區間

算例的計算和分析,均基于Windows10操作系統和Python3.7平臺,并以深度學習框架Tensorflow和Keras人工神經網絡庫作為運行開發環境。

為評價預測模型性能,通常采用平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE),其值分別為

同時,為進一步驗證EMD-Informer預測模型的性能,還將選擇單一Informer模型、EMD-LSTM組合模型、單一LSTM神經網絡、BP神經網絡、SARIMA等其他5種預測模型進行同步預測,并進行對比分析。

3.1 EMD分解結果

以京滬高鐵全線客運量為研究對象,使用EMD分解方法,可以得到高鐵日客流量的模式分解結果,見圖5。

圖5 京滬高鐵全線客運量EMD分解結果

由圖5可知,原始的京滬高鐵日??瓦\量經過EMD被分解成7個分量(IMF1~IMF7),觀察其特征可發現:相對其他EMD分量,IMF1~IMF3的平均周期要更為明顯,分別約為3、7、14d,依次體現了高鐵日常旅客運輸量的整體趨勢、周波動趨勢和半月波動趨勢。另外,IMF7為殘差序列,描述了原始客運量數據序列的總體趨勢。

3.2 EMD-Informer模型超參數設置規則

預測結果的精度和穩定性,是衡量預測方法性能的重要指標。而預測模型中超參數的具體設置,都會對模型的預測精度會造成一定的影響[20]。對于所提出的高鐵日客運量EMD-Informer預測模型,需要重點確定輸入步長、訓練次數、批次大小和多頭注意力的頭數等參數的優化設置,本小節結合高鐵日客運量特征和Informer的模型特點,給出所提出組合模型的超參數設置規則。

3.2.1 輸入步長

根據高鐵日??瓦\量數據的基本特征,其整體趨勢和周波動趨勢最主要的客運量數據特征,在短期預測中可將模型的輸入步長選擇范圍設置為4~14d,有助于模型在較完整的數據輸入中挖掘其周期特征。在實驗中針對每個步長值,都在將其他超參數設置中等水平的基礎上,獨立進行11次實驗,并根據實驗預測結果進行誤差分析,見表1。

表1 不同輸入步長實驗結果

不同步長設置下,每次實驗的平均絕對百分比誤差MAPE箱形圖見圖6,其上下短橫線分別表示最大值和最小值,箱體表示75%的數據集中于此,箱體中的點表示11次實驗的平均誤差。

圖6 不同輸入步長實驗誤差箱型圖

分析以上實驗結果,可以發現:隨著輸入步長的增加,預測誤差也呈現增大的趨勢;從平均誤差的角度看,當輸入步長為7、13、14 d時,其誤差相對較小,說明完整周期輸入有助于提高模型精度;從訓練模型的計算時間上看,輸入步長的增加會帶來訓練時間的增加,但其增加幅度有限;MAPE方差體現了多次預測實驗的穩定性,其值越小表示越穩定,當輸入步長為4、8、9 d時,MAPE方差最小;從穩定性來看,通過箱型圖可以發現輸入步長為7 d時,多次實驗的預測誤差波動是最小的,可以認為其具有最優的穩定性。

總結地看,當輸入步長為7 d時,模型的預測誤差最小,而MAPE方差屬于中等偏優水平,穩定性也相對處于較優水平。該輸入步長與高鐵日客運量的周波動趨勢相符。因此,本文將預測方法的輸入步長參數設置為7 d。

3.2.2 訓練次數和批次大小

訓練次數和批次大小會直接影響模型預測的計算效率。在充分的預實驗下,結合Informer模型較強的學習效率(在幾乎所有數據集中,訓練次數在8次后損失函數值基本穩定),考慮將模型的訓練次數范圍設為4~10次,將批次范圍設為1~10,并通過實驗觀察其不同組合下的規律,為超參數設置規則提供實驗支撐。根據前面的實驗,設定輸入步長為7 d,不同的訓練次數和批次大小分別進行了10次實驗,收集其實驗數據取誤差平均,實驗結果如圖7所示。

圖7 不同訓練次數和批次大小下實驗誤差

根據以上實驗結果,可以發現:當批次為1~5時,模型的預測誤差,隨訓練次數的增加呈現無規律波動的現象,但是總體處于較大水平;當批次設置為6~10時,模型的預測誤差隨訓練次數的增加呈現先減小后波動的趨勢,且相較批次為1~5時的誤差,此時的預測誤差得到極其明顯的改善。

為了進一步確定訓練次數和批次大小,可結合批次在6~10時的訓練時間進行綜合考慮,相關情況如圖8所示。

圖8 不同訓練次數下批次在6~10時的實驗誤差及時間

由圖8可知:模型的訓練時間隨著批次的增加而減小,隨著訓練次數的增加而增加。在訓練批次和訓練次數分別為(10,8)、(10,9)和(6,9)時,分別得到相對最低的三組預測誤差,分別為2.25%、2.26%和2.27%,但6個訓練批次所需的訓練時間,則遠高于10個訓練批次。

根據以上分析,為了得到較高的預測效率,在預測結果誤差相差不大的情況下,本文選擇設置訓練次數為8、批次大小為10。

據此得到結論和超參數設置建議:一定批次下,在訓練次數為8次或9次時,可以得到最佳預測精度;批次的選取范圍可以鎖定在6~10次,根據效率選取最佳的超參數組合。

3.2.3 多頭注意力機制頭數

針對多頭注意力機制,基于已經設置的超參數,分別設置頭數為1~10時進行計算分析,具體預測結果見表2。

表2 不同注意力機制頭數下實驗誤差

由表2可知,當注意力的頭數為8時,預測結果的誤差最小,因此可將多頭注意力機制的頭數確定為8頭。

由此,根據上述的計算分析,EMD-Informer模型的全部超參數設置見表3。

表3 EMD-Informer預測模型參數設置

3.3 預測結果分析

本節利用數據集中的后2個月(62 d)數據進行測試分析,同時與其他5種預測模型的預測結果進行比較分析。其他相關預測模型的參數設置如下:①單一Informer模型,參數設置和EMD-Informer組合預測模型相同;②EMD-LSTM組合模型,隱藏層節點數為64,訓練次數為100次,訓練批次為2,其他參數設置與①相同;③單一LSTM神經網絡,其他參數設置與②相同;④BP神經網絡,激活函數為Sigmoid函數,其他參數設置與③相同。

3.3.1 單步預測結果分析

針對京滬高鐵全線客運量的單步預測,6種模型的客運量預測結果與真實客運量的對比分析見圖9,不同預測模型的預測結果誤差見表4。

表4 單步預測誤差及多模型對比

圖9 京滬高鐵全線客運量單步預測結果及多模型對比

由圖9、表4可知:相對其他5種預測模型,EMD-Informer模型的預測值與真實值的誤差最小。以京滬高鐵全線客運量為例,EMD-Informer預測結果的誤差僅為2.25%,與單一Informer、LSTM、EMD-LSTM組合模型、BP神經網絡和SARIMA模型相比,其預測精度分別增加了2.35%、1.92%、3.41%、3.91%和10.63%。而在選取的OD流量預測中,EMD-Informer的誤差幾乎都是最小的,僅有上海虹橋到北京南的預測誤差高于EMD-LSTM模型,但相差極小,僅為0.28%。

以北京南—廊坊為例,針對計算得到的OD對客運量的預測值,與真實值進行對比分析,具體情況見圖10。

圖10 北京南—廊坊客運量的預測結果及多模型對比

以北京南—廊坊為例,由圖10可知,EMD-Informer方法和其他對比模型相比,具有較好的預測精度。進一步地比較EMD-Informer和EMD-LSTM的預測結果,可以發現EMD-Informer方法在峰值和谷值中具有更好的預測效果。由此可見,在單步預測中,相對既有方法,EMD-Informer方法具有相對更優的預測精度。

3.3.2 超前預測結果分析

在分別為4、8 d的提前期設定下,使用前面提及的6種預測模型,對京滬高鐵全線客運量和選定OD對客運量進行超前預測,結果見表5。

表5 超前預測誤差對比分析

從提前時間看,當提前時間為4、8 d時,相對于單一Informer模型等其他5種預測模型,EMD-Informer超前預測結果的精度明顯一直保持較高水平;但是隨著提前天數的增加,所有預測模型的預測結果精度普遍都會隨之降低。從預測對象上看,京滬高鐵全線客運量相對其他OD對客運量,組織范圍較大,屬于大顆粒度的預測對象。一般而言,預測對象的顆粒度越大,預測的準確率就越高。這也是在預測結果中,京滬高鐵全線客運量預測精度一定程度高于其他OD對日??瓦\量預測的原因。

從以上分析可以發現,針對不同提前天數的超前預測,相對其他預測模型,EMD-Informer的預測進度普遍更優,這就說明本文提出的EMD-Informer預測模型,對高鐵日??瓦\量的超前預測同樣也具有較好的應用效果。

4 結論

本文根據高鐵日??瓦\量數據的內生特征,將完全基于注意力機制的新穎模型——Informer引入高鐵日??瓦\量預測問題中,并提出在Informer預測前對數據進行經驗模態分解(EMD)的思路,構建了高速鐵路日??瓦\量的EMD-Informer組合預測方法。EMD分解能得到顯示其不同周期特征的內生分量序列,各數據集分解得到的子序列也蘊含了對應的線路和OD特征?;谧⒁饬C制的Informer模型能挖掘線路客運量的變化特征并且不斷訓練更新各數據在各模態分量中的影響度,繼而分別對各模態分量進行預測和重構,從而得到高鐵日??瓦\量的最終預測值。

基于京滬高鐵全年365 d的歷史客票數據,提取了京滬高鐵全線和4個OD對的日??瓦\量,在大量預實驗的基礎下制定了模型超參數的設置規則,利用該規則進行了多組計算分析實驗,在綜合考慮預測精度和效率下確定了模型最優超參數組合,并在此基礎上進行了高速鐵路日??瓦\量的單步預測和超前預測的預測實驗和計算分析。實驗結果表明:在單步運量預測中,本方法的預測平均絕對百分比誤差MAPE分別低至2.25%和4.69%,明顯優于其他5種預測模型。在超前預測中,MAPE分別低至3.54%和6.02%,雖相比單步預測而言誤差精度有所增加,但仍明顯優于其他5種模型。說明本組合預測模型在高鐵日??瓦\量預測問題中有一定的優越性。

猜你喜歡
客運量參數設置步長
交通運輸部:3 月城市軌道交通客運量環比增長16.6%
基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
2018年北京市城市公共交通運行特征分析
2018年北京市軌道交通運行特征分析
蟻群算法求解TSP中的參數設置
RTK技術在放線測量中的應用
動車環境下U900異頻切換參數設置探討
基于逐維改進的自適應步長布谷鳥搜索算法
一種新型光伏系統MPPT變步長滯環比較P&O法
基于MATLAB仿真的井下變壓器參數設置研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合