?

基于SA-RF的公路隧道交通流數據修復模型研究

2024-01-10 04:32付立家陳麗陽
公路交通技術 2023年6期
關鍵詞:交通流隧道變量

付立家, 陳麗陽, 尚 康

(1.招商局重慶交通科研設計院有限公司, 重慶 400067; 2.重慶交通大學 交通運輸學院, 重慶 400074)

公路隧道配備了大量機電設施和交通感知設備,以全方位獲取隧道交通信息、環境信息和結構信息,為公路隧道智能化管理和控制提供數據支撐。但因隧道運行環境復雜、設備檢查維護不及時、通信質量不穩定等因素,或多或少導致隧道交通流數據缺失,降低了數據的完整性和準確性。為解決此類問題,對隧道內環境、交通狀態等各類運營數據進行實時、完整獲取并深入挖掘,以提高應急處置能力,實現運營安全預警[1],需對交通流缺失數據修復方法開展研究,為公路隧道運營管理提供穩定的數據保障。目前,針對缺失數據的修復方法主要包括統計學方法和機器學習方法,前者包括EM(Expectation Maximization)填充算法[2]、回歸分析法[3]、多重插補[4]等,但因該方法未考慮數據類別的差異性,致使修復效果精度較低;機器學習方法是以分類、聚類和回歸方法修復缺失數據集,主要包括KNN(K-Nearest Neighbor)算法[5]、K-means算法[6]、貝葉斯網絡[2,7]、支持向量機SVM(Support Vector Machine)算法[8]和隨機森林RF(Random Forest)算法[1,9]等,該方法在交通領域研究與應用較多。邵毅明等[9]在隨機森林模型基礎上采用遺傳算法進行優化調參;曾小華等[10]采用插補缺失與神經網絡集成方法預測修復公交客車行駛工況的缺失數據;張壯壯等[11]采用時空卷積神經網絡預測模型,從時間和空間相關性預測修復路網交通流數據。上述預測修復方法主要從時間、空間相關性的視角進行修復,而從時空相關性視角針對交通流數據的缺失率和缺失模式研究報道較少。

為此,本文從時空相關性視角,建立基于SA-RF的公路隧道交通流缺失數據修復模型。根據數據缺失模式,先分別從時間相關性建立單變量修復模型和空間相關性建立多變量修復模型,然后將兩者結合,建立時空相關性的綜合修復模型,修復交通流數據的一般數據缺失模式,并在不同缺失率下驗證修復模型的準確性和可靠性。

1 基于SA-RF的公路隧道交通流修復方法

RF模型中有許多重要超參數,而超參數的取值不同致使模型預測修復精度不同。為得到更精準的交通流預測修復模型,需對RF模型的參數進行多次調整,并訓練和驗證修復效果。傳統方法如網格搜索法、隨機搜索法等存在訓練步驟復雜、時間長、效率低等問題,而模擬退火算法SA(Simulated Annealing)能夠同時優化多個參數、避免陷入局部最優解、高效尋找最優參數。為此,本文以SA算法對RF模型的主要參數進行尋優,并根據最優參數建立SA-RF模型預測修復缺失交通流。

1.1 模擬退火算法SA

模擬退火算法[12-13]是借鑒固體退火原理的一種通用概率演算法。該算法需設定初始高溫、降溫速率和結束低溫,在每階段中,以固定速率降低當前溫度,并判斷是否以新解替換當前最優解。如果得到隨機新解優于當前最優解,則以新解替換當前最優解;如果得到隨機新解不優于當前最優解時,則以Metropolis準則的接受概率p判斷是否接受新解替換當前最優解。其中接受概率p見式(1):

(1)

式中:Ci,Ci+1分別為目標函數在第i次和i+1次的迭代值;T為當前溫度,在迭代過程中T值逐步緩慢減小,當T值變化太快,會使目標函數陷入局部極值點。

1.2 隨機森林算法RF

隨機森林是一種統計學理論,其基本思想是根據Bootstrapping重抽樣方法依次建立多個分類或回歸樹,對多個決策樹的輸出結果進行集成,最終得到分類或回歸預測結果。大量的理論和實證研究都證明了RF具有很高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現過擬合[14]。

RF算法基本步驟:1) Bootstrapping重抽樣,從訓練樣本數據中隨機抽樣一部分數據,用于訓練決策樹;2) 使用隨機抽樣數據構建決策樹,包括ID3、C4.5、CART等算法;3) 計算決策樹的每個預測結果,對于每棵決策樹,根據特征的取值、分支條件等規則,將該樣本劃分到對應的葉子節點中;4) 計算RF結果,統計所有決策樹中該樣本所在的葉子節點的預測結果,按照預測結果的投票數或概率進行加權平均,得到最終的預測結果。

1.3 交通流修復方式

數據缺失模式大致分為單變量缺失、多變量缺失、單調缺失和一般缺失[15]4類,如表1所示。

在公路隧道采集的交通流數據中,缺失數據隨機分布在不同屬性之間,往往伴隨著單變量和多變量缺失模式,符合一般缺失模式。因此將單變量和多變量修復模型相結合,從時空相關性構建基于SA-RF的綜合修復模型,用于修復常見的一般缺失模式。

表1 缺失模式及修復方式

2 交通流修復流程

SA-RF修復模型主要包括數據處理模塊、SA-RF參數尋優模塊和SA-RF預測修復模塊,流程如圖1所示。數據處理模塊是剔除異常值、缺失值、標準化處理、劃分訓練數據集和測試數據集;SA-RF參數尋優模塊是以SA模型尋找RF模型4個主要參數,并確定最優參數組合,包括決策樹個數(n_estimators)、決策樹最大深度(max_depth)、節點可分的最小樣本數(min_samples_split)和葉子節點含有的最少樣本(min_samples_leaf);SA-RF預測修復模塊是根據最優參數組合和訓練數據集建立SA-RF交通流修復模型,預測修復交通流缺失值。

2.1 交通流數據處理模塊

由于公路隧道采集的交通流存在異常值,為保障訓練及測試數據集的完整性,在數據處理階段剔除包含缺失和異常值的數據條。根據單變量和多變量修復模型劃分對應的訓練集和測試集,并訓練SA-RF修復模型和參數尋優。

1) 單變量修復模型數據集

單變量修復模型是根據時間相關建立預測修復模型,在完整的數據集上,設定時間窗口的維度為k、步長為1,滑動提取交通流數據時間序列樣本量為t+1,構建k×t維時間序列特征矩陣X和目標向量

圖1 SA-RF修復流程

標簽Y,見式(2)。

Y=[y1,y2…yk]T

(2)

式中:xij為第i個樣本的第j維數據;yi為第i個樣本的目標值;X為時間序列特征矩陣,即修復模型自變量;Y為目標向量標簽,即修復模型因變量。

2) 多變量修復模型數據集

多變量修復模型是根據空間相關性建立預測修復模型,利用交通流各參數間非線性關系,以多變量預測方式修復交通流缺失數據。在完整數據集上,構建特征矩陣X,見式(2),其中k為交通流參數維度,t為交通流數據量,即采集樣本量。

3) 修復模型訓練集與測試集

為驗證預測修復模型的修復效果,根據單變量和多變量修復模型數據集,以9∶1分別劃分相應的訓練數據集和測試數據集。其中訓練數據集用于SA-RF模型的訓練和參數尋優,測試數據集的目標向量標簽Y需人為隨機缺失部分數據,用于驗證模型修復效果。

4) 誤差函數

以均方誤差(MSE)計算訓練過程中損失值,表示預測值與真實值之間匹配度,計算公式如下:

(3)

以平均絕對百分比誤差(MAPE)衡量修復值與真實值間的相對偏差,計算公式如下:

(4)

2.2 SA-RF參數尋優模塊

單變量和多變量修復模型在SA-RF模型中訓練方法相同,但訓練數據集不同,導致不同的訓練結果。按照圖1的訓練流程,將單變量和多變量修復模型訓練數據集分別作為輸入量訓練SA-RF模型。在訓練過程中以SA算法不斷迭代優化,尋找單變量和多變量修復模型的最優參數組合。在尋參過程中以RF模型預測值與真實值的MSE作為目標函數,快速、準確尋求最優參數組合,整個過程是一個求解全局最優問題。

2.3 SA-RF預測修復模塊

公路隧道采集的單條數據中會存在數據未缺失、單變量缺失和多變量缺失,因此,在實際應用中綜合2種模式對缺失數據進行修復。通過訓練數據集和最優組合參數對SA-RF模型進行訓練,利用訓練好的預測模型對缺失驗證數據集進行修復,應用MAPE評估修復效果。以交通流參數的車流量(Q)、平均車速(V)和時間占有率(Oc)為參數,確定缺失數據綜合修復步驟。

公路隧道部分檢測數據如表2所示。表2中,缺失數據用null表示;t+2、t+3…t+n時刻為單變量數據缺失;t+5、t+n-1時刻為多變量數據缺失。單變量修復模型需滿足該時間序列前k個數據未缺失,而多變量修復模型需滿足待修復變量的其他變量數據均未缺失。

表2 缺失示例數據

SA-RF綜合修復模型的修復步驟:1) 提取公路隧道交通流缺失數據,記錄缺失時間Ti、缺失變量(Q/V/Oc),并存儲在lose_data中;2) 判斷lose_data中第i個交通流數據缺失類型(單變量缺失/多變量缺失);3) 根據缺失類型建立待修復特征向量Xi,單變量缺失根據Ti時刻其他變量數據建立待修復特征向量,多變量缺失根據前k個數據建立待修復特征向量;4) 以SA-RF預測修復值,多變量預測修復模型修補單變量數據缺失,單變量預測修復模型修補多變量數據缺失;5) 以修復值補全交通流缺失值,并刪除lose_data中Ti時刻元素,若lose_data中元素個數為0,則完成所有缺失值修復,否則轉回步驟2)。

3 實例驗證

3.1 公路隧道交通流概況

為驗證綜合修復模型的準確性和可靠性,以重慶某公路隧道為研究對象,在同一時間和區域內持續收集交通流數據。采樣時間為2021-07-02—2021-09-17,采樣間隔1 h,共計采樣1 848組數據,如圖2所示。由于采樣交通流數據存在異常和缺失問題,需預處理原始采樣數據,包括剔除缺失值、異常值和標準化處理,同時按照9∶1劃分訓練數據集和測試數據集。訓練數據集用于SA-RF參數尋優和訓練修復模型;測試集劃分3%、5%、10%和15%缺失比例,用于驗證模型的準確性。

(a) 交通量

(b) 平均車速

(c) 平均時間占有率

3.2 訓練SA-RF修復模型

1) 參數尋優

在模型訓練階段應用MSE誤差函數計算模型損失值,可有效評估訓練模型準確性。以SA算法對RF模型參數尋優,調整主要參數和搜索空間,如表3所示。在SA算法中,以RF預測值與真實值的MSE作為目標函數,衡量在每種參數組合下的目標函數值,全局搜索最小MSE的參數組合。其中設置初始溫度100 ℃,退火速率0.99,結束低溫0.01 ℃。

2) 訓練單變量或多變量修復模型

根據單變量修復模型數據集,設定時間窗口k=24,即待修復數據前24個時刻交通流數據作為特征訓練向量,分別形成3條單變量訓練數據集,每個數據集包含1 521條訓練特征向量。分別對交通流參數Q、V、Oc訓練SA-RF單變量修復模型,并尋找最優參數。經過訓練后,結果如圖3所示。圖3中,從左到右分別為Q、V、Oc序列的SA-RF模型迭代誤差曲線,最終趨向與x軸平行的曲線為SA-RF最優迭代誤差曲線。

同理,針對多變量修復模型,設置空間特征維度k=2,構建對應訓練數據集,分別對交通流參數(Q,V)-Oc、(Q,Oc)-V、(Oc,V)-Q訓練SA-RF多變量修復模型,并尋找最優參數,單變量和多變量的最優參數如表3所示。

3.3 SA-RF綜合修復模型

由于修復模型存在前置限制條件,單變量修復模型要求完整時間序列的交通流數據,可用于修復單變量和多變量數據缺失模式;多變量修復模型要求同一時間維度的其他交通流特征未缺失,可用于修復單變量缺失模型。公路隧道交通流缺失數據具有隨機性、復雜性和時空性,缺失模型存在單變量缺失和多變量缺失共存的情況,從表3中可知,多變量修復效果遠高于單變量修復效果。因此,以多變量修復模型為主,單變量修復為輔,建立基于SA-RF的綜合修復模型,全方位、高精度修復公路隧道缺失數據。

表3 SA-RF修復模型最優參數與誤差

(a) Q序列

(b) V序列

(c) Oc序列

在交通流測試集上分別構建3%、5%、10%和15%缺失比例的隨機缺失數據,利用SA-RF模型分別對4種缺失率下的測試集進行修復,其修復效果如圖4所示。圖4中,曲線表示缺失交通流數據和修復交通流數據曲線。從圖4中可見,SA-RF模型預測修復曲線貼近于原始交通流曲線,大部分修復值點靠近真實值點,甚至部分點位重合,修復效果較好。

(a) 交通量(3%缺失率)

(b) 平均車速(3%缺失率)

(c) 平均時間占有率(3%缺失率)

(d) 交通量(5%缺失率)

(e) 平均車速(5%缺失率)

(f) 平均時間占有率(5%缺失率)

(g) 交通量(10%缺失率)

(h) 平均車速(10%缺失率)

(i) 平均時間占有率(10%缺失率)

(j) 交通量(15%缺失率)

(k) 平均車速(15%缺失率)

(l) 平均時間占有率(15%缺失率)

3.4 修復模型對比分析

為驗證基于SA-RF的綜合修復模型的準確率,選取RF、LSTM、均值插補修復模型對比分析,通過相同的訓練數據集進行訓練,按照隨機缺失率3%、5%、10%、15%劃分測試集,并預測修復缺失值。為綜合比較交通流修復效果,避免MSE會懲罰大偏差,以MAPE衡量交通流修復效果,結果如表4、圖5所示。

表4 不同缺失率、修復模型的誤差

圖5 不同修復方法的MAPE對比

MAPE反映修復數據偏離真實值的相對程度,MAPE值越小則修復值與真實值的相對偏差越小,修復精度越高。從圖5中可知,經SA模型調參優化,RF在不同缺失率下修復精度均得到提升,在3%缺失率時,SA-RF模型較未調參RF模型的MAPE降低24%。4種缺失率下使用SA-RF修復模型的MAPE值均低于RF、LSTM和均值插補修復模型,SA-RF修復曲線更貼近原始數據曲線。其中,在3%缺失率下,SA-RF修復模型相較RF、LSTM和均值插補辦法,修復效果分別提升了24%、34.06%和41.3%。對比不同缺失率下的SA-RF修復模型效果,結果表明,在5%缺失率時修復效果最好,相較15%缺失率,修復效果提升了13.64%,修復效果顯著。

4 結論

1) 基于模擬退火算法優化的隨機森林預測模型(SA-RF)能很好實現對低缺失率(5%)的交通流數據修復。

2) SA-RF模型預測效果優于傳統RF模型,在一定程度上通過SA模型進行參數尋優,可降低RF模型的修復誤差,提升模型預測準確性。

3) 根據交通數據的時間相關性和空間相關性分別建立單變量和多變量修復方式,構建相應訓練數據集、訓練和預測模型,將2種修復方式相結合建立SA-RF綜合修復模型。該模型可實現高精度和高魯棒性修補交通流數據。

4) 在交通流缺失率為3%、5%、10%和15%時,對比SA-RF修復模型與其他模型的修復效果,結果表明,SA-RF在不同缺失率下均可高精度修復交通流缺失數據,且修復誤差指標MAPE均低于同等缺失率的RF、LSTM、均值插補修復模型。

猜你喜歡
交通流隧道變量
與隧道同行
抓住不變量解題
也談分離變量
神奇的泥巴山隧道
黑乎乎的隧道好可怕
交通流隨機行為的研究進展
路內停車對交通流延誤影響的定量分析
SL(3,3n)和SU(3,3n)的第一Cartan不變量
LED隧道照明節能改造探討
具有負壓力的Aw-Rascle交通流的Riemann問題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合