?

多種缺失模式下交通數據組合近似填補方法

2023-12-28 02:53郭鳳香黃金濤陳昱光郭延永劉攀
交通運輸系統工程與信息 2023年6期
關鍵詞:閾值交通變量

郭鳳香,黃金濤,陳昱光,郭延永,劉攀*

(1.昆明理工大學,交通工程學院,昆明 650504;2.東南大學,交通學院,南京 210096)

0 引言

交通數據采集和處理是城市智能交通系統構建的關鍵,而完備的道路交通信息則是把握路網動態所必需的。但是,在實際環境中交通數據的采集設備常會因設備故障或傳輸故障等問題導致所采集的數據是缺失的。對于缺失數據傳統的做法是直接刪除,但這樣做往往會嚴重影響樣本分布,導致下游任務無法順利展開,進而影響最終結果。為了解決上述問題,對這些缺失數據進行相應的補全成為研究的關鍵。近年來,隨著計算能力和統計學方法的不斷發展,針對缺失數據的研究得到了顯著進展。各種復雜而靈活的缺失數據處理方法應運而生,目前,主流的數據填補方法分為3種,即插值填補法、預測填補法和統計學習填補法[1]。

對于連續且具有時間特性的交通數據來說,相鄰的數據之間存在關聯性,因此使用相鄰非缺失數據的均值進行插值填補十分有效。簡單的插值方法如線性插值和樣條插值法,但這類方法只考慮前后數據特征,無法處理高缺失率及高維度的缺失情況。K-最近鄰算法(KNN)對于處理時間關聯性數據具有特別優勢,因此被廣泛用于數據填補。Zhang 等[2]改進KNN 模型通過計算缺失數據和所有訓練數據之間的灰度距離,為缺失數據選擇K最近鄰為缺失數據進行補全,但該方法填補效果依賴于參數選取,填補效率不高。Cheng 等[3]建立了一種自適應時空K最近鄰模型,綜合考慮城市交通的空間異質性,模型的泛化能力較強,但該方法適用于短時隨機缺失,對于長序列連續缺失,適用性不高。

預測填補法主要是解決完全缺失數據填補問題,可根據歷史數據和其他相關特征屬性利用相關預測方法估計缺失值。典型的方法如自回歸綜合移動平均(ARIMA)[4]、支持向量機(SVM)[5]、人工神經網絡(ANN)[6]等。隨著數據量的激增,機器學習和深度學習被廣泛應用于缺失數據預測。Zhang等[7]提出一種基于圖卷積網絡模型的交通數據完成模型,結合時空特征推導缺失值,但模型僅對時空依賴關系明顯的交通參數具有良好效果,對時空關系不顯著數據的填補效果則差強人意??紤]到不同交通場景信息對數據填補的影響,Yang等[8]提出了一種時空可學的雙向注意生成對抗網絡來進行數據補全,模型可自主學習優化參數,在低維數據補全任務中性能得到改善。對于高維復雜交通數據,Wu等[9]設計了一個多注意張量完成網絡來進行數據補全,增強了對復雜數據缺失補全。這種基于網絡模型的預測方法總體效果較好,但對于小樣本數據,模型就會失效,即數據量不足,模型無法訓練。此外,對于多變量隨機缺失,由于填補位置分散,缺失數據所處位置前后不一,使得填補工作復雜化。

統計學習方法通常會對數據集分布進行先驗假設,缺失值也適應相關的分布。例如,Lei等[10]引入時空高斯過程(GP)先驗來模擬低秩矩陣分解框架中的潛在因素進行數據填補,模型改進了GP 超參數學習方法,強調對交通數據的時空一致性描述。Wu等[11]利用交通數據的全局和非局部低階先驗,提出一種用于時空交通數據插補的張量完成模型,但該方法僅考慮了隨機缺失,相對于連續缺失,該方法并不適用。Huang等[12]提出一個基于概率一般線性模型的主成分分析來解決數據隨機丟失問題和交通速度數據的估算問題,該方法對城市多樣交通數據補全效果欠佳。

綜上,現有研究仍有以下幾點不足:(1)基于深度學習的數據填補方法需要一定的數據量才能完成模型訓練,且模型的超參數較多,對超參數的優化開銷太大,因此對小樣本數據的填補任務適應度不高。(2)當數據缺失模式為隨機時,缺失數據的插補方法多依賴于相鄰數據進行插值處理。而由于采集設備故障或在某一時段該地無檢測設備響應導致的數據連續丟失,一般的插值方法就會失效,故而針對不同的數據缺失類型需要更換不同方法,影響填補效率。(3)對于數據連續缺失問題,常使用預測填補法和統計學習方法來解決,但預測填補法無法使用后續數據對靠前數據進行預測補全,同時在實際中交通數據分布隨機且復雜,故而僅憑統計學習方法假設數據滿足相同分布亦會使得插補誤差增大。

針對上述數據缺失場景各填補方法存在的問題,本文提出一種多種缺失模式下交通數據組合近似填補方法。利用最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)進行填補增強模型在小樣本數據的適應性;為了提高模型效率,使用鯨魚優化算法(Whale Optimization Algorithm,WOA)優化LSSVM的超參數,解決模型部分參數人工選取問題。根據缺失數據自身的單變量特征以及與其相關的多變量特征,引入多重插補的思想,分別對缺失數據進行單變量填補和多變量填補,提取缺失數據的自身變化規律及長期波動特征,解決模型在多種缺失模式下的一法多用問題。最后依據單變量填補和多變量填補的差異度,提出使用自適應閾值分割法賦予不同時段的閾值,根據動態閾值對單變量填補結果和多變量填補結果進行加權求和后輸出,以滿足不同時段多種交通數據缺失場景,為研究交通數據補全提供新思路。

1 研究方法

1.1 整體框架

對于缺失填補主要有兩種思路,即單變量填補和多變量填補。單變量填補主要利用單變量信息,填補缺失數據;而多變量填補則是利用與缺失變量相關的其他變量信息對缺失數據進行填補。將兩者相結合提出基于WOA-LSSVM模型的組合近似填補方法,方法流程如圖1所示。首先根據單變量填補和多變量填補特征構建訓練數據集,對于單變量數據,利用滑動窗口分別對q個特征列H構建單變量數據樣本;對于多變量數據則是以缺失數據所屬變量為標簽,以該變量相關的其他變量為特征輸入構建多變量數據樣本。再根據單變量樣本數據,使用WOA-LSSVM 模型進行單變量填補,將填補結果輸入到多變量數據樣本的特征輸入中作為訓練數據集,利用WOA-LSSVM模型來預測缺失值,同時引用鏈式多重填補思想,將預測結果與原值進行比較分析后,輸出多變量填補結果。最后考慮到交通的周期性特征使用自適應閾值分割法劃分不同時段下的動態閾值,依據閾值將單變量填補結果和多變量填補結果結合完成缺失值填補。

圖1 組合近似填補方法流程Fig.1 Combined approximate fill method flow

1.2 基于鯨魚優化算法的LSSVM改進模型

LSSVM 是在SVM 基礎上建立的一種改進算法,LSSVM以等式約束條件代替標準SVM中的不等式約束條件,采用最小二乘線性系統誤差和作為損失函數,降低模型復雜度,減少訓練時間,克服數據量較少的問題。

將采集的路網浮動車實時運行數據進行預處理,處理后構建訓練集D={(xi,yi)|i=1,2,…,n},其中,xi為第i個輸入樣本,yi為第i個輸出樣本,n為樣本數。模型的優化目標與約束條件為

式中:J(·)為損失函數;w為權重向量;b為偏差參數;φ為核函數;γ為懲罰因子;ei為第i個樣本的隨機誤差。

LSSVM 的核函數K(xi,xj)對模型的魯棒性及泛化能力有著較高的影響,大量研究表明,高斯徑向基(RBF)函數在預測任務中表現良好,因此本文選取RBF作為核函數,即

式中:xj為第j個輸入樣本;σ為核函數寬度。

LSSVM的預測精度取決于核函數寬度σ及懲罰因子γ,不合理的參數設置容易使LSSVM 陷入局部最優,導致模型預測精度不佳。故本文引入鯨魚優化算法(WOA),進行全局尋優,以提高模型建模精度。其優化流程如圖2所示,具體步驟如下。

圖2 WOA-LSSVM模型Fig.2 WOA-LSSVM model

Step 1 為統一量綱,減少樣本數據存在數量級的差距,將樣本數據做歸一化處理。

Step 2 WOA初始參數設置。主要設置變量數Vdim、最大迭代次數tMaxiItem,鯨魚種群規模為S,變量下限bl及變量上限bu。

Step 3生成初始位置坐標X0(γ,σ),基于初始位置構建LSSVM模型,并進行模型訓練。

Step 4 根據預測結果計算LSSVM模型的均方根誤差(RMSE)作為適應度值,保留最小適應度值對應最優鯨魚位置坐標X*(γ,σ),作為當前最優個體位置。

Step 5 若迭代次數t <tMaxiItem,則根據選擇收縮包圍機制概率P和系數向量A,更新位置坐標。

當 |A|<1且p <0.5 時,更新位置為

當 |A|<1且p >0.5 時,更新位置為

當 |A|≥1時,更新位置為

式中:t為迭代次數;X(t)為當前鯨魚位置坐標;X*(t)為鯨魚最優位置坐標;D為鯨魚與獵物之間的距離;C為系數常量;g為常數用于定義螺旋形狀;l為[-1,1]中的隨機數;Xrand(t)為隨機坐標,即當|A|≥1 為隨機搜尋方式,當 |A|<1 時,選擇螺旋包圍方式。利用更新后的位置坐標訓練LSSVM模型。

Step 6 重新計算模型預測的均方根誤差,保留最小適應度的鯨魚位置坐標,并輸出結果。

1.3 組合近似填補方法

數據填補主要考慮兩種情況,即單變量填補和多變量填補。單變量填補顧名思義就是利用缺失數據自身的變量信息進行模型訓練,強調捕捉單個變量內在的變化特征,完成數據填補。而多變量填補則是利用與缺失變量相關的其他變量信息構建模型進行填補,達到獲取連續缺失信息的目的。以往對于多變量填補多使用鏈式多重填補,未考慮缺失變量自身的內在規律,因此本文提出組合近似填補方法(CAF),其填補流程如下。

Step 1 構建數據集

標記數據集中各屬性變量缺失值。依據單變量和多變量的特征,分別構建訓練數據集。對于單變量樣本,需要先剔除缺失值,將數據集中的數據分組,每組前k個值作為特征輸入,第k+1 作為標簽,滑動步長默認為1 構建訓練集,如圖3(a)所示;對于多變量填補是以缺失數據所屬變量為標簽,以該變量相關的其他變量為特征輸入構建多變量數據樣本,如圖3(b)所示。

圖3 訓練集構建過程Fig.3 Training set construction process

Step 2 單變量填補

利用單變量樣本數據集訓練WOA-LSSVM。然后針對單個變量特征的缺失值使用訓練后的模型進行填補,輸出單個變量缺失值的填補結果yui。

Step 3 多變量填補

將Step 2 中的輸出結果補全多變量樣本數據集中的特征輸入,完善訓練集后進行WOALSSVM 模型訓練,最后使用訓練后的模型對整個缺失數據特征列進行預測。此時得到的數據并非數據的填補值,還需要將預測結果與缺失數據列進行對比分析,依據預測結果,選取與缺失值預測結果相近的值作為參照,設置鄰近匹配數(Number of Proximity Matches,NPM)來限制匹配鄰近值的參考數量,假設NPM 為3,則計算3 個鄰近預測值均值與原數據值的比值,根據比值對缺失數據預測值等比例縮放后得到多變量填補結果。對所有缺失屬性均執行上述操作,直到所有特征屬性無缺失值,得到多變量填補結果ymi。

Step 4 組合近似填補

以Step 2 和Step 3 填補結果為基礎設定閾值,當兩者填補結果差異度超過閾值,選取最大結果作為參考對模型填補結果進行修正;當兩者填補結果差異度低于閾值,選取最小結果作為參考對模型填補結果進行修正,修正后得到最終結果。計算公式為

考慮到交通數據的周期性特征,不同時段數據分布特征不同,本文引入圖像識別中的自適應閾值分割法,其思想不是計算全局閾值,而是針對不同局部區域自適應計算不同閾值。因此對不同時段內的數據依據填補結果差異度劃分不同閾值,避免不同交通流狀態下填補界限模糊。該閾值設置為在時段T下所有缺失位置的差異度平均值,以實現不同時段閾值的自動確定,從而對不同時段下的不同閾值進行自適應,其計算公式為

式中:M為在t時段下缺失值數量。

2 實驗分析

2.1 數據介紹

利用車載診斷系統(On-Board Diagnostics,OBD)采集獲得云南省玉溪市實車軌跡數據,數據采集頻率為6 s·次-1。數據字段包括車輛代碼、GPS時間、車輛定位信息、速度集合等信息,其中,每次上傳速度數據為6個,即可認為速度數據采集頻率為1 s·次-1。采 用2022 年2 月21 日 和22 日9:00-19:00的浮動車軌跡數據,處理后得到6291450個軌跡點。本文共選取8 條路段,如圖4 所示。提取各路段軌跡數據,按5 min 時間間隔計算路段平均速度和路段平均行程時間,同時根據軌跡數據計算對比度(CON)和逆方差(IDM),以分別描述車輛的加減速工況和怠速工況[13]。最終得到道路完整參數數據集如表1所示。

表1 道路參數數據集Table 1 Dataset of road parameters

圖4 實驗路段Fig.4 Experimental section

2.2 實驗設計與評價指標

為驗證本文填補方法的有效性,同時針對交通數據缺失特點設計兩種缺失模式:一種是由于浮動車分布不均導致路段短時間內沒有車輛經過產生隨機缺失,如圖5(a)所示;另一種是由于設備問題導致路段上數據的連續缺失,如圖5(b)所示。為還原數據缺失隨機性,在完整數據集中利用隨機函數還原兩種缺失模式。同時,利用鏈式多重填補(MICE)[14]和K-最近鄰(KNN)填補[15]與組合近似填補(CAF)方法進行對比,以比較模型填補效果。閾值更新時間為2 h,其他模型的初始參數設置如表2所示。

表2 實驗初始參數設置Table 2 Initial parameter settings for experiment

圖5 缺失模式Fig.5 Missing patterns

本文使用兩個評價指標來評價模型的補全效果,分別為平均絕對誤差(MAE)和均方根誤差(RMSE),其表達式為

式中:N為缺失數據個數;Yi為第i個實際值;為第i個填補值。

2.3 補全效果分析

為探究不同缺失模式下多變量填補模型和單變量填補模型填補效果的差異度,本文在上述兩種數據缺失模式下,以5%的缺失率設計對比實驗。以平均速度為列,利用WOA 算法進行迭代優化模型參數,迭代過程如圖6所示。利用訓練好的模型進行多變量和單變量填補其差異度結果如圖7 所示。從圖中可以看出,無論是隨機缺失(圖7(a))還是連續缺失(圖7(b)),模型差異度較大的地方多集中于真實值中的低值,當缺失值低于10時,兩種填補方法差距急劇擴大,最大差異度達到80%。這是由于在低數值階段差異度的分母較小,放大了差異度,而在高數值階段分母較大縮小了差異度。從兩種缺失模式下的填補效果來看,隨機數據缺失的填補結果更加穩定。這也表明,在不同數據量綱中簡單地使用其中一種填補方式的填補結果過于片面,需要更多的數據參考,以增強填補效果。

圖6 模型迭代圖Fig.6 Model iteration diagram

圖7 多變量與單變量填補差異度Fig.7 Multivariate versus univariate imputation dissimilarity

為對比CAF 的填補效果,選取MICE 和KNN作為基線模型進行對比,以平均行駛速度和平均路段行程時間為例,當缺失率為5%時,3 個模型的填補結果如圖8 所示。從圖中可以看出:3 個模型的填補值與真實值分散程度相近,模型在隨機缺失模式下補全效果最好;在連續缺失情況下由于長序列缺失,使得模型填補誤差較大,但模型CAF的填補表現較KNN和MICE優異。此外,對比平均行駛速度和平均路段行程時間的填補效果可以看出,當缺失數據離散程度較高時,模型的填補難度增大,相較于KNN 捕捉缺失數據的變化趨勢和MICE 提取缺失數據的波動情況,CAF利用單變量和多變量進行組合填補達到同時提取缺失數據變化趨勢和波動情況的目的,繼而提高缺失數據補全準確性。

圖8 模型填補結果Fig.8 Model filling results

為進一步比較3種方法的填補效果,以路段平均速度為填補對象,改變缺失率,研究在兩種缺失情況下,不同缺失率模型的填補效果,結果如圖9所示。從圖中可以看出:隨著缺失比例的升高,模型的誤差增高;在平均速度隨機缺失的情況下模型的RMSE 和MAE 比數據連續缺失更低,當缺失率達到30%時最為明顯;數據隨機缺失情況下,CAF模型的RMSE僅為0.37,而連續缺失情況下CAF模型的缺失值為1.81,這說明模型對隨機缺失適用性更好。本文提出的CAF 缺失值補全方法在各種缺失概率下均優于另外兩種缺失補全算法,尤其是在連續缺失填補中,CAF 的RMSE 和MAE 均遠低于對比算法,當缺失率為25%時,CAF相較于KNN和MICE的平均絕對誤差(MAE)下降了70%。原因在于本文算法考慮了其他變量特征對缺失變量的影響,繼而掌握了缺失變量值的長期波動,同時也考慮了自身數值的變化規律,能夠更好地捕捉缺失數據本身的浮動規律,提高了缺失值的填補精度。

圖9 不同缺失率下模型填補結果Fig.9 Model imputation results under different missing rates

3 結論

本文針對交通數據缺失問題提出基于WAOLSSVM 的組合近似填補方法,根據單變量和多變量的組合填補結果捕捉缺失數據的短期變化趨勢和長序列的波動特征以提高缺失值補全精度。利用云南省玉溪市軌跡處理數據進行實驗,根據實驗結果可以得到以下結論。

(1)數據隨機缺失情況下的填補效果優于連續缺失,數據連續缺失序列越長,填補誤差越大。通過實驗表明,模型在缺失率較大的情況下依然保持良好的填補精度,證明在利用數據本身時序規律的同時,提取其他相關變量間的關聯信息,對提高缺失值填補精度有著重要作用。

(2)數據的離散程度對數據填補精度有著重要影響,尤其是針對連續缺失狀態下,數據離散程度越高,填補效果越差。

(3)本文提出的組合近似方法可以輕松處理小樣本混合數據,超參數少且可自主優化,降低填補的復雜性,提高了填補精度。

猜你喜歡
閾值交通變量
抓住不變量解題
繁忙的交通
也談分離變量
小波閾值去噪在深小孔鉆削聲發射信號處理中的應用
基于自適應閾值和連通域的隧道裂縫提取
小小交通勸導員
比值遙感蝕變信息提取及閾值確定(插圖)
室內表面平均氡析出率閾值探討
SL(3,3n)和SU(3,3n)的第一Cartan不變量
分離變量法:常見的通性通法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合