?

基于軌跡數據的出租車交接班時空分布識別方法

2021-12-07 10:10鄒復民羅思杰陳志輝廖律超
計算機應用 2021年11期
關鍵詞:交接班軌跡聚類

鄒復民,羅思杰*,陳志輝,廖律超

(1.福建省汽車電子與電驅動技術重點實驗室(福建工程學院),福州 350118;2.福建省北斗導航與智慧交通協同創新中心(福建工程學院),福州 350118;3.數字福建交通大數據研究所(福建工程學院),福州 350118)

0 引言

交通軌跡數據暗藏了城市豐富的潛在信息,蘊含了交通結構化要素[1-2],可有效挖掘出人車流動模式、路網變更、能源消耗分布[3-5]等,對城市交通資源配置、管理和規劃有著非常重要的指導作用[6]。出租車是城市交通的重要組成成分,其交接班的地點與時間是否合理對出租車的運行效率、公眾的便捷出行以及城市的交通狀況的有著重要影響[7]。

出租車交接班行為是指前一位駕駛員停止運營且車輛停止運行到后一位駕駛員接替車輛開始運行的過程。交接班地點為交接班行為中停留的地點,交接班時間定義為前一位駕駛員交完后,后一位駕駛員接的時間[8]。目前,針對出租車交接班的時間與地點的理想布局與實際布局已展開了大量研究。文獻[9]基于出租車的使用效率和出租公司的收益為綜合指標,建立出租車交接班時間優化模型,給出了最佳的出租車交接班時間段,文獻[10]建立了預測出租車需求量的數學模型,提供了出租車數量、交接班地點的配置建議,這兩種出租車交接班方法理論上具有參考價值,但真實的交接班存在各種不可控因素,理想模型與實際情況會有較大區別。文獻[8]利用多尺度滑動窗口模型對出租車交接班事件在多個時間、空間尺度進行搜尋,并定義交接班事件支持度對搜尋結果進行評估,借用卷積神經網絡中的卷積窗的思想,對交接班行為與時間進行滑窗檢測。這種方法會受到時間、空間窗尺度的約束,即交接班行為必須在設定好的同個時間、空間窗內進行才能夠被識別,缺乏一定的靈活性;其次,此方法以停留次數為交接班地點的參考因素,容易造成交接班地點大多聚集在待客、送客的人流量密集區域,影響交接班地點的真實性。文獻[11]通過對出租車交接班行為進行數學建模,發現交接班時空序列特征近似符合高斯分布,通過訓練樣本得出高斯模型的擬合參數對出租車交接班行為進行識別,以時序特征間隔時間、間隔距離、事件時長、空載距離四項參數為交接班點的評定標準,但不同城市的各項特征可能存在差異或交接班行為與四項特征的關聯性不強,交接班識別的準確性也會因此受到影響。文獻[12-13]通過IC 卡記錄數據與軌跡數據相結合來挖掘交接班行為。IC卡數據中記錄了運營者的上下班時間,讀取前一位運營者的下班時間與下一位的上班時間之間間隔時間即可得到交接班時間范圍,對交接班時間范圍內速度為0 的停留點進行聚類,簇中存在多天的停留點即交接班地點。該方法提取數據中存在的交接班特性進行交接班識別,克服了模型擬合的弊端,適用范圍廣。但仍存在一些不足:1)未對停留點分類進行深入研究,速度為0 的點可能是車輛非運營狀態的停留點,可能也為車輛運營狀態的停留點,只有在車輛非運營下的停留點才有可能為交接班地點,將速度為0 的點作為交接班的識別缺乏科學性。2)交接班地點識別沒有時間間隔判定,可能會存在小于8 h或大于12 h工作時間的非交接班事件誤判行為。3)交接班時間識別過分依賴于IC 卡打卡數據,而許多出租車運營監管系統并未要求駕駛員上下班打卡,以致于IC 卡打卡數據缺失將無法識別交接班時間,從而具有一定局限性。

針對以上存在的問題,本文提出了一種既有普適性又有科學性的交接班識別算法——基于軌跡數據挖掘的交接班識別算法。首先,深入分析軌跡數據中的語義信息,規整歧義信息,精準提取出租車停留點;其次,計算出軌跡點最佳聚類半徑,保證密度聚類算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[14]對停留點聚類的最優范圍以保證潛在交接班地點數據的可靠性和科學性;然后,通過地點到達頻繁度指標與停留周期指標對潛在的交接班地點進一步篩選,剔除不符合交接班特征的數據,確保了交接班地點的準確性;最后,基于交接班地點的時間維度,對每輛車的所有交接班時間進行核密度估計[15],挖掘出交接班地點的時間規律,克服了IC 卡識別的局限性。以福州市的出租車為數據樣本,對福州市出租車的交接班時間與空間分布進行挖掘,有效地識別出5639個出租車交接班地點,時間主要分布在凌晨4:00~6:00與傍晚16:00~18:00,實驗結果符合出租車交接班規律。

1 相關概念與定義

出租車交接班時空分布識別主要基于軌跡數據挖掘,對出租車的停留、移動行為中隱含的信息進行知識發現。其中涉及部分交通領域的專業名詞,因此對其相關概念進行描述與定義。

1)交通軌跡是車輛有目的的移動,由時空點序列構成,主要包含有時間、地點、速度等數據屬性,如定義1所示。

定義1軌跡數據由多個軌跡點構成,Traj={D0,D1,…,DN},軌跡點包含有位置P、時間T、速度V等屬性,Di=(Pi,Vi,Ti),Pi為經緯度信息P={(Plon0,Plat0),(Plon1,Plat1),…,(PlonN,PlatN)},Ti是時間全序軸上的點值,均來自于實數域,Vi是在Ti時的速度信息,0 ≤i≤N,?i≤j,Ti≤Tj。

2)軌跡數據根據速度屬性可劃分為停留點數據和移動段數據。停留點即速度為0的連續軌跡點,移動段即速度不為0的連續軌跡點,如定義2所示。

定義2停留點STOP由多個連續的數據點組成,STOP={Ds,Ds+1,…,De},軌跡點的速度信息都為零,0

3)車輛運營狀態為車輛在持續行駛過程的狀態,無效運營是車輛速度短暫不為0 但處于運營狀態中,車輛非運營狀態為即車輛持續停留的狀態,無效非運營即車輛速度短暫為0但處于非運營狀態中,如定義3所示。

定 義3任意停留點STOPj={Ds,Ds+1,…,De},ΔT=Te-Ts,如果時間差ΔT小于停留時間閾值α1,停留點將轉換為移動段的軌跡:{Ds,Ds+1,…,De}→MOVE。任意移動段MOVEo={Du,Du+1,…,Dc},ΔT=Tc-Tu,如果時間差ΔT小于移動時間閾值α2,移動段將轉換為停留點數據:{Du,Du+1,…,Dc}→STOP。

2 算法設計

2.1 非運營狀態停留點檢測算法

為了深入挖掘出租車軌跡數據中的停留行為,首先對出租車運動狀態的特性進行分析。運動狀態根據車輛速度分為行駛與停留兩種模式,行駛模式為出租車速度不為0 的狀態,停留模式即出租車速度為0 的狀態。本文將軌跡分為兩類,即運營狀態以及非運營狀態。其中運營狀態主要分為車輛在尋找客源與載客兩種,非運營狀態為休息、吃飯、交接班等。本文主要分析挖掘軌跡數據中的非運營狀態數據,實現對出租車交接班的停留點的檢測。

STOP/MOVE 模型[16]可表述為軌跡在運營與非營運兩種狀態下的切換過程。如圖1(a)所示,一條軌跡含有200 條數據;將速度大于0 的運營軌跡點(MOVE 狀態)標記為1,速度為0(STOP 狀態)的非運營軌跡點標記為0,標記結果如圖1(b)所示。將軌跡數據的運營狀態數據與非運營狀態數據單獨提取出來,即可根據特定需求對不同狀態的數據進行挖掘。但軌跡數據中存在歧義信息,即運營數據與非運營數據中存在許多無效運營數據與無效非運營數據。由圖1(b)可以看出,在索引25到150之間出現了多次STOP與MOVE之間的狀態切換,這種情況可能是發生交通擁堵或者車輛在路口停車等綠燈通行,車輛停停走走,速度時而為0時而不為0,但車輛是實際在運營狀態,其中速度短暫為0 的STOP 狀態應歸類為MOVE 狀態。反之亦然,在司機休息時進行短時間的挪車、倒車等動作車輛速度不為0 但卻沒有處于實際的運營中,因此此類速度不為0 的運營狀態屬于無效運營,應歸為STOP狀態。

圖1 STOP/MOVE狀態映射效果Fig.1 Mapping effect of STOP/MOVE state

為避免無效運營、無效非運營事件的提取,使數據準確地表達屬性,本文使用速度序列線性聚類(Velocity Sequence Linear Clustering,VSLC)算法[17]對數據進行規整。首先設置狀態持續時間閾值對運營數據與非運營數據進行篩選,如果停留時間或移動時間小于設定的閾值,就將其狀態標簽進行轉換,避免交通擁堵與短時的挪車等行為對車輛狀態分類準確性的干擾。參考文獻[16-18],本文設置移動時間閾值α2為120 s,停留時間閾值α1為300 s,如圖2 所示,白色軌跡為非運營狀態的軌跡,黑色為運營狀態的軌跡,白色軌跡即速度為0的停留點數據,可用于交接班行為的識別。

圖2 VSLC算法示意圖Fig.2 Schematic diagram of VSLC algorithm

本文方法將出租車的運營與非運營狀態區分開來,改正了無效運營、無效非運營數據,避免了歧義信息對非運營停留點檢測干擾,保證了非運營停留點的準確性。算法偽代碼如算法1所示。

算法1 非運營停留點檢測算法。

2.2 潛在交接班地點提取算法

出租車交接班行為具有一定的空間聚集性,文獻[11]表明每日交接班行為范圍不會超過5 km 并且大部分集中于1 km 以內。根據這種特點,本文采用基于密度的空間聚類算法DBSCAN 對出租車非運營停留地點進行空間聚類并將停留高度密集的地點標記為潛在交接區域。DBSCAN 算法可定義為:給出空間點集SSTOP={Pi},其中任意點Pi的鄰域半徑Eps內的點集以Pi為圓心、以Eps為半徑范圍對點進行搜索,如果密度可達點的個數大于樣本最小閾值Minpts,則范圍內的點集合為一個簇,如式(1)所示。聚類示意圖如圖3所示,以Eps聚類出兩個簇N1、N2,N1、N2之外的點為噪聲。

圖3 DBSCAN算法聚類示意圖Fig.3 Schematic diagram of clustering by DBSCAN algorithm

其中:S表示某車輛所有軌跡點的集合;Pi為某車輛7 d內的非運營停留點的集合;Q為核心點;P表示在半徑Eps鄰域內核心點Q密度可達的點;NEps則表示在地點Pi的半徑Eps范圍內以核心點Q所有密度可達的非運營停留點的集合。dist表示為點P與Q的距離,本文采用haversine對距離進行度量,因此半徑范圍的非運營停留點集合表示為式(2):

DBSCAN 中的Eps參數對最終聚集效果具有決定性作用,為獲得最好的聚類效果,本文通過K距離方法[19]對Eps參數進行調優。K距離方法即先提取一輛車的所有非運營停留地點,再計算所有點之間的互相距離,距離計算為式(3)所示。將得到的距離從小到大排列,將其用圖形展示出來,距離曲線陡增位置的點即出租車非運營停留點相互距離的拐點就是最佳的聚類半徑Eps。

本文方法通過空間點密度可達關系得到的最大密度相連的空間點集合。根據車輛的非運營停留點對一定區域內的密度可達的點進行搜索,若非運營停留點的密度可達點數量大于最小樣本數則形成為一個簇,否則將點視為噪聲點,最后所有形成的簇即潛在的交接班地點。算法偽代碼如算法2所示。

算法2 出租車非運營停留高密度區域獲取算法。

2.3 交接班時空分布識別算法

目前國內的出租車行業經營者主要分為出租汽車經營企業和出租汽車個體工商戶兩種,兩種經營方式的交接班時間都是為早晚兩個,所以理想的狀態下,交接班時間的密度分布應為雙峰狀,而峰狀分布數據幾乎不會符合某種特定的性態,因此難以用參數方法進行擬合。核密度估計是一種概率密度函數的非參數檢驗方法,用來估計未知的密度函數,十分適用于未知分布樣本,因此為搜尋停留結束時間比較集中的時段,本文通過核密度估計(Kernel Density Estimation,KDE)進行交接班時間的識別。

本文先通過核密度估計對各個潛在交接班時間點生成核密度曲線,再對集中較為密集的時間點進行標記,提取最為集中即密度最高的兩個時間即出租車交接班時間Timeshift1與Timeshift2。核密度曲線計算如式(4)所示。

其中:timei為給定的停留結束時間樣本;Kh()為核函數,本文選取高斯核;n為樣本數量。為提取出概率密度最高的兩個值,可以對生成的核密度曲線進行微分,計算所有f 'kernel(t)=0 所對應的概率密度,經過排序后取概率密度最高的兩個t值,t值即為交接班的兩個時間。

由于出租車行駛區域的廣闊性與隨機性,可能會在非交接班地點區域頻繁停留,導致潛在交接班地點的誤判,因此設置了兩個交接班事件判斷指標進一步對潛在交接班地點進行篩選,保證交接班地點的準確性。

1)到達頻繁度指標。

出租車車主的就餐與上洗手間也為非運營狀態的停留時間,在工作過程中,車主可能會對某一熟悉的餐廳或公共衛生間、加油(氣、電)站等有使用偏好,停留頻繁度相對較高。為防止車主就餐、上廁所等停留行為對交接班精準識別的影響,本文定義地點支持度對潛在交接班地點進行評估,支持度FS指的是駕駛員在某一地點的頻繁度,即在一個工作周期k內同一地點停留的頻率,計算方法如式(5)所示:

其中:NS為在區域S內的到達天數;k為工作周期,本文k取7即一周。

交接班是出租車每天都會進行的活動,基本上每天都會發生兩次,而且地點比較固定。由于出租車的工作范圍為整個市區,就餐與上廁所、加油(氣、電)等行為主要根據車主工作位置而定,所有幾乎不會存在每天同一地點進行就餐、上廁所行為。因此,本文設定到達頻繁度指標篩選掉就餐、上洗手間等可能會干擾交接班行為準確識別的潛在因素,進一步保證交接班地點的準確性??紤]到換班、休班情況,本文設定每周的工作時間為5 天,即NS為5,FS的閾值為0.71。對于潛在交接班地點的簇中,如果非運營停留點的天數沒有達到5 天,即FS小于0.71,將不予交接班地點考慮。交接班的地點與時間由出租車車主根據自身情況自由安排,地點可能為1個或2個,本文選取每輛車支持度FS最高的兩個潛在交接班地點作為交接班地點候選,其中支持度FS大于0.71的潛在交接班地點作為交接班地點考慮。交接班位置主要可能在司機家附近區域或兩個司機都方便的某個地鐵口或公交車站附近,只要存在一周內5 天及以上停留,都會判別為交接班行為,任何地點進行交接班行為都可識別。

2)停留周期指標。

在城市中心區域、車站、機場等人流量高的區域,出租車需求量相對偏高,出租車停留密度也會相應增加,可能會存在在此處待客的行為,為避免將其誤判為交接班地點,本文設置停留周期指標對交接班地點進行篩選,計算式如式(6)所示:

其中:Timeshift1與Timeshift2為在一個交接班潛在地點內停留結束時間最為密集的兩個時段;ΔTimeshift為兩個交接班行為的間隔時間。

根據出租車運營制度以及文獻[11]統計,出租車交接班集中在兩個時段且間隔時間一般在8~12 h,即只有8 h≤ΔTimeshift≤12 h,則判斷為合理。如果潛在交接班地點的兩個密度最大的非運營停留點結束時間不在8~12 h 的范圍內,將不予認定為交接班地點。市中心和車站機場等高密度停留區域的停留待客時間比較隨機,沒有交接班這種停留結束時間在8~12 h 的停留規律,出租車基本不會存在每天都在8~12 h的間隔時間在同一區域待客,且就餐、上洗手間也沒有10~12 h的規律,所以停留周期指標可以篩選掉此類影響交接班地點準確性的因素。

本文先精準提取出出租車非運營停留點,基于非運營停留點進行聚類獲取非運營停留高密度區域即潛在的交接班地點,再通過非運營停留高密度區域各非運營停留點的停留結束時間進行核密度估計得出潛在交接班的時間與地點,最后根據交接班事件判斷指標去掉非交接班事件得出有效的交接班地點與時間,算法具體流程如圖4 所示。為驗證本文方法的科學性,本文引入最新的交接班算法如文獻[8]方法與權威的交接班算法如文獻[13]方法進行對比分析。文獻[8]方法以滑動窗口對研究范圍內的軌跡數據進行檢測,滑動窗口的大小代表交接班地點的范圍。窗口尺寸從小到大進行檢測,每進行一個尺寸的窗口滑動時,在窗口對軌跡的時間屬性進行一個時間窗口的滑動,以時間窗口的大小作為交接班時間的范圍。首先該方法對交接班地點與時間的精確性有一定不足,無法準確地獲取出每輛車的交接班的地點和時間,只能得出一個范圍,而本文方法可以精確地獲取每個交接班的地點與時間。其次,該方法以車輛在某區域或時間的頻次作為交接地點與時間確定的重要標準,沒有對車輛在區域或事件的停留作具體分析是否為交接班行為,或者為某個人流量較高區域的待客、送客等行為,從而容易造成交接班事件的誤判,而本文方法以篩選過短暫停留行為的停留點為交接班地點參考,短時間的待客停留、交通擁堵等不會認定為交接班事件。最后,文獻[8]方法中每輛車只提取出了一個交接班地點,可能存在交接班地點的漏判。相較于文獻[13]方法,本文的非運營停留點檢測方法可規避交通擁堵、路口紅燈停留等短暫停留數據對交接班地點識別的誤導,而文獻[13]方法未對停留點的行駛狀態分類細化研究,將車輛運營狀態下的停留點也歸為交接班地點的計算中,可能會存在交班地點出現在某條經常擁堵的道路上或某個十字路口等的錯誤識別。其次,本文方法的到達頻繁度指標與停留周期指標可以篩選掉潛在交接班地點中加油(氣、電)、就餐、上洗手間、等不頻繁一地停留行為與周期嚴格在8~12 h 規律的簇,進一步保證了交接班識別的準確性。文獻[13]方法以停留點聚類成的簇作為交接班地點的識別,交接班地點中可能會存在出租車司機頻繁就餐的餐廳、公共衛生間、加油(氣、電)站等區域。而且,文獻[13]方法以停留點最多的地方為交接班地點,交接班地點只存在1 個,然而交接班地點為車主根據各自需求而定,可能為1個也可能為2個,所以文獻[13]方法識別的交接班地點中可能存在缺漏。本文以符合停留周期指標且到達頻繁度指標最高的兩個交接班地點為候選交接班地點,取符合到達頻繁度指標的候選交接班地點為交接班地點,交接班地點可能為1 個也可能為2 個,保證了交接班地點的完整性。最后,文獻[13]方法的IC 卡信息準確地記錄了運營者的上下班時間,可直接提取出交接班的時間,但大部分的出租車公司允許出租車車主自由安排交接班時間,并不需要記錄駕駛員的上下班信息,IC卡數據獲取交接班行為的方法有一定的局限性,而本文方法通過挖掘交接班地點中的時間規律,識別交接班時間,具有普遍適用性。

圖4 出租車交接班地點、時間挖掘算法Fig.4 Algorithm for mining location and time of taxi shift

3 實驗與結果分析

本文的實驗運行環境是Windows 10 操作系統,實驗設備的硬件配置是Intel Core i7-9750H CPU @2.60 GHz,內存為16 GB,算法采用Python 語言編寫,實驗數據來源于福建省北斗導航與智慧交通協同創新中心通過車載診斷系統設備采集于2018年6月11日至17日的4416輛出租車的軌跡數據。軌跡數據包含ID、經度、緯度、速度、方向、時間戳六個屬性,具體見表1。其中方向屬性范圍為0°~360°,正北方向為0°,由順時針方向逐漸趨于360°,經緯度坐標以GCJ-02為坐標系。

表1 交通軌跡數據屬性Tab.1 Attributes of traffic trajectory data

3.1 非運營停留點檢測

對所有車輛的非運營停留點進行分析,每輛出租車平均每周停留197 次,車輛每周的非運營停留點個數主要集中在100~300。圖5(a)表示為一輛出租車的非運營停留點分布,從圖中可看出,出租車營業范圍較廣,覆蓋區域幾乎為整個市區,在琴聲商務廣場與西元大橋附近存在兩個非運營停留點點數比較密集的區域,可能為此輛車的交接班地;圖5(b)為文獻[13]方法對同一輛車的檢測效果,從中可看出,停留點數遠多于本文方法的檢測結果,文獻[13]方法以速度為0 km/h的停留點作為交接班地點,短暫的堵塞或路口等綠燈通行的行為都會被判定為停留點,所以在圖中存在許多在路網上的停留點。相較于文獻[13]方法,本文方法對停留點的檢測量少而精準,不存在誤檢,既提高了聚類的地點的準確性,同時又減少了算法運行時間。

圖5 停留點分布檢測效果對比Fig.5 Comparison of parking point distribution detection effect

3.2 潛在交接班地點提取

為識別潛在交接班的地點,先通過K距離方法確定聚類的半徑Eps,本文對一輛車7 d 內的非運營停留點計算K距離值,對其排序后如圖6所示。

從圖6 中可以看出,該車輛的非運營停留點在100 至130都是小幅度遞增,130 至140 處開始出現大幅度遞增,拐點的位置在130 左右。為具體得到聚類半徑的值,本文隨機選取10輛車的非運營停留點進行驗證,結果如表2所示,結合實驗結果本文選取頻率最高的130 m 作為Eps。交接班行為一般每日都會發生,但司機每周可能會休息一到兩天,所以假定每周至少會上5 天班,也就是每個交接班地點出租車每周至少會有5次抵達,所以聚類的最小樣本數Minpts設定為5。

圖6 潛在出租車交接班地點范圍Fig.6 Range of potential taxi shift locations

表2 潛在出租車交接班地點的最佳聚類半徑Tab.2 Optimal clustering radius of potential taxi shift locations

選取一輛車的非運營數據進行DBSCAN 算法聚類分析,聚類結果如圖7 所示,圖中區域存在三個潛在交接班地點,其中兩個不在道路上的潛在的交接班地點可能為交接班地點,而另外一個在十字路口的簇可能是等綠燈時的停留點所形成。圖8 為所有的聚類結果,共聚類出8306 個簇即潛在交接班地點,覆蓋了整個福州市區。

圖7 DBSCAN算法的聚類結果Fig.7 Clustering results of DBSCAN algorithm

圖8 福州市出租車潛在交接班地點分布Fig.8 Distribution of potential taxi shift locations in Fuzhou

3.3 交接班時空分布識別

交接班行為不僅在空間上具有相關性,在時間維度上也具有一定規律,為保證交接班事件識別的準確性,對每個潛在的交接班地點的時間維度進行進一步判別。對每個地點的停留離開時間進行核密度估計,得出潛在交接班地點的密度最大的兩個時間。圖9 為某個潛在交接班地點停留結束時間的概率分布,可以看出在400 min 與1000 min 處(6:30 以及16:30),停留結束事件最多,并且二者間隔約為10 h,因此可判斷此處為交接班地點,交接班行為大約在上午6:30 以及下午4:30(16:30)。

圖9 單輛車的潛在交接班時間的概率分布Fig.9 Probability distribution of one taxi’s potential shift time

在得出潛在交接班的時間后,通過交接班事件判斷指標對潛在交接班地點在時間維度上進一步篩選,結合7 天時間內4416 輛出租車的運行軌跡進行實驗,識別出交接班地點5639 個,圖10 為本文方法交接班識別效果與文獻[8]方法和文獻[13]方法交接班識別效果,其空間分布投影于研究區域路網,結合電子底圖顯示交接班停留的空間分布情況,從白色到黑色表示交接班行為強度逐漸增強。

由圖10 可以看出,本文方法識別出的交接班地點區域與文獻[8]方法、文獻[13]方法的交接班識別區域大體相同,交接班行為在鼓樓區、晉安區、臺江區強度高。這三個區域囊括了福州市居民的主要工作區域、交通樞紐、商圈以及風景名勝。交接班行為最為活躍的區域是鼓樓區與倉山區的交接區域,這片區域是福州市最為繁華的娛樂性區域,包含了萬象城、寶龍城市廣場、中亭街等福州市發展最早的商圈區域。倉山區交接強度較小,這是由于倉山人口密度相對于中心區域人口密度較小,出租車司機通常會選擇人口較為稠密、商業活動集中的中心地帶作為開始工作的地點。與文獻[8]方法和文獻[13]方法相比,本文方法在交接班密集區域還是存在較大的差別。文獻[8]方法的密集區域主要在鼓樓區的東街口、51 廣場、臺江區的萬寶城以及福州站這些人流量密集區域,其他區域相對很低,這是由于文獻[8]方法以車輛流動頻次作為交接班評定的主要依據,而這些人流量大較且繁華的區域幾乎為出租車每天必達區域,所有大多數出租車都在窗口滑動時在此區域時空頻繁性相對要高,交接班事件的密度也就相對更集中于這些區域。鼓樓區是福州市的文化、政治中心,相對于其他區域而言,交通管制更為嚴格,一般不會允許車輛長時間停留,因此幾乎不存在交接班行為。文獻[13]方法在鼓樓區中心區域交接班行為也較為密集是因為市區交通較為擁堵,存在許多走走停停的駕駛行為,短暫的停留行為視為停留點用來交接班行為識別,導致鼓樓區中心區域交接班密度也依舊較高。晉安區的福州站人口流量大,客源較多且位于郊區,所以交接班行為也較多。而文獻[13]方法在福州站處密集度不夠高是因為在鼓樓區與晉安區站交界處存在較多的短暫停留,在此區域的聚類成的簇也就更多,而每輛車只有一個交接班地點,所以在福州站附近密度就會較低。

圖10 福州市出租車交接班地點的空間分布Fig.10 Space distribution of taxis shift locations in Fuzhou

在2021 年2 月24 日對本文中交接班密集區域進行了蹲點調查法,共收集到73 輛出租車的調查報告。根據數據統計可知,73輛車中51輛車為1個交接班地點,16輛車為2個交接班,6 輛車為個人駕駛,不存在交接班行為。關于交接班地點:其中,20 名出租車在福州站進行交接班,14 臺出租車在晉安區進行交接班,10 臺出租車在鼓樓區交通監管稍弱區域進行交接班,11 臺出租車在倉山區區域進行交接班,8 臺出租車在臺江區進行交接班,5 臺出租車在市區外的福州南站進行交接班,3 臺出租車市區外的大學城進行交接班,2 臺出租車為市區外的其他區域進行交接班,小樣本調查結果與本文識別的交接班地點大體相符,進一步驗證了本文方法的可靠性。

根據所有交接班時間的統計,交接班行為在各個時間段的比率如圖11 所示,其中的核密度曲線反映了交接班行為隨時間的變化趨勢。從概率密度曲線可以看出,交接班行為在6:00—8:00與16:00—18:00交接班強度最高,在4:00—7:00以及15:00—18:00 交接班強度逐漸增高,與福州市民眾出行規律相吻合。

圖11 福州市出租車交接班時間概率密度圖Fig.11 Probability density diagram of taxi shift time in Fuzhou

4 結語

為有效提取出出租車交接班時空分布,本文提出了一種基于軌跡數據挖掘的交接班識別算法。該算法總共分為三個部分:一是出租車非運營狀態停留點檢測,有效地獲取了出租車在城市的停留位置以及停留時長。二是出租車非運營停留高密度區域獲取,得出每輛出租車的頻繁停留區域即潛在的交接班地點。三是出租車交接班地點時間識別,精準提取出了出租車的交接班地點與時間。實驗結果反映出出租車交接班的時空分布,表明了本文方法的可行性。出租車交接班具有一定的可變性,其地點、時間會存在部分變動,通過長時間的軌跡數據與有效的算法挖掘出城市中出租車交接班的變化規律將是下一步的研究方向。

猜你喜歡
交接班軌跡聚類
一種傅里葉域海量數據高速譜聚類方法
手術室采用信息化交接班方式的效果分析
解析幾何中的軌跡方程的常用求法
一種改進K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應用于網絡輿情熱點發現的文本聚類方法
軌跡
軌跡
神經外科患者床邊SBAR模式化交接班表的設計與應用體會
新加坡領導層綢繆“交接班”
基于Spark平臺的K-means聚類算法改進及并行化實現
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合