?

基于地鐵刷卡數據的城市居民行為模式變化分析

2022-09-06 03:14吳文昊沈梟麒
測繪地理信息 2022年4期
關鍵詞:刷卡聚類網格

吳文昊 沈梟麒

1武漢大學遙感信息工程學院,湖北 武漢,430079

2中國礦業大學環境與測繪學院,江蘇 徐州,221116

感知是智慧城市的基礎[1],居民作為城市生活中的主體,研究其時空行為模式是智慧城市發展中重要的科學問題。近年來以人為核心的智慧城市理念備受重視,隨著可獲取的時空大數據類型越來越豐富,充分利用時空大數據進行居民的時空行為模式分析顯得愈發重要。地鐵刷卡數據是一種重要的時空大數據,目前國內外利用地鐵刷卡數據開展的居民行為模式研究主要集中在兩個方面:第一,研究公共交通的運營與管理[2,3];第二,居民行為模式挖掘與規律分析。

本文的研究屬于第二類。在該類研究中,如郭文露等[4]基于出行時間對居民進行分類,研究居民時空動態特征;Chen等[5]根據城市密度、雇員密度、出行人數等數據,對地鐵站臺進行K-means聚類,挖掘了各站臺呈現出的居民行為特點;孟斌等[6]通過出行彈性測度理論,對居民在不同時段的出行彈性特征進行分析,并進一步對出行彈性空間熱點和出行彈性影響因素進行分析;翁小雄等[7]基于GBDT算法構建分類模型,對地鐵通勤人群進行識別;Zhao等[8]通過研究居民出行的常規典型模式,對異常行為模式進行檢測。

目前對居民行為模式的研究大多對行為的時間持續性考慮有所欠缺[9]。因此本文基于深圳市連續34 d的地鐵刷卡數據,結合時間興趣區域挖掘居民行為模式,分析了各類顯著模式在長時間段內的變化規律,以探究居民各類行為模式在起止時間和持續時長上的特征。

1 研究區域與數據概況

本文研究區域為深圳市。截止2017年3月,深圳市地鐵共有8條線路開通運營,共計166個站臺。全市地鐵運營線路總長約為300 km,覆蓋深圳市羅湖區、福田區、南山區、寶安區、龍華區、龍崗區6個市轄行政區。

深圳市地鐵主要使用深圳市公共交通智能卡進行支付。本研究使用2017-01-14—2017-02-16共計34 d的深圳市地鐵刷卡數據進行分析。原始刷卡數據為流水數據,包含的主要字段有:卡ID、流水號、交易類型(進站或出站)、交易時間、地鐵線路、站臺名稱等。研究時段內的深圳市地鐵刷卡數據共有116 321 352條,不同的ID卡號共有6 677 575個。日均刷卡次數3 421 216條,每張卡的日均刷卡次數為1.95次。

2 研究方法

2.1 數據預處理

對原始的地鐵刷卡數據的數據預處理主要包含3個部分:數據缺失值處理、出行數據匹配、行為數據匹配。

1)數據缺失值處理。對于屬性缺失的數據,在統計觀察數據的整體特性后發現主要是刷卡站臺缺失,于是利用屬性間的潛在關系對缺失值進行填補。填補的方法為利用所有非缺失數據的刷卡站臺得出每個站臺對應的后端編號,再利用缺失數據的后端編號匹配對應的刷卡站臺。

2)出行數據匹配。對于流水數據,需要將進站數據與對應的出站數據進行匹配,形成一條完整的地鐵出行數據。匹配方法為提取當天每個ID卡號的數據,按照刷卡時間和交易類型等屬性進行匹配。

3)行為數據匹配。為研究居民的行為模式,本文采用了如下假設:若居民當日存在多次地鐵出行行為,則其從某站臺出站之后和再次從同站臺進站乘車的時間間隔內,該居民在該站臺范圍內進行了某種行為[10]。因此,需要對居民的地鐵出行記錄再次匹配形成居民的行為記錄。匹配方法為提取當天每個ID卡號的地鐵出行數據,按照出行時間和站臺等屬性進行匹配。

2.2 時間興趣區域

興趣點(points of interests)表示引起人群興趣的地理位置,興趣區域(area of inte-rests)表示引起人群興趣的一個區域范圍。將這個概念引申至時間屬性,就是時間興趣區域[9]。以居民行為的開始時間為x軸,居民行為的結束時間為y軸,建立二維坐標系。借鑒興趣區域的概念,在這個坐標系中行為密集的區域便是人群在時間上感興趣的一個區域,即時間興趣區域。

如圖1所示,由于行為的開始時間必然早于行為的結束時間,故該坐標系中的點都在y=x的上方。對于行為點a,其開始時間為x a,結束時間為y a,行為的持續時間為(y a-x a)。而對于密集的時間興趣區域A和B,顯然行為模式A的開始時間早于B而結束時間晚于B,且A具有較長的行為持續時間,B具有較短的行為持續時間。

圖1 時間興趣區域Fig.1 Time Area of Interests

因此,通過時間興趣區域能夠直觀的展示行為在開始時間、結束時間和持續時間上的特點。

2.3 CLIQUE算法

CLIQUE算法是一種基于密度和網格的聚類算法,也是最經典的高維子空間聚類算法之一[11]。其基本思想是將數據空間按照一定規則進行網格劃分,將落入網格單元的樣本數目作為網格單元的密度,若一個網格單元的密度超過事先設定好的閾值,則認為該網格單元是稠密的。CLIQUE算法的最終目標是找出所有連通稠密網格單元的最大單元集。其具體步驟為:

1)設定網格長度d和密度閾值s,對數據空間的每一維進行等長的網格劃分,并記錄每個網格單元的密度,找出當前維度子空間中密度大于預設閾值的網格單元,將其標記為候選稠密網格單元。

2)使用最小描述長度(minimal description length,MDL)剪枝技術修剪子空間,控制候選稠密網格單元的增長速度。

3)遍歷所有候選稠密網格單元,基于貪心算法找出最大連通網格單元集,得到最終的聚集簇類。

3 結果與分析

3.1 數據預處理結果與分析

針對缺失數據進行缺失值填補后,原始流水數據的有效率從67.82%提升至99.99%,僅有一條數據無法找到相對應的站臺。出行數據匹配剔除了無法匹配成出行記錄的流水數據。行為數據匹配后,最終得到的行為數據共有20 070 388條,卡號共4 242 836個,數據利用率為69.0%,卡號占原始數據的63.5%。深圳市2017年常住人口為1 252.9萬,該數據集的用戶數占常住人口的33.9%,因此基于該數據的分析結果具有一定說服力。表1為居民2017-01-27的部分行為數據。

表1 部分居民行為數據展示Tab.1 Parts of Residents’Activity Data

3.2 CLIQUE聚類結果與分析

對深圳市34 d的居民行為數據進行CLIQUE聚類。其中,CLIQUE算法的兩個參數分別設置如下。

1)網格長度d=108,其含義為將深圳地鐵的運營時間6:00—24:00時劃分為108份,每個網格長度所涵蓋的時間范圍為10 min。

由于每日的數據較多,故隱藏了非聚類點以便更清晰的看出聚類結果。圖2展示了1月17日(工作日)和1月27日(節假日)的聚類結果,圖2中的橫軸為行為開始時間,縱軸為行為結束時間。從聚類結果可以看出大致有4類時間興趣區域,每類時間興趣區域代表一種顯著行為模式,故對每種時間興趣區域進行標識以便分析。

圖2 CLIQUE聚類結果展示Fig.2 Result of CLIQUE Clustering

對34 d的聚類結果進行分析后發現:

模式1時間興趣區域的開始時間集中于7:00—11:00時,結束時間集中于17:00—22:00時,在工作日表現為一種長持續時長行為模式,在節假日時表現為中短持續時長行為模式,故推測其為工作行為模式;

模式2在節假日出現頻率較高,在工作日較少出現,其時間興趣區域的開始時間在8:00—12:00時,結束時間在10:00—13:00時,是一種晨午間的中持續時長行為模式;

模式3時間興趣區域的開始時間分布于12:00—18:00時,結束時間分布于12:00—19:00時,在工作日時表現為短持續時長行為模式,在節假日表現為中長持續時長行為模式,因此推測其為下午娛樂行為模式;

模式4時間興趣區域的開始時間集中在17:00—22:00時,結束時間集中在19:00—23:00時,在工作日和節假日均表現為中短持續時長行為模式,推測其為晚間娛樂行為模式。

3.3 居民行為模式變化分析

4類時間興趣區域在每天均有不同的表現,但每類行為模式的行為開始時間范圍較為固定?;诖?,將行為開始時間分為6:00—12:00時(早間行為模式,對應模式1和模式2),12:00—18:00時(午間行為模式,對應模式3),18:00—24:00時(晚間行為模式,對應模式4)3個時段,對其時間興趣區域的變化規律進行分析,從而進一步探究居民行為模式在起止時間和持續時長上的特點。

提取CLIQUE聚類結果中的每一類時間興趣區域的重心,從而得到該類時間興趣區域所代表的行為模式的平均行為開始時間和平均行為結束時間,如圖3~圖5所示。其中點的大小表示該聚類簇內點數的多少,即時間興趣區域內包含行為數的多少。點越大表明該行為模式在當天越顯著。

圖3 早間行為模式變化規律分析Fig.3 Analysis of the Change of Residents’Morning Activity Pattern

1)早間行為模式變化分析。圖3展示了早間模式的行為開始時間與行為結束時間。由圖3可以發現早間行為模式中有一串顯著的點,其開始時間集中于8:00—9:00時,結束時間集中于18:00—20:00時,這進一步驗證了聚類結果分析中對模式1為工作模式的推測。工作模式在正常周末、春節前一天和非法定假日的元宵節有略微減少,在春節期間的前4天消失,后3天略微出現。工作模式的開始時間十分穩定的集中于8:00—9:00時,表明了深圳市公司員工的上班時間較為固定;結束時間在正常工作日集中于19:00時前后,但在正常周末、法定調休上班的周末、春節前幾天和元宵節情人節均有半小時左右的提前,表明了深圳市絕大多數公司除春節放假4 d外幾乎無休加班,但在加班日及節日的下班時間略微提前,日均上班時間約為10 h。在周末、元宵節和春節及其前一周時,檢測到一類顯著異于工作模式的新模式,其開始時間集中于9:00—12:00時,結束時間則分布于9:00—17:00時,對應于聚類結果分析中的模式2。從春節前一周的行為可以發現,模式2與模式1并非一類人群的行為。模式1是工作模式,代表上班族的行為,而進行模式2所代表行為的人群提前一周開始進行與春節相似的行為,因此代表了提前放假人群的行為(如學生、工作強度較低的上班族、退休人群等),故模式2是一種早間的零散娛樂行為模式,該行為的持續時長為0.25~4 h不等。

2)午間行為模式變化分析。如圖4所示,午間行為模式的開始時間廣泛分布于12:00—18:00時,結束時間相對集中于14:00—19:00時,在圖4中表現為一天中一連串相對集中的點,對應于聚類結果分析中的模式3??梢园l現該模式在正常工作日時均無顯著點;在周末、春節前一周、春節期間和元宵節時有顯著點,顯著點開始時間集中于15:00時前后,結束時間集中于17:00時前后,在春節前3天 該模式的開始時間有所提前。且該模式的行為持續時間普遍在2 h左右,驗證了其是午間短期娛樂行為模式的推測,并進一步可以推測該類娛樂行為模式是一種晚飯及晚飯后的休息娛樂行為。注意到從1月31日(新年初三)開始,春節期間出現了一種結束時間在22:00時以后的模式,而春節的前3天沒有。由此推測居民在春節前期偏好午間的中短娛樂行為,或在家中與家人共度,直到初三才開始與親朋好友相約聚會。

圖4 午間行為模式變化規律分析Fig.4 Analysis of the Change of Residents’Afternoon Activity Pattern

3)晚間行為模式變化分析。如圖5所示,晚間行為模式的開始時間集中于18:00—19:00時,結束時間則分布于18:00—22:00時,對應于聚類結果分析中的模式4,是一種開始時間較為固定,結束時間分布較廣的行為模式。該模式的顯著點較多出現于周末,在元宵節、情人節和春節前一周的工作日也有出現,驗證了該模式是晚間娛樂行為模式的推測。而在春節期間尤其是大年初一前后,該類模式卻驟減至幾乎消失,說明春節期間晚間出行的人較少。

圖5 晚間行為模式變化規律分析Fig.5 Analysis of the Change of Residents’Evening Activity Pattern

4 結束語

本文提出了一種基于地鐵刷卡數據探究居民行為模式及其在起止時間和持續時長上特點的方法。該方法利用時間興趣區域和CLIQUE聚類挖掘出4類顯著的居民行為模,通過對每類行為模式在長時間段內的變化進行分析,驗證了之前對每類行為模式類型的推測,揭示了深圳市居民的固定行為模式,為理解居民行為模式提供了一種思路。該方法理論上可拓展應用于揭示不同功能區域之間居民行為模式的常態和變化,實現對異常行為模式的檢測。

猜你喜歡
刷卡聚類網格
基于數據降維與聚類的車聯網數據分析應用
網格架起連心橋 海外僑胞感溫馨
基于模糊聚類和支持向量回歸的成績預測
追逐
基于密度的自適應搜索增量聚類法
刷卡
結賬
刷臉就可以購物
第一次刷卡
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合