?

基于手機信令數據的游客識別方法

2023-01-16 03:54艷,龔
公路工程 2022年6期
關鍵詞:信令頤和園基站

韓 艷,龔 浩

(北京工業大學 交通工程北京市重點實驗室,北京 100124)

0 引言

在節假日等旅游高峰期,部分熱門景區(點)大量游客聚集而形成區域擁堵,對游客體驗、安全和景區管理產生較大影響,急需精準識別景區內不同區域或景點的游客,實時預測預警游客流量,實施分流和限流[1-3]等客流調控方案。

游客客流采集數據有視頻數據、閘機刷卡數據、RIDF數據、人工統計數據等,多為景區整體客流數據,無法準確獲取景區某些局部區域或者某熱門景點的客流量,數據實時性較差,無法滿足實時客流預測預警的要求[4]。手機信令數據具有覆蓋面全、實時性高等優勢[5-6],被廣泛用于游客的識別與出行特性分析。手機信令數據是由手機終端和手機基站間聯系時生成的數據,景區的邊界與基站服務邊界通常不完全重合,服務于景區與其周邊的基站用戶包含游客和非游客,不少學者開展了基于手機信令數據的游客識別方法研究,提出用停留時間等指標差異進行用戶分類。楊東、LI等[7-8]將景區基站服務用戶分為游客與非游客兩類,前者以8 h為長白山景區內游客平均停留時間閾值,后者以8—18點內的停留時間在0.5~5 h為閾值,區分游客與非游客。龍奮杰等[9]將用戶分為園區工作者、路人和游客3類,假設在景區基站停留時間不超過0.5 h的用戶為路人;一周內出現5 d以上且每天停留時間超過5 h的用戶為園區工作者,其余為游客,校驗結果顯示精度達到80%左右。ZHAI等[10]先將至少2次經過出入口基站的用戶篩選為潛在游客,再根據用戶停留時間(1~6 h)和連接景區基站的時間占比(超過90%)兩個指標識別游客。方家、陳圣威等[11-12]將用戶分為路人、居民、工作人員和游客4類,方家假定0—5點手機為關機狀態的用戶為居民。陳圣威根據用戶多日凌晨、工作時間內在研究區域的停留時長,識別用戶的工作地與居住地,篩選并剔除在景區周邊居住或工作的用戶,根據景區面積設置停留時間的閾值為1~3 h,識別游客,精度達到75%左右。

已有研究多用單一指標景點停留時間進行用戶分類,問題在于不同類型用戶在不同景點的停留時間的閾值不同,且當將用戶分為路人、居民、工作人員和游客4類時,短時游覽的游客與路人特性、長時間游覽的游客與工作人員的停留時間接近,導致游客的識別精度為60%~80%[9,12]。為解決上述問題,論文提出基于手機信令數據提取出行者的出行鏈,分析游客與非游客(工作人員、路人)一日、多日或者更長時間內(工作日、假日)的出行鏈時空特性差異,修正現有游客識別方法,以提高識別精度,為不同景區游客停留時間閾值和后續景區局部客流預測預警提供數據支持。

1 手機信令數據特點和應用

手機信令數據是由手機終端和手機基站間聯系時生成的數據。當用戶在某個基站內進行通話、短信、開關機等事件時,事件會被該基站記錄,并生成一條數據。當用戶進行基站間移動時,會自動切換連接的基站,同時生成一條數據。因此用戶接打電話、開關機或進行較大范圍移動時,均會生成信令數據[13]。手機信令數據主要包含國際移動用戶識別碼(IMSI,International Mobile Subscriber Identity)、時間(TIME)、基站編號(CELLID)、基站經度(LONGITUDE)和基站緯度(LATITUDE)5類信息,部分信息如表1所示。

表1 手機信令數據表(部分)Table1 Mobile data sheet (part)國際移動用戶識別碼時間基站編號基站經度基站緯度114:00:182 057116.586 8640.078114:17:2053 167116.478 3339.979 69115:04:5339 667116.339 9139.944 63116:58:593 827116.331 6639.956 67

現有數據獲取技術包括射頻識別技術、視頻識別技術、人工統計和手機信令數據等方式,各類數據的特點和適用場景如表2所示。

表2 數據類別和特點Table 2 Data types and characteristics數據類別適用場景優點缺點射頻識別數據設有門禁的區域精度高開放區域數據和分布獲取困難視頻采集數據室內區域精度較高可獲取客流分布數據室外數據精度低人工統計數據多用于局部區域精度高處理方便成本高實時性低手機信令數據較大范圍區域較小范圍識別精度不足實時性高可獲取時空分布數據

對于不同應用場景,不同的數據適用程度不同。以景區為例,對于景區的整體客流量數據獲取來說,通過門禁的統計數據可以準確的得到景區內不同時段的入園人數、在園人數等整體數據,但對于景區內不同區域、不同景點的客流分布情況卻無法準確及時地獲??;對景區內較小的室內景點來說,視頻識別數據可以簡單地獲取到室內的客流量、密度和分布情況,對于室內區域的客流情況可以快速做出識別與分析,但該技術在室外的效果會受到天氣、建筑遮擋等多種因素的影響,造成精度不足的問題;傳統的人工計數方式能解決前面兩類技術存在的問題,可以通過增加調查人員獲取景區不同區域、不同景點的客流量、密度、分布等數據,但數據采集成本高、實時性低,對于景區短時預測預警和景區管控等參考價值有限。

手機信令數據具有覆蓋范圍廣、定位速度快、實時性強、連續性強等特點。結合數據的連續性,對客流進行連續的追蹤與分析,因此多用于城市內多個景區間的客流特征分析和挖掘[14-18]。并且根據景區類型的不同,可以通過手機信令數據,實時獲取景區內不同區域的客流分布數據,針對景區內不同區域的客流量、分布情況、客流特征和出行特點進行提取與分析。

2 基于出行鏈的游客識別方法

2.1 景區游客識別考慮的因素

景區游客識別中需要考慮游客的停留時間、出行軌跡等出行的因素,以及景區的類型、景區大小、景區位置、景區周邊用地性質和道路情況等景區的因素,這兩部分。

出行因素中,主要考慮游客在景區研究范圍內的停留時間,以及出行軌跡是否經過景區范圍。

景區因素中,首先旅游景區分為開放型與封閉型兩種,開放型是沒有面積和空間限制、免費、游客流動性更大不易管控的一類景區[19],封閉型是指有空間限制,通過一定的物理設施隔離景區與外圍的空間的一類景區。研究中提出的識別方法適用于設有出入口的封閉式景區。

不同景區的覆蓋面積大小不同、所處位置有所差異、且不同的地理地貌均會對游客識別造成影響,因此選擇手機基站為最小單位,進行游客數據的識別。大型景區內包含的基站數會較多,單個基站面積較大;小型景區基站數較少,單個基站面積較小?;据^多的景區中,基站在游客識別中的作用也會有所差異,需要根據功能和位置進行分類以保證識別精度。

同時,景區周邊的用地性質、路網特征也會對景區游客識別產生干擾。當景區周邊存在居住用地、商業用地和工作用地等,用戶類型就會出現居民、路人和周邊工作人員等;當景區周邊路網較為密集時,周邊路人的比例也會提升。

因此景區的游客識別中,需要將基站進行分類,根據特定的基站選定研究區域,以保證識別方法適用于不同面積和位置的景區;需要將用戶進行分類,保證識別方法可以將游客與居民、路人和周邊工作人員進行區分,保證識別精度。

2.2 基站分類與研究區域選取

景區內部和周邊設置了一定數量的基站為景區用戶服務,手機基站受到周邊環境干擾、基站空間分布與基站信號強度等影響,服務范圍不規則,通常采用泰森多邊形的方法表示基站的實際服務范圍[20],如圖1所示。

圖1 泰森多邊形

可以發現基站服務范圍通常略大于景區的物理邊界,如圖2所示。根據景區邊界與基站服務范圍的空間重疊關系,考慮到游客均通過景區出入口進出,景區出入口基站具有特殊性,將景區基站分為3類:第一類為覆蓋景區出入口的基站;第二類為完全處于景區邊界內的基站;第三類為與景區有部分重疊的基站。為獲取全部游客數據,選取第一、二和三類基站覆蓋的范圍作為景區研究區域。

圖2 景區邊界和基站分類示意圖

2.3 用戶分類和特征

景區研究區域內的手機用戶有游客和非游客,非游客包括景區周邊的居民、工作人員和經過景區周邊道路的路人。研究將景區研究范圍內的用戶分為4類:路人、居民、工作人員和游客。4類用戶與3類基站的對應關系如表3所示。

a.居民:具有固定的居住地,即凌晨至早上、或晚間時段內,具有固定停留點,停留時間超過一定的時間閾值。居民數據一定出現在第三類基站,可能出現在第二類基站?,F有研究多將凌晨0:00—5:00停留時間大于4 h的景區研究區域內用戶認定為居民[11]。

b.周邊工作人員:具有固定的工作地點,即連續幾天出現在同一地點,在工作地累計停留時間超過一定的時間閾值。工作人員一定不會出現在第二類基站,可能出現在第一類和第三類基站。我國工作時間多為:8:00—17:00,根據《2016-2017年中國休閑發展報告》(休閑綠皮書)中數據,2016年北京市居民工作時長約為362 min/d,現有研究將9:00—16:00時段內累計停留時間超過5 h的用戶識別為工作人員。

c.游客:在研究區域停留時間超過一定的時間閾值,不會連續幾天出現在研究區域,出行目的地較多。游客經景區出入口進出景區,因此一定出現在第一類基站,可能出現在第二類和第三類基站。

d.路人:在景區覆蓋范圍內沒有固定的駐留地點,在研究區域內的總停留時間短于其他類型用戶。路人一定不會出現在第二類基站,可能出現在第一類和第三類基站。

2.4 基于出行鏈的游客識別方法

從表2分析可以看出,路人、居民、工作人員和游客在空間分布特性上存在一定重疊。如何應用手機信令數據進行游客的識別,成為景區客流預測的重要環節。

2.4.1不同用戶的出行特征

手機信令數據中包含了表示手機用戶所在位置的經緯度坐標,以及用戶出現在該坐標下的時刻?;谶@兩類數據,將用戶出行的時間與空間數據進行整合,得到按時間順序排列的用戶全天的出行軌跡,即出行鏈。游客出行鏈是游客以旅游為目的,從出發至到達景區目的地,以及從當前景區目的地至下一目的地的出行全過程?;谟慰统鲂墟湹臅r空分布特性,研究基于4類用戶的出行鏈特性分析,提出基于出行鏈的游客識別和特征分析方法。

基于手機信令數據,進行數據預處理后,提取用戶的出行鏈[21-24],繪制用戶的出行鏈,4類用戶的出行鏈形式如圖3所示。

a.居民用戶出行鏈特征:居民的多日出行鏈起訖點具有較強的規律性,出行起訖點均在研究區域內,凌晨至早上在區域內沒有移動。當出行鏈包含多個活動點時,通常離開研究區域,并在中午或晚上返回研究區域內的居住地,凌晨停留時間較長。

b.工作人員出行鏈特征:出行起點在研究區域外,進入研究區域后,在工作時間內、景區外圍基站有固定的停留地點,最后離開研究區域,工作時間段內停留時間較長。

c.路人出行特征:出行起點在研究區域外,進入研究區域后,沿研究區域外圍邊界移動,沒有長時間停留點,最后離開研究區域,總停留時間較短。

d.游客出行特征:出行起點在研究區域外,在開園時間段內,由景區出入口基站進入研究區域,且在研究區域內有多處停留時間較長的地點,最后經過景區出入口基站離開研究區域,總停留時間較長。

2.4.2游客識別步驟

基于手機信令數據提取用戶的出行鏈,結合出行鏈中的活動點和每個活動點的停留時間,構建基于出行鏈的景區游客身份識別方法。游客識別步驟流程如圖3所示。具體步驟為:

圖3 游客識別流程

a.將服務景區的基站分為3類:①覆蓋景區出入口的基站,用Ω1表示;②位于景區邊界內的基站,用Ω2表示;③與景區有重疊部分的基站,用Ω3表示。將這3類基站選定為研究區域,在區域中的用戶用Ω表示。

Ω=Ω1+Ω2+Ω3

(1)

c.將用戶分為4類:①居民;②工作人員;③路人;④游客。

(2)

式中:Oi,Di為用戶i的出行起訖點所在基站,Ω為研究區域;Pi為用戶i經過的中途點;t1為用戶在凌晨期間在區域內的停留時長。

(3)

式中:Oi,Di為用戶i的出行起訖點所在基站,Ω為研究區域;Pi為用戶i經過的中途點;t2為用戶在工作時間內在區域內的停留時長。

f.在景區開園時間內,存在用戶經過景區周邊的基站,在景區基站的停留時間t3<1.5 h,出行鏈起訖點均在研究區域外,在研究區域內沒有固定停留點,僅在景區外圍活動,將這類用戶識別為經過的路人。剔除路人數據。

(4)

式中:Oi,Di為用戶i的出行起訖點所在基站,Ω為研究區域;Pi為用戶i經過的中途點;t3為用戶全天在區域內的停留時長。

g.將d至f中識別的非游客數據剔除后,數據中仍可能存在無法通過前面步驟識別篩除的非游客,因此需要根據以下兩步進行游客的識別:

① 若景區邊界內包含一個或多個完整基站,則將出現在這些基站內的用戶識別為游客。

?Pi∈Ω2

(5)

② 若用戶第一次進入出入口基站的時間為開園時間以內,停留時間t4≥1.5 h,經過景區多個基站且出行鏈起訖點均在景區相關基站外的用戶,判斷為景區游客。

(6)

式中:tin為用戶進入出入口基站的時刻;T開,T閉為景區開園和閉園時間;Pi為用戶i經過的中途點;t4為用戶在景區開園時間內在區域內的停留時長。

3 案例分析

3.1 研究區域

3.1.1景區和手機信令數據簡介

頤和園位于北京市西郊,是國家5A級旅游景區,中國清朝時期皇家園林,自然風光優美秀麗,節假日期間會吸引國內外眾多游客前往游覽,是我國最熱門的景區之一。頤和園占地面積大,不同區域的熱門程度不同,在節假日期間會形成明顯的客流分布不均的現象。同時,頤和園周邊基站布置較為密集,因此,選取頤和園為研究對象,開展基于手機信令數據的游客識別案例分析具有典型意義。

手機信令數據來自北京移動公司某年5月1日0時至5月3日24時的全部數據,劃分研究區域,基于手機信令數據提取出行鏈,開展基于出行鏈的游客識別和出行特性研究。

3.1.2研究區域選取

使用ARCGIS軟件,繪制每個基站的泰森多邊形,使用泰森多邊形表示該基站的服務范圍,并將多邊形范圍與頤和園景區范圍進行比較,選取相交和包含關系的基站,即選擇可以覆蓋頤和園景區的多邊形所在的基站作為頤和園景區的研究區域。頤和園景區研究區域共設有13個基站。為方便后續研究,將基站重新編號,編號如圖4所示。

圖4 頤和園研究區域

3.2 游客識別結果

識別結果顯示:5月1日至3日頤和園景區研究區域內游客總數量為103 966人次。其中5月1日頤和園景區游客數為45 136人,居民769人,工作人員1 255人,路人97 039人。

在5月1日的所有出現在頤和園景區附近的用戶中,路人占比最大,為67%,游客占比31%,居民最少,僅占1%,如圖5所示。

圖5 各類用戶人數比例圖

3.3 精度驗證

根據數據當年通信運營業統計公報數據顯示,北京手機普及率為90.8%,中國移動市場份額為62.1%,根據普及率與市場份額,將識別的游客數量進行擴樣,得到景區接待客流量的數據,得到擴樣后的景區3 d接待游客184 380人。

根據頤和園“智慧旅游”系統數據顯示,當年五一長假頤和園景區接待有客流量為32.7萬人次,其中4月30日接待人數最多,達到13.8萬人次,由此計算得到5月1日至3日頤和園共接待游客18.9萬人次。擴樣后識別數量占實際數據的97.56%,認為提出的基于出行鏈的游客識別模型精度較高,識別較為準確。

3.4 頤和園游客停留時間分布分析

游客停留時間指游客在研究區域內停留的時間長度,研究以游客出現在研究區域的累計時長,即游客第一次出現在景區出入口基站時的數據時間,與最后一次出現在景區出入口基站的時間內,連接研究區域基站的時間長度。

游客停留時間的分布,會影響到游客識別流程中停留閾值選擇。因此根據識別后得到的游客數據,進行統計分析,得到如圖6所示的游客停留時間分布情況。

圖6 頤和園游客停留時間分布圖

從圖6可以看出,5月1日的頤和園游客停留時間分布主要集中在1~3 h,占45.74%;其次是游覽3~5 h的游客占30.2%;占比最少的是停留時間小于1 h的游客,僅為6.31%。由此可以看出,頤和園景區范圍較大,所需停留時間稍長,游客也更傾向于中長時間的游覽。

得到的游客停留時間分布,與游客識別模型中選定的大于1.5 h的游客停留時間判斷閾值相比,分布大致相同,說明選取的閾值適用于頤和園景區的客流識別。

通過景區停留時間分布也可以反映出,在頤和園景區中,超過93%的游客在景區的停留時間超過1 h,在進行游客識別時,選取的游客停留時間判斷閾值應大于1 h,可以提升識別精度。

4 結論

研究基于手機信令數據,對景區的客流識別方法進行研究,根據景區邊界與基站服務范圍的空間重疊關系,考慮游客通過景區出入口進出景區而產生的出入口基站的特殊性,將景區基站分為3類,第一類為覆蓋景區出入口的基站;第二類為完全處于景區邊界內的基站;第三類為與景區有部分重疊的基站,選定了景區的研究區域。將用戶分為居民、工作人員、路人和游客4類,分析不同用戶的出行特征,提取用戶出行鏈,提出基于出行鏈的游客識別方法,最后以北京市頤和園景區為例進行案例分析,得到五一期間共識別游客103 966人次,游客識別準確率達到97.56%,識別精度較高。結果顯示,識別方法對于如頤和園占地面積較大的自然類景區有較好的識別精度。研究提出的游客識別方法可以用于大型自然類景區的客流統計,為景區的客流分布和移動等研究提供數據支持,給景區管理員進行大客流預警調控提供參考。

猜你喜歡
信令頤和園基站
頤和園
酌古參今——頤和園文化遺產之美
5G IAB基站接入網絡方案研究*
5G基站輻射對人體有害?
SLS字段在七號信令中的運用
移動信令在交通大數據分析中的應用探索
頤和園中的『園林博物館』
基于信令分析的TD-LTE無線網絡應用研究
基于移動通信基站建設自動化探討
可惡的“偽基站”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合