?

移動用戶畫像構建研究

2016-12-15 11:47黃文彬徐山川吳家輝王軍
現代情報 2016年10期
關鍵詞:移動用戶用戶畫像

黃文彬+徐山川+吳家輝+王軍

〔摘要〕基站通信網絡數據蘊含著豐富的移動用戶行為,從移動用戶頻繁活動、規律行為以及移動速度3方面建構移動用戶行為畫像,可以為個性化服務提供更完整豐富的信息。在分析和挖掘某電信運營商3萬位移動用戶記錄的基站數據的基礎上,本文采用頻繁模式挖掘、構建概率矩陣、計算熵等方法,從用戶基站日志中所包含的地理位置信息中構建移動用戶行為畫像。研究結果表明,該畫像模型可顯示移動用戶的頻繁活動規律、周期性行為及出行方式,可作為分析移動用戶群體行為及用戶間交互行為的基礎。

〔關鍵詞〕移動數據;移動行為;移動用戶;用戶畫像;周期性行為;頻繁序列

〔Abstract〕Cellular mobile data service logs contains massive mobile user behavior,based on which mobile user behavior profile,including frequent activities,periodic behaviors and user speed,can be built to provide rich information for personalized services.Analyzing 30,000 users station data provided by a telecommunication operator,user profile is built from location sequence by means of frequent pattern mining,probability matrix constructing and entropy calculating.The user profile proposed shows that users frequent behavior patterns,periodic behavior patterns and speed distribution could be an important reference for further research on population mobile behavior analysis and user interaction behavior.

〔Key words〕mobile data;user behavior;mobile user;user profile;periodic behavior;frequent sequences

由于智能手機的普及,人們的生活行為與移動智能設備連接的更緊密,截止到2014年5月,蘋果系統與安卓系統為主的智能手機操作系統占據了智能手機市場份額的964%。相對于傳統的桌面端,人們可以隨時隨地通過移動終端設備取得服務,各種與移動終端相結合的新興商業模式與日俱增,依據用戶的地理位置為用戶提供基于用戶地理位置的服務(LBS)便是一個典型應用,與此同時用戶所攜帶的手持設備由于服務的需求被動的生成了一系列包含網絡服務基站信息(如基站ID,基站坐標)、時間信息等內容,并且針對這些數據的分析與挖掘為理解用戶多方面的行為模式提供了至關重要的途徑。

移動數據與傳統桌面端用戶日志主要差異在于提供了用戶的地理位置變化,許多研究將用戶的地理位置按時間排序,采用序列挖掘的算法挖掘用戶移動序列的頻繁模式[2-6],并且Yava?使用所構建的頻繁模式對用戶將來的地理位置進行了預測,應用在基站資源的預分配[4]。同時,探討如何從比較長期的地理位置日志中挖掘周期性的行為也是研究熱點之一[-10]。從移動用戶數據中構建用戶特征屬性可作為識別用戶重要依據-12],其中Zhu等人除了考慮地理位置頻繁序列之外,通過在手機設備中安裝專門的位置記錄軟件收集用戶地理位置數據并提出頻繁停留地點、頻繁移動路徑、有意義的地理位置與交通工具4種用戶特征來描述用戶,構建了更有意義的用戶屬性]。劉瑜等人提出了利用大數據的方法通過對社交網站簽到數據以及其他信息進行了人類移動模式的研究的流程[3]。除了地理位置相關的研究之外,Tseng等人把用戶的地理位置序列與對應所使用的服務進行了組合,通過挖掘兩者共同出現的頻繁模式來預測用戶將來的行為[4-15]。此外,Zhu等人把所有的手機所反映的行為考慮在內,通過手機的原始傳感器數據與自然語言的詞相對應,采用自然語言處理中的方法構建語言模型反映用戶行為,并應用于設備被盜檢測、移動應用安全等方面[6]。張慷等人則提出了一個整合客戶資料、語言行為、移動互聯網行為等分析用戶畫像的總體架構,但在用戶屬性上缺少細化挖掘分析。由于用戶數據多涉及隱私問題,現有的研究多采用模擬數據或是通過在手機端安裝軟件收集少量用戶GPS或基站數據改進用戶頻繁序列挖掘算法,并且主要著重刻畫某些方面的移動用戶行為,在國內外的研究中,通過海量通信網絡服務基站信息數據建構移動用戶畫像相對都比較少。

本文采用北京某電信企業記錄3萬移動用戶1個月的移動數據,其中包含用戶的通話時間和時長、通話基站坐標、網絡請求時間、網絡請求基站坐標等記錄。筆者利用該數據從頻繁活動規律、周期性活動規律、移動速度3個方面建構移動用戶畫像的行為屬性,實證研究結果顯示這3個方面能夠反映真實用戶整體的行為習慣,這對移動用戶行為相關研究及移動服務提供商的用戶研究提供了重要的參考。

數據集名稱數據集描述用戶通話日志撥打時間、基站坐標用戶網絡請求日志請求發起的時間、請求服務類型、基站坐標

該數據是典型的基站記錄,只在用戶手機與基站通訊時產生的日志,其中用戶通話日志共有6百萬條記錄與網絡請求日志共有4億條記錄。相比之下通話日志記錄更稀疏,本研究重點采用網絡通訊數據分析用戶移動行為。本研究的網絡日志數據預處理的流程見圖1。首先將網絡數據拆分成基站坐標數據及網絡請求數據;由于用戶訪問頁面的時候通常伴隨著圖片、腳本、及其他等諸多請求,筆者再利用域名、位置等信息對網絡請求數據進行壓縮,以提煉出用戶真實網絡行為;同時,利用國內企業提供的地圖API獲取每一個基站坐標的具體地址、周圍的建筑和場所的名稱標簽、以及商圈資訊等語義化信息。圖1數據預處理流程

通過數據構建用戶畫像的前提是該用戶有足夠的通話及網絡請求日志記錄,這批數據里有些用戶1個月中僅僅發起了數十條網絡請求,因此必須篩選清除網絡請求記錄稀疏的用戶。本研究將1天按小時分割成24個時段,若用戶在某時段中產生了數據請求,則標記該用戶在該時段為活躍時段,通過篩選活躍時段至少為8的天數大于20天的用戶共計16萬用戶作為主要的研究對象。

移動用戶行為畫像的構建

移動屬性的畫像構建流程見圖。筆者從數據中所獲取的用戶行為坐標并根據用戶停留時間的長短分為停留點與移動點。通過停留點的坐標集合建構用戶的周期性活動規律和頻繁活動規律研究用戶的生活習慣。其中周期性活動規律是指該用戶在1天中各時段停留地理位置的概率分布,結合基站坐標的語義化信息推斷出用戶的住家、工作場所、偏好地點以及作息規律。頻繁活動規律是指該用戶的停留地點之間存在明顯的順序關系,結合基站坐標的語義化信息可推斷出用戶的活動目的與服務需求。通過移動點的坐標集合建構用戶在停留點間的移動路徑,通過該兩點時間區間的交通路徑、時間和速度展現該用戶的交通方式以及選擇偏好。

圖地理位置屬性構建流程圖

停留點與移動點

本研究采用的數據是電信運營商服務器記錄的用戶基站服務日志,并非通過GPS記錄用戶精確地理坐標,由于基站通訊的數據限制,無法細粒度的描述用戶的精確坐標與對應時間,該數據只有當用戶與基站通訊時的信息記錄,筆者利用時間區間區分用戶停留坐標為停留點或移動點的定義。假設用戶u共有n個基站請求記錄,利用時間tsj依序標記該用戶的坐標為locj,則該用戶位置與時間序列可表示成:

則該Trajuk,m是一個用戶移動路徑,所記錄的移動坐標即為移動點,而ΔT是移動路徑的時間區間。本文針對該批數據分析處理設置Δt=5分鐘和ΔT=30分鐘,并按照以上所定義的概念構建用戶的停留坐標、停留時間區間、用戶的移動路徑以及移動時間區間。圖3左圖為某用戶31天的地理位置展示圖,右圖為記錄該用戶的暫留點位置展示圖

筆者提取數據中某用戶31天位置記錄并采用上述的定義進行計算,圖3左圖顯示了該用戶整月的停留點和移動點,其中同顏色是指該時間段屬于連續位置子序列,白色為信息缺失的部份。圖3右圖顯示將移動點從圖上移除后的結果,可見地理位置快速切換的移動數據已經被剔除,且綜合觀察仍可得到長時間駐留地點的信息。

周期性活動規律計算

為了構建用戶在1天中各時段停留地理位置的概率分布,首先筆者將該用戶位置時間序列Traju轉變成以時間區間表示用戶活動序列BTraju,通過用戶的停留點數據構建用戶在不同的時間區段停留的概率值,以進一步清理在某時間區段中的不可能長時間規律存在的停留點,分析用戶的周期性活動規律。假設用戶記錄的數據總時長個數L下有n個停留區間,按照停留點坐標loci、停留區間的起始時間STi、停留區間的結束時間ETi來表示用戶活動序列BTraju為:

其后將獲取一個n×d的概率矩陣,其中n為該用戶的暫存點坐標個數,d為周期T內的時段個數。本文設置T=4小時、d=48,即以1天為周期、30分鐘為時間區段構建概率矩陣,并針對每個時間區段建構最有可能長時間規律駐留的停留點,其方法如下:

輸入:用戶的地理位置概率矩陣。

輸出:該用戶各個時段最有可能長時間規律的停留點。

(1)構建用戶tj∈d個時段處于各個停留點loci∈n的概率和∑p(loci,tj)。

(2)計算各個時段可能長時間停留坐標的閾值。

a.預先設置用戶在某時段處于該位置的概率值τ。

b.針對每個停留點計算,若∑p(loci,tj)<τ,則不認為該時段存在長時間規律的暫留點,此時設置Γtj=-1;否則設置該時段的長時間規律停留點的閾值Γtj=1∑p(loci,tj)。

(3)對各個時段采用閾值列表Γtj獲取長時間規律的停留點坐標。

最后通過設置概率閾值獲取用戶各個時段長時間活動規律停留點的序列,筆者將在本文的節說明本方法的實證結果與示例討論。

頻繁活動規律計算

為了分析用戶的頻繁活動規律,筆者首先將用戶停留點序列STraju轉變成用戶連續的停留點序列:

S是用戶所有停留點的個數,由于筆者是以天為單為進行用戶序列分析,因此CSTraju等于每天的子序列DCSTrajuj的組合。

那么,我們可以將用戶頻繁活動規律的挖掘轉化為頻繁序列挖掘的問題。我們采用GSP(Generalized Sequential Patterns)[8]算法對每一個用戶的停留坐標序列集挖掘其中的頻繁停留坐標序列,算法如下。

輸入:用戶每天的子序列DCSTrajuj∈d

輸出:頻繁停留坐標序列

(1)設置k=1。

(2)獲取長度為k的子序列以及子序列的支持度,并刪除支持度小于minSup的子序列。

(3)利用長度為k的頻繁序列生成長度為k+1的序列。

(4)k=k+1,跳轉到2,直到找不到頻繁序列或者不再有新的子序列。

其中,支持度是指在序列集DCSTrajuj∈d中包含長度為的子序列的頻次,并且最小支持度是minSup實驗參數。在獲取頻繁序列之后,在從中選擇最長頻繁序列作為序列挖掘的結果,筆者將在本文的節說明該方法的實證結果與示例討論。

4移動速度計算

筆者引入了熵]的概念建構用戶當時的移動熵用以刻畫用戶在各個時刻的移動速度,利用用戶移動點序列MTraju進行用戶移動熵的計算,并根據時間點t在時間范圍ΔT內用戶出現在不同地點的概率刻畫用戶的移動速度,其方法如下:

所計算的移動熵說明用戶在時間ΔT所變化的基站坐標越多,相應的其移動速度就越大。如果移動熵為0則說明用戶沒有進行基站的切換。用戶的停留時間區間移動熵為0,用戶的移動時間區間通過取等時間跨度的時間節點可以獲取多個時間點的移動坐標,這些坐標可以構建用戶的移動速度圖。

3移動用戶畫像示例

本章節筆者從周期性活動規律、頻繁活動規律、用戶移動速度3個方面通過4個用戶的真實數據的實證結果與示例說明用戶的移動行為屬性。

周期性活動規律示例

利用節提出的算法建構每個用戶的坐標概率矩陣,用戶1的坐標概率矩陣見圖4,橫坐標表示1天48個時間段,縱坐標表示該用戶的所有基站坐標。為了包含數據隱私,基站坐標末兩碼已模糊化處理,圖中方塊的顏色由淺到深表示該時段在對應坐標的概率逐漸增大。由于基站數據僅能記錄用戶使用基站的記錄,而用戶在有Wi-Fi無線網的環境使用的網絡請求是沒有記錄的,因此每個用戶都會有數據缺失,即用戶在各個時段的概率之和小于1。圖4顯示該用戶在時段1~17(0點至8點30分)使用坐標〈116154xx,40052xx〉基站的概率大,在時段19~44(9點鐘至22點鐘)使用坐標〈116348xx,39921xx〉基站的概率大,由此推斷該用戶住家是在基站〈116154xx,40052xx〉的覆蓋范圍內,利用語義化信息查知該基站位于北京市海淀區溫泉鎮,而用戶辦公場所是在基站〈116348xx,39921xx〉的覆蓋范圍內,并位于北京市西城區萬通新世界大廈,同時也可以判斷該用戶的工作時長大約都在時段19~44之間,且可能因公務需求偶爾住宿在其他地方。利用閾值Γtj刪除概率獲取該用戶的時間規律,通過與基站的語義化信息進行整合,可以清晰的展現用戶的活動規律表,其結果如表所示。

隨后14點50到15點25之間,用戶再次使用交通工具低速移動,從中關村商圈回到北京市朝陽區安貞街道附近區域并之后停止活動。圖7左圖是用戶4按照時間的移動點圖

綜合上述的周期性活動規律、頻繁活動規律、用戶移動速度的分析方法并添加坐標語義信息后所獲得的用戶行為生活習慣和活動規律容易暴露個人隱私或識別出用戶個人身份,同時也說明對通信數據進行挖掘分析對用戶具有信息安全的疑慮。

4結論

本文利用移動網絡基站數據從周期性活動規律、頻繁活動規律以及移動速度三方面構建了移動用戶的用戶畫像,結合所提供的可視化視圖可以清晰地展現出用戶地理位置相關的行為,所獲取的屬性相互印證和補充,展現了1個用戶每天的生活規律和移動情況。由于本文所獲取的用戶數據時間跨度僅1個月,筆者只以1天為周期的活動規律進行挖掘,但這分析結果已經可以推測出用戶的工作方式、住家地點、工作地點、生活規律、出行方式與模式。由于該用戶數據存在部分空缺,對用戶的微觀行為刻畫比較有限,未來筆者會將這移動屬性與網絡訪問信息相結合獲取更準確更細粒度的用戶移動行為和偏好。若能將所有用戶的移動用戶畫像并且支持用戶屬性檢索,便可以快速檢索出具有相似特定屬性的用戶群,便可以針對需求提供用戶相應的個人化服務。

參考文獻

Idc.Worldwide Quarterly Mobile Phone Tracker.2014.

[2]Lee S C,Paik J,Ok J,et al.Efficient mining of user behaviors by temporal mobile access patterns[J].Intl J.Computer Science Security,2007,7(2):285-291.

[3]Chen T S,Chou Y S,Chen T C.Mining user movement behavior patterns in a mobile service environment[J].Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2012,42(1):87-101.

[4]Yava? G,Katsaros D,Ulusoy ?,et al.A data mining approach for location prediction in mobile environments[J].Data & Knowledge Engineering,2005,54(2):121-146.

[5]曾燦燦.基于數據挖掘的移動行為預測[D].武漢:華中科技大學,2011.

[6]王曉明.基于移動數據的軌跡模式挖掘算法的研究與應用[D].沈陽:東北大學,2013.

Baratchi M,Meratnia N,Havinga P J M.Recognition of periodic behavioral patterns from streaming mobility data[M].Mobile and Ubiquitous Systems:Computing,Networking,and Services.Springer International Publishing,2014:102-115.

[8]Li Z,Ding B,Han J,et al.Mining periodic behaviors for moving objects[C]∥Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2010:1099-1108.

[9]Zhang M,Kao B,Cheung D W,et al.Mining periodic patterns with gap requirement from sequences[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2007,1(2):7.

[0]Ji Y,Zhang C,Zuo Z,et al.Mining user daily behavior based on location history[C]∥Communication Technology(ICCT),2012 IEEE 14th International Conference on.IEEE,2012:881-886.

]Zhu Y,Zhang Y,Shang W,et al.Trajectory enabled service support platform for mobile users behavior pattern mining[C].Mobile and Ubiquitous Systems:Networking & Services,MobiQuitous,2009.MobiQuitous 09.6th Annual International.IEEE,2009:1-10.

[2]薛冉.基于地理位置服務的用戶移動屬性的構建和比較[D].濟南:山東大學,2013.

[3]劉瑜,康朝貴,王法輝.大數據驅動的人類移動模式和模型研究[J].武漢大學學報:信息科學版,2014,(6):8.

[4]Lu E H C,Tseng V S,Yu P S.Mining cluster-based temporal mobile sequential patterns in location-based service environments[J].IEEE Transactions on knowledge and data engineering,2011,23(6):914-927.

[5]Tseng V S M,Lin K W C.Mining sequential mobile access patterns efficiently in mobile web systems[C]∥Advanced Information Networking and Applications,2005.AINA 2005.19th International Conference on.IEEE,2005,(2):762-767.

[6]Zhu J,Hu H,Hu S,et al.Mobile behaviometrics:Models and applications[C]∥Communications in China(ICCC),2013 IEEE/CIC International Conference on.IEEE,2013:117-123.

張慷.手機用戶畫像在大數據平臺的實現方案[J].信息通信,2014,(2):266-267.

[8]Srikant R,Agrawal R.Mining sequential patterns:Generalizations and performance improvements[M].Springer Berlin Heidelberg,1996.

猜你喜歡
移動用戶用戶畫像
用戶對移動網絡服務偏好學習技術綜述
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合