基于話單數據的移動通信用戶畫像研究①

2018-11-14 11:37張海旭胡訪宇趙家輝

計算機系統應用 2018年11期

張海旭,胡訪宇,趙家輝

1(中國科學技術大學信息科學技術學院,合肥 230027)

2(安徽省公安廳科技信息化處,合肥 230061)

1 引言

隨著我國移動通信市場的迅速發展,手機已成為人們日常生活中不可或缺的一部分.用戶在使用手機的過程中產生了大量的個人歷史數據,這些數據可以概括為以下幾種: 1)位置信息,通過全球定位裝置(Global Positioning System,GPS)、手機信號塔等方式獲取的地理位置信息; 2)使用信息,記錄了用戶在何時使用了手機做了什么; 3)社交信息,隱含在話單數據,GPS以及通訊錄等數據里.這些歷史數據隱含了與用戶相關的個性化信息,反映了用戶的生活習慣和社交模式.這些數據為研究用戶屬性和特征提供了新的渠道.

話單數據是運營商計費所產生的.話單數據有被動產生、覆蓋范圍廣、成本低、分析周期短等優點,已經在了解人們的移動模式[1],理解人類行為動力學特征[2,3],感知用戶所在地區的地理環境、生活方式、交通狀況和發展水平等[4,5]方面廣泛地使用.例如Etienne Thuillier等[6]使用話單數據,根據用戶每天與預設區域的關系,將用戶劃分為6類,在此基礎上,對用戶進行以一周時間為周期的聚類分析,發現了12種類型的周活動模式.楊喜平、方志祥[7]等利用移動電話位置數據,理解人類時空聚散模式.Schneider等[8]借鑒復雜網絡中模體的概念,發現人們日常生活中存在的17中網絡結構,然后使用模體來概括來自不同國家人們的時空移動模式.Jiang等[9]以新加坡為例,演示了如何使用手機通話詳細記錄(CDR)數據,其中包含數百萬匿名用戶,以提取可與基于活動的方法相媲美的個人移動網絡.

手機話單數據中含有豐富的時空信息和社交信息,目前基于話單數據的研究多集中在分析數據中的時空信息.本文同時利用話單數所包含的時空信息和社交信息,提取用戶特征,發現特征相似的用戶群體和為用戶創建個性化詞云名片,完成對用戶畫像.文本研究,為理解用戶特征提供新的視角,為生產生活的提高、相關政策的制定提供了參考.

2 數據集與研究方法

2.1 實驗數據集

本文手機通話數據由合作單位某運營商提供,為保護用戶隱私,用戶號碼已作匿名化處理.數據分為兩部分: 手機通話話單數據,由10 000名用戶在2013年6月一個月期間通話產生的話單數據,數據格式如表1所示; 基站小區位置信息數據,14 549個基站小區的GPS坐標、行政劃分、道路等信息,數據格式如表2所示.其中手機用戶選取條件如下:

1) 用戶號碼注冊于一個匿名的高科技工業區注冊;

2) 用戶在2013年6月1日～6月30日一個月內的通話總時長大于100分鐘.

表1 話單數據格式

表2 通信小區信息格式

2.2 研究方法

本文同時利用話單數所包含的時空信息和社交信息,從用戶日常移動模式和社交生活兩個方面來刻畫用戶特征.在提取特征時,提出衡量用戶移動隨機程度的移動方向熵特征和衡量用戶社交集中程度的社交熵特征.對用戶一個月內的特征進行分析,然后使用KMEANS聚類算法[10]用戶進行聚類分析,完成用戶群體劃分.接著時間窗口設為一周,利用每周內特征的均值與均方差,給用戶打上標簽,完成對用戶個性化特征的刻畫,構建用戶詞云名片.

(1) 用戶特征定義

為了描述用戶的移動模式,本文從移動強度、活動范圍、移動隨機程度以及出行的隨機性等角度提出定義用戶移動模式的特征; 從用戶社交圈的規模、主動程度、社交上的精力以及會交往集中程度等角度提出定義用戶社交生活的特征.

與朋友發生的相互通話是一個人社交生活中的重要表現形式.通過對用戶的通話時長、聯系人數量、主叫比率和社交熵進行提取,以得到反映用戶的社交能力的特征.

定義1.移動距離特征定義為在一定時間內用戶移動軌跡的長度,是用戶移動強度的體現,公式為:

定義2.回旋半徑特征定義為在一定時間內用戶通話發生時刻所在地點偏離移動軌跡重心距離的標準差,可以表示用戶的移動范圍,公式為:

定義3.訪問點個數特征定義為用戶的所有發起通話地點的個數,可以反映用戶活動的規律,公式為:

定義4.將以東西方向為橫坐標軸,南北方向為縱坐標軸組成的坐標系均分成12個方向區間計算出用戶每次出行方向,然后統計用戶出行方向位于各方向區間的概率計算其信息熵作為用戶的移動方向熵特征,反映用戶出行方向的隨機性,公式為:

定義5.通話時長特征定義為指用戶在一段時間內所有通話時間的總和,可以反映用戶在“電話社交”中的活躍程度,公式為:

定義6.聯系人數量特征定義為所有和用戶發生通話行為的人數總和,可以體現用戶社交圈的規模,公式為:

定義7.主叫比率特征定義為在一定時間內用戶主叫通話次數與總的通話次數的比率,可以體現用戶在社交中的主動程度,公式為:

定義8.在一段時間內用戶與n個用戶發生總共N次通話,其中與n個用戶的通話次數分別為計算熵值作為用戶的社交熵特征.社交熵特征可以反映社會交往集中程度,公式為:

(2) 特征相關性分析

為了從整體上了解用戶,將時間窗口T設定為一個月,計算用戶在一個月時間內,在移動模式和社交生活兩方面的特征向量FT,FT的定義如下:

為了進一步了解代表移動模式和社交生活的特征,為了消除特征之間的差異性,對每一維特征進行zscore標準化:

通過計算標準化后特征之間的相關系數,分析本文提取特征之間的相關性.

(3) 用戶群體發現

本文選擇使用多特征對用戶進行聚類,根據話單數據發現移動模式和社交模式類似的用戶群體.首先將代表用戶將時間窗口T設為一個月,提取用戶一個月內的八個特征.考慮到本文提取的八個特征間可能存在一定的相關性并且可能存在冗余和噪聲,本文對八個特征進行主成分分析,提取主要特征成分.選擇保留90%以上的方差信息,來確定主成分的個數.在此基礎上根據提取的主成分使用K-MEANS聚類算法對用戶進行聚類,發現用戶群體.因為K-MEANS聚類算法是一種簡單、快速的算法,并且當處理大數據集時,也可保持伸縮性和高效性,所有選擇它作為本文的距離算法.

(4) 用戶詞云名片生成

詞云圖一種基于信息文本詞頻的可視化形式,是對文本信息中出現頻率較高的“關鍵詞”予以視覺化的展現.詞云圖可以將重點內容突出,過濾掉的低頻低質的內容,使得瀏覽者只要一眼掃過便可領略主旨.詞云圖被廣泛的使用在藝術、新聞學、社交網絡等不同的領域.生成詞云圖的方法有很多,如Wordle、WordItOut還有Python庫wordcould,本文采用WordItOut工具,為用戶生成詞云名片.

本文借助詞云圖方式為用戶制作詞云名片,使用戶特點被清晰地呈現.構建用戶詞云名片,關鍵是要找到用戶與眾不同的特點,利用一定的規則生成用戶標簽.本文根據用戶特征值的均值和均方差,將特征值位處于整體分布兩端的用戶打上標簽,為生成詞云名片提供數據.然后將用戶的標簽數據送入WordItOut工具,為用戶生成個性化的詞云名片.

3 實驗和分析

3.1 數據預處理

由于CDR數據需要關聯了小區的位置信息才能用于對用戶定位,而二者主要通過位置區ID和小區ID建立起關聯.統計發現,數據集中的小區ID已經具有唯一性,故刪除了CDR數據中小區ID缺失或未被包含在小區信息數據集里的記錄,最終共得到9514位用戶的2380 598條話單數據.

3.2 特征提取

將時間窗口T設為一個月,提取用戶一個月內的八個特征.用戶移動模式特征的概率密度分布如圖1所示,用戶社交生活特征的概率密度分布如圖2所示.移動距離、回旋半徑、通話時長和聯系人數量特征值主要集中在一定范圍內,超過一定值后,概率會迅速下降且出現重尾現象,特征值較大的用戶稀疏的存在.主叫比率和社交熵概率密度函數服從正態分布.訪問點個數的峰值處于較小數值段,概率密度函數在達到峰值前增長較快,達到峰值后下降比較緩慢.和訪問點個數特征的概率密度函數相反,用戶的移動方向熵的峰值處于較大的數值段,在達到峰值前增長緩慢,達到峰值后下降很快,說明存在少量出行方向隨機性很強的用戶.

3.3 特征相關性分析

為了進一步了解代表移動模式和社交生活的特征,計算標準化后特征之間的相關系數,結果如表3所示.由表3可知,特征間存在6對顯著相關(0.50.8)的特征對.對顯著相關的特征對解釋如下:

圖1 四種移動模式特征的概率密度分布

圖2 四種社交生活特征的概率密度分布

表3 不同特征之間的相關性

(1)移動距離和回旋半徑(r=0.551)、移動距離和訪問點個數(r=0.644)存在顯著的相關性.這個不難理解,用戶移動距離越大,可能伴隨著活動范圍越大、發生通話的地點越多.

(2)訪問點個數和通話時長(r=0.616)、訪問點個數和聯系人數量(r=0.570)存在顯著的相關性.因為本實驗中的社交信息是由話單數據體現,所以通話時間長、聯系人比較多的用戶記錄的話單數據越詳細,導致他們的訪問點數目也比較多.

(3)聯系人數量和通話時長(r=0.577)、聯系人數量和社交熵(r=0.706)存在顯著的相關性.用戶聯系人數量越多,總的通話時長也有很大概率越大,同樣由于社交熵的定義,用戶的社交熵也很大概率越大.

3.4 用戶群體發現

將時間窗口T設為一個月,提取用戶一個月內的八個特征.對用戶特征值進行主成分分析,選擇保留90%以上的方差信息,保留了六個主成分.對保留的特征主成分使用K-MEANS聚類算法對用戶進行群體劃分,參考輪廓系數,通過測試和調整,最終確定k=4.將每一類的聚類中心點作圖如圖3(a)所示.為了對聚類結果有清楚的認識,使用每一類用戶的原始八個特征對聚類結果進行展示.計算每一類用戶的原特征的平均值,將每一類用戶的特征平均值作圖如圖3(b)所示.

從圖3(a)中可以看到用戶在特征主成分上被很好地分離開了,尤其是在占主導作用的前3個主成分方面.接下來根據圖3(b)對用戶群體發現結果進行解釋說明.

Cluster 1共有4735人,占比為49.8%.這部分用戶最多,他們的日常移動模式特征和社交生活特征值均在平均值上下0.5左右,反映了數據集中大部分用戶的移動模式和社交生活的特點.

Cluster 2共有2227人,占比為23.4%.他們日常移動模式特征值均是四類用戶中最小的,在社交生活特征方面,在通話時長特征與大部分用戶相仿的前提下,社交熵特征和聯系人數量特征值比大部分用戶小,主叫比率特征值卻最大,說明這類用戶日常移動性較差,社交圈相對集中,并且通話多數都是主動.

Cluster 3共有2119人,占比為22.3%.在日常移動模式特征方面,回旋半徑特征和大部分用戶相同,訪問點個數特征和移動距離特征比大部分用戶大,移動方向熵特征卻比大部分用戶小; 在社交生活特征方面,四種特征值都比大部分用戶大.這代表這類用戶的活動范圍雖然和大部分用戶差不多,但但移動距離更大,活動地點更多并且移動更有規律,平時通話時間長,聯系人多,社交圈也比較廣,與朋友聯系一般為主動聯系.

圖3 用戶聚類結果

Cluster 4共有433人,占比為4.5%.這類用戶最少,他們除了移動方向熵特征、主叫比率特征外的其他特征都遠大于其他用戶,他們活動范圍廣,移動距離長,訪問點多,通話時間長,社交圈也廣,是數據集中最活躍的那一部分群體.

3.5 用戶詞云名片生成

構建用戶詞云名片的關鍵是制訂規則發現用戶與眾不同的特點并生成標簽數據.本文標簽制訂規則如表4所示,首先計算每一維特征整體均值mean和均方差std.將特征值fT落在區間外的用戶按照表4所示規則添加標簽.

人們的工作生活多數以星期作為周期,因此將時間窗口T設為一個星期,這樣樣可以獲得更多的用戶標簽,以對用戶進行更詳細的分析.計算用戶的特征向量fT,然后根據表4所示規則計算用戶標簽,最后將每位用戶獲得的標簽分別送入WordItOut工具,就生成了用戶的詞云名片.

表4 標簽制訂規則

取實驗中兩名用戶的用戶詞云名片展示如圖4,可以發現用戶1的詞云名片中DD-Ⅱ、AP-Ⅱ、CD-Ⅱ和CC-Ⅱ比較突出,它們表示用戶1的移動距離特征、訪問點個數特征、通話時長特征和聯系人數量特征位于區間中,其它特征處于正常水平.這表明用戶1移動距離大,訪問地點多,同時通話時間長,聯系人比較多.基于此可以推測用戶1可能是在較大城市區域內從事聯系交流工作的室外工作者;而用戶2的詞云名片中DE-Ⅰ、CR-Ⅱ和AP-Ⅰ比較突出,它們表示用戶2的移動方向熵特征和訪問點個數特征位于區間中,主叫比率特征位于區間中,其它特征處于正常水平.這表明用戶2活動地點少且移動具有規律性,通話多為主叫,基于此用戶2可能是喜歡宅在某些地點,用電話處理日常生活的人.

圖4 用戶詞云名片

4 總結

本文利用用戶話單數據提取出多個反映用戶時空信息和社交信息的特征,在真實的數據上通過對特征的綜合分析,完成了對移動通信用戶的畫像研究.基于用戶的多方面特征,發現了四類移動模式和社交生活相似性的用戶群體,創建了用戶詞云名片的使得用戶個體的特點可以被清晰地呈現.以本文研究為基礎,移動通信運營商可以針對用戶特點制訂相應的套餐并向用戶推薦,其他利益相關企業可以針對用戶特點推薦相關的商品,實現精準營銷; 在城市治理方面,可以通過對用戶的移動性和行為模式的分析,識別非法營運車輛的從業人員.

由于話單數據是由通話事件觸發采樣的,因此用戶移動行為、社交行為只有在通話行為發生的情況下才能被記錄,所以本文結果具有一定的局限性.受實驗話單數據獲取途徑的限制,不能在更大數據集下對本文提出的方法和分析結果進行進一步地研究.今后的工作將主要從兩個方向進行展開: 第一,挖掘話單數據中隱含更多的特征,從多角度對用戶間的差異性進行表達; 第二,獲得信息更加豐富的實驗數據,增加數據種類,通過多種數據對比、融合來刻畫用戶畫像.