?

新媒體用戶行為模式分析

2016-11-18 19:48張婉君
新媒體研究 2016年19期
關鍵詞:用戶行為聚類分析新媒體

張婉君

摘 要 對新媒體用戶現狀進行調研,通過問卷調查的方式獲取新媒體用戶使用行為數據和基本數據,完成了基于自組織特征映射神經網絡的新媒體用戶行為模式分析,基于所發現的用戶興趣偏好,可以為新媒體用戶提供更為有效的個性化服務。

關鍵詞 新媒體;用戶行為;聚類分析;自組織特征映射網絡

中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)19-0030-03

1 研究背景

隨著新媒體技術的快速發展,以互聯網、移動多媒體網絡為載體的新媒體得以廣泛應用。新媒體具有形式豐富、互動性強等特點,其用戶規模正在迅速擴大[1]。各類新媒體都具有其獨特的技術和傳播特點,因而新媒體的用戶類型和結構也不相同,不同年齡、不同性別、不同教育程度的用戶可能對同一媒體的認知、操作等都不相同。為使新媒體更好地服務于用戶,需要了解用戶使用新媒體的規律性特點。

2 自組織特征映射神經網絡

自組織特征映射神經網絡由輸入層和競爭層組成。輸入層是一維的神經元,輸入層神經元數與樣本維數相等[2]。競爭層為輸出層,神經元個數是變量,需要在建立網絡時給出,神經元的排列呈一維線陣、二維平面和三維柵格陣等多種形式。輸出層按二維平面組織是自組織特征映射神經網絡最典型的組織方式[3]。

3 新媒體用戶行為模式分析

對新媒體用戶現狀進行調研,通過問卷調查的方式調研用戶對新媒體的接觸情況,對調研階段采集到的新媒體使用行為數據進行數據選取和預處理,得到適合分析的目標數據集。應用自組織特征映射算法對新媒體用戶行為模式進行分析。

3.1 數據采集

通過問卷調查的形式搜集用戶對博客、網絡視頻、論壇、即時通訊工具、SNS社區和網絡游戲的接觸及使用情況。調查問卷包括兩部分,即用戶的新媒體使用行為調查和用戶基本信息調查。在用戶新媒體使用行為調查部分,針對每種新媒體的特點對用戶的使用方式進行調研,如調查用戶在博客上發帖和閱讀別人博客的頻率;收看網絡視頻的頻率和上傳視頻的情況;在論壇上發表新帖的頻率;使用即時通訊工具的頻率;登錄SNS社區的類型及頻率;玩網絡游戲的頻率等。用戶基本信息的采集包括用戶的年齡、性別、教育程度等。問卷調查選取北京地區20至49歲的490名用戶為被調查者,經統計被調查者性別、年齡、教育程度分布均勻。

3.2 數據預處理

問卷調查采集到的原始數據無法直接進行數據挖掘,需要對數據進行預處理,使后面的數據挖掘過程有較高質量的輸入數據,最終得到準確的挖掘結果。數據預處理的重點是將問卷調查采集到的數據處理成適合用戶行為模式分析的輸入數據。

如果被調查者選擇“從不上網”,則該被調查者對互聯網沒有接觸行為,該用戶數據視為無效數據將其刪除,共統計出該類數據46個。原始數據以天、周、月為單位對被調查者使用新媒體的頻率進行記錄,預處理時統一處理為以月為單位統計的頻次,涉及“是”“否”選項時分別以“1”和“0”表示。預處理后每位被調查者網絡新媒體接觸情況部分的原始數據被處理為13個屬性,分別為:

A更新博客的頻率(取值0、1、2、4、12、30、60);B閱讀別人博客的頻率(取值0、1、2、4、12、30、60);C收看網絡視頻的頻率(取值0、2、6、15、30);D是否上傳網絡視頻(取值0、1);E常使用的論壇個數(取值0、1、3、5);F論壇上發布新帖的頻率(取值0、1、2、4、12、30、60);G使用即時通訊工具的頻率(取值0、2、6、15、30);H玩網絡游戲的頻率(取值0、2、6、15、30);I登錄門戶網站的頻率(取值0、2、6、15);J登錄即時通訊軟件社區的頻率(取值0、2、6、15);K登錄電子商務網站的頻率(取值0、2、6、15);L登錄通信運營商社區的頻率(取值0、2、6、15);M登錄獨立SNS社區的頻率(取值0、2、

6、15)。

統計13個屬性取值全為0的被調查者,則說明該被調查者雖然有上網行為,但是對博客、網絡視頻、論壇、即時通訊工具、SNS社區和網絡游戲沒有使用行為,該數據也為無效數據需要刪除,共統計出該類數據22個。采集到的原始數據記錄共有490個,刪除無效數據后得到有效數據422個。

3.3 數據測試

由于對新媒體用戶媒體使用行為數據所進行的聚類分析并不存在先驗知識,是在完全未知的狀態下進行的預測性挖掘,所以需要通過大量實驗來確定競爭層的神經元個數及相關參數。對UCI機器學習數據庫中的Iris和Wine兩個典型數據集進行測試,得到排序階段學習率選取0.9且調整階段學習率選取0.09時,能得到較好的聚類效果。當競爭層設置為16個輸出神經元時,網絡在不斷增加訓練步數的情況下能夠達到穩定狀態。創建一個采用4×4陣列的六角層拓撲結構的自組織特征映射網絡,設置排序階段的學習率初始值為0.9,調整階段的學習率為0.09,調整階段鄰域半徑為1.0。在Pentium(R) Dual-Core 2.00GHz,內存2G的PC機上,對新媒體用戶使用行為數據進行訓練。

該網絡訓練步數為19 500次,總耗時2小時42分鐘,算法將422個數據聚合成16類,同一類別數據激發相同輸出神經元,以激發的神經元的序號作為其類別值,具體信息如下:第1類數據27個;第2類數據11個;第3類數據23個;第4類數據16個;第5類數據19個;第6類數據31個;第7類數據13個;第8類數據88個;第9類數據9個;第10數據15個;第11類數據20個;第12類數據22個;第13類數據28個;第14類數據13個;第15類數據42個;第16類數據45個。

3.4 結果分析

引入VBA宏程序,結合用戶性別、年齡和教育程度三項基本信息對上述聚類結果進行分析,統計出每類用戶使用每種新媒體的特點,如表1所示。

4 總結

通過自組織特征映射算法對大量新媒體用戶的使用行為數據進行數據挖掘,使具有相似偏好的用戶以群的模式聚集起來,而后分析得到不同的用戶群偏好,可以使新媒體服務提供商準確預測用戶的需求,便于為用戶提供更加符合其興趣偏好的增值業務,更好地滿足用戶多層次、多樣化、個性化、專業化的需求。

參考文獻

[1]景東,蘇寶華.新媒體定義新論[J].新聞界,2008(3):57-59.

[2]曹志勝,林和平,李迎斌.SOM人工神經網絡在客戶分類中的應用[J].信息技術,2008(11):85-87.

[3]魏海坤.神經網絡結構設計的理論與方法[M].北京:國防工業出版社,2005:80-81.

猜你喜歡
用戶行為聚類分析新媒體
社會化媒體用戶使用動機與行為探析
新媒體背景下黨報的轉型探析
對農廣播節目的媒體融合之路
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合