?

基于用戶行為指標的在線健康社區用戶畫像研究

2022-07-06 18:17蔡春雨
現代信息科技 2022年6期
關鍵詞:用戶畫像信息服務

摘? 要:在線健康社區已成為公眾獲取健康信息和服務的重要平臺,構建在線健康社區用戶畫像,有利于明確社區用戶的群體特征和信息需求,為社區提高信息服務質量提供借鑒。從信息行為學角度出發構建群體用戶畫像分析模型,對用戶行為指標進行提取,利用高斯混合模型對用戶進行聚類分析,將社區中群體用戶分為三類。通過對社區關鍵用戶的識別和特征分析,一方面可以準確了解社區用戶的信息需求,提供健康信息服務;另一方面可以提高關鍵用戶的數量,促進在線健康社區的良好發展。

關鍵詞:在線健康社區;行為指標;用戶畫像;高斯混合模型;信息服務

中圖分類號:TP391? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2022)06-0144-04

User Portrait Research on Online Health Community Based on User Behavior Indices

CAI Chunyu

(School of Management, Shandong University of Technology, Zibo? 255012, China)

Abstract: Online health community has become an important platform for the public to obtain health information and services. Building online health community user portrait is beneficial to clarify the community user population characteristics and information requirements, and it provides reference for the community to improve the quality of information service. From the perspective of information behavior, the group user portrait analysis model is constructed, the user behavioral indices are extracted, and the Gaussian mixture model is used for cluster analysis of users, and the group users in the community are divided into three categories. Through identifying and analyzing the characteristics of key users in the community, on the one hand, it can accurately know the information requirements of community users and provide health information services. On the other hand, it can increase the quantity of key users and promote the good development of online health community.

Keywords: online health community; behavioral indice; user portrait; Gaussian mixture model; information service

0? 引? 言

截至2020年,我國65歲及以上人口占比高達12.6%,人口老齡化、慢性病及醫療資源分布不均的痛點對我國現在的醫療體系產生巨大壓力[1],促使互聯網醫療行業不斷發展,在線醫療用戶規模高達2.76億人[2]。如何促進在線健康社區的發展,在于怎樣利用用戶大數據準確識別在線健康社區用戶的特征,用戶畫像則能夠實現用戶屬性與行為的關聯[3]。通過用戶的信息數據提取出用戶的行為指標,可以準確識別用戶的信息需求行為和內容特征。

基于此,本文以在線健康社區—膽管癌、膽囊癌QQ群為例,對在線健康社區用戶進行群體用戶畫像研究,從用戶的基本特征、信息特征、交互特征、情感特征四個維度出發,基于用戶的行為指標構建在線健康社區的群體用戶畫像;并通過聚焦于在線健康社區群體用戶行為指標的研究,致力于準確識別用戶類型,從而為用戶提供準確合理的健康信息服務。

1? 用戶畫像研究

1.1? 在線健康社區研究現狀

在線健康社區(Online Health Community)是以健康為主題的在線社區,醫生、患者及其家屬就健康或疾病治療等相關問題,用發文、回復等形式完成信息交互[4]。目前,關于在線健康社區的研究主要從社區內信息、社區和用戶三個維度展開。在信息維度,學者們主要采用文本挖掘、機器學習等方法對信息內容或主題分析;在社區維度,研究大多集中于如何利用在線社區如微博、博客等進行健康消息的傳播和共享;對于用戶關系網絡的研究主要從網絡的整體結構、網絡形成的影響因素、網絡特征等角度展開。吳江等[5]用社會網絡分析方法構建在線健康社區知識共享網絡,發現在線健康社區的知識網絡具有小世界效應,且存在核心知識貢獻者,使得知識可以在社區內快速傳播。

1.2? 用戶畫像研究思路

用戶畫像(User Profile)是基于數據挖掘提取用戶的屬性及行為特征,抽象出用戶社交屬性、生活習慣、消費者行為等信息標簽,再利用這些標簽將用戶形象具體化,從而為用戶提供有針對性的服務。71017D22-5E0E-468A-AB2F-A4DDF023E9BF

本文針對在線健康社區進行用戶畫像研究,主要從用戶的基本特征、信息特征、交互特征和情感特征四個維度出發,獲取用戶活躍度、互惠度,信息多樣性、均質性,正向情感頻數、負向情感頻數共6個行為指標,構建用戶畫像分析框架。

2? 用戶畫像構建及分析

2.1? 畫像構建

用戶畫像構建框架如圖1所示,首先對獲取的數據進行預處理,并完成用戶行為指標的提取;其次,融合用戶的多維屬性,構建用戶畫像分析模型,進行用戶群體的劃分;最后,根據群體用戶的行為指標特征分析用戶的特征,從而促進社區合理的信息服務。

2.2? 框架分析

2.2.1? 數據預處理

通過對社區內用戶的群內標簽信息進行文本挖掘后,可以得到用戶的基本特征,包括性別、患病類型和地域。但是性別數據列存在少量的缺失值,為了保證用戶基本特征的完整性,需要對性別缺失值進行填充。首先利用文本挖掘的方法,根據缺失值用戶整個時間段的聊天文本,通過具有代表性別的字、詞完成第一輪的性別填充;最后利用已知性別用戶的男女比例,用隨機概率的方法進行第二輪性別填充,完善性別特征。

2.2.2? 用戶行為指標的提取

本文在線健康社區用戶畫像構建的行為指標共包括:用戶的活躍度、互惠度;信息的多樣性、均質性;正向情感頻數、負向情感頻數等6個指標。用戶行為指標計算的參數及描述如表1所示。

(1)用戶交互特征:活躍度、互惠度?;钴S度表示一個用戶在整個時間段內的交互過程中活躍程度的高低。用戶i的活躍度表示為ai,通過用戶i在整個時間段內的交互次數的占社區總的交互次數的比值度量,計算公式為:

(1)

其中,wi是用戶i在整個時間段內的加權度,是整個時間段內社區全部用戶的加權度之和。

互惠度表示一個用戶在整個時間段內的交互過程中信息傳播傾向性的大小。用戶i的互惠度表示為vi,通過用戶i在整個時間段內的出度與入度的比值度量。當互惠度值大于1,表示用戶傾向于信息傳播;當互惠度值小于1,表示用戶傾向于信息接收。計算公式為:

vi=ikout/ikin(2)

其中,ikout是用戶i的出度,ikin是用戶i的入度。

(2)用戶信息特征:多樣性、均質性。信息多樣性表示一個用戶在整個時間段內的交互過程中包含信息量的多少,代表用戶信息質量的高低。用戶i的信息多樣性表示為di,通過用戶i整個時間段內的關鍵詞種類與社區內關鍵詞種類的比值度量,計算公式為:

di=ni/N(3)

其中,ni代表該用戶i在整個時間段內出現的關鍵詞的種類,N代表整個時間段內社區內的關鍵詞種類。

信息均質性表示用戶在整個時間段內的交互過程中信息的全面程度。用戶i的信息均質性表示為ji,通過用戶i在整個時間段內在不同信息主題間的信息熵與用戶i最大信息熵的比值度量。均質性j的取值范圍為[0-1],當j越接近1時,信息全面性越高;反之,信息全面性越低。計算公式為:

ji=Hi/(4)

(5)

(6)

其中,H(i)代表用戶信息主題的信息熵,P(it)表示用戶i在主題t的概率,S代表用戶i的信息主題個數。

(3)用戶情感特征:正向情感頻數、負向情感頻數。情感傾向度表示用戶在整個時間段內的交互過程中情感的傾向性。用戶i的正向情感頻數表示為Pei,表示一個用戶在整個時間段內的交互過程中,正向信息數量的多少。負向情感頻數表示為nei,表示一個用戶在整個時間段內的交互過程中,負向信息數量的多少。

2.2.3? 高斯混合模型(GMM)

高斯混合模型(Gaussian Mixed Model)是一種基于概率模型的聚類方法。GMM假設樣本數據服從k個高斯分布,服從同一分布的樣本聚為一類,再利用最大期望算法擬合k個混合高斯分布,以求得每個分布的均值μj和協方差εj(1≤j≤k)。以下為具體步驟:

步驟1:初始化k個多元高斯分布的參數μj和εj,假設每個混合元素具有各自的對角矩陣。

步驟2:遍歷所有樣本點,計算樣本點xi(i=1,2,…,m)屬于第j個高斯分布的概率γi,j。

(1)

式中:p(·)為概率函數;zi表示xi所屬的類;d為xi的維度。

步驟3:按照公式2和3得到各高斯分布參數的新值和。

(2)

(3)

步驟4:重復步驟2和3,直至各高斯參數收斂。

步驟5:利用高斯參數,遍歷所有樣本,將樣本歸于概率γi,j最大的一類。

3? 實證結果分析

3.1? 構建用戶畫像分析模型

本文在線健康社區用戶畫像構建的行為指標共包括:用戶的活躍度、互惠度;信息的多樣性、均質性;正向情感頻數、負向情感頻數等6個指標。(1)通過交互網絡中節點的加權度進行用戶活躍度指標的計算,其中節點的加權度代表著用戶整個時間段內的交互次數,體現著用戶活躍度的大小;通過交互網絡中節點的出度和入度兩個指標進行用戶互惠度的指標計算。節點的出度代表用戶在信息交互過程中的信息傳播行為;節點的入度代表用戶在信息交互過程中的信息接收行為。(2)根據2020.07—2020.12時間段內每個用戶交互的健康信息,進行關鍵詞提取,每個用戶關鍵詞種類的頻數與社區中所有用戶頻數的比值度量信息的多樣性;首先基于LDA主題模型,結合切詞工具pkuseg的醫學模塊詞典和用戶自定義詞典(該類疾病的相關專業詞匯),完成對社區中健康信息的主題識別和抽取工作。(3)用戶情感特征的提取,主要通過對社區內的信息利用情感極性分析詞典進行情感極性分析,可以將信息中的情感分為正向情感(score>0)、負向情感(score<0)和中性情感(score=0)三門類。71017D22-5E0E-468A-AB2F-A4DDF023E9BF

由于社區內用戶的交互特征、信息特征和情感特征的行為指標數據是離散型數據,而高斯混合模型對于該類型數據的處理有較好的結果,因此,根據社區內用戶的行為指標,利用高斯混合模型進行用戶群體劃分。依據高斯混合模型的BIC和AIC的值判斷最優聚類個數,如圖2所示。

從圖2可以看出,當社區用戶類別為大于5時,兩者值的曲線變得相對平緩,故用戶聚類結果最優。最后,根據高斯混合模型的用戶聚類結果,可以將社區內用戶大致分成五類。用戶的行為指標如表2所示。

3.2? 群體劃分

根據自然斷點法,將該社區用戶活躍度分成5個等級,分別是1=非常不活躍、2=不活躍、3=一般、4=活躍、5=非?;钴S。用戶活躍度等級劃分如表3所示。

結合表2中用戶活躍度區間可以看出,Class0、Class3兩類用戶的活躍度處于非常不活躍等級,導致用戶其余行為指標沒有參考價值,無法準確體現用戶的特征,因此將這兩類用戶群體刪除。最后只得到Class1、Class2、Class4類用戶群體。

3.3? 信息服務

Class1類關鍵用戶是社區中的志愿者組成,主要特征是活躍性高,傾向于信息傳播;健康信息質量高,且健康信息全面;以正向情感信息為主;男女性別相當,主要是膽管癌患者。該類用戶屬于久病成醫的用戶,在社區中積累足夠的知識后,成為社區中的志愿者。主要在社區中分享樂觀的健康信息,滿足社區成員的健康信息需求,減少患者及家屬的心理壓力,屬于正向健康信息傳播者。

Class2類關鍵用戶是社區中的患者及家屬組成,主要特征是活躍性較低,既有大量的信息接收者,也有大量的信息傳播者;健康信息質量較低,健康信息不全面,且有一定的主題傾向,偏向于醫生醫院類健康信息;以負向情感信息為主;男女性別相當,主要是膽管癌患者。主要在社區中尋求健康信息,且在信息交互過程中經常帶有負面的情緒,屬于負向健康信息傳播者。

Class4類關鍵用戶是社區中的管理者組成,主要特征活躍性高,傾向于信息傳播;健康信息質量高,健康信息全面;保持理性情感,以男性為主,患病類別相當。主要在社區中提供理性的健康信息,既要闡明疾病治療的后果,同時提供樂觀的治療經驗信息,屬于理性健康信息傳播者。

4? 結? 論

本文以國內具有代表性的在線健康社區—膽管癌、膽囊癌QQ群社區為例,從用戶的交互特征、信息特征和情感特征三個維度出發,通過用戶的活躍度、互惠度,信息的多樣性、均質性,正向情感頻數、負向情感頻數等6個行為指標,利用高斯混合模型進行社區關鍵用戶的識別。為了全面刻畫社區中關鍵用戶的基本特征,結合用戶基本特征,分析關鍵用戶的基本特征。

最后該類社區的關鍵用戶分成3類:一類是正向健康信息傳播者,該類用戶活躍度高,傾向于信息傳播,健康信息質量高,且信息全面,以正向情感信息為主;男女性別相當,主要是膽管癌患者;一類是負向健康信息傳播者,該類用戶活躍度較低,既有大量的信息接收者,也有大量的信息傳播者;健康信息質量較低,且信息不全面,且有一定的主題傾向,偏向于醫生醫院類健康信息;以負向情感信息為主;男女性別相當,主要是膽管癌患者;一類是理性健康信息傳播者,該類用戶活躍度高,傾向于信息傳播;健康信息質量高,且信息全面;保持理性情感,以男性為主,患病類別相當。通過對社區關鍵用戶的識別和特征分析,一方面可以準確了解社區用戶的信息需求,提供健康信息服務;一方面提高關鍵用戶的數量,促進在線健康社區的良好發展。

參考文獻:

[1]艾瑞.2020年中國互聯網+醫療行業研究報告[EB/OL].(2020-09-03).https://baijiahao.baidu.com/s?id=1676775102649072258&wfr=spider&for=pc.

[2]中國互聯網絡信息中心.第46次中國互聯網絡發展狀況統計報告 [EB/OL].(2020-09-29).http://www.cac.gov.cn/2020-09/29/c_1602939918747816.htm.

[3] 陳慧香,邵波.國外圖書館領域用戶畫像的研究現狀及啟示[J].圖書館學研究,2017(20):16-20.

[4] YOUNG C. Community Management that Works: How to Build and Sustain a Thriving Online Health Community [J/OL].Journal of Medical Internet Research,2013,15(6):e119.[2022-12-20].http://med.wanfangdata.com.cn/Paper/Detail/PeriodicalPaper_PM23759312.

[5]吳江,周露莎.在線醫療社區中知識共享網絡及知識互動行為研究[J].情報科學,2017,35(3):144-151.

作者簡介:蔡春雨(2001.03—),女,漢族,山東濟寧人,本科在讀,研究方向:在線用戶畫像。

收稿日期:2022-01-2171017D22-5E0E-468A-AB2F-A4DDF023E9BF

猜你喜歡
用戶畫像信息服務
貝葉斯網絡在用戶畫像構建中的研究
把聲音的魅力發揮到極致
移動用戶畫像構建研究
微信平臺在公共圖書館信息服務中的應用
智慧社區信息服務績效評價研究
公共圖書館科技創新服務探析
農業高校圖書館專利信息服務研究
基于微博的大數據用戶畫像與精準營銷
基于價值共創共享的信息服務生態系統協同機制研究
微信公眾平臺在高校圖書館信息服務中的應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合