?

融合多粒度信息的用戶畫像生成方法

2024-03-05 08:33邵一博秦玉華崔永軍高寶勇趙彪
計算機應用研究 2024年2期
關鍵詞:用戶畫像特征提取

邵一博 秦玉華 崔永軍 高寶勇 趙彪

收稿日期:2023-05-14;修回日期:2023-07-01? 基金項目:青島市科技惠民示范項目(23-2-8-smjk-20-nsh)

作者簡介:邵一博(1999—),男,山東菏澤人,碩士研究生,CCF會員,主要研究方向為智能信息處理、用戶畫像;秦玉華(1971—),女(通信作者),山東青島人,教授,碩導,博士,主要研究方向為智能信息處理(yuu71@163.com);崔永軍(1975—),男,山東青島人,副主任醫師,主要研究方向為醫療大數據;高寶勇(1998—),男,山東壽光人,碩士研究生,主要研究方向為智能信息處理;趙彪(2001—),男,山東菏澤人,碩士研究生,主要研究方向為自然語言處理.

摘? 要:現有用戶畫像方法缺乏不同粒度文本信息表示,且特征提取階段存在噪聲,導致構建畫像不夠準確。針對以上問題,提出一種融合多粒度信息的用戶畫像生成方法(user profile based on multi-granularity information fusion,UP-MGIF)。首先,該方法在嵌入層融合字粒度、詞粒度表示向量以擴充特征內容;其次,在改進雙向門控循環單元網絡基礎上,結合降噪自編碼器和注意力機制設計一種特征提取混合模型Bi-GRU-DAE-Attention,實現特征降噪和語義增強;最后,將魯棒性強的特征向量輸入到分類器中實現用戶畫像生成。實驗表明,該用戶畫像生成方法在醫療和互聯網兩個畫像數據集上的分類準確率高于其他基線方法,并通過消融實驗驗證了各個模塊的有效性。

關鍵詞:用戶畫像;多粒度信息融合;特征提??;雙向控制循環單元

中圖分類號:TP391??? 文獻標志碼:A

文章編號:1001-3695(2024)02-012-0401-07

doi:10.19734/j.issn.1001-3695.2023.05.0234

User profile generation method by fusing multi-granularity information

Shao Yibo1,Qin Yuhua1,Cui Yongjun2,Gao Baoyong1,Zhao Biao1

(1.College of Information Science & Technology,Qingdao University of Science & Technology,Qingdao Shandong 266061,China;2.Qing-dao Hospital,University of Health & Rehabilitation Sciences(Qingdao Municipal Hospital),Qingdao Shandong 266001,China)

Abstract:Most of the existing user profile methods lack different granularity text information representation,and there is a noise problem in the feature extraction stage,resulting in the inaccurate construction of the profile.To address these issues,this paper proposed a user profile method based on multi-granularity information fusion,called UP-MGIF.Firstly,it integrated the character-level granularity and the word-level granularity representation vectors in the embedding layer to expand feature content.Secondly,based on the improved bi-directional gated recurrent unit network(Bi-GRU),it designed a hybrid feature extraction model called Bi-GRU-DAE-Attention by combining denoising autoencoder(DAE) and attention mechanism to achieve feature denoising and semantic enhancement.Finally,it input the robust feature vectors into the classifier to achieve user profile generation.Experiments show that the user profile generation method achieves higher classification accuracy than other baseline methods on two profile datasets in the medical and Internet domains,and validate the effectiveness of each module through ablation experiments.

Key words:user profile;multi-granularity information fusion;feature extraction;bidirectional gated recurrent unit

0? 引言

當今,數字化技術的迅猛發展和互聯網的廣泛普及使得數據的生成和存儲量不斷增加,從而導致數據爆炸、信息冗余等一系列問題[1]。如何從數據中提取有價值的信息,幫助企業更好地了解用戶的需求、習慣和興趣等屬性特征,避免資源浪費,依舊是當前的研究熱點。

用戶畫像是通過對用戶數據進行分析,建立一個代表用戶特征的畫像表示,進而利用該畫像為用戶提供更加個性化的服務[2]。用戶畫像研究廣泛應用于電商、醫療、推薦系統等領域,可以幫助企業更好地了解用戶需求,提高用戶滿意度和忠誠度[3]。

用戶畫像的構建過程是將用戶數據信息標簽化,完善系統中缺失的用戶屬性信息。目前主要有基于統計的用戶畫像和基于模型的用戶畫像兩種生成方式。其中,基于統計的用戶畫像主要利用數據統計和分析技術對用戶的屬性、行為和興趣等特征進行描述和分析,以形成一個關于用戶的整體概況。Yan等人[4]通過統計用戶在線購物和瀏覽日志建立基于使用情況的用戶畫像,從而挖掘用戶之間的行為差異。劉海鷗等人[5]對社交媒體用戶碎片化信息進行時間統計特征分析,揭示了在線社交活動中的用戶行為特點。Chen等人[6]基于企業輿情理論知識,抓取用戶特征標簽,將數據量化為影響風險程度的指標,構建企業網絡輿情用戶畫像。然而,基于統計方法構建的用戶畫像較為簡單,無法對文本、圖片等非結構化數據進行分析,易造成資源浪費。

基于模型的用戶畫像比基于統計的用戶畫像更具靈活性和準確性,前者可以通過更深入的分析和更多的數據來預測用戶的行為,這種方法通常將深度學習技術應用于自然語言處理領域,建立用戶的預測模型,并通過訓練數據對模型進行優化。陳澤寧等人[7]通過詞向量模型word2vec將文本內容表示成向量,并結合隨機森林算法對用戶的基本屬性進行分類構建用戶畫像,但針對數據特征的表示較為單一,缺乏對多方面信息的有效利用。于偉杰等人[8]采用集成學習Stacking的方式結合LR、SVM、BERT多個模型,通過投票機制獲得最優分類效果,但多個模型的累加容易出現過擬合問題。苗宇等人[9]提出一種多層級特征提取的融合網絡用戶畫像生成方法Multi-Aspect,對用戶的搜索詞數據進行多角度特征提取融合,使用Bi-GRU(bidirectional gated recurrent unit)和Attention提取文本全文特征和關鍵詞特征來預測用戶的匿名屬性標簽,但在文本編碼模塊中僅使用word2vec方法,沒有從多粒度的角度出發,特征表示不夠全面,文本語義表示能力較差,用戶畫像屬性預測準確率較低。Zhou等人[10]結合RoBERTa-wwm-ext模型完成中文文本的編碼嵌入,獲得字符粒度的文本表示。辛苗苗等人[11]融合字符粒度、詞語粒等特征信息來擴充特征內容,融合多粒度信息比單一粒度準確率更高,但特征提取階段忽略了文本數據中的隨機噪聲影響,分類的效果仍有待提升。為了克服序列數據噪聲的影響,段閆閆等人[12]在LSTM的基礎上引入降噪自編碼器(DAE),從而獲取魯棒性更強的特征表示。

綜上所述,現有用戶畫像方法通常只考慮單一粒度信息,忽略了不同粒度組合對用戶畫像的研究,導致文本向量對文本語義的表示能力較差。另外,簡單的特征提取方法容易忽略文本數據特征細節,特征提取階段存在噪聲干擾、過擬合問題,導致用戶畫像屬性預測時準確率較低。針對上述問題,本文提出一種融合多粒度信息的用戶畫像生成方法(user profile based on multi-granularity information fusion,UP-MGIF)。首先,構建不同粒度的向量嵌入表示,使用word2vec模型獲取文本的詞粒度向量,并使用RoBERTa模型獲取文本的字粒度向量,將兩者進行拼接得到融合向量,從而擴充特征內容,獲取更加全面的特征信息,增強文本語義表示能力。其次,設計一種特征提取混合模型Bi-GRU-DAE-Attention(Bi-GDA),將向量輸入到改進的雙向門控循環單元網絡(bidirectional gated recurrent unit,Bi-GRU)中進行初步的特征提取,融合降噪自編碼器(denoising autoencoder,DAE)解決文本序列隨機噪聲的干擾問題,增強特征的魯棒性,并結合Attention機制進一步加強對文本序列中關鍵因子的關注以及內部相關性的捕捉。最后,在分類層得到用戶畫像標簽的分類結果。

1? 相關工作

1.1? word2vec模型

word2vec是一種基于神經網絡的模型[13],可以將單詞轉換為固定維度的向量,向量的每個維度表示不同單詞的語義特征。word2vec包括CBOW和skip-gram兩種詞嵌入模型。CBOW模型通過輸入窗口內目標詞的前后詞語來預測目標詞語。skip-gram模型通過輸入目標單詞來預測該詞前后單詞的概率分布,其訓練時間短且效果較好,所以本文采用skip-gram模型。假設文本由一組詞序列w1,w2,w3,…,wn組成,在輸入層將每個詞進行編碼,skip-gram算法的目標是計算最大化平均對數條件概率pn。

pn=1T∑Tn=1∑-m≤j≤mln p(wn+j|wn)(1)

其中:m為訓練文本窗口的大??;wn+j為中心單詞wn的前j個;T為文本中的單詞總數。

在給定輸入單詞wn+1的情況下,輸出單詞wn+j出現的概率為

p(wn+j|wn)=exp(uTwn+jvn)∑Ww=1exp (uTwvn)(2)

其中:vn表示中心詞向量;uTw表示窗口內上下文詞向量的轉置;W表示單詞的總數。

通過對語料庫進行訓練,skip-gram模型為語料庫中的每個單詞生成一個詞向量。將文本中每個單詞的詞向量相加取平均值,可以得到文本的詞粒度向量表示。在詞粒度信息表示方面,word2vec具有更快的計算速度以及更好的單詞含義捕捉能力。

1.2? RoBERTa-wwm-ext模型

RoBERTa的核心架構同BERT模型[14]一樣,采用多層雙向Transformer編碼器作為模型的主要框架,這種架構能夠更好地處理文本序列輸入,同時充分利用上下文信息,提高模型對文本的理解能力。RoBERTa模型在預訓練階段去除NSP任務,并采用更加靈活的動態掩碼策略(dynamic masking),每次在輸入文本中隨機選取一部分token進行掩碼,而不是像BERT模型固定地選取15%的token進行掩碼,這種隨機的方式有助于提高模型的魯棒性和泛化能力,但是原始的RoBERTa模型并不能很好地適用于中文語料庫。因此,RoBERTa-wwm-ext模型在RoBERTa模型的基礎上將動態掩碼策略變為全詞掩碼策略(WWM),并增大訓練數據集的規模,使用max_len=512的訓練模式?;赗oBERTa字粒度的編碼方式相對于基于詞粒度的編碼方式在一些中文語言處理的場景下具有優勢,能夠更好地處理未登錄詞、復雜結構和純口語化的文本,從而提高模型的表征能力。

1.3? 降噪自編碼器

文本數據常常受到拼寫錯誤、語法錯誤、噪聲字符等干擾,影響用戶畫像模型的準確性。通過使用降噪自編碼器,可以學習到文本數據特征的魯棒表示,減少噪聲的影響,提高文本質量。降噪自編碼器是基于自編碼器(autoencoder,AE)的改進。AE[15]是神經網絡的一種,由編碼器、解碼器和隱含層組成,可以從原始數據中學習具有代表性的特征。但原始的自編碼器容易出現對原始數據的簡單復制,無法學習數據之間的潛在關系,導致模型提取的特征無效。為了學習深層的特征表示,降噪自編碼器引入了一種隨機噪聲的策略,用于減少原始數據噪聲的影響,結構如圖1所示。

DAE在編碼器階段通過對原始數據添加一定程度的隨機噪聲[16],使得數據的表達更加復雜。在解碼的過程中學習去除噪聲并重構原始數據,從而增強特征學習的能力,使得提取的特征更具有魯棒性。對輸入數據hv添加隨機噪聲,v為加噪后的特征向量表示,然后通過編碼器對v進行編碼操作,獲得隱層特征向量y。最后通過解碼器對其進行解碼重構操作,z為重構后的特征表示,Loss(hv,z)是對應的重構誤差的損失函數。

2? 融合多粒度信息的用戶畫像生成模型

用戶畫像生成模型主要由嵌入融合層、特征提取層和用戶畫像層構成。如圖2所示,首先對用戶的文本數據進行預處理,包括清洗、分詞、去停用詞等操作;其次,在嵌入層對文本數據進行訓練,獲取字粒度和詞粒度的向量表示;然后將兩種粒度向量表示按順序拼接,獲得融合向量,并將其輸入到本文提出的Bi-GRU-DAE-Attention模塊中提取噪聲小、魯棒性強的深層次語義特征;最后,將其輸入到softmax進行分類,從而完成用戶畫像標簽的預測。

2.1? 嵌入層

為了擴充用戶文本數據的特征信息,對預處理后的文本數據進行字粒度和詞粒度的向量化表示,然后將字粒度和詞粒度的向量表示進行拼接得到豐富語義的融合向量,嵌入層融合過程如圖3所示。

2.1.1? 字粒度向量

給定一條文本數據X,按照字為單位進行分詞,得到序列X={x1,x2,x3,…,xm},將其輸入到RoBERTa-wwm-ext模型中。此模型可以在大規模中文文本數據上進行自監督學習,從而學習到字粒度的表征向量。具體地,通過非線性函數將每個字符xi轉換為對應d維向量表示。然后,將這些向量傳入Transformer模型[17]進行編碼。本文采用12層Transformer編碼模塊學習序列的上下文關系和語義信息,經過第l層Transformer編碼后的輸出如下:

Hl=transformer_block(Hl-1)(3)

其中:Hl-1是第l-1層的輸出;transformer_block表示Transformer塊,由自注意力子層和前向傳播子層組成。

最終,經過12層Transformer編碼后,得到文本X字粒度的向量表示:

CRoBERTa=[c1,c2,c3,…,cm]T∈Euclid Math TwoRApm×d(4)

其中:m表示文本中字的數量;d表示字向量的維度;cm表示第m個字的向量;Euclid Math TwoRApm×d表示m行、d列的文本矩陣。

2.1.2? 詞粒度向量

本文使用word2vec中的skip-gram模型訓練文本語料庫,獲得詞粒度向量編碼。首先利用Jieba分詞工具對文本數據進行切分得到X={x1,x2,x3,…,xn},xi表示第i個詞,n表示總共的詞數。將其放入skip-gram模型中進行訓練,模型選取一個中心詞xi。然后在xi的上下文窗口中選取一個詞xi-1,將xi和xi-1分別表示成向量uxi-1和vxi,在當前中心詞xi下,計算所有上下文詞出現的條件概率,公式為

p(xi-1|xi)=exp (uxi-1vxi)∑Vw=1 exp (uwvxi)(5)

其中:V表示詞匯表中的所有詞;uw表示詞w在上下文出現的向量表示。在訓練過程中,skip-gram模型通過反向傳播算法來更新詞向量,使得目標函數最大化。在訓練完成后,每個詞都會被表示成一個固定維度的向量,最終得到詞粒度的向量表示:

Wword2vec=[w1,w2,w3…,wi…,wm]T∈Euclid Math TwoRApm×d(6)

其中:m表示文本中詞的數量;d表示詞向量的維度;wi表示第i個詞的詞向量。

2.1.3? 多粒度信息融合

字粒度向量考慮文本中每個字的語義信息,而詞粒度向量則考慮整個詞的語義信息。獲取文本字粒度和詞粒度向量表示后,將兩者進行拼接得到最后的文本表示向量[18],增加向量的維度和蘊涵的信息量,提高模型的特征表達能力。兩種粒度向量的拼接公式為

V=Wword2vec⊕CRoBERTa(7)

其中:⊕為拼接運算符,得到融合字粒度和詞粒度的向量V后,將其輸入到特征提取模型中,提取更深層次的特征。

2.2? 特征提取層

文本數據中包含豐富的特征信息,只使用Bi-GRU網絡提取的特征數據不僅存在許多噪聲,而且無法突出不同位置語義特征的貢獻程度,模型分類效果不佳。為此,本文提出一種基于Bi-GRU-DAE-Attention(Bi-GDA)的特征提取模型,該模型首先改進GRU特征提取單元,并將其與注意力機制結合改進DAE模塊,使得提取的特征噪聲小、魯棒性強,其網絡結構如圖4所示。

2.2.1? 基于改進Bi-GRU的初步特征提取

Bi-GRU是基于門控循環單元網絡(gated recurrent unit,GRU)[19]的改進模型,核心思想是在GRU網絡的基礎上再增加一層GRU網絡來反向處理數據。在每個時刻,GRU網絡的狀態計算包括更新門、重置門、候選值和隱藏狀態,其中,更新門和重置門控制信息的流動,候選值和隱藏狀態控制節點的輸出。相較于傳統的長短期記憶網絡(long short-term memory,LSTM)[20],GRU網絡具有更簡單的網絡結構和高效的計算效率。但原始的GRU單元的參數較多,模型容易出現過擬合現象,使模型的泛化能力較差。因此,本文在GRU網絡結構中添加dropout層[21]減少過擬合現象。將dropout層設置在更新門和隱藏狀態之間的通道上,可以隨機地將隱藏狀態的一部分元素置為0,以防止過擬合,添加dropout層的GRU單元結構如圖5所示。

將嵌入層的融合向量V輸入到Bi-GRU中,從正向和反向兩個方向學習深層次的隱含強依賴關系特征。具體地,在第t個時間步的隱層表示計算過程如下:

首先,計算更新門zt和重置門rt,其作用是控制GRU單元輸入、遺忘和輸出的比例:

zt=σ(Wzxt+Uzht-1+bz)(8)

rt=σ(Wrxt+Urht-1+br)(9)

然后,計算候選值t,以更好地捕捉當前時刻輸入信息xt和前一時刻的狀態ht-1。

t=tanh(Whxt+Uh(rt·ht-1)+bh)(10)

最后,計算隱藏狀態時,增加dropout層對部分神經元進行失活處理,增加模型的泛化性。丟棄率p一般控制在[0.2,0.5]效果最佳[22],在第t步隱層的輸出ht公式變為

ht=(1-zt)·ht-1+dropout(t,p)·zt(11)

其中:σ(x)=11+e-x即sigmoid函數,將信息流控制在(0,1); tanh(x)=ex-e-xex+e-x即雙曲正切函數;Wz、Wr 、Wh、Uz、Ur、Uh為門控參數矩陣;bz、br、bh為偏置參數。

向量V經過Bi-GRU網絡處理后,得到正向特征信息序列v=[1,2,…,m]和反向特征信息序列v=[m,m-1,…,1],將兩者進行拼接得到輸出向量hv。

hv=[v⊕v](12)

2.2.2? 基于改進DAE的特征降噪

傳統的DAE結構,其編碼層為全連接網絡,節點之間處于無連接狀態。雖然該結構能夠降低文本數據噪聲問題,但無法有效處理包含上下文信息的序列數據,也無法突出不同位置的語義重要性。針對此問題,本文將DAE模型編碼器部分的全連接層編碼網絡更改為Bi-GRU網絡,在提取融合向量特征的同時可以降低噪聲干擾,以保證語義信息的連貫性和魯棒性。在解碼器部分結合注意力機制,加強不同位置的語義重要性。

首先對編碼層Bi-GRU提取的特征向量hv采用添加隨機噪聲的方式進行局部破壞;然后通過線性變換和激活函數等過程到達隱層;最終通過解碼器得到重構映射向量z。編碼器和解碼器的表示函數分別為e(v)和d(y)。

y=e(v)=Se(Wv+by+bn)(13)

z=d(y)=Sd(WTy+bz)(14)

其中:Se為編碼器的激活函數;Sd為解碼器的激活函數;W為權值;by、bz為偏置,bn為高斯隨機噪聲。

重構向量的誤差最小取決于損失函數,將其添加到整個網絡的損失中,并通過反向傳播算法不斷優化參數,使得重構的誤差達到最小。具體而言,在重構向量部分,本文采用均方誤差損失函數,如下所示。

Loss(hv,z)=1N∑Ni=1(zi-hvi)2(15)

為避免編解碼過程重要信息的缺失,進一步融合編碼特征hv和z得到融合向量Z,以減小噪聲因子對原始數據的影響,避免重要特征信息遺漏,提高特征的魯棒性。在解碼器之后將融合向量Z進一步傳入Attention模塊中計算特征不同位置之間的權重[23],降低模型對外部信息的依賴,提高模型的性能。通過權重矩陣將輸入向量Z分別映射為查詢向量Q、鍵向量K和數值向量V,經過注意力加權得到最終的特征向量H,其計算方式如下:

Z=[hv⊕z](16)

H=attention(ZWQi,ZWKi,ZWVi)(17)

attention(Q,K,V)=softmax(QKTd)V(18)

其中:WQi、WKi、WVi為權重矩陣;d是鍵向量K和查詢向量Q的維度。

2.3? 用戶畫像層

用戶畫像層是神經網絡模型的一個分類層,其主要作用是將經過注意力計算后的向量H轉換為每個用戶畫像類別的概率。該層由一個全連接神經網絡和一個softmax函數組成。具體而言,將向量H傳入全連接神經網絡進行線性變換,然后再通過激活函數ReLU進行非線性變換,學習更加復雜的特征表示,從而得到輸出向量F。其中,Fi表示屬于第i個用戶畫像類別的得分。最后,通過softmax函數將F轉換為每個用戶畫像類別的概率,選擇概率最高的用戶畫像類別作為預測結果。

F=f(WH+b)(19)

pl=exp(Fi)∑nj=1exp(Fj)(20)

其中:n為畫像類別數;W為權重;b為偏置;exp為自然指數函數;f為激活函數ReLU;pl為用戶屬于第l個畫像類別的概率。

3? 實驗及結果分析

3.1? 實驗環境及參數設置

本文實驗的硬件環境包括Intel Core i7-12700KF CPU、32 GB內存和NVIDIA GeForce GTX 4090顯卡,軟件環境包括CUDA 11.3、Python 3.7、PyTorch深度學習框架和PyCharm集成開發環境。在整體網絡的訓練過程中,本文模型的參數設置主要包括word2vec、RoBERTa以及Bi-GDA模塊,模型參數如表1所示。

3.2? 實驗數據集及評價指標

本文實驗通過兩個數據集對模型畫像的效果進行驗證,具體的數據集信息如下:

a)慢病患者畫像數據集。該數據集爬取于某知名的在線醫療咨詢網站慢病患者在線咨詢數據,數據量共計3 294條樣本,根據慢病患者咨詢內容設計三類畫像標簽(年齡、性別、科室)。其中,gender屬性分為2種類別,age和departments為7種類別。選擇2 636條咨詢文本數據作為訓練數據,658條作為測試數據。

b)搜狗用戶畫像數據集。該數據集來自第七屆中國計算機學會(CCF)組織的關于搜狗用戶畫像比賽的數據,包含用戶一個月內在搜索引擎中的搜索記錄和對應的用戶畫像屬性標簽(年齡、性別、學歷)共10萬條。其中,gender屬性分為2種類別,age和education屬性分別為7種類別。對數據集的缺失或重復部分進行清洗操作,采用隨機采樣的方式選取80%為訓練集,余下20%為測試集。

以慢病患者畫像數據集為例,各字段詳細說明如表2所示。

用戶畫像技術根據用戶數據信息將用戶劃分到對應的屬性類別,屬于分類任務。準確率是模型預測正確結果的占比,是評估分類模型的重要指標。因此,本文采用準確率(accuracy)作為評價指標,其計算公式為

accuracy=TP+TNTP+FP+TN+FN×100%(21)

其中:TP、FP、FN和TN的含義如表3所示。

3.3? 實驗結果對比分析

3.3.1? 不同參數選擇對比

1)隱含層節點數? Bi-GRU的隱含層節點數會影響分類的結果,隱含層的節點數決定模型的表達能力。如果隱含層節點數較少,則模型不足以很好地捕捉輸入序列中的信息,導致模型欠擬合,預測準確率較低。相反,如果隱含層節點數過多,則模型可能過度擬合,對訓練數據過于敏感,導致對未見過的數據學習能力較差。因此,選擇適當的隱含層節點數可以獲得更好的分類結果。本文實驗隱含層節點初始數目設置為32,間隔大小為32,在兩個數據集上的實驗結果如圖6所示。

可知,當節點數為128時,分類準確率最高。節點數過高容易增加模型的復雜度,導致準確率下降。經實驗驗證,本文模型最佳的隱含層節點數為128。

2)噪聲比? 在模型的訓練階段,加噪程度會影響模型的性能。加噪程度過低,重構數據與原始特征差距較小,準確率提升不明顯。加噪程度適中,可以強制模型學習數據的關鍵特征,從而提高模型的泛化能力。然而,當加噪程度過高時,重構誤差也會增高,導致特征提取能力下降。圖7顯示加噪比例對實驗結果的影響。由圖可以看出,加噪比例為0.3時,分類準確率有明顯提升,說明模型學習到更加魯棒性的特征,隨著噪聲比例的增加,分類的準確率也越來越低。

3)學習率? 學習率對模型的效果有重要影響,通過對比實驗調整以獲得最佳模型性能。學習率是梯度下降算法中一個重要的超參數,控制著網絡權重更新的幅度。本文選取1E-7、1E-6、1E-5、1E-4、1E-3、1E-2和1E-1共7個學習率進行實驗,結果如圖8所示??梢钥吹?,當學習率為1E-5時模型的效果最佳,所以本文網絡采用該學習率。

3.3.2? 單一粒度與多粒度融合對比

目前用戶畫像的研究大多數基于數據的單一粒度,為驗證融合不同粒度信息對用戶畫像的影響,分別對字粒度、詞粒度和融合粒度進行實驗,實驗結果如表4所示,加粗內容為最優值。綜合分析兩個數據集上的實驗結果可以看出,嵌入層使用字粒度表示或詞粒度表示時對整體的平均分類結果相差不大,但融合兩者之后再作分類,分類效果得到較為明顯的提升。因為僅使用單粒度表示時,數據特征表示得不夠充分,分類效果相對較差。使用融合粒度可以擴充文本特征實現數據增強,從而改善這種弊端。因此,本文后續實驗采用融合粒度進行后續的特征提取。

3.3.3? 不同畫像模型效果對比

為驗證本文在用戶畫像生成模型中提出的Bi-GDA方法的有效性,將其與SVM[24]、CNN[25]、LSTM[19]、GRU[20]、Stacking[8]、Multi-Aspect[9]和DAE-LSTM[12]七個模型進行對比實驗,表5為本文方法UP-MGIF與其他算法的對比結果,加粗內容為最優值。

由實驗結果可以看出,UP-MGIF在用戶畫像的分類性能均優于所有基線模型。支持向量機SVM只能對文本特征進行簡單提取,無法獲取深層次的語義信息,導致分類效果較差。使用卷積神經網絡進行局部特征提取,雖然能獲得局部細粒度特征信息,但是會丟失部分全局的樣本特征,不能很好地適用于文本數據,分類準確率相對較低。文本數據屬于序列數據,LSTM和GRU模型可以很好地提取上下文信息,分類準確率有所提升,但缺乏對特征質量的進一步加強,提取的特征存在噪聲問題,導致模型魯棒性較差。集成學習Stacking的方式通過多分類器投票的方式獲得最優分類結果,其分類效果略優于LSTM和GRU,但過于依賴某一分類器的性能,分類結果不穩定。多層級特征提取方法Multi-Aspect忽略了特征提取階段的噪聲問題,準確率有待進一步提升。LSTM-DAE結合降噪模塊后在兩個數據集的準確率比LSTM提高4.31%和4.45%,證明了對數據特征進行噪聲處理可以進一步提高分類準確率。本文提出的特征提取模塊Bi-GDA使用Bi-GRU作為基礎特征提取模塊,將其作為編碼器改進DAE網絡,并結合Attention機制突出不同位置語義特征的重要性,充分發揮各模塊的優勢,提取噪聲更少、質量更高的數據特征,尤其是在分類類別較少時準確率獲得明顯提升。由兩個數據集上的實驗結果可知,在文本內容較短的慢病患者畫像數據集上,本文構建的UP-MGIF模型相較于其他模型平均準確率分別提升4.81%、5.76%、4.31%、4.00%、3.39%、2.66%和1.90%。在文本內容較長的搜狗用戶畫像數據集上,相較于其他模型平均準確率分別提升5.09%、6.30%、4.45%、3.88%、3.24%、3.15%和2.42%。在age屬性分類中準確率略低于其他屬性畫像,原因在于age屬性類別較多,文本信息關聯性差,導致分類誤差率較高??傮w而言,UP-MGIF的分類效果提高較為明顯,適用于不同領域的畫像生成。

3.3.4? 消融實驗

為驗證本文特征提取層Bi-GDA模型各個模塊在畫像任務上的有效性,分別在兩個數據集上進行消融實驗,結果如表6所示,加粗內容為最優值。從表6可知,若去除DAE和Attention模塊,平均準確率都有所下降。因此,本文設計的特征提取方法中的每個模塊對用戶畫像標簽的預測均有貢獻,Bi-GRU可以從正反兩個方向提取融合粒度的上下文信息,然后輸入到降噪自編碼器中進行降噪,獲取更穩健的特征表示,加入Attention機制可以進一步給不同位置的特征分配不同的權重來突出關鍵信息,使得總體分類效果得到明顯提升。

3.3.5? 案例分析

為了更為直觀地展示本文方法的有效性,選取慢病患者畫像數據集進行案例分析,并與其他算法進行對比。本文對比了主流方法Stacking、Multi-Aspect、LSTM-DAE和本文方法在慢病患者畫像數據集的表現,觀察不同算法預測正誤情況,選取數據集中的兩個樣本分類結果為例進行說明,如表7所示。

從表7中可以看出,在第一個測試樣本中,實際的畫像標簽為“25~30歲、女、婦科”,Stacking、Multi-Aspect兩種方法均存在錯誤預測,這兩種算法的編碼階段采用的是word2vec,僅基于詞粒度信息,沒有充分考慮上下文信息,因此在出現“寶寶”“男孩”時便直接將其預測為年齡為0~18歲、男、所屬科室為兒科的類別中。LSTM-DAE和本文方法在編碼階段采用了RoBERTa的方式,不僅獲取字粒度信息,且融合了上下文語境信息,因此預測正確。在第二個測試樣本中,實際畫像標簽類別為“19~24歲、男、內科”,Stacking、Multi-Aspect、LSTM-DAE三種方法均在年齡屬性預測錯誤,因為文本中的數字信息和符號干擾,導致模型無法挖掘更深層信息。本文模型加入了噪聲消除模塊,可以降低文本中的符號噪聲的影響,并通過注意力機制增強不同位置的語義信息,從而得到正確的分類。

男生,22/歲,長期慢性腹瀉怎么回事?出現這樣的情況該做什么呢?

Stacking

Multi-Aspect

LSTM-DAE

UP-MGIF

31~40歲、男、內科

31~40歲、男、內科

25~30歲、男、內科

19~24歲、男、內科19~24歲、男、內科

4? 結束語

現有用戶畫像技術通常缺乏對非結構化數據信息的充分利用,存在數據利用率低、特征表示魯棒性差等問題,導致構建的用戶畫像不夠準確。因此,針對用戶的非結構文本數據,本文提出一種融合多粒度信息的用戶畫像生成方法。該方法首先從字粒度、詞粒度兩方面進行向量融合,提高文本數據的利用率,擴充文本數據的特征表示;然后通過Bi-GRU-DAE-Attention特征提取層獲取深層次、高質量的特征向量;最后將提取的融合向量輸入分類器中完成用戶畫像,通過消融實驗證明各個模塊的重要性。不同主體的用戶畫像之間存在一定的關聯性,用戶畫像的生成應該充分結合主體間各種關聯數據。因此,下一步嘗試從多主體的角度出發,結合不同主體信息,更加充分地描述用戶屬性,并構建合適的模型進一步提高準確性。

參考文獻:

[1]Luan Hui,Geczy P,Lai H,et al.Challenges and future directions of big data and artificial intelligence in education[J].Frontiers in Psychology,2020,11:580820.

[2]Chen Xusong,Liu Dong,Xiong Zhiwei,et al.Learning and fusing multiple user interest representations for micro-video and movie recommendations[J].IEEE Trans on Multimedia,2020,23:484-496.

[3]徐芳,應潔茹.國內外用戶畫像研究綜述[J].圖書館學研究,2020(12):7-16.(Xu Fang,Ying Jieru.Literature review of persona at home and abroad[J].Research on Library Science,2020(12):7-16.)

[4]Yan Huan,Wang Zifeng,Li Yong,et al.Profiling users by online shopping behaviors[J].Multimedia Tools and Applications,2018,77:21935-21945.

[5]劉海鷗,孫晶晶,張亞明,等.在線社交活動中的用戶畫像及其信息傳播行為研究[J].情報科學,2018,36(12):17-21.(Liu Haiou,Sun Jingjing,Zhang Yaming,et al.Research on user portrayal and information dissemination behavior in online social activities[J].Information Science,2018,36(12):17-21.)

[6]Chen Tinggui,Yin Xiaohua,Peng Lijuan,et al.Monitoring and recognizing enterprise public opinion from high-risk users based on user portrait and random forest algorithm[J].Axioms,2021,10(2):106.

[7]陳澤宇,黃勃.改進詞向量模型的用戶畫像研究[J].計算機工程與應用,2020,56(1):180-184.(Chen Zeyu,Huang Bo.Research on user portrait of improved word vector model[J].Computer Engineering and Applications,2020,56(1):180-184.)

[8]于偉杰,楊文忠,任秋如.基于全詞BERT的集成用戶畫像方法[J].東北師大學報:自然科學版,2022,54(4):87-92.(Yu Weijie,Yang Wenzhong,Ren Qiuru.User profile method based on improved integration algorithm[J].Journal of Northeast Normal University:Natural Science Edition,2022,54(4):87-92.)

[9]苗宇,金醒男,杜永萍.基于Multi-Aspect的融合網絡用戶畫像生成方法[J].計算機技術與發展,2022,32(8):20-25.(Miao Yu,Jin Xingnan,Du Yongping.A user profile generation method based on multi-aspect converged network[J].Computer Technology and Development,2022,32(8):20-25.)

[10]Zhou Faguo,Wang Chao,Sun Dongxue,et al.Joint big data extraction method for coal mine safety with characters and words fusion[J].Journal of Signal Processing Systems,2022,94(11):1213-1225.

[11]辛苗苗,馬麗,胡博發.融合多粒度信息的文本分類研究[J].計算機工程與應用,2023,59(9):104-111.(Xin Miaomiao,Ma Li,Hu Bofa.Research on text classification by fusing multi-granularity information[J].Computer Engineering and Applications,2023,59(9):104-111.)

[12]段閆閆,徐凌偉.融合DAE-LSTM的認知物聯網智能頻譜感知算法[J/OL].計算機工程與應用.(2023-03-01).http://kns.cnki.net/kcms/detail/11.2127.TP.20230228.1551.030.html.(Duan Yanyan,Xu Lingwei.DAE-LSTM-fused intelligent spectrum sensing algorithm for cognitive Internet of Things[J/OL].Computer Engineering and Applications.(2023-03-01).http://kns.cnki.net/kcms/detail/11.2127.TP.20230228.1551.030.html.)

[13]Jatnika D,Bijaksana M A,Suryani A A.word2vec model analysis for semantic similarities in English words[J].Procedia Computer Science,2019,157:160-167.

[14]Liu Yinhan,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26).https://arxiv.org/abs/1907.11692.

[15]Zhang Guijuan,Liu Yang,Jin Xiaoning.A survey of autoencoder-based recommender systems[J].Frontiers of Computer Science,2020,14:430-450.

[16]張敬川,田慧欣.基于 LSTM-DAE 的化工故障診斷方法研究[J].北京化工大學學報:自然科學版,2021,48(2):108-116.(Zhang Jingchuan,Tian Huixin.Fault diagnosis of chemical process based on long short-term memory(LSTM) -denoising auto-encoder(DAE)[J].Journal of Beijing University of Chemical Technology:Natural Science,2021,48(2):108-116.)

[17]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY :Curran Associates Inc.,2017:6000-6010.

[18]聶維民,陳永洲,馬靜.融合多粒度信息的文本向量表示模型[J].數據分析與知識發現,2019,3(9):45-52.(Nie Weimin,Chen Yongzhou,Ma Jing.A text vector representation model merging multi-granularity information[J].Data Analysis and Knowledge Discovery,2019,3(9):45-52.)

[19]Zhang Yonggang,Tang Jun,He Zhengying,et al.A novel displacement prediction method using gated recurrent unit model with time series analysis in the Erdaohe landslide[J].Natural Hazards,2021,105:783-813.

[20]Jang B,Kim M,Harerimana G,et al.Bi-LSTM model to increase accuracy in text classification:combining word2vec CNN and attention mechanism[J].Applied Sciences,2020,10(17):5841.

[21]吳曉建,危一華,王愛春,等.基于融合Dropout與注意力機制的LSTM-GRU車輛軌跡預測[J].湖南大學學報:自然科學版,2023,50(4):65-75.(Wu Xiaojian,Wei Yihua,Wang Aichun,et al.Vehicle trajectory prediction based on LSTM-GRU integrating dropout and attention mechanism[J].Journal of Hunan University:Natural Sciences,2023,50(4):65-75.)

[22]Cheng Gaofeng,Peddinti V,Povey D,et al.An exploration of dropout with LSTMs[EB/OL].92017-08-20).https://api.semanticscholar.org/CorpusID:3836066.

[23]Suman C,Saha S,Bhattacharyya P.An attention-based multimodal Siamese architecture for tweet-user verification[J].IEEE Trans on Computational Social Systems,2023,10(5):2764-2772.

[24]Sueno H T,Gerardo B D,Medina R P.Multi-class document classification using support vector machine(SVM) based on improved Nave Bayes vectorization technique[J].International Journal of Advanced Trends in Computer Science and Engineering,2020,9(3):3937.

[25]Wan Changxuan,Li Bo.Financial causal sentence recognition based on BERT-CNN text classification[J].The Journal of Supercompu-ting,2022,78:6503-6527.

猜你喜歡
用戶畫像特征提取
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
貝葉斯網絡在用戶畫像構建中的研究
把聲音的魅力發揮到極致
一種基于LBP 特征提取和稀疏表示的肝病識別算法
移動用戶畫像構建研究
基于微博的大數據用戶畫像與精準營銷
基于DSP的直線特征提取算法
移動互聯網下手機用戶使用行為特征的研究
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合