?

分層級描述感知的個性化推薦系統

2023-11-29 04:20陳道佳陳志云
關鍵詞:物品注意力向量

陳道佳,陳志云

(1.華東師范大學 計算機科學與技術學院,上海 200062;2.華東師范大學 數據科學與工程學院,上海 200062)

0 引 言

在信息爆炸的時代,推薦系統可以減少用戶在眾多產品和服務面前決策的復雜度,同時增加平臺提供服務的機會,因此其被廣泛應用于現今的在線服務平臺.其中,電商和社交等網站上,用戶寫下大量關于消費物品的意見和評論.這些評論中包含著豐富的用戶偏好和物品屬性的語義信息,挖掘評論信息能顯著提升推薦系統預測評分的效率.大量的工作專注于利用評論數據進一步提升推薦系統的性能.

推薦系統的關鍵在于從用戶歷史行為中學習用戶表示和物品表示.傳統的協同過濾算法使用如評分、購買記錄和觀看歷史等顯性反饋建模用戶表示和物品表示,如矩陣分解(matrix factorization,MF)方法分解用戶–物品評分矩陣為2 個隱因子分別代表用戶和物品.這些方法因僅僅依賴顯性交互而遭遇數據稀疏問題的困擾,而且無法處理新用戶或物品加入的冷啟動問題.考慮到評論中僅利用評分和購買記錄等顯性反饋不能完全傳達內容語義信息,使用評論建模用戶偏好和物品特征可以緩解以上問題并且為推薦結果提供解釋性.早期的方法基于主題技術從評論中提取主題分布作為MF 的隱因子,比如,HFT(hidden factors as topics)[1]和RMR(ratings meet reviews)[2]整合MF 與主題技術,分別從評分和評論中學習物品的隱表示、用戶的隱表示.

基于深度學習(deep learning,DL)的方法通常使用神經網絡用評論編碼物品和用戶,可以簡單分為平行對稱模型和交互模型.平行對稱模型使用對稱的網絡分別建模用戶和物品,例如,DeepCoNN(deep cooperative neural networks)[3]模型使用2 個對稱的卷積神經網絡(convulutional neural network,CNN)去學習用戶和物品表示,然后輸入因子分解機預測評分;D-Attn(dual attention)[4]模型使用2 個基于注意力的網絡去關注評論中重要的單詞;NARRE(neural attentional regression model with review-level explanations)[5]基于注意力學習每條評論的有用性.交互模型建模用戶和物品的評論交互,基于推薦的上下文動態地學習物品和用戶表示,例如,DAML(dual attention mutual learning)[6]模型基于用戶和物品評論詞向量之間的歐氏距離,學習物品和用戶之間單詞的相關性;CARL(context-aware user-item representation learning)[7]模型學習物品和用戶評論文檔的語義矩陣,并映射到相同的隱空間計算用戶–物品對之間的相關性;ANR(aspect-based neural recommender)[8]模型基于方面的協同注意力提取不同方面的交互信息.

盡管通過上述方法取得了顯著的推薦性能的提升,但仍有一些問題沒有系統研究.為了全面理解建模物品和用戶,應該考慮如下挑戰: ①分層建模.DeepCoNN 和CARL 將評論拼接成一個長文檔,沒有考慮每條評論的獨立性,直接建模包含了大量異質信息的文檔,可能忽視句子和評論級別的細粒度信息,引入的注意力機制的變體模型可視為僅有單詞級別注意力;NARRE 和ERP(enhanced review-based rating prediction)[9]引入輔助信息學習每條評論的有用性,但忽視了不同單詞的有用性.② 動態興趣建模.大多現有的推薦方法通常學習靜態的用戶和物品表示,如建模用戶時,沒有考慮用戶面對不同目標物品可能顯示不同的興趣偏好;MPCN(multi-pointer co-attention networks)[10]引入基于指針的學習方法,強調用戶和物品的交互;每次基于相似度得到選取K條評論會讓模型變得不穩定,CARL 和DAML 同樣基于評論文本相似性,動態地學習不同單詞的有用性,但是過度依賴文本語義相似可能讓模型仍缺乏靈活性.③個性化.用戶通常有個性化的偏好,物品也有個體的特征,對于一條同時描述價格和質量的評論,不同用戶會側重不同的方面,對價格敏感的用戶更關注價格的評論,但是現有的推薦模型大多為所有的用戶和物品學習統一的模型,不能識別特定用戶的差異個性化特征,僅從普通注意力機制捕捉重要單詞,不能體現相同單詞對不同用戶的重要性不同.HUITA(hierarchical user and item representation model with three-tier attention)[11]和HSACN(hierarchical self-attentive convolution network)[12]分別采用普通注意力和自注意力模塊,從單詞、句子和評論這3 個層級建模,但是缺乏建模動態交互且缺乏個性化;CARL 僅考慮單詞級別的交互,但是缺乏層級.因此,本文同時考慮這3 個關鍵挑戰,提出了分層的描述感知的個性化推薦方法.

在單詞層級,評論中相同的單詞對不同的用戶或者物品有著不同的信息量,本文從用戶ID 或物品ID 推導注意力向量,設計注意力網絡選擇重要且個性化的單詞,獲得每條評論的個性化表示.在評論層級,用戶的評論是對不同物品的歷史評論,用戶面對不同的物品,可能會激發不同的評論有用性,受到深度興趣網絡啟發,本文從物品ID 推導注意力向量,形成物品感知的交叉注意力網絡選擇和當前目標物品相關的用戶評論,從而動態地獲得用戶表示,同理,獲得物品表示.此外,考慮到評論的摘要文本包含的信息更加簡潔和密集,通常都是對特定方面描述的短句,拼接評論摘要成一個文檔可用作物品或用戶的客觀描述信息,本文針對物品和用戶的描述,設計協同注意力網絡捕捉上下文感知的動態興趣偏好和物品特征.注意到評論的語義特征只反應部分的內容信息,基于描述的特征可動態表示關鍵方面的特征,基于評分矩陣的評分特征有豐富的協同信息,將評論特征和評分特征融合可以完成互補得到更全面的物品和用戶表示.本文的主要貢獻如下.

(1)分別設計了單詞層級和注意力層級的注意力網絡,學習了不同單詞和評論的有用性,提取了個性化的用戶偏好和物品屬性.

(2)將評論摘要拼接為客觀描述,基于用戶和物品描述,設計了協同注意力網絡,以捕捉上下文感知的動態特征.

(3)在5 個數據集上進行的大量實驗證明了本文所提方法的有效性.

1 相關工作

基于評論的推薦系統,早期基于矩陣分解(MF)的協同過濾技術僅僅利用評分矩陣分解得到用戶和物品的隱因子表示,假設隱因子分布為概率分布則可擴展為概率矩陣分解模型.之后,Koren 等[13]為用戶和物品的隱因子引入偏差項,進一步優化了MF 方法.盡管這些協同過濾算法能取得較優的表現,但是仍然受到評分矩陣數據稀疏問題的困擾.

隨著用戶和物品交互產生的大量諸如評論文本的隱性反饋數據,研究者們嘗試通過將評論作為輔助信息來緩解數據稀疏問題并提升推薦性能.與自然語言處理的語義理解研究線路一致,早期的引入評論的推薦方法是基于主題模型的,即將從評論中挖掘的主題特征替代為MF 模型的隱因子,比如,Macauley 等[1]使用隱含狄利克雷分布(latent Dirichlet allocation,LDA)模型提取用戶和物品評論中的主題語義,并將其作為用戶和物品的表示;RBLT(rating-boosted latent topics)[14]模型假設高分評論包含更多信息,因此先基于評分復制多份高分評論,而后再挖掘主題;Yang 等[15]先使用主題模型從評論中提取語義特征,然后將這些提取出的特征和從MF 模型提取的評分特征進行融合,并作為用戶和物品的隱表示;Diao 等[16]同時使用評論的主題詞、評分和情感建模用戶和物品的興趣分布;CDL(collaborative deep learning)[17]模型使用去噪自編碼器建模物品內容,并整合到概率矩陣分解框架.以上這些方法都超過了僅依賴評分矩陣的方法;但是,主題模型依賴詞袋機制忽視了詞序和局部語境信息,故損失了大量評論文本的上下文語境特征.

近年來,受益于深度神經網絡(deep neural network,DNN)的強大表征能力,越來越多的研究使用神經網絡去提取評論上下文信息.CNN 和循環神經網絡(recurrent neural network,RNN)通常用于組合上下文語義信息到一個連續的向量表示,以提升推薦性能.ConvMF[18]使用CNN 從物品描述中提取物品特征.DeepCoNN[3]使用2 個平行的CNN 從用戶和物品評論文檔中提取語義特征,建模用戶和物品的隱表示,然后將其拼接之后輸入因子分解機模型去預測評分.TransNets[19]通過增加額外的轉換層去推斷目標用戶–物品對的評論表示,擴展了DeepCoNN.由于神經網絡可提取語義的優越性,這些模型獲得了比傳統主題模型更好的性能;但是,樸素的神經網絡忽視了不同的單詞或評論的有用性.因此,許多研究專注于引入注意力機制,比如,D-Attn[4]考慮不同單詞的重要性,分別使用局部注意力和全局注意力去捕捉評論文檔中的重要單詞;NARRE[5]考慮評論集合中的不同評論有用性不同,引入評論級別的注意力來計算不同評論對用戶或物品的重要性;RPRM(review properties-based recommendation model)[20]認為不同的評論屬性會影響用戶的信息采用過程,基于用戶處理評論信息的框架學習相應評論的有用性;HUITA[11]分別在單詞、句子和評論級別分別應用注意力機制,整合出了一個3 層的層級注意力框架.這些方法都是將用戶和物品建??醋麟p塔,學習靜態的用戶和物品表示,沒有考慮用戶和物品之間文本級別的交互.為了增強評論交互,DAML[6]在文檔層級,基于用戶和物品評論表示的歐氏距離,添加交互注意力層學習物品和用戶的相關性;ANR[8]提出了基于方面詞的協同注意力網絡,端到端地計算評論中不同方面的重要性;MPCN[10]采用基于指針的協同注意力網絡,在上下文感知的模式下,利用指針選擇機制,選擇用戶和物品評論最相關的評論并抽取出來;AHN(asymmetrical hierarchical network)[21]認為物品評論是圍繞單一主題的同質數據,相關用戶評論是關于多個主題的異構數據,可采用非對稱的注意力學習用戶表示和物品表示;CARL[7]使用上下文感知注意力機制,同時從評分和評論這兩種信息源學習特定用戶–物品對的表示;CARP(capsule network based model for rating prediction)[22]基于膠囊網絡分別從評論文檔提取多個用戶視圖和多個物品方面的不同信息;進一步地,MRCP(multi-aspect neural recommendation model with context-aware personalized)[23]基于多頭網絡學習多個方面的用戶偏好.

文本作為輔助信號引入協同過濾框架,一些研究[24]還嘗試建模文字、圖網絡和圖片描述等特征表示,并專注于使用協同注意力建模多種模態之間的交互,優化異構特征融合,形成最終的用戶表示和物品表示.此外,因為評論中包含大量的特定空間和時間的表達,研究者們也嘗試抽取評論中的地理屬性用于地點推薦,以及抽取評論中的時間屬性增強序列推薦[16].

2 描述感知的個性化推薦系統

本章首先介紹推薦任務,然后描述本文提出的DAPR 模型.DAPR 模型結構如圖1 所示,其中MLP(multi-layer perception)表示多層感知器,Cat(catenate)表示連接.框架大體結構: 對用戶網絡和物品網絡采用分層的注意力,選擇信息量大的單詞和評論建模用戶評論表示和物品評論表示;基于協同注意力網絡,從評論描述中捕捉動態的用戶偏好和物品屬性,并分別用uSum 和gSum 表示.

2.1 問題定義

推薦系統的目的是根據用戶的偏好去識別并推薦物品.將系統中的用戶集合表示為U{u1,u2,···,uN},物品集合表示為G{g1,g2,···,gM},評分矩陣表示為RRM×N,用戶對物品g的評分表示為Ru,g,其中,N、M分別表示用戶和物品的數量.每一個用戶u有歷史評論集合du{du,1,du,2,···,du,n},每一個物品g有多個用戶為它寫下的評論集合dg{dg,1,dg,2,···,dg,m},其中n、m分別表示用戶評論集合的數量和物品評論集合的數量.探究根據用戶寫下的評論準確地預測用戶對未曾交互過的物品的評分,幫助用戶找到最感興趣的物品.

2.2 單詞層級的個性特征選擇

用戶ID(identity)(uID)和物品ID(gID)是用戶和物品的唯一標志,其作為一種強特征信息在推薦系統中被廣泛使用.首先,映射每一個用戶ID 和物品ID 到一個低維的向量表示,且作為ID 嵌入向量.用戶和物品的ID 嵌入向量分別表示為

式(1)―(2)中:xu、xg分別為用戶和物品的one-hot 編碼向量;QRd×N、PRd×M分別是用戶ID 和物品ID 的向量矩陣,其中d表示Q、P的維度.然后,將矩陣隨機初始化作為用戶/物品的初始表示,且在訓練的過程中不斷地更新ID 向量表示,以表征它們個性化的內在屬性.最后,引入ID 向量到單詞級別的特征選擇中.

給定一條包含T個單詞序列的用戶文本評論du,1{w1,w2,···,wT},通過查找詞向量矩陣Rd×|V|獲得每個單詞的詞向量,得到向量序列X{e1,e2,···,eT},其中,eiRd為第i個單詞的詞向量,|V| 為單詞表的大小,d為各自對應矩陣的維度.矩陣E可以通過Word2Vec 和Glove 等預訓練詞向量初始化.TextCNN[25]通過一維卷積抽取文本N-gram 的特征表示,獲得語義信息,并使用CNN 從評論單詞序列提取語義特征.相比于RNN 和Transformer[26]結構的模型,CNN 計算更加高效.因此,本文選用CNN 作為評論編碼器.對于每個卷積核fj,第j個卷積核在第i個窗口的計算結果是

式(3)中:Wj是第j個卷積核;Xi:i+h-1表示相鄰的h個單詞; R eLU 表示激活函數;bj為偏差項.經過K個卷積核的計算,可以獲得特征H{c1,c2,···,cK},HRT×K,其中T表示單詞的長度.因為H的每一行表示單詞的特征,H還可表示為H{c1,c2,···,cT}. 正如前面所述,一方面,不是所有的單詞對推斷評分都有用;另一方面,相同的單詞對于不同的用戶也有著不同的信息量.考慮用戶ID 向量作為獨一無二的標志攜帶著個性化信息,基于ID 向量可選擇重要的單詞預測用戶偏好,本文設計了2 種捕捉特定用戶特征的神經網絡: 基于普通注意力機制和基于門控機制.

1)基于普通注意力機制

首先,將用戶ID 向量經過一層線性變換層得到注意力的向量qwu;然后,經過普通注意力方法計算單詞的注意力權重.相應公式為

式(4)―(6)中:ai和αi分別代表每條評論中第i個單詞的注意力得分和注意力權重;ci代表評論中第i個單詞的經過卷積后的向量表示;⊕表示拼接操作.經過權重聚合評論的單詞,獲得用戶的第1 條評論的表示,具體為

2)基于門控機制

受門控單元在語言模型上成功應用的啟發[27],本文引入用戶ID 設計特定用戶感知的門控單元.特別地,將用戶ID 向量經過線性層變換之后的表示與詞向量卷積之后的表示進行組合,通過sigmoid 函數形成門控去控制信息的傳遞.計算過程為

式(8)―(9)中:gj代表門控單元;bg為偏差項;cj代表卷積后的表示(H矩陣第j列);zj代表經過門控之后的表示,經過門控計算之后可獲得特征矩陣H′[z1,z2,···,zK],H′RT×K;⊙表示按位相乘.經過在單詞序列長度維度執行最大池化之后得到用戶第1 條評論的表示,具體為

其中 m axpool 為最大池化操作.

2.3 評論層級的動態交互

當獲得所有用戶和物品的評論表示后,將探索怎樣聚合它們去表示用戶或者物品.如上所述,不同的評論對用戶表示的建模貢獻是不同的.同時,當用戶面對不同的目標物品時,每一條評論信息的有用性也是不同的,基于不同的物品特征可能激發用戶不同的興趣.普通的池化或者平均聚合不但忽視了不同評論的重要性,還不能動態地捕捉用戶的偏好.因此,本文設計了一個目標物品感知的注意力模塊去學習當前用戶歷史評論中不同評論的重要性,以便更好地建模用戶偏好表示.

式(11)―(12)中:w2和W1代表可訓練的權重系數;⊕表示拼接操作;b為偏差項.將權重βi和評論向量ru,i相乘可得到權重后的評論表示du[du,1,du,2,···,du,n],最終的用戶表示Xu通過聚合評論表示得到.相應公式為

其中 s um 為評論表示的加和操作.

對稱地,通過將輸入的評論集合替換為物品評論集合,物品描述替換為用戶描述,可以獲得物品的最終評論表示Xg.

2.4 基于協同注意力的用戶和物品描述交互

評論摘要通常以小貼士或者吸睛標題的形式幫助用戶快速做出購買決定.在深度學習中,一些研究嘗試從相應的評論文檔中抽取摘要形成物品描述[28].評論的摘要文本很短,含有較少的噪聲,并且對物品總結的評論摘要都是圍繞物品的屬性寫下的,話題更單一,信息密度更高.本文專注于將用戶摘要拼接為長度為l1文檔序列,然后查詢詞向量矩陣得到用戶描述表示PuRh×l1,其中h表示可學習矩陣的維度.同理可得物品描述表示QgRh×l2,其中,l2為物品摘要拼接后的文檔序列長度.通過計算得到關聯矩陣S.相應公式為

式(14)中:WsRh×h表示可學習的權重參數;φ(·)表示激活函數.關聯矩陣的每一個單元表示對應的用戶描述和物品描述的相似性遵循視覺問答模型[29].將關聯矩陣看作特征去計算用戶描述和物品描述的單詞的重要性.相應公式為

式(15)―(16)中:Mu、Mg分別表示用戶描述和物品描述的單詞的重要性;Wx,WyRh1×h和vx,vyRh1都是可學習的參數;wu、wg分別是用戶描述中和物品描述中單詞的權重系數.通過聚合計算,可得用戶評論描述表示su和物品評論描述表示sg. 相應公式為

式(17)中:pj和qj分別表示用戶和物品描述的第j個單詞的詞向量.

2.5 融合預測層

將用戶的ID 向量eu和物品ID 向量eg分別看作從用戶和物品評分矩陣學習的隱表示,將Xu和Xg分別看作用戶和物品的評論語義特征表示,將su和sg分別看作用戶和物品評論描述語義特征表示.融合這3 種不同信息源的表示可實現信息互補.因此,本文將融合這3 種特征的表示作為用戶和物品的最終表示,具體為

式(18)中:Uu和Gg為最終的用戶偏好和物品屬性的表示向量.

本文采用隱因子模型預測評分,首先將物品表示和用戶表示融合,然后輸入線性轉換層得到預測評分. 相應公式為

式(19)中:WfRf為預測層的權重系數;bu、bg、bo分別表示用戶偏差、物品偏差和全局偏差;⊙表示按位相乘.在訓練階段,最小化標準評分和預測評分之間的均方誤差為

式(20)中: |T| 表示訓練的數據集大小;Ru,g表示用戶對物品的真實評分.

3 實 驗

3.1 數據集和實驗設置

本文從Amazon 5 分數據集上選擇Digital Music、Office Product、Grocery and Gourmet Food、Toys and Games 和Video Games 等5 個來自不同領域且大小規模不同的數據集.數據集包含用戶從1 分到5 分的評分,并且每個用戶–物品對都有相應的評分.本文對所有的數據集執行如下的操作: 刪除評論中文檔頻率高于0.90 的單詞,為每一個單詞計算TF-IDF(term frequency–inverse document frequency)得分,并選擇4 萬個不同的單詞構建詞匯表;刪除每條評論中所有不在詞匯表中的單詞;為了避免評論的長度和數量造成的長尾效應,設置評論的長度和數量能覆蓋到70%的用戶評論和物品評論;對于拼接的評論文檔,設置固定長度為500,對于拼接的評論摘要文檔設置長度為30.表1 總結了預處理后數據集的統計信息和評論設置,其中評分密度表示評分矩陣的稀疏程度.隨機劃分每一個數據集合的80%作為訓練集,10%作為驗證集,10%作為測試集,并且訓練集上保證每個用戶至少與物品交互過一次.

表1 5 個亞馬遜數據集的信息統計Tab.1 Statistical details for five Amazon datasets

1)評估指標

為了驗證本文提出的DAPR 模型的有效性,本文使用均方誤差MSE(mean square error)作為評估方法,并用EMS表示.給定真實評分Ru,g和預測評分,EMS的計算公式為

其中 |Ω| 表示測試集的數量.

為了評估本文DAPR 模型的性能,本文將DAPR 與6 個常用的基于評論的推薦模型(基線模型)進行了比較.這6 個常用的基于評論的推薦模型如下.

(1)MF[9]: 是基礎的矩陣分解模型,僅依賴評分矩陣學習物品和用戶表示,通過點積預測評分.

(2)DeepCoNN[3]: 將用戶和物品評論集合拼接成文檔,使用2 個平行的CNN 從評論文檔提取語義信息,采用因子分解機預測評分.

(3)D-Attn(dual attention)[4]: 整合全局注意力和局部注意力網絡,同時考慮評論文檔的全局和局部的信息量大的單詞,捕捉更準確的語義特征.

(4)DAML[6]: 基于局部注意力捕捉局部語義信息,然后計算用戶表示和物品表示之間相關性得到交互注意力權重去選擇信息量大的單詞,實現用戶與物品之間的動態交互.

(5)MPCN[18]: 結合協同注意力技術和Gumbel-Softmax 指針技術選擇相關性高的評論,并進一步采用單詞級別的指針選擇評論中重要的單詞用作評分.

(6)NARRE[5]: 利用歷史交互的ID 信息設計單詞層級注意力網絡學習評論的有用性.

2)超參設置

為了公平比較,本文對所有模型執行相同的預處理過程: 設定詞向量的維度為300,并且選擇Glove 作為預訓練詞向量;ID 的嵌入向量維度設置為32;卷積核的個數設置為32,在[16,32,64]的范圍內調節,卷積的窗口設置為3;注意力網絡的隱藏層維度設置為32;最終用戶和物品的表示維度設置為32,在[16,32,64]的范圍內調節.對于D-Attn 和DAML,設置批量大小為32;對于MPCN,設置指針數量為4,其他所有模型批量大小設置為128.采用dropout 緩解過擬合問題,設置dropout 的丟失率為0.3.采用Adam 優化策略優化模型,學習率設為0.001,權重衰減設為0.000 1.設置模型的最大訓練周期(epoch)為20,當連續6 個epoch 模型性能沒有提升時,停止訓練.

3.2 實驗結果比較

表2 展現了本文提出的DAPR 模型和基線模型的MSE 比較結果,可以發現: 基于評論文本的模型DeepCoNN 和NARRE 等都顯著好于僅依賴于評分數據的模型MF,這說明評論包含的語義特征有助于預測評分;并且使用注意力網絡的模型D-Attn 和NARRE 比沒有注意力的DeepCoNN 表現更好,表明注意力機制可以關注到信息量大的單詞和評論;MPCN 在所有的數據集上的表現都很不穩定,可能是因為使用每次選擇特定數量評論過濾了太多評論信息,并且動態選擇給模型增加l 了不確定性;DAML 獲得比DeepCoNN 和D-Attn 更大的提升,證明動態注意力網絡捕捉動態的用戶偏好和物品屬性有助于推薦性能提升;使用評論文檔的方法DeepCoNN、D-Attn 和DAML 在較大的數據集Toys and Games 和Video Games 上的表現相對較差,表明在大的數據集上,采用基于文檔的方法會引入較多噪聲和不相關信息.

表2 DAPR 模型和基線模型的MSE 比較Tab.2 MSE comparison of DAPR and baseline models

本文提出的DAPR 模型在5 個數據集上取得了最好的結果,與當下最優的基線模型NARRE 相比,取得了0.29%(Grocery and Food)到1.75%(Video Games)范圍的提升.盡管NARRE 采用了注意力機制關注于重要的評論,但DAPR 采用分層的注意力網絡,能更詳細建模用戶和物品.DAPR 顯著好于動態建模的DAML 和MPCN,說明本文在評論上采用交叉注意力模塊、在評論摘要上的協同注意力模塊能更好獲得用戶和物品的表示.DAPR-gate 為在單詞級別使用門控選擇重要信息的模型,同樣取得了小幅度的提升,證明引入ID 控制單詞層級的信息流動可以提取更豐富的語義信息.

3.3 有效性實驗分析

3.3.1 DAPR 模型不同模塊的有效性

DAPR 模型主要由單詞級別注意力、評論級別注意力和基于描述的協同注意力這3 部分組成.為了驗證模型方法的有效性,本文分別將模塊消除或者換為可替代模型方法探究相應模塊的有效性.消融結果如表3 所示,其中,Base 模型在單詞和評論的聚合中均采用maxpool 方式;Base+Ave 模型對單詞和評論采用平均聚合;DAPR-WA 表示DAPR 模型不使用單詞級別注意力,將卷積之后的隱藏表示平均聚合得到用戶評論;DAPR-RA 表示模式不使用評論級別注意力,平均聚合評論獲得用戶表示;DAPR-Co 表示不使用評論描述的交互注意力.

表3 DAPR 模型消融實驗的MSE 結果Tab.3 MSE results of ablation experiments with DAPR model

實驗結果表明,采用平均聚合和最大池化聚合,結果沒有顯著區別.DAPR-WA 和DAPR-RA 消除個性化機制之后,模型性能下降,表明引入單詞注意力和評論注意力模塊均能一定程度提升模型性能,其中,在數據集Digital Music 上,DAPR 性能差于DAPR-RA,這可能是應用于評論的交叉注意力在小數據集上不穩定所導致的.當移除描述的協同注意力網絡時,模型性能顯著下降,表明整合上下文感知的動態偏好可幫助更好的建模用戶偏好和物品屬性.

3.3.2 不同預測模塊的有效性

在之前的研究中,不同的模型使用不同的方法進行預測,其中,DeepCoNN 和MPCN 采用FM 作為預測層,DAML 和NARRE 使用修改的LFM(latent factor model)作為預測層,MF 和D-Attn 采用點積預測評分.分別修改DAPR 的預測層模型為點乘和FM,探究不同預測層對實驗結果的影響,結果如表4 所示.

表4 DAPR 采用不同預測層的MSE 結果Tab.4 MSE results of different prediction layers of DAPR

表4 結果表明,不同的預測層對模型的影響差異非常大,點乘的方法(Dot)顯著低于FM 和LFM 的表現;注意到FM 建模二階的特征交互,在數據集Digital Music 和數據集Toys and Games 上均表現不好,DAPR 在文本階段已經完成交互,高層的特征交互增加了模型的復雜度,不能進一步提升性能,甚至損害模型性能;DAPR-LFM 為本文采用了預測層,表現性能最好.

4 總結

本文提出了一種分層級描述感知的推薦算法DAPR,在捕捉特定的個性化特征的同時,兼顧捕捉動態的用戶偏好和物品屬性.在單詞層級,因為不同的單詞有不同的重要性,設計了ID 引導的注意力網絡選擇信息量大且具有個性化的單詞;在評論層級,注意到用戶對不同物品展示出不同的興趣,設計了交叉注意力網絡動態地學習物品表示和用戶表示;此外,引入評論摘要作為客觀描述信息,設計了協同注意力網絡以捕捉用戶和物品描述之間的相關性,進一步捕捉用戶動態的偏好;最后,將評分特征、動態的評論特征和動態的描述特征融合,預測評分.在5 個數據集上的實驗結果證明了本文所提方法可以提升推薦性能.

猜你喜歡
物品注意力向量
稱物品
向量的分解
讓注意力“飛”回來
聚焦“向量與三角”創新題
“雙十一”,你搶到了想要的物品嗎?
誰動了凡·高的物品
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合