?

基于廣告與用戶相似度的點擊率預估模型

2022-04-09 12:56楊澤平吳巨聰熊文龍劉詩薇王恒巖
電腦知識與技術 2022年6期

楊澤平 吳巨聰 熊文龍 劉詩薇 王恒巖

摘要:點擊率預估是廣告推薦系統中的一個重要方向,現有的點擊率預估模型大多是基于特征feature與CTR之間的關系預測一條廣告是否被用戶點擊,但是仍有許多能提高點擊率模型性能的信息被忽略。文章提出了一種基于廣告特征與用戶特征相似度的模型,該模型在DeepFM點擊率預測算法的基礎上,增加了一個能夠擬合廣告特征與用戶特征之間關系的模塊,即Match Subnet。在訓練時,將此模塊與DeepFM一起進行訓練,但是在預測時,只用DeepFM進行預測,在公共數據集上對比了兩種模型,發現添加了擬合用戶特征與廣告特征關系的模塊后,相比原算法有了更好表現。

關鍵詞:廣告點擊率;DeepFM;Match Subnet;用戶特征;廣告特征

中圖分類號:TP183? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)06-0076-03

開放科學(資源服務)標識碼(OSID):

廣告點擊率(Click-Through Rate,CTR)預測在學術界和工業界都是一個比較重要的問題,傳統的點擊率預測算法,利用邏輯回歸(Logistic Regression)擬合的是特征與CTR之間的線性關系[1],后來考慮到二階特征組合對CTR的影響,提出因子分解機模型(Factorization Machine)[2]。近些年,隨著深度學習的興起,將深度學習帶入到點擊率預測中,比如:使用DNN自動學習高階特征組合對CTR的影響[3],將邏輯回歸(LR)與DNN進行組合的Wide & Deep,將因子分解機(FM)與DNN組合提升模型記憶能力的DeepFM等。

以上主流的點擊率預測算法學習,基本是特征與CTR間的關系,但是同樣包含重要信息的特征與特征之間的關系卻被忽略了?;谝陨蠁栴},阿里團隊提出了DeepMCP模型[4],該模型在DNN的基礎上增加了能夠學習廣告特征與用戶特征之間關系的模塊(Match Subnet),以及能夠學習廣告特征與廣告特征之間關系的模塊(Correlation Subnet)。該模型在兩個公共數據集上的表現均好于其他主流的點擊率預估算法。

本文提出了DeepMFM模型,基于DeepMCP模型,在DeepFM的基礎上,增加Match Subnet模塊來學習廣告特征與用戶特征之間的關系,并且在相同的數據集上進行對比,證明該模型能夠有效地提升點擊率預測的精度。

1 DeepMFM模型

本節內容將詳細介紹DeepMFM模型,如圖1所示。。首先介紹Embedding部分,然后再分別介紹預測的DeepFM模塊以及Match Subnet模塊。

1.1 特征的表征

首先將特征分為四個部分,分別是:用戶特征(User-features),即用戶的id和用戶的年齡等;查詢特征(Query-features),即具體的查詢或類別查詢等;廣告特征(Ad-features),即廣告的標題、廣告id等;其他特征(Other-features),即時間特征等。

其中DeepFM部分用到了全部的特征,而Match Subnet部分只用到了用戶特征、查詢特征以及廣告特征。

1.2 Embedding

首先一個特征[xi∈R],經過Embedding層之后轉換成其對應的embedding向量[ei∈Rk],其中[k]是向量的維度。然后再將所有的特征Embedding集合成一個Embedding矩陣[E∈Rn×k],其中[n]是特征的數量。

1.3 DeepFM層

Embedding矩陣會先轉換成一個長向量[m],向量[m]的長度為[n×k],其中[n]是特征的數量,[k]是Embedding的維度,DeepFM層中的Deep部分的輸入是[m]向量,而FM部分輸入的是經過處理后的數據。

1.3.1 FM層

FM部分是一個因子分解機[5],可以同時學習低階和高階的組合特征,在學習特征之間線性關系的基礎上,因子分解機提出用一對特征中,各自的特征隱向量的內積來捕捉特征之間的二階交互:

[yFM=<w,x>+n1=1dn2=n1+1d<Vi,Vj>xn1?xn2]

其中[<w,x>]反應的是一階特征,[w∈Rd],[Vi]和[Vj]分別是[xn1]和[xn2]的因向量,一階特征后面的部分屬于是二階特征交互,[yFM]是[FM]層的輸出。

1.3.2 DNN層

DNN部分就是一個前向反饋網絡,用來學習高階的特征交互,[m]向量會首先進入兩個全連接層,對每一層全連接層,都用了一個dropout[6]。在特征學習期間,通過將一部分隱藏單元設置為0,防止過擬合,最后再經過一個sigmoid的輸出單元,得到DNN部分的CTR預估值:

[yDNN=LH+1=σ(WHLH+bH)]

其中[H]是全連接的數量。

1.3.3 DeepFM層的輸出

將DNN的輸出和FM部分的輸出拼接在一起,然后再用sigmoid函數得到DeepFM層的輸出:

[y=sigmoid(yDNN+yFM)]

其中[yDNN]是DNN部分的輸出,[yFM]是[FM]部分的輸出。

1.3.4 損失函數

選擇交叉熵損失函數作為該部分的損失函數:

[lossp=-1Υy∈Υ[ylogy+(1-y)log(1-y)]]

其中[y∈{0,1}],是否點擊目標廣告的真實標簽。

1.4 Match SubNet

Match SubNet是受到網絡搜索語義匹配模型的啟發[7],模塊模擬的是用戶和廣告之間的關系,即一條廣告是否與用戶的興趣匹配,目的是學習到有用的用戶和廣告表征。

當用戶點擊了一個廣告,假設點擊的廣告至少有一部分是與用戶的需求相關的,所以希望用戶特征的表征和廣告特征的表征能夠更好地匹配。

1.4.1 輸入

Match SubNet的輸入分為兩個部分,其中User-features和Query-features經過Embedding之后,組合成一個長向量[mu∈RNu],代表的是用戶特征。而Ad-features經過Embedding后,相似的轉換成長向量[ma∈RNa],其中[Na]是向量的維度,代表廣告特征。

1.4.2 user部分

首先[mu]經過兩層全連接層,學習更抽象和更高階的特征表示,其中第一層使用的是relu激活函數,第二層使用的是tanh激活函數,[tanh(x)=1-exp(-2x)1+exp(-2x)]。

最后user部分的輸出,是高階的用戶部分的表示向量Vu∈Rm,其中[m]是向量維度。

1.4.3 ad部分

相似的[ma]經過兩層全連接層,第一層使用的是relu激活函數,第二層用的是tanh激活函數,得到高階的廣告表示向量[Va∈Rm],其中[m]是向量的維度。

值得注意的是,因為用戶的特征數量和廣告的特征數量可能并不相等,所以用戶部分輸入的長度和廣告部分輸入的長度并不相等,即[Nu≠Na],但是經過Match Subnet后,得到用戶特征的表征[vu]和廣告特征的表征[va]的長度是一樣的,即將兩種不同的特征映射到了一個公共的低維空間中。

1.4.4 輸出

將最后廣告部分和用戶部分經過一個公式得到兩部分的匹配分數:

[s(va,vu)=11+exp(vTuva)]

其中,如果用戶[u]點擊了廣告[a],則[s(va,vu)→1],否則[s(va,vu)→0],在這里,解釋了為什么第二層全連接層的激活函數使用的是tanh,而不是relu,因為如果使用relu激活函數,輸出會包含大量的0,導致[vTuva→0]。

1.4.5 損失函數

將最小化Match Subnet的損失函數如下:

[lossm=-1Υy∈Υ[y(u,a)logs(vu,va)+(1-y(u,a))log(1-s(vu,va))]]

其中如果用戶[u]點擊了廣告[a],則[y(u,a)=1],否則[y(u,a)=0]。

1.5 損失函數

最終DeepFMF的聯合損失函數如下:

[loss=lossp+αlossm]

其中[lossp]是DeepFM部分的損失函數,[lossm]是Match Subnet部分的損失函數,[α]是平衡DeepFM和Match Subnet的超參數。

2 實驗部分

本文采用點擊率領域中常用的公開數據集Criteo,在該數據集上進行了對比試驗,比較了DNN、DeepFM、DeepMP(DNN與Match Subnet結合)以及DeepMFM的表現,并且對該實驗結果展開討論。

2.1 數據集以及評價指標

本實驗采用Criteo作為實驗數據集,采用的評價指標是AUC[8]和logloss[9],其中AUC表示的是ROC曲線下與坐標軸圍成的面積,其取值范圍一般在0.5~1之間,AUC越接近1,說明模型的效果越好,AUC越接近0.5甚至在0.5之下,說明模型效果差。而logloss越小,模型的效果越好。

2.2 實驗結果及分析

文章以DNN為參照,發現DeepFM的性能要比DNN好,因為增加了FM部分可以同時學習低階和高階的特征交互。同時在加了Match Subnet之后,模型的提升很顯著,如果將DeepMP中的Prediction Subnet的DNN換成DeepFM的話,即DeepMFM,模型的性能也會有所提升。

3 結束語

本文提出了DeepMFM模型,其中包括用于預測的DeepFM模塊和用于學習用戶特征與廣告特征的相似度來提升模型性能的Match Subnet模塊,在DeepMP的基礎上,將Prediction Subnet的DNN網絡替換成了能夠學習特征二階交互的DeepFM網絡。通過對比一些典型的點擊率預測算法,在廣告點擊率預測數據集上進行實驗,明顯觀察到DeepMFM的性能更好一些,可能是因為考慮到了用戶和廣告特征,并且DeepFM可以同時學習低階和高階的特征交互。

參考文獻:

[1] Richardson M,Dominowska E,RagnoR.Predicting clicks:estimating the click-through rate for new ads[C]//WWW '07:Proceedings of the 16th international conference on World WideWeb.2007:521-530.

[2] Rendle S.Factorization machines[C]//2010 IEEE International Conference on Data Mining.December13-17,2010,Sydney,NSW,Australia.IEEE,2010:995-1000.

[3] LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

[4] Ouyang W T,Zhang X W,Ren S K,et al.Representation learning-assisted click-through rate prediction[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.August10-16,2019.Macao,China.California:International Joint Conferences on Artificial IntelligenceOrganization,2019.

[5] Rendle S.Factorization machines[C]//2010 IEEE International Conference on Data Mining.December13-17,2010,Sydney,NSW,Australia.IEEE,2010:995-1000.

[6] Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:asimple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.

[7] Huang P S,He X D,Gao J F,et al.Learning deep structured semantic models for web search using clickthrough data[C]//CIKM'13:Proceedings of the 22nd ACM international conference on Information &Knowledge Management.2013:2333-2338.

[8] Lobo J M,Jiménez-Valverde A,Real R.AUC:a misleading measure of the performance of predictive distribution models[J].Global Ecologyand Biogeography,2008,17(2):145-151.

[9] Altun Y,Johnson M,Hofmann T.Investigating loss functions and optimization methods for discriminative learning of label sequences[C]//Proceedings of the 2003 conference on Empirical methods in natural language processing -.NotKnown.Morristown,NJ,USA:Association for Computational Linguistics,2003.

【通聯編輯:唐一東】

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合