?

基于用戶畫像的互聯網廣告點擊率預測模型研究

2021-08-19 20:55周親吳運辰吳俊坤
軟件 2021年2期
關鍵詞:用戶畫像

周親 吳運辰 吳俊坤

摘 要:本文使用某電商公司提供的廣告點擊日志流,構建基于用戶畫像的互聯網廣告點擊率預測xDeepFM模型。研究發現:xDeepFM模型對預估準確率提升明顯;用戶畫像系統可以很好的解決深度模型對高維稀疏特征的學習問題,有效提高預估準確率。

關鍵詞:互聯網廣告;用戶畫像;xDeepFM模型;點擊率預測

中圖分類號:TP274 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2021.02.052

本文著錄格式:周親,吳運辰,吳俊坤.基于用戶畫像的互聯網廣告點擊率預測模型研究[J].軟件,2021,42(02):171-174

Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait

ZHOU Qin, WU Yunchen, WU Junkun

(School of economics, Nanjing University of Posts and telecommunications, Nanjing? Jiangsu? 210023)

【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.

【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction

0引言

21世紀以來,隨著智能手機與互聯網技術的逐漸成熟,互聯網廣告成為日常生活中最常見的廣告形式。同時,互聯網廣告以其精準度高、互動性強以及營銷成本相對較低等顯著特性,成為互聯網公司最為穩定的一種營收模式。

廣告點擊率是衡量互聯網廣告投放效果的重要指標?;ヂ摼W公司想要用戶愿意點擊彈跳出來的廣告,就要投放符合其“胃口”的廣告。因此需要使用更精確科學的模型對廣告點擊率進行預估,準確的估算廣告被前端用戶點擊的可能性,幫助廣告供應方在有限的預算下獲得更多的點擊機會,從而帶來更大的收益。在此背景下本文使用某電商公司提供的廣告點擊日志流,構建基于用戶畫像的互聯網廣告點擊率預測xDeepFM模型,進行深入研究。

1研究現狀

1.1關于用戶畫像的研究現狀

目前普遍接受的用戶畫像(Persona)的定義是由交互設計之父Alan Cooper提出的,他認為用戶畫像是真實用戶的虛擬代表,是根據一系列用戶的真實數據而挖掘出的目標用戶模型[1]。

用戶畫像被應用于各個行業。在營銷方面,王冬羽[2]將用戶畫像系統的分為用戶靜態信息畫像和用戶動態信息畫像,設計了用戶畫像系統,有效提高了用戶流量、增加了新用戶數;在圖書館應用方面,都藍[3]通過精確的構建用戶畫像,幫助圖書館更加直觀地了解到讀者閱讀傾向,便于館員開展精準化閱讀推廣服務。

1.2關于廣告點擊率的研究現狀

點擊率(CTR)是指某一內容被點擊次數與被展示次數的比,一般用于描述內容被用戶點擊的概率[4]。目前CTR預估研究方向主要分為兩個類別,即模型選擇層面和特征提取層面。從模型選擇層面來說:吳文偉[5]基于分布式邏輯回歸模型進行分析,最終使廣告點擊率系統的訓練速度得以明顯提升;Rendl等[6]提出一種能夠自動進行特征組合的模型——因子分解機。從特征提取層面來說:華盛頓大學教授Domingos[7]曾說,使用什么特征是很多機器學習項目成敗的關鍵因素。周永[8]基于真實廣告點擊數據發現,基于GBDT特征優化技術的LR模型能有效提高傳統LR模型的預測準確率;宋益多[9]通過LDA模型輸出用戶査詢的主題詞向量,最后基于深度神經網絡的預測模型進行分析。

2數據說明及預處理

2.1數據說明

本文所述的廣告點擊率預估方法來源于實驗室合作項目,數據來源自某電商公司提供的廣告點擊日志流,可以基于該組數據來衡量網站上廣告的吸引程度。本文數據具體時間范圍2020年3月1日至2020年3月8日共計八天。為保證用戶的相關隱私,所有數據均做脫敏處理。本文選取了日志流中的三個數據集進行后續廣告點擊率預測模型擬合,如表1所示。

首先,在該電商網站上隨機抽樣114萬用戶近8天(2020.3.1-2020.3.8)內的點擊日志,并選取合適的維度,共計2600萬記錄,構成樣本骨架數據集,數據集內的字段說明如表2。

其次在該電商網站上提取樣本骨架數據表中包含的廣告基本信息,數據集內的字段說明如表3。

再提取樣本骨架數據表中114萬用戶的基本信息,構成用戶信息表,字段信息如表4。

2.2數據預處理

通過對數據隨機抽取查看發現,可能由于電商平臺數據存儲的失敗、存儲器破壞或者歷史局限問題,數據中存在缺失值和異常值。為進一步分析數據并保證數據的完整性和可靠性,使用多重插補方法對數據預處理。

3 xDeepFM模型求解

3.1特征編碼

數據集通過數據預處理后依舊是比較臟亂,因為數據中存在各種非數字特殊符號,比如中文等,而實際上機器學習模型需要的數據是數字型的,只有數字類型才能進行計算。因此,對于各種特殊的特征值,需要通過one-hot編碼對其進行量化。

3.2 xDeepFM模型參數優化

xDeepFM要學習的參數主要包括線性FM部分的系數、Embedding層的系數、CIN中各層的系數和DNN中各層的系數,通過反向傳播算法即可求解各個系數。但是傳統的求解使用梯度下降進行參數權重更新,每一輪迭代都需要使用全部的數據來計算平均損失函數,對于本文大數據集的情況,計算效率較差,考慮相關優化方法進行求解,隨機梯度下降使用單個數據點的損失來代替整個數據記得平均損失,可以很好地解決梯度下降帶來的計算問題,但是容易帶來模型不收斂問題,同時使用單個數據點的損失來衡量平均損失也存在一定的誤差;小批量梯度下降使用一批數據來計算平均損失,代替整個數據集的平均損失,是計算速度和計算準確性之間的折中方法,因此,本文使用小批量梯度下降進行參數求解。

最終模型的預測結果還與模型各預設參數相關,如學習率、batch_size、batch_norm、layer_size、layer_shape等,不同參數的調優過程是一個NP問題,一般使用網格搜索來進行最優化,根據各參數的不同設定,可以求得模型的AUC值,最終選取擬合效果最好的參數組合來構建模型如表5。

3.3預測結果檢驗與分析

使用網格搜索求得的超參數組合進行模型訓練,損失函數變化圖像如圖1所示??梢钥闯?,在訓練的初始階段,損失函數跳躍嚴重,無法收斂,而在經過7000多輪迭代后,損失函數趨于平緩,最終穩定在一個固定的值附近,代表模型收斂。

訓練完畢,使用tensorboard對網絡結構進行可視化導出,可以看到最終的網絡構架如圖2所示。這表明使用訓練好的xDeepFM模型,在測試集上進行預測,通過ROC曲線計算AUC值以及召回率來衡量模型的擬合優度,最終計算得到AUC為0.8532,召回率為0.9217,模型擬合較好,針對廣告點擊率預測具有實質性作用。

3.4模型優化:用戶畫像系統

已經構建的xDeepFM模型能夠很好的擬合互聯網廣告點擊問題的特征,同時可以預測用戶對于不同類型廣告的喜好程度、點擊概率,但是依然存在可優化點,例如原始特征中“User_id”這一字段為高維稀疏特征(兩千七百萬維),xDeepFM無法處理這一特征,如果直接對該特征進行熱獨編碼處理、使用,經過DNN模塊的特征交互,會使得最終學習的模型過于關注重復出現的User_id,弱化一般User_id的權重,在實際場景中,某個User_id反復出現并點擊互聯網廣告,很可能是刷流量等作弊行為,因此將其視為無效特征,不予使用。但是,不使用用戶唯一標識特征會帶來新的問題,這就意味著放棄用戶歷史數據,也就是放棄xDeepFM模型對用戶的記憶能力,這在實際生產環境中是難以取舍的問題,另一方面,不使用用戶標識特征會帶來嚴重的冷啟動問題。

為解決上述問題,考慮使用歷史數據構建用戶畫像系統,用戶畫像系統使用用戶歷史行為數據,如用戶歷史點擊廣告類型、用戶IP位置、點擊終端等特征,可以構建性別、年齡、興趣標簽,基于用戶畫像系統的結果,可以將每一個User_id映射到對應的用戶類別中,最終作為新的特征添加到模型的輸入變量中,用戶畫像系統的輸出經過熱獨編碼處理會變成低維變量,滿足xDeepFM模型學習的基礎,不會帶來維度災難、聚焦問題,同時可以充分使用已有數據,保留模型對用戶行為的記憶能力。

用戶畫像系統可以作用于互聯網廣告點擊的召回階段,也可以作用于特征生成階段,本文將用戶畫像應用于特征生成階段,衍生出新的特征進行后續學習,使用用戶畫像系統后的ROC曲線如圖3所示。根據模型訓練、預估結果發現,在相同的訓練集、測試集上,用戶畫像系統可以使模型性能得到進一步提升,主要體現在AUC和Recall上,其中AUC提高5-6個百分點,Recall提高1個百分點。因此,可以得出結論:用戶畫像系統能夠優化xDeepFM模型,提高模型的擬合優度,從而提升廣告點擊預測的準確率。

4結論

通過對本文所選的互聯網廣告數據的建模分析發現:(1)相對于其他模型(如邏輯回歸、神經網絡等),xDeepFM模型有其特有的優勢;(2)xDeepFM模型中的CIN架構可以學習數據集中的歷史關系,其中的DNN架構可以自動化學習特征高階(二階及以上)交互關系,均對預估準確率提升明顯;(3)基于海量用戶數據所構成的用戶畫像系統,可以完美解決深度模型對高維稀疏特征的學習問題,有效緩解過擬合,提高模型的擬合優度,同時可以提供模型的記憶能力,緩解冷啟動問題、提高預估準確率。

參考文獻

[1] 徐芳,應潔茹.國內外用戶畫像研究綜述[J].圖書館學研究,2020(12):7-16.

[2] 王冬羽.基于移動互聯網行為分析的用戶畫像系統設計[D].成都:成都理工大學,2017.

[3] 都藍.基于用戶畫像的高校圖書館年度閱讀報告研究[J].圖書館雜志,2019,38(4):27-33+40.

[4] 劉冶,劉荻,王硯文,等.基于多源融合特征提取的在線廣告預測模型[J].計算機工程,2019,45(1):178-185+191.

[5] 吳文偉.基于分布式邏輯回歸模型的廣告點擊率預估系統[D].北京:北京交通大學,2018.

[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.

[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,

55(10):78-87.

[8] 周永.基于特征學習的廣告點擊率預估技術研究[D].哈爾濱:哈爾濱工程大學,2014.

[9] 宋益多.基于用戶特征的搜索廣告點擊率預測研究[D].哈爾濱:哈爾濱工程大學,2016.

猜你喜歡
用戶畫像
基于數據分析高校學生自畫像的初探
分析用戶畫像在企業精準營銷中的應用方式
基于用戶畫像的數字原住民社會化媒體采納意愿的階段性分析
基于大數據技術的廣電用戶收視行為建模
用戶畫像在內容推送中的研究與應用
移動用戶畫像構建研究
基于微博的大數據用戶畫像與精準營銷
移動互聯網下手機用戶使用行為特征的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合