?

基于矩陣分解的興趣點推薦算法研究

2016-11-07 17:56孫海威鐘紹波曹曦文高云云
軟件導刊 2016年9期

孫海威++鐘紹波++曹曦文++高云云++李思培++常泉

摘要:單類協同過濾面臨的主要問題是:僅僅正例數據能夠被觀察到,類高度不平衡,大量數據點丟失。為解決該問題,基于迭代最小二乘法,采用一種加權的帶正則化項的單類協同過濾算法,即wALS算法。通過在真實的Foursquare、Movie Lens數據集上進行驗證,證明了這種算法性能優于其它幾個經典的單類協同過濾算法。

關鍵詞:推薦技術;矩陣分解;wALS算法

DOIDOI:10.11907/rjdk.161572

中圖分類號:TP312

文獻標識碼:A文章編號文章編號:16727800(2016)009003603

基金項目基金項目:

作者簡介作者簡介:孫海威(1993-),男,江蘇南京人,碩士,江蘇大學計算機科學與通信工程學院碩士研究生,研究方向為數字信號處理、云計算;鐘紹波(1993-),男,福建龍巖人,江蘇大學計算機科學與通信工程學院學生,研究方向為通信工程。

0引言

電子商務推薦系統具有良好的發展和應用前景,推薦引擎已經在電子商務(Ecommerce:例如Amazon、當當網)和一些基于Social的社會化站點(包括音樂、電影和圖書分享:例如豆瓣、Mtime等)上取得了成功。推薦系統在電子商務平臺扮演著銷售人員的角色,向用戶推薦商品,幫助用戶找到所需商品,從而順利完成購買過程。協同過濾技術(Collaborative Filtering,簡稱CF)[1] 是目前推薦系統中應用最早和最為成功的技術之一,它的基本思想是:用戶可以按照興趣分類,具有相似興趣的用戶會購買相同的商品。盡管協同過濾技術在電子商務推薦系統中的應用獲得了較大成功,但是隨著商務網站結構的復雜化,商品信息量和用戶量與日俱增,協同過濾推薦系統面臨一些發展問題。例如,一些推薦系統往往只記錄了用戶的訪問記錄,如點擊網頁或者廣告次數,缺乏顯示的評分信息,這種情況稱作“單類協同過濾”。

單類協同過濾問題研究還很少。C.Wang等[2]把概率矩陣分解(PMF)技術運用到單類協同過濾問題,把觀察到的點擊數據作為正例數據,其余的混合數據均作為負例數據;Paterek等[3]提出運用奇異值分解(SVD)技術來解決該類問題;Rendle S等[4]提出運用基于KNN的協同過濾算法、Pan等[5]提出運用加權的低秩逼近算法來解決該類問題。本文在真實的數據集(Foursquare、Movie Lens)上驗證,證明了加權的低秩逼近算法性能優于其它幾個經典的單類協同過濾算法。

1矩陣分解算法

1.1協同過濾技術

協同過濾推薦算法(Collaborative Filtering,CF)是推薦系統中最為成功的推薦算法之一。經過多年演變,協同過濾推薦算法從盡量考慮用戶的偏好轉而成為追求高效率的商業推薦。在常見的電子商務網站中,協同過濾算法是通過參考用戶對商品的喜歡程度和評分來實現推薦的,具體實現流程:首先,依據用戶興趣信息的相似度,將用戶分類為不同等級,有共同興趣愛好的用戶分為同一個等級,然后將用戶推薦給同一等級用戶。其次,依據用戶對該商品的評分,向用戶推薦(用戶的反饋、評分可以表現出對商品的重視程度)與其評分最高的類似商品。協同過濾算法的核心思想就是在用戶、商品和評價三者之間建立聯系。

1.2基于wALS的單類協同過濾算法

在單類協同過濾問題中,我們常將加權低秩逼近(wLRA)[6-7]方法應用于CF問題中,即用“1”表示有記錄的樣本,“0”表示沒有記錄的缺失數據。因為缺失項中可能有隱含的正樣本,這樣的處理方式會有遺漏。因此,可以通過賦予丟失項以低權重來處理這個問題。這是從數據集中挖掘隱含信息來優化單類協同過濾問題的思想,由此導出基于加權矩陣分解的單類協同過濾算法(wALS,即weight ALS) [8-10]。

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合