?

混合推薦算法在電影推薦中的研究與評述

2016-11-24 18:12黃瑋琦
電腦知識與技術 2016年26期

黃瑋琦

摘要:現代互聯網已經成為了大量信息傳播和擴散的主要途徑,電影作為娛樂的重要一環也在互聯網中充斥著自己的身影,網上觀影已經成為了一種或不可缺的休閑方式,優秀方便的電影推薦系統也就成為了炙手可熱的互聯網新寵。但是,現在很多網站的電影推薦系統并沒有我們所期望的那么智能,往往給我們推薦的并不是我們真正想要看的電影,那么,研究它們的推薦算法就變得極其有意義。

關鍵詞:電影;推薦算法;基于內容;協同過濾;混合推薦

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)26-0190-03

由于現代科技的快速更新與進步,互聯網技術也在日新月異地提升。人類的日常生活也越來越離不開網絡,無論是獲取知識,了解新聞還是放松娛樂都可以在網絡上找到相應的資源。然而互聯網上的存儲信息在以指數爆炸的模式進行快速增長,人們在接觸到大量的互聯網信息的同時,從中獲取并利用真正有效的信息也變得越來越困難。這種情況被稱之為“信息過載”和“信息迷航”。

電影資源的大量產生是互聯網信息爆炸現象的一個具體方面。那么,我們如何從互聯網海量電影數據中挑選我們想看的呢?這個問題引入了現代個性化推薦系統的產生。

1個性化推薦

1.1個性化推薦的現狀

個性化推薦技術是一種通過用戶的歷史記錄來確定用戶的偏好特征,從而為用戶提供符合其偏好以及潛在偏好的個性化服務的技術。該技術可應用于生活中的各種方面渠道,例如電影視頻方面,各大門戶網站可根據用戶的歷史瀏覽記錄分析并推送符合用戶愛好的個性化信息。這一過程將網絡從被動地接受使用者請求的行為轉變成了主動感知到使用者的需求。

個性化推薦這一概念是在上世紀末才被獨立提出的,它以數據挖掘為基礎,根據符合條件的相應推薦算法來分析得出用戶的愛好和傾向,并從大量的互聯網信息存儲中鎖定用戶的興趣資源或潛在興趣資源主動推薦給用戶。[1]

個性化推薦系統的發展十分快速。在1995年3月,卡耐基。梅隆大學的Robert Armstrong等人提出了個性化導航系統Web Watcher。隨后各大著名企業均開始制定并推出了各自的個性化廣告方案,例如谷歌開創的AdWards盈利模式,雅虎隨之推出了SmartAds廣告方案, Overstock(美國著名的網上零售商)根據ChoiceStream公司制作的個性化橫幅廣告方案,等等。我國首個個性化推薦系統研究團隊北京百分點信息科技有限公司成立于2009年,旨在研究和開發個性化搜索引擎技術和解決方案。[2]

1.2電影推薦的現狀

電影和視頻門戶網站在當下互聯網中占據了不小的比例,在個性化推薦系統中也是一塊非常重要的研究領域。各大電影網站根據自身的電影檢索和推薦機制,通過用戶的個人信息從互聯網大量的視頻中抽取用戶可能感興趣的視頻內容。其中最為出名的應為Netflix公司。其于2006年設立的百萬獎金比賽,規則是實現一個電影推薦系統來預測其用戶感興趣的電影,并使預測準確率達到10%。[3]另有主流視頻門戶網站如Youtobe和Hulu,也都在個性化推薦方面進行了大量研究,以提高視頻網站的訪問量,增加用戶的觀影愉悅度。

國內的電影及視頻網站近年來發展逐漸迅速。優酷,愛奇藝,樂視等網站都推出了各自的電影推薦系統,雖然推薦結果的預測準確性還有待進一步提高。豆瓣電影相對口碑較佳,其網站根據用戶瀏覽的電影頁面和用戶進行的評分從海量電影資源里尋找符合用戶興趣的電影,通過猜你喜歡等模塊推送給用戶,提高了用戶的滿意度。

2相關推薦算法

2.1 基于內容的推薦算法

2.1.1算法簡介

這是一種較為簡單的推薦算法,其根源為信息檢索及信息過濾技術,在大量信息里面挖掘出與用戶興趣相似的電影從而推薦給用戶。該算法根據對用戶的歷史瀏覽記錄進行分析,通過用戶過去感興趣的產品, 來向用戶推薦尚未產生接觸的推薦項(本論文專指電影)。例如電影網站可以根據某個用戶過去觀看了許多恐怖類電影進而為用戶推薦其他恐怖類電影。

基于內容的推薦算法的基本思想是如果使用者的歷史記錄顯示了他對某種特征的電影感興趣,那么他可能對相似特征的也感興趣。出于這個思想,基于內容的推薦算法主要需要結構化兩種描述文件,用戶特征的描述和電影特征的描述。[4]用戶特征的描述來源于用戶對電影的評分集合和用戶建立時選擇的標簽類型。通過這些來建立一個用戶的興趣模型。電影特征的描述來源于用戶的評分以及上線時的標簽,一般包括電影的特征,屬性信息。推薦系統會經常定時的更新并且維護用戶和電影的特征文件,推薦過程就是當需要獲取某個用戶的推薦列表時,就去比較用戶和電影的特征文件的相似性,選取相似性高的推薦出去。

該算法主要可從以下三個步驟進行描述:

1)movie Representation:從每個movie中抽取出部分特征(也就是movie的標簽特征)來代表此movie;

2) Profile Learning:根據某個用戶過去感興趣(或不感興趣)的movie的特征數據進行研究,來得出此用戶的興趣特征(profile);

3)Recommendation Generation:根據對上一步驟中得到的用戶profile與候選movie的特征進行對比,以此為依據,為用戶推薦一組關聯性最大的movie。[5]

常見的方法是利用添加標簽來代表這部電影的屬性,而每個屬性對應的權重往往是根據一定的算法。根據用戶過去的電影瀏覽記錄來推算出此用戶感興趣的 profile,最為基礎的方法是把用戶所有感興趣的電影對應的向量平均值來用作此用戶的profile。在獲得了一個用戶的profile后,本算法就可根據所有movie與此用戶profile的關聯度來為該用戶推薦可能符合其愛好的電影了。

3電影混合推薦系統的研究與實現

本文上述介紹了目前兩種最為常用的推薦算法原理和他們的優缺點,在目前已經使用的各大電影推薦網站中,這兩種算法并不會是單獨出現的,而是經常被混合起來使用的,例如國外知名電影推薦網站jinni,它所采用的檢索工具叫Movie Genome,同樣也是Google TV所采用的個性化搜索工具。Jinni 把用戶分為12類型,戰略家、現實主義者、理想主義者情景劇愛好者和懸疑愛好者等等。在對用戶進行分類后,Jinni通過獲取這類的用戶偏向和歷史行為來總結出這類用戶的特征偏向,以此進一步確認用戶的偏好類型。而用戶對電影的評級分為10級,由低到高為not at all到strong learning。最后,通過觀察與其他用戶的聯系,用戶可以了解自己與其他用戶的關聯程度,并且能夠選擇自己是否要跟從類似用戶的選擇。如果用戶選擇跟從,那么用戶的推薦列表會被類似用戶最近觀賞的電影目錄所影響。Jinni 在用戶文件夾中會顯示聯系緊密的其他用戶最近觀賞過的電影以及大多數人對該電影的評分。當用戶進入 Jinni推薦頁面,根據用戶偏好,產生用戶的推薦列表; 另外根據相似用戶群的最近活動信息,將評分較高的電影選出以產生另一個推薦列表。

那么,下文將會簡單介紹一種混合推薦系統的實現,也將采用基于內容的推薦算法加上協同過濾算法。

首先明確的是,不管使用哪種推薦算法,都需要先計算用戶的相似度,因為用戶的相似度大程度上體現了這個用戶的特征偏向以及他是否是一個新用戶。如果這個用戶是一個新用戶或者活躍度非常低,那么他就不太適合采用協同過濾的算法來進行推薦,而應該直接采用基于內容的推薦算法,根據他之前選擇的標簽來進行電影推薦,避開冷啟動;相反,如果他是一個活躍用戶,那么就可以挖掘出此用戶的歷史行為信息,來跟其他用戶的相似度進行比較,采用協同過濾算法來進行推薦,并且挖掘出此用戶的興趣偏向。如上所說,那么就需要為相似度設置一個閾值,可以選擇此用戶的相鄰矩陣種相鄰用戶的個數N,如果大于N,說明矩陣不稀疏,是個活躍用戶;相反說明矩陣稀疏,只是個新用戶。[8]

在本電影推薦系統初始化的時候,會根據一些已定的標簽將電影數據庫分類成多種特征,然后等到用戶登錄時,系統會統計用戶的瀏覽歷史,然后找到用戶觀看較多的電影類別,然后組成推薦列表。具體算法的內容可見前幾節的算法介紹。

4小結

本文提出的混合推薦算法主要使用協調過濾推薦,基于內容的推薦算法則作為輔助算法。如果是新用戶或者沒有被用戶打分或者瀏覽的新產品則釆用基于內容的推薦算法,一般的電影推薦任務則采用協同過濾算法?;陧椖康膮f作過濾更為重視用戶的過去已經產生的興趣特征,一般推薦的是符合用戶歷史瀏覽中感興趣的電影。而基于用戶的協作過濾的本質是信息獲取和信息過濾,可以根據海量用戶群中的相似用戶的興趣特征來幫助用戶挖掘潛在興趣,推薦全新的關注電影類型。

本算法還進一步優化了協同過濾推薦算法。在本算法中,通過對相似用戶的歷史瀏覽記錄進行分析得到相關的推薦電影集合,并不直接對用戶相似度來推薦電影,而是先進行進一步的過濾。本算法先根據當前用戶的點播記錄,挖掘其偏好特征,建立該用戶的興趣模型。然后匹配相關推薦電影集合中的相似電影與當前用戶的興趣模型,匹配度髙的排在推薦列表的前面。該算法可以更好的保證在網站系統進行電影推薦的時候,先展現在用戶眼前的是能更好滿足其偏好特征的電影類型。

參考文獻:

[1] 趙亮,胡乃靜,張守志.個性化推薦算法設計[J].計算機研究與發展,2002,39(8):986-991.

[2] 陳天昊.互聯網電影推薦方法的研究與實現[D].北京:中國科學技術大學,2014.

[3] 余力,劉魯,李雪峰.用戶多興趣下的個性化推薦算法研究[J].計算機集成系統,2004,10(12):1610-1615.

[4] 高斐. 面向海量數據環境的個性化推薦機制應用研究[D].南京:南京郵電大學,2014.

[6] Paul B. Kantor , Francesco Ricci , Lior Rokach , Bracha Shapira. Recommender Systems Handbook [M]. Germany: Springer, 2010: 73-80 .

[6] 項亮. 推薦系統實踐 [M]. 北京: 人民郵電出版社, 2012: 44-51 .

[7] B Sarwar,G Karypis,J Konstan,J Riedl. Item-based collaborative filtering recommendation algorithms [J]. International Conference on World Wide Web, 2001,4(1):285-295.

[8] 曹毅.基于內容和協同過濾的混合模式推薦技術研究[D].長沙:中南大學,2007.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合