?

基于Spark的電影推薦系統設計與實現

2022-07-06 15:03周加偉
客聯 2022年11期
關鍵詞:推薦系統個性化互聯網

周加偉

摘 要:在如今互聯網大數據的前提下,大量的網頁數據急速增長。這種瘋狂式增長無形中增大了物聯網信息積壓,大大的影響互聯網用戶的上網體驗。為了解決互聯網信息過載的普遍現象,設計出基于Spark的電影推薦系統設計與實現,針對個性化推薦系統更新取得極大的改變,使得本文所設計的個性化推薦算法具有重要的意義。

關鍵詞:Spark;推薦系統;互聯網;個性化

一、Spark概述

Spark一般通常指Apache Spark ,作為計算機通用計算引擎主要應用于海量的數據處理,與Hadoop相似都是美國加州大學伯克利分校開源的通用并行框架,其與Hadoop MapReduce 相比而言,更多的繼承了Hadoop所存在的優點,如優化了HDFS再次之前存在的不足,將離線推薦與Spark數據庫想連接,大大減少了離線狀態下不必要的數據傳輸與處理,同時增加了實時推薦與Spark Streaming相互連接,實時根據用戶網頁瀏覽興趣愛好加以實時推送數據信息,是Mlib模型化的產物,大大加快了運行的速率,在數據挖掘的過程中與機器學習相互融合,使得迭代算法更加優化于Hadoop ,這種根本性的改變也讓Spark一度過關斬將成為當今數據分析與推薦的主流框架。

二、系統概要設計

結合需求分析和推薦系統的一般功能,我們把推薦系統分為前端子系統、后臺管理子系統,推薦系統子系統三個大類。(1)用戶交互模塊:對于推薦系統來說,用戶交互模塊需要包括兩個最基本的功能,用戶相關操作以及展示功能。用戶的相關操作包括注冊、登錄、對電影進行評分等,展示功能包括用戶登錄后的個人信息展示、歷史記錄展示、推薦列表展示與電影的詳情頁展示。對于一個網站來說用戶交互模塊主要涉及到網站的業務邏輯,與推薦引擎的計算無關。因此本文的用戶交互模塊作為一-個獨立的子系統進行設計。這個模塊主要涉及到和數據庫的通信和頁面的展示,可以采用MVC架構,利用Java語言開發完成。開發框架選擇Spring Boot和Spring Data Jpa。(2)數據收集模塊:數據收集模塊負責系統中相關數據的收集,數據可以分為靜態數據和動態數據。其中,靜態數據包括產品和用戶信息,動態數據包括用戶瀏覽記錄、評分等行為信息以及對推薦結果的反饋信息。系統中的信息來源包括互聯網和用戶交互模塊。(3)數據預處理模塊:數據的質量往往對推薦系統的準確性有著決定性的作用。系統收集的原始數據混雜著各種各樣的臟數據,推薦系統無法直接利用這些數據。因此需要對原始數據進行初步的清洗和整理,過濾掉無效信息,提取出推薦系統可以直接利用的部分。(4)推薦結果處理模塊:推薦引擎得到的初步結果,往往不能直接推薦給用戶,需要對結果進一步處理。一般來說,原始的推薦結果需要經過過濾、排行才能得到最后的結果。

三、結語

本文概述了Spark目前主要應用的領域和方向,再次基礎之上介紹了電影推薦系統的相關工作與網絡模型,更改了Spark其中四個方面的方案介紹,優化了傳統個性化推薦系統存在的不足,增加了目前互聯網大數據時代更加有效的推薦運用。我相信在未來對相關推薦系統的進一步研究后,個性化推薦系統將得到更加全面的設計與數據處理,在每一位幕后程序員的辛勤勞作之下,推薦系統會發生突破性的改變。

參考文獻:

[1]唐振坤. 基于Spark的機器學習平臺設計與實現[D].廈門大學,2014.

[2]楊志偉. 基于Spark平臺推薦系統研究[D].中國科學技術大學,2015.

[3]馮琳. 集群計算引擎Spark中的內存優化研究與實現[D].清華大學,2013.

猜你喜歡
推薦系統個性化互聯網
堅持個性化的寫作
新聞的個性化寫作
基于用戶偏好的信任網絡隨機游走推薦模型
上汽大通:C2B個性化定制未來
基于個性化的協同過濾圖書推薦算法研究
個性化推薦系統關鍵算法探討
淺談Mahout在個性化推薦系統中的應用
從“數據新聞”看當前互聯網新聞信息傳播生態
互聯網背景下大學生創新創業訓練項目的實施
以高品質對農節目助力打贏脫貧攻堅戰
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合