?

推薦系統問題分析與策略研究

2019-03-18 01:58陳文靜尹健
商情 2019年1期
關鍵詞:推薦系統互聯網

陳文靜 尹健

【摘要】隨著互聯網技術的興起和信息技術的快速發展,互聯網從原來信息匱乏的時代走向了信息過載,這也使得用戶想要從海量信息庫中快速并且準確地找到其感興趣的信息變得愈發困難,推薦系統應用而生。本文對推薦系統的相關內容和存在的問題進行了全面分析,并給出了相應的解決策略。

【關鍵詞】互聯網? 信息過載? 推薦系統

推薦系統通過將機器學習、用戶行為學和人機交互等多個領域的技術進行結合,并運用大規模并行數據處理框架,進而快速并準確地為每位用戶提供個性化信息服務。作為一種提供服務的技術,推薦系統的宗旨在于利用各種決策過程來支持用戶的興趣變化。同時,推薦系統已漸漸地在娛樂、政務、電子商務等領域受到廣泛關注。

一、推薦系統研究現狀及相關分析

推薦系統是由Group Lens研究小組對MovieLens電影數據集展開的研究,通過提取物品的特征信息來進行推薦,然而這種推薦方法存在一定的局限性,后來研究學者提出基于協同過濾、基于關聯規則、基于效用、基于知識的推薦系統。近幾年,國際學術界對推薦系統的研究也陸續產生,ACM曾多次將研討的主題設為推薦系統,并且設立了推薦系統年會。許多國內外期刊也將推薦系統作為其研究專題,如SIGCHI、KDD、SIGIR、WWW等,這些期刊對推薦系統研究文章的收錄也在逐步增加。

二、推薦系統存在的問題分析

推薦系統發展相對較快,并取得了較多的成果,但在其發展過程中,還存在著較多的問題。我們對相關問題進行了以下分析:

(一)準確性

預測準確性是目前在推薦系統研究中討論的最多的問題,準確性是用來衡量真實評分和預測評分的誤差值的重要方式。

(二)數據稀疏性

數據稀疏性是指在大量的用戶和項目信息中,用戶對項目的評分對于海量數據來說,只是冰山一角。例如,用戶A和B具有較高的相似度,但是二者對相同項目的評分較少,通過相似度計算可以得到二者的相似度極低,這種情況導致了用戶A和B之間的相似信息的缺失。因此數據稀疏性對推薦系統的推薦性能提出了重大挑戰。

(三)冷啟動問題

推薦系統中由于缺少初始評分而導致系統無法做出個性化推薦的問題稱為冷啟動問題,其主要包括用戶冷啟動和項目冷啟動。由于協同過濾推薦算法采用基于目標用戶的近鄰或者基于項目的近鄰對目標用戶進行推薦。因此,如果系統中新加入用戶和項目,系統很難采用近鄰用戶集合和近鄰項目集合對目標用戶進行推薦。所以,冷啟動問題降低了協同過濾推薦算法的性能。

(四)可擴展性

隨著時間的增長,用戶和項目的數量也隨之增長,采用傳統的協同過濾推薦算法將會使得推薦系統遭受很嚴重的可擴展性問題,算法的計算過程和運算量可能呈指數增長。同時,系統需要實時并且準確性地為系統中的所有用戶進行推薦,而這需要推薦系統具有較高的可擴展性。

三、推薦系統解決策略

針對推薦系統存在的問題,我們對推薦系統的解決策略進行了以下的分析:

對于準確性問題,通常我們選用平均絕對誤差值來驗證推薦系統的準確度。用戶對推薦的項目越滿意,則會越來越相信推薦系統,推薦系統被使用的概率也會逐漸提高。相反,如果推薦系統沒有找到用戶感興趣的項目,則會導致該系統的用戶逐漸流失,系統被使用的概率也逐漸降低。

對于數據稀疏性問題,使用降維技術來有效地解決數據稀疏性問題,例如選用奇異值矩陣分解將不具有代表性的特征或者不重要的用戶和項目信息進行刪除,從而有效地降低了用戶對項目評分矩陣的維度。也就是說通過采用低維空間中的用戶相似性來代替用戶間的相似性,然后運用推薦系統為目標用戶進行推薦。

對于冷啟動問題,我們分別從用戶冷啟動和項目冷啟動進行分析。當一個新用戶通過注冊而使用系統時,由于該用戶未對系統中的項目進行評分,系統從而無法對該用戶進行推薦,這種問題我們稱為新用戶冷啟動問題。針對此問題我們提出了幾種解決策略:利用系統中所有用戶對項目評分的平均值作為新用戶對該項目的評分;在用戶注冊時,使用附加信息如性別、年齡、職業等統計信息作為新用戶對相關項目的評分來進行推薦;通過詢問用戶相關項目信息來獲取新用戶的興趣愛好,比如登陸視頻網站詢問“喜歡什么樣的電影”從而為用戶推薦相關項目。當一個新項目被添加到系統中時,它沒有任何被評分信息,因此也不會被推薦給用戶,這種問題我們稱為新項目冷啟動問題。實際應用中,用戶往往不會對不推薦給他們的項目評分,因此新項目可能會逐漸被遺忘。針對此問題,我們提出以下方法進行解決:系統隨機抽取新項目或者評分信息很少的項目讓用戶進行評分;通過其他的推薦方法進行推薦,如基于內容或者關聯規則等。

對于可擴展性問題,一方面可以采用皮爾森相關系數計算用戶和用戶以及項目和項目之間的相似度,此計算方式選用的是與目標用戶評價過相同項目的近鄰集以及與被用戶評價過項目的相似項目集進行相似度計算;另一方面,選擇基于模型的推薦算法如采用基于聚類的協同過濾推薦算法通過選定與目標用戶興趣度相似度較高的簇類中的用戶進行推薦。這種方式不僅可以降低計算復雜度,同時可以解決可擴展性問題。

四、總結

推薦系統更新較快,必須通過不斷的對推薦系統進行優化,提高推薦系統的推薦精確度,從而保障推薦系統時效性。

參考文獻:

[1]Francesco R, Lior R, Bracha S. Recommender Systems Handbook[M]. Springer, Boston, MA.

[2]弗朗西斯科·里奇. 推薦系統[M].機械工業出版社, 2015.

[3]于洪,李俊華.一種解決新項目冷啟動問題的推薦算法[J].軟件學報. 2015, (06).

[4]李歡.新型協同過濾推薦算法研究[D].安徽大學, 2017.

[5]黃山山.協同過濾推薦算法的關鍵性問題研究[D].山東大學,2016.

猜你喜歡
推薦系統互聯網
數據挖掘在選課推薦中的研究
基于用戶偏好的信任網絡隨機游走推薦模型
基于個性化的協同過濾圖書推薦算法研究
個性化推薦系統關鍵算法探討
淺談Mahout在個性化推薦系統中的應用
關于協同過濾推薦算法的研究文獻綜述
“互聯網+”環境之下的著作權保護
“互聯網+”對傳統圖書出版的影響和推動作用
從“數據新聞”看當前互聯網新聞信息傳播生態
互聯網背景下大學生創新創業訓練項目的實施
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合