?

基于協同過濾知識圖譜的圖書推薦

2024-01-07 14:08孫進強肖銀寶
科技風 2023年36期
關鍵詞:推薦系統協同過濾知識圖譜

孫進強 肖銀寶

摘要:目前存在的圖書推薦算法普遍都只考慮了讀者對圖書的評分等數據,忽略了圖書的其他屬性,并且這種推薦算法都會面臨冷啟動等問題。為了緩解圖書推薦系統準確率低、可解釋性差和數據稀疏等問題,本文將圖書評分和圖書標簽數據相結合,實現圖書的精準推薦。首先通過圖書與圖書標簽之間的關系構建圖書知識圖譜,提取出圖書與圖書之間的關系,通過前文提到的算法模型計算推測出讀者的讀書偏好,還可以利用圖書和讀者之間的交互信息,通過協同過濾算法計算出讀者偏好,綜合上述兩種方法得到推薦列表進行最終的TopK推薦。

關鍵詞:圖書;推薦系統;協同過濾;知識圖譜

1概述

進入21世紀以來,互聯網技術的快速發展、計算能力的快速提升,各行業中產生的大量數據開始受到學者、企業的重視,但用戶在享受其帶來的便利同時,也面臨著信息過載、信息泄露等問題。用戶在信息資源的快速不停地產生情況下無法準確獲取自己需要的目標信息。推薦系統的出現,有效緩解了上述問題。而協同過濾算法利用協同信息推薦用戶感興趣的信息,被廣泛運用于圖書、電影、電商等領域。但在實際應用過程中,協同過濾的數據稀疏問題嚴重,實際的推薦效果并不理想。為此,學者們提出了在協同過濾算法中添加各種輔助信息來解決這個問題。

2研究方案

分析圖書數據集的數據構成,設計圖書知識圖譜的實體、關系、屬性以及標簽的結構,從圖書數據集中抽取出知識語義信息,并對知識語義信息進行預處理。對錯誤、缺失信息進行合理化處理,直接提取出實體信息,預定義實體之間的關系,對實體進行抽取找到匹配關系,并將實體和關系信息存入圖形數據庫中。通過低維的圖形化表示來直觀地顯示出高維語義信息,以此設計并構建圖書推薦模型并進行驗證。

構建基于知識圖譜與協同過濾的推薦模型之前,首先需要考慮其主要的目標需求和重點難點,并調研實際應用中不同類別信息對用戶做出選擇的影響程度因子,確定問題的輸入、輸出、約束以及邊界條件,通過對問題的目標函數、約束條件等進行梳理,設計適合圖書推薦的推薦模型。

根據軟件工程中的相關概念,在設計系統軟件時首先需要進行需求分析,得到完整的需求定義,從而避免后續開發時的不斷修改任務需求,可以減少開發周期。

3知識圖譜和協同過濾算法的引進

個性化推薦的基礎原理就是通過采集用戶的信息以及相關行為進行分析推測,以此為基礎向用戶推薦其感興趣的項目,例如在短視頻行業中,用戶的點贊記錄、興趣愛好等都會被推薦系統抓取,用來提高服務質量,提高用戶黏性。而傳統的推薦算法有:協同過濾算法、基于內容的推薦算法、混合推薦算法等。

協同過濾算法的原理是計算兩兩個體之間的相似度分析預測用戶可能感興趣的項目,從而快速準確地實現將合適的項目推薦給合適的用戶。協同過濾算法按照根據主體可劃分為基于項目的協同過濾推薦(ICF)、基于用戶的協同過濾(UCF)以及基于模型的協同過濾(MCF)。前兩種方法都是利用“用戶—項目評分矩陣”進行推薦,本文主要采用的是基于用戶的協同過濾推薦算法。

如圖1所示,在推薦系統中根據用戶對項目的評分可以得到如下的“用戶項目評分矩陣”,矩陣中的元素值就是特定用戶對特定項目的評分,“*”代表用戶并未對此項目進行評分,將該矩陣通過訓練得到用戶模型,從中選取出與目標用戶最相似的n個用戶,從而為目標用戶進行推薦。但在實際運用過程時發現用戶對項目評分的數量較少,形成的該矩陣非常稀疏。

基于用戶的協同過濾是利用每個用戶對同一個項目的不同感興趣程度,計算出兩兩用戶之間的相似度找到每個用戶的相似用戶集,在相似用戶集的感興趣項目集合中預測推薦用戶感興趣的項目,其工作原理如圖2所示,UserB和UserC相似,他們的興趣愛好很大程度相似,而UserB喜歡Bookb,所以推測UserC大概率也會喜歡Bookb,所以給他推薦這本書。

其工作流程:

Step1:采用余弦相似度計算公式計算任意兩個用戶之間的相似度

Wμv=N(μ)∩N(v)N(μ)N(v)(1)

Ssep2:建立一張用戶相似度表,其中保存任意兩個用戶之間的相似度,方便后續挑選出若干個與目標用戶最相似的用戶。

Step3:采用如下公式度量用戶μ對物品i的感興趣程度。

p(μ,i)=∑v∈S(μ,K)∩N(i)WμvRvi(2)

其中S(μ,K)表示與用戶μ最相似的K個用戶,將與用戶μ相似的用戶列表按照相似度進行排序就可以得到,N(i)表示喜歡物品i的用戶集合,Wμv是用戶μ和用戶v之間的相似度,Rvi表示用戶v對物品i的興趣。

Step4:對于與用戶μ最相似的k個用戶,分別計算用戶μ與這k個用戶喜歡的物品集合In,n∈1,2,…,N之間的感興趣程度,得到用戶μ對這N個物品的感興趣程度排序列表,取前m個物品推薦給用戶μ。

知識圖譜(KnowledgeGraph,KG)是由節點和邊組成的語義網絡圖,包含豐富的語義知識被廣泛應用到搜索引擎、推薦系統、智能問答等領域。其運用在推薦系統上具有準確率高、可解釋強等優點,其按照運用方向可以分為兩類,其中最普遍的就是項目知識圖譜,此外還可以將用戶—項目之間存在的各種關系類型轉換為圖譜可表達的關系,在此基礎上搭建出用戶—項目關系的知識圖譜,根據其圖譜上距離計算相似度從而進行推薦。圖書的知識圖譜示例圖如下圖3所示

圖3圖書知識圖譜

知識圖譜是由一條條基礎知識表達構成的,其中每條知識都可以用一個三元組表達:(實體,關系,實體)或(實體,屬性,屬性值),例如,某作者與《××》就是通過“作者”關系建立一個三元組表達的知識,2012年與《××》通過“出版時間”屬性建立一個三元組。多個這類三元組之間相互關聯,從而形成了一個關于圖書的知識圖譜。根據這種規則搭建的圖書知識圖譜,那么兩兩圖書在圖譜中距離就可以代表這兩本圖書之間的相似性。

目前利用知識圖譜進行推薦主要采用知識圖譜嵌入、路徑實例挖掘以及高階信息聚合三種技術。其中知識圖譜嵌入法的主要思想是利用圖譜嵌入技術獲取用戶和項目的圖譜表示,Wang在論文中將知識圖譜嵌入技術詳細分成兩種:基于語義匹配的嵌入和基于距離的翻譯嵌入?;诰嚯x的翻譯嵌入模型將實體和關系分別以低維向量表示,這是訓練知識圖譜中Trans系列算法普遍采用的函數思想,即:

h+r≈t(3)

其中h,t分別代表知識圖譜中的頭實體和尾實體的向量,r代表關系的向量。Trans系列方法主要有TransE、TransH以及TransR等。本文的知識圖譜技術主要采用基于距離的翻譯嵌入TransE算法,其示意圖如圖4所示。

給定圖書的知識圖譜(h,r,t),其中h為頭實體集合,t為尾實體集合,r為關系集合。然后將實體和關系在各自的空間中(實體空間和關系空間)表示為向量,使知識圖譜中的每個三元組的實體向量和關系向量滿足公式三:即如果三元組是正確的,則頭實體向量加上關系向量的結果應該和尾實體向量極為接近;反之,頭實體向量和關系向量的加和應該與尾實體向量相差很多?;诖?,TransE算法的目標函數設計為:

L=∑(h,r,t)∈S∑(h′,r′,t′∈S′)γ+d(h+r,t)-d(h′+r,t′)+(4)

其中h表示正確的三元組集合,h′表示錯誤的三元組集合,γ表示正負樣本之間的間距,是一個常數,x+表示max0,x,通常為了訓練方便且避免過擬合問題,會加上約束條件

模型優化過程為最小化目標函數L,即此時d(h+l,t)的值小,d(h′+l,t′)的值大,同時采用隨機梯度下降(SGD加速優化過程,其算法主要可分為三步,偽代碼描述如下圖5所示:

Step1:對源數據進行預處理,設計實體以及關系。

Step2:對實體以及關系進行抽取,初始化頭實體、尾實體和關系向量,并對初始化向量做歸一化處理,構建圖書的知識圖譜。

Step3:對數據集中的三元組抽樣,并對抽樣出來的三元組進行實體替換,形成負樣本。

Step4:優化目標函數,得到實體和關系的向量表示。

混合推薦系統是采用多種推薦方式相結合產生的,將各種推薦方式的優點融合在一起?;旌贤扑]技術可以分為推薦算法的混合技術和推薦結果的混合技術。推薦算法的混合是將不同的推薦算法融合在一起,從而改善嵌入向量的計算過程,以此來獲得更加優質的推薦結果。推薦結果的混合式指通過不同的推薦方式,得到多個推薦結果,再通過不同的參數將每個推薦技術的推薦結果合并至最終的推薦結果列表中,以達到最優的推薦結果。

結語

通過對讀者興趣愛好進行合適表達,基于協同過濾算法和知識圖譜構建出適合圖書的推薦模型,在實踐中反復驗證并改進,以提升推薦系統的運行速度和準確率,主要是在傳統的協同過濾算法基礎上融合了知識圖譜技術,彌補了協同過濾算法的不足;對參數進行多次調優,使之符合圖書推薦系統的特點,符合用戶對圖書推薦的期望,在推薦效果上優于單一技術應用的使用;搭建系統的客戶端和服務,為讀者提供可視化界面。

參考文獻:

[1]趙俊逸,莊福振,敖翔,等.協同過濾推薦系統綜述[J].信息安全學報,2021,6(05):1734.

[2]黃勃,嚴非凡,張昊,等.推薦系統研究進展與應用[J].武漢大學學報(理學版),2021,67(06):503516.

[3]劉佳奇,王全民.基于改進的用戶協同過濾算法的高校個性化圖書推薦系統[J].計算機與數字工程,2020,48(10):24582461.

[4]于洪,李俊華.一種解決新項目冷啟動問題的推薦算法[J].軟件學報,2015,26(06):13951408.

[5]趙杰.基于改進用戶興趣模型的個性化圖書推薦算法(英文)[J].機床與液壓,2018,46(06):193198.

[6]鄒海濤,陳沁梅.基于信任網絡與協同過濾的自適應推薦模型研究[J].江蘇科技大學學報(自然科學版),2019,33(04):4550.

[7]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(03):582600.

[8]VrandeCˇiC'D,KrtzschM.Wikidata:afreecollaborativeknowledgebase[J].CommunicationsoftheACM,2014,57(10):7885.

[9]李雪婷,楊抒,賽亞熱·迪力夏提,等.融合內容與協同過濾的混合推薦算法應用研究[J].計算機技術與發展,2021,31(10):2429+37.

項目:廣東高校重點領域專項新一代信息技術重點領域專項項目(編號:2021ZDZX1019)

作者簡介:孫進強(1999—),男,漢族,安徽安慶人,碩士研究生在讀,專業:人工智能,研究方向:大數據應用;肖銀寶(1973—),男,漢族,云南昆明人,碩士,助理研究員,研究方向:科技管理及信息化。

猜你喜歡
推薦系統協同過濾知識圖譜
基于用戶偏好的信任網絡隨機游走推薦模型
基于鏈式存儲結構的協同過濾推薦算法設計與實現
基于相似傳播和情景聚類的網絡協同過濾推薦算法研究
基于個性化的協同過濾圖書推薦算法研究
個性化推薦系統關鍵算法探討
基于協同過濾算法的個性化圖書推薦系統研究
基于知識圖譜的產業集群創新績效可視化分析
基于知識圖譜的產業集群創新績效可視化分析
混合推薦算法在電影推薦中的研究與評述
基于知識圖譜的智慧教育研究熱點與趨勢分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合