?

基于Vanilla算法的數字化資源在線推薦算法

2023-10-29 01:50程娟娟
計算機仿真 2023年9期
關鍵詞:權重神經網絡矩陣

程娟娟,宋 彪,李 微

(1. 南京工程學院計算機工程學院,江蘇 南京 211167;2. 南京信息工程大學計算機學院,江蘇 南京 210044;3. 南京工程學院科技與產業處,江蘇 南京 211167)

1 引言

數字化推薦算法可滿足用戶不同需求,有針對性的快速搜索所需資源,提高數字化資源檢索效率[1,2]。但是網絡資源內容龐大,為用戶提供精準推薦難度較大?,F有陳曄等人[3]提出以LFM矩陣分解為基礎的推薦算法,馬海江[4]提出的推薦算法是以卷積神經網絡與約束概率矩陣分解為基礎,以上兩種算法均能對數字化資源在線推薦,但是在實際應用中存在用戶分析耗時較長,且推薦精度偏低問題,用戶體驗感不夠理想。

為此,本研究提出利用Vanilla算法計算數字資源排序權重。再結合神經網絡模型計算用戶對資源的評分,設計用戶相似度矩陣初始值計算、分解與重組步驟,計算不同用戶之間的相似度,完成數字化資源在線推薦。Vanilla算法主要通過全方面掌握用戶信息,了解用戶需求,達到尋找目標的目的,優化了數字化資源推薦的精準度。

2 基于Vanilla算法的數字化資源在線推薦算法

本文利用Vanilla算法設計新的數字化資源在線推薦算法,Vanilla算法結合專家排列法計算不同情景維度的權重,并計算用戶使用數字化資源的消費評分,通過神經網絡的評分自動采集模型,評估用戶對推薦的數字化資源喜歡程度,從而了解用戶興趣。在固定數字化資源的情況下,尋找不同用戶之間的共同點,幫助目標用戶實現消費評分的預測,最終完善數字化資源在線推薦算法。

2.1 基于Vanilla算法的權重排序

Vanilla算法通過專家排序法獲取所設立情景維度的權重,以便依據該權重獲取用戶對數字化資源的評分結果。

2.1.1 設定情境維度及權重

用戶在線推薦數字化資源時,用戶心情、用戶閑暇時間、用戶年齡、電子移動設備剩余電量、數字化資源的種類等均屬于情境,并且信息來源和語境都有所不同[5,6]。由于情境可以改變用戶的行為,因此用戶使用數字化資源在線推薦算法第一步,應該收集用戶數字化資源的情境因素,具體信息見表1。

表1 情境信息

將以上5個情境維度的合集用V表示,且V={vi}1≤i≤6,當下的情境狀況用vi代表。不同情境狀況vi的權重需要排列順序,專家根據用戶需求量多少進行排列,依照由多到少,第1位情境維度,為需求量最多,第2位僅次于第1位需求量,以此類推。若情境維度為n個,需要m位專家排列,那么排列可用m行n列的數字表示,即1,2,…,n。該情境的秩理解為該情境的排列位置,該情境的秩和為m位專家判斷該情境的秩相加的數值,用R表示,Ri和wi分別代表第i個情境的次序和與權重,運算過程如下

wi=2[m(1+n)-Ri]/[mn(1+n)],i=(1,2…,n)

(1)

2.1.2 情境維度優先級一致性檢驗

專家根據判斷用戶對該情境需求量的多少,決定情境權重[7,8]。假設m位專家判斷結果大致相同,則為有效權重,否則為無效權重。權重計算的前提條件需相同,這就需要顯著性驗證專家判斷結果。具體驗證步驟如下:

統計量X2是顯著性驗證計算結果,如式(2)所示

X2=m(n-1)W

(2)

其中

W=12S/[m2(n3-3)]

(3)

(4)

W代表臨界值,S為顯著水平,假設S>W,則表示幾位專家判斷結果是顯著相同,否則差異較大。

2.2 基于神經網絡模型的用戶對資源推薦的評分

以了解用戶操作情況為前提,本文算法針對用戶的喜好設計模型[9]。為避免用戶異常評分行為、消除用戶無理由評分和推薦算法評分不密集的問題,該算法需要根據用戶使用數字化資源的行為,設立深層次的興趣模型或評分,并且結合已經存在的表面評分算法實施推薦。神經網絡推薦算法通過用戶行為采集用戶評分信息。

設定用戶實際使用數字化資源累計總時長為L、快進次數為F、后退次數為B、用戶數字化資源本身總時長T共4種因素影響用戶評分R。通過神經網絡學習算法建立一個能用L、T、B、F表示R的模型。

神經元作為底層構架模塊,每個模塊通過廣泛鏈接形成一種非線性動態系統,該系統可以根據需要調整狀態,稱人工神經網絡(Artificial Neural Network,ANN)。根據人工神經網絡能夠利用神經元互相采集數據的特點,可知該網絡具有兩大特征:第一,能夠對新事物盡快掌握;第二,環境發生改變時,功能不受影響。在新環境中,神經網絡能夠通過學習完善本身功能并且利用學習算法自動修復變化的鏈接權值,從而適應新環境[10,11]。因此本文深層次評分的推薦算法選用神經網絡,具體結構見圖1。此網絡含有輸入端:數字化資源累計總時長L、快進次數F、后退次數B、用戶數字化資源本身總時長T和輸出端:用戶評分R,僅可為0、1、2、3、4、5中的數值。該神經網絡中L、T、BN、FN與R間的相互關系用式(5)表示:

圖1 基于神經網絡的資源自動評分模型

(5)

其中,L、T、B、F之一的第i項輸入用xi代表,此處輸入權值與偏置分別表示為wi、θ。

圖1顯示,如果存在足夠多的輸入變量的權值wi和偏置θ到推薦算法式(5),利用該神經網絡的傳遞函數lgsig函數式(6)獲得輸出值并選擇四舍五入,使輸出值為0到5之間的整數。lgsig函數見式(6)

(6)

2.3 用戶相似度計算

2.3.1 用戶相似度矩陣初始值計算

用戶消費關系可以幫助獲取相似度初始值,為了掌握用戶消費關系,必須了解用戶時序行為。

用戶合集用U代表,興趣關系用E代表?,F有項目I,如果用戶Ui和Uj的評分態度一致,那么邊值Ei-j上的權值Wi-j均需要加1。訪問全部用戶的時序消費關系,根據統計學整理設計出用戶消費關系,邊值Ei-j上的權值Wi-j用式(7)進行描述:

(7)

這里,規定時間間隔用Ni,j代表,共同興趣評分項目數,按順序表示成Ui和Uj。生活中Ni,j個項目里Ui→Uj評分態度一致的項目數表示為Wi-j,通過Wi-j顯示用戶Ui對Uj起到多大的作用。

(8)

2.3.2 用戶相似度矩陣分解

用戶集合用U=(U1,U2,…,UN)代表,項目集合用V=(V1,V2,…,VN)代表。根據上文算得用戶與用戶間相似度值,設立用戶與用戶相似度矩陣SN×N,優化函數L(S,P,Q)表示如式(9)所示

(9)

利用梯度下降法運算優化函數,以下式(10)是梯度迭代公式

(10)

具體運算步驟如式(11)所示

(11)

式中,函數g(x)的導數為g′(x),即g′(x)=e-x/(1+e-x)2。

2.3.3 重建用戶相似度矩陣及目標

利用上文得到特征向量Pi、Qj,建立并排列出新的用戶與用戶間相似度矩陣,最終尋找到與該用戶最相似的目標用戶[12]。尋找到目標用戶的具體算法如下:

將數據集、學習率α、正則化參數為λ1、λ2作為輸入,目標用戶作為輸出。

1)制定用戶時序關系需要MovieLens數據集;

2)通過式(8)算出用戶初始相似度值,建立數據集DS;并將DS隨機分成兩組,一組為訓練集TR,占80%,另一組為測試集TE,占20%;

3)隨機初始化特征矩陣P、Q;(Ui,Uj,Sij)在TR中;

5)利用TE算出MAE值

6)如果MAE>ε,通過特征矩陣P、Q重建用戶相似度矩陣;對用戶的相似度值排列,得到目標用戶。

2.4 目標用戶評分預估形成推薦列表

在情境不一樣時,通過本文算法專家排列加權得到消費評分用R(u,j)表示。假設在用戶u中現有j類數字化資源需求的目標用戶u′對其進行預測評分,用P(u′,j)代表。

具體運算見式(12)

(12)

U為全部的數字化資源網站的用戶。

當數字化資源種類多樣時,算出目標用戶u′的預測評分需要兩方面結合計算,分別為u的評分計算、u與u′的相似度值計算。以二者值為基礎算出目標用戶u′的預測評分,完成目標用戶u′的數字化資源在線推薦列表創建任務。

3 實驗設計與分析

以某數據化資源網站為實驗對象,采用本文算法對該網站用戶進行數字化資源在線推薦,驗證本文算法的有效性。

3.1 用戶評分計算速度與準確性測試

本文算法采用神經網絡實現用戶自動評分,為了驗證本文算法的速度和準確性,在大量使用該網站數字化資源的用戶中,隨機選取10名用戶,編號為1~10。由于單純計算失誤率不能更好地反映本文算法的評分能力,因此評分數據還需計算平均絕對誤差(MAE)值,同時記錄評分運行時間。運行所需時間少,則表示計算用戶評分速度快;失誤率低,說明評分正確率高,而MAE同樣反映本文算法的評分正確率。當MAE與失誤率一樣時,表示每次失誤最小。實驗結果見表2。

表2 用戶評分計算速度和準確性

表2中可知,本文算法計算用戶評分時的運行耗時最高為0.031s,說明該算法評分速度快。表中失誤率在5%左右波動,失誤率低,證明該算法計算評分準確性好,并且MAE與失誤率值相等,表示抽取的樣本預測失誤最小。綜上所述,采用本文算法具有運行速度快、準確率高的優勢。

3.2 不同推薦算法的精度測試

從該數據化資源網站中隨機選取部分數據化資源組成數據集,將得到的數據隨機分成兩組,不能重復出現,一組為訓練集占80%,一組為測試集占20%。為了驗證本文算法的精準性,使用運算平均絕對誤差(MAE)和均方根誤差(RMSE)作為實驗指標。實驗對照算法為文獻[3]算法和文獻[4]算法。文獻[3]和文獻[4]均研究了推薦算法,前者通過LFM矩陣分解進行推薦,后者選用卷積神經網絡與約束概率矩陣分解完成推薦。將這兩種算法的實驗結果與本文算法相對比。實驗利用這三種算法完成數字化資源推薦。為了驗證精準性,需將獲取的評分數據分別算出平均絕對誤差MAE和均方根誤差RMSE,對比情況見圖2。

圖2 三種算法性能對比圖

從圖2可知,當目標用戶數值為6時,三種算法的MAE和RMSE值最小,說明此時誤差最低,三種算法推薦數字化資源結果為最佳。綜合觀察,本文算法與文獻[3]算法、文獻[4]算法比較誤差最低,證明本文算法能夠準確找到目標用戶,并進行數字化資源精準推薦。

4 結論

本文提出的基于Vanilla算法的數字化資源在線推薦算法,能夠高質量實現網絡用戶所需的數字化資源的推薦。以Vanilla算法獲取的專家排序權重為基礎,采用神經網絡模型計算用戶對資源的評分,運行耗時少,準確率高,用戶在使用本文算法進行數字化資源推薦時,能夠節約時間,并且省略了篩選的過程,直接搜索出所需資源。方便用戶的學習和生活。

猜你喜歡
權重神經網絡矩陣
權重常思“浮名輕”
神經網絡抑制無線通信干擾探究
為黨督政勤履職 代民行權重擔當
基于公約式權重的截短線性分組碼盲識別方法
初等行變換與初等列變換并用求逆矩陣
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
矩陣
矩陣
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合