基于社會化標注的協同過濾算法

2020-03-27 08:49周康渠

探索科學(學術版) 2020年12期

楊晨周康渠

重慶理工大學機械工程學院重慶400054

引言

在web3.0時代,互聯網用戶從信息的消費者轉變成了信息的生成者,社會化標注這一自下而上的分眾分類方式也逐漸興起,如圖書網站豆瓣讀書、圖片共享網站Flickr等。這些網站允許用戶自主上傳資源,對網站上的資源自由添加標簽來對資源進行描述,并與網站上的其他用戶分享。隨著網站上資源的積累,如何為用戶找到其感興趣的資源成為了這些網站面臨的一大挑戰,而基于一些推薦算法的推薦系統,成為了解決這一問題的主要方法。

協同過濾算法是目前應用最為廣泛的一種推薦算法,然而隨著網絡上資源數量的迅速積累,協同過濾算法常常面臨數據稀疏、冷啟動等問題。在協同過濾算法中引入語義,可以緩解協同過濾算法所面臨的數據稀疏和冷啟動問題,是一種有效提高推薦效率的方法。隨著社會化標注的進行,形成的標簽集對資源的內容或語義進行了揭示[1]?，F在已經有了一些利用社會化標注系統中標簽間的語義關系來緩解協同過濾算法所面臨的數據稀疏和冷啟動問題的研究。

1 基于社會化標注的協同過濾算法

本文的算法依據標簽共現矩陣以及標注頻率建立標簽樹,結合標簽共現矩陣以及標簽樹結構綜合確定標簽之間的綜合語義相似度,依據資源的標注情況以及標簽間的語義相似度來計算資源間的語義相似度,并用資源語義相似度對用戶的評分矩陣進行填充,用填充后的用戶評分矩陣來找尋用戶的鄰近用戶,從而實現資源的推薦。

1.1 標簽樹的構建本文在Paul H 等[4]提出的標簽樹的構建方法上,依據標簽間的相似度以及標簽標注的資源數量來實現標簽樹的構建。標簽的相似度計算方法有很多,其中基于標簽共現的標簽相似度計算是使用的非常多的一種。標簽共現是指兩個不同標簽對于一個相同的資源進行標注,而這種共現關系表明兩個標簽之間存著某種程度上的語義關系,對于標簽相似度大于一定閾值的一個標簽對,則認為其存在語義關系。在知識分類體系中,父概念比子概念的內涵更抽象,外延更廣泛,在標簽間樹的構建過程中,即認為父標簽會比子標簽標注更多的資源。標簽樹的構建包括以下步驟:數據預處理及標簽篩選、建立基于共現的標簽相似度矩陣、建立標簽樹。

1.1.1 數據預處理及標簽篩選由于社會化標注大多是在無監督的情況下進行的,具有不規范性。因此需要對標注數據進行預處理,包括對標注數據中的大小寫進行統一,刪除不能識別的字符,并對同義詞、縮寫等進行合并等。在數據預處理后,篩選出用于構建標簽樹的標簽。

1.1.2 建立基于共現的標簽相似度矩陣對于篩選出的標簽集合,建立維度為n×n的標簽共現矩陣O,n為篩選出的用于構建標簽樹的標簽的個數。

由于兩兩標簽的使用頻次會對他們的共現頻次產生影響,難以反應兩個標簽之間真正的語義關系,為了消除標簽的熱門程度帶來的影響,引入Ochiia系數將標簽共現矩陣O 轉換成標簽相似度矩陣,從而反映出標簽間的實質性共現關系,計算公式如下:

隨著資源數量的增加,用戶評價過的資源往往只占資源總量的一小部分,尤其是新用戶,因此用戶矩陣往往面臨數據稀疏的問題。通過引入資源間的語義關系,可以對用戶未評價過的資源的評價情況進行預測。

1.2.1 標簽綜合語義相似度計算在將標簽構建成標簽樹后,標簽之間具有了一定的語義結構。本文使用梁俊杰[5]等提出的語義相似度計算公式來計算標簽樹中各標簽的基于結構的語義相似度。

結合基于共現的語義相似度以及基于結構的語義相似度,來計算標簽間的綜合語義相似度,計算公式如下:

其中S(i,j)代表標簽i和標簽j之間的綜合相似度,S1(i,j)代表標簽i和標簽j之間基于共現的語義相似度,S2(i,j)代表標簽i和標簽j之間基于結構的語義相似度,α為調節系數。

1.2.2 資源語義相似度計算由于資源的標注情況反應了資源的屬性,因此可以依據標注于資源的標簽來對資源進行分類,分類步驟如下:

(1)篩選出標注于資源的標簽中屬于標簽樹且標注次數大于閾值的標簽,組分該資源的分類標簽集。

(2)若篩選出的標簽在標簽樹中為父子節點,則選擇在標簽樹中層級最深的標簽作為該資源的類。

資源分類后,按照資源的分類結果計算資源間的語義相似度,計算公式如下。

3 算法驗證

3.1 實驗數據實驗采用Movielens的電影-評分數據集中用戶對于電影類目為Sci-Fi的電影的評分,由于要通過電影資源的社會化標注信息來對電影資源進行分類,因此篩選出213個被標注次數大于10次的電影資源,并篩選出進行評分次數大于10次的3047個用戶。即實驗數據集中包含3047個用戶對于213個電影資源的99364條電影評分,評分分數為1～5分。將其中80%的數據用作訓練集,20%的數據用作測試集,驗證本文算法。

其中N 為預測的資源評分集合,pi為該資源的預測評分,ri為該資源的實際評分,lenth(N)為集合N的長度。

3.3 實驗結果為了驗證本文算法的效果,選取傳統的基于用戶的協同過濾算法與本文算法進行比較。圖1是當最鄰近值K取不同值時各算法MAE的大小對比。

圖1 K取不同值時各算法MAE的大小比較

由實驗結果可知,無論K 取何值,本文的算法的MAE值要遠低于傳統基于用戶的協同過濾算法。這表明本文算法能有效緩解數據稀疏何問題,從而提高推薦效果。

4 結語

本文提出了一種基于標簽共現和標注頻率建立標簽樹的方法來挖掘標簽間的語義關系,并通過資源的標注情況以及標簽間的語義關系來確定資源間的語義關系,并將這種語義關系與傳統的協同過濾算法相結合,來對用戶評分矩陣進行填充的推薦算法。通過在Movielens數據集上對本文提出的算法進行驗證,實驗結果證明本文提出的算法能夠有效提高推薦效果。但本文算法也存在一定的局限性,一方面在標簽語義挖掘的過程中標簽可能會存在一詞多義的問題,后續可以與連邊社團檢測算法進行結合。另一方面本文只考慮了資源間的語義相似度,而用戶之間也存在語義相似度,后續可以綜合考慮用戶和資源的語義相似度來對算法進行進一步改進。