一種基于信任度和研究興趣的學者推薦方法?

2019-03-26 08:44孫賽美林雪琴李春英

計算機與數字工程 2019年3期

孫賽美林雪琴彭博李春英湯庸

（1.華南師范大學計算機學院廣州 510631）（2.廣東技術師范大學計算機科學學院廣州 510665）

1 引言

近幾年，中國互聯網發展迅猛，現在已經進入了大數據時代和社交網絡交互的時代，社交網絡的迅速發展和多樣化都是這個時代的鮮明特點［1］。文獻［2］指出，2016年各類社交應用持續穩定發展，尤其針對不同場景、不同垂直人群、不同信息承載方式的細分社交平臺進一步豐富，向創新、小眾化方向發展。學術社交網絡是一種面向學者科研的細分類社交網絡平臺，旨在打造專屬學術、科研工作者的交流平臺，增強學者間交流效率，更好地促進學術科研的研究發展。學術社交網絡的規模迅速擴大，帶來了信息過載和數據稀疏等問題，導致一般用戶難以發現自己感興趣的并和自己擁有相似興趣的用戶。能否幫助用戶順利建立自己的社交圈，給用戶推薦可能成為好友的用戶，不僅影響用戶的使用體驗，也關系到用戶對社交網站的粘性和忠誠度。因而針對如何為用戶提供個性化推薦的問題，學術界進行了大量的研究。

文獻［3］提出了一種基于信任社交圈的好友推薦，通過將信任度融合到社交圈重疊程度的計算中從而為用戶進行好友推薦。文獻［4］提出了一種基于社會關系的社交網絡好友推薦算法，首先通過關聯規則分析用戶的隱含關聯度構建關系轉移矩陣，再綜合考慮社會關系和用戶影響力，從而給出最終推薦。文獻［5］提出了一種基于興趣社區和信任鄰居的推薦方法，通過語義本體構建興趣社區，在興趣社區的基礎上計算用戶需求偏好同時構建信任鄰居集合，最終將兩者集成后為用戶進行精準多樣的推薦。

上述推薦多針對綜合類的社交網絡，不是專門面向細分類的社交網絡，因此本文針對學術社交網絡提出了一種基于信任度和研究興趣的學者推薦方法，利用用戶在社交網絡中的交互和三度影響力理論計算用戶之間的信任度，再結合用戶研究興趣的相似度來為用戶推薦可能成為好友的學者。綜合用戶交互和三度影響力的信任度，不再單獨以用戶之間的好友關系和路徑條數來衡量用戶間的關系，提高了度量用戶關系的準確性，同時將用戶的潛在好友集擴展，緩解了數據稀疏問題，另外綜合考慮用戶的研究興趣，從而提升了學者的推薦效率。

2 相關研究

目前針對社交網絡的個性化推薦已經有很多的研究，主要的推薦算法包括三種，協同過濾推薦［6～13］、基于內容的推薦［14～16］和混合推薦［17～22］。協同過濾（Collaborative Filtering，CF）最早是由Goldberg等提出的，現在常用的協同過濾的算法分為基于用戶的協同過濾算法、基于項目的協同過濾算法和基于模型的協同過濾算法。文獻［6］提出了一種通過將項目分裂后根據上下文維度進行聚類，再根據協同過濾的算法進行未知評分預測的推薦方法。文獻［7］在計算相似度時充分考慮了評分時序帶來的用戶之間的影響力和用戶評分差異的加權信息熵，并對融合參數采用隨機粒子群的算法確定，從而提高了推薦質量。文獻［8］在計算項目評分時綜合考慮項目特征對評分的影響，形成?；脑u分矩陣，并在推薦過程中考慮誤分類成本、學習成本和評分偏好形成三支推薦?；趦热莸耐扑]，根據用戶評分過的歷史項目信息，為用戶的興趣建立模型，是針對用戶的個性化的興趣模型，對于推薦目標項目，不需要參考其他用戶對該項目的評分，只需要將項目的相關信息與用戶的興趣模型進行匹配，最終推薦匹配度最高的項目。文獻［14］是基于內容過濾和語義相似來進行推薦，首先基于內容的向量空間濾波建立過濾推薦模型，再結合谷歌的PageR-ank算法進行資源類型劃分，得到特征的馬爾科夫收斂矩陣，最后將結果進行TOP-K推薦?；趦热莸耐扑]算法在內容的獲取方面存在一定的限制，另外推薦的多樣性方面也存在一定的不足?；旌贤扑]融合了多種推薦方法，集各自優點于一身，相較于單項推薦，應用混合推薦算法的推薦效果更優。目前常用的混合推薦算法包括幾種常用的混合方式，加權（weight）、變換（switch）、混合（mix）、特征組合（feature combination）、層疊（cascade）、特征擴充（feature augmentation）、元級別（meta-level）。文獻［17］提出了一種融合好友關系和標簽信息的混合推薦，首先提取社交網絡結構化信息特征，再利用TF-IDF構建社會化標簽模型，最后線性融合兩方面進行推薦。文獻［18］提出了基于相似度及信任度的關聯規則推薦算法STA，該算法在優化數據挖掘和數據集遍歷時間的基礎上，利用出入相似度定義用戶信任度，有效解決了新浪微博未提供顯示信任關系的問題。但是在社交網絡中用戶的信任度更多的反應用戶的交互行為中，而該算法并未考慮到這點，對此本文提出了基于用戶交互行為的信任度計算方法。

3 基于信任度和研究興趣推薦方法

現有的好友推薦更多都是依賴用戶的好友關系和用戶數據，但隨著社交網絡規模的不斷擴展，數據會呈現一種稀疏性。例如會出現少數用戶與很多用戶存在好友關系，而大多數用戶好友關系很少，導致大部分用戶的好友關系數據稀疏。三度影響力將好友聯系的范圍拓展，是一種有效的解決數據稀疏性的辦法。在平靜的湖面擲一顆石子，水波會均勻的向四面傳播，然而社交網絡并不是平靜的湖面，用戶對好友的影響是不能同等傳遞的，也就是說用戶對每個好友的關系并不是等同的，而是存在親疏之分的，因此社交關系的信任度是一個很好的衡量兩個用戶之間關系親疏的指標。此外，社交網絡中用戶的基本信息可能存在著不詳細或未及時更新等問題，因此對于用戶的研究興趣，本文通過對用戶的學術成果進行主題模型訓練，從而得到較為準確的研究興趣相似度。最后將用戶的信任度和研究興趣進行融合，從而給出最終的推薦。該方法的主要步驟包括，首先構建社交網絡，發現用戶原有的好友關系，根據好友關系建立好友關系列表；其次，依據用戶在社交網絡中的社交交互，計算好友間信任度；之后根據用戶好友列表數據，挖掘用戶三度以內的好友關系列表，并計算出用戶之間三度內的好友信任度；然后再通過LDA主題模型得到用戶研究興趣，進而計算研究興趣相似度；最后融合好友關系信任度和研究興趣相似度得到綜合相似度，選取綜合相似性最高的TOP-N用戶進行推薦。

3.1 基于三度影響力的好友信任度計算

3.1.1 好友間信任度模型

社交網絡中，一個用戶可能會存在成百上千個好友關系，在這些關系中，用戶的交互往往呈現多樣性，有的交互緊密，有些偶爾點贊，有些可能僅是互為好友，這也就反應了好友之間的信任度是不同的。文獻［23］將用戶之間的信任分為兩部分：1）認識信任：用戶不會添加自己完全不了解的陌生人為好友，因此用戶建立好友關系時，可以認為兩個用戶已經產生了基礎的信任；2）交互信任：用戶在社交網絡中發生過交互行為，而且用戶之間的社交網絡交互行為越多，則兩個用戶之間信任度越高。本文依據這兩種信任來計算用戶之間的信任度，但是考慮到兩個用戶中交互信任占主要比重，因此本文將僅存在認識信任，即兩個用戶僅互為好友，并不存在交互行為時，將兩者的信任度取值為認識信任，當兩者都存在時，取值交互信任。信任度的計算公式如式（1）所示：

公式中，Fr（u，v）表示用戶u對用戶 v的信任度，其由兩種情況構成：Kr表示用戶u對用戶v的為認識信任，相對于交互信任來說認識信任對用戶的影響力很小，在本文中設為定值為0.01；Ir（u，v）表示用戶之間的交互信任，即通過用戶在社交網絡中的交互行為，包括動態的評論、轉發和點贊以及在線聊天和站內郵件通信等五項指標計算用戶之間的信任度。各項交互行為的信任度計算公式如式（2）～（6）所示。

其中 Cr（u，v）、Tr（u，v）、Zr（u，v）、Chr（u，v）、Er（u，v）分別表示用戶u對用戶v的評論交互信任、轉發交互信任、點贊交互信任、在線聊天交互信任和郵件通信交互信任，Ic（u，v）、It（u，v）、Iz（u，v）、Ich（u，v）、Ie（u，v）為別為用戶 u 對用戶 v 的評論量、轉發量、點贊量、在線聊天量、郵件通信量，i為與用戶u有交互的用戶。公式中分子分別表示各種交互的量，分母為各項交互的最大值。根據以上交互行為信任度，綜合得到交互信任度Ir，公式如式（7）所示：

式（7）中α，β，γ，λ，μ為各項交互的融合參數，參數之和為1?？梢愿鶕煌W站的交互形式比重進行參數調整，通過上述模型定義可以計算出兩個好友之間的信任度。

3.1.2 三度內好友信任度

社交網絡一般可以由圖G（V，E）表示，用頂點集V表示社交網絡中的用戶集，用邊集E表示用戶之間的好友關系，即用戶之間存在好友關系，則在圖中，兩個頂點之間存在邊關系。如圖1所示為一個虛擬的帶權無向社交網絡圖，其中1～14表示用戶U1～U14，節點之間的連線表示好友關系，邊的權重表示好友之間的信任度。

LD extended beyond these de finitions are classi fied as D2 +. Their effectiveness remains controversial;therefore, they are currently not recommended for routine use in clinical practice[13].

圖1 虛擬帶權無向社交圖

要計算三度內的好友信任度，首先要找到用戶間的二度和三度好友路徑，并排除其中無意義的路徑和回路。具體方法如下：首先，根據網絡結構可以得到用戶好友列表，將出現在同一個用戶好友列表中的節點，每兩個組成一個節點對，例如用戶U1的好友列表包含 U2、U3、U4、U5、U6、U7，則存在好友對：＜U2，U3＞、＜U3，U2＞、＜U2，U4＞……，因為本社交網絡中好友關系為互為好友而不是微博中的存在單向關注，所以每兩個節點對應兩個節點對，每個節點對就是一個二度好友關系，二度好友關系的中間節點即為當前好友節點，記為＜U2，U1，U3＞、＜U3，U1，U2＞、＜U2，U1，U4＞ ……，這樣便可以得到全部的二度好友關系。將得到的二度好友關系與好友關系原節點即已存在的一度好友關系，進行頭節點匹配，如果匹配成功，則兩個尾節點之間存在三度好友關系，即頭結點為路徑上的另一個節點，例如存在二度關系＜U2，U1，U3＞，原好友關系存在＜U2，U8＞，則可以合并成一個三度好友關系＜U8，U2，U1，U3＞，其中U2、U1為三度好友關系的中間節點。依據該方法可以得到所有好友關系中的二度及三度的好友關系。為了避免好友關系中出現無意義的回路等不必要的數據影響，在計算二度、三度好友關系時要將用戶本身的好友剔除。

通過計算得到用戶的二度和三度好友關系，根據一度、二度和三度好友關系的傳遞性，將一度的好友信任度擴展到二度和三度的好友信任度，具體公式如式（8）、（9）所示：

公式中，T2（u，v）、T3（u，v）分別表示用戶u對用戶v的二度好友信任度和三度好友信任度；M2、M3分別表示用戶u到用戶v的二度、三度路徑中間結點集，如圖1中用戶U1到用戶U8的二度路徑中間結點集M2=｛U2｝，用戶U1到用用戶U8的三度路徑中間結點集 M3=｛U3，U7，U9，U11｝，i、j、k 分別屬于用戶u到用戶v的二度、三度好友路徑中間結點，如圖1中用戶 U1到用戶U8存在一條路徑U1→U2→U8，所以其二度路徑中間結點i=U2，用戶U1到用戶U8存在路徑 U1→U7→U11→U8、U1→U3→U9→U8，所以其三度路徑中間結點存在兩對 j=U7、k=U11和 j=U3、k=U9； ||N2、 ||N3分別表示用戶u到用戶v的二度、三度路徑數，如圖1中用戶U1到用戶U8的二度、三度路徑數分別為 ||N2=1， ||N3=2。最終用戶u到用戶v的信任度（T（u，v））將用戶u到用戶v的二度信任度（T2（u，v））和三度信任度（T3（u，v））進行加權平均，具體公式如式（10）所示：

公式中，α、β是用戶信任度融合的參數，其中α表示的是用戶二度好友關系信任度所占的比重，β表示的是用戶三度好友關系信任度所占的比重，依據現實好友關系的親密度來看，二度好友的親密度一般大于三度好友的親密度，因此參數的取值一般令α≥β。

對于圖1中的社交網絡，根據傳統的好友關系強度計算，不考慮用戶之間的信任度，如果給用戶U1進行好友推薦，推薦的好友順序為U12＞U10＞ U8＞U9、U11、U13、U14?？梢钥吹接脩?U9、U11、U13、U14的推薦力度是一樣的，沒有很好地將用戶區分。而考慮用戶之間的信任度，依據本文定義的信任度計算后，根據信任度結果為用戶U1推薦的好友順序為U13＞U14＞U12＞U11＞U10＞U8＞U9。明顯地看到每一個用戶的有各自的等級，該方法能夠完美地劃分用戶推薦度。而且同傳統的方法比較，好友的推薦順序也發生了比較大的變動，圖1中可以明顯看到用戶U1、用戶 U4、用戶 U5、用戶 U13、用戶 U14之間的信任度比較大，因此優先推薦用戶U13、U14給用戶U1也是更準確的推薦。

3.2 研究興趣相似度計算

在考慮了用戶好友之間的信任度之后，還充分考慮到用戶的研究興趣，用戶的興趣也是推薦的一個重要指標。學者用戶的學術成果，是用戶科研興趣的一個重要反映，因此本文選擇利用用戶的學術成果來挖掘用戶的研究興趣。近年來，主題模型被廣泛應用在挖掘用戶興趣和個性化推薦領域，尤其是 LDA（Latent Dirichlet Allocation）主題模型［24～25］，LDA會在判斷文檔相關性的時候考慮到文檔背后的語義，從而挖掘文檔背后的語義關聯。LDA的方法是利用機器訓練用戶興趣文檔，從而得到用戶興趣的主題分布和詞分布，然后利用相似度算法來計算用戶興趣相似度，從而進行好友推薦。為了解決LDA模型不適用于短文本主題挖掘的問題，本文將每個用戶所有的學術成果合并成一個長文本。LDA是一種由“文檔-主題-詞”構成的三層貝葉斯產生式模型。某篇文檔的每個詞是通過一定概率選擇了一個主題，并從整個主題中以一定的概率選擇某個詞語。得到每個用戶的主題-單詞分布之后，就可以構建用戶的研究興趣模型。每個用戶根據設置要訓練的主題個數生成一個研究興趣向量。本文采用向量余弦相似度來計算用戶研究興趣的相似度 S（u，v），相似度的計算公式如式（11）所示：式（11）中n為主題數，向量Ai和向量Bi為用戶的研究興趣主題分布，通過計算最終得到用戶的研究興趣相似度。

3.3 融合信任度和研究興趣的推薦

在三度內好友關系信任度T（u，v）和用戶研究興趣相似度S（u，v）計算之后，將兩者進行線性加權融合之后得到最終的綜合相似度Sim（u，v），最后根據綜合相似度向學者進行TOP-N潛在好友推薦，Sim（u，v）的計算如式（12）所示：

式（12）中，α是用戶信任度和用戶興趣相似度的融合參數，其中α的取值為0＜α＜1。如果α＞0.5，表示好友的信任度相對于用戶研究興趣更為重要；如果α＜0.5，表示用戶的興趣相似度對于好友信任度更為重要。

4 實驗驗證與分析

4.1 實驗數據

本實驗從學者網選取了共計39240對好友關系，從中提取出好友關系列表，去重之后共計1902個用戶。實驗將用戶的數據分為70%的訓練集和30%驗證集，實驗中先隱藏了驗證集中用戶的好友關系。用戶社交交互數據，選取了實驗用戶的全部交互行為，包括用戶的動態評論、轉發、點贊、在線聊天、郵件通訊等數據。學術成果部分包含兩部分數據，一部分為學者網上用戶的學術成果論文集，共計16072篇論文；另一部分為根據用戶論文爬取的百度學術中相關文獻的論文集，共計42150篇論文。

4.2 評價指標

目前在好友推薦結果的評價指標中，較為常用是準確率（Precision）、召回率（Recall）以及綜合準確率和召回率的調和平均值F1-measure。各評價指標的計算公式如式（13）～（15）所示：

公式中 R（u）表示實驗中推薦的好友集合，T（u）表示驗證集中用戶的好友集合，R（u）∩T（u）表示推薦的好友中已經成為用戶好友的集合。準確率又被稱為查準率，也就是推薦的用戶有多少是準確的。召回率又被稱為查全率，也就是推薦的用戶中對驗證集中的好友的覆蓋率。準確率和召回率的取值范圍為0～1之間，數值越接近1，準確率和召回率越高，表示算法推薦越精確。但是準確率和召回率兩者存在一種矛盾關系，因此引入F1-measure來綜合反映整體。

4.3 實驗分析

實驗過程中先對實驗參數進行了調參實驗，在研究興趣相似度計算時，設置了不同主題參數10、20、30、40、50、100的對比實驗，對比發現在取主題數為50時效果最佳，因此本實驗中興趣相似度的計算均在主題數為50的情況下進行。

圖2 不同主題數下的推薦效果

根據準確率、召回率和F1-measure三個指標對實驗結果進行分析。實驗中首先將本文提出的基于信任度和研究興趣的推薦方法同基于信任度的推薦算法和基于用戶研究興趣的推薦方法進行好友TOP-N推薦對比，其中N分別取值5，10，15。如圖3、圖4和圖5，分別為準確率、召回率和F1-measure對比結果。

從圖3和圖4可以看出，融合信任度和研究興趣的推薦方法，推薦的準確率和召回率均高于基于信任度和基于研究興趣的推薦方法。

從圖5可以看出，融合信任度和研究興趣相似度的推薦比另外兩種方法推薦效果更好，綜合衡量指標F1-measure也有明顯的提升，最大的達到17%。

圖3 自身實驗不同方法下的準確率

圖4 自身實驗不同方法下的召回率

圖5 自身實驗不同方法下的F1-measure

除去上述自身實驗的對比，本文還采用基于矩陣分解的推薦算法和傳統的協同過濾推薦算法作為對比實驗?；诰仃嚪纸獾耐扑]算法，通過設置不同的隱含因子個數進行實驗，最終得到最優的推薦效果下的影響因子個數為40。

圖6 不同隱含因子下的推薦效果

基于協同過濾算法的核心是根據已有歷史數據找到擁有相似行為偏好的用戶，根據相似用戶的喜歡的項目進行過濾篩選推薦。在學者推薦過程中，將用戶的好友作為推薦項目。圖7為不同推薦方法在推薦個數分別為5、10、15下的F1-measure對比結果，從圖片可以看出，融合信任度和研究興趣的推薦方法在學者推薦上有更優的效果，其中本文提出的推薦方法在進行TOP-5的推薦時效果最優，F1-measure值比基于矩陣分解的推薦方法最高的提升了27%，比基于協同過濾的推薦方法也提升了18%。

圖7 不同方法下的F1-measure

綜合實驗結果可知，充分綜合考慮用戶之間的信任度和研究興趣的相似度的推薦效果要明顯優于另外兩種推薦方法。

5 結語

隨著社交網絡的不斷擴大，用戶好友關系的親疏度分級越來越明顯，反應在社交網絡中就是用戶的交互行為。本文根據用戶的交互確定用戶好友之間的信任度，更為準確的衡量了用戶之間的關系強度，同時利用三度影響力理論將用戶的潛在好友關系范圍從二度擴展到三度，有效地拓展了用戶潛在好友集，一定程度上解決了社交網絡中數據的稀疏性問題。學術社交網絡作為重要的學術社交平臺，學術科研展示與交流作為其主要的功能，因此綜合考慮用戶的研究興趣方向，根據學術成果挖掘用戶的研究興趣，計算其相似性，綜合用戶研究興趣的推薦保證推薦用戶的可行性。當然研究也存在一些不足之處，實驗數據沒有考慮到用戶自身屬性，例如用戶單位和用戶地域，用戶自身的屬性也是用戶的重要信息，參與到模型構建中將進一步提高推薦效果；另外學者研究領域會隨著時間的推移有所變化，在考慮學術成果時，將時間作為一個劃分標準，可能更有助于提高推薦的準確性，當然這些都需要進一步進行實驗驗證，這些也是接下來擴展的研究方向。