?

基于用戶畫像的學習資源推送服務模型

2023-03-05 09:37
江蘇工程職業技術學院學報 2023年4期
關鍵詞:特征向量關聯聚類

劉 波

(南京工業職業技術大學計算機與軟件學院,南京 210023)

在互聯網快速發展的背景下,網絡學習成為人們獲取知識和技能的重要方式。然而,由于網絡學習資源的豐富性和復雜性,用戶面臨的主要問題是如何快速地找到適合的學習資源。通過分析用戶的興趣和行為向用戶推薦相關的學習資源,可以提高用戶的學習效率,但傳統的推薦系統存在推薦結果精度不高、推薦信息過載等問題,影響推薦系統的實際應用效果?;谟脩舢嬒竦耐扑]方法能提高推薦系統的精度和效率。[1]用戶畫像是指根據用戶的行為、偏好、興趣等信息對用戶進行特征提取和描述,進而建立用戶模型?;谟脩舢嬒竦耐扑]系統能夠更好地理解用戶需求和行為,并能夠更準確地向用戶推薦相關的學習資源。本文提出了一種基于用戶畫像的學習資源推送服務模型,旨在提高學習資源的推薦精度和效率。

1 面向學習過程的推薦策略

在學習前的冷啟動[2]階段,推薦系統中沒有用戶行為習慣的歷史數據,必須通過收集用戶的個人信息和偏好等數據(如年齡、性別、學科、興趣愛好等)來建立用戶畫像,并根據用戶畫像為之推薦適合的學習資源。其中,適合度可以通過計算學習資源與用戶畫像之間的相似度來確定,常用的相似度計算方法包括余弦相似度[3]、皮爾遜相關系數[4]等。學習過程中用戶產生行為習慣后,推薦系統可以根據用戶的行為數據(如點擊、收藏、評分等)來分析用戶的興趣和偏好,并為用戶推薦更符合其興趣和偏好的學習資源。此時,推薦系統可以采用協同過濾、基于內容的推薦等算法來進行推薦。因此,要提高推薦效果和用戶滿意度,學習資源推送服務需要根據用戶學習前和學習中的不同需求采用不同的推薦策略?;诖?,本文采用了兩階段推薦服務策略。

1.1 基于關聯規則的推薦策略

第一階段主要采用基于關聯規則的推薦策略。推薦服務需要根據用戶的注冊信息、學科領域、興趣愛好等信息,根據預置推薦規則為用戶提供一系列適合他們的學習資源,幫助用戶制定學習計劃和提前準備學習所需的知識和技能,提高學習的效率和質量。而關聯規則是一種在大規模數據集中發現項之間關系的方法。首先,通過關聯規則算法找到一些項之間頻繁出現的關系,[5]并將這些關系轉化為推薦規則,然后生成用戶特征向量和學習資源向量,隨后進行相關度計算,最后根據計算結果生成推薦結果。

這一階段,由于系統中缺乏用戶學習行為的既有記錄,主要依據學習檔案中的用戶信息和資源數據庫中的資源特征信息來進行推薦,故需要構建匹配映射服務模型,采用基于關聯規則的推薦服務策略為用戶推薦定制的學習資源。具體步驟為:

1) 規則集構建。規則集構建需要根據學科知識點邏輯和層次結構分析不同用戶特征,制定一系列相關的規則集。本文規則集構建方法如下:設有學習資源數據庫D,用戶學習檔案P,閾值min_sup,規則集合R。①為每個學習資源d(d∈D)抽取特征向量fd,其中包括學科領域、難度、知識點等信息。②根據用戶學習檔案P生成特征向量fp,其中包括用戶的學科偏好、難度偏好、學習時間等信息。③初始化規則集合R為空。④對于每個學科領域c,執行以下步驟:先從學習資源數據庫D中找到所有學科領域為c的學習資源Dc。計算每個學科領域c中的學習資源d(d∈Dc)與用戶學習檔案P的相關度sup(d,P),見式(1)。

式(1)中n是特征向量的長度,wi是特征向量中第i個特征的權重,fd,i和fp,i分別是學習資源d和用戶學習檔案P中的第i個特征向量。本文采用余弦相似度計算用戶特征向量和學習資源向量之間的相關度。余弦相似度是一種常見的用以比較兩個向量相似程度的計算方法,計算式見式(2)。

式(2)中A和B是n維空間的兩個向量,A= (x1,x2,…,xn),B= (y1,y2,…,yn),θ表示向量A和B在向量空間中的夾角。通過計算θ的余弦值可得到向量A和B的相似度值,用于度量它們之間的相似程度。當cosθ值接近1 時,表示兩個向量非常相似;當cosθ值接近0 時,表示兩個向量相似度較低;當cosθ值接近-1 時,表示兩個向量完全相反。然后,對每對學習資源d1,d2∈Dc進行判定,如果sup(d1,P)>min_sup、sup(d2,P)>min_sup,且d1和d2之間存在某種關聯規則,則將該關聯規則加入規則集合R中。⑤對規則集合R進行整理和優化,最后得到更新后的規則集合R'。

2) 生成用戶信息的特征向量。依據學習檔案中的用戶信息(如注冊信息、學科領域、興趣愛好等)生成用戶的特征向量。[6]采用向量空間模型生成特征向量,即將每個用戶特征映射為一個特征維度,將用戶特征用向量形式表示。本文生成用戶特征向量的方法如下:①定義特征空間。根據用戶信息確定特征空間,即將每個用戶特征映射為一個特征維度。假設特征空間的維度為n。②構建“用戶—特征”矩陣。將學習檔案中的用戶信息表示為一個“用戶—特征”矩陣M,其中每一行代表一個用戶,每一列代表一個特征維度。假設用戶數量為m,特征的數量為n,則M的大小為m×n。③計算特征權重。計算每個特征維度i在所有用戶中出現的頻率df(i),即文檔頻率(document frequency),并計算該特征維度的idf(i),即逆文檔頻率(inverse document frequency),idf (i) = ln。特征維度i的權重w(i)用TF-IDF(term frequency-inverse document frequency,詞頻—逆文檔頻率,簡稱TF-IDF)算法計算,即w(i)= tf(i,j)×idf(i),其中tf(i,j)表示用戶j中維度i的出現頻率。④生成特征向量。先將“用戶—特征”矩陣M轉置為“特征—用戶”矩陣M'。其中,每一行代表一個特征維度,每一列代表一個用戶。再對每個用戶根據特征維度上的權重w(i)組成一個向量,表示該用戶在所有特征維度上的權重向量,該向量即為用戶的特征向量。 具體地,若特征維度的數量為n,用戶特征向量的長度為m,則用戶u的特征向量為vu= [w1,w2,...,wm],其中wi表示用戶n在特征維度i上的權重。

3) 生成學習資源的特征向量。從學習資源庫中抽取內容屬性進行加權,并用向量表征。學習資源的內容屬性可以包括標題、作者、描述、標簽等。加權采用TF-IDF[7]等方法,將重要性較高的內容屬性賦予更高的權重,生成學習資源特征向量。對于學習資源數據庫D,假設抽取的內容屬性集合T,則本文生成學習資源特征向量的方法如下:①針對每個學習資源d∈D,構建對應的特征向量vd。②對于每個抽取的內容屬性t∈T,計算這一屬性在d中出現的頻率f(d,t)以及在D中出現的文檔頻率df(t)。③使用TF-IDF 加權方法對f(d,t)進行加權,得到屬性權重w(d,t),見式(3)。

式(3)中tf(d,t)為學習資源d中屬性t出現的頻率,idf(t)為屬性t的逆文檔頻率,,其中N為學習資源庫D中的總文檔數。④將所有屬性的加權結果w(d,t)組成一個向量vd,即vd=[w(d,t1),w(d,t2),…,w(d,tn)],其中n為屬性集合T的大小。⑤將vd歸一化,即除以向量長度‖vd‖,得到歸一化后的學習資源特征向量vd_norm,即。⑥將歸一化后的學習資源特征向量vd_norm加入特征向量集合V中,輸出特征向量集合V,其中每個學習資源d對應一個特征向量vd_norm。

4) 相關度計算及推薦結果生成。根據設定好的規則,計算用戶特征向量和學習資源向量的相關度。在推薦系統中,當計算出用戶特征資源與學習資源之間的余弦相似度后,可以將相似度最大的學習資源推薦給用戶,作為該用戶可能感興趣的學習資源。最后,將計算出來的相關度進行排序,選取前幾個相關度高的學習資源,生成推薦列表向用戶展示。

1.2 基于多維度關聯的推薦策略

在第二階段,采用基于多維度關聯的推薦策略對推薦結果進行更新和優化。多維度關聯推薦策略是指將多個維度的信息進行整合,從而提高系統的推薦精度和效率。多維度關聯推薦策略包括基于用戶興趣偏好、時間因素、社交網絡等維度的推薦?;谟脩襞d趣偏好的推薦是指根據用戶的歷史行為和偏好,向用戶推薦類似的學習資源。[8]多維度關聯推薦策略的目標是整合多個維度的信息,從而提高推薦系統的準確性和效率。這種策略需要根據不同的場景和應用,選擇合適的維度和算法進行推薦。具體來說,需要進行學習行為記錄和用戶檔案更新,以及用戶和資源的聚類和分類,最后根據聚類和分類結果進行推薦結果生成和優化。這一階段,推薦系統會根據用戶的學習活動和評價反饋更新用戶檔案和學習行為記錄,以便更好地了解用戶的個性化需求[9]和學習興趣。推薦系統將用戶行為和反饋信息存儲到學習行為記錄數據庫中,并將這些信息用于調整用戶模型和資源模型,以便更好地為用戶提供個性化的推薦服務。

1) 學習行為記錄和用戶檔案的更新。將新的學習行為和反饋信息添加到學習行為記錄數據庫中,并使用這些信息來更新用戶檔案和學習行為記錄。例如,記錄用戶觀看的視頻或完成的任務,根據這些行為分析用戶喜好和偏好,以更好地理解他們的學習需求和興趣。在本文中,用戶數據的更新過程為:①通過推薦系統的前端頁面,實時監測用戶在學習平臺上的行為,例如觀看視頻、完成練習等情況。②將用戶的行為記錄下來,包括觀看的視頻名稱、視頻的播放時間、完成的練習名稱、練習的得分等。③通過對用戶行為的記錄進行分析,獲取用戶的興趣和偏好,例如用戶偏愛哪些類型的視頻,在哪些練習上表現更好等。④將用戶的個人信息和學習行為記錄整合到用戶檔案中,包括用戶的基本信息(年齡、性別、學習能力等)和學習行為記錄(觀看歷史、評價記錄等),并更新這些信息。⑤將用戶的行為記錄和檔案信息存儲到學習行為記錄數據庫中,以便后續分析和推薦服務使用。⑥基于用戶的學習行為記錄和個人信息,更新用戶模型,以便更好地理解用戶的個性化需求和學習興趣。使用機器學習算法分析用戶的行為記錄,預測用戶在未來可能感興趣的學習資源,并對用戶的興趣和偏好進行分類和聚類。

2) 用戶聚類和資源分類。聚類算法是將具有相似特征的用戶或資源歸為同一組的過程,對于用戶的聚類,可以使用基于行為的聚類方法,將具有相似學習行為的用戶歸為同一組。本文主要采用K-means聚類算法,它是一種無監督學習算法,用于將一組數據分成K個類別,基本思想是通過最小化每個數據點與其所屬聚類中心的距離來劃分數據。K-means 聚類算法的公式為:,其中J為聚類效果的評估指標,K為聚類的個數,Si為第i個聚類,x為數據點,ci為第i個聚類的中心點。使用K-means 聚類算法對用戶的瀏覽歷史、學習記錄和評價記錄進行聚類,從而將具有相似學習行為的用戶歸為同一組,這樣可以更好地理解用戶的興趣和需求,使推薦系統能提供更精確的推薦服務。

分類算法是將用戶或資源分為不同的類別,本文主要使用樸素貝葉斯算法對學習資源的文本內容進行分類,以便對相似的資源進行推薦。具體的分類步驟如下:①收集學習資源的文本內容數據,并劃分為訓練集和測試集。②對訓練集中的文本內容使用中文分詞工具Jieba[10](結巴分詞)進行分詞處理,去除停用詞和標點符號,得到詞語列表。③根據訓練集中的分類標簽,計算每個類別下各個詞語的出現頻率,得到每個類別的詞語頻率列表。④根據訓練集中的分類標簽,計算每個類別的文檔數量、總文檔數量以及每個詞語在所有文檔中出現的總次數和總詞語數。⑤根據貝葉斯公式,計算每個詞語在每個類別下的條件概率,并計算每個文檔屬于每個類別的概率。⑥對測試集中的每個文檔進行分詞處理,根據概率值將文檔分至最有可能的類別里。⑦根據分類結果推薦與測試集中文檔相似的資源給用戶。

3) 推薦結果生成和優化。根據用戶聚類和資源分類的結果,可以針對不同的用戶和資源群體生成不同的推薦結果。對于具有相似學習行為的用戶群體,可以推薦具有相似內容的學習資源。對于具有相似內容的資源群體,可以推薦給具有相似興趣愛好的用戶。推薦系統將根據用戶的反饋信息持續優化推薦結果,當用戶對推薦結果進行評價時,根據評價信息對推薦結果進行調整和優化,以進一步提高推薦服務的準確性和個性化程度。同時,推薦系統將對用戶的反饋信息進行分析,進一步了解用戶的需求和興趣,以提供更加有針對性的推薦服務。

2 試驗與分析

2.1 數據集

本文使用了Coursera[11]在線學習平臺的公開數據集,其中包含用戶的個人信息、學習行為記錄和學習資源的屬性信息,并從中選取了10 萬條學生行為數據和1 000 個課程資源作為訓練數據。

2.2 試驗結果

對基于關聯規則和基于多維度關聯的推薦服務策略的效果進行對比試驗,結果見表1,其中用戶行為數據是指用戶的學習行為(包括資源點擊率、觀看時長、學習資源類別偏好),用戶反饋數據是指用戶對推薦結果的評價和滿意度。由表1 可知,實驗組B(基于多維度關聯的推薦策略)相較于實驗組A(基于關聯規則的推薦策略),在點擊率、觀看時長和滿意度等指標上表現更好,故基于多維度關聯推薦策略的推薦服務能夠根據用戶的學習行為和反饋信息更準確地提供個性化的推薦結果。

表1 基于關聯規則的和基于多維度關聯的推薦策略對比試驗

3 結語

本文所提出的模型可以應用于各種在線學習平臺、教育培訓機構、企業內部培訓等場景,幫助用戶快速找到符合自己個性化需求的學習資源,提高學習效率和學習興趣,后期可以通過不斷改進和優化提高推薦的準確性和效率。

猜你喜歡
特征向量關聯聚類
二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
克羅內克積的特征向量
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“一帶一路”遞進,關聯民生更緊
一類特殊矩陣特征向量的求法
奇趣搭配
基于DBSACN聚類算法的XML文檔聚類
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
基于高斯混合聚類的陣列干涉SAR三維成像
智趣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合