基于K-Means聚類的在線學習用戶個性化分類

2021-04-08 06:32郭飛雁

數字傳媒研究 2021年12期

郭飛雁

湖南電氣職業技術學院湖南省湘潭市 410000

1 前言

《教育信息化2.0 行動計劃》是加快實現教育現代化的有效途徑，是“教育現代化2035”的重點內容和重要標志。教育信息化2.0 行動計劃中明確指出，人工智能、大數據、區塊鏈等技術迅猛發展，將深刻改變人才需求和教育形態。如何利用人工智能提供個性化學習環境及服務已成為當前教育研究者關注的焦點［1］。個性化學習研究主要集中在根據學生不同的學習風格、認知風格等為其提供不同形態的學習資源及個性化的教學方法。但在實施個性化教學前對學生進行個性化分類是我們首先需要解決的一個問題。近年來，隨著各種在線學習平臺的層出不窮，越來越多的研究者將研究重點定位到利用在線學習平臺上的大量學習行為數據進行分析，實現基于大數據的在線學習用戶個性化分類，從而實現個性化學習資源推送，達到個性化教學的目的［2］。

因此，我們基于在線學習用戶相關學習數據，采用KMeans 聚類方法建立在線學生用戶模型，進行學生用戶進行個性化分類，對不同的學生用戶類別進行特征分析，比較不同類學生用戶特征，對不同類學生用戶提供個性化服務，制作相應學習策略，實現精準推薦學習，因材施教，從而提高在線學習用戶參與度，達到在線學習效率最大化目標［3］。

2 在線學習用戶IFLPT分類模型

明確在線學習用戶分類目標為在線學習愛好特征分類，識別用戶分類應用最廣泛的模型是三個指標（學習時間間隔（Interval），學習互動頻率（Frequency），學習時長（Length），以上指標簡稱IFL 模型，作用是識別不同類型的在線學習用戶?？紤]到在線學習資源類型多樣化，用戶對學習資源類型的個性化偏好在一定程度上影響學習時長，所以增加指標個性化偏好P （Preferences）。同時，在線學習用戶訪問學習資源類別也代表了用戶的個人喜好，因此再增加指標訪問學習資源類型T（Types）。通過學習時間間隔（Interval），學習互動頻率（Frequency），學習時長（Length），個性化偏好P（Preferences）及訪問學習資源類型T（Types）以上五個指標，作為在線學習用戶分類指標體系，記為IFLPT 模型。

傳統的IFL 模型，依據三個屬性的平均值進行劃分，但由于細分用戶群太多，在線個性化教學的成本太高［4］。因此，我們采用聚類法對在線學習用戶進行分類，以IFLPT 模型為基礎，總體流程如圖1 所示。

圖1 在線學習用戶數據挖掘建?？傮w流程

在線學習用戶數據挖掘建?？傮w流程中，我們首先從在線學習平臺選擇性抽取已產生數據，并對新增數據進行抽取，形成歷史數據和增量數據。對歷史數據和增量數據進行數據探索性分析和預處理，主要對有缺失值與異常值的數據進行分析處理，主要操作為屬性規約、數據清洗和數據變換。在已處理完畢的規則化數據基礎上，建模數據，基于IFLPT 模型進行學生用戶分群，對各個用戶群進行特征分析，從而實施個性化推薦。

3 基于IFLPT模型的在線學習用戶分類

3.1 數據預處理

通過在線學習平臺“超星泛雅”導出《網頁設計與制作》在線學習精品課程相關數據，選擇寬度為1 個月的時間段作為觀測窗口，抽取觀測窗口內所有在線學習用戶的詳細數據，形成歷史數據，對于后續新增的在線學習用戶信息，采用目前的時間作為重點，形成新增數據。在兩個數據基礎上對數據進行缺失值和異常值分析，查找每列屬性值中空值的個數、最大值及最小值，并對數據集進行數據清洗，丟棄空值、學習時長過短或學習頻率低的相關記錄。同時，由于原始數據中屬性太多，根據在線學習用戶IFLPT 分類模型，選擇與模型相關的五個屬性，刪除其他無用屬性［5］。

通過學習時間間隔（Interval），學習互動頻率（Frequency），學習時長（Length），個性化偏好P（Preferences）及訪問學習資源類型T（Types）以上五個指標，作為在線學習用戶分類指標體系，記為IFLPT 模型。數據清洗完畢后采用數據變換的方式為方便屬性構造和數據標準化，將原始數據轉換成相應的格式，構造IFLPT 的五個指標如表1 所示。

表1 IFLPT 模型指標說明

3.2 IFLPT 模型構建

采用K-Means 聚類算法對在線學習用戶數據進行分群，聚成五類，代碼如圖2 所示。

圖2 K-Means 聚類代碼

分類結果如圖3 所示。用戶群1：red，用戶群2：green，用戶群3：yellow，用戶群4：blue，用戶群5：purple，橫坐標上總共有五個節點，按順序對應IFLPT。對應節點上的用戶群的屬性值，代表該客戶群的該屬性的程度。

圖3 在線學習用戶分析

3.3 分類結果分析

我們重點關注I、F、L 三個屬性，從圖3 中可以看到：紅色線代表的用戶群1 的I 較低，F、L 都很高，表示該類用戶群是學習主動的用戶；綠色線代表的用戶群2 的I 較高，F、L 都很低，表示該類用戶群是懶散型的用戶；黃色線代表的用戶群3的I、F、L 值都居中，表示該類用戶群會經常登錄在線學習平臺，但學習時長居中，屬于普通型；藍色線代表的用戶群4 的I、F、L 值都不高，但P 值較高，說明該類用戶只對某類學習資源感興趣，屬于專業型；紫色線代表的用戶群5 的I 值低表示會經常登錄學習平臺，但F、L 各類值都較低，屬于學習不主動型。

對于不同類型的學習用戶群我們采取不同的策略對用戶進行在線學習干預實施，從而達到最佳的在線學習效果［6］［7］。如表2 所示。

表2 在線學習干預策略

4 小結

本文結合在線學習平臺“超星泛雅”中《網頁設計與制作》在線課程案例，重點介紹了數據挖掘算法中K-Means 聚類算法的應用。針對傳統IFL模型的不足，結合在線學習案例進行改造，設定了五個指標的IFLPT 模型。最后通過聚類的結果，對在線學習用戶進行分類，從而制定相應的在線學習干預策略，提高在線學習效率。