?

基于SVM算法的學生學習行為聚類分析

2018-10-19 16:09楊子恒
科學與財富 2018年25期
關鍵詞:數據挖掘向量函數

摘要:針對數據挖掘算法以及在解決在線學習領域中解決復雜問題的優勢及不足,本文提出一種基于支持向量機SVM算法的學生學習行為聚類算法,并將基于隨機森林模型下的基尼指標特征加權的支持向量機方法應用于學生學習行為分析中。從而改善了SVM算法在分類識別方面性能,并且驗證了采用數據挖掘算法應用到分析學生學習行為是可行的,并且具有較高的準確性。

關鍵詞:SVM;學習行為聚類

1 引言

隨著計算機網絡技術的不斷發展和互聯網應用的普及,信息技術正在不斷地改變我們傳統的教育教學模式。數據挖掘于2003年正式開啟開發和研究工作,美國的七所頂尖院校的研究人員共同提出了“數據挖掘VGrADS和網格虛擬化”的項目,之后Amazon、Giftag、Saleforce.com以及IBM都使用數據挖掘來提高自己在業界的競爭力。例如,Google以企業搜索、應用托管等形式向企業提供Google開放云,而Microsoft推出了Live Mesh這種網絡管理和數據存儲軟件來與Google競爭。在2006年Amazon推出了彈性計算云和簡單存儲服務,是建立在2004年Amazon提出了MechanicalTurk、簡單隊列服務等數據挖掘服務雛形之上的。在2008年,IBM提出了公有云和私有云的定義。而Apple公司近年來也相繼推出iTunes服務以及MobileMe服務等,標志向數據挖掘開始進軍。從而采用數據挖掘技術進行學生學習行為分析將十分有必要,并且會迅速掀起了一場全球范圍的教育技術革命,得到了教育界、高校教師和學生以及社會受眾的普遍歡迎。

2 改進的支持向量機SVM

特征加權支持向量機由核函數經特征加權構造的支持向量機。并且特征加權核函數的定義為:

若Kp是定義在X*X(X∈Rn)上的核函數, p是已知的待輸入集的n階線性變換矩陣,其中n為待輸入集的維數。特征加權核函數Kp定義為

(1)

由于在隨機森林(RandomForest)模型中可以根據Gini指標來確定每個樣本自變量對應變量的影響程度,即確定樣本量中特征屬性的重要性,并且本文將特征加權核函數的 值進行優化,用此Gini指標確定樣本特征的重要性之后,構造了在RandomForest模型下的Gini指標特征加權的支持向量機,即為改進的支持向量機SVM。

改進支持向量機SVM算法的詳細步驟如下:

Step1.確定樣本集S,即為:

其中x(i)為特征變量,y(i)為類別量。

Step2.在隨機森林模型下計算各個特征變量的Gini指標,標準化各個指標參數,并以所得指標參數對其相應的特征屬性加權,構造加權的特征向量: 來優化核函數中的原始特征內積。

Step3.構造待輸入空間的線性變換矩陣 (也可以是一個數據向量或者是一稀疏矩陣),以p建立特征加權的核函數Kp。

Step4.對所建立的核函數Kp進行有效性判定;如果假設K是正定的,則根據定義有:

(2)

Step5.應用所構造的特征加權的核函數 在程序設計中替換傳統的支持向量機SVM模型中的線性核函數,并且輸出核心的SVM構造分類器,與此同時,對構造的改進的支持向量機SVM算法進行性能測試。

3 實驗與結果分析

為了驗證所提出方法的可行性及實用性,本文學生進行了實驗,該數據集的原始樣本共有699行數據,10列特征屬性,在 R語言的R-Studio環境中對其進行數據清洗預處理,消除了其中缺失以及不完整的樣本,得到683行10列數據集。然后在隨機森林模型中用VarImpPlot()函數包對清洗后的數據進行特征分析。本文將以上三種算法在學生數據庫中的多個在線學習學生學習行為分析數據集上進行了實驗,將數據集分別應用前面所提到的SVM, FWSVM, 改進的支持向量機SVM三種算法在MATLAB 2014a環境中進行仿真實驗,其統計結果如圖1所示:

UCI在線學習學生學習行為分析數據集對比實驗結果的分析如圖1所示,在這五個分析數據上,可以看出本文所提出的改進的支持向量機SVM算法算法平均的識別性能相對最高,而經典的SVM算法的識別性能最差,但總體而言,本文所提出的改進的支持向量機SVM算法在在線學習中識別的正確率最高,效果最為明顯。

綜上實驗數據可知,本文提出的基于隨機森林模型下Gini指標的特征加權支持向量機算法的的正確率相對更高,分類性能相對更具優勢。

4總結

本文通過分析數據挖掘算法以及在解決在線學習領域中復雜問題的優勢及不足,提出一種基于支持向量機SVM算法的學生學習行為聚類算法,并將基于隨機森林模型下的基尼指標特征加權的支持向量機方法應用于學生學習行為分析中。從而改善了SVM算法在分類識別方面性能,而且驗證了采用數據挖掘算法應用到分析學生學習行為的可行性以及準確性,實驗結果表明,本文所提出的改進的支持向量機SVM算法在在線學習中識別的正確率最高,效果最為明顯。

參考文獻:

[1] 黃晟. 基于變電站為中心的配電網電壓態勢圖片圖形特征的態勢評估模型及算法[D]. 杭州電子科技大學, 2017.

[2] 許國棟. 半監督學習框架下基于圖的SVM分類算法研究[D]. 北方民族大學, 2017.

楊子恒(1986.9-),男,漢族,原籍湖南常德,香港中文大學信息工程系碩士研究生,現任天津華泰克數碼科技有限公司總經理,主要從事政府和企事業單位信息化建設方面的工作。歷經公安、大型醫院、高職院校等多處的重大信息化建設項目的管理工作,對大數據、虛擬現實、網絡及音視頻、安全防范技術等方向有較深的設計及實施經驗。

猜你喜歡
數據挖掘向量函數
向量的分解
二次函數
第3講 “函數”復習精講
聚焦“向量與三角”創新題
探討人工智能與數據挖掘發展趨勢
二次函數
函數備考精講
基于并行計算的大數據挖掘在電網中的應用
向量垂直在解析幾何中的應用
一種基于Hadoop的大數據挖掘云服務及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合