?

利用隨機森林算法對學生成績評價與預測研究

2020-04-14 04:54吳興惠周玉萍邢?;?/span>
電腦知識與技術 2020年4期
關鍵詞:隨機森林預測

吳興惠 周玉萍 邢?;?/p>

摘要:對學生成績數據的挖掘,尋找成績數據中潛在的知識和信息,對教學質量的提高有著積極的指導意義。本文提出一種自學習分類算法(隨機森林),以某校學生成績為數據對象,對數據中前期成績進行分析,預測后期專業課的平均成績。并對得到的課程重要性排序結果,對學生上課時能夠進行針對性的講解有一定的輔助作用。

關鍵詞:隨機森林;成績分析;預測

中圖分類號:TP181

文獻標識碼:A

文章編號:1009-3044(2020)04-0254-02.

收稿日期:2019-10-25

基金項目:海南省教育科學規劃課題:基于一種自學習分類算法的學生成績評價研究(QJY20181071)作者簡介:吳興惠(1975—),女,海南儋州人,海南師范大學副教授,碩士,從事計算機應用研究。

衡量一個學生掌握在校期間所學的知識的好壞主要看學習成績,因此如何科學合理的對學生成績進行評價也是作為評估課堂教學質量好壞的一個很重要的依據之一。通過學生前期學習的成績來預測后期的成績,對教學質量的提高有一定的促進作用。

目前,已有很多學者對學生成績進行預測做了研究。采用密度全局K-means算法對學生數據進行聚類分析,挖掘影響學生成績的相關因素,并對學生成績進行預測分析[1]。構建結合決策樹和LMBP神經網絡算法的分析預測模型,并應用于教育數據挖掘中,可以實現學生成績分析及預測[2]。采用數據分類中的C5.0算法,以該分數區間為預測目標,構建了成績的細分預測規則,實現了成人學位英語考試的成績細分預測系統[3]。對于學生成績評價,有提出的基于主成分分析法對學生成績進行綜合評價[4],也有對影響學生成績因素的重要性進行排序的研究。

自學習分類算法(隨機森林算法)是一種集成學習算法,是利用多個決策樹對樣本進行訓練、分類并預測。主要應用于分類和回歸。因此隨機森林被應用于很多領域。許允之把隨機森林算法應用到環境保護中,用其預測徐州霧霾情況,最后分析和闡述了徐州對霧霾的治理措施。結合隨機森林與端梯度提升算法,并使用十折交叉驗證確定最佳的預測模型,應用于預測冠心病住院費用[6]。結合深度學習與隨機森林算法提出一種大數據特征選擇算法,設計基于隨機森林的特征消除算法,對高維大數據集進行特征降維處理[7]。針對構建智慧校園學生畫像的數據缺失與高維特征問題,引入外部數據彌補缺失的數據,輔助用戶建模,提出一種基于隨機森林的雙向特征選擇算法(RFBFS)解決高維特征問題[8]。這些研究沒有將隨機森林算法應用于學生成績進行評價研究分析。

本文提出一種自學習分類算法-隨機森林分類算法預測學生成績,并通過實驗說明該算法在對學生成績數據預測上的有效性,希望該算法在教學管理能起到積極的改進作用。

1 隨機森林算法

1.1 決策樹

決策樹是基于樹結構來進行決策的一種算法。它是一樹狀結構,它從根節點開始對數據樣本(由實例集組成,實例有若干屬性)進行測試,根據不同的結果將數據樣本劃分成不同的數據樣本子集。每個數據樣本子集構成一子節點。生成的決策樹的每個葉節點對應一個分類。它有ID3、C4.5、CRAT、SLIQ等。一棵決策樹的生成過程主要有3個部分,即特征選擇、決策樹生成和剪枝。其中最關鍵的問題是特征選擇,不同的分裂標準對決策樹的泛化誤差有很大的影響。ID3決策樹算法是根據信息論的信息增益來進行評估和特征選擇的,C4.5決策樹算法是用信息增益率來選擇特征的,CRAT決策樹算法采用的是Gini指數來進行選擇的。

1.2 隨機森林

隨機森林在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入隨機屬性的選擇。隨機森林算法簡單、易于實現、計算開銷小,在很多現實任務中展現出強大的性能。

隨機森林分類是由很多決策樹分類模型組成的組合分類模型,每個決策樹分類模型都有一票投票權來選擇最優的分類結果。隨機森林分類的基本思想:首先,利用bootstrap抽樣從原始訓練集抽取k個樣本,每個樣本的樣本容量都與原始訓練集一樣;然后,對k個樣本分別建立k個決策樹模型,得到k種分類結果;最后,根據k種分類結果對每個記錄進行投票表決決定其最終分類[9]。隨機森林構建主要包括以下3個步驟:

(1)為N棵決策樹抽樣產生N個訓練集。每一棵決策樹都對應一個訓練集,主要采用Bagging抽樣方法從原始數據集中產生N個訓練子集。

(2)決策樹構建。

決策樹的構建過程包括兩個步驟:先構建獨立的決策樹,然后多棵決策樹形成“森林”,在每棵樹的生長過程中,由指數.最小原則選出M個特征變量中m個屬性中的最優劃分。節點分裂原則一般采用CART算法或C4.5算法。在隨機森林算法中,選中的屬性個數稱為隨機特征變量。

(3)隨機森林形成及算法執行。重復步驟(1)、(2),構建大量決策樹,形成隨機森林。算法最終輸出由多數投票方法實現,將測試集樣本輸入隨機構建的N棵決策子樹進行分類,總結每:棵決策樹分類結果,并將具有最大投票數的分類結果作為算法最終輸出結果[10]。

隨機森林示意圖如圖1所示:

2 基于隨機森林的學生成績評價

本文的實驗數據來自某高校2012級信息學院計算機系四個班的學生成績。用以上提出的隨機森林模型對學生前期成績數據建模,預測后期的專業平均成績。由預測結果得到各門課程的重要性。由此結果,教師在教學過程中可重點進行教學,提高教學質量,達到培養人才目的。

2.1 數據預處理

本文的數據來自某2012級信息學院256名學生8896條成績。由于采集到的數據是不完整的含有噪聲的冗余數據,因此需要對數據進行預處理。原始數據中的屬性個數很多,刪除一些不相關的屬性,如學年、學分、班級以及課程性等。采用分箱法對學生成績數據進行離散化處理。處理后的數據將分為五個等級,分別為:60分以下為不及格,60-70為及格,70-80為中等,80-90為良好,90-100為優秀。離散化后的數據如下表所示:

2.2 實驗驗證與結果分析

本實驗采用python語言平臺Anaconda3實現。首先構建了如圖2所示基于ESP_RF算法的學生成績評價模型結構。

首先,確定隨機森林模型中兩個重要參數:樹節點的變量個數mtry的值和樹的個數ntree。通過實驗得到,當決策樹數量取值大于400以后,錯誤率趨于穩定,以此將ntee值設為400。并從實驗得到當決策樹節點所選變量數為3的時候,模型的誤判率均值是最低的。實驗結果如圖3所示。

通過學生第一至第四學期的成績預測第五學期的專業課成績,并對影響下學期的課程進行排序。如圖4所示:

從以上實驗中可以得出:

1)這幾門課程中“數據結構”對學生專業學習課程的影響最大。其次是“數據庫原理”“WEB高級語言程序設計”“程序設計與算法訓練”“面向對象程序設計”和“數據結構課程設計”。

2)“電子技術基礎”“計算機科學概論”對學生成績影響較小。

根據實驗得到的模型中兩種自變量重要程序排序對比結果,實踐課成績對后期學生專業學習的影響較小,在今后的教學過程中,能夠有針對性地對學生教學有所傾向,為學生對后續課程的學習打好基礎。

本研究在對學生成績數據進行處理時,由于所收集到的數據存在缺失、多次補考值等問題,進行離散化處理后,得到的模型效果不是特別理想。也沒有過多考慮其他因素對成績的影響。在將來的研究中,可以考慮其他因素及與多種模型進行對比以得到更加準確的結果。

參考文獻:

[1]謝娟英.學生成績關鍵因素挖掘與成績預測[J].南京信息工程大學學報:自然科學版,2019(3):316-325.

[2]吳強.基于決策樹-LMBP神經網絡的學生成績分析及預測模型的研究[J].成都信息工程學院學報,2018(3):274-280.

[3]孫力,張凱.基于數據挖掘的網絡教育學習成績細分預測的研究與實現[J].中國遠程教育,2016(12):22-29.

[4]錢浩韻.基于主成分分析法的學生成績評價[J].南京工業職業技術學院學報,2017,17(4):21-24.

[5]許允之.基于隨機森林算法的徐州霧霾回歸預測模型[A].《環境工程》編委會、工業建筑雜志社有限公司.《環境工程》2019年全國學術年會論文集[C].《環境工程》編委會、工業建筑雜志社有限公司:《環境工程》編輯部,2019:6.

[6]夏濤,徐輝煌.基于機器學習的冠心病住院費用預測研究[J].智能計算機與應用,2019(9).

[7]馮曉榮.基于深度學習與隨機森林的高維數據特征選擇[J].計算機工程與設計,2019,40(9).

[8]楊長春.基于隨機森林的學生畫像特征選擇方法[J].計算機工程與設計,2019,40(10).

[9]呂紅燕,馮倩.隨機森林算法研究綜述[0].河北省科學院學報,2019,40(10).

[10]梁瓊芳,莎仁.基于隨機森林的數學試題難易度分類研究[J].軟件導刊,2019(9).

[通聯編輯:王力]

猜你喜歡
隨機森林預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
選修2—2期中考試預測卷(A卷)
不可預測
拱壩變形監測預報的隨機森林模型及應用
基于隨機森林算法的B2B客戶分級系統的設計
基于多視角特征融合與隨機森林的蛋白質結晶預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合