?

基于核Fisher判別分析的高職學生考試成績預測

2016-11-03 10:48楊東海胡凌錢瑩
中國教育信息化·基礎教育 2016年8期
關鍵詞:高職教育

楊東海+胡凌+錢瑩

摘 要:高職教育中對學生考試成績的預測,可以幫助教師提前評估教學效果,優化課程設計,從而提高學生考試成績和教學質量。文章基于核Fisher判別分析,搭建了高職學生期末考試成績預測模型,以學生自身特點和平時表現等構成模型輸入變量的維度信息,來預測學生是否可以通過期末考試。實驗中以深圳信息職業技術學院學生作為研究分析對象,考察建立模型的預測精度,并與經典算法進行了比較。實驗結果證明,核Fisher判別分析具有良好的泛化能力,其預測精度與支持向量機相近,但優于C4.5決策樹方法。

關鍵詞:核Fisher判別分析;高職教育;考試成績預測

中圖分類號: TP391 文獻標志碼:A 文章編號:1673-8454(2016)16-0076-04

一、引言

隨著國家“十三五”規劃的順利進行,加快發展職業教育已經越來越成為國家、社會和教育界的共識,高職院校不可避免的成為了培養實用技能型人才的主要基地。隨著高職招生人數的不斷擴大,以及社會還沒有擺脫對職業教育的傳統觀念,高職院校的生源質量每況愈下。一部分學生的基礎知識較差,學習新知識的意愿不強,無論在課堂上與老師的互動,還是課下的平時作業完成情況,都不盡如人意,使得教師很難在真正考試之前評估教學效果,從而造成教學質量下降。因此,如何提高高職學生的學習成績,成為社會和學校都關注的問題。在教學過程中、期末考試之前,有針對性的建立模型預測考試成績,提前評估教學效果,可以起到預警的作用。對那些有可能不及格的學生及時糾正其不良學習行為,并進行單獨輔導,則有助于提高學生成績,減少不合格現象,進而提高學生培養質量,優化課程設計,促進教師教學進步。

正是意識到學生成績預測對提高教學質量、促進教學改革的重要性,國內一些學者在幾年前就已經開始對該領域展開研究。大部分學者將成績預測視為分類問題,于是多采用數據挖掘或機器學習領域的算法,如決策樹、人工神經網絡、支持向量機等來建立模型。其中,決策樹方法因為理論發展成熟、易于理解等優點,被廣泛用于大學生英語成績預測[1]、大學生計算機等級考試成績預測[2]、一般性課程的成績預測[3, 4]等;而人工神經網絡和支持向量機也因為扎實的理論基礎和廣泛應用,被用于大學生課程成績預測[5,6],并取得良好的效果。

核Fisher判別分析作為基于核函數的機器學習算法的典型代表[7],其分類效果在其他模式識別和預測領域得到了很好的驗證[8,9]。學者們前期的研究成果表明,決策樹、神經網絡和支持向量機方法在學生考試成績預測方面均取得了不俗的成績。但是到目前為止,我們尚未發現有學者應用完整的核Fisher判別分析進行大學生成績預測的系統報道(雖然有學者利用線性Fisher判別分析對SVM模型中的數據因素進行加權[6])。因此,本文提出利用核Fisher判別分析作為工具,嘗試尋找學生學習屬性與成績之間隱含的非線性復雜關系,從而建立高職在校學生期末考試成績預測模型。實驗分析中以深圳信息職業技術學院物流管理專業2015級3個班級的學生作為研究對象,采用學生性別、生源地、考勤表現和平時作業成績等作為模型的輸入變量,來預測學生的期末考試成績。實驗結果證明,核Fisher判別分析的泛化能力強,其預測精度與支持向量機十分接近,并且優于C4.5決策樹方法。

二、核Fisher判別分析

核Fisher判別分析[7]是基于核函數的機器學習算法中的一種,其結合了線性Fisher判別分析與核函數的思想,能夠有效地解決現實中的分類問題[8, 9] 。

1.線性Fisher判別分析原理[10]

線性Fisher判別分析是一種有監督學習的分類方法。給定一組d維空間的樣本數據x∈R(i∈1,2,.....n),n為樣本數據集的大小,他們分別屬于不同的兩類,則樣本類別標識記為yi∈{1,2}。屬于類1的n1個樣本記為X1={x11,x12,......x1},屬于類2的n2個樣本記為X2={x21,x22,......x2}。算法“學習”或者“訓練”的過程,就是要找到樣本數據與其類別隱含的內在關系模式x→y。線性Fisher判別分析構造學習模型的核心目標是尋找一個d維向量w∈R,當樣本數據向該方向投影時,最大化類間散度和類內散度的比值,使得樣本數據在這個方向上盡可能的分開,達到清楚辨識的目的。定義某一類樣本(i=1,2)數據類內均值為:

2.核Fisher判別分析原理

線性Fisher判別分析是一種線性分類器,當樣本數據與類別呈現線性關系時其分類效果會很好。但是實際問題中,樣本數據與其類別的關系往往呈現出復雜的非線性,則線性Fisher判別分析的分類效果就會差強人意,而且也無法解決模式識別中常見的維數災難問題。在支持向量機中成功應用的核函數的出現解決了這個問題[11, 12]。核函數首先將數據從低維的輸入向量空間R映射到高維(甚至是無限維)的特征空間,即φ:R→。通過某些核φ(·),映射可表示為xi→φ(xi)=(a1φ1(xi),……,amφm(xi),……)。在這個高維的特征空間中應用線性Fisher判別分析,在特征空間得到的線性分類器通過核映射回原始的輸入數據空間R時,就得到了非線性分類器。

基于線性Fisher判別分析的原理,核Fisher判別分析在特征空間要尋找w∈,使得下式F(w)最大化:

三、實驗及分析

為了評估本文提出的基于核Fisher判別分析的預測模型的實際效果,我們將深圳信息職業技術學院物流管理專業2015級3個班級共151名學生作為研究對象,收集第一學年某門專業基礎課的期末考試成績及相關因素作為模型的輸出和輸入變量。預測模型的輸入變量(樣本屬性)應該與考試成績密切相關,我們選擇輸入向量時主要根據日常教學經驗反饋的以下幾點事實:①大學生個體的期末成績往往與其曠課、遲到次數(出勤反映學習態度)負相關,與平時作業成績(平時作業代表學習態度和對知識的理解程度)正相關;②本專業學生的自有特點是女同學平均成績比男同學略勝一籌;③深圳市外生源較市內生源入學平均成績高。因此,我們選擇學生的性別、生源地、出勤表現和平時作業成績作為樣本的屬性變量,具體總結如表1所示。

此外,將所有學生分為兩類,期末考試成績大于等于60分記為“合格”,否則記為“不合格”。數據集中的部分樣本示例如表2所示。

我們在MATLAB環境中編寫核Fisher判別分析的實現代碼,并裝載收集到的原始數據集進行實驗研究。為了比較核Fisher判別分析對高職學生成績的預測效果,我們還測試了支持向量機SVM算法和C4.5決策樹方法,這兩種方法同樣在MATLAB環境中實現。在核Fisher判別分析和SVM建模時,為了防止樣本中某個維度的數值過大而在核函數計算中淹沒其他維度數據的作用,我們先對原始數據進行預處理,即將原始數據標準化在[-1,+1]的范圍內。在使用C4.5決策樹建模時,因為其能夠同時處理連續值和離散值的屬性,訓練和測試過程不受數據大小的影響,所以C4.5方法實現中仍舊保持原始數據,不進行額外處理。

由于實驗用的原始數據集較小,如果簡單地分為訓練和測試兩個數據集合,評估效果容易出現偏差。為了能夠全面反映各種算法預測的精度,我們對整個樣本數據進行多次劃分,每次從全體數據集中選擇10%的數據作為測試數據,其余數據用于訓練模型和確定最優參數。此外,核Fisher判別分析和SVM均采用RBF徑向基核K(xi,xj)=exp(-γ||xi-xj||2)作為核函數,其中γ是核參數。由于訓練得到的模型的泛化能力高度依賴于核函數參數、正則化參數或懲罰系數的選擇,因此選擇最優的參數很有必要。在實驗中,核Fisher判別分析的正則化參數設為δ=10-3,核Fisher判別分析和SVM中用到的核參數γ和懲罰系數由10-交叉驗證網格搜索法來確定[13]。在最優參數設置下對測試樣本數據進行預測,每次測試的準確率定義如下:

準確率=×100%(14)

實驗的結果是進行十次測試的平均值,如表3所示。

從實驗結果可以看出,基于核函數方法的核Fisher判別分析和SVM預測精度相近(其中核Fisher判別分析預測準確度的平均值略微高于SVM),這一點與兩者在標準數據集上的測試結果一致[7],但是兩者的預測精度都明顯高于C4.5決策樹算法。C4.5決策樹方法訓練模型時,主要采用信息增益率作為選擇根結點和各內部結點中分支屬性的評價標準,訓練速度快,得到的模型直觀性強,規則易于被使用者理解。但是決策樹方法在訓練集上的預測效果往往優于測試集,即容易出現過擬合的現象。核Fisher判別分析和SVM利用的核函數將數據從低維的輸入空間映射到高維的特征空間,在特征空間都基于各自的分類原理構建線性分類器使得兩類數據集盡可能的分開,得到的線性分類器經過核函數映射回輸入空間后,即成為非線性分類器。因此,核Fisher判別分析和SVM得到的預測模型泛化性能良好,能夠挖掘出輸入樣本屬性與其類別之間隱含的非線性復雜關系。另外,本文用到的原始實驗數據采集自學生的實際情況,其中包含著一部分不完全、有噪聲的數據,比如有些學生學習能力強、成績突出,但是有個別作業沒有提交或是遲到的情況,卻依然會通過考試。噪聲數據會使得決策樹方法產生的過擬合現象更加嚴重,減小了泛化能力,從而影響測試效果。與之對應的是,核Fisher判別分析和SVM分類的基本原理保證了盡可能將噪聲數據的影響降到最低,所以會取得較好的預測效果。

四、結束語

在我國的長期規劃中,高等職業教育受到越來越多的重視?;谀壳案呗毥虒W和生源的自有特點,建立準確的學生考試成績預測模型,能夠幫助教師提前評估教學成果,改進教學方法,對提高教學質量具有非常重要的意義。本文在MATLAB環境中建立了基于核Fisher判別方法的學生考試成績預測模型,可以在期末考試之前,根據學生的自身特點和平時表現來預測其成績。在以本校高職學生為研究對象的實驗中,核Fisher判別方法取得了良好的預測效果,可以成為一線教師提高教學的有力工具。同時,只要能夠正確地選擇輸入變量的屬性,該模型可以被直接推廣到一般本科院校的學生考試成績預測中,同時也為后續建立教育信息化決策系統打下基礎。

在后續的研究中,可以在兩個方面進行進一步的拓展。第一,在實際情況中,經常會出現通過考試的學生數量遠遠超過未通過考試的學生數量,使得不同類別的原始采樣數據數量不平衡,這有可能影響模型的泛化能力。未來可以考慮如何針對不平衡數據集進行訓練和測試。第二,本文建立的分類模型,僅僅可以根據輸入向量來預測學生是否通過考試,而不能預測學生具體的考試分數。期望以后能夠應用基于核函數的回歸分析算法[11],進行學生成績的分數預測。

參考文獻:

[1]孫力,程玉霞.大數據時代網絡教育學習成績預測的研究與實現——以本科公共課程統考英語為例[J]. 開放教育研究,2015(3): 74-80.

[2]黃振功.決策樹在高校計算機等級考試成績分析的應用[J].科技資訊,2013(25):18-19.

[3]武彤,王秀坤.決策樹算法在學生成績預測分析中的應用[J].微計算機信息,2010(3): 209-211.

[4]于立紅,張建偉.基于數據挖掘的高職生成績分析與預測[J].鄭州輕工業學院學報,2006(3): 77-79.

[5]邱文教.基于人工神經網絡的學習成績預測[J].計算機與信息技術,2010(4): 5-6.

[6]李建萍.基于加權支持向量機的學習成績預測模型[J].中國科教創新導刊,2009(14): 137-138.

[7]Mika S, R tsch G, Weston J, et al. Fisher discriminant analysis with kernels[C]. Neural Networks for Signal Processing IX, 1999. Proceedings of the 1999 IEEE Signal Processing Society Workshop.

[8]李建云,邱菀華.核Fisher判別分析方法評估消費者信用風險[J].系統工程理論方法應用,2004(6): 548-552.

[9]李映,焦李成.基于核Fisher判別分析的目標識別[J].西安電子科技大學學報, 2003(2):179-182.

[10]Bishop C.Pattern Recognition and Machine Learning[M]. Springer Science & Business Media, 2006.

[11]Vapnik V.The nature of statistical learning theory[M]. Springer Science & Business Media, 2013.

[12]Mercer J. Functions of positive and negative type, and their connection with the theory of integral equations[J]. Philosophical transactions of the royal society of London. Series A, containing papers of a mathematical or physical character,1909, 209: 415-446.

[13]Chang C, Lin C. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011, 2(3): 27.

(編輯:魯利瑞)

猜你喜歡
高職教育
職業高校職業思想道德重要性探析
工業分析與檢驗專業專業基礎課課程教學改革研究與實踐
淺談素質拓展訓練對提高高職學生綜合素質的作用
高職軟件技術實訓考核評價標準構建
高職院校新開設無人機專業的探討
“營改增”對高職會計教育的影響及對策研究
人文主義視野下的高職教育研究
淺析高職院校學生厭學現象及應對措施
論高職生未來職業發展
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合