?

基于支持向量機的學位預警方法研究

2023-12-26 09:37李勁松潘子堯姚明海
吉林大學學報(信息科學版) 2023年5期
關鍵詞:學位預警樣本

王 娜,李勁松,潘子堯,姚明海

(渤海大學 a.信息科學與技術學院; b.數學科學學院,遼寧 錦州 121013)

0 引 言

在2019年中共中央、國務院于印發的《中國教育現代化2035》中明確指出,要“著力提高教育質量”,“加快信息化時代教育變革”,“利用現代技術加快推動人才培養模式改革,實現規?;逃c個性化培養的有機結合”[1]。因此,如何充分利用現有教育數據,探索其教育規律,并進一步提高教育質量已成為當前教育工作者們關注的焦點[2-3]?;跈C器學習、數據挖掘等方法的教育數據挖掘(EDM:Educational Data Mining)可以從與教育相關的各種數據中挖掘出有價值的信息,并對學習者產生和收集的相關數據進行分析和解釋,評估學習者的學習情況,預測其學習成績,最終根據學習狀態的預測結果進行學業預警,為教育決策提供依據[4-5]。

成績預測及預警作為EDM的熱門研究領域之一,通過構建有效的預測或預警模型及時發現成績可能不理想甚至有輟學風險的學生[6]。教師可依據模型輸出結果提供精確的教學指導,對提高教學質量具有重要的應用價值和現實意義,因此人們對其進行了大量研究。Chen等[7]將梯度提升決策樹算法、人工神經網絡算法和K-means算法相結合,構建了一個基于學生行為特征的分析預測平臺。劉曉雲等[8]提出基于多元線性回歸方法構建預測畢業成績的模型。任鴿等[9]利用Apriori算法挖掘不及格課程之間的相關關聯,構建基礎預警規則庫,并進一步挖掘“及格”、“良好”等級課程對其他課程的影響。班文靜等[10]提出了基于多算法融合的在線學習成績精準預測算法。目前雖然已經有許多成績預測或預警相關的研究報道,但多是基于現有全部數據預測某科成績,未能充分利用高校學生入學初期的成績,無法體現盡早預測,及時干預的初衷。

眾所周知,能否順利獲得學士學位不僅代表該學生是否較好地掌握了本門學科的基礎理論、專業知識和基本技能,還深刻地影響著學生未來的個人發展。如果能在大二學年結束前向可能無法獲得學位的同學發出及時預警,則可以督促學生及時改進學習方式、指導教師調整教學方法,達到提高教育質量的目的。同時也可以為成績達標的同學提供更好的選課方案,提高其學習效果,使不同類型的學生都能達到畢業要求。因此,筆者提出利用支持向量機(SVM:Support Vector Machines)構建學位預警模型,從而為豐富教學質量管理機制提供有效的借鑒。

1 支持向量機

SVM[11]是由貝爾實驗室于1995開發的一個有監督的二分類學習方法。其主要思想是基于結構風險最小化理論在特征空間中建構最優分割超平面,使分類器能得到全局最優解。二維數據的SVM分類效果如圖1所示。最優超平面方程為

f(x)=wx+b=0,

(1)

其中樣本(xi,yi),xi∈Rd,yi∈{+1,-1},i=1,2,…,N,w為權重向量,b為尺度因子,權重向量和尺度因子決定了超平面的位置。

SVM主要針對線性可分問題,而對線性不可分的情況,則使用非線性映射函數將低維空間線性不可分的數據轉化到高維特征空間中,使其線性可分。因SVM采用結構風險最小準則訓練分類器,能較好地處理樣本特征非線性、維數高等問題,使其具有分類能力。因此,筆者提出基于SVM的學位預警模型。

2 基于SVM的學位預警模型

模型具體流程如圖2所示。為提高教學質量,構建精準的學位預警模型,已經成為當前教育數據挖掘領域的研究熱點問題。鑒于目前高校普遍將學位課開設在大二、大三學年,而大一階段又是學生進入高校的重要時期。因此,筆者提出利用早期非學位課程構建學位預警模型?;赟VM的學位預警模型主要包括數據預處理、模型構建和學位預警3部分??紤]到學生成績樣本的復雜性,首先將學生成績進行篩選、歸一化等預處理,確保樣本數據的規范化。然后將預處理后的數據分為訓練和測試樣本,并利用訓練樣本構建SVM學位預警模型。最后根據構建好的預警模型預測是否對學生測試樣本進行學位預警。

圖2 基于SVM的學位預警模型流程圖

3 預警模型構建及結果分析

利用某高校數學與應用數學、漢語言文學、會計學等5個專業的實際成績構建學位預警模型,通過統計大量的隨機實驗結果驗證構建預警模型的可行性和有效性。

3.1 實驗數據

實驗數據為某高校廣播電視編導、漢語言文學、化學、會計學和數學與應用數學5個專業學生前3個學期所取得的非學位課課程成績和最終的平均學位績點成績,數據情況如表1所示。并分別對各專業學生成績進行如下處理:

表1 數據情況匯總表

1) 刪除選課人數過少(專業人數的 10%)的課程;

2) 將格式為“優秀”、“良好”、“中等”、“及格”和“不及格”的等級成績替換為“95”、“85”、“75”、“65”和“55”百分制成績;

3) 為避免不同課程成績間數量級對實驗結果的影響,將學生分數成績歸一化到[0,1]區間內。

最終,利用處理后的前3學期非學位課課程成績和學位績點成績構建各專業的學位預警模型。

3.2 評價指標

筆者選用了有效、直觀的錯誤率(ER:Error Rate)、查全率(Recall)、查準率(Precision)和錯誤拒絕率(FRR:False Rejection Rate)[12],其計算公式分別為

其中TP和FN分別為預警模型對應該給出學位預警的樣本正確做出預警(正確預測)的樣本數量和沒有做出預警(錯誤預測)的樣本數量;FP和TN分別為預警模型對無需給出學位預警的樣本錯誤地給出預警(錯誤預測)的樣本數量和沒有做出預警(正確預測)的樣本數量。

3.3 實驗結果與分析

針對每個專業,分別進行6組實驗,以確保實驗結果的穩定性和算法的有效性。實驗1~實驗6分別利用不同的訓練樣本集構建預警模型,6組實驗中分別隨機選擇總樣本的40%、50%、60%、70%、80%和90%作為訓練集,其余樣本數據作為測試集。每組實驗都重復100次隨機選樣本,并將多次實驗結果的平均值作為最終的統計結果。實驗結果如圖3~圖6所示。

圖3 各專業學位預警錯誤率統計

從圖3和圖4可看出,隨著訓練樣本的增加各專業構建的學位預警模型的錯誤率和錯誤拒絕率普遍都呈下降趨勢。雖然會計學和漢語言文學專業沒有表現為單調遞減,但也呈現出整體下降的趨勢。而圖5和圖6也從查全率和查準率的角度再次表明,隨著訓練樣本的增加各專業構建的學位預警模型能超過0.8甚至0.9。此外,廣播電視編導專業的錯誤率和錯誤拒絕率具有最大的降幅,其查全率和查準率增幅也最明顯。出現這種現象的原因一方面是廣播電視編導專業在前3個學期開設了64.7%的專業課,開設的學位課數量與非學位課數量比為1∶2.5; 而其他專業前3個學期僅開設了50%左右的專業課,學位課數量與非學位課數量比分別為漢語言文學專業1∶3.9,化學專業1∶2.8,會計學專業1∶4.6,數學與應用數學專業1∶5,僅化學專業稍高。其中,數學與應用數學專業前3個學期開設的專業課數量甚至低至了35.7%,學位課數量與非學位課數量比最低。4項統計指標也顯示出數學與應用數學專業的錯誤率和錯誤拒絕率更高,查全率和查準率更低。表明在早期合理設置學位課與非學位課開課比例更有助于指導學生培養良好的學習習慣。

圖5 各專業學位預警查全率統計圖

整體看各專業在較少訓練樣本的情況下,其構建的學位預警模型就具有了較低預測誤差,并且隨著訓練樣本的增加,構建的學位預警模型給出的學位預警結論更為精準。

4 結 語

能否順利獲得學位,對每名高校學生至關重要。因此,為更好地提高教學質量,完善學位預警機制,筆者考慮當前高校課程設置特點,提出利用前3個學期非學位課課程成績構建學位預警模型。實驗結果表明,利用前3個學期非學位課課程成績構建的學位預警模型具有較低的預警誤差和較高的可推廣性。但成績預測或預警工作不僅會受到前期成績的影響,還可能會受到學習背景、行為習慣等因素的影響。因此,成績預測、預警等工作仍是一個較為復雜的課題,在下一步的研究中將會充分考慮學習背景、學習環境、行為習慣等更多因素的影響,構建更加精準有效的成績預測或預警模型。

猜你喜歡
學位預警樣本
用樣本估計總體復習點撥
法國發布高溫預警 嚴陣以待備戰“史上最熱周”
『博士后』是一種學位嗎?
推動醫改的“直銷樣本”
園林有害生物預警與可持續控制
隨機微分方程的樣本Lyapunov二次型估計
俄羅斯兒童教育:超80%入園率與供不應求的學位
村企共贏的樣本
機載預警雷達對IFF 的干擾分析
國內ERP研究現狀——基于學位論文的統計分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合