?

基于數據挖掘技術的高校教學質量監控研究

2020-05-11 11:43郭欣章鳴嬛吳良陳瑛
微型電腦應用 2020年1期
關鍵詞:教學質量監控數據挖掘技術決策樹

郭欣 章鳴嬛 吳良 陳瑛

摘?要: 教學質量監控是學校進行教學質量管理的重要手段,對提高教學質量具有重要意義。隨著校園信息化的發展,高校教務系統里積存了大量有價值的數據,但卻沒有被很好的挖掘利用。鑒此提出將數據挖掘技術應用到高校教學質量監控中,使用因子分析法對計算機專業的學生成績進行綜合評價分析,并提出一種決策樹改良方法對學生成績進行預測,最后針對文中所提出的方法與其他方法進行了對比分析。結果表明,

因子分析法相對于平均分排名法,蘊含了更多的信息量可以提供更加全面的評價,另外其突出重要因素,可以對各方面情況進行合理量化;決策樹改良方法相對于其他成績預測方法穩定性好、準確性高,且過擬合情況少。經驗證,這個方法可以在高校教學質量監控中發揮一定作用。

關鍵詞:數據挖掘技術; 教學質量監控; 因子分析; 決策樹; 聚類

中圖分類號: TP311??????文獻標志碼: A

Research on Teaching Quality Monitoring in Universities

Based on Data Mining Technology

GUO Xin1, ZHANG Minghuan1, WU Liang2,

CHEN Ying1*

Abstract: Monitoring teaching quality is an important means in teaching quality management in schools, and it is of great significance to improve the teaching quality. With the development of campus informatization, a lot of valuable data have been accumulated in the educational administration system of universities, but they have not been well mined and utilized. So this paper puts forward the application of data mining technology to the monitoring of teaching quality in universities. The factor analysis method is used to make a comprehensive evaluation and analysis of the students' achievements in computer major, and a decision tree improvement method is proposed to predict students' achievements. Finally, the methods proposed in this paper are compared with other methods in detail. The results show that factor analysis method contains more information than traditional methods and can provide more comprehensive evaluation. In addition, it highlights important factors and can quantify all aspects of the situation reasonably. Compared with the other methods, the improved method of decision tree has better stability, higher accuracy and less overfitting. It has been proved that the method proposed in this paper can play a certain role

in the monitoring of teaching quality in universities.

Key words: Datamining technology; Teaching quality monitoring; Factor analysis; Decision tree;

Clustering

0?引言

教學質量是高校生存和發展的生命線,學校通過教學質量監控體系發揮教學信息收集、教學效果評估、教學過程診斷和教學質量提高的作用,對課程成績進行監控是高校教學質量監控體系的重要內容[1]。近年來高校的校園信息化建設已經日臻成熟,高校教務系統里積存了大量有價值的成績數據,但卻沒有被很好的挖掘利用,多數還停留在數據備份、簡單查詢、采用基礎的統計方法進行分析以及使用簡單的圖表進行展示等方式上[2]。數據挖掘技術可以進行數據分類和預測、聚類分析和關聯分析等,能夠對數據進行深層次挖掘,是提高分析和決策能力的重要研究領域[3]。將數據挖掘技術引入教學質量監控,對現有的成績數據進行客觀的分析,并挖掘出有價值的信息,無疑將有助于改進教學措施,提高教學質量[4]。

目前,已有將數據挖掘技術應用于教學管理的相關研究,如文獻[5]研究了基于頻繁模式譜聚類的課程關聯分類模型和學生成績預測算法;文獻[6]提出一種基于K近鄰局部最優重建的殘缺數據插補方法并結合隨機森林模型實現了成績預測;文獻[7]研究如何借助多種預測和統計手段用本科成績數據推測學生在研究生期間的表現。本文在借鑒前人研究經驗的基礎上,使用因子分析法對計算機專業的學生成績進行綜合評價分析,并提出一種決策樹改良方法對學生成績進行預測,最后針對文中所提出的方法與其他方法進行了詳細的對比分析,從中找到更能促進教學質量監控的方法。

1?數據采集與預處理

本文涉及的所有樣本數據均來自我校教務系統,以2018屆186名計算機科學與技術專業學生的17門課程的期末考試成績作為研究對象。為了規范研究數據的歸屬權與保護數據所有者的隱私,后續涉及相關數據時將采用編號等方式進行虛擬化處理。

由于所研究的數據對象是學生多門課程的期末考試成績,所以首先需要將數據進行集成,本文利用數據庫技術,根據學生學號的唯一性,將不同課程的成績合并到一個表中。其次,由于缺考或者沒有選課等原因,出現某些課程的成績為空值;另外有部分學生重修某些課程,出現成績重復的現象,所以接下來需要對集成好的數據進行清洗,方法如下:

(1)對于多門課程沒有考試成績的學生數據直接刪除記錄;

(2)對于同一門課程出現多個考試成績的學生數據采取其第一次考試的成績記錄;

(3)針對部分成績空缺的學生數據用該課程的平均成績進行填補;

(4)如果某門課程有多數學生成績空缺,則認為該課程數據異常,將其進行刪除處理。

對數據清洗完成后,為了解決量綱不一致等問題對數據進行Z標準化處理。

2?基于因子分析法的學生成績綜合評價

本文以教育部計算機科學與技術教學指導委員會(下文簡稱“教指委”)提出的計算機專業人才培養的4項基本能力要求為參考依據(見表2)[8],選取17門專業必修課成績為研究對象,根據因子分析的基本原理和步驟,對學生成績進行綜合評價。這17門課分別為:計算機組成原理(X1)、計算機電路基礎(X2)、數據結構(X3)、計算機網絡(X4)、離散數學(X5)、微型機接口技術(X6)、操作系統(X7)、C++面向對象程序設計(X8)、數據庫原理與技術(X9)、算法設計與分析(X10)、JSP/ASP

WEB技術(X11)、JAVA語言程序設計(X12)、硬件課程設計(X13)、計算機信息安全(X14)、軟件工程(X15)、程序設計語言課程設計(X16)、C程序設計基礎(X17)。

2.1?KMO和巴特利特球度檢驗

KMO和巴特利特球度檢驗的取樣適切性量數為0.957,根據統計學家Kaiser給出的標準[9],可以認為數據對象適合因子分析。

2.2?提取公因子

由因子分析的共同度可知其提取值都介于0.5到0.8之間,可以認為因子基本能解釋各門專業課的方差。另外,從總方差的解釋情況可看出旋轉后第一個因子的方差貢獻率為43.347%,三個因子的累積方差貢獻率為69.916%,即三個因子解釋了原有17個變量的69.916%含義。

2.3?公因子解釋

為了使因子變量更具有可解釋性,對因子載荷矩陣進行了最大正交旋轉,得到旋轉后的因子載荷矩陣,如表1所示。

另外,根據教指委的指導意見,我們可以把計算機科學與技術專業本科生的專業能力、知識體系和上述17門課程之間的關系歸納如表2所示。

結合表1和表2可以對3個公因子進行解釋:3個因子基本代表了專業能力培養目標所要求的4種能力,其中F1代表綜合能力、計算思維能力,F2代表算法設計與分析能力、系統的認知、分析、開發與應用能力,F3代表程序設計與實現能力,如表3所示。

2.4?用公因子進行綜合評價

根據回歸算法計算出因子得分矩陣,據此可以得到因子得分函數,鑒于篇幅原因,這里只給出F1因子的得分函數,F2和F3雷同如式(1)。

F1=0.154X1+0.213X2+0.117X3+0.194X4+0.149X5+0.112X6+0.093X7+0.076X8+0.029X9+0.03X10+0.205X11+0.05X12-0.021X13-0.322X14-0.015X15-0.216X16-0.012X17

(1)

學生的綜合表現由公因子反映,可以用公因子計算每個

學生的成績綜合評分,公因子的權重取其方差貢獻率,則綜合評分的計算式為式(2)。F=0.574F1+0.072F2+0.054F3

(2)??計算得到綜合評分之后,可以將其作為對學生成績進行排序和比較分析的依據。

3?基于決策樹改良方法的學生成績預測

3.1?決策樹改良方法介紹

決策樹屬于有監督式的機器學習方法 [10],本文使用的決策樹算法是C5.0。C5.0算法對數值變量進行離散化處理時使用的是MDLP(Minimal Description Length

Principle,即最短描述長度原則)的熵分箱方法,其核心測度指標是信息熵和信息增益[11]。該方法不能按照各門課程考試的難易程度和分箱個數自定義分箱規則,不夠靈活,因此本文對其進行改良,先使用Kmeans聚類算法對各門課程的成績數據分別進行離散化處理,再進行目標課程成績預測。

3.2?確定預測目標

本文的預測目標是通過將教學計劃中的專業基礎課、專業核心課按照開課的先后順序進行整理,然后選出較早開設的課程成績作為解釋變量,來預測后續與之相關的高階專業課的學習成績,找出有可能掛科的學生,提前對其進行干預,從而達到預警的目的。例如,將“計算機信息安全”作為預測目標,綜合考慮開課學期的順序和課程類別,將C程序設計基礎、操作系統、離散數學等9門課的成績作為解釋變量,對目標課程成績進行預測。

3.3?利用聚類算法進行數據轉換

按照前文所述,在使用C5.0算法對目標課程的成績進行預測之前,要將數據進行轉換,即采用Kmeans聚類算法對課程成績進行離散化處理。表4顯示的是聚類分析后各等級的聚類中心點情況,如表4所示。部分學生10門課程成績經Kmeans聚類算法處理后的樣本分布情況,如表5所示。

3.4?利用C5.0算法進行預測分析

將離散化處理后的數據載入SPSS

Modeler,并調用C5.0算法對其進行建模,采用十折交叉驗證算法作為模型的評估手段,Boosting算法作為提高預測準確度的方法,以獲得最佳的樹形結構,最終結果如圖1所示。

如圖1所示,

“數據庫原理及技術”是模型的根節點,可見其是信息熵增益最強的屬性,其次是離散數學,再次是C程序設計基礎、數據結構等。因此,在9門作為解釋變量的課程中,“數據庫原理及技術”與“離散數學”對于預測目標課程“計算機信息安全”的成績的貢獻度最大,對于想取得優異成績和預測結果較差的學生應加強對這兩門課程的學習。另外,我們可以對決策樹進行規則提取,即沿著決策樹的根節點到每一個葉節點的路徑用IFTHEN語句進行表示。由于按照圖1所示的決策樹提取的規則較多,下面只列出“計算機信息安全”評級為“差”的規則,如下:

IF( 數據庫原理及技術=“優”or“中”or“良”) AND( 離散數學=“良”) AND( 數據結構=“差”) THEN

計算機信息安全=“差”

從規則中我們可以看出,“數據庫原理及技術”的成績不是預測“計算機信息安全”是否為“差”的決定因素(從完整的決策樹可以看出其為預測“計算機信息安全”是否為“優”的決定因素),而“離散數學”和“數據結構”學不好,“計算機信息安全”就有可能掛科,因此當“離散數學”、“數據結構”的成績不理想時,就應該向相關學生進行預警。

4?分析與討論

4.1?因子分析與傳統綜合評價方法對比如表6所示。

(1)因子分析法既可以從整體上對學生成績進行排序,還可以了解每位學生知識掌握情況的細節,知道學生在哪些專業能力方面得到了較好的發展而哪些相對薄弱,例如表6中f14011632、f14011507兩名學生F綜合得分近似(分別為第1、2名),但是相比之下f14011632的F1因子得分較高,代表其綜合能力、計算思維相對較強,而F2、F3因子得分較低,代表其算法設計與分析,系統的認知、分析、開發與應用,程序設計與實現能力較差,學號為f14011507的學生情況恰好相反。由此可見,相對于傳統的平均分排名法,因子分析法蘊含了更多的信息量,幫助教師引導學生及時調整學習和發展的方向。

(2)由表6還可以看出因子分析與傳統的平均分排名結果不同,例如f14011632因子分析排名第1,但平均分卻排名第9;而f14011407因子分析排名第11,平均分排名卻達到第2,仔細觀察后不難發現f14011407各項成績比較均勻,而f14011632的F1因子得分非常突出,這與按平均分排名時各門課的權重相同,而因子分析法F1的權重較大的特點相對應。由此可見,按平均分排名的傳統方法沒有對課程的重要性進行區分,而因子分析法突出重要因素,對各方面情況進行了合理量化。

4.2?決策樹改良方法與其他學生成績預測方法對比

下面通過實驗對比三種成績預測方法的效果,即直接用C5.0算法、經傳統方法離散化處理后再用C5.0算法、決策樹改良方法,三者的對照結果如表7所示。

其中,傳統的數據離散化方法是區間標記法,即指定一個分數區間將其標記為相應等級(實驗中將85-100分標記為優、70-84分標記為良、60-69分標記為中、0-59標記為差),從而替換連續的數值。

由表7可以看出,決策樹改良方法的估計準確性最高,所生成的決策樹深度最小、葉子節點數最少,這表明由其生成的決策樹模型與其他兩種方法相比更加準確且健壯。另外,交叉驗證結果中決策樹改良方法的標準差也較小,說明其模型的穩定性較好,預測的波動較小[12]。整體上來說,由于決策樹改良方法在對數據離散化處理時建立了合理的分箱規則,對課程本身的考試難度進行了區分,相對其他兩種方法,其效果更好。

5?總結

本文利用數據挖掘技術對學校教務系統里的成績數據進行了深入地挖掘與剖析。首先對教務系統中的數據進行采集和預處理,然后利用因子分析法對學生成績進行綜合評價,之后用Kmeans聚類算法+C5.0算法的決策樹改良方法對目標成績進行預測,最后將上述方法與其他方法進行了對比分析。分析結果表明:因子分析法相對于傳統方法,其分析結果更加全面、合理;決策樹改良方法相對于其他預測方法,穩定性好、準確性高,并且生成的決策樹更加健壯,可以盡量避免過擬合現象。但是,由于目前擁有的數據有限,結果可能會存在一定的局限性,后續將進一步研究。

參考文獻

[1]?喬斌.SPSS在計算機課程教學質量評估中的應用[J].河套學院學報,2013(12):6566.

[2]?紀連恩,高芳,黃凱鴻,等.面向多主體的大學課程成績相關性可視探索與分析[J].計算機輔助設計與圖形學學報,2018,30(1):4456.

[3]?Jiawei Han, Micheline Kamber 著.數據挖掘概念與技術[M]范明,孟小峰,譯.北京:機械工業出版社,2007:8695.

[4]?張甜.基于數據挖掘的高校學生成績關聯分析研究[D].北京:北京郵電大學,2017.

[5]?何楚,宋健,卓桐.基于頻繁模式譜聚類的課程關聯分類模型和學生成績預測算法研究[J].計算機應用研究,2015,32(10):29302933

[6]?曹歆雨,曹衛權,李崢,等.面向不確定殘缺數據的大學生成績預測方法[J].現代電子技術,2018(6):145149.

[7]?M Saarela,T K?rkk?inen. Analyzing Student Performance using Sparse Data of Core Bachelor Courses [J]. JEDMJournal of Educational DataMining,2015,75(1):332.

[8]?教育部高等學校計算機科學與技術教學指導委員會.高等學校計算機科學與技術核心課程教學實施方案[M].北京:清華大學出版社,2009:45.

[9]?Jin Hailiang, Liu Huijie. Research on visualization techniques in data mining[C].2009 International Conference on Computational Intelligence and Software Engineering, 2009.CiSE2009.International Conferenceon. IEEE,2010:131133.

[10]?商俊燕,陸兵,柏倩然.決策樹C4.5算法在學生成績分析中的應用[J].微型電腦應用,2015,31(4):4345.

[11]?Kaur P, Singh M, Josan G S. Classification and prediction based data mining algorithms to predict slow learners in education sector[J].Procedia ComputerScience,2015,57:500508.

[12]?Ahmed M, Zafar B, Manzoor U. Modeling and predicting students' academic performance using data mining techniques[J].International Journal of Modern Education and Computer Science,2016(8):36.

(收稿日期: 2019.07.22)

基金項目:2018年教育部高教司協同育人項目(201802001049);2018年教育部高教司協同育人項目(201802111036)

作者簡介:郭欣(1982),女,講師,碩士,研究方向:數據挖掘與分析。

章鳴嬛(1980),女,副教授,博士,研究方向:計算機應用。

吳良(1955),男,教授,碩士,研究方向:教學質量管理。

通信作者:陳瑛(1968),女,教授,博士,研究方向:數據工程。文章編號:1007757X(2020)01000704

猜你喜歡
教學質量監控數據挖掘技術決策樹
簡述一種基于C4.5的隨機決策樹集成分類算法設計
決策樹學習的剪枝方法
民辦高校教學質量管理有效途徑探索
基于Web的數據挖掘技術與相關研究
完善高職院校教學質量監控的幾點思考
決策樹在施工項目管理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合