?

基于數據挖掘的高校學生考研成績預測分析

2024-03-02 12:19王昊禾江宇琪

武夷學院學報 2024年1期

關鍵詞：初試考研專業課

王昊禾，張悅，江宇琪

（1.安徽建筑大學建筑與規劃學院，安徽合肥 230601；2.合肥工業大學管理學院，安徽合肥 230009；3.滁州學院美術與設計學院，安徽滁州 239000；4.安徽建筑大學學生處，安徽合肥 230601）

一、引言

伴隨著對高學歷及高素質人才需求越來越迫切，碩士研究生招生規模日益擴大，研究生考試“內卷化”現象愈來愈嚴重，從研究生考試報名情況看，2017 年考研人數突破200 萬大關后，考研報名人數逐年攀升，根據教育部、人社部官方數據，2022 年考研報名人數達457 萬，與2017 年考研報名人數相比翻了一番，問卷調查結果顯示，考研動機排名前三的分別是提升自身水平能力、增加就業機會、改變本科學校層次。面對如此數量的研究生考試學生，提高學生考研成功率，成為很多高校人才培養的重點工作之一。為加強考研指導工作，對考研初試成績的預測愈發重要，既可以預估學生的考研初試成績，幫助學生為考研復試做準備，也為學生的職業生涯規劃提供量化指標參考。

對碩士研究生初試成績預測研究中，黃炎以安徽大學計算機科學與電子技術系2008 級、2009 級本科學生三年考試成績數據為樣本,通過對比LIBSVM 向量機算法、線性回歸和決策樹相結合的算法、貝葉斯算法，得出在考研預測上線性回歸和決策樹相結合的算法具有更高的準確率和穩定性[1]。王西平在K 最近鄰分類算法基礎上，利用傳統和賦予特征屬性不同權重的兩種K 最近鄰分類算法，驗證了加權KNN 算法的作用[2]。王純杰等選取了某大學14 個學院應屆畢業生考研成績的數據，運用Logistic 回歸和聚類分析，總結出影響考研成功率的因素[3]。鄭寶樂等以本科學習階段的學生學習成績為樣本數據，通過支持向量機（SVM）與線性判決分析降維（LDA）結合方式建立模型，提高預測精度[4]。李馳通過對BP 神經網絡的初始權值和閾值進行優化建立模型，克服了收斂速度慢、易產生局部最小等缺陷[5]。李楠等建立Logistic 回歸分類算法模型，通過模型的運算提高考研成績變量之間的關聯性。通過對比實驗分析得出該算法預測誤差率較低[6]。張凱等面向高校所有理工科本科生，提出一種基于SVM 的高?？佳蓄A測模型，以高考成績和在校原始成績作為特征子集，通過對比實驗分析得出該模型具有較高的適應能力和穩定性[7]。

二、考研成績變量預測方法設計

（一）歷年考研初試成績數據

從安徽建筑大學教務系統導出建筑與規劃學院建筑學、城鄉規劃、風景園林三個專業2012-2021 屆畢業生成績，篩選有效字段屬性，去除與考研預測無明顯關聯的字段屬性，得出考研學生本科階段成績屬性結果，如表1 所示。

表1 考研學生本科階段成績屬性表Tab.1 Attributes of undergraduate grades of students taking the exams

對2012-2021 屆參與考研畢業生考研初試成績的政治、英語、專業課（一）、專業課（二）四門課程成績數據進行匯總統計形成采集結果，并作為考研初試成績變量預測的初始數據，如表2 所示。

表2 學生考研初試成績數據屬性表Tab.2 Data attributes of students' performance in the preliminary examination for graduate school

（二）對初始數據進行預處理

對初始數據進行預處理，可以降低學生在校成績數據中出現的缺失和低質的干擾，得到更準確的考研初試成績變量預測結果。數據清洗、數據變換和數據規約是數據預處理主要的三個組成部分[8]。預處理過程中，初始數據中出現離群點數據采取不處理的方式，缺失數據采取刪除記錄的方式，異常數據采取數據插補的方式進行處理。

結合預測方法的設計需求，利用簡單函數變換、數據標準化變換、連續屬性離散化處理等數據變換方式對數據進行規范化操作[9]，保證預測結果數據的標準化，定義W 為初始成績數據集，實現對數據的標準差標準化變換計算公式如下：

對初始數據集進行規約處理分別采用屬性規約和數值規約方式，得出考研初試成績初始數據。

（三）設置考研初試成績變量

以預處理得出的考研初試成績初始數據為基礎，通過數據特征提取結果，結合數據內容分析結果，設置考研成績預測變量。本次預測方法中設置的考研成績變量分別為平均學分績點、專業課成績、課程設計加權成績、四六級加權成績，平均學分績點是一項重要指標，其變量的計算公式如下：

其中GPA為平均學分績點，fi和gi分別為課程學分和課程績點，gi的計算公式如下：

其中F 為學生的考研初試成績，加權平均成績是學生每門考研初試成績與其權值比例的乘積計算出的平均成績，其計算公式如下：

其中Fi為加權科目分數，WA為政治、英語、專業課（一）、專業課（二）四門課程的考研加權平均成績。通過式（5）的計算得出的是政治、英語四六級的加權成績計算結果。為提高數據的參考價值，專業課成績通過學校教學系統調取數據，計算專業課和課程設計的平均值分別代替專業課（一）和專業課（二）的實際成績。

（四）剖析考研初試成績的影響因素

從影響考生報考決策與考研結果的因素分析，可分為學習狀態、學習能力、家庭情況的個人因素；教學資源、專業滿意度、課程成績的成績因素；報考院校差異、學習氛圍、生源地的環境因素，且個人因素、成績因素、環境因素內部和相互之間的關系較為復雜。設置的變量越多，預測準確度越高，數據采集、數據清洗、模型建立等難度也會相應增加，同時也會降低模型的執行效率。本著增加模型的適用范圍，合理降低復雜性，本研究選擇的安徽建筑大學校2012-2021 屆五年制建筑學專業、城鄉規劃專業、四年制風景園林專業本科畢業生的在校成績和考研初試成績作為樣本數據，通過對樣本數據集的變量得出多個模型輸出結果，考研成績變量的預測結果最終選擇概率值最高的分類數據。

三、算法對比分析實驗

在對比實驗中，采用李楠等[6]提出的Logistic 回歸分類算法和張凱等[7]提出的SVM 支持向量機算法以及王西平[2]提出的KNN 算法，作為此次實驗的三種對比方法，尋找對應變化規律，從而得出預測結果。

（一）Logistic 回歸分類算法

李楠等[6]提出的Logistic 回歸分類算法模型的構建是用于描述分類響應變量與解釋變量之間的關系。根據李楠等的觀點，研究將歷史考研初試成績、學生本科階段歷史成績與考研初試成績之間的變量關系。Logistic 回歸分類算法模型流程圖如圖1 所示，定義模型中的響應變量為Y，并取值0 和1 兩種結果。

圖1 Logistic 回歸分類算法模型流程圖Fig.1 Logistic regression classification algorithm model flowchart

（二）SVM 支持向量機算法

張凱等[7]提出的SVM 支持向量機算法,根據VC 維理論和結構風險最小化原理、解決非線性、小樣本、高緯度和局部最小點等問題。根據張凱等的觀點，選擇內積核作為考研初試成績預測模型的核函數，并采用網絡搜索算法對基于內積核的SVM 模型超參數尋優。

（三）傳統KNN 算法

王西平[2]提出的KNN 算法分為三部分：特征提取，搜索最近鄰居，產生預測結果。根據王西平的觀點，選取專業課平均成績、英語成績、實踐課程成績、學歷作用值大小四個維度作為碩士研究生初試成績預測研究中是主要影響因素。并對樣本特征進行權重分析，運用加權的方法改進傳統KNN 算法，提高預測的準確性。

分別將Logistic 回歸分類算法、SVM 支持向量機算法、傳統KNN 算法三種預測方法導入到相同的實驗環境中，并利用相同的建筑學、城鄉規劃、風景園林三個專業2012-2021 屆畢業生樣本數據集作為初始樣本數據，十屆畢業生中篩選確定的研究對象共2022人，保證三種預測方法實時調用的是同一樣本數據，進行訓練建模，通過對比實驗，設置考研初試成績變量的實際預測數據。

四、預測結果對比分析

根據安徽建筑大學建筑與規劃學院建筑學、城鄉規劃、風景園林三個專業2012-2021 屆畢業生樣本數據集作為初始樣本數據，三種預測方法考研初試成績預測對比結果如表3 所示。

表3 考研初試成績預測對比結果Tab.3 Comparison results of the predicted scores in the first examination of the examination

從表3 可以看出，在同樣的樣本數據中，運用李楠等[6]提出的Logistic 回歸分類算法，得出的平均預測誤差約為0.524，運用張凱等[7]提出的SVM 支持向量機算法，得出的平均預測誤差約為0.600，運用王西平[2]提出的KNN 算法，得出的平均預測誤差約為0.660，從平均預測誤差看，Logistic 回歸分類算法的預測方法準確性更適合。建筑學、城鄉規劃、風景園林三個專業均為設計類專業，參加其研究生考試的學生不參加傳統科目高數的考試，替代高數的是要求手繪表達能力較強的科目專業課（二），需要從考研學生本科階段歷史成績數據篩選出課程設計類成績作為參考。

根據Logistic 回歸分類算法，綜合所有對考研初試成績影響因素，去除與研究無明顯關聯的字段屬性，得出對應的變量。根據對考研初試成績影響由大到小排序為專業課成績、課程設計成績、平均學分績點、四六級加權成績。專業課成績與考研初試專業課（一）、課程設計成績與考研初試專業課（二）有直接效應關系，平均學分績點與考研初試四門課成績既有直接效應又有間接效應，四六級加權成績對考研初試英語成績有間接關系。同時發現課程設計成績三種預測方法的預測誤差較高，經過分析，專業課成績與課程設計成績高度相關，兩個變量同時進入模型會產生干擾。提醒我們在研究問題中，需要將定量分析與定性分析相結合，才能得出相對準確的結論。

五、結語

伴隨著就業形勢嚴峻，碩士研究生考試人數也年年遞增，“內卷化”現象極其嚴重，考研難度只增不減。研究生考試包含復習、備考、報名、初試、復試、調劑、錄取等一系列程序，而考研初試成績是決定本科畢業生能否取得碩士研究生學位的第一道門檻[10]，考研初試成績變量的預測可以幫助考生樹立信心、調整戰略、幫助決策，從而達到提高通過研究生考試成功率的目的。通過對Logistic 回歸分類算法、SVM 支持向量機算法、KNN 算法三種算法的對比實驗，從實驗結果看，針對考研科目沒有高數科目的建筑設計類專業，Logistic 回歸分類算法對考研初試成績變量預測的準確度最高。對參加考研的同學建議：提升專業素養，專業課成績、課程設計成績對考研成績影響最大，要特別注重加強學習。注重公共課程，政治和英語則是要注意學習態度，態度好壞直接影響考研初試的這兩門最終成績。穩定備考心態，心態決定學習效果，考研是個漫長又乏味的過程，明確目標、把握節奏、養成習慣、相信自己，堅持下去。

高校承擔著培養人才、發展科技、服務社會的重要職責和使命，碩士研究生升學率是衡量人才培養質量的重要指標[11]，而考研工作是一項關乎養成教育的復雜系統工程，需要不斷加強考研指導方法研究，總結完善考研指導體系[12]，為提升高校數據化學生管理工作水平的智能化和科學化做出一定的貢獻。

猜你喜歡

初試考研專業課

考研初試高分未被錄取，且慢提“貓膩”論

科學大觀園(2022年8期)2022-05-18

運用心理學定律管理班級初試

云南教育·中學教師(2020年11期)2021-01-07

“導入課”在高校專業課實施“課程思政”的實踐與思考

時代人物(2019年29期)2019-11-25

空乘招聘初試，走出“美丑”誤區

新教育時代·學生版(2019年42期)2019-10-21

考研，我是怎么堅持過來的

傳奇故事(上旬)(2019年7期)2019-08-17

考研，我是怎么堅持過來的

傳奇故事(破繭成蝶)(2019年7期)2019-07-26

工作十二年后，我才去考研

海峽姐妹(2018年3期)2018-05-09

服務學習在高職社會工作專業課內實踐教學中的探索

長沙民政職業技術學院學報(2016年2期)2016-05-17

爆笑ｓｈｏｗ(2015年8期)2015-09-22

研究生專業課學分制教學改革探討

中國中醫藥現代遠程教育(2014年23期)2014-03-01

武夷學院學報2024年1期

武夷學院學報的其它文章: 外國運動鞋品牌形象對中國消費者購買意愿的影響; 基于仿宋斗茶與茶葉感官審評的茶葉品質對比評價; 第十三屆全國美術作品展的少數民族題材繪畫特點評析; “普通心理學”混合式教學改革與實踐

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合