?

基于改進型K-means算法的高校研究生成績畫像研究

2023-07-11 07:47羅鑫帥高洋

陜西教育·高教版 2023年7期

關鍵詞：學風建設研究生

羅鑫帥　高洋

[摘要]成績畫像對研究生培養具有重要參考價值，以某師范大學某學院某專業學位碩士研究生近5年成績為數據基礎，通過K-means算法對研究生考試成績進行分析，獲得代表研究生群體的成績屬性特征。本文運用手肘法確定K值后，選取K個歐式距離最遠點為初始中心建立改進型K-means算法模型，描繪出客觀的研究生成績畫像，并從研究生入學教育、學風建設等方面給出具有參考價值的工作建議。

[關鍵詞]成績畫像 K-means 研究生學風建設

本項目受助于陜西師范大學研究生思政精品項目（YGYB2114）、教育部高校思想政治工作創新發展中心（武漢東湖學院）2022年度專項研究課題（編號：WHDHSZZX2022075）以及陜西高校網絡思想政治工作第二批實踐項目（編號：2022WSYJ100083）。

引? 言

學業成績作為研究生培養質量的重要參考指標之一，在一定程度上反映了研究生的學習狀態、學習效果和學習能力。隨著大數據技術的發展，用較為科學的方法分析數據，給予高校研究生教育管理的參考方案，對高校研究生教育管理工作具有重要意義。數字賦能，能夠輔助升級高校教育管理模式，精準開展各類教育工作，豐富大數據技術背景下的典型教育案例。目前越來越多的科研工作者圍繞學生畫像構建進行探索研究，在研究對象方面，針對校園一卡通的消費記錄、學生成績和學生上網時長等方面進行聚類分析與關聯研究。姜楠和許維勝基于校園一卡通的刷卡記錄，利用K-means聚類算法梳理了學生校園消費習慣，并用Apriori關聯規則算法與學生學習行為進行關聯分析；陶婷婷也利用了類似的方法，進一步分析了一卡通數據、學生在線學習時長與學生成績之間的關系；郭鵬基于一卡通數據，對學生消費水平、消費行為、上網情況和借閱圖書情況進行了系統聚類，并對關聯算法進行改進。在研究技術方面，根據研究對象的差異化以及數據的多樣性，改進型K-means聚類算法得到越來越廣泛的應用。凌玉龍等提出了基于馬氏距離的改進型K-means算法；何選森等提出了用有效性評價函數的最小值確定K值的方法；許智宏等運用DPCA方法改進了K-means初始聚類中心的選擇問題；于莉佳和汪濤通過模糊K均值聚類算法分析了高校網絡用戶行為；張云和張軼分別用加權K-means算法對高校學生成績和高校貧困生進行了聚類分析。在研究架構層面，馮廣等對學生畫像系統的技術架構和應用場景進行了分析；黃煒等基于“五育融合”的綜合素質評價構建了學生數字畫像。在研究價值方面，黃文林基于學生畫像技術對高校精準思政探索進行了闡釋。

由上述研究可以看出，高校教育管理工作越發精細化與科學化，在學生精準資助、學業成績分析、校園行為研判等方面均有數據化的依據作為科學決策的有力保障，如何將數據有效處理，提供科學決策依據，也是高校教育管理工作面臨的重要問題。本文結合研究生考試成績數據量度特點，通過算法選擇歐式距離最遠的K個點作為初始中心，運用K-means聚類算法對研究生考試成績進行分析，做出有效分類，針對成績有困難的研究生群體進行重點關注與幫扶，針對成績優秀的研究生群體進行示范宣傳與經驗分享，為研究生培養工作提供參考依據。通過對近5年相同專業研究生成績進行縱向對比，檢驗教師的教學效果及研究生學習效果，探索該專業研究生教育的一般規律，對研究生教育引導和學風建設工作提供參考建議。

算法介紹

K-means算法是在給定分類簇數和初始簇中心的前提下對樣本數據進行分類分析的方法，它屬于一種無監督、迭代的學習算法，可以將同一樣本簇的距離盡可能縮小，不同樣本簇之間距離盡可能遠離，從而達到劃分數據、有效分析的目的。在K-means算法中隨機選擇樣本點作為初始中心，不斷計算每個樣本點與初始中心的歐式距離，選定距離最近的初始中心為一簇，并對簇的中心進行重新選取，重復上述過程，直至各個簇中心位置不再發生變化，樣本數據也完成劃分，算法結束。本文以研究生成績為樣本，對數據進行聚類，直到尋找出最終聚類中心樣本，這一研究生成績樣本也就能夠反映出該群體研究生的成績屬性特征。在算法執行過程中，確定簇的數量與初始中心的位置是完成K-means算法的關鍵，本文運用手肘法確定簇的數量，運用算法遍歷選擇出歐式距離最遠的點作為初始聚類中心。

1.簇的數量即K值選取

簇的數量即K值采用手肘法確定：

是隨機樣本點，是聚類中心，SSE是誤差平方和，隨著簇的數量即K值的精細劃分，SSE會逐漸變小，當SSE與K值關系曲線出現拐點時，SSE不再隨著K值增大有較為明顯的變化，此時的K值就是簇的最佳數量。本文以2021級此專業第一學期61名碩士的671條成績數據為例，繪制SSE與K值關系圖，可以發現K值為2或3時，SSE出現拐點。由于手肘法本質也是觀察法，筆者認為按照K=3劃分，學生成績類別更加具體，更有利于對學生的教育管理工作。

2.初始中心的選擇

K-means算法一般在樣本集合中隨機挑選K個樣本點作為初始中心，雖然隨機選擇的初始中心經過迭代后均是高密度聚集的樣本點，但是結合成績數據特點，即量綱及數量級無差別，為了使聚類點更有代表性，根據每個學生n個成績數據構成M維數據集合=，選擇K個歐式距離最遠的初始中心進行聚類，具體計算方法為：

在這種初始中心選擇方式上，主要考慮了數據分布特點，降低數據處理的復雜度，又使得高密度聚類樣本點特征加以凸顯?；诹烤V及數量級無差別的成績數據和上述改進思想，應用于研究生成績分析，更好地描繪研究生成績畫像。

根據上述論述，歸納出改進型K-means算法步驟如下：

步驟1：遍歷成績樣本集合，得到K個歐式距離最遠的樣本點為初始聚類中心；

步驟2：計算樣本點到初始聚類中心距離，進行成績分類；

步驟3：計算每一簇的中心點作為新中心點；

步驟4：重復以上步驟，直到每一簇中心在迭代后收斂為止。

實驗分析

1.初始數據

本文以某師范大學某學院某專業學位碩士研究生近5年成績數據為基礎，對該專業學位碩士研究生成績數據逐年進行分析，表1以2021級該專業研究生第一學期成績為例，并根據本文提出算法，對歐式距離最遠的3個成績樣本點為初始聚類中心，與隨機選取3個成績樣本點為初始聚類中心的計算迭代次數進行對比，從迭代結果可以看出，使用改進型算法，3個初始中心就在3個分類區域內，并在3個對應區域進行迭代優化，而未使用改進算法隨機選擇3個初始中心情況則不相同。在表1中，中心1經過1次迭代后移動距離明顯大于另外2個中心的移動距離，體現了分布的隨機性。因此，使用改進型算法在一般情況下可以更快地得到聚類結果，迭代次數也更低。表2是使用改進型算法的3個初始聚類中心，可以看出，初始聚類中心樣本點集中部分科目成績具有較為明顯差異，碩士英語（專碩）、新時代中國特色社會主義理論與實踐、心理發展與教育、課程與教學論、教育研究方法等課程應該是該專業該年級成績分類的重要參考科目。

2.數據分析

根據K-means聚類算法，執行上述算法過程得到最終3個聚類中心（表3），并計算了各中心之間的歐式距離以及每一類數據的有效樣本數（表4）。

按照算法執行數據迭代后，從表3中可以看出，該專業21級61名專業碩士研究生的成績特點：第一類研究生在公共必修課碩士英語（專碩）、新時代中國特色社會主義理論與實踐考試中成績偏低，其他科目成績均良好；第二類研究生在所有科目的考試中均獲得了較為理想的成績；第三類研究生在公共必修課新時代中國特色社會主義理論與實踐、專業課心理發展與教育及教育研究方法等考試中成績偏低，其他科目成績較為理想。從表4中可以看出，各聚類中心分布數據樣本數量依次為18、34、9人，分別約占樣本總數的三分之一、二分之一和六分之一，樣本均為有效樣本且分布數量均勻。并且三個聚類中心兩兩距離均在10～12之間，亦是數據高密度質心位置。因此從數據角度來看，聚類結果較為理想。

對該專業近5年研究生成績進行分析，從圖2中可以看出，“基礎教育課程改革”系列講座、心理發展與教育等專業課平均成績較為穩定；教育研究方法、教育原理及課程與教學論等專業課平均成績穩步提升?！盎A教育課程改革”系列講座是研究生取得高分較容易的科目，而心理發展與教育相對其他科目近5年考試成績均較低，從數據角度來看，該門專業課難度較大，應引起足夠重視。碩士英語（專碩）、新時代中國特色社會主義理論與實踐公共必修課成績較為穩定，且平均成績低于專業課考試成績。

針對聚類結果和近5年成績曲線圖可以看出，研究生教育管理工作者應該對碩士英語（專碩）、新時代中國特色社會主義理論與實踐、心理發展與教育、課程與教學論等進行重點引導。

一是加強公共必修課重視程度。專業型碩士研究生公共必修課為碩士英語（專碩）和新時代中國特色社會主義理論與實踐兩門課程，從該專業近5年研究生學習效果來看，公共必修課成績低于專業課成績。在課程安排較多的情況下，許多研究生對公共必修課的重視程度不夠，投入學習精力有限，部分研究生出現重視專業課而輕視公共必修課的學習現象。因此，在研究生教育管理過程中，要加強日常學習管理與考前動員工作，提醒研究生重視公共必修課。

二是加強重難點專業課學習指導。從近5年研究生專業課考試成績來看，該專業研究生在教育研究方法、教育原理及課程與教學論等專業課學習中均有較為明顯的進步，也說明研究生學習能力越來越強，對專業課程的掌握情況越來越好。但是心理發展與教育這門課程，該專業研究生在近5年內考試成績低于其他課程，也說明這門課程難度較大，并且根據聚類結果，該專業21級的研究生學習掌握程度也有差異，9名研究生（約占總人數的六分之一）成績較低。在日常學習過程中，建議研究生教育管理工作者主動摸排并關心專業課學習有困難的研究生，邀請授課教師或者高年級研究生進行學習經驗分享，提升學習效果。

結? 語

K-means算法適用于研究生考試成績樣本分析場景，根據考試成績分析場景使用改進型K-means算法可以降低算法迭代次數，更快地得到聚類結果，該算法可以更好地分析研究生成績特點，描繪研究生成績畫像，為研究生教育管理工作者提供一定參考價值，幫助研究生教育管理工作者科學高效地掌握研究生分類特點，因材施教，更加精準地開展研究生學風建設等相關工作。

參考文獻：

[1]郭鵬.基于校園一卡通數據的學生消費行為與成績的關聯性研究[D].楊凌：西北農林科技大學，2019.

[2]陶婷婷.基于校園一卡通和云課堂數據的消費與學習行為分析[D].武漢：華中師范大學，2017.

[3]姜楠，許維勝.基于校園一卡通數據的學生消費及學習行為分析[J].微型電腦應用，2015，31（2）：35-38.

[4]凌玉龍，張曉，李霞，張勇.改進k-means算法在學生消費畫像中的應用[J].計算機技術與發展，202，31（10）：122-127.

[5]何選森，何帆，徐麗，等.K-Means算法最優聚類數量的確定[J].電子科技大學學報，2022，51（6）：904-912.

[6]許智宏，李彤彤，董永峰，等.基于改進K-means算法的學生用戶畫像構建研究[J].河北工業大學學報，2022，51（3）：19-24.

[7]于莉佳，汪濤.基于模糊K均值聚類的高校網絡用戶行為分析[J].智能計算機與應用，2022，12（10）：200-202.

[8]張云.基于改進的K-means聚類算法的學生成績分析[J].安徽開放大學學報，2022，（3）：92-96.

[9]張軼，高雪冬，郭亞偉，趙丙賀.加權k-means算法及其在高校貧困生判別中的應用[J].產業與科技論壇，2022，21（19）：40-44.

[10]馮廣，何雅萱，賀敏慧.基于校園大數據的學生畫像系統應用研究[J].軟件，2020，41（8）：40-42.

[11]黃煒，張治，胡愛花，等.基于“五育融合”的學生數字畫像構建與實踐分析[J].教育發展研究，2021，41（18）：44-51.

[12]黃文林.基于學生畫像分析的高校精準思政探索[J].東北大學學報（社會科學版），2021，23（3）：104-111.

（羅鑫帥：陜西師范大學黨委研究生工作部；高洋：西安外國語大學英文學院）

猜你喜歡

學風建設研究生

研究生美術作品欣賞

大眾文藝(2023年1期)2023-02-08

關于民辦獨立院校學風建設的思考

考試周刊(2016年90期)2016-12-01

通過完善大學生學業生涯規劃促進學風建設

儷人·教師版(2016年14期)2016-11-22

論大學生學風建設的途徑

人間(2016年27期)2016-11-11

淺議武夷學院“無手機課堂”學風建設活動

中國市場(2016年36期)2016-10-19

研究生管理信息系統設計與實現

新教育時代電子雜志(學生版)(2015年31期)2015-12-20

論研究生創新人才的培養

中國法學教育研究(2014年2期)2014-10-19

清退超時研究生是必要之舉

教育與職業(2014年34期)2014-04-17

研究生“逃課”需標本兼治

教育與職業(2014年1期)2014-01-14

幸福院里出了個研究生

中國火炬(2009年8期)2009-07-24

陜西教育·高教版2023年7期

陜西教育·高教版的其它文章: 高職院校思政教育實效性問題探討及優化研究; 新媒體短視頻應用于高校新生入學教育的模式探索; 設計藝術課程中思政教育的融合創新與地方經濟服務性; 多模態視域下中國文化在大學英語讀寫課中的融入模式研究; 英語選拔性考試出題規律對大學英語詞匯教學的導向性分析; 不同教學模式下教學效果對比研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合