?

基于大數據決策樹的學生成績分析和預測模型設計

2023-07-25 12:09孫劍
中國新通信 2023年9期
關鍵詞:學生成績預測模型決策樹

摘要:中國科教事業飛速進步,大學生數量越來越多,高校畢業生綜合素質低、能力不足等問題越來越突出。創建與素質教育要求相符合,促進教師發展、學生成長以及提高教育教學質量的教育評估體系,是新課程改革中的重要任務。本研究基于大數據決策樹的學生成績預測模型,根據學生學習狀態,間接建立成績預測系統,以解決學生成績預測困難、模型復雜等問題,通過研究發現,基于大數據決策樹系統預測學生成績精準率達到94%,對學生成績的監控極為有利,而且也可預測學生成績的提升。

關鍵詞:大數據;決策樹;學生成績;預測模型

近年來,隨著我國高校教學、學生與科研等數據不斷積累,數據挖掘技術被廣泛應用于各個行業,教育數據挖掘也成了越來越多專家學者的關注和研究方向。尤其是2017年在武漢召開的第十屆國際教育數據挖掘大會,將研究數字挖掘的熱潮推向新高度。中國科教事業飛速進步,大學生數量越來越多,高校畢業生綜合素質低、能力不足等問題越來越突出,而創建與素質教育要求相符合,促進教師發展、學生成長以及提高教育教學質量的教育評估體系,是新課程改革中的重要任務[1]。

我國教育部門頒布的《基礎教育課程改革綱要》中明確提出,應創建實現學生均衡發展的評估體系,該評估體系既要重點關注學生學業成績,又要挖掘學生多方潛能,幫助學生正確認識自我,創建自信心,從而將評價體系的教育功能充分發揮出來,使學生綜合水平得到提升[2]。所以,科技飛速發展的現階段,高校應充分發揮數據挖掘技術的功能,通過分析預測學生成績,創建大數據決策樹,對學生成績的影響因素進行科學分析,預測學生發展趨勢,幫助教師客觀評價學生和正確引導學生,保證學生實現全面發展。

一、大數據決策樹系統的框架

大數據決策樹系統的模塊組成包括數據源、數據獲取和處理、預測成績及預測對象,其中數據源主要為輔導員、任課教師、學生及舍友等與該學生學習成績存在密切相關性的信息來源。大數據決策樹系統基于學校教學現狀,選擇和學生成績有密切關系的2~3個數據源,其中數據獲取模塊的功能可以解決快速從數據源中獲取高效信息的問題[3]。

信息化時代下,通過互聯網、物聯網等相關信息平臺傳遞信息,是獲取數據的重要途徑。數據處理模塊的功能是將原始數據轉變為能夠直接輸入大數據算法,一般需要基于原始數據特性,對數據展開標準化、缺失值和異常值的處理,作為大數據決策樹系統關鍵模塊,成績預測模塊根據相關算法和成績模塊預測學生的未來成績[4]。成績預測結果產生后,需要學生反思現階段的學習狀態,同時向數據源處輸出學生成績,為下次預測學習成績奠定基礎,此為預測對象模塊的重中之重。大數據決策樹框架如圖1所示。

二、基于大數據決策樹的學生成績分析與預測模型設計

大數據決策樹系統有五大模塊,各模塊分析學生成績與預測模型設計如下:

(一)數據源、數據獲取和預測對象

以往數據源獲取和管理方法沒有與高校網絡信息平臺發展現狀相結合,造成數據獲取與反饋效率非常低。為實現信息傳遞效率與準確率的提升,預測模型設計結合互聯網信息平臺,設計信息傳遞模塊,圖2為信息平臺為中心的整體結構示意圖。

現階段,被廣泛用于數據處理和人工智能領域的編程語言為Python,大數據決策樹系統通過Python語言實現,其網絡信息提交和獲取庫包的功能非常強大,其中包括Httplib、Urllib以及Urllib2,同時還應用正則表達和數據處理模塊。具體實現過程如下。

連接互聯網信息平臺,關鍵函數為:

HTTPConnection(host[,port[,stict[,timeout]]])

在以上關鍵函數中,port代表網絡信息平臺端口號;host代表網絡信息平臺對應地址信息或者域名;timeout代表超時時間,如果連接時間超時,系統就會發出信息異常信號[5]。

將相關數據請求發送至互聯網信息平臺,關鍵函數為:

通過HTTP連接過程中應用到的request方式,將數據請求發送至互聯網信息平臺中,其中M表示的是請求發送方式,根據通信協議自主選擇get與post方式。Address代表資源獲取對應地址,最后選擇所需提交至服務器數據,兩者均會對通信協議進行有效安裝,同時選擇對應資源地址,這樣就能將數據提交給網絡信息平臺[6]。

對網絡信息平臺的響應獲取函數為:

HTTP響應對象是返回值,所含信息包括獲取響應字節數據、頭部數據。依照所得響應數據規則,能夠將該系統所需數據解析出來。

(二)相關數據處理

大數據決策樹系統中,數據處理模塊包括處理缺失值、處理離散量和連續量兩大部分,主要目的在于轉換所得原始數據,利用大數據算法對標準數據進行有效輸入。

1.處理異常值

近年來,高?;ヂ摼W信息平臺存在逐漸完善的反饋機制與數據更新狀態,加之HTTP協議握手制度,自高校網絡信息平臺中直接獲取數據通常會存在異常值問題,這已并非數據準確率問題,重點是數據缺失[7]。對缺失值處理效果進行綜合考慮,通過數據統計特性值對大數據決策樹系統進行有效處理,依照不同缺失值特性對其統計特性進行選擇,采用Python語言將統計特性關鍵代碼提取出來,所用庫是科學計算庫Numpy。

2.處理數據量

本次預測模型設計所用方法為決策樹算法,所以需要應用到離散數據量。依照離散狀態,可將離散數據劃分為不同類別。在連續值方面,必須離散化處理,才能實現數據區分度的提升。Python庫內,通過離散化方式cut( ),以下為具體定義:

cut(D,B,R=False,L=NULL)

在以上定義中,D代表的是一維數據,R代表分組區間的閉合與否;B代表的是分割點值;L則表示對應分組標簽,在對離散化方法進行應用過程中,應基于B對D進行離散化,同時返回離散化數據對象,使數據實現連續離散化目的。

(三)建立成績預測模塊

當前,成績預測算法主要集中于預測運動員、體育生的成績,通常成績預測會對歷史成績與對象狀態進行預測,并將最終預測數據直接計算出來,該思路或較低預測精度,很難滿足實際應用需求。如果預測模型比較復雜,則有助于提升預測精度,然而也會出現運算量大、預測結果過擬合等問題,這就要提出基于預測對象分類的成績預測算法,即不直接預測學生的成績,關鍵在于劃分預測對象成績變化為各個區間,對學生成績變化量進行分類預測,依照分類結果,間接預測學生成績,預測流程如圖3所示。

現階段,大數據分類算法包括決策樹算法、K-Means、神經網絡以及支持向量機等,相關研究選擇K-Means算法對花朵授粉和減速箱狀態進行分類。但是K-Mean算法中,確定K值始終是這一算法的難點。也有研究采用支持向量機理論對手語、表情和暫態穩定故障進行分類,但該算法對缺失數據環節進行預測的敏感度較低,也很難解決非線性問題。還有文獻研究,通過神經網絡算法對草地和圖像進行分類,結果發現,神經網絡非線性擬合能力非常強,但是神經網絡的參數比較多,而且存在較大的運算量。

三、基于大數據決策樹的學生成績預測

本次應用大數據決策樹中的ID3算法,根據待分類數據內各特征信息增益進行決策樹葉子節點與根節點構造?;诖髷祿Q策樹算法的運算過程如下。

a.計算信息熵,具體計算公式為:

也就是說,各特征概率與概率值自然對數的和,表征數據集有序程度。大數據決策樹下的構思理念,就是采用最少根節點,提高數據集的有序性。

b.所謂信息熵增益,其實就是某屬性刪除后和該屬性刪除前信息熵的差,大數據決策樹要求將信息熵增益屬性最大值當作新根節點,由此就能構造大數據決策樹。

四、基于大數據決策樹學生成績分析的實驗驗證

選取某高校的175名學生為研究對象,對其期末考試進行實驗驗證。預測對象實驗如下:所選特征包括學生階段心理測評狀態(Psy)、作業完成率(Work)、出勤率(Attend)、學分成績(Cur)、平時成績(Usual)。階段心理測評狀態屬于離散數據,其他屬于連續數據。

對五大特征數據信息增益進行計算,明確相對應決策樹根節點,將不同特征的信息熵增益計算出來,具體如表1所示。從表1數據可知,作業完成率屬性信息增益較高,將作業完成率視為第一根節點,對決策樹進行創建,從五類領域劃分學生狀態,采用I-V表示。

通過決策樹預測學生成績,結果見表2。

從表2可以看出,模型預測學生成績的正確率為94%,可見該體系存在有效性與正確性。

五、結束語

基于大數據決策樹的學生成績預測模型,根據學生學習狀態,為其間接建立成績預測系統,有助于學生成績預測困難、模型復雜等問題的有效解決。研究發現,基于大數據決策樹系統預測學生成績的準確率為94%,有助于監控高校學生成績。但該系統也有不足之處,具體在于:人為因素會對學生成績特征選取產生影響,成績一次性特征增加了數據收集難度。

作者單位:孫劍 瀘州職業技術學院四川瀘州

參 ?考 ?文 ?獻

[1]胡柳青,趙剛.基于數據挖掘下機器學習算法對學生成績影響因素的研究[J].南昌航空大學學報(自然科學版),2021,35(03):43-48,97.

[2]吳曉倩,權麗麗,陳誠,等.基于大數據決策樹算法的學生成績分析與預測模型仿真[J].電子設計工程,2020,28(24):138-141,146.

[3]蘇錦.數據關聯分析與挖掘技術在學生信息中的應用研究[D].廣西大學,2019.

[4]吳強,方睿,韓斌,等.基于決策樹-LMBP神經網絡的學生成績分析及預測模型的研究[J].成都信息工程大學學報,2018,33(03):274-280.

[5]金詩譜.基于屬性相關性分析的高校學生成績分析應用研究[J].西安文理學院學報(自然科學版),2018,21(01):30-33.

[6]胡在林.關聯規則和決策樹組合算法在學生成績分析中的應用與研究[D].青島理工大學,2017.

[7]黃炎,王紫玉,黃方亮.數據挖掘技術在高校學生成績分析中的應用與研究[J].蘭州文理學院學報(自然科學版),2016,30(03):64-68,78.

猜你喜歡
學生成績預測模型決策樹
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
淺析數據挖掘技術在學生管理系統中的應用
基于神經網絡的北京市房價預測研究
中國石化J分公司油氣開發投資分析與預測模型研究
高職數學分層教學學生成績評價的數學模型
基于IOWHA法的物流需求組合改善與預測模型構建
Excel+VBA開發之《學生成績管理系統》的設計與實現
基于決策樹的出租車乘客出行目的識別
基于預測模型加擾動控制的最大功率點跟蹤研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合