?

基于雙注意力機制的成績預測

2023-12-19 09:21張文娟楊皓哲
關鍵詞:注意力學習者預測

張文娟,張 彬,楊皓哲

(同濟大學機械與能源工程學院,上海 201800)

隨著教育信息化的發展,教育數據挖掘逐漸成為了教育行業關心的重要課題[1]. 教育數據挖掘旨在通過對海量的教育數據的分析,發現隱藏其中的規律和聯系,從而幫助教育者更好提高教育質量和教學水平. 合理的學生成績預測被認為能夠有效幫助學生提高學習成績.

為了實現該目標,Okubo等[2]提出成績預測分析系統應包含以下三個功能:學習成績預測、確定成績重要影響因素、確定反饋時間. 準確的成績預測可以提前預見學生的最終成績從而幫助學生避免最壞結果;重要影響因素的確定可以幫助學生有的放矢的改進學習方法,提高學習成績;合理的反饋時間點既可以較準確的預測學生成績,又可以給學生留下足夠的反應時間. 目前國內外大多數研究也都是圍繞這三個方面展開. 例如,Pandey等[3]構建了決策樹模型對學生學習成績進行預測,但僅使用信息增益率篩選了相對重要的影響因素進行預測,沒有考慮所有因素;Okubo等[4]對比了循環神經網絡(RNN)與傳統回歸分析對學生成績的預測效果,得出了RNN網絡早期預測效果更優的結論;Lu等[5]利用主成分回歸法來實現學生成績的預測,并且通過設置多時間段對比實驗實現了反饋時間的確定;Aydodu等[6]在對前人研究方法進行整理對比的基礎上得出利用人工神經網絡進行學習成績預測的方法具有更高精度的結論;李夢瑩等[7]利用注意力機制的神經網絡解決了成績重要影響因素的確定問題,但沒有考慮對學習者的及時反饋;Hassan等[8]的研究中以五周為間隔設置等距實驗點,通過對比實驗找到了合適的預測與反饋時間點;杜欣遠[9]在研究中按照數據集的時間跨度進行平均分割來確定預測點,并對比預測效果來選擇預測與反饋時間點;Waheed等[10]利用神經網絡算法,通過多時間段對比實驗找到了滿意的反饋時間點,既達到了較高的預測準確率,又留給學生足夠的反應時間.

分析以上文獻,可以看出在成績預測問題上神經網絡算法比傳統算法更具優勢,同時大多數研究都是基于不同學習行為等因素對學習者影響程度一致的假設展開,并且對時間因素、反饋時間確定等方面研究較少且存在程序繁瑣、結果普遍性差等問題,缺乏快速有效尋找合理預測與反饋時間點的方法. 同時,Baker[11]在研究中指出,學習者使用學習軟件時的點擊率、回復水平以及時間、順序等多個因素均在教育數據的研究中起著重要作用. 因此,如何更全面準確地利用學習行為和時間序列等數據來對學生成績進行預測,如何能夠在較高預測準確度下快速找到較早的預測時間點,并將較為重要的學習行為反饋給學習者,已經成為亟需解決的一些問題. 對此,本文提出了一種集成了屬性特征注意力機制、時間步注意力機制、GRU和一維CNN的基于雙注意力機制的GRU-CNN神經網絡模型(dual-attention-GRU-CNN,DA-GRU-CNN),在實現較高準確度的學生成績預測、確定成績重要影響因素的同時,快捷地確定反饋時間點.

1 問題描述與假設

虛擬學習環境(virtual learning environments,VLE)為學習者提供了一個資源豐富的網絡學習平臺,同時也記錄了學習者的學習行為數據. 本文利用VLE中保存的學習行為數據,對學習者的期末成績進行預測,同時將不同的學習行為和學習周期內各時間段對學習者期末成績的影響程度進行可視化分析,從而找到重要的學習行為和可以及時對學習者進行反饋的時間點.

為有效描述基于VLE的大數據預測,做出以下假設:

(1)VLE準確記錄了學習者在學習過程中的點擊流軌跡,不存在記錄錯誤、遺漏的情況.

(2)每個學習者都具有獨一無二的學號,記為學習者i,設n為學習者的個數,V為在線學習者的集合,有|V|=n.

(3)課程期末進行考試,最終成績y分為Distinction(優秀)、Pass(及格)、Fail(不及格)、Withdrawn(棄考)四個等級,記為Y=(y1,y2,y3,y4)T,其中y1,y2,y3,y4取值為0或1,且y1+y2+y3+y4=1.

(4)不同學期開設的同一門課程內容完全一致,C為課程集合,m為課程數量,g表示第g門課程,則C={cg|g=1…m},P為學期集合,q為學期數,h表示第h學期,則P={ph|h=1…q};同一學習者能且只能在不同學期選修同一門課程,同一學習者選修的不同課程或不同學期的同一課程視為不同記錄,記為Ci,g,h,表示學生i在第h學期選修課程g的記錄.

(5)設一門課程包括k個學習周,T為學習周的集合,|T|=k,t表示第t周.

(6)學習者學習特征信息:設X∈Rn*k*d表示學習者的學習行為特征,n為學習者數量,k為學習者學習行為特征的時間步長度,d為學習者學習行為特征向量的維度,l表示第l個維度.

(7)學習行為特征:設Ai∈Rk*d表示學生i的學習行為特征,即有X=[A1,A2,…An],該數據通過虛擬學習系統的日志文件獲取.

(8)對學習者的反饋是靜態的,即對學生僅進行一次反饋,不考慮學生因獲得反饋調整學習活動后繼續進行反饋的情況.

2 模型算法描述

本文旨在對VLE系統中存儲的教育數據進行挖掘與分析,實現對成績的準確預測,并分析出影響不同學生最終學習成績的關鍵學習時段和學習行為中的重要影響因素. 根據Aydodu等[6]的結論,在學生成績預測方面人工神經網絡模型比傳統預測方法具有更好的性能,因此本文以神經網絡為基礎來實現對學生成績的預測. 同時,考慮到不同學習行為和不同時間階段對最終學習成績的影響程度是不同的,本文分別針對學習者的學習行為屬性特征和學習的時間步特征加入注意力機制,來賦予各學習行為特征和時間步特征對結果影響的合適權重,從而解決了數據的不同屬性特征和時間步對最終結果重要性不同的問題,實現了對信息更為充分的利用. 另外,本文集成了GRU模型和一維CNN模型對時間序列數據處理的優勢,將其聯合起來引入到VLE大數據分析中,取得了較好的預測精度.

本文所提出的集成了CNN與雙注意力機制GRU的模型(DA-CNN-GRU)結構框架如圖1所示,模型主要包含6層:輸入編碼層(input embedding layer)、屬性特征注意力層(attribute attention layer)、GRU層(GRU layer)、時間步注意力層(timestep attention layer)、卷積層(CNN layer)、標簽預測層(label prediction layer),圖中Acquiring data表示原始數據集,Dimension Attention 表示屬性維度注意力模塊,Timestep Attention表示時間步注意力模塊,Global AvgPool表示全局平均池化模塊,Concatenation表示特征融合模塊,MLP表示多層感知機模塊.

圖1 DA-CNN-GRU 模型結構圖

2.1 輸入編碼層

輸入編碼層主要是對輸入數據中的各屬性值以及監督學習情況下的標簽進行編碼預處理. 本文采用因子分解(factorize)方式對學生行為屬性進行編碼. 預測標簽分為四類(優秀、及格、不及格、棄考),對此采用one-hot編碼. 從而生成學生i的特征矩陣Ai∈Rk*d和成績向量yi.

(1)

Y=(y1,y2,y3,y4)T,

(2)

式中,d為學生學習行為的屬性特征向量,在本文中固定為20;k為學生學習行為的時間步向量,在本文中固定為38;y1,y2,y3,y4取值為0或1,其中有且只有一項為1.

2.2 屬性特征注意力層

通過對各屬性特征進行編碼后,可以得到特征矩陣A和標簽Y.考慮到學習行為的不同屬性特征對最終成績的影響程度不同,本文設計了屬性特征注意力機制來解決該問題.屬性注意力機制是根據各學習行為屬性與最終成績之間的關系,為各屬性特征分配合適的注意力權重,從而解決不同屬性因素對學生最終成績的影響程度不同的問題.本文采用多層感知機(multi-layer perceptron,MLP)來進行注意力權重的分配,將學生特征矩陣A中的每一列向量Al視為對應屬性特征向量,即Al=(a1,l,a2,l,…,ak,l)T,代表了第l種學習行為的特征向量,at,l代表行為l的第t維.由于每個學生都記錄有共k周的行為數據,因此每一個行為都具有k個維度,從而利用MLP可以得到任意學習行為特征向量Al的注意力權重αl,具體計算過程為:

ul=MLP(Al),l=1,2,…,d.

(3)

用歸一化指數函數(softmax)對所得權重進行歸一化處理,得到各學習行為特征的注意力得分αl=(α1,α2,…,αd),該過程可以形式化表示為:

(4)

式中,αl指第l個學習行為特征的注意力得分,該得分越高則代表該學習行為對學生最終成績的影響程度越大,因此向量α可以反映在學習過程中不同學習行為的重要程度.將各學習行為注意力得分向量α與學習行為特征矩陣A中對應位置的學習行為特征值進行加權求和,得到學生屬性特征f1,具體計算過程為:

(5)

2.3 GRU層

GRU網絡是RNN的一種特殊形式,本文用其來處理學生行為的時間步信息,GRU可用式(6)~(9)描述:

zt=σ(Wz·[ht-1,xt]),

(6)

rt=σ(Wr·[ht-1,xt]),

(7)

(8)

(9)

式中,xt、ht分別代表每個GRU的輸入和輸出,在本文中即代表學生i第t周的學習行為向量和經過GRU處理的第t周隱藏狀態;W*代表對應的權重系數矩陣;zt、rt分別表示GRU中t時刻更新門和重置門的函數表達式;σ表示sigmoid激活函數,其輸出值的取值范圍為[0,1];tanh表示雙曲線正切激活函數.將經過輸入編碼層處理的學生特征矩陣A中的每一行向量Aj*視為對應的時間步向量,即Aj*=(aj,1,aj,2,…,aj,d),代表了第j個時間步即第j周,aj,l表示第j個時間步的第l個學習行為.由于VLE系統中共記錄了d種學習行為,因此每一個時間步都包含d維.把每一個學生的Aj*輸入GRU層,通過輸出每個GRU在t時刻的狀態ht來實現對時間序列數據的編碼ht=(ht,1,ht,2,…,ht,d)T,t=1,2,…,k.

2.4 時間步注意力層

為了解決不同時間段的學習數據對最終成績影響不同的問題,本文對GRU層傳遞的編碼數據h進行時間步賦權,并且可以找出對學生最終成績影響較重時間段,實現及時反饋.學生第t周行為特征向量xt經過GRU層的處理得到隱藏狀態ht,其可以視為利用GRU完成的一種編碼. 該層采用MLP實現對編碼ht進行注意力權重的分配,從而計算出各時間步的注意力權重βt.具體計算步驟為:

vt=MLP(ht),t=1,2,…,k.

(10)

用歸一化指數函數(softmax)對所得權重進行歸一化處理,分別得到各時間步的注意力得分β=(β1,β2,…,βk),該過程可以形式化表示為:

(11)

式中,βt指第t個時間步的注意力得分,該注意力得分越高則表明對應時間步的行為對學生最終成績影響越大,因此可以根據注意力得分向量β來確定反饋時間.將注意力得分向量β與對應的GRU編碼后的時間狀態h進行加權求和,得到學習行為時間步特征,具體計算過程為:

(12)

2.5 卷積層

卷積神經網絡可以對原始數據進行更高層次的表達,從而達到特征提取的目的.本文采用的一維CNN結構常用于處理文本與時間序列數據[12],由數據先驗可知有些時序數據之間存在一些較強的相關性,所以能夠運用CNN來處理其局部特征.本文將學生特征矩陣Ai輸入CNN層,利用一維CNN結構來提取學生行為的時間步數據,卷積層處理得到的學生時間步特征圖Ci可表示為:

Ci=f(Ai?Wi+bi),

(13)

式中,Ai為學生特征矩陣.對一維CNN而言,學生行為屬性維度均默認為d不進行處理,因此僅對時間步維度進行卷積操作.?為卷積操作,Wi為卷積核的權重向量,bi表示偏移量,f(·)為激活函數,本文設置為線性整流函數(rectified linear unit,Relu). 本文利用CNN抽取原始數據特征,挖掘多維數據之間的關系,并將處理后得到的特征圖Ci輸入全局平均池化層(GlobalAvgPool),按列進行平均池化操作,從而得到降維后的平均特征f3.

2.6 標簽預測層

由學習行為屬性注意力層計算得到的基于學習行為屬性的學生特征f1,和由時間步注意力層計算得到的基于學習行為時間步的學生特征f2,是分別從兩個維度進行的學生成績預測,因此所含信息具有互補性,有必要對兩個特征進行融合,以便更全面準確地利用信息對學生成績進行預測.本文選擇以串聯(concatenation)方式進行特征融合,將兩個維度的學習行為特征進行拼接,得到一個完整的學生特征f′,該過程可表示為:

f′=[f1;f2],

(14)

式中,[.;.]表示特征拼接操作.

為了獲得更好的預測性能,對前面得到的學生特征f′和對時間步行提取得到的平均特征f3以串聯(concatenation)方式進行融合,得到更豐富信息特征f,從而提高模型預測性能,該過程表示為:

f=[f′;f3],

(15)

式中,f3為f1與f2進行特征融合后形成的最終特征.

本文采用邏輯回歸的多分類模式對最終特征f進行解碼,利用MLP來實現邏輯回歸的多分類功能,輸出層使用歸一化指數函數(softmax)得到各成績預測類別Y:

Y=MLP(f).

(16)

3 實驗

3.1 數據集

本文在英國開放大學提供的基于虛擬學習環境(VLE)的學習分析數據集(open university learning analytics dataset,OULAD)的基礎上展開實驗[13]. OULAD中共包含22門課程的數據,每門課程開課時間為38周,VLE中共記錄有5種學生基本信息和20種學習行為信息,關于數據集的描述如表1所示. 本文所有實驗都按照8∶2的比例將數據集劃分訓練集和測試集,每次實驗都用訓練集訓練數據,并選擇最優參數,最后用測試集計算各項指標.

表1 數據集描述表

本文選取OULAD數據集中代號為“FFF”的課程的全部數據,定義為數據集“FFF class”,同時引用Hassan等[8]提供的數據集“Pass-Withdraw”,兩數據集中成績分布如表2、表3所示.

表2 “FFF class”數據集成績統計表

表3 “Pass-Withdraw”數據集成績分布表

3.2 實驗參數設置

本文所提出的模型基于深度學習框架Keras展開實驗,考慮到本文所用樣本數量和維度都不是很大,所以模型初步定為單層GRU后經過試驗證明增加更多GRU層一方面會大大增加模型的時間復雜度,另一方面存在過擬合傾向,因此最終定為單層GRU. 為了充分提取輸入樣本特征,注意力層的神經元數量設定為與傳入數據的第三維度數量相同,因此針對不同樣本進行實驗時需要根據輸入樣本的情況進行調整. 為了防止過擬合的產生,在注意力融合層后加入Dropout層,參數設置為0.3,該函數會隨機地使一部分神經元無效,從而在一定程度上防止過擬合. 卷積層數量初步定為3,后根據張永峰等[12]提供的方法進行實驗. 考慮卷積層權重分布情況和訓練過程中誤差變化情況,發現卷積層自第三層開始對模型訓練精準度提升的貢獻很小,因此最終卷積層數量確定為2層. 由于本文選取數據的時間序列最長為38,因此卷積核長度應在1到38之間選擇,所以本文將第一個卷積核長度設為20,數量設為8,卷積核數量以2倍增加,所有卷積核滑動步長均設為1. 最后,采用softmax回歸進行解碼,由一個三層全連接網絡構成,隱含層的激活函數設為“Relu”,輸出層的激活函數為“softmax”. 本模型采用的優化器為Adam,網絡中其余的參數均采用測試效果較好時的參數或默認參數. 網絡結構的具體參數設置需根據不同的數據集的特點來進行調整.

本文采用了準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-Measure)這四個指標進行模型性能度量. 準確率是指分類正確的樣本數量占總樣本數的比例;精確率表示分類正確的正例的數量占所有預測為正例樣本總數的比例;召回率表示分類正確的正例的數量占所有正例樣本總數的比例;F1值是精確率和召回率的調和平均值. 通常認為準確率和F1值越高,模型預測分類性能越好.

3.3 實驗結果與分析

3.3.1 對比實驗

將本文所提出的DA-GRU-CNN模型與支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)、深度長短期記憶網絡(DEEP-LSTM)等三種其他學者用來解決該問題的模型[14]、[15]、[8],以及CNN、DA-GRU(雙注意力GRU模型)等兩個機制消融模型在“FFF class”和“Pass-Withdraw”兩個數據集中進行成績預測效果比較,以驗證本文提出方法的有效性,實驗結果如表4、表5所示.

表4 “FFF class”數據集實驗結果對比

從表4和表5可以看出,首先,相比其他學者在該問題上使用的預測模型,本文提出的DA-GRU-CNN模型在兩個數據集中均取得了較好的效果;其次,對比Hassan等[8]在該數據集上所提出的DEEP-LSTM模型,DA-GRU-CNN模型性能與其十分接近,但是模型的復雜程度遠低于前者,訓練時間和反應時間都大大縮短;最后,在與CNN、DA-GRU兩個消融模型的比較中,本文的模型也取得了更好的效果,這說明CNN模型提取的時序特征與DA-GRU模型對時序數據編碼的特征具有一定的信息互補性,因而兩組特征融合后取得了更好的效果.

3.3.2 學習行為可視化分析

為了挖掘出影響學生成績的具體因素,本文參考李夢瑩等[7]的方法對學生學習行為屬性特征注意力機制進行了權重可視化分析,圖2為利用“FFF class”數據集進行學生成績預測時各學習行為對最終成績的影響程度的權重分布圖. 該圖橫坐標代表各學習行為即屬性特征編號,代表20種學習活動,縱坐標代表該行為所占權重,權重越大表示對應行為對最終成績的影響越大,所有活動的權重之和為1. 分析圖2可知,編號為1,3,9的三個學習行為對學生最終成績影響最大,這三個行為分別為課程任務的完成次數、課程主頁的瀏覽次數和課堂測驗的完成次數. 由此可以推斷出,積極完成課堂測驗與課程任務,認真學習課程主頁內容是提高“FFF”課程成績的關鍵,在對該課程的學習者進行成績反饋時應該重點強調這三項活動,從而達到幫助其提高最終成績的目的.

圖2 “FFF class”學習行為注意力權重

3.3.3 反饋時間可視化分析

為了能夠利用預測分析結果及時對學生進行反饋,從而給予學生足夠的學習時間來提高學習成績,本文在模型中設計了針對時間步的注意力機制,通過對全時間步的注意力權重可視化,來分析各時間步對學生最終成績的影響程度,從而找到一個合適的學習周,在此周之前所有周的注意力權重之和可以達到一個較高的值,因此利用該周之前的各周數據即可以較準確的進行最終成績預測,最終實現及時反饋.

在本文之前,不少專家學者對反饋時間的確定問題做出過研究,但大多是基于大量實驗來尋找可行點,如Hassan 等[8]曾利用“Pass-Withdraw”數據集進行實驗研究,尋找最佳的反饋時間段,從而達到反饋的及時性與準確性的平衡,其實驗結果如圖3所示. Hassan 等[8]利用其所提出的多層LSTM模型,以5周為間隔在“Pass-Withdraw”數據集上設置對比實驗,圖3的橫坐標為模型訓練次數,縱坐標表示預測學生成績的準確率,5條線分別代表利用前5周、前10周、前15周、前20周、前25周的學生學習行為數據進行實驗的結果. 實驗結果顯示當反饋時間選為25周時,預測學生成績時可以取得超過95%的準確率,同時也給學生留下了13周的反應時間來提高其學習成績,因此在第25周時對預測成績等級處于“Withdraw”的學生進行反饋,督促其學習具有比較好的效果.

圖3 Hassan團隊實驗結果

為了便于比較,本文也利用“DA-GRU-CNN”模型在“Pass-Withdraw”數據集上進行實驗,對38周學習行為進行時間步注意力權重可視化分析,權重分布圖如圖4所示. 其中橫坐標代表各周的標號,從0到37代表38個學習周,每一周的學習活動都會對最終成績產生一定的影響;縱坐標代表注意力權重的大小,38周活動的權重之和為1,某一周的注意力權重越大,說明該周對學生最終成績影響程度越大. 從圖中可以看出在“Pass-Withdraw”數據集中,影響最終成績的時間段主要集中在學期的前半部分,第26周以前各周對最終成績的影響權重總和已經超過90%,這也解釋了Hassan等的實驗可以在第25周左右取得較好預測效果的原因.

圖4 “Pass-Withdraw”時間步注意力權重分布圖

雖然Hanssan等的實驗結果可以在“Pass-Withdraw”數據集上取得較好的結果,但是其通過定性實驗分析來尋找到的結果的反饋及時性與精度的平衡點必然是十分依賴其目標數據集的,適應性較差,一旦更換數據集,就要重新進行實驗來尋找平衡點. 因此,為了提升反饋的準確性,實現個性化反饋,本文利用“FFF課程”數據集繼續實驗,將分類實驗進一步細化為二分類實驗,即將“FFF課程”數據集按照學生最終成績劃分為“FFF Pass-Fail”、“FFF Distinction-Pass”和“FFF Pass-Withdraw”三組切片,從而可以對不同情況的學習者進行反饋,實現個性化學習. 本文以“FFF Pass-Fail”這個切片為例,繼續展開研究,其中僅包含FFF課程中所有成績為“Pass”和“Fail”的學習者行為數據.

首先在Hanssan等提出的第25周這一時間點展開實驗,由于表4和表5已經對多種算法的情況進行了對比分析,所以此處不再贅述其他算法的性能,僅用Hanssan等使用的DEEP-LSTM模型和本文提出的DA-GRU-CNN模型進行對比,對比結果如表6所示. 結果顯示,兩種模型在第25周這個節點均未取得比較好的預測效果,因此可以看出對于FFF課程的“Pass-Fail”類別的學生成績進行預測時,第25周并非反饋及時性與準確性的平衡點. 同時,在這種情況下,本文所提出的DA-GRU-CNN模型預測準確率比LSTM模型提高了接近十個百分點,再結合表4、表5的信息可以得出“DA-GRU-CNN”模型對殘缺信息的利用水平要高于LSTM模型的結論. 在此基礎上,繼續利用“DA-GRU-CNN模型”對38周學習時長進行時間步權重分布可視化分析,結果如圖5所示.

表6 “FFF Pass-Fail”25周實驗結果

圖5 “FFF Pass-Fail”時間步權重分布圖

分析圖5可知,當預測數據來源時間段選擇為0到25周時,有大量高權重的學習周沒有被包含在該時間段內,因而出現了預測準確率較低的情況. 若要取權重之和大于0.9的時間段,至少要0到33周,因此推測當反饋時間定在第33周時可以取得比較好的準確率. 為了驗證推測,本文從利用0至19周的數據進行預測實驗,變量梯度設置為1周,變為利用0至38周的數據進行預測,來尋找可以取得較好預測準確率水平的點,具體實驗結果見圖6.

圖6 “FFF Pass-Fail”預測準確率變化

圖6中橫坐標表示周數的變化,對應周數表示利用從第0周到該周的數據進行成績預測;縱坐標表示預測的準確率. 該圖展現了DT、SVM、DEEP-LSTM和DA-GRU-CNN四個模型的預測準確率隨時間增加而變化的情況. 從該圖可以看出第33周以前四個模型的預測準確率隨周數上升而上升幅度較大,第33周之后上升幅度較小,且第33周時預測準確率均達到較高水平,與圖5所顯示的權重分配比例具有較高的一致性,從而可以判定反饋時間定為第33周時可以取得預測準確率與反饋及時性的平衡.

根據以上實驗可以看出,本文提出的“DA-GRU-CNN”模型在反饋時間的確定上具有更高的準確性與更好的適應性,不僅使得尋找反饋時間平衡點的過程更為簡單,而且能夠更好的適應不同的數據集,大大減少了尋找反饋時間平衡點的工作量.

3.4 模型適用性范圍分析

在預測學習分析(predictive learning analytics,PLA)中,教育數據往往會來自不同的教育場景,如大學教育、中小學教育、MOOC平臺教育等,而算法模型對不同場景的數據處理能力是不同的. Hlosta等[16]在研究中指出,預測學習分析中解決方案的結果高度取決于可供分析的數據,而這些數據取決于其來源教育機構的類型. 然而,這些方法的思路常是相通的,不同的是這些場景下的特征需要根據實際情況進行重新選擇,并且大致將當前的教育機制劃分為了中小學教育、大學教育、遠程成人教育和MOOC教育等類型. 因此有必要對本文提出的模型進行適用性范圍分析,從而改善模型的使用并促進進一步研究的展開.

為了對不同場景下的“DA-GRU-CNN”模型適用性進行測試,本文采用了由阿里云天池實驗室提供的公開數據集“students-academic-performance-dataset”(后文稱“sapd”數據集)對多種算法模型預測性能進行測試比較. 該數據集主要記錄了中小學學生課堂表現,包含一學期內學生的八項學習行為,標記為學習行為0到7,分別代表了學生負責家長、課堂舉手次數、學習資源查看次數、公告查看次數、參與討論次數、家長參與學校調查情況、家長滿意度、缺課次數. 預測結果如表7所示. 同時,利用本文所提出的“DA-GRU-CNN”模型對sapd數據集中的學習行為權重分布進行可視化分析,結果如圖7所示.

表7 “students-academic-performance-dataset”實驗結果

圖7 “students-academic-performance-dataset”學習行為注意力權重

根據表7實驗結果可知,在對該數據集的處理上,本文所提出的“DA-GRU-CNN”模型效果與其他模型相近,沒有突出優勢. 分析實驗過程可知,由于該數據集是以學期為單位進行的總體統計,而非按照時間序列詳細統計學生學習過程中的各階段數據,因此本文所提出的模型無法完全發揮針對數據時序特征的優勢. 由此可以得出結論,本文所提出的“DA-GRU-CNN”模型對數據細節要求較高,需要相關數據能夠描述學習者在各階段的學習行為特征,因此該模型需要在MOOC平臺等具有強大數據搜集功能的虛擬學習環境中才可以發揮優勢. 另外,從圖7中可以看出,1、2、3、7這四項行為對學生成績影響權重較大,即課堂舉手次數、學習資源查看次數、公告查看次數和缺課次數這四項行為對學生成績影響較大. 同時,對比Amrieh等[17]提出的基于信息增益的濾波器對該數據集進行特征選擇的實驗結果(圖8),可以看出兩種算法所提取的重要學習行為基本一致,由此也可以證明本文所提出算法可以較為準確的選擇出對學生成績影響較大的學習行為.

圖8 Amrieh團隊濾波實驗結果

前文實驗中采用的“FFF class”和“sapd”兩類數據集分別是遠程成人教育數據和中小學教育數據. 經過本文實驗分析可以看出,在遠程成人教育中,對成績影響較大的學習行為主要是課程任務的完成次數、課程主頁的瀏覽次數、課堂測驗的完成次數三項活動;而在中小學教育中成績影響較大的學習行為主要是課堂舉手次數、學習資源查看次數、公告查看次數和缺課次數. 對比兩者的影響行為可以發現在兩種教育類型下既存在同樣的重要行為又存在不同的重要行為. 首先,無論是遠程成人教育中的“課程主頁瀏覽次數”還是中小學教育中的“學習資源查看次數”都是對學生學習課程資料次數的統計. 由此可以看出,無論是遠程成人教育還是中小學教育都需要重點關注學生對課程資料的學習過程. 同時,成人教育中“課程任務的完成次數”和“課堂測驗的完成次數”等行為都是對學到知識的應用和練習,由此可以看出遠程成人教育中對課程中學到知識的練習水平對學生成績影響更大,而中小學教育中“課堂舉手次數”“公告查看次數”和“缺課次數”等行為更多反映的是學生在受教育過程中與教育者的互動水平. 對比兩者的不同可以推測由于成人和中小學生的學習意愿、精力水平等受教育對象自身特點的不同以及所學習知識的難度不同,對成績有較大影響的學習行為也不同,因此需要針對不同受教育人群設計不同側重的教育機制.

4 結論

本文針對虛擬學習環境(VLE)中的成績預測與結果反饋問題進行了研究. 具體研究內容如下:(1)提出了一種基于大數據分析確定反饋時間的方法,建立了集成雙注意力機制的GRU與一維CNN的神經網絡模型(DA-GRU-CNN);(2)針對確定重要成績影響因素和反饋時間的問題設計了雙注意力機制GRU算法;(3)在兩個公開數據集上進行了實驗,結果表明本文提出的模型預測性能較好,能夠有效篩選出影響學生成績的重要學習行為,并且可以更為快捷地確定反饋時間,模型普適性更好. 后續,一方面可以對預測結果的動態反饋問題繼續展開研究,從而進一步提高反饋效果,幫助學習者提升成績;另一方面還可以針對邏輯性較強或抽象性較強的課程產生的數據分別展開研究,進一步提高模型效果.

猜你喜歡
注意力學習者預測
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
讓注意力“飛”回來
你是哪種類型的學習者
十二星座是什么類型的學習者
“揚眼”APP:讓注意力“變現”
不必預測未來,只需把握現在
漢語學習自主學習者特征初探
A Beautiful Way Of Looking At Things
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合