?

面向序列診斷的強化計算機自適應測驗方法

2024-03-02 07:05劉子瑞吳金澤姚方舟陳恩紅王士進
模式識別與人工智能 2024年1期
關鍵詞:畫像測驗答題

劉子瑞 吳金澤 姚方舟 劉 淇 陳恩紅 沙 晶 王士進 蘇 喻

智能教育是通過對學生學習能力、認知水平的研究和分析,選擇合適的教育資源,為學生量身定制教育計劃與目標的教育方式[1].因此智能教育能為學生提供更豐富的教育資源以及更自由的學習環境[2].為了滿足這個需求,智能教育場景中往往需要對學生整體知識的掌握程度進行診斷,為后續試題的推薦與學習提供依據,因此計算機自適應測驗(Computerized Adaptive Testing, CAT)[3]得到應用.CAT是個性化在線教育中一種前沿的測驗方式,其目標是高效診斷考生對于所需掌握概念的知識水平,減少測驗時間.

CAT根據對學生能力的當前估計,為其選擇最合適的題目.具體可分為兩步.1)基于學生當前作答情況實時更新學生的知識狀態.2)根據知識狀態為每位學生自動選擇合適的題目.相比傳統的紙筆考試,CAT具有高效節約、施測靈活和安全性高等優勢,現已廣泛用于各種標準化考試,如GRE(Gra-duate Record Examination)[4].

然而,現有CAT的研究主要是基于認知診斷模型進行的,完全忽略學生作答之間的序列性.在真實的智能教育場景,如基于智能終端或智能教育應用中,不同能力的學生測驗需求往往是不同的,優秀的學生希望去做一些難題以提升自己,而學習能力較一般的學生希望通過作答簡單題以查漏補缺[5].如果不考慮學生以往的能力,使用傳統的自適應測驗框架,可能會使學生花費大量的時間在不必要測驗的題目上,從而大幅降低學生的積極性[6].同時,現有自適應測驗方法通常獨立測驗學生在某個知識概念上的掌握程度,因此自適應測驗在智能教育場景應用時面臨著如下問題.

1)目標復雜.現有CAT選題策略主要目標只包括診斷模型的準確率,然而在智能教育場景下,模型不僅需要關注對學生能力測量的準確性,還需要關注學生做題難度的變化趨勢、學生答題的時長等會影響學生的作答體驗和積極性的因素[6].

2)知識稀疏.真實的智能教育場景下知識點數量較多,而學生做題數量有限,大多數情況下一個章節包含的知識點數大于測試的題目數,因此在測驗中選擇的知識點相比知識點總量是稀疏的.同時,考慮到學生答題存在猜測和失誤的可能,并且每道題的難度不同,通常僅測驗一道題目無法充分判斷一個知識點是否掌握.若不考慮知識點之間的關聯,在知識稀疏的場景下想要對每個知識點進行測驗是不現實的.

針對上述問題,本文主要研究在智能教育場景下的計算機自適應測驗方法,嘗試建模學生作答之間的序列性,并通過強化學習[7],構建用于實現自適應測驗選題策略的模型.具體而言,首先提出用于智能教育場景的面向序列診斷的強化計算機自適應測驗方法,包括基于序列診斷的學生模擬器、用于診斷學生知識點掌握程度的學生畫像模型以及自適應測驗的選題策略.在此基礎上提出包括學生畫像的薄弱點準確率、預測表現耦合、自適應測驗時長、測驗異常率和測驗的難度結構這5個針對選題策略的評價指標,評估模型效果以及保證學生在該選題策略下的作答體驗.進一步,提出基于強化學習的計算機自適應測驗(Reinforcement Learning Based CAT, RCAT)選題策略,利用矛盾學習構建知識點之間的關聯,使用雙通道性能學習以及矛盾學習的機制,建模復雜的智能教育環境,同時利用深度Q網絡(DeepQ-Network, DQN)[8]學習選題策略,得到一個通過估計學生的預測累計獎勵值以分配題目的CAT選題策略.最后,在學生模擬器的環境下進行大量實驗,對RCAT選題策略進行敏感性測試以及消融實驗,并從模型效果、學生作答體驗等角度對其進行評估,由此驗證RCAT選題策略的有效性.

1 相關工作

1.1 知識追蹤與序列診斷

知識追蹤[9]根據學生以往的答題序列,對學生的知識掌握情況進行建模,并預測學生對知識的掌握程度.知識追蹤的定義是通過分析學生的學習記錄,預測學生的后續表現,學習記錄可包含學生回答題目的信息,如題目的知識點、題目難度、題目類型以及題目作答正確與否.

隨著在線教育的普及,知識追蹤的重要性逐漸提高.最早的知識追蹤模型是貝葉斯知識追蹤(Bayesian Knowledge Tracing, BKT)[10],利用隱馬爾可夫模型對學生的知識邊緣狀態建模.隨著計算機和深度學習的快速發展,深度神經網絡能有效提取特征這一特點被認為適用于對學生復雜的認知過程建模.Piech等[11]提出DKT(Deep Knowledge Tra-cing),利用循環神經網絡(Recurrent Neural Net-works, RNN)對學生的知識狀態建模.之后,Zhang等[12]提出DKVMN(Dynamic Key-Value Memory Networks),基于記憶增強神經網絡,存儲潛在的知識點,更新學生的相關知識水平.Nakagawa等[13]提出GKT(Graph-Based Knowledge Tracing),Tong等[14]提出SKT(Structure-Based Knowledge Tracing),分別利用圖神經網絡(Graph Neural Networks, GNN)對知識點中存在的圖結構以及對知識追蹤過程中知識點之間的影響建模.

此外,為了在知識追蹤中提高模型的深度學習能力,有研究者將注意力機制引入知識追蹤模型中,如AKT(Attentive Knowledge Tracing)[15]、SAKT(Self AKT)[16]和CKT(Convolutional Knowledge Tracing)[17].

在一些場景中,模型無法實時收集學生真實的交互數據,可使用知識追蹤對學生的作答記錄進行序列診斷,從而模擬不同學生的作答結果.

1.2 計算機自適應測驗

CAT分為如圖1所示的兩步.

1)計算機根據當前學生的能力自動從題庫中選擇合適的題目給學生作答.

2)在學生作答完成之后,計算機重新診斷學生的能力水平.兩步交替進行,直至達到某個預先設定好的終止規則為止[3].

CAT的系統構建一般包括如下步驟:題庫建設、選題策略、被試特質水平估計和測驗終止規則[18].選題策略是自適應測驗中最重要的一步,目標是選出對學生測驗最有價值的題目.下面將介紹幾種較有效的選題策略.

最早提出的一種選題策略是:若學生答對當前題目,為其分配一個更難的題目;若學生答錯當前題目,為其分配一個相對簡單的題目.然而這種“量身定制式測驗”[19]的選題策略只考慮試題難度和學生的匹配程度,未考慮學生的測驗效率還受題目的區分度和猜測參數影響,于是Lord[20]提出MIC(Maxi-mum Information Criterion)選題策略.MIC選題策略會選擇當前學生能力估計值下具有最大信息量的題目.信息量的度量方式也有很多種,較著名的是Fisher信息量和基于KL散度的平均全域信息量[21].

隨著計算機的快速發展,對學生能力的診斷方式逐漸呈現多樣化和復雜化,簡單的選題策略無法高效判斷作答題目對學生能力診斷的有效性.因此很多研究致力于將深度學習融入CAT的選題策略中.

借鑒主動學習思想,Bi等[22]提出MAAT(Model-Agnostic Adaptive Testing),提供對任何一種學生能力診斷方式都可行的選題方案,這種選題策略并不基于神經網絡的訓練.而BOBCAT(Bilevel Optimiza- tion-Based CAT)[23]和NCAT(Neural CAT)[24]是完全由模型選擇題目的自適應測驗框架,通過學生的答題數據對模型進行訓練,并利用模型給學生分配題目.

然而主流模型使用的評價方式是通過認知診斷模型進行的,未考慮學生測驗過程的序列性,因此在智能教育等學生具有較長歷史作答記錄的場景下表現并不突出.

1.3 強化學習

強化學習(Reinforcement Learning, RL)[7]是一種對智能體進行訓練并讓其按照要求進行一系列決策的機器學習方法,工作流程如圖2所示.

智能體的目標是學習一個可使預期累計獎勵最大的策略.早期的強化學習是Bellman[25]提出的利用動態規劃解決馬爾可夫決策過程(Markov Deci-sion Process, MDP),令MDP成為定義強化學習問題的最普遍形式.

之后,Watkins等[26]提出Q-Learning,成為目前最廣泛使用的強化學習方法之一,但該模型存在狀態數過多等問題.

圖2 強化學習的工作流程

隨著深度學習的發展,DQN[8]利用深度卷積神經網絡擬合Q函數,為解決狀態數過多這一問題提供思路.

由于計算機性能的飛速發展,深度強化學習在各領域都有不錯的表現,如游戲AI[27],甚至智能體可在一些領域達到和人類相當的水平,如圍棋中的AlphaGo等.

CAT是一種基于學生與電腦交互的測驗方式,從圖1與圖2中可看出,CAT形式上與強化學習接近.在以往的研究中,RL能在自適應測驗中表現出不錯性能,但是由于難以在不同的場景下定義獎勵,RL在自適應測驗領域的研究并不廣泛.

2 面向序列診斷的強化計算機自適應測驗方法

本文提出智能教育中面向序列診斷的強化計算機自適應測驗方法,整體流程如圖3所示.整體模型分為學生模擬器、學生畫像模型和基于強化學習的選題策略三部分.學生模擬器負責根據學生以往的表現模擬學生在自適應測驗中的作答情況;學生畫像模型負責根據學生的作答結果為學生進行能力診斷;基于強化學習的選題策略負責根據學生當前表現為學生選擇合適的題目進行測驗.

圖3 本文方法流程圖

2.1 學生作答序列建模

學生的在線學習通??煞譃槿齻€階段:歷史作答階段、當前學習內容的測驗階段和鞏固練習階段.本文學生的在線學習通常以章節為階段,因此當前學習內容為學生當前學習的章節,而學生的作答序列也可按照這三個階段分別劃分為先驗序列、測驗序列與后驗序列.本文提出的自適應測驗框架作用于測驗階段的序列.

如圖4所示,先驗序列是學生在學習當前章節之前的作答記錄,測驗序列是學生在進入當前章節后作答的少量測驗題,后驗序列是學生在測驗之后在這個章節下進行鞏固練習的作答記錄.在本文方法中,先驗序列用于訓練學生模擬器,利用訓練好的學生模擬器與自適應測驗選題策略產生學生模擬測驗序列.真實的測驗序列作為一個基線的選題策略,與上述方法產生的模擬測驗序列進行對比.后驗序列用于計算學生的知識點掌握程度.可根據學生的知識點掌握程度分別評估根據真實測驗序列以及模擬測驗序列得到的畫像模型,基于模擬測驗序列的畫像模型的性能越優于基于真實測驗序列的畫像模型,選題的策略越優.

圖4 學生作答序列示意圖

2.2 基于序列診斷的學生模擬器

在自適應測驗的實驗環境中,利用選題策略為學生選擇題目后,無法直接獲取學生對這些題目的作答結果.因此,本文首先通過先驗序列學習一個學生模擬器,模擬學生對自適應測驗選擇題目的作答結果,從而生成模擬測驗序列.

具體地,對于任意一位學生,先驗序列中的答題記錄為x1,x2,…,xT,

xt=(qj(t),km(t),qsj(t),kcm(t),at).

其中:j(t)表示時刻t學生作答題目的編號;m(t)表示時刻t學生作答知識點的編號;qj(t)表示時刻t學生作答的題目;km(t)表示題目對應的知識點;qsj(t)=1,2,3,4,5,表示題目對應的難度;kcm(t)=1,2,3,4,5,表示知識點對應的難度,難度共分為5檔,數字越大表示難度越低;at∈{0,1},表示學生回答該題目的結果,學生答對該題目值為1,否則值為0.對于xt中的每個參數,使用嵌入方法將其表示為一個向量qj(t),km(t),qsj(t),kcm(t),at,并連接為一個向量:

xt=qj(t)⊕km(t)⊕qsj(t)⊕kcm(t)⊕at.

加入長短記憶神經網絡(Long Short-Term Memory, LSTM)[28]中,

ht,ct=LSTM(ht-1,ct-1,xt).

利用得到的隱藏狀態ht作為時刻t學生能力的表征,輸出

ot+1=WT(ht⊕qj(t+1)⊕km(t+1))+b.

考慮到學生在不掌握的題目上仍可蒙對,以及在掌握的題目上依然有做錯的可能性,因此對每個題目qi引入猜測參數gi和失誤參數si,gi、si為學生模擬器中需要學習的參數.猜測參數gi表示學生未掌握題目i但答對該題目的概率,而失誤參數si表示學生掌握題目i但答錯該題目的概率[29].則學生在時刻t+1能否答對題qj(t+1)的概率為:

yt+1=σ((1-sj(t+1))ot+1+gj(t+1)ot+1).

模型損失函數為:

2.3 學生畫像模型

學生模擬器可根據自適應測驗選擇的題目生成模擬測驗序列,以便學生畫像模型根據作答序列對學生進行能力診斷.學生畫像模型是一個知識點粒度下的模型,目標是診斷學生對各知識點的掌握狀態.與學生模擬器不同,學生畫像模型獨立于學生作答的題目信息,只包括學生作答題目的知識點,以及知識點和題目的難度.具體而言,模型輸入為學生作答記錄中的先驗序列x1,x2,…,xT和模擬測驗序列xT+1,xT+2,…兩部分的結合,xt定義與2.2節相同,仍然作為學生在時刻t的作答記錄,但在嵌入連接過程中不考慮題目信息qj(t),即

再將序列輸入雙層雙向長短記憶神經網絡(Bi-directional LSTM, Bi-LSTM):

其中,

學生的作答狀態如下:

為了強化作答記錄中相關知識點的交互關系,在畫像模型中引入注意力機制[30].具體地,求出作答序列中已作答題目的所有知識點向量構成的矩陣:

K=(km(1),km(2),…,km(T)),

其中km(t)表示學生在時刻t作答的題目對應的知識點qj(t).當前章節ci下所有知識點的嵌入向量構成的矩陣:

K′=(k1,k2,…,k|Kci|).

對K′、K、state使用注意力機制[30]:

state′=Attention(K′,K,state),

其中,Attention函數的定義為

Attention函數會求出矩陣Q和矩陣K的相似度,并根據相似度將矩陣V對應的值加權求和.畫像模型中使用該模塊旨在學習學生已作答的題目對應的知識點與要預測的知識點之間的關聯信息.

將state′和當前章節下的所有知識點向量K′以及對應的難度向量Kd′結合,最終輸出對每個知識點是否掌握的預測結果:

p=σ(WT(state′⊕(K′+Kd′))+b).

在后驗序列中,對于當前章節ci下每個知識點k∈Kci,考慮序列中考察該知識點的前3個題目,若這3個題目學生都作答正確,判定為掌握該知識點,記為Yk=1,否則認為學生未掌握該知識點,記Yk=0.

對于所有的可被觀測到是否掌握的知識點,最終的損失函數為:

2.4 智能教育中的自適應測驗目標

在實際的智能教育場景中,自適應測驗在選擇題目的過程中不僅要關注學生能力測驗的準確性,還要考慮學生的作答體驗,分配的題目既要符合測驗的邏輯,又不能影響學生的答題積極性.

2.4.1 學生畫像的薄弱點準確率

在智能教育中,更快找出學生未掌握的知識點能更高效地為學生提供相應的幫助,因此正確預測一個薄弱知識點相比正確預測一個掌握的知識點更重要.因此,本文提出學生畫像模型中的薄弱點準確率.薄弱點準確率定義為被預測為學生未掌握的知識點中學生實際未掌握的知識點的比例:

其中,FN、TN和混淆矩陣[31]中的定義相同,FN表示學生掌握的知識點中被預測為未掌握的知識點的個數,TN表示學生未掌握的知識點被預測為未掌握知識點的個數.該指標作為衡量畫像模型性能的最重要指標之一,同時也是衡量自適應測驗選題策略優劣的重要指標.

2.4.2 預測表現耦合

在智能教育場景下的自適應測驗中,學生測驗作答的題目不可能覆蓋當前章節的所有知識點,如果學生在一次測驗中作答10道題,答對9題,而對學生知識點掌握程度的畫像結果是學生在15個知識點上只掌握5個知識點,這顯然會影響學生的作答體驗.因此本文提出預測表現耦合,度量學生答題情況與學生能力診斷結果之間的差距.

預測表現耦合是指學生在題目上的平均作答分數和畫像模型給出的已掌握知識點的占比之差的絕對值:

其中,ci表示第i位學生測驗的章節,Kci表示這個章節對應的全部知識點的集合.

預測表現耦合越低,表明學生的作答結果與學生畫像給出的知識點診斷結果越接近,學生作答體驗越優.

2.4.3 自適應測驗時長

在智能教育中,測評時長是影響學生答題積極性的重要因素,過長的作答時間會導致學生的答題積極性降低,可能會出現隨意作答的情況,最終影響測驗的效果.本文希望利用測驗時長衡量模型優劣,然而無法直接估計每位學生的測驗時間,因此本文根據題目難度、類型及教研老師的經驗制定不同題目所需的作答時間表(見表1),并使用測驗的所有題目時長之和作為每位學生自適應測驗的時長.

表1 不同難度與類型的題目的作答時長

2.4.4 測驗異常率

過多的題目或過長的測驗時間都可能影響學生的積極性,而過少的題目或過短的測驗時間會影響畫像的準確性,導致對學生能力的診斷缺乏說服力,因此本文提出測驗異常率,規范選題策略.

本文為不同規模的章節針對測驗題目和測驗時間設計不同的合理范圍,如表2所示.若某位學生的答題數量和答題時長不在合理范圍內,說明測驗選題策略對于該學生存在異常,測驗異常率為選題策略在所有學生測驗中異常的比例:

Abnormal=1-

其中:kci、numi、timei分別表示學生i測驗章節下知識點個數、答題數量以及答題時長;Kj、Nj、Tj表示表2中情況j下的章節下知識點個數、題目范圍、時長范圍的范圍;[·]表示示性函數,當滿足函數中的條件時值為1,不滿足值為0.

表2 不同規模的章節對應的合理測驗題量與時長

2.4.5 測驗的難度結構

良好的學生作答體驗不僅需要合適的時長和題量,還需要與學生能力匹配的試題難度.如果學生上一題作答難題答錯,下一題給它分配更難的題目,或上一題答題答對,下一題分配一道相對簡單的題目,都會影響學生的作答體驗,同時也會影響對學生能力診斷的效率.測驗的難度結構這一指標旨在衡量選題策略選擇題目的難度變化情況和學生作答情況的一致程度:

其中,qsj(t)表示題目qj(t)的難度,[·]的定義與2.4.4節相同,表示示性函數.當學生i在時刻t作答題目難度變化合適時,gt=1,否則,gt=0.

2.5 基于強化學習的計算機自適應測驗選題策略

經過2.4節對測試指標的說明,智能教育場景下自適應測驗目標復雜度量化問題已得到形式化的定義.本節介紹如何在智能教育場景下定義自適應測驗的強化學習任務,并提出基于強化學習的計算機自適應測驗(RCAT)選題策略,利用多目標獎勵的方式對2.4節中的評價指標進行優化以解決自適應測驗目標復雜的問題,同時利用對知識點的矛盾學習緩解知識稀疏的問題.

2.5.1 自適應測驗任務在強化學習中的定義

具體地,一個強化學習任務包括〈S,A,P,R〉這4個元素.S表示所有狀態的集合,在自適應測驗中sT∈S表示自適應測驗選題策略為學生在時刻1,2,…,T分配的T個題目與學生的作答情況組成的序列

{(qj(1),a1),(qj(2),a2),…,(qj(T),aT)}.

A表示所有動作的集合,自適應測驗中A表示題庫中所有題目的集合,At為在選擇t題之后,仍可以選擇的題目集合.

在狀態st下執行動作qj(t)后狀態變為st+1的概率為P(st+1|st,qj(t)),即在狀態st下執行動作qj(t)后,學生i作答情況at+1的概率為P(at+1|st,qj(t)).

為了解決目標復雜的問題,本文設計一個包括多個目標的獎勵,包括學生在狀態st+1的畫像準確率提升值、預測表現耦合的下降值以及學生在狀態st+1時出現測驗超時異常的懲罰,即

其中:Dis(t)和2.4節的定義相同,表示當前學生答完t題后的預測表現耦合;Punish表示分配題目總作答時間超出2.4.4節中最大合適時間的懲罰,以保證RCAT選題策略在不同的測驗題目下盡可能將選擇的題目時長控制在一個合適的范圍內,從而實現學生測驗題數不固定情況下的個性化自適應測驗選題.

由于學生畫像模型可能會判斷題目作答結果較好的學生掌握該章節下所有知識點,不存在薄弱點,對于這樣的學生,模型將無法計算其薄弱點準確率,因此Acc(t)設計為學生答完t題后畫像模型的整體準確率,用于近似畫像的薄弱點準確率.由此,本文可通過強化學習對2.4節提出的評價指標進行優化,解決自適應測驗目標復雜的問題,提升學生的作答體驗.

2.5.2 強化學習網絡框架

基于多目標獎勵的設計,本文提出緩解自適應測驗目標復雜這一問題的方法,然而自適應測驗仍面臨知識點稀疏的問題.為了解決這一問題,基于上述強化學習的定義,利用注意力神經網絡在DQN的框架下實現自適應選題策略算法.RCAT選題策略結構如圖5所示,由NCAT[24]中提出的雙通道性能學習模塊、矛盾學習模塊、學生答題前的能力診斷模塊以及策略模塊組成.RCAT選題策略首先利用雙通道性能學習模塊,分別對學生答對以及答錯的題目進行學習,提取學生的表現信息.再利用矛盾學習模塊提取學生答題記錄中間的矛盾,減少猜測或失誤帶來的影響,同時利用知識點之間的矛盾信息緩解知識稀疏的問題.最后通過策略模塊得到Q值,并利用Q-learning優化模型.

學生在測驗中可能會因為未掌握某一個知識點而答錯多道題,可認為它答錯的題目間存在共性,這些共性潛在反映學生在知識點上的掌握能力.若模型能提取這些共性信息,可根據這些信息為學生選擇更合適的試題,從而實現個性化試題推薦.本文使用雙通道自注意力學習實現這一目標.

圖5 RCAT選題策略結構圖

圖6 雙通道自注意力學習模塊流程圖

矛盾學習旨在模擬學生在作答過程中存在的猜測或失誤的行為.如果因為學生答對一道較難的題目就在后續分配題目的過程中給學生分配更難的題目,而不考慮學生是否有可能因為猜測答對該題,會導致學生的答題記錄有效性降低,從而使畫像的準確性降低.此外,學習知識點之間的矛盾信息可讓模型更好地選擇未測驗的知識點,有助于緩解自適應測驗過程中出現的知識稀疏問題.

因此本文希望通過對題目以及知識點進行矛盾學習,發掘學生在答題過程中出現的矛盾,為學生推薦更合適的題目.

其中,m1表示已答題序列中答對題目數量,m0表示已答題序列中未答對題目的數量.

相關性越高,說明這些題目或知識點之間越容易出現猜測或失誤的現象.

對這4個矩陣的題數維度求均值,得到矛盾學習的輸出向量:

圖7 矛盾學習模塊流程圖

2.6 Q值計算

再結合學生的能力信息h,預測在狀態st下集合At中每道題目qi的預測累計獎勵Q(st,qi).令

Q(st,·)=(Q(st,q1),Q(st,q2),…,Q(st,q|At|)),

則預測累計獎勵:

Q(st,·)=MLP(s⊕h).

2.7 選題策略與學習方式

由于題目數眾多,搜索空間非常大,為了保證模型性能和學生的作答體驗,對選題進行如下約束.首先,所有題目均只能被選擇一次,并且相同知識點下的題目最多只能被選擇兩題;其次,除非上一題的難度為“一般”,否則,上一題答錯,下一道題難度要低于上一題;上一題答對,下一道題難度要高于上一題.為了保證測驗的題目難度變化不會過大,要求選擇的題目難度與上一題相比變化不能超過兩級.

在學生作答完第t題后,利用上述約束,可從題目集合At-1中篩選滿足條件的題目集合At,選題策略將計算集合At中每道題目被選擇后的預期累計獎勵Q值,并從集合At中選擇可得到最大預期累計獎勵的題目作為下一道測驗的題目.

選題策略的學習方式是利用Q-learning進行的.具體地,在采樣過程中,使用-貪婪策略,即每次選題會以一個遞減的概率在集合At中隨機選擇一道題,以1-的概率在集合At中選擇Q值最大的題目.剛開始采樣時,趨近于1,即完全隨機抽取題目給學生作答,隨著采樣輪數的增加,逐漸遞減至0,即完全依靠預測值Q進行題目選擇.在每次采樣后,作答記錄會放入內存池M中,并從內存池中抽取樣本進行訓練.損失函數為:

智能教育場景下RCAT選題策略步驟如算法1所示.

算法1RCAT選題策略

初始化測驗序列s0={};

初始學生能力h0=LSTM(XT);

初始答題數和答題時間n←0,time←0;

whileTruedo

(Q0,Q1,…,Q|A|)=RCAT(h0,sn);

i=arg max{Q0,Q1,…,Q|A|};

//選題策略

time←time+Ti;

ifAbnormal(time,n,case) then

break;

end

an,hn+1←Simu(hn,qi);

//學生模擬器進行作答

sn+1←sn∪(qi,an);

n←n+1;

end

輸出Ke←PORTRAIT(sn);

//畫像模型

在算法中,學生模擬器也可被看作一位真實的學生.對于每位學生,RCAT首先通過學生模擬器為學生生成一個初始能力值.在學生每輪測驗中,學生模擬器首先將學生的能力值以及學生在當前題目的作答結果提供給選題策略.然后,選題策略根據學生的初始能力值以及學生當前測驗記錄選擇RCAT選題策略輸出Q值最大的題目作為最合適的題目,選題策略對該題目進行觀測,若題目量已超過測驗需求的最小值,并且該題目分配給學生會導致測驗異常,結束測驗,否則將該題目分配給學生.最后,在學生的測驗結束后,學生模擬器和選題策略將學生的全部作答記錄傳輸給學生畫像模型,為學生生成當前章節的能力診斷.通過這種方法,RCAT選題策略會為學生選擇使畫像模型更準確、學生作答體驗與畫像結果更接近、時間更合適、學生作答體驗更優的題目.

3 實驗及結果分析

3.1 實驗設置

為了驗證本文方法的有效性,使用由科大訊飛智學網系統提供的真實數據集MATH.實驗數據選取學生在初中數學學科上的在線學習數據.

在預處理部分,刪除先驗數據小于100條、測驗數據小于5條或大于20條、后驗數據小于5條的數據.同時刪除測驗章節下所有知識點在后驗數據中出現次數都小于3條的數據,以保證學生數據可以進行畫像.為了保證測驗試題的質量,題庫中刪除區分度小于0.4的題目和知識點.經過篩選后,數據集最終包含64 748條數據,共有83個章節,1 521個知識點,48 157個題目,每條數據平均包含179.35條作答記錄,平均每個章節的知識概念為18.33條,平均每個知識概念的題目為33.34道.

章節下知識點的數量直方圖如圖8所示,由圖可看出大多數的章節知識點個數都在12題以上,一個章節最多的知識點數達到56,而最大的合適題數為12題,小于章節的平均知識點數,這說明知識稀疏問題確實是一個需要考慮的問題.每個知識點平均包含33.34道題目,說明即使在選定知識點的情況下,仍有很多題目可選擇,因此對題目進行篩選是可行的.每個知識點下的題目眾多,想要判斷一個知識點是否掌握,選擇不同的題目效率也會不同,因此對題目進行定量篩選是有必要的.

圖8 每個章節下知識點數的直方圖

為了驗證RCAT選題策略的有效性,選取如下基準選題策略為學生選擇題目.

1)Real.真實的作答記錄在學生模擬器上的結果.學生真實的作答記錄訓練得到的學生畫像模型表示畫像模型本身的性能.

2)Random.隨機分配合適的題數及題目讓學生模擬器進行作答,表示最簡單的CAT選題策略.

3)MAAT-R.基于規則的CAT選題策略,使用MAAT[22]中EMC(Expected Model Change)模塊,每次篩選使模型期望變化較大的題目,同時提出利用題目區分度篩選題目、設計知識點傳播規則等方式優化MAAT知識點選擇部分,在智能教育這一特定場景下是一種有效的數據驅動策略.

在MATH數據集上,將90%的學生數據作為訓練集,10%的學生數據作為測試集.在訓練集中取出90%的學生數據進行強化學習訓練,剩下10%的學生數據進行驗證,最終利用測試集的學生在多個評價指標上評估模型.學生模擬器中題目表征設計為768維向量,知識點表征、題目難度表征、知識點難度、答題記錄表征均設計為200維向量,先驗作答記錄長度為150,激活函數使用LeakyRelu函數,參數為0.3,模型輸出與分配的題目數相同,為學生答對當前題目的概率.學生畫像模型的所有表征也均設計為200維向量,RNN為雙層雙向長短記憶循環神經網絡,網絡隱藏層大小為表征向量的一半,即100維向量.網絡輸出大小與學生當前章節下包含的知識點數相同,每個輸出表示掌握對應知識點的概率.

在RCAT選題策略(https://github.com/Liuz-rui/RCAT)中,題目表征設計為128維向量,知識點表征、題目難度表征、知識點難度、答題記錄表征均設計為50維向量,使用單頭注意力機制,學生初始狀態表征與學生模擬器的隱藏層均為200維向量,隱藏層大小為512維,學習率為0.001,訓練輪數為5 000輪.

所有實驗均由Pytorch實現,使用NVIDIA Tesla M40顯卡的Linux服務器集群進行訓練.

3.2 對比實驗

本節從自適應測驗的實際應用出發,采用在2.4節中提出的薄弱點準確率、預測表現耦合、自適應測驗時長、測驗異常率、測驗的難度結構等評價指標,與基礎的選題策略進行對比實驗.

MATH數據集上各策略的不同指標值對比如表3所示,表中黑體數字表示最優值.由表可以看出,RCAT選題策略在學生模擬器的環境下,大部分評價指標都高于其它策略.相比MAAT-R,RCAT選題策略在準確率上提升0.64%,在預測表現耦合上降低11.50%,在測驗的難度結構上提升15.25%,測驗異常率降低11.53%.盡管測驗時長相比真實情況中每位學生測驗時間平均增加30 s,但是異常率的降低說明真實的學生作答記錄中有部分學生的答題數是不足的,RCAT選題策略的時間是在合理范圍內變動的.

實驗結果表明兼顧復雜目標的強化學習選題策略能夠在知識稀疏的場景下更好地保障選題的效率和效果,實現多目標的協同優化.

表3 各策略的5個指標值對比

3.3 敏感性實驗

在強化學習中,不同的獎勵會對強化學習的結果造成較大影響,因此對獎勵函數中多個目標的權重進行超參數調優.對于RCAT,選取不同的獎勵組合進行實驗,λ=0,0.01,0.05,0.1,0.2,0.5,超出時間的懲罰取為0.2.在 MATH數據集上λ不同時各指標值如表4所示,表中黑體數字表示最優值.由表可以看出,薄弱點準確率、預測表現耦合以及自適應測驗時長在不同的獎勵組合下具有不同的表現,說明不同的獎勵組合對不同指標的提升存在影響.隨著λ逐漸增大,薄弱點準確率和超時懲罰的占比逐漸降低,薄弱點準確率、自適應測驗時長和測驗異常率會出現小幅下降,但預測表現耦合有較大提升.在λ=0.2時,預測表現耦合才達到3.2節中隨機選題策略在預測表現耦合上的表現,而當λ=0.5時,模型在預測表現耦合上已超過基于規則的自適應測驗選題策略,達到領先地位.實驗表明,利用多目標的獎勵機制,可解決CAT在智能教育場景下目標復雜的問題.

表4 不同的獎勵組合下的自適應測驗的指標值對比

3.4 消融實驗

為了驗證RCAT選題策略每個模塊的有效性,進行消融實驗.RCAT選題策略的主要獎勵函數以及核心評估指標是薄弱點準確率和預測表現耦合,因此對各模塊進行消融實驗時只考慮這兩項指標.RCAT選題策略共包括3個模塊:雙通道自注意力學習(Double-Channel Self-Attention Learning)模塊、題目矛盾學習(Question Contradiction Learning)模塊、知識點矛盾學習(Knowledge Concept Contradiction Learning)模塊,分別記為A模塊、QC模塊、KC模塊.分別移除這3個模塊,移除A模塊記為RCAT-A,其余同.按照與3.2節相同的實驗設置進行訓練與評估,結果如表5所示,表中黑體數字表示最優值.

表5 消融實驗結果

由表5可見,RCAT-A僅捕捉學生作答題目或知識點表現的矛盾,未直接利用雙通道自注意力機制,使薄弱點準確率降低以及預測表現耦合升高.RCAT-KC和RCAT-QC在直接使用雙通道自注意力機制的同時,僅使用一個矛盾學習模塊,均影響模型在薄弱點準確率和預測表現耦合上的性能.RCAT選題策略的表現在兩個指標上具有領先地位,這說明3個模塊對于模型都是有效且有必要的.

3.5 案例分析

如圖8所示,由于包含8個知識點的章節最多,相對具有代表性,本文從中隨機選取一個章節,并隨機選取一名學困生、一名學中生和一名學優生,考察三者在不同選題策略下的表現.其中,學困生指在先驗序列中答題正確率在20%至50%之間的學生,學中生指在先驗序列中答題正確率在50%至80%之間的學生,學優生指在先驗序列中答題正確率在80%以上的學生.

圖9為3位學生在測驗序列的答題記錄以及該章節下知識點圖譜.如圖所示, RCAT選題策略為不同能力的學生分配不同難度的題目,同時在學生給出相同作答表現后,RCAT選題策略依然可根據學生能力和學生的答題情況為學生分配不同知識點的題目,如RCAT選題策略在學中生和學優生都答對知識點e4后為學優生分配知識點e1下的題目.這說明RCAT選題策略實現在智能教育場景下對不同能力學生的個性化選題.

而MAAT-R為學中生和學優生分配的知識點是完全相同的,說明MAAT-R在選題時不能自適應調整知識點,只能根據學生能力為學生從固定的知識點中選擇合適的題目.

圖9 對學困生、學中生、學優生的案例分析

從圖9中可看出,相同學生在不同選題策略上的表現也存在不同.具體地,對于學困生,同樣測驗知識點e1,RCAT選題策略選擇的題目測驗學生對該知識點存在缺陷,而MAAT-R選擇的題目沒有測驗,同時RCAT選題策略測驗學困生知識點e4、e5、e8均未完全掌握,而在MAAT-R中,均未測驗知識點e4、e5.這說明RCAT選題策略更能發現學生的問題,同時這也符合本研究在2.4.1節中提出的更快找出學生未掌握的知識點這一測驗目標,因此RCAT選題策略在智能教育場景下是有效且存在優勢的.

此外, RCAT選題策略在為學中生分配題目時,先為學生分配知識點e4,學生答對后為學生分配后繼知識點e8,當學生未答對知識點e8下的題目時,RCAT選題策略為學生選擇知識點e8的前驅知識點e6,答錯之后又測驗知識點e6的前驅知識點e5,在學生答對知識點e5下的題目后,RCAT選題策略為學生分配知識點圖譜上另一棵樹上的知識點e1.可以看出,RCAT選題策略可實現從知識點e8到知識點e6再到知識點e5這一對答錯題目的反向溯源過程,當反向溯源搜索到知識點e5并且學生答對該知識點下的題目后,RCAT選題策略能讀取該信息并判斷已搜索到未掌握的知識點,轉去測驗圖譜中另一棵數上的知識點e1.該結果表明強化學習模型中對知識點的矛盾學習確實為模型提供知識點的關聯信息,降低智能教育場景下知識稀疏問題的影響,也反映強化學習選題策略在智能教育場景下的優越性.

當然從測驗中也可看出,RCAT選題策略仍然存在一些問題:RCAT選題策略在為學生選題的過程中,可能會存在反復測驗知識點的問題,如在對學困生進行測驗時,第1題和第8題考查的都是知識點e5,這會降低CAT的可解釋性,也可能會影響學生的答題體驗.

4 結 束 語

本文針對智能教育場景下的CAT進行研究,并按照CAT的流程設計面向序列診斷的強化計算機自適應測驗方法.首先,為了解決傳統自適應測驗無法考慮學生作答記錄序列性的問題,設計基于序列診斷的學生模擬器和診斷學生知識點掌握程度的學生畫像模型.然后,為了保證CAT結果的準確性以及學生的作答體驗,設計多種評價指標.針對這些指標,提出基于強化學習的計算機自適應(RCAT)選題策略,將知識點表征、題目難度表征、知識點難度表征、學生初始能力加入強化學習模型中,并利用雙通道注意力機制以及矛盾學習的機制,緩解CAT中目標復雜以及知識稀疏的問題.最后,在真實數據集上進行的大量實驗表明,RCAT選題策略存在多個方面的優越性,同時案例分析證實RCAT選題策略的有效性與可解釋性.

本文提出的CAT框架仍存在進一步的改良空間.今后可考慮在基于強化學習的選題策略中加入更多的知識點信息,如知識點的圖譜信息等.其次,在選題策略中設計更詳細的規則,減少反復測驗同個知識點的問題.此外,還可優化學生模擬器以及學生畫像模型自身的性能.

猜你喜歡
畫像測驗答題
邀你來答題
威猛的畫像
邀你來答題
邀你來答題
邀你來答題
“00后”畫像
畫像
《新年大測驗》大揭榜
兩個處理t測驗與F測驗的數學關系
你知道嗎?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合