大學英語診斷性練習系統中診斷性評價模型研究①

2018-11-14 11:36吳濤,張暉,吳敏

計算機系統應用 2018年11期

吳濤,張暉,吳敏

(中國科學技術大學現代教育技術中心,合肥 230026)

在傳統的教學活動中,教師會根據練習測試結果和學習者在課堂內外的具體表現,對學習者進行定量和定性的評價,學習者能夠在教師的幫助下改善自己的學習過程、糾正學習中的偏差[1].在網絡在線學習系統中,學習者在進行學習的同時,需要自行設定學習目標、選擇學習策略、調整學習步調[2].

為了幫助越來越多的大學生備考大學英語四級考試,許多高校和企業推出了很多在線英語練習系統.但試用后不難發現,這些系統的使用流程仍然局限于做題和查看解答的傳統模式,提供給學習者的反饋信息也僅僅停留在得分情況、試題解答和題目分析上.這樣的反饋信息缺乏針對性和指向性,既不能體現出人工智能時代大數據的優勢,更無法為學習者提供客觀的診斷性評價和有效的學習建議,這必然會對學習效果造成一定的偏差,學習的效率也不是很高.

在線學習平臺應利用實際使用中收集的大量數據來進行數據分析和理解,揭示數據內部蘊藏的信息,才能彌補個人經驗的不足和系統的分析缺陷[3].本文利用系統使用過程中收集的數據進行數據分析和數據挖掘,從學習狀態、題型關聯分析、知識點關聯分析和四級成績預測這四個角度分別建模,最終合并得到了診斷性評價模型.

本文組織結構如下,第1節對大學英語診斷性練習系統進行了簡介,第2節介紹診斷性評價模型的總體設計,第3節介紹了學習狀態評價、題型關聯分析、知識點關聯分析和四級成績預測這四個模型的構建和合并后的診斷性評價模型以及診斷性評價模型在系統中的實現,第4節給出診斷性評價模型在某高校的實驗結果并進行相關分析,最后進行總結.

1 大學英語診斷性練習系統

大學英語診斷性練習系統是一個以大學英語四級考試為背景、向學習者提供個性化的指導建議、幫助學習者提升英語水平的在線學習系統.在對英語考試知識點分類和對題目知識點賦值的基礎上,該系統向學習者提供多種練習模式,能夠根據學習者以往的練習情況指出其弱項知識點,使得學習者既可以充分享受網絡教育帶來的便捷,又可以根據自身特點接受個性化指導,針對性地進行學習,從而高效地提高英語四級成績.

系統模塊按照用戶角色分為學生模塊、教師模塊和管理員模塊三個部分,其中學生模塊包括需完成作業、自主練習模式以及直觀化的統計結果等部分; 教師模塊包括自主出題、布置作業、成績管理和學生管理等功能; 管理員模塊則包含教師管理和班級管理等功能.

從上述描述可以看出,大學英語診斷性練習系統中對于學生模塊的設計仍是傳統的做題和查看分數統計的功能,提供給學習者的反饋信息只有統計和試題解答等,這導致了學習者缺乏詳細的后期評估、準確的學習指導和精準的試題推薦來幫助他們快速提高成績并且通過四級考試,所以利用數據挖掘和機器學習等技術對診斷性評價模型進行研究和實現勢在必行.

2 診斷性評價模型的設計

對學習者進行的教育評價分為形成性評價和總結性評價.形成性評價是通過診斷學習者的學習情況、學習過程中存在的問題,為學習者正在進行的學習活動提供反饋信息,以提高正在進行的學習活動的質量;總結性評價則是對學習活動效果做出價值判斷

本文所探討的診斷性評價,是幫助學習者在其自主學習的過程中動態診斷其學習情況和學習障礙,并據此優化學習過程的一種反饋信息,因此診斷性評價更多地屬于形成性評價.

對于自主學習者來說,診斷性評價可以幫助他們調整學習策略,改善學習方法.因此,診斷性評價作為完善學習者學習過程的評價,要對學習者在學習過程中出現的問題和學習障礙做出反饋,從而輔助學習者改善學習策略和調整學習步調.

為了給自主學習的學習者提供有效的幫助,診斷性評價應當具備以下三個方面的作用:

(1) 診斷

診斷性評價,顧名思義需要有診斷的功能.評價不僅要對學習者的能力、狀態做出鑒定,幫助學習者全面了解自身的學習情況,更應當明確找到學習者在學習過程中所面臨的問題和存在的缺點.學習者只有在客觀了解自身學習狀態、明確學習中的漏洞之后,才能高效地提高學習效率.

(2) 調節

診斷性評價作為一種學習活動的反饋信息,應當注重學習者的個性化調節.網絡教育應該因材施教,根據不同學習者的不同特性提供個性化的診斷建議,這樣才有利于學習者更加有效地自主調控學習策略,改進學習者的個體學習方法,更適應學習者自身的發展.

(3) 預警

在傳統教學中,教師通過作業和練習測試查看學習者的學習狀態,但由于傳統班級人數眾多等原因,教師往往無法關注所有同學的學習狀態,從而導致部分學習者的成績下滑.診斷性評價模型通過查看學習者練習數據,可以動態診斷其近期學習狀態和學習障礙,從而做到預警的功能,時刻督促學習者查漏補缺.

本文提出的診斷性評價模型是一種旨在以系統自動評價的形式診斷學習者的學習情況和學習障礙、指導學習者的學習策略、激發學習者的學習興趣的動態評價模型.據此,診斷性評價的框架如圖1所示.

圖1 診斷性評價的框架

具體的操作流程如下:

(1) 統計學習者的練習信息,并進行分析計算

從系統現有的數據庫中提取學習者的測試、練習信息,經過處理后使用診斷性評價模型進行分析計算.

(2) 分析評價學習者的整體學習狀態

從學習者的知識點得分、題型得分等方面出發,以學習者的角度對練習測試信息進行分析,從得分率和穩定程度兩個方面來評定學習者的學習狀態.通過對學習者學習狀態的公正判斷,系統將對狀態不穩定、學習進度較落后的學習者進行預警,從而激發學習者的學習動力.

(3) 診斷學習者的知識點和題型障礙

使用知識點關聯規則表和題型關聯規則表分別對學習者的知識點和題型進行關聯分析,推斷學習者的知識點和題型障礙,幫助學習者找到自身的缺陷,快速有效地提高成績.

(4) 預測學習者的四級成績

對學習者的測試、練習信息進行特征提取,使用隨機森林和多元線性回歸兩個模型并加以融合構建得到四級成績預測模型,讓學習者了解自身的英語水平,督促學習者練習試題.

3 診斷性評價模型的構建和實現

根據第二節的設計,需要對學習狀態評價模型、知識點關聯分析、題型關聯分析和四級成績預測模型分別進行研究和設計,最后整合成診斷性評價模型并在大學英語診斷性練習系統中進行了實現.

3.1 學習狀態評價模型

學習者學習狀態的評價,應從學習者的能力水平和穩定程度兩個維度出發,對學習狀態進行評定.

Student-Problem Chart (S-P表)是藤田(Takahiro Sato)教授根據統計學提出的一種分析方法,它將學生和問題相對應并以視覺化的圖表進行統計分析,對學習者給予全面的評價[4].在本文中將使用S-P表分析法來構建學習者學習狀態評價算法.其中使用注意系數來評價學習者的學習穩定程度,知識點題型得分率來評價學習者的掌握情況.

學習狀態評價算法主要解決學習者知識點題型掌握情況和注意系數,并且判定學習者的學習類型,為學習者提供針對性個性化的指導.具體算法步驟如下:

(1) 讀取學習者的知識點和題型得分率

從數據庫中讀取學習者的知識點和題型得分率,并以矩陣的形式存儲.設有N位學習者,每位學習者的知識點和題型得分率為M項,矩陣中的元素xij表示第i名學習者的得分率j大小,矩陣的公式如下:

(2) 處理連續數據

得分率是區間在[0,1]之間的小數,而學習狀態評價模型只能對二元離散數據進行操作,因此需要對學習者的得分率進行二元離散處理.

(3) S-P表行列計算

計算學習者i的得分和xi,知識點和題型的學習者得分和xj.

(4) 計算學習者的注意系數

設yij是第i名學習者的得分率j的數值,yi是學習者i的總得分,yj是知識點題型j的答對數,μ是試題的平均答對數,則學習者注意系數CSi計算公式如下:

(5) 計算學習者的知識點和題型掌握情況

學習者的知識點題型掌握情況的計算公式如下:

(6) 輸出結果

輸出學習者的知識點題型得分率、注意系數.

以上就是學習狀態評價模型的操作流程.

3.2 題型關聯分析和知識點關聯分析

知識點和知識點之間存在一定的關聯,即某種或某幾種知識點的得分率高低可能會和其他知識點的得分率高低有所關聯,所以需要對知識點的關聯分析進行探究.相應的,對于題型的研究也是如此.

本節通過在系統使用中收集了大量的原始數據,經過數據處理后,分別對題型和知識點進行關聯分析,最終得出了比較完善和可靠的題型關聯規則表和知識點關聯規則表.

其中,關聯分析的具體步驟如下:

(1) 導入數據.讀取所有用戶的知識點得分率和題型得分率

(2) 清理數據.將數據處理成挖掘算法所需要的格式.

(3) 數據挖掘.使用Apriori算法分別對題型和知識點進行關聯分析.

(4) 調整參數.根據挖掘結果調整最小置信度和最小支持度,得到相對合適的關聯規則.

(5) 輸出結果.輸出知識點關聯規則表和題型關聯規則表.

綜上就是產生關聯規則表的操作流程.

3.3 大學英語四級成績預測模型

當前系統中沒有提供大學英語四級分數預測的功能,而很多剛進入大學的學習者對于四級題型知識點等并不熟悉,也不能完全預估自身實力,所以對于能否通過四級并無把握.本文收集了在系統前期使用過程中的數據和用戶留下的四級考試成績,經過數據處理、特征選擇后,使用隨機森林模型和多元線性回歸模型分別進行訓練,通過投票法進行模型融合,最終得到了的大學英語四級分數預測模型.

隨機森林模型和多元線性回歸模型都有著生成簡單的優點,所以在本文中使用這兩種模型來構建四級成績預測模型.隨機森林模型和多元線性回歸模型都使用Python編程進行自動機器學習,并輸出回歸結果.四級成績預測模型的具體操作步驟如下:

(1) 導入數據.使用pandas包導入數據集,并將數據集依據4:1的比例劃分成訓練集和驗證集.

(2) 清理數據.對于缺失數據,使用其平均值來代替.

(3) 構建交互變量.對特征集中任意兩個不同特征f1、f2,依次生成f1+f2、f1–f2、f1*f2、f1/f2 這四種特征,并加入到特征集中.

(4) 訓練模型.使用sklearn包來導入多元線性回歸模型(LinearRegression)和隨機森林模型(Random-ForestRegressor),將這兩個模型進行訓練并使用投票法融合,其中對隨機森林設定訓練樹為500.

(5) 輸出結果.根據步驟(4)得到的訓練模型輸出測試集的結果,并輸出多個評價指標.

其中步驟(4)中的投票法是將多個模型的輸出結果進行線性加權,而在本文中由于只有兩個模型,故將這兩個模型的權值設置為相同.

在本文中使用均方根誤差(RMSE)和均方根對數誤差(RMSLE)這兩個評價標準進行驗證.它們的計算公式如下:

其中,Xobs,i為預測值,Xmdl,i為真實值.

使用驗證集對四級成績預測模型進行驗證,RMSE和RMSLE在隨機森林、多元線性回歸和融合后的模型的數據如表1所示.

表1 各模型的RMSE和RMSLE

從表1可以看出,隨機森林模型的RMSE在24.325、RMSLE為0.159,多元線性回歸模型的RMSE為25.624、RMSLE為0.145,而將這兩模型經過投票法融合后的模型的RMSE為20.541、RMSLE為0.123,由此可以看出融合后的模型在RMSE和RMSLE兩方面都有所提高,預測模型的準確性也比較高.

3.4 診斷性評價模型的構建

前幾節介紹了四個子模型的構建,本節將這四個子模型整合,最終構成了完整的診斷性評價模型.具體的步驟如下:

(1) 提取數據.從數據庫中提取用戶數據.

(2) 處理數據.清理用戶數據,并將其變換成模型需要的格式.

(3) 評價用戶的學習情況和穩定程度.通過學習狀態評價模型計算得到知識點題型掌握情況和注意系數,判定得到用戶的學習情況和穩定程度.

(4) 診斷用戶知識點掌握情況.使用知識點關聯規則表得出用戶潛在強弱項知識點.

(5) 診斷用戶題型掌握情況.使用題型關聯規則表得出用戶的潛在強弱項題型.

(6) 預測用戶四級分數.使用大學英語四級分數預測模型預估用戶的四級分數.

(7) 輸出用戶數據.

綜上就是整體的診斷性評價模型的操作步驟,為了更好的展現,診斷性評價模型的流程圖如圖2所示.

圖2 診斷性評價模型的完整流程圖

3.5 診斷性評價模型的實現

診斷性評價模型是大學英語診斷性練習系統的一部分,所以診斷性評價模型實現所用的技術方案應與大學英語診斷性練習系統的總體技術方案保持一致.

大學英語診斷性練習系統是一個Web形式的在線學習系統,它主要是基于B/S (Browser/Server)模式和ASP.NET MVC框架.該系統的客戶端運行在Web瀏覽器上,使用網絡通信與服務器端交互.該系統使用SQL Server數據庫來存儲數據信息.

為了方便調用診斷性評價模型中學習狀態評價模型和四級成績預測模型的計算結果,這兩個模型將采用Python實現并將計算結果存入數據庫中供用戶查詢.因為Drools規則引擎具有方便調整、易于管理的特點,所以診斷性評價模型中的知識點關聯規則和題型關聯規則將使用Drools規則引擎編寫.具體的診斷性模塊調用框架圖如圖3所示.

圖3 診斷性模塊調用框架圖

4 模型驗證和分析

為了對診斷性評價模型進行驗證,筆者在使用該系統的高校選擇了兩個成績相當并且待考四級的大二班級,一個作為實驗班,一個作為對照班,共計120人.其中對照班按照正常的教學安排進行學習,而實驗班除了正常的教學安排還將使用診斷性系統完成6套試題.

實驗班同學在經過一學期的使用后,已經非常熟悉系統的各種評價功能,所以請他們對系統及診斷性評價模型進行滿意度點評,點評數據如表2所示.

表2 診斷性評價模型滿意度評分表

表2中的滿意度評分是指用戶對此項的滿意度,對分數的定義為: 1分為非常不滿意,2分為不滿意,3分為一般,4分為滿意,5分為非常滿意.

表2中統計了每個評分的人數.從表2中數據可以看出各項滿意度平均分均在3.6分以上,可以看出用戶評分在一般和滿意之間,并偏向滿意,這從一定程度上證明了診斷性評價模型的診斷效果.

在本次四級考試成績公布后,筆者分別統計了實驗班和對照班的四級平均成績和四級通過人數,具體的情況如表3所示.

表3 四級平均成績和四級通過人數

根據表3的統計結果,我們可以看出實驗班此次的四級平均成績為379分并且有10人通過了此次四級考試,對照班此次的四級平均成績為362分并且有7人通過了此次四級考試.實驗班的平均成績比對照班高出了15分,四級通過人數也多了3人.

由此可以看出,實驗班和對照班的初始成績雖然相當,但實驗班在使用診斷性練習系統后四級成績有了一定的提升,通過人數也有了增加.

此外,通過數據庫收集的實驗班同學的練習數據使用大學英語四級成績預測模型后得到的預測值的RMSE為20.387,RMSLE為0.126,也與之前的數據非常相近.

綜上可知,診斷性評價模型在該校使用情況良好,學生反饋較好,對于四級成績的提升也較為明顯.

5 總結

本文的主要工作是診斷性評價模型的研究和構建.首先,作者介紹了大學英語診斷性練習系統; 其次,詳細探討了診斷性評價模型的設計細節和設計意義; 接著,使用S-P表分析法分析設計了學習者學習狀態評價模型; 然后,利用數據挖掘中的Apriori算法對處理過的數據進行了題型關聯分析和知識點關聯分析,得到了比較準確的題型關聯分析表和知識點關聯分析表;并且,利用隨機森林模型和多元線性回歸模型對處理過的數據設計了大學英語四級分數預測模型,并使用RMSE和RMSLE兩個評價標準驗證了該模型; 最后,對診斷性評價模型進行了總結和用戶驗證,從而證明了診斷性評價模型的準確性和可靠性.

本文設計的診斷性評價模型會根據用戶的練習情況動態地進行診斷評價、調節和預警,并且隨著用戶使用系統進行更多練習測試時,診斷性評價的準確性也將會提高.