?

基于GloVe-CNN算法的英語在線考試主觀題自動評分模型

2023-07-08 07:26黎秋艷劉佳祎
桂林理工大學學報 2023年1期
關鍵詞:主觀題參考答案語義

黎秋艷,劉佳祎,王 鵬,王 杰

(1.桂林電子科技大學 信息科技學院,廣西 桂林 541004;2.桂林理工大學 網絡與信息中心,廣西 桂林 541006;3.廣西師范大學 網絡信息中心,廣西 桂林 541006)

0 引 言

隨著高校外語教育信息化的不斷普及, 智能化在線考試正逐漸成為高校教學、 管理過程中的不可或缺的重要組成部分, 考試方式的改革也伴隨著出現新的問題需要解決, 特別是英語在線考試主觀題自動評分已經成為當前外語教育信息化比較關注的主題。相比選擇題而言, 主觀題或開放式考題答案相對復雜, 其具有形式多樣性和靈活多變性, 如翻譯和寫作等主觀題大多采用人工批改的方式, 由于多種因素的干擾, 使得評分不夠公正、 準確[1]。

國外較為經典的自動評分系統有1966 年美國Ellis Page 等開發的Project Essay Grader(PEG)[2]、 皮爾遜公司1989 年開發的Intelligent Essay Assessor(IEA)[3]和Jill Burstein團隊研究開發的Electronic Essay Rater(E-Rater)系統[4]等。國內梁茂成教授是最早涉足英文作文自動評分領域的, 他將PEG和 IEA 兩個系統的優點相結合, 主持并開發“大規??荚囉⒄Z作文自動評分系統”[5]。主觀題的自動評分方法主要可以分為以下幾類[6]: 一是參照標準答案利用規則匹配的方式建立評分規則[7], 通過詞規則進行自動評分。二是將人工構建的特征和監督機器學習算法相結合, 這種方法稱為傳統機器學習的方法, 其優點是模型簡單易懂, 但是需要手動構建特征向量, 且評分效果受特征選擇的影響較大。2006 年, Hinton提出了深度學習的概念[8], 通過模擬人類大腦的神經連接方法, 構建深度神經網絡模型, 從眾多數據內容中自動學習、 提取特征, 且評分效果較好, 但是需要大量的訓練數據和計算資源。三是基于深度神經網絡的學習方法, 基于深度學習的文本特征表示技術受到很多學者青睞, 它可以更好地將文本語義表示出來, 主要用到Word2Vec[9]、 Doc2Vec[10]、 GloVe[11]等向量技術。徐慶婷等[12]提出了綜合語義技術與 LSTM 神經網絡方法, 龔云[13]提出將孿生神經網絡和增強的順序推理模型相結合的方法, 潘婷婷等[14]提出了基于混合語義空間的漢譯英自動評分模型, 可以有效提高主觀題智能評卷的靈活性和準確性。隨著技術的不斷創新, 學者們在自然語言處理領域有了新的發現?;谧匀徽Z言處理的評分模型是通過對文本進行語義分析來評分, 但是需要大量語料庫和語言知識庫的支持。除ETS公司的E-Rater[15]之外, 還有很多的主觀題自動評估軟件, 通常是采用自然語言處理常用的LSI[16]和LDA[17]方式提取語義等特征。錢升華等[18]則提出利用自然語言預處理BERT模型進而得到語句向量。

綜上, 針對主觀題自動評分模型的研究是非常豐富和多樣化的, 不同的方法各有優缺點, 對于簡答題、 名詞解釋等主觀題的評閱取得了一定的研究成果。分數的高低主要取決于考生的答案與實際參考答案的文本語義相似度大小, 即兩者的語義相似度的值越高, 獲得的評分就會越高。由于大多數主觀題答案無法用確定的語言來表達, 即答案并不唯一, 而主觀題自動評分模型的評分標準往往是固定的, 無法根據不同的評分標準進行自適應調整, 導致主觀題自動評分模型評分準確度受到部分影響。本文著重探索文本相似度的計算方法以及文本特征提取等內容, 通過global vector全局詞頻統計的詞向量表示工具對文本語義進行詞向量化, 結合卷積神經網絡(CNN)提取文本表達式特征, 經過卷積層和池化層、 全連接層進行相似度計算, 提出基于GloVe-CNN算法的主觀題自動評閱模型, 并以廣西某高校英語考試主觀題為例, 對模型進行實際測試, 驗證模型準確性, 助力地方高校教育人工智能化和在線考試系統。

1 主觀題自動評分模型的設計

1.1 主觀題自動評分處理模型

基于GloVe-CNN算法的主觀題自動評閱模型處理過程如圖1所示。

圖1 GloVe-CNN模型處理過程Fig.1 Process of GloVe-CNN algorithm

① 數據預處理。首先對考生答案和參考答案原始文件資料分別進行手寫文本識別及數據的預處理工作, 將文本的詞特征最大化保留, 消除特殊符號、 亂碼、 停用詞等無關因素以及重復出現的詞。

② 詞向量構建。作為主流的詞嵌入GloVe模型繼承了Word2Vec的絕大部分優點, 是一種無監督技術, 使用全局統計信息、 全局先驗信息以及共現窗口的優勢, 使得在近義詞、 多義詞的處理上更具有優勢, 能確保詞向量之間盡可能多地蘊含語義、 語法等相關信息。因此, 本文采用GloVe變換詞向量功能, 將一個單詞表達成一個由實數組成的詞向量矩陣, 分別對考生答案和參考答案作文本特征進行詞向量化描述, 再利用所獲得的詞向量建立映射矩陣, 作為下一層的輸入。

③ 文本語義特征提取。在完成詞向量的矩陣映射后, 將其作為數據輸入傳送到CNN模型中進行語句特征的提取[19], 并作池化處理, 防止過擬合, 降低數據維度, 最后得到考生答案和參考答案的語義特征向量。通過深度學習訓練, 得到含有上下文信息的詞向量, 使得文本表示的層次更加豐富。

④ 相似性分析。將參考答案特性矢量和考生回答語義特性矢量進行拼接, 通過全連接層比較分析, 再傳遞相關系數給系統分析并測量其相似性值。

⑤ 結果輸出。將第④步得到的相似性數值通過歸一化計算, 確定答案文本的分數。

1.2 GloVe詞向量構建

GloVe模型是由Pennington等在2014年提出[20], 是一個基于詞共現矩陣理論的詞向量模式, 它將單詞表示為由實數組成的向量, 用于捕捉詞與詞之間的語義特性, 如相似性(similarity)、 類比性(analogy)等。在使用上下文信息的同時, 也采用矩陣分解方式, 實現詞共現信息, 具體模型如圖2所示[21]。

圖2 GloVe模型Fig.2 GloVe model

GloVe模型主要是將每一個word向量作為參數, 詞向量之間滿足相關性。假設wi,wj,wk為詞向量, 則通過F(wi,wj,wk)函數可以得到式(1), 即在單詞i、j出現的兩個語境范圍內, 單詞k出現概率的比值滿足相關性, 其中Pk/i、Pk/j分別表示單詞i、j出現語境范圍內單詞k出現的概率。

(1)

當F值很大時, 表明單詞k與i相關, 與單詞j不相關; 當F值很小時, 則表明單詞k與i不相關, 與單詞j相關; 當F值趨近1時, 且兩個概率值都在較大時, 則表明單詞k與單詞i、j均相關; 當F值趨近1時, 且兩個概率值都在較小時, 則表明單詞k與單詞i、j均不相關。

GloVe模型利用迭代法的梯度下降方式, 將文本中的單詞進行向量表示, 損失函數J可表示為

(2)

其中:wi和wj是所要求的詞向量;bi、bj分別為兩個詞向量的偏置項;V是詞匯表的大小;X為共現矩陣;Xi, j表示詞匯i、j共同出現在一起的次數;f(Xi, j)是一個權重函數, 其作用是降低高頻詞對模型的干擾, 可印證不同共現次數Xi, j對結果的影響[22-23]。如果i、j兩個單詞沒有出現一起, 則Xi, j=0, 那么它們將不會參與計算,故f(0)=0。

1.3 語義特征提取

在完成詞向量的矩陣映射后, 將其作為數據輸入傳送到具有多個卷積層和池化層的多層卷積神經網絡[24]模型中以疊加的方式提取語義特征。通過卷積層中的卷積核的窗口大小進行卷積運算, 進而得到特征圖, 具體公式為

(3)

其中: (a,b)表示特征圖位置;Pt(a,b)表示輸出第t個卷積運算結果;X表示輸入矩陣;Kt(m,n)為第t個卷積核矩陣, 核矩陣形狀為m×n;dim表示詞向量的長度。

隨后, 將輸出結果傳送到池化層, 為了降低信息冗余、 提高重要特征提取能力、 防止過擬合, 利用最大池化法在每個特征圖中提取的最大值作為卷積層在該向量中提取到的最終的也是最重要的特征輸出, 最大池化法公式為

Lt=max(Pt(a,b)),

(4)

其中,Lt表示第t個池化運算后的最終輸出結果。

1.4 相似性分析

當GloVe-CNN模型分別提取到兩個語義的特征后, 把兩個句子的特征通過全連接層進行拼接, 傳遞相關系數, 通過分析比較、 測量其相似度。目前有多種計算距離的方法, 不同的方法對結果的準確性影響不同, 在自然語言處理領域中, 最常用的相似度計算模型是向量空間模型(VSM), 在向量空間模型中, 可以得到每個文本的詞向量, 將詞向量視為空間狀態下的兩條方向不同的線段, 兩者會形成一個夾角, 通過計算夾角的余弦值衡量文本間的相似度, 即計算余弦相似度[25]。如兩向量指向相同, 則余弦相似度越接近1, 表明兩向量夾角越小, 也就意味著用詞越相似。在不涉及上下文的情況下, 默認這兩個文本的內容最相似。

采用余弦相似度來計算池化層輸出的兩個向量的夾角余弦值判斷兩個向量是否在相同方向, 進而評估兩者的相似性。假設Ai和Bi分別代表向量A和向量B的各分量, 其余弦相似度為

(5)

1.5 模型訓練

(6)

其中,n為樣本總數。

2 主觀題自動評分系統驗證

2.1 實驗環境

硬件方面: Windows 10專業版、 CPU Inter(R)Core(TM) i7、 內存16 GB; 軟件方面: 依賴庫Python 3.8、 Jupyter Notebook、 Tensorflow、 Sklearn 等。

2.2 數據來源

使用人工錄入學生答卷、 參考答案和教師打分與試卷總分, 來完成數據集的收集工作。將預先訓練好的GloVe詞向量作為數據的輸入端, 然后以GloVe-CNN模型基礎再次進行訓練, 模型訓練共迭代 15 000 次, 每次訓練大約25 min。實驗數據為廣西某大學英語考試卷簡答題, 隨機選取5 400個樣本, 內容主要涉及學生答卷、 參考答案、 教師評分和所有試題的總分等方面。將其文字數據保存為*.csv格式, 并分成4列數據塊進行存儲, 依次為學生編號、 學生答卷和參考答案、 教師評分、 教師評分與系統評分的差值(文本相似度), 并以6∶2∶2的比例將數據分為用以訓練模型參數的訓練集、 選擇表現最優參數的驗證集和樣本測試的檢測集3個部分, 訓練集和檢測集詳見表1。

表1 數據集樣本Table 1 Dataset samples

2.3 GloVe-CNN主觀題自動評分模型效果

目前, 對英語主觀題自動評分效果通常結合人工評分結果和系統評分結果間的相關系數來評價。本文通過平方加權Kappa評價指標[26]對實驗結果進行評估, 從GloVe-CNN模型中調出預先訓練好的8個子集漢譯英譯文的數據, 通過判斷GloVe-CNN自動評分系統評分結果與人工評分結果的評估系數k的值來確定評分的一致性: 若k=1, 表明不同方式評分結果之間的一致性是完全相同的; 若k=0, 則說明不同評分結果之間的評分一致性完全隨機的。本文將GloVe-CNN、 CNN(convolutional neural network)、 PV-DM(distributed memory version of paragraph vector)、 KNN(k-nearest neighbor)4種模型在使用相同數據集、 訓練集和測試集的情況下, 對評估系數k進行對比分析, 結果詳見圖3。

圖3 不同模型k值對比Fig.3 Comparison of k values for different models

對比CNN、 PV-DM、 KNN模型的k值可發現, GloVe-CNN模型的k值平均值較高, 在子集1、 4、 6、 7、 8上的k值平均提升1%; 由于子集3為開放式問題, 大多數學生都是根據自身對題目的理解進行回答, 另外閱卷老師個人主觀想法的差異會使分數出現偏差, 因此語義表現特征不夠明顯,k值最低, 在該段子集上人工閱卷的評分相比其他子集分數也略低。

為了驗證評分效果, 設置以下評價指標對評分系統的可用性及大規模推廣性進行評估, 主要包含: 評分系統和人工閱卷的相關系數, 與人工閱卷的完全一致率、 一致率系數等, 詳見表2。

表2 人工閱卷和自動評分系統評估指標Table 2 Manual marking and automatic scoring system evaluation indicators

人工閱卷與計算機自動評分結果兩者間相關系數在0.7以上, 方可應用在大規??荚囋u分系統中[27]。 本文設計的系統模型與人工閱卷相關系數r為0.79, 已達到要求, 完全一致率和一致率系數分別是0.66和0.36, 這兩項評估指標也達到了國際研究報告中提出的指標(指標見參考文獻[28])。

為了進一步對GloVe-CNN模型的預測性能進行評價, 在5 400份試卷中隨機抽取300份, 并邀請2位閱卷老師對紙質版試卷分數進行復核, 將復核分數和原有試卷分數的平均評分作為最終分數, 結果保留兩位小數, 分別將人工評閱平均分與CNN、 GloVe-CNN兩模型評分作差絕對值運算對比, 結果見圖4。

圖4 分數差絕對值對比Fig.4 Comparison of absolute value of score difference

考慮人工閱卷評分結果受人為主觀因素所影響, 因而部分樣本的分數會存在一定的誤差??梢钥闯? 兩模型與人工閱卷分數差在可控范圍內, 自動評分模型在一定程度上也達到了比較理想的結果。 但總體來說, 本文設計的主觀題評分模型相對CNN模型誤差波動幅度較小, 具有相對較高的準確性。

3 結束語

在大數據時代背景下, 主觀題自動評分系統可以有效減少人力成本, 并減少因人工評價中只注重關鍵詞匹配而導致的評價結果不正確、 不公正的問題。通過引入GloVe模型與卷積神經網絡(CNN)構建文本表達式特征, 進而實現主觀題自動評分, 通過平方加權Kappa評價指標對實驗結果進行評估可以看出, GloVe-CNN模型整體性能較優。通過隨機抽取300份樣本驗證系統閱卷的準確性, 對比系統評分數據和人工閱卷結果, 兩者誤差在合理范圍內。

然而, 僅僅考慮到參考答案和學生答卷結果的接近程度, 沒有考慮到學生作答句法的合理性。若學生作答的句式并不通順或者回答文本只是由單詞所構成, 此時簡單對比相似度雖然可以進行自主打分, 但是在閱卷者眼中此情形無法得分。這些問題將是課題組繼續研究的方向, 以期進一步完善該模型。

猜你喜歡
主觀題參考答案語義
淺談“立體幾何主觀題”的復習備考
淺談高中政治“認識類”主觀題答題技巧
極坐標方程主觀題考點分析
高考政治主觀題對學生思維能力的考查
語言與語義
2017年6月七、八年級參考答案
2017年6月九年級參考答案
“上”與“下”語義的不對稱性及其認知闡釋
參考答案
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合