?

新一代智能網上評卷系統的技術實現及在高考網評中的應用實例分析

2019-05-29 11:43何屹松孫媛媛儲林林

中國考試 2019年1期

關鍵詞：評卷輔助樣本

何屹松徐飛劉惠孫媛媛竺博儲林林

（1.安徽省教育招生考試院，合肥 230001；2.科大訊飛股份有限公司，合肥 230001）

2014年9 月國務院頒布的《關于深化考試招生制度改革的實施意見》提出“改進評分方式，加強評卷管理，完善成績報告”[1]。2015年國家發展改革委、科技部等頒布的《“互聯網+”人工智能三年行動實施方案》以及2018年國務院頒布的《新一代人工智能發展規劃》提出了人工智能在各行業應用的總體思路與主要任務。探索將人工智能評分技術與網上評卷方式進行深度融合，更好實現對閱卷過程的質量監控和考試成績的定量分析，是考試機構的一項重要研究課題。

1 網上評卷方式與人工智能評測技術概要分析

目前普通高考網上評卷方式是將掃描后的答題卡切分為圖像，以計算機為載體，組織評卷教師在網上閱卷。評卷過程中評卷教師根據計算機上呈現的考生答題信息，依照評分細則對考生的答題內容進行評分，由系統實時將成績傳送至中心機房服務器中，并自動調取下一位考生答題信息繼續評閱。網上評卷方式從2005年開始規?；瘧靡詠?，在各類國家教育考試閱卷工作中發揮了重要作用。

現行網上評卷所遵循的技術規范是教育部2008年頒布的《國家教育考試網上評卷暫行實施辦法》《國家教育考試網上評卷技術暫行規范》《國家教育考試網上評卷統計測量暫行規范》。隨著技術和考試需求的發展，這些技術規范目前已經不能完全滿足考試發展的需要，其評卷模式存在的一些問題，如評卷教師打保險分的現象并不能完全發現和得到及時糾正，對評卷結果的質量評價也很難做到更加精準的定量分析。因此，需要開發新一代智能網上評卷系統。

對人工智能評分技術的研究，國外經歷了一個發展過程。美國教育考試服務中心（ETS）從2005年開始將計算機評分系統（E-Rater）應用于托福和GMAT考試的作文評分，該系統的機器評分與評卷員的一致率達到97%，高于2名評卷員通常的一致率95%～97%；對于人機大分差的分歧樣本由第三人進行仲裁評分[2]。這種人工加機器、再加仲裁的評分模式，一經公布便引起各國考試機構的高度關注。2010年后，隨著以深度神經網絡為代表的新一代機器學習算法的發展，以及文檔圖像識別、自然語言理解等技術的突破，推動了人工智能評測技術在考試領域的研究應用。

人工智能用于輔助評分的3大技術要點有：一是文檔圖像識別技術。包括手寫體識別、公式識別、圖形識別等，最終將識別后的文字、字符、公式等轉換成文本格式，用于評分分析，要求識別準確率在95%以上，從而滿足輔助評分的需要。二是基于深度神經網絡建模的評分模型訓練。這類自然語言技術用于評測算法，具備了處理文本信息的能力，并且可以科學全面地挑選樣本用于人工專家定標集合、學習和擬合人工專家評分，以訓練機器評分模型。三是多維度計算機智能評分算法。在該算法中，各個評分維度建立在海量數據分析處理的基礎上，并綜合考慮課程標準、評分標準、不同學科知識圖譜等多方面因素，以提高評分的準確性。目前，基于全連接的卷積神經網絡（Fully Connected Convolutional Neural Networks）的圖像文檔版面分析理解和文字識別技術核心算法[3]，使得智能閱卷評分系統已經形成了一套完整的從圖片輸入端到文字輸出端的識別處理方案，對漢字和英文字符的識別率能夠達到一個較高的水平。在多維度評分方面，可將待評樣本按照某種算法進行特征向量提取，并對定標集合樣本進行同樣的特征提取，然后以定標樣本的專家評分作為目標，通過基于注意力編解碼機制的循環迭代神經網絡（Attention Based Encoder-Decoder Recurrent Neural Networks）建模[4]，形成基于當次考試精準的評分模型，進行計算機智能輔助評分。

與人工評卷方式相比，計算機智能輔助評分具有較高的效率、良好的評分準確性、多方位的輔助質檢功能，能夠克服網上評卷中評卷教師易受自身主觀因素影響等不足，有效保證評卷質量，可以提供更客觀的第三方質量評價。

2 新一代人工智能網上評卷系統的技術實現

2.1 設計思想

新一代智能網上評卷系統的設計思想是圍繞人工智能測評技術與網上評卷技術相結合的應用研究，實現網上評卷系統和人工智能測評系統在網絡層面的相互訪問和數據層面的實時共享。在千兆局域網條件下，通過相關數據接口，實現對1 000萬級別的掃描圖像和計算機智能測評結果的訪問和應用，既充分發揮人工閱卷在學科先導、教師評閱、專家仲裁和社會接受程度方面的特點，又充分發揮人工智能的高效率、高準確度和高可靠性的特點，以人機結合的方式全面加強對評分過程的數據分析和監管。

2.2 系統結構

新一代智能網上評卷系統以現有閱卷組織管理模式為基礎，主要包括答題卡掃描系統、智能評分系統和網上閱卷系統3個部分。本文主要討論智能評分系統和網上評卷系統的融合問題，融合后的系統結構見圖1。

從圖1可知，該方案的核心是在保留原有網上評卷系統和人工智能評分系統各自主體功能和操作方式不變的情況下，通過評卷輔助控制決策系統平臺（以下簡稱“評卷輔助平臺”）進行系統升級，將新增功能嵌入到原有系統當中，以平滑過渡的方式構造新一代智能網上評卷系統，為后期拓展應用以及系統的進一步融合和升級奠定基礎。

圖1 高考網上評卷系統和人工智能輔助評分系統融合的系統結構示意圖

表1 評卷輔助平臺所需服務器配置

評卷輔助平臺為WEB架構，采用JAVA面向對象語言開發，關鍵業務數據的傳輸和存儲均進行加密處理。硬件方面，主要由數據庫服務器、文件服務器、應用服務器和網絡設備組成，服務器參考配置見表1。網上評卷系統和人工智能評分系統之間不能進行直接訪問，需各自與評卷輔助平臺進行連接，完成數據交換。在訪問策略控制方面，數據庫服務器的用戶和權限單獨設置，網上評卷系統和人工智能系統都不能訪問數據庫服務器，網上評卷系統只能訪問平臺的應用服務器，人工智能評分系統只能訪問平臺的應用服務器和文件服務器，見圖2。

評卷輔助平臺包括數據交換子系統和監控、統計、處理子系統2個部分，其中：數據交換子系統通過Web service接口技術，提供數據交換服務；監控、統計、處理子系統對交換過程進行監控，對數據進行處理、統計、分析、決策。

圖2 評卷輔助平臺設備連接示意圖

監控、統計、處理子系統主要監控考生圖像數據的上傳下載、定標集圖像信息及專家評分結果的上傳下載、樣卷、機器評分、空白題給分卷、抄襲題干卷、抄襲范文卷、相似卷（疑似雷同卷）、復核卷等接口數據的接收與下發情況。對人工智能評分結果進行數據導入，對機評成績和人評成績進行質檢比對。管理人員可根據條件設定，對大分差評分生成需要進行復核的試題信息，通過網上評卷系統發放給學科組進行復核，計入仲裁成績，并將復核結果反饋至評卷輔助平臺，供進一步統計分析使用。監控、統計、處理子系統及其程序設計，可根據智能網上評卷系統的功能設計進行不斷升級和完善。

與評卷輔助平臺相對應，原有網上評卷系統需進行升級后才能滿足新一代智能網上評卷系統的應用需要?；谏鲜黾夹g方案，對新增功能采用服務引擎方式進行設計。服務引擎主要完成網上評卷系統與評卷輔助平臺的交互，包括上傳掃描完成考生的圖像信息、接收人工智能系統的輔助定標樣卷及分數、上傳人評最終成績、接收復核數據（包括人評與機評評分差值較大的考生數據、抄襲題干、抄襲范文、空白卷有分的考生數據、相似考生數據等）、上傳復核反饋結果等。服務引擎設計遵循新增模塊不能影響原有系統主體結構，新增功能不修改或少修改原有功能的設計思路。既保證原有網上評卷系統穩定運行，又確保新增業務（如人工智能輔助網上評卷質量控制）能夠以實時在線方式應用。

2.3 新一代智能網上評卷系統的技術特點

新一代智能網上評卷系統具有5個特點：一是系統的獨立性。評卷輔助平臺通過對數據接口的定義和網絡訪問的控制，保證自身的獨立性，使其既不依賴于特定的人工智能系統，又不依附于特定的網上評卷系統，可與國內現行主流的網上評卷系統、人工智能評分系統對接，開放而兼容。二是數據交互的靈活性。掃描圖像數據通過評卷輔助平臺提供給人工智能評分系統，人工智能評分系統的計算機自動評分結果又通過評卷輔助平臺提供給網上評卷系統，數據的導入導出交換能力安全高效，過程可追溯，日志可審計。三是在線控制的實時性。例如，安徽省2018年在高考網評過程中實現了對高考語文作文題和高考英語作文題評分結果的定時定點比對，人工評分結果和計算機智能評分結果可以隨時在系統控制端進行實時動態分析，對人機大分差樣本、抄寫題干等異常答題樣本等情況進行精準質檢反饋，質量監控的針對性大大提高。四是對離線方式的包容性。2018年安徽省增加了對高考語文簡答題、文科綜合能力測試簡答題、數學證明題的智能評分和實驗驗證，方法是通過評卷輔助平臺將機評結果導入網評系統當中，經過監控、統計、處理子系統和服務引擎進行質檢反饋，結果顯示對多科目、多題型的輔助質量監控高效有序。五是系統的可擴展性。通過評卷輔助平臺這種中間雙向介入模式，可以將人工智能評分系統的評分結果作為一評直接提交給網上評卷系統，為智能評分替代人工一評提供了更好的解決方案，也為人工智能評分技術在非高利害性考試閱卷組織管理中的推廣應用提供了思路。

3 人工智能網上評卷系統在高考評卷中的應用

評卷輔助平臺在安徽省2018年高考評卷中進行了試驗，試驗內容包括：一是對高考英語作文題、高考語文作文題以在線方式實現智能評分，并將評分結果應用于輔助質量監控；二是對高考語文簡答題、高考數學證明/計算題、高考文科綜合能力測試政治簡答題以離線方式驗證智能評分效果，探索人工智能評卷技術在多科目、多題型上應用的可行性。

3.1 硬件環境準備

2018年安徽省實際參加高考統考人數為42萬，統考科目為語文、數學、英語和文科/理科綜合能力測試。掃描及評卷用各類服務器40臺，采用虛擬化技術對H3C UIS8000刀片服務器進行物理和邏輯劃分。評卷輔助平臺使用的3臺服務器單獨部署，按照特定的網絡連接方案與網評系統和人工智能評分系統進行連接。人工智能評分系統安排在獨立場地，由6臺高配置服務器及2臺操作終端進行處理。各服務器、交換機（千兆）、網絡安全設備、控制終端和移動硬盤等少量外設組成局域網，與外網進行物理隔離。人工智能評分系統用到的服務器主要配置要求CPU為Intel Xeon V3 12核24線程；內存≥64GB，4通道及以上；千兆網口；高性能GPU顯卡4塊（顯存大小≥16GB）；操作系統為Windows Server 2008R2 64位。

3.2 人工智能閱卷整體數據情況統計

此次試驗語文作文題、英語作文題、語文簡答題（第6題）各掃描圖像419 119份，其中定標樣本：語文作文601份，英語作文542份，語文簡答題（第6題）500份；文科綜合能力測試簡答題（第38題）、數學文科證明題（第18題）各掃描圖像175 863份，其中定標樣本：文科綜合能力測試第38題571份，數學文科第18題1 996份，見表2。

從表2可以看出，人工智能評分系統對除定標集、異常作答（包括特殊異常作答和非準確識別）2部分以外的樣本進行了計算機評分，語文作文389 299份，占全部樣本量的92.89%；英語作文390 701份，占全部樣本量的93.22%；語文第6題413 232份，占全部樣本量的98.60%；文科綜合能力測試第38題171 881份，占全部樣本量的97.74%；數學文科第18題125 773份，占全部樣本量的71.52%。所有樣本的評分結果均經閱卷系統完整性、準確性檢查。

表2 試驗用樣本數量

人工智能評分檢測出的特殊異常作答樣本，包括與范文庫中文本內容相似度高、與當次考試試卷題干相似度高、考生之間作答內容相似度高3種情況，語文作文共有237份，英語作文共有2 557份，語文第6題10份，文科綜合能力測試第38題40份，見表3。

人工智能評分系統還對樣本的機評平均分和標準差進行統計分析，見表4。

此外，在人工智能評分系統檢測出的各類異常作答樣本以及定標數據集中，隨機挑選語文作文和英語作文各100份圖片進行識別率的統計對比，結果為：語文中文字符的識別準確率為96.93%，英語單詞的識別準確率為98.88%，這說明系統已經達到了一個較高的水平。根據智能評分得到的數據，通過評卷輔助平臺將相應結果與評卷教師的評分情況（報道分）進行了比對，并對以上各類異常作答樣本以及人機（報道分和機評分）產生大分差樣本進行標注，通過條件控制，將這些大分差樣本數據下發給各學科組評卷專家進行復核，各題型復核結果見表5至表8。

從上述復核情況看，人工智能評分系統對輔助質量監控起到精準定位、精細復核、精確評分的作用。

4 啟示與思考

目前，基于人工智能的計算機自動評分系統在評分過程的智能程度、算法的先進性、結果的準確性和極高的效率方面等已經得到證明[5]；同時，還具有強大的數據處理能力，完備的輔助質檢功能，能夠提供客觀的質量評價標準，從而能夠在更大程度上保證評分的客觀公正。在實際應用過程中，如何更好地將人工智能技術與網上評卷技術結合起來，實現二者完美對接與深度融合，解決現有評卷組織管理模式中的一些深層次問題，依然有很長的路要走。

表3 人工智能評分系統檢測出特殊異常作答樣本數量

表4 人工智能評分樣本集合的平均分和標準差

表5 高考語文作文題復核結果份

表6 高考英語作文題復核結果份

表7 高考文科綜合能力測試第38題復核結果份

表8 高考數學文科第18題復核結果份

4.1 加強人工智能技術本身和在評卷工作中的應用研究

蓬勃發展的圖像識別和字符識別技術，使人工智能在各類考試中的測評應用成為可能；但是，一旦到了應用層面，人們所關心的就不僅僅是結果如何，而是新技術所涉及的全部內容。如何做到讓考生、家長和社會接受，需要一個長期的、認識上的轉變過程和技術本身的不斷進步。要擴大人工智能在更多科目、更多題型上的處理能力，推動人工智能測評技術的發展，要加強對轉寫識別、智能評分等核心算法的研究，提升人工智能在識別精度和評分準確度方面的能力。例如，經過對比發現，考生在方格內書寫作文和在開放區域內書寫作文、在有下劃線的區域內作答簡答題和在開放區域內作答簡答題、在開放區域內作答數學證明題和計算題等，其轉寫識別的精度都不盡相同，前者會高于后者，這些都是擺在考試管理者面前需要考慮的問題。在評分準確度方面，在人機大分差的樣本中，尤其是機器評分大于人工評分的樣本中，人工評分的準確度要高于智能評分。對于經智能閱卷系統檢出的抄寫題干、相似作答等異常樣本，其分數經復核后無一例外都是向下修正。因此，在人工智能全面參與高利害性考試的閱卷過程中，依然有很多的關鍵技術需要突破。

4.2 加強人工智能技術應用于網上評卷的規范性研究

隨著人工智能技術以及其他新技術的突破，將會有更多企業參與到教育考試及評卷工作中來，也必將對現有網上評卷技術服務商提出更多更高的要求。因此，克服現有網評系統中的固有弊端，加強對人工智能輔助網上評卷的規范性研究，成為一個緊迫的研究課題。就網上評卷的流程而言，無論是人工閱卷還是計算機智能評卷，或是將二者結合起來形成的人工智能網上評卷系統，其流程可以歸納為圖3。由圖3可知，這一流程在保留了二者獨立性的同時，進行了關聯融合，其目的是將智能評分結果及時反饋到人工評分的過程中，同步對分數進行比對、分析、計算，從而形成有針對性的應用方案，比如質量控制方案等。

圖3 人工智能評分系統深度融合網評系統實施流程示意圖

目前的問題是如何進一步加強對人工智能與網上評卷相結合的規范性研究，從而形成一套有效的人機結合的智能網上評卷標準化實施流程。安徽省在2017年、2018年高考閱卷過程中對這一流程進行了積極探索，增加了人工智能輔助網上評卷質量監控功能，第二步將要實現的是在評卷過程中對考生異常答題信息的動態提示，包括對教師閱卷界面的調整等，第三步是人機融合后對網上評卷組織管理模式的改革創新。在應用上，只有實現了二者的融合，才能利用智能閱卷系統的文字轉寫功能和自主學習能力，更有針對性地為學科評卷組挑選專家樣卷；才能實現機器評分和人工評分相結合的新的雙評模式，節省人力和提高效率；才能使評卷系統具備及時發現人工評分偏差的能力，動態實現對機器評分與人工評分分差較大的樣本進行有針對性的質檢反饋；才能使計算機智能閱卷系統通過不斷地數據挖掘和自主學習，在某種程度上達到專家水平。

4.3 人工智能評分替代一評或部分替代人工評卷是未來的發展方向

人工智能評分系統在文字轉寫識別上的高識別率和建立在自然語義理解等核心算法上的多維度智能評分的高準確度和高效率，使其有著非常廣闊的發展空間?？梢灶A見：在某些人工智能技術瓶頸得到突破后，其能夠在更多科目、更多題型上進行精準評分；在閱卷組織和管理模式上形成規范化和程序化的操作之后，以智能評分替代一評或部分替代人工評卷，將成為一種可能。未來在學業水平考試、自學考試及社會化考試等相對低利害的考試中，可以考慮用計算機智能評分替代多評模式下的人工一評，甚至可以直接替代某些高可信度分數段內的人工評分。這種人機結合的智能閱卷組織管理模式，將成為未來考試閱卷智能化應用的發展方向。

猜你喜歡

評卷輔助樣本

小議靈活構造輔助函數

河北理科教學研究(2021年3期)2022-01-18

倒開水輔助裝置

發明與創新(2021年39期)2021-11-05

用樣本估計總體復習點撥

中學生數理化·高一版(2021年2期)2021-03-19

基于大數據分析的易混淆車輔助識別系統設計與實現

中國交通信息化(2019年10期)2019-11-16

2019年對口升學考試網上評卷考生答題注意事項

山西教育·招考(2019年2期)2019-09-10

領導決策信息(2018年16期)2018-09-27

“畫?！痹u卷

教育(2016年49期)2017-03-20

隨機微分方程的樣本Lyapunov二次型估計

數學學習與研究(2017年3期)2017-03-09

大規?？荚嚲W上評卷中趨中評分的成因探析

中國輕工教育(2017年5期)2017-01-28

提高車輛響應的轉向輔助控制系統

汽車文摘(2015年11期)2015-12-02

中國考試2019年1期

中國考試的其它文章: 考試招生“唯分數”的兩難困境：觀念及制度的根源; 基于評價三角理論的學業質量評價設計; 如何理性科學地引導建構母語能力
——2018年高考語文試題對教學改革的引領價值芻議; 提升思維品質的語文閱讀新題型探索; 國家題庫試題素材征集系統的研發與應用; ETS講席制度對我國教育考試機構內涵式發展的啟示

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合