?

人工智能在教育試題檢索中的應用與探索

2020-07-06 03:39蘇喻汪成成張丹王士進
中國新通信 2020年3期
關鍵詞:淺層題庫檢索

蘇喻 汪成成 張丹王士進

摘要:隨著互聯網技術的不斷進步,在線教育行業得到了蓬勃的發展。借助人工智能和大數據技術,教育個性化學習系統能夠實現學生的學情分析,為學生推薦個性化學習資源,從而提升老師的教學效率和學生的學習效率,并為教育管理者提供決策依據[1]。

關鍵詞:智能;教育;試題檢索

常見的教育個性化學習系統通過多元用戶數據終端收集用戶行為日志等,一方面對答題記錄中的試題進行建模,構建結構化題庫;另一方面對學生進行學情建?;驅蠋煹氖褂昧晳T建模(即用戶建模),生成學生的學情畫像或教師的教學畫像(即用戶畫像)。最后,基于結構化題庫、用戶畫像和具體應用場景,融合相關的人工智能算法,形成一系列的個性化學習應用,如基于內容的推薦模式等。

個性化學習應用中的各種模式,均會直接或間接利用到試題檢索技術,比如基于內容的推薦模式中,系統根據一道試題的題面和語義信息,從海量題庫中找到其相似的試題集合。因此,試題檢索技術是教育個性化學習系統的基礎性技術。

一、試題檢索所面臨的挑戰

相較于互聯網領域的檢索技術,教育領域對試題的檢索精度要求更高,會面臨如下諸多難點。

第一,同樣的試題表示呈多樣化。具有同樣知識點的題目,在題面內容表述可能有較大差異。這種特性給試題語義表征造成了困難。

第二,由于不同教育專家對知識體系的理解不同,因此知識點標簽沒有統一的標準體系,如果題庫不按照某一標準重新標注,則不能直接用于檢索。而完全基于人工標簽的試題檢索方案要花費巨大的人工標注量[2]。如何利用試題上已有的多標準的知識點標簽進行檢索,給任務帶來了難題。

第三,在實際應用場景中,需要從海量的題庫中實時檢索出符合用戶個性化需求的試題,既要滿足效率上的實時性,又要滿足效果上的可用性。

二、試題檢索的主要流程及相關技術介紹

試題檢索系統一般分為三個主要步驟。首先,根據被檢索試題的淺層語義特征,采用基于淺層特征的召回技術,快速從海量題庫中檢索出和被檢索試題相關的候選試題集合;然后,利用基于神經網絡的精排技術,將候選試題集合進行二次排序,以獲得更精準的檢索結果;此外,對于一些強調用戶個性化的場景中,還會利用基于用戶的個性化推薦技術,根據用戶的搜索習慣對二次排序結果進行調整,最大程度的滿足用戶個性化需求。

基于淺層特征的召回技術的主要作用是從海量的候選題庫中快速召回符合條件的相關試題候選集合,此步驟更加注重于檢索效率。一般而言,被檢索的試題淺層特征為文本中的關鍵詞,知識點標簽等。該技術通過構建淺層特征到試題ID的倒排索引存儲形式,可以根據試題的淺層特征組合快速獲取包含這些特征的試題候選集合。試題檢索中的淺層特征召回技術一般采用Lucene、Solr、Elasticsearch等[3]。Lucene是基于Java開發的文本信息檢索工具,當前流行的檢索召回系統Elasticsearch和Solr都是基于Lucene開發的,提供了比Lucene更為豐富的查詢語言,并且擴展性和查詢性能更優。

在召回技術所獲得的試題候選基礎上,要進行二次精排,該部分更加注重檢索精度。隨著深度學習技術在自然語言處理領域的不斷進步,基于神經網絡的精排技術逐漸被提出。此類技術常見的有基于標簽預測的方法和基于相似試題對關系的學習方法。前者通過訓練試題知識點標簽預測模型,得到稠密的試題語義向量表示,然后利用向量間的距離,去估計兩道試題語義間的關系。該種建模方法可以利用TextCNN、Transformer、Bert[4]等模型?;谙嗨圃囶}對關系的學習方法,模型的輸入是兩道試題文本,訓練目標是判斷兩道題是否為相似題。二次精排可以通過訓練好的模型直接預估兩道題的相似度,在擁有大量訓練數據的情況下能夠取得更好的效果。

在一些場景中,還需要在檢索過程中考慮用戶個性化信息。如在教師給一道考試題搭配相關鞏固試題的場景中,有些老師傾向于選擇偏同步學習類的試題,另外一些老師則可能傾向于綜合復習類。因子分解機(FM)模型可以將考區、考試類型等二階特征組合融入到模型中,用于個性化推薦?;谏窠浘W絡的推薦模型,如Wide&Deep[5]、DeepFM[6]等模型,也可以應用到試題個性化檢索中。近年來,融入注意力(Attention)機制[7]和知識圖譜的推薦系統不斷的被提出,有效的提升了神經網絡模型的可解釋性。試題檢索系統可以采用這些研究方案,對檢索結果提供諸如知識點相似度、試題難度符合度等信息,供用戶進行二次篩選。

三、總結與展望

隨著教育個性化學習系統被廣大教師學生的逐步認可,可預見有更多的研究者會投入到以試題檢索技術為代表的一系列相關技術研究中。我們有理由相信,人工智能會進一步深入到教學的各個環節中,護航學生快樂學習,助力教育者實現因材施教的夢想。

參考文獻:

[1] 劉淇,陳恩紅,黃振亞. 面向個性化學習的學生認知能力分析[J]. 中國計算機學會通信, 2017, (04).

[2] 胡國平, 張丹, 蘇喻,等. 試題知識點預測:一種教研知識強化的卷積神經網絡模型[J]. 中文信息學報, 2018, v.32(05):142-151.

[3] 蘇潭英, 郭憲勇, 金鑫. 一種基于Lucene的中文全文檢索系統[J]. 計算機工程, 2007, 033(023):94-96.

[4] Minaee S , Kalchbrenner N , Cambria E , et al. Deep Learning Based Text Classification: A Comprehensive Review[J]. 2020.

[5] Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.

[6] Guo H , Tang R , Ye Y , et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.

[7] Liu Q , Huang Z , Huang Z , et al. [ACM Press the 24th ACM SIGKDD International Conference - London, United Kingdom (2018.08.19-2018.08.23)] Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining - KDD '18 - Finding Similar Exercises in Online Education Systems[C]// 2018:1821-1830.

猜你喜歡
淺層題庫檢索
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
通過實際案例談如何利用外文庫檢索提高檢索效率
2004—2017年瓦房店淺層地溫變化特征分析
瑞典專利數據庫的檢索技巧
“整式的乘法與因式分解”優題庫
YL區塊某探井淺層氣危害評估
腦力急旋風
英國知識產權局商標數據庫信息檢索
近30年陳巴爾虎旗地區40厘米淺層地溫場變化特征
猿題庫技術壓陣 深耕 K12在線教育市場
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合