?

詞向量在計算機輔助英語詞匯學習系統中的應用

2023-03-02 15:54鄧海龍
現代英語 2023年18期
關鍵詞:英語詞匯語義向量

鄧海龍

(贛南師范大學,江西 贛州 341000)

詞匯是英語運用能力的基礎,也是占用學習時間和精力較多的部分。 然而,英語詞匯學習效率在總體上并不理想。 隨著計算機技術的迅速發展,各類計算機輔助詞匯學習(Computer Assisted Vocabulary Learning)系統得到開發和應用,給外語學習者詞匯識記相關教學提供了諸多便利,有力地提升了英語詞匯學習效果。 然而,由于主客觀條件限制,現有大多數詞匯學習系統并沒有充分參考當代詞匯教學理論研究成果,鮮少借鑒當代人工智能發展的最新技術,在科學性、智能化和個性化設計方面存在一定發展空間。 詞匯學習實證研究表明,語義相似性對英語單詞學習存在重要影響[1]。 有研究指出,英語單詞記憶是外語學習中最為枯燥乏味、最具挑戰性的任務,這主要是由于大多數單詞之間缺乏直接的結構或語義關聯性[2]。 為改進現有計算機輔助英語詞匯教學系統,推動人工智能技術在外語教育中的應用,本研究嘗試引入自然語言處理領域的詞向量技術,結合學習者心理詞匯網絡表征理論和二語詞匯教學理論,設計構建基于詞向量的英語詞匯智能教學系統,以進一步增強英語詞匯教學效果。

一、 計算機輔助詞匯學習

由于智能手機的廣泛普及,計算機詞匯學習系統得到蓬勃發展,移動終端應用市場上涌現大量單詞記憶軟件。 相比傳統單詞識記方法,其有諸多優勢。 第一,這些軟件界面友好,單詞呈現方式豐富多樣,其中包含發音實例、圖片說明(動畫提示)、例句及其譯文與朗讀等。 第二,詞庫種類齊全,配有英語四、六級考試詞匯、考研英語、雅思托福英語等各類詞匯記憶項目可供選擇。 有些軟件提供特定教材書籍的生詞列表進行學習,比如,新概念、許國璋英語等[3]。 第三,單詞練習與測試形式較為豐富,其中包括聽寫、多項選擇和例句填空等。 第四,交互性強,系統根據用戶操作情況動態調整學習內容。 有些詞匯學習系統還融入游戲元素,有助于增強趣味性和提升成就感。 第五,一些軟件參考心理學理論,運用抗遺忘單詞記憶策略,如根據艾濱浩斯遺忘曲線等算法設計詞匯學習周期等。

最新研究表明,移動技術條件下的計算機詞匯學習系統對學習者詞匯學習具有積極作用。 曹進、鄧向姣以“百詞斬”應用為例調查了大學生移動詞匯學習現狀,指出移動學習背景下的計算機輔助詞匯教學系統可以提供多樣化的學習場景和個性化的學習內容,其便攜性特點有利于學生充分利用邊角時間進行碎片化學習,對大學生英語單詞擴張有積極效果[4]。 此外,移動終端中的計算機詞匯教學系統相對容易記錄和追蹤學習者詞匯學習活動,更加有利于設置和推送個性化詞匯學習方案。 研究人員通過綜合分析2005 至2018 年間33 項移動終端詞匯學習試驗結果發現,移動技術條件下的計算機輔助詞匯教學對學習者單詞記憶(Word Retention)有顯著且積極的影響。

值得注意的是,雖然計算機輔助詞匯學習系統逐漸增多,并在教學實踐中日益發揮重要作用,但其科學性、智能化以及個性化程度仍有待提高。 第一,現有詞匯學習系統鮮少有明確的二語詞匯學習理論支撐。 盡管應用市場上的計算機輔助詞匯學習系統類型比較多樣,功能也比較齊全,但大多以應考為主要目的,教學內容組織方式往往缺乏科學依據。 第二,現有詞匯學習系統較少借鑒當代人工智能技術成果。 從軟件開發角度來看,計算機輔助詞匯學習系統的研發門檻并不高,但相較于其他信息技術應用領域,其所帶來的經濟效益往往也較難吸引計算機專業人才。 第三,大多數英語詞匯學習系統尚未充分利用學習日志數據為用戶制訂個性化學習方案。 現有系統在詞匯學習計劃制訂和學習策略運用并不夠理想。 用戶的詞匯基礎、學習目標、時間及精力條件等情況各有不同,系統應當參照外語學習規律,分別提供個性化單詞訓練方案設計,以取得理想效果。

二、 詞匯網絡與詞匯教學

人類語言的詞匯組織結構(常稱作心理詞庫,Mental Lexicon)可以類比為一個龐大的詞匯網絡(Lexical Network 或Word Web),單詞之間通過語義相關性相互鏈接在一起。 詞匯知識并非僅僅包括詞形與意義之間的簡單對應關系,還涉及單詞之間的橫組合(如反義、近義與上下義)與縱聚合(如搭配)關系。 通常情況下,本族語者的詞匯網絡密度(Density)比學習者要大;隨著語言水平提高,學習者的詞匯網絡密度也隨之增大。 由此可見,詞匯教學并不適宜采用孤立記憶方法,應當將相互關聯的單詞組織起來集中呈現和學習,這樣才更加有利于擴張學習者詞匯數量和深化二語詞匯知識。

詞匯網絡理論對計算機輔助詞匯學習系統設計有重要啟示。 詞匯學習系統的設計重點在于如何組織和安排不同單詞的先后學習順序。 每個學習批次的單詞數量、單詞識記難度、相鄰學習單詞的意義相關度以及學習時間間隔等不同因素都可能對詞匯學習產生消極或者積極影響。 一般而言,將單詞進行離散化(Spacing)分開學習比聚集化(Massing)更有利于促進顯性與刻意詞匯識記效果[5]。 離散化是指盡量將存在語義相關性的詞匯分散組織學習。 具體來說,學習者同時學習多個形式或意義相近的初次接觸單詞容易產生一定程度的相互干擾;若從已經掌握的單詞出發,學習與之存在關聯的其他單詞,則往往有利于提高教學效果。

換言之,計算機詞匯學習方案設計主要涉及單詞分組規劃及其先后次序安排,其中應當考慮三個主要因素:重要性、熟悉度與相關性。 重要性主要影響詞匯分級,一般常見詞要比罕見詞重要,需要優先安排。 熟悉度主要關系到詞匯分組,熟悉程度較低的單詞容易受到其他相似詞的干擾,不宜與相關詞同時學習。 相關性主要涉及詞匯擴張策略,針對具有足夠熟悉度的單詞,系統通過推送以其為中心的詞匯網絡相關詞,強化學習者的詞匯語義網絡知識,以此達到高效擴大詞匯量的目的。 重要性與熟悉度兩個因素的量化方法相對簡單,前者一般以大型通用語料庫中的詞匯頻數為標準,后者則通常根據用戶詞匯學習日志和測試成績進行評定。 關于詞匯相關性的度量,本研究將采用自然語言處理領域中的詞向量方法進行計算。

三、 詞向量技術

2013 年,谷歌公司推出了開源Word2vec 工具,其中參考了神經概率語言模型的基本思想,但專門用于訓練詞向量。 2014 年,斯坦福大學自然語言處理小組提出了Glove 模型。 Glove 與Word2vec 在計算方法上有所差異,但兩者并無本質區別。 詞向量訓練屬于無監督學習(Unsupervised Learning),只要使用大規模語料進行充分訓練,所生成的詞向量模型能夠準確捕捉語料庫文本中的詞匯語義特征。 換言之,基于足量合適文本,詞向量訓練程序無須人工干預,可以準確學習得到語言中的詞匯語義特征。

經過大規模語料訓練得到的Word2vec 詞向量模型能夠計算詞匯語義相似度。 這一特點可用于相關詞查找和詞匯語義網絡構建。 詞向量在詞匯語義網絡構建上表現出較大優勢。 雖然一些人工編制的詞匯網絡資源如WordNet 也可構建詞匯語義網絡,但相比詞向量方法,其存在諸多缺陷。 首先,WordNet 的編制費時費力,詞匯數量有限,可拓展性差。 其次,WordNet 的詞匯語義網絡相對固定不變,很難反映語言使用的動態性。

四、 系統框架及流程設計

(一)設計原則

為改進現有詞匯學習軟件設計現狀,充分利用當代人工智能技術,本研究的計算機輔助詞匯學習系統設計盡量滿足以下三個基本原則。 第一,科學性原則。 詞匯學習系統是計算機輔助外語教學中的重要應用之一。 由于硬件條件限制,早期詞匯學習系統主要關注軟件基本功能實現。 隨著信息技術的迅速發展,英語詞匯教學軟件的功能越來越復雜,界面也越來越友好。 隨著智能手機的普及,英語詞匯教學軟件的應用日益廣泛。 這種條件下,詞匯學習系統應該借助語言學、外語教學、心理學研究的最新成果,在各個細節上朝著科學規范的方向發展。 第二,個性化原則。 由于個體心理特質、語言基礎和目標需求等各方面差異,詞匯學習方法也因人而異。許多網絡服務應用程序開發設計了個性化學習方案,單詞學習系統也應該充分考慮用戶差異,進行個性化的學習曲線設計,包括單詞學習的順序、數量、形式等各方面細節。 第三,智能化原則。 學生用戶的個體差異并非靜態的,而是隨著時間的推移和學習的進展發生動態變化。 人工智能在計算機輔助外語教學方面將發揮積極作用。 智能化詞匯學習系統應該記錄和評估學生的歷史學習行為,并根據學習發展狀況對后續詞匯學習計劃進行動態調整。

(二)系統框架

根據上述原則,本研究提出基于詞向量的計算機輔助詞匯學習系統基本框架(如圖1)。 如前所述,除了單詞信息呈現設計,以識記為主要目標的詞匯學習系統關鍵在于科學合理地進行詞匯分組與順序規劃。 詞匯學習系統主要分為三大部分:數據、執行和呈現。 數據部分包括分級詞表、詞向量模型和用戶行為日志。 分級詞表基于大型通用語料庫詞頻統計數據,一般頻數越高的單詞,越早學習。 詞向量模型通常運用大規模語料庫訓練得到,用于提取詞匯相似度和構建詞匯網絡。 用戶行為日志則源于系統使用記錄。 執行部分主要體現為詞匯學習方案,其接受詞匯教學理論指導,并根據分級詞表、詞向量模型和用戶行為日志等數據信息進行設計和制訂。用戶界面用于呈現單詞學習信息,并提供用戶交互功能,同時記錄和保存用戶學習行為。

圖1 系統基本框架

(三)流程設計

執行部分的學習方案是系統運行流程的集中體現,主要涉及不同學習環節中的詞匯學習計劃設置。系統運行流程包括三個環節:詞匯學習環節、詞匯鞏固環節和詞匯擴張環節(如表1)。 詞匯學習環節按組別依次呈現單詞及其釋義或圖示以供學習者識記。 依據詞匯教學理論,學習者在初次接觸生詞時應該盡量減少干擾,故本環節采用單詞離散化間隔處理,即盡量分散學習存在關聯的詞匯,避免語義相關單詞編入同一分組。 語義相關性檢驗使用詞向量模型進行向量余弦相似度計算,同一分組內單詞需要低于預先設置的相似度閾值。 詞匯鞏固環節是對已經學習過單詞進行強化記憶,主要采用回憶辨認等方式進行測試練習。 本環節根據單詞記憶規律,遵循艾濱浩斯遺忘曲線,結合學習者測試準確率,采用逐步擴大間隔方式鞏固記憶具有初步印象的詞匯。 詞匯擴張環節是對已經完成前兩個環節并達到基本熟識的單詞進行以詞匯語義網絡為基礎的關聯詞匯增長學習。 本環節采用詞向量模型提取相似詞,構建語義相關詞匯語義網絡,并結合詞匯分級過濾機制,推送目標學習詞匯。

表1 系統運行流程各環節一覽表

五、 結論

基于詞向量的計算機輔助詞匯學習系統可以從詞匯學習和詞匯擴張兩個環節對已有系統進行科學化和智能化改進。 在學習環節,系統通過詞向量語義相似性計算方法將目標詞進行過濾,以達到離散化分組目的,有助于減少記憶干擾。 在擴張環節,系統以目標詞為中心,通過詞向量相似詞查找,構建相關詞匯網絡,可以提高詞匯學習效率。 此外,系統追蹤和記錄學習者行為,并基于行為日志制訂后續學習計劃,具有個性化學習特點。 研究表明,由于詞向量模型在詞匯語義相似性計算和詞匯語義網絡建構方面的便捷性,詞向量技術在計算機輔助英語詞匯學習系統中具有較好的應用價值。

猜你喜歡
英語詞匯語義向量
向量的分解
聚焦“向量與三角”創新題
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
向量垂直在解析幾何中的應用
高中英語詞匯學習之我見
初中英語詞匯教學初探
向量五種“變身” 玩轉圓錐曲線
認知范疇模糊與語義模糊
擴大英語詞匯量的實踐
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合