?

基于內容的英語錄音教材標注研究與應用

2016-05-31 11:26閔捷鐘岑岑沙沙
中國教育信息化·基礎教育 2016年2期
關鍵詞:文本分類

閔捷 鐘岑岑 沙沙

摘 要: 英語錄音教材在數量和種類上的飛速發展對其有效管理與利用提出了新的挑戰,此時傳統的人工標注和組織方式已不能滿足數字出版以及教育信息化的需要。文章基于音頻信號處理、機器學習等信息技術,提出基于內容的英語錄音教材標注,運用自動與人工相結合的處理方法,從多層次、可擴展等角度構建描述錄音內容的內容表征模型,并在教育信息化環境中探索該模型及標注框架的應用方式,以期為未來錄音教材的建設和管理乃至數字化教育出版物的加工與發布提供參考。

關鍵詞: 英語錄音教材;內容標注;關鍵詞檢出;文本分類;數字教育出版

中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2016)04-00089-04

一、引言

在我國,錄音教材是教科書體系中的重要組成部分[1],是紙質教科書中精選內容的音頻化,在我國英語、語文、音樂等學科的教學中得到了廣泛的應用,迄今已有五十余年的歷史。尤其是對英語這一外語類學科的教學,錄音教材以其規范的語言表達和內容質量,為教師提供了便捷的輔助工具,為學生創建了良好的聽覺情境,對于聽說讀寫等外語學習基本技能特別是聽的培養和達成,起到了重要作用。

英語錄音教材的產生經過了素材錄制、內容編輯、技術加工等音像出版的主要環節[2],在此過程中,錄音教材的編輯開發單位積累了大量的資源。最近三十年來,從教科書中的課文同步朗讀到教輔中的聽力測試,各類英語錄音教材的總數量巨大、內容多樣,如何對這些資源進行科學、高效的組織和管理,對于錄音教材的編制與應用、數字化教育資源的開發和建設具有重要意義。長久以來,英語錄音教材的管理主要是以錄音磁帶、光盤等載體為依托,將播音人員、出版單位、時長、主要內容等信息采用卡片形式通過手工來建立文本索引。然而,在數字技術飛速發展的今天,這種傳統的基于人工的資源標注方式卻變得日益局限。一方面,面對海量的錄音教材,人工處理不僅耗時費力,而且易受疲勞、差錯等人為因素影響。另一方面,目前的人工處理大多是對一些客觀屬性進行標引,而在智慧學習環境,更需要的是基于各種教學功能、內容語義和語音特征等信息為教師或學生提供個性化服務,現有的屬性標引方式難以滿足實際需求。

在這種情況下,本文基于音頻信號處理、機器學習等信息技術,提出基于內容的英語錄音教材標注方案,以期在盡量少的人工干預下,自動給出大量未知英語錄音教材的多層級內容標簽,并從教育信息化環境下的數字教材建設和錄音教材數據庫應用的角度嘗試探索,從而為未來錄音教材乃至數字化教育資源的建設和管理提供參考。

二、英語錄音教材的內容描述

英語錄音教材是將一定的教材內容以音頻形式進行呈現的課程資源。相對于紙質教科書的文本形態,錄音教材通過播音人員的演繹、背景音(樂)的插入、音頻技術的處理等手段,試圖營造出生動、真實的聽覺環境,給人以親近感,從而促進教師教學效果的提高、學生英語綜合語言運用能力的培養。

從本質上看,英語錄音教材仍歸屬為音頻資源:作為一種重要的多媒體信息傳播媒質,在人耳所能聽見的頻率范圍內包括語音、音樂、環境音等類型。對于這些音頻的內容,可以用反映其聲學特點和人類聽覺感受的低層特征以及貼近用戶理解的語義特征來描述。

然而,不同于一般音頻數據,英語錄音教材面向教學的特殊地位決定了其語音部分是實現語言教學的重點。無論是內容的選擇與錄制還是素材的處理與集成,均圍繞教學目標和教學內容進行。作為英語錄音教材內容中的主體,錄音教材的語音部分具有一定的規律性,從形式上看包括單詞、語句、對話等基本單元,在不同的學段偏重不同;從語言內容上看,在傳遞詞句等語言表層含義的同時,還隱含了主題、話題等高層語義信息,例如,與《義務教育課程標準實驗教科書 英語(新目標) 七年級上》配套的錄音教材中,就大體包括姓名、足球、晴朗等關鍵詞,并涵蓋天氣、運動、生日、交際等主題。

基于以上分析可知,英語錄音教材的內容描述主要體現在以語言為主的語義層面,也就是說,對于一個基本單元,可以分別用關鍵詞和主題兩個層級的內容來表示語言低層和高層語義的信息。以此為基礎,還可再輔以提示音類別、間奏音樂類型等其他信息,由此構建出的更為豐富的基于不同層級的內容表征模型(見圖1),就可用于描述英語錄音教材的內容。

三、基于內容的英語錄音教材標注方案

基于內容的英語錄音教材標注的目的在于,自動得到大量未標注英語錄音教材(未知數據)的基于內容表征模型的標注結果(多層級內容標簽),并以此作為接口用于實現資源管理以及后端的具體應用,在此過程中允許管理人員或用戶進行人工干預,通過修正學習模型來提高標注性能(見圖2)。

基于內容的英語錄音教材標注本質上是一個機器學習問題,它借助于已準確標記的訓練數據來構建學習模型,再以此為依據建立起未知數據與內容標簽之間的映射關系。作為該過程的主體,英語錄音教材語言部分的內容標注主要包括音頻類型分割、關鍵詞檢出和文本分類三個關鍵模塊(見圖3),它們依次相連,并且相應的輸出項組成了未知數據的多層級內容標簽。這三個模塊的具體設計如下。

1.音頻類型分割

由上可知,英語錄音教材包括語音、音樂、環境音等類型,音頻類型分割模塊的任務就是將這些類型區分開來,以供后端模塊使用。該過程是依據所提取的能量、基頻、過零率、梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)等低層特征完成的,一方面通過判斷這些特征的突變點來實現音頻的物理切分,另一方面對切分后的片段進行基于分類器的分類,將其歸屬為某些已經定義好的語義類別。

對于分類的類別,語音、音樂、靜音等粗粒度類別是該過程所關注的首要問題。在此基礎上,也可進行某一具體類型的精細分類,如提示音、間奏、自然聲響等,甚至可進一步細化分層,例如,歌謠、純音樂等音樂類型,音樂會、爆炸等音頻事件等。這一部分的細化處理結果可作為英語錄音教材的內容表征模型中的其他信息,并依據實際需求進行調整和擴充。

2.關鍵詞檢出

對于英語錄音教材中的語音部分,首先需要給出其語言表述信息,而這可以通過語音識別技術來實現。

在英語錄音教材的編制過程中,播音人員的專業素養、編輯的監控管理、制作人員的后期處理等手段使得教材中的發音、語速、語調等具有嚴格標準的規范,由此得到的錄音資源具有標準式朗讀效果,可作為內容標注中學習模型構建所需的訓練樣本。但實際上,考慮到鼓勵學生接觸多樣化英語的教學目標、盡量營造真實情境的質量把控等實際要求[3],部分英語錄音教材中會故意包含口音、情緒變化、口語化、背景音等干擾因素,此時,針對這種相對貼近實際的發音的語音識別技術,就會由于目標與學習模型不匹配等問題而產生較高的錯誤率,在這種情況下,相對于試圖得到一詞一句精準識別結果的連續語音識別,本文認為采用僅將輸入語音用多個關鍵詞進行描述的關鍵詞檢出技術則更為合適。

關鍵詞檢出是一種從無限制的語音流中識別出一組給定詞(關鍵詞)的語音識別技術,相對于早期經典的基于廢料模型的處理方式,基于大詞匯量連續語音識別(Large Vocabulary Continuous Speech Recognition,LVCSR)的關鍵詞檢出在大詞表、任務無關的應用環境中體現了較高的準確性和靈活性。該框架先利用LVCSR將語音數據轉化為覆蓋多個候選結果的網格結構,再采用基于文本的匹配搜索在該網格中搜尋描述主要內容的關鍵詞。這種兩步式處理方式既通過將原始語音數據轉化為基于網格的文本表示來降低了數據存儲代價,又允許在無需重新進行模型訓練的情況下增刪關鍵詞詞表,對于未標注英語錄音教材數量不斷增長、內容不斷多樣的實際情況有較好的適用性。此時得到的網格結構將作為中間數據以滿足未來的需求更新,而關鍵詞信息將作為內容表征模型中的低層語義內容描述。

3.文本分類

該模塊以關鍵詞為輸入項,輸出對應語音數據的高層語義信息——主題。這是一個典型的模式識別問題,包括特征提取和模型分類兩部分。其中的特征提取,即對每個已用關鍵詞序列表示的語音數據進行基于文本的特征描述,在這里可采用經典的向量空間模型(Vector Space Model,VSM)來實現,也就是將關鍵詞看成是離散單詞,把每一個語音數據表示成向量形式,其中的向量元素描述了某個單詞在該數據中的出現情況,可用TF-IDF(Term Frequency-Inverse Document Frequency)[4]等方法表示。在得到VSM之后,便可根據已經定義好的文本類別標注信息采用支持向量機、神經網絡等算法來構建類模型,并通過計算未知數據與模型之間的距離來實現分類。

至此,除了表示低層內容的關鍵詞,主題作為高層語義內容的描述,也被賦予給了每一個語音數據。此二層信息便構成了英語錄音教材的內容表征模型的主體部分。

上述三個模塊給出了基于內容的英語錄音教材標注的基本框架,但是待處理數據的復雜性、模型的魯棒性和適用性、語義概念的主觀性等問題還是會使得完全自動的標注方法的性能不夠理想,因此不可避免的要加入人工干預。這主要需要兩方人員的努力:一方面,應在后端應用模塊為實際用戶留有交互接口,允許人工對標注有誤的數據進行標記,并反饋給標注模塊;另一方面,為管理人員構建友好易用的管理界面,用以對上述標注有誤的數據、具有代表性的未知數據進行人工標注,再將這些新的訓練數據送入標注模塊以進行學習模型的更新和優化,而這一過程可通過相關反饋、在線更新學習等算法來實現。

四、英語錄音教材數據庫在教學中的應用

基于內容的英語錄音教材標注技術可用于生成一個可支持智慧學習環境的錄音教材數據庫。與傳統的錄音教材相比較,錄音教材數據庫能夠為教師、學生提供更為全面的內容服務。

仍以英語學科為例,首先錄音教材數據庫可以為學習者提供個性化的學習資源服務。所謂的個性化學習資源服務,其核心問題是能夠判斷學習者現有的學習水平,并且能夠提供與其現有水平相適應的學習內容。對一般的英語學習者來說,學習英語時都有明確的水平劃分指標,如義務教育英語課程標準中將英語劃分為五級,對每一個級別都有明確的聽、說、讀、寫等要求,并對二級和五級水平給出了學生應掌握的單詞表?;谡n程標準的水平分級,我們就對經過內容標注的錄音教材內容進行難度分析??梢酝ㄟ^對文本內容中的單詞分析、背景聲音、內容長度、語速等因素解析其對應聽力難度水平。顯然,錄音內容中出現的單詞屬于哪一個等級水平、背景聲音對主聲音內容的干擾程度、語言速度等可以綜合反映某一段錄音教材內容的難度。通過這樣的難度分析,我們一方面可以在學習者完成一次聽力練習后識別其實際水平,另一方面也能夠依據每段錄音內容的難度級別,進一步為不同英語水平的學習者推送具有針對性的學習資源。

如果配合語音識別和語音分析引擎,錄音教材數據庫還可有效服務于學習者口語學習。到目前為止,在教育領域中通過計算機進行有效的語言、語音評價,仍需要基于標準錄音素材來進行,錄音教材數據庫則提供了海量的標準語音素材。在口語學習方面,基于內容標注,錄音教材數據可以輔助語音評價系統對學習者的口語情況給出更科學的評價結果,以及對學習者的口語能力提出強化和改進方案和標準語音范例,最終實現面向用戶口語能力提升的教學過程。

基于內容標注的錄音教材數據庫還能夠結合其他類型的課程資源,特別是結合數字教科書形成完整的語言學科學習解決方案。在教育部《2014年教育信息化工作要點》和《2015年教育信息化工作要點》中,均提出了:鼓勵開發與教材配套的基礎性數字教育資源和滿足廣大師生需求的個性化數字教育資源。標注好的錄音內容可以作為傳統教科書出版向數字教材轉型的基礎。例如,錄音教材數據庫可以和紙質教科書內容的結合,通過光學字符識別(Optical Character Recognition,OCR)技術和關聯標識方法,形成集文字、圖片、聲音為一體的點讀教材,通過這一方式可以彌補傳統教科書在英語學科聽、說方面的不足。錄音教材數據庫的另一種與教材的結合方式,是基于紙質教材的數字版本,整合適宜信息化環境中使用的英語數字教材?;趦热輼俗⒌匿浺艚滩臄祿觳粌H可以與教材原有的文、圖內容一起形成覆蓋英語聽、說、讀、寫的數字教材,更可以通過其多層級內標簽為學生、教師提供個性化內容,解決傳統教材個性化、針對性不強的缺陷。

五、總結與展望

在教育信息化的背景下,錄音教材在數量和種類上的飛速發展對其有效管理與利用提出了新的挑戰,而傳統單一、人工的標注和組織方式已經不能滿足實際需求。本文所提出的基于內容的英語錄音教材標注研究與應用,以英語學科為例,運用了自動與人工相結合的處理方法,從多層次、可擴展等角度構建英語錄音教材的內容表征模型,并在教育信息化環境下簡要探討該技術所形成的錄音教材數據庫的一些應用方式。這無論對錄音教材還是其他形式的數字化教育資源的建設與管理,乃至數字化教育出版的加工與發布,都能具有較高的參考和借鑒價值。

在本文研究的基礎上,隨著未來教育信息化的整體發展,錄音教材在數字化、碎片化、結構化等方面仍有進一步研究的必要。筆者認為,可能形成突破的研究方向包括以下三個方面。

在本研究的內容表征模型中,主要討論了以英語學科語言學習要求為出發點的內容標注,并將重點放在了語音部分的處理。而隨著經濟、文化的國際化趨勢不斷增強,未來的英語教育可能會對錄音內容的標注提出更高的要求。例如,加入基于說話人識別的播音人員標簽、基于情感分類的情感標簽等。這方面的標注信息除了要在本文所研究的內容表征模型中留出了接口外,更需要面向具體的學習情景和學習內容進行更深入的分析。

在人工干預的處理方面,本文中提到的引入人工干預是為了學習模型的更新和改進。但是這種人工干預本身帶有一定的主觀性,并且隨著錄音素材的數量增加,會導致人工工作量的遞增。隨著大數據技術的發展,未來通過建立具有自動判斷、自動修正的錄音內容標注大數據模型已成為可能?;诖髷祿P?,計算機不但可以自己找到已有標注中存在的差錯,更可能發現內容表征模型自身的不足,并提出修正方式。

錄音教材內容加工的標準化是另一個值得深入研究的問題。如本文中涉及的多層級內標簽、后端應用模塊接口等在實際應用中需要標準化。傳統錄音教材,無論是磁帶或CD等形式,都早已實現標準化??紤]到錄音教材今后仍是語言教學中影響范圍極大的核心課程資源,當其必須進一步完成數字化、結構化、碎片化發展時,顯然非標準化的錄音教材將在教學應用中造成諸多問題。這也意味著通過進一步的標準研究來滿足錄音教材在管理、應用方面的新需求是一個必須解決的課題。

參考文獻:

[1]教基二〔2014〕8號.中小學教科書選用管理暫行辦法[Z].

[2]唐舒巖.數字技術條件下語言類錄音教材產品的音頻編輯加工模式[J].海峽科學,2013(8):62-64.

[3]武桂香.英語錄音教材內容質量把控初探[J].課程·教材·教法,2013,33(6):62-76.

[4]G.Salton,C.Buckley.Term-weighting approaches in automatic text retrieval[J]. Information Processing and Management,1988,24(5):513-523.

(編輯:魯利瑞)

猜你喜歡
文本分類
基于稀疏編碼器與集成學習的文本分類
基于樸素貝葉斯的Web文本分類及其應用
基于組合分類算法的源代碼注釋質量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網絡答疑反饋系統
基于K—means算法的文本分類技術研究
文本分類算法在山東女子學院檔案管理的應用
不同情境下中文文本分類模型的表現及選擇
多核SVM文本分類研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合