?

自動寫作評閱反饋系統研究述評與展望

2017-01-17 05:22MarkWarschauer
當代外語研究 2016年6期
關鍵詞:寫作能力特征作文

張 荔 Mark Warschauer 盛 越

(上海交通大學,上海,200240;University of California,Irvine,CA 92697;上海工程技術大學,上海,201620)

自動寫作評閱反饋系統研究述評與展望

張 荔 Mark Warschauer 盛 越

(上海交通大學,上海,200240;University of California,Irvine,CA 92697;上海工程技術大學,上海,201620)

文章論述了PEG、IEA、IntelliMetric、e-rater、BETSY這五種具有代表性的自動作文評閱(AES)系統的原理、特征、功能、優缺點,分析比較其共性和差異,論證其發展過程,總結和展望未來發展的若干特點:設計有助于提高學習者認知能力和辯證性思維能力的AES系統;評判重點從語言和結構轉向論點思辨和修辭效果;能夠對各種文體類型的作文進行評定;開發對寫作過程提供形成性評估的AES系統;利用機器學習技術,設計開放式AES系統平臺;開發和利用可進行人機對話的反饋模式;交叉學科的合作在系統發展中的作用將更為突出;逐步建立對多種語言的評分反饋功能。

自動作文評分,評分原理要素,自然語言處理,認知思維能力

1.引言

計算機技術的不斷進步使科技在測試和教學領域中的應用越發深入與廣泛,其中一個重要的應用是自動作文評分系統(AES-Automated Essay Scoring)或自動作文評閱系統(AWE-Automated Writing Evaluation)①的開發和應用。這不僅有利于高風險、大規模測試中增加評分的信效度,還有助于寫作教學中給予即時反饋和減輕教師作文評閱負擔。比較有代表性的AES系統有PEG(Project Essay Grader)、IEA(Intelligent Essay Assessor)、e-rater(及Criterion②)、IntelliMetric(及MY Access!③)和BETSY (Bayesian Essay Test Scoring sYstem)。人們對系統開發和應用展開了大量研究(如 Attali 2015; Chapelleet al.2015;Warschauer 2006,2008,2014),隨著人工智能和自然語言處理技術的不斷推進,AES必將產生新的發展。然而,通過分析系統及寫作模式的變化發展來推測AES未來發展趨勢的研究還沒有。因此,本研究將分別論述各系統的原理、特征、功能、優缺點等,揭示系統的共同特征,比較其差異,論證其發展過程,總結和展望該領域未來發展的方向。

2.不同時期典型AES系統的特征與優缺點

上述AES系統在整個AES系統發展過程中比較具有代表性,每種系統有其特征與優缺點,也有其共性和個性。這些系統的發展并不是一個靜態的過程,多數系統經過逐步發展不斷完善,至今仍然在測試和教學領域中得到廣泛應用。

2.1 PEG

最早的AES系統PEG是由Page等人于1966年開發的。其基本原理是使用相關分析推測作文的內在質量(Chung&O'Neil 1997),即通過從作文文本中提取間接反映其質量的表層文本特征項(稱作proxes,如詞性、詞長、詞義等)來衡量作文質量的內在要素(稱作trins,如流利度、用詞、語法等)(Page 1966)。

PEG的評分主要分為三個步驟:(1)選取訓練集作文進行人工打分,并利用自然語言處理技術(NLP-Natural Language Processing)提取若干文本特征項以確定評價作文質量的特征值。(2)將文本特征項作為自變量,人工評分分數作為因變量,輸入預測方程,進行多元回歸分析,得出各變量的beta值,即各項特征在作文評分中的權重。(3)將beta值代入計算程序換算出作文最終得分(Chung&O'Neil 1997)。圖1為PEG系統評分過程,虛線部分表示系統與人工評閱的信效度檢驗過程。

Page和Peterson(1995)對PEG的信度加以分析后發現,人機評閱相關性為0.72~0.78,高于人工評閱者間的相關性。系統還具有評分方法直接、技術支持充分和性能不斷提升等優點。但PEG只測量了作文的表層特征,未涉及作文內容的評判;每次評分需要對變量重新校正;只能提供與其他作文相比較而言的分數;而且PEG的開發者們沒有提供詳細的研究報告,對其實質內容很難進一步了解(Kaplanet al.1998)。

圖1 PEG評分方框圖(引自Chung&O'Neil 1997)

2.2 IEA

IEA是20世紀90年代末由Landauer基于潛在語義分析(LSA-Latent Semantic Analysis)技術開發的AES系統。LSA是“比較詞匯使用意義相似性的統計模型”(Foltz 1996),也是“提煉和推導文本段落語境中詞的使用情況的自動統計方法”(Landaueret al.1998)。其基本思想是:段落的意義,在很大程度上取決于該段落所包含詞匯的意義。

Landauer和Dumais(1997)認為,LSA既是理論也是技術。從理論上來說,任何文本中都隱藏著潛在的語義結構,該結構是所有詞匯的語義之和,體現了不同文本中詞匯使用的潛在模式,并可通過統計方法加以計算(Foltz 1996)。從技術層面看,LSA是一種矢量空間模型(VSM-Vector Space Model)技術,通過減少維數的方法提取文本數據中的潛在語義結構,使詞匯的意義通過詞匯所在的語境加以表征(Lemaire&Dessus 2001)。具體就是通過詞匯項-文檔矩陣(term-by-document matrix)來表示,矩陣中每一行代表一個詞匯項,每一列代表一個段落,因而矩陣的每一個單元格為對應詞匯項在段落中的頻數(梁茂成、文秋芳2007)。該頻數代表了詞在文章中的重要性和詞所傳遞的信息,由大型文本語料庫中詞的共現(co-occurrence)情況所決定(Lemaire&Dessus 2001)。

用IEA評分時,由人工評閱者對所有訓練集作文打分,然后將訓練集作文與待評作文視作矢量,用LSA技術加以分析,確定十篇與待評作文相似的作文,進行cosine加權平均,得到待評作文與訓練集作文在內容上的相似度分數,經轉換后成為機閱分數(Landaueret al.2003)。具體步驟如圖 2所示。

IEA與人工評分間的相關性達到0.85(Landaueret al.2000),與人工評分在詞匯和文本的意義方面有較高的相似性。IEA將三個主要成分即內容、風格和語言加以結合,可模仿人進行詞匯選擇和類別判斷,提供與內容相關的反饋信息(如作文的連貫性),對寫作教學有積極意義。而且IEA還可用作閱讀理解檢測(如比較文章摘要與原文的匹配度)。另外 IEA還增加效度和置信度的測量(validity confidence measures),可測定作文是否有抄襲現象(Landaueret al.2003)。其缺點是只能對詞義加以分析卻沒有考慮詞的順序、句法關系、邏輯等因素,因此缺乏完整性(Landaueret al.2004)。

2.3 e-rater和Criterion

e-rater是20世紀90年代末由ETS(Educational Testing Service)開發的一項基于NLP技術,矢量空間模型技術和線性回歸模型(Valentiet al.2003),通過從作文中提取特征項來預測人工評閱作文得分的AES系統(Enright&Quinlan 2010)。

圖2 基于三個部分個性化結合及輔助措施的IEA評分示意圖(引自Landauer et al.2003)

e-rater圍繞篇章、句法和內容/話題三個模塊評判作文(Burstein&Marcu 2000)。篇章模塊使用在文本中搜索“In summary”、“In conclusion”等提示詞的方法;句法模塊使用NLP技術中的句法分析程序(parser)對句子進行解析;內容/話題模塊則通過檢測文本所含與題目高度相關的主題詞來確定與內容相關的特征項的分數檔。圖3展示了e-rater評分要素的基本構成。

e-rater的評分過程是:(1)使用線性回歸模型分析人工評分的作文,確立可預測人工評閱分數的最優化加權模型。(2)對作文的各個特征項進行測量和匯總,形成各特征項分數。(3)通過加權模型將特征項分數加權平均后形成最終分數(Burstein 2003)。

e-rater與人工評分之間的完全一致性為87%~97%,相關性為 0.73~0.93(Bursteinet al.2004; Valentiet al.2003)。e-rater能評判作文的語言、內容和篇章結構,因此是較為全面的自動評分系統。然而,e-rater著重語言的準確度和作文的結構,不能對觀點的論述和內容的邏輯性、連貫性加以評估,且e-rater給出的是作文的分數,沒有具體的反饋內容。

Criterion利用e-rater對作文進行評分,又利用Critique分析工具對語法錯誤、語言使用、語篇結構、文體特征等提供反饋信息(Bursteinet al.2003)。Criterion利用語料庫和統計的方法檢測語言使用中的違規現象,方法是從語料庫中提取和計算雙連詞(bigrams),包括相鄰詞(sequence of adjacent words)和詞性組對(part-of-speech pairs),并與學生作文中雙連詞出現的頻率進行比較,如有差異則說明作文中可能出現錯誤(Bursteinet al.2004)。Criterion對語篇和內容的反饋是通過人工標記語篇單元項(discourse unit),如介紹、中間段(主題句和細節展開)、結尾等要素。系統利用概率分析方法(probabilistic methods)和基于決策的方法(decisionbased approach)分析語篇,將句子歸入語篇各要素中,對不符合語篇要素的作文給予修改建議(Bursteinet al.2003)。Criterion能幫助學生減少錯誤的發生,其內置在線參考資料能幫助學生進行自主學習。但是系統并不能準確查出所有的錯誤,只能指出表面性的語言錯誤,對于內容方面的反饋比較欠缺(Cheville 2004)。

2.4 IntelliMetric和MY Access!

IntelliMetric是由Vantage Learning于1998年開發的能對開放式問題進行評分和反饋的作文評價系統。該系統基于人腦的信息處理的認知模式,融合了人工智能和計算語言學原理,利用NLP技術和機器學習方法,開發了認知搜索(CogniSearch)和量子推理(Quantum Reasoning)技術(Elliot 2003)。IntelliMetric基于人腦,使用神經合成法重現人工評分過程。它利用自主學習引擎,基于人工評分獲得系統評分所需信息,再使用數學工具形成多種信息,利用系統的復雜功能將各部分合成、歸納,形成得分(Vantage Learning 2005)。

IntelliMetric從內容和結構兩方面對作文的語義、句法和語篇層面的多個要素進行評價(Vantage Learning 2005)。評分步驟為:(1)將已知分數的訓練集作文輸入系統,由系統歸納出評分標準并建模,然后不斷矯正模型直至最終確定后運用于待評作文。(2)使用NLP技術中的句法分析程序理解句型和語法結構,從文本中提取信息,轉化成數字形式以支持數學模型的運算。(3)確定一個或多個數學模型、整合模型的信息獲得最終分數(Rudneret al.2005)。這一評分步驟可通過圖4加以說明。

IntelliMetric與人工評分一致性達 94%到98%,相關達0.83,高于人工評分者間的一致性和相關性(Elliot 2002)。IntelliMetric的優點是針對不同學業水平和學科內容進行評閱,與其他反映寫作水平的測量方法有很強的關聯,不同樣本測試結果穩定(Elliot 2002)。另外,它能夠通過機器學習技術,模仿人工評分過程建立模型并不斷加以改進。它還能支持其他多種語言的作文評分。不過系統未涉及寫作過程中的思維和認知能力方面的評定。

圖3 e-rater評分要素分解圖(引自Quinlan et al.2009:9)

圖4 IntelliM etric評分過程圖(Vantage Learning 2005:12)

體現IntelliMetric在網絡環境中實際應用的MY Access!是基于互聯網、針對美國教育環境的自動寫作評估系統,與IntelliMetric在評分的核心理論上是一致的。MY Access!為學生提供了一個寫作環境,使學生得到迅速的結構化的反饋,有利于學生根據反饋結果修改作文,提高寫作能力。MY Access!還為教師提供了一個基于網絡的教學環境,教師可以瀏覽歷史記錄,分析作文錯誤。但是MY Access!只能評定系統自帶的寫作任務,對教師布置的新任務卻無法評定(Dikli 2006)。

2.5 BETSY

BETSY是由Runder等人于2002年開發的以概率論為導向、基于貝葉斯文本分類技術方法的AES系統(Valentiet al.2003)。BETSY使用了貝葉斯方法的多元貝努利模型(Multivariate Bernoulli Model)和多項式模型(Multinomial Model)。這兩種模型分別把作文看作是校正特征(calibrated features)的特例和范例(Dikli 2006)。在貝努利模型中,某一特征出現的概率通過計算作文中所包含的該特征的比例加以實現。在多項式模型中,作文獲得某個分數的概率則是計算該作文所有特征的條件概率的乘積(Rudner&Liang 2002)。換句話說,貝努利模型關注某一特征在文中是否存在,而多項式模型關注所有特征在文章中出現的概率(Rudner& Liang 2002)。

BETSY的評分主要通過將作文分類的方法。首先,BETSY使用約1000篇訓練集作文對系統進行訓練,形成優、良、中、差四個級別;然后系統利用上述模型對待評作文的特征項加以分析,包括特定的詞和詞組、詞頻、詞數、句長、動詞數、概念呈現順序、名詞性詞組的共現情況等;最后系統對待評作文進行分類,確定作文所屬級別(Dikli 2006)。

Rudner和Liang(2002)用462篇作文作為訓練集,使用BETSY對80篇測試作文評分,得到了80%的準確率。其研究人員聲稱BETSY不但包含了其他系統的優點,且具有自身特點,可應用于不同專業學科,能產生診斷性結果且易于解釋,還可免費下載使用(Valentiet al.2003)。但是,BETSY的應用不多,相關研究非常有限,訓練集作文數量要求大,否則準確率較低,使用效果未得到論證(Valentiet al.2003)。

3.AES系統的共性和個性

從以上分析來看,五大AES系統的最重要的共性是系統都基于而非脫離人工評分,是對人工評分的模擬,需用基于人工評閱的作文對系統進行訓練。雖然有的系統(如e-rater)也開發了適用于不同寫作題目的通用(generic)模型,但由于通用性無法涉及作文內容的評分而影響了準確度。此外,多數系統都使用了NLP技術。NLP技術是指計算機對自然語言的各級語言單位進行的自動處理,包括對字、詞、句、篇章等進行轉換、分析與理解,對未來AES的發展有著十分積極的意義。最后,研究者對各自所開發的模型都給出了信效度的驗證,說明其準確性,但是在實際使用中,尤其是在作文反饋方面仍存在問題。表1更為清晰地展示了各系統的共性和個性,便于分析和比較。

表1 五種AES系統的個性和共性比較

續表

4.存在問題和發展方向

AES的一個共同問題是目前多數系統只能對語言的表層現象加以評定,對深層次的語言現象的評判不足,更是忽視了寫作過程中的修辭、認知、思維發展過程等方面的因素。Weigle(2013)闡述了寫作能力的結構模式,該模式包含了修辭知識、思辨能力、閱讀能力、寫作能力、寫作過程、寫作慣例、網絡環境下的寫作能力等因素。而AES的評分標準需符合寫作能力的結構模式(Weigle 2013),因此,使用AES對作文進行評分不能僅限于對傳統的寫作慣例的評判,更要從寫作能力的各方面,尤其是針對寫作的修辭、認知、思辨能力、過程等因素對作文加以評判,這是未來AES系統發展的趨勢。

Kukich(2000)認為,未來AES所提供的反饋將使人們更好地理解寫作中所包含的各種認知和思想交流過程。因此未來AES將基于認知,更加注重寫作過程中思維的發展。Deane等(2011)在對新型AES的開發設想中提出了基于認知的寫作能力測試模型。該模型體現了任務特征所反映的基本寫作能力和文本特征所反映的有效論證能力,其主要作用是建立學生外在的寫作表現和內在的寫作能力之間的聯系。Deane等認為寫作能力、思辨能力、閱讀能力和整體文化素養之間沒有明顯的界限,至少從形成性角度來看,閱讀、寫作和思辨能力是緊密聯系的。

目前,美國加州大學Warschauer(2014)教授已經開始著手新型AES系統的研究計劃,旨在能夠對各種寫作形式提供形成性反饋,并強調寫作的高級思維能力。該研究將使用具有機器學習功能的開放性AES系統LightSIDE,利用系統的修改助手工具對寫作過程提供實質性反饋,并試圖對文、理科的各類作文分別提供適合學科內容的有效反饋。系統還將設計人機對話和智能指導系統加強反饋效果,幫助學生更好地提高寫作能力。

AES系統的發展,離不開交叉學科間的相互滲透和共同合作,包括寫作教師、語言測試研究開發人員、認知心理學家、心理測量專家、計算機科學家等(Shermis&Burstein 2003)。寫作教師和語言測試人員可以使我們了解AES系統如何在最大程度上幫助學生提高寫作能力。認知心理學家幫助建立更加優化的模型,以反映學生寫作的思維過程。心理測量專家對系統的評估工作有利于人們更好地了解系統的信度和效度。計算機科學家的重要作用在于系統的實施和功能的優化。

AES也將不再局限于對英語作文的自動評分,而是逐步建立對多種語言的評分功能。我國研究人員除了研發針對我國英語學習者的AES評閱反饋系統外,也開始研發針對漢語作文考試的AES系統。例如黃志娥等(2014)研究了漢語水平考試的自動作文評分的特征選取方法。劉明楊等(2016)研究了將文采特征加入到基準系統中對高考作文進行自動評分的可能性。這些研究對整體AES的發展都將產生一定的影響。

隨著NLP技術的發展,越來越多的AES系統得以開發和利用,諸如 MaxEnt(Sukkarieh& Bolge 2010)、Writing Roadmap (Richet al.2013)、LightSIDE(Mayfield&Rose 2013),Crase(Lottridgeet al.2013)等。進入21世紀,NLP延續20世紀末的語料庫和概率統計的方法,更多地利用語料庫中的“大數據”對自然語言加以分析處理(Agerriet al.2015)。此外,人們基于交互理論,研究NLP中的人機交互,利用自然語言處理方法創建自然語言界面,使人機交互更加有效(Valencia-García& García-Sánchez 2013)。概率統計模型促成了當今概率建模的繁榮與發展。概率統計建模采用從數據中學習的方法,成為NLP中占統治地位的建模方法,形成了基于語料庫的數據驅動法。隨著NLP的智能互聯網的建立,對語言高級層面的處理成為可能。Wang等(2014)分析了NLP的結構和功能,提出了基于語義網絡本體論(Semantic Web Ontology)的NLP系統,將本體論運用于人工智能、語義網等的自然語言處理可以降低其復雜性,有利于解決實際問題。NLP的發展歷程似乎正遵循著莫里斯和卡爾納普的理論,在經歷了前一階段的語形網之后,正逐步邁向語義網這一新的階段,最終很有可能邁向語用網這一更高層次(殷杰、董佳蓉2008)。這些對AES的進一步發展將起到關鍵性作用。

5.結論

以上我們對五種最有代表性的AES系統的原理、特征、功能、優缺點等進行了分析,比較了其共性和個性。未來AES系統的發展將在更高層面上依賴NLP技術的發展并呈現以下八個特點:(1)以基于認知的寫作模型為基礎,設計有助于提高學習者認知能力和批判性思維能力的AES系統。(2)評判重點從作文的語言和結構轉向作文的論點思辨和修辭效果。(3)對各種文體類型的作文進行評定,包括語言類和學術科技類。(4)開發能夠對學生寫作過程提供有效形成性評估的新型系統軟件。(5)利用機器學習技術,設計能夠解決新問題的開放式AES系統平臺。(6)開發和利用可進行人機對話的反饋模式,增強反饋效果,提升系統功能。(7)各學科領域的合作在系統發展中的作用將更為突出。(8)逐步建立對多種語言的評分反饋功能。

附注

①AWE指除了有對作文評分外還提供反饋。由于文中多數系統為評分系統,故統稱AES系統。

②將Criterion與e-rater合并討論是由于Criterion是e-rater評分系統在教學環境中的應用,可提供寫作反饋。

③同樣MY Access!是IntelliMetric在教學環境中的應用。

④同一種AES系統中,訓練集作文數與系統評分準確度成正比。

Agerri,R.,X.Artola,Z.Beloki,G.Rigau&A.Soroa.2015.Big data for natural language processing:A streaming approach[J].Knowledge-Based Systems79:36-42.

Attali,Y.2015.Reliability-based feature weighting for automated essay scoring[J].Applied Psychological Measurement39 (4):303-313.

Burstein,J.2003.The E-rater? scoring engine:Automated essay scoring with natural language processing[A].In M.D.Shermis& J.C.Burstein(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective[C].Mahwah: Lawrence Erlbaum Associates.113-121.

Burstein,J.,M.Chodorow&C.Leacock.2004.Automated essay evaluation:The criterion online writing service[J].AI Magazine25:27-35.

Burstein,J.&D.Marcu.2000.Benefits of modularity in an automated essay scoring system[A].Proceedings of the COLING-2000 Workshop on Using Toolsets and Architectures to Build NLP Systems[C].Luxembourg:Association for Computational Linguistics.44-50.

Burstein J.,D.Marcu&K.Knight.2003.Finding the WRITE stuff:Automatic identification of discourse structure in student essays[J].IEEE Intelligent Systems18:32-39.

Chapelle,C.A.,E.Cotos&J.Lee.2015.Validity arguments for diagnostic assessment using automated writing evaluation[J].Language Testing32(3):385-405.

Cheville,J.2004.Automated scoring technologies and the rising influence of error[J].English Journal93:47-52.

Chung,K.W.K.& H.F.O'Neil.1997.Methodological approaches to online scoring of essays[OL].[2016-07-06].http://www.cse.ucla.edu/products/reports/tech461. pdf.

Deane,P.,T.Quinlan&I.Kostin.2011.Automated scoring within a developmental, cognitive model of writing proficiency[R].Princeton:Educational Testing Service.

Dikli,S.2006.An overview of automated scoring of essays[J].Journal of Technology,Learning,and Assessment(5):1-35.

Elliot,S.2002.A study of expert scoring,standard human scoring and IntelliMetric scoring accuracy for statewide eighth grade writing responses[R].Newtown:Vantage Learning.

Elliot,S.2003.IntelliMetric:From here to validity[A].In M.D.Shermis&J.Burstein(eds.).Automated Essay Scoring:A Cross-Disciplinary Perspective[C].Mahwah:Lawrence Erlbaum.71-86.

Enright,M.& M.Quinlan.2010.Complementing human judgment of essays written by English language learners with e-rater scoring[J].Language Testing27:317-334.

Foltz,P.W.1996.Latent Semantic Analysis for text-based research[J].Behavior Research Methods,Instruments and Computers28:197-202.

Kaplan,R.M.,S.E.Wolff,J.Burstein,C.Lu,D.A.Rock&B.A.Kaplan.1998.Scoring essays automatically using surface features[R].Princeton:Educational Testing Service.

Kukich,K.2000.Beyond automated essay scoring[J].IEEE Intelligent Systems15:22-27.

Landauer,T.,K.&S.Dumais.1997.A solution to Plato's problem: The latent semantic analysis theory of the acquisition,induction,and representation of knowledge[J].Psychological Review104:211-140.

Landauer,T.K.,P.W.Foltz&D.Laham.1998.Introduction to latent semantic analysis[J].Discourse Processes25:259-284.

Landauer,T.K.,D.Laham&P.W.Foltz.2000.The intelligent essay assessor[J].IEEE Intelligent Systems15:27-31.

Landauer,T.K.,P.W.Foltz&D.Laham.2004.What is LSA?[OL].[2016-07-06].http://lsa.colorado.edu/whatis.html.

Landauer,T.K.,D.Laham&P.W.Foltz.2003.Automatic essay assessment[J].Assessment in Education10(3):295-308.

Lemaire,B.&P.Dessus.2001.A system to assess the semantic content of student essays[J].Educational Computing Research24:305-306.

Lottridge,S.M.,E.M.Schulz& H.C.Mitzel.2013.Using automated scoring to monitor reader performance and detect reader drift in essay scoring[A].In M.D.Shermis&J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York: Routledge.233-250.

Mayfield,E.& C.P.Rose.2013.LightSIDE:Open source machine learning for text[A].In M.D.Shermis&J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York: Routledge.124-135.

Page,E.B.1966.The imminence of grading essays by computer[J].Phi Delta Kappan47:238-243.

Page,E.&N.S.Peterson.1995.The computer moves into essay grading:Updating the ancient test[J].Phi Delta Kappan76:561-565.

Quinlan,T.,D.Higgins& S.Wolff.2009.Evaluating the construct-coverage of e-rater Scoring Engine [R].Princeton:ETS.

Rich,C.S.,M.C.Schneider&J.M D'Brot.2013.Applications of automated essay evaluation in west Virginia[A].In M.D.Shermis& J.Burstein(eds.).Handbook of Automated Essay Evaluation:Current Applications and New Directions[C].New York:Routledge.99-123.

Rudner,L.M.&T.Liang.2002.Automated essay scoring using Bayes'theorem[J].The Journal of Technology,Learning,and Assessment1(2):3-21.

Rudner,L.,V.Garcia& C.Welch.2005.An evaluation of IntellimetricTMessay scoring system using responses to GMAT AWA prompts[R].McLean:Graduate Management Admission Council.

Shermis,M.D.&J.Burstein.2003.Introduction[A].In M.D.Shermis&J.Burstein(eds.).Automated Essay Scoring:A Cross-disciplinaryPerspective[C].Mahwah: Lawrence Erlbaum.xiii-xvi.

Sukkarieh,J.Z.&E.Bolge.2010.Building a textual entailment suite for the evaluation of automatic content scoring technologies[OL].[2016-07-06].http://www.lrec-conf.org/proceedings/lrec2010/pdf/310_Paper.pdf

Valencia-García,R.& F.García-Sánchez.2013.Natural language processing and human-computer interaction[J].Computer Standards&Interfaces35:415-416.

Valenti,S.,F.Neri.&A.Cucchiarelli.2003.An overview of current research on automated essay grading[J].Journal of Information Technology Education2:319-330.

Vantage Learning.2005.How IntelliMetricTMWorks[OL].[2016-07-06].http://www.cengagesites.com/academic/ assets/sites/4994/WE_2_IM_How_IntelliMetric_Works.pdf.

Wang,Y.,J.Zhang&Y.Xu.2014.Research on construction of natural language processing system based on semantic web ontology[J].Journal of Chemical and Pharmaceutical Research6(12):291-296.

Weigle,S.C.2013.English language learners and automated scoring of essays:Critical considerations[J].Assessing Writing18:85-99.

Warschauer,M.2014.Next-generation automated feedback in support of iterative writing and scientific argumentation[R].Irvine:University of California.

Warschauer,M.&D.Grimes.2008.Automated essay scoring in the classroom[J].Pedagogies3(1):22-36.

Warschauer, M.& P.Ware.2006.Automated writing evaluation:Defining the classroom research agenda[J].Language Teaching Research10(2):1-24.

黃志娥、謝佳莉、荀恩東.2014.HSK自動作文評分的特征選取研究[J].計算機工程與應用(6):118-126.

劉明楊、秦兵、劉挺.2016.基于文采特征的高考作文自動評分智能[J].計算機與應用(1):1-8.

梁茂成、文秋芳.2007.國外作文自動評分系統評述及啟示[J].外語電化教學(5):18-24.

殷杰、董佳蓉.2008.論自然語言處理的發展趨勢[J].自然辯證法研究(3):31-37.

(責任編輯 管新潮)

H319

A

1674-8921-(2016)06-0054-08

10.3969/j.issn.1674-8921.2016.06.009

張荔,博士,上海交通大學外國語學院副教授。主要研究方向為計算機輔助語言教學、學術英語寫作。電子郵箱:zhangli@sjtu.edu.cn

Mark Warschauer,加利福尼亞大學歐文分校教育學院教授。主要研究方向為CALL、Cloud-Based Writing、Virtual Learning。電子郵箱:markw@uci.edu

盛越,上海工程技術大學外國語學院副教授。主要研究方向為計算機輔助語言教學。電子郵箱:sheng.yue@163.com

*本研究受國家社科基金項目“基于語料庫和云技術的網絡自動作文評閱系統信效度及其輔助教學研究”(編號13BYY081)資助,特此感謝!

猜你喜歡
寫作能力特征作文
根據方程特征選解法
挖掘創造潛能,提高寫作能力
加強互動交流,提升寫作能力
如何有效提高中小學生的寫作能力
培養學生寫作能力的理論思考
不忠誠的四個特征
抓住特征巧觀察
抓特征 猜成語
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合