?

基于《國際中文教育中文水平等級標準》的中文文本難度自動分級研究
——以HSK中高級閱讀文本為例

2024-01-26 13:34丁安琪蘭韻詩
關鍵詞:語法語義分級

丁安琪 張 楊 蘭韻詩

一、引言

文本難度自動分級是指根據文本易于理解程度(也稱可讀性、易讀性),通過計算機自動計算,根據文本特征自動判斷文本所屬難度級別。文本難度分級研究主要服務于語言與閱讀教學,在教材編纂與出版、分級閱讀、語言水平測試等方面都發揮著重要作用。①王泉根:《新世紀中國分級閱讀的思考與對策》,《中國圖書評論》2009年第9期。目前進行文本難度分級主要依靠人工設計的易讀性公式。依靠人工對文本進行難度分級費時費力,隨著語言信息處理技術的發展,利用計算機進行文本難度自動分級越來越受到關注。文本難度自動分級可以降低使用人工評估方式進行文本難度分級的主觀性及時間成本,快速有效地為使用者提供難度適宜的文本材料。

在國際中文教育領域,利用計算機技術進行文本難度自動分級研究的成果尚不多見,目前僅有楊純莉使用支持向量機(SVM)①Cortes,C.,&Vapnik,V.,Support-vector Networks,Machine Learning,vol.20,no.3,1995,pp.273-297.和樸素貝葉斯(NB)②Cover,T.,&Hart,P.,Nearest Neighbor Pattern Classification,IEEE Transactions on Information Theory,vol.13,no.1,1967,pp.21-27。的算法,對對外漢語報刊進行文本難度分級實驗;③楊純莉:《基于統計算法的對外漢語報刊文本易讀性詞匯因素分析》,華東師范大學碩士論文,2018。朱君輝等以16套國際中文教育教材為閱讀語料,使用多種機器學習算法考察漢語語法點對國際中文教育文本難度分級的影響;④朱君輝、劉鑫、楊麟兒、王鴻濱、楊爾弘:《漢語語法點特征及其在二語文本難度自動分級研究中的應用》,《語言文字應用》2022年第3期。杜月明等以HSK閱讀文本為語料集,采用多種機器學習算法進行實驗。⑤杜月明、王亞敏、王蕾:《漢語水平考試(HSK)閱讀文本可讀性自動評估研究》,《語言文字應用》2022年第3期。但楊文兩種算法分級準確率只有45%左右;朱文使用人工標注定級方式為訓練語料定級,研究結果客觀性不足;杜文將HSK一至三級文本納入統計中,這些文本多以短句形式呈現,加大了字詞因素對文本的影響,對整個模型整體預測效果也會產生一定影響。

本文擬以《國際中文教育中文水平等級標準》(GF0025—2021,以下簡稱《標準》)為基礎,以HSK中高級閱讀文本為參照,通過對已標注HSK等級的中高級閱讀文本進行難度分析,探討文本難度自動分級構建最佳路徑。選擇《標準》作為基礎,是因為《標準》是首個面向外國中文學習者全面描繪、評價其中文語言技能和水平的規范標準,將外國學習者中文水平分為初、中、高三個等第,每個等第包含三個級別,并針對“三等九級”每一級別,從音節、漢字、詞匯、語法四個維度,給出了明確說明?!稑藴省窞閲H中文教育領域文本難度分級研究提供了權威的國家級標桿。以HSK中高級閱讀文本為參照,是因為這些材料來源于漢考國際官方公布正式樣卷或正式出版的具有權威性的HSK教材,其等級已經明確,可以為難度自動分級結果提供檢測依據。

具體來說,本文旨在探索以下問題:

1.不同層面特征對HSK中高級閱讀文本難度預測能力如何?哪種模型對HSK中高級閱讀文本預測能力最佳?

2.模型對HSK不同級別閱讀文本預測能力如何?

二、基于《標準》的HSK中高級閱讀文本難度自動分級

從計算機角度來看,文本難度自動分級問題可以看作是一個分類問題,這是自然語言處理領域非常經典的問題。一般來說,包括以下三個步驟:第一步,構建文本難度數據集。數據集包括訓練數據集、驗證數據集以及測試數據集三個部分。其中,訓練數據集用于訓練分級模型,幫助模型調整自身參數以擬合數據集;驗證數據集用來調整分級模型超參數,增強模型擬合能力;測試數據集用于測試模型分級效果。第二步,構建文本難度特征集。文本難度特征集是文本難度分級依據,在以往研究中,學者多從字、詞、句、篇等維度對文本特征進行標記。⑥郭望皓:《對外漢語文本易讀性公式研究》,上海交通大學碩士論文,2010。⑦左虹、朱勇:《中級歐美留學生漢語文本可讀性公式研究》,《世界漢語教學》2014年第2期。⑧吳思遠、于東、江新:《漢語文本可讀性特征體系構建和效度驗證》,《世界漢語教學》2020年第1期。第三步,構建實驗模型并分析實驗結果。

本節將介紹數據集的構建、特征集的構建和抽取過程、實驗模型的構建以及實驗結果分析。具體實驗流程見圖1。

圖1 HSK中高級閱讀文本難度自動分級實驗流程

1.HSK中高級閱讀文本數據集構建

本研究面向HSK中高級閱讀文本進行難度分析,因此實驗數據均為HSK相關官方閱讀文本材料,包括來自北京語言大學出版社的《HSK標準教程》①姜麗萍、李琳、于淼:《HSK標準教程》,北京語言大學出版社,2015年。(4~6級,各上下兩冊,共6冊)、配套練習冊《HSK標準教程練習冊》②姜麗萍:《HSK標準教程練習冊》,北京語言大學出版社,2019年。(4~6級,各上下兩冊,共6冊)、孔子學院總部與國家漢辦編制的《新漢語水平考試樣卷》③數據來源:https://www.chinesetest.cn/gosign.do?id=1&lid=0#,新漢語水平考試樣卷。(4~6級,各1冊,共3冊)、《新漢語水平考試真題集》④國家漢辦、孔子學院總部:《新漢語水平考試真題集HSK(六級)》,商務印書館,2012年。(4~6級,各40余冊,共129冊),共計144份材料。

首先,借助CnOCR文字識別(Optical Character Recognition,OCR)工具包⑤CnOCR:CnOCR是用來做中文OCR的Python 3包。CnOCR自帶訓練好的識別模型,安裝后即可直接使用。下載鏈接:https://gitee.com/cyahua/cnocr.,我們從上述教材中抽取出每單元課文正文,從上述練習冊、樣卷、真題集中抽取部分閱讀文本??紤]到閱讀部分題型較為豐富多樣,且部分題型特殊,我們對不同等級閱讀部分的題型進行了篩選,如因四級閱讀第一部分針對短對話的選詞填空題,對話字數過少,未達到一篇文本的長度,我們將其舍棄?;谏鲜隹紤],我們抽取的閱讀文本范圍為:四級閱讀第三部分、五級閱讀第一二三部分、六級閱讀第三四部分。

然后,我們通過人工校對方式,對文字識別抽取的文本結果進行格式、標點、空格校對,構建了HSK中高級閱讀文本數據集。數據庫最終保留2595篇文本,詳細信息如表1所示。

表1 HSK中高級閱讀文本數據集統計信息

2.HSK中高級閱讀文本特征集構建

閱讀文本難度等級與其所在標準下的漢字、詞匯、語法等語言基本要素等級大綱有著密切關系。判斷閱讀文本難度,往往需要考察該文本中漢字、詞匯與語法的難度。而對于中高級閱讀文本來說,隨著文本難度升高,其所包含語義信息也更為豐富,語義信息也會較大程度影響一篇中高級閱讀文本整體難度。

我們根據《標準》中漢字、詞匯、語法等級大綱,構建基于《標準》的多維等級特征以衡量一篇文本的局部難度;同時,基于深度學習模型構建語義特征以衡量一篇文本的全局難度。由以上兩類特征,共同構成適用于HSK中高級閱讀文本難度分級的語言特征體系?!稑藴省窛h字、詞匯、語法等級大綱統計信息見表2。下面分別對各項特征進行具體說明。

表2 《標準》漢字、詞匯、語法等級大綱統計信息

(1)基于《標準》的多維等級特征

基于《標準》的多維等級特征由三個部分構成:漢字等級特征、詞匯等級特征、語法等級特征。為探究各類型特征對于文本難度分級的有效性,針對每一個特征,我們對HSK中高級閱讀文本數據集中所有文本分別進行相應的特征難度等級統計。通過分析各等級特征所對應的統計圖,認定各等級特征有助于區分文本難度等級,并基于該發現將各等級特征首次納入HSK閱讀文本難度分級語言特征體系。

①漢字等級特征

漢字等級特征,指各等級漢字數量在文本總漢字數中占比分布情況,共7維,每一維對應一個漢字等級。

對文本中每一個漢字,我們均根據《標準》中的漢字等級大綱,查找其對應的難度等級。遍歷文本中所有漢字后,通過計算各等級漢字占比,獲得漢字等級特征。我們對HSK中高級閱讀文本數據集進行上述處理并統計漢字難度等級,結果如圖2所示。

圖2 HSK中高級閱讀文本漢字難度等級占比統計

由圖2可知,隨著文本難度等級升高,高難度漢字使用占比也逐漸增加。因此我們認為文本漢字難度等級分布情況能夠在一定程度上表征文本難度,漢字等級特征有助于區分文本難度等級。

②詞匯等級特征

詞匯等級特征,指各等級詞匯數量在文本總詞匯數中的占比分布情況,共9維。我們以《標準》中詞匯等級大綱為依據,前7維分別對應一個詞匯等級,第8維為未收錄詞語,第9維為專有名詞和特殊詞匯。

借助中文分詞工具,我們首先對文本執行分詞操作,①分詞是自然語言處理的基本操作之一,目的是將連續文本分割成一個個獨立的詞元。分詞工具來自,https://github.com/fxsjy/jieba.繼而根據《標準》中的詞匯等級大綱,分別對文本中每一個詞語,查找其相對應的難度等級。針對大綱沒有的詞語,增加一個“未收錄詞語”維度和一個“專有名詞和特殊詞匯”維度?!皩S忻~”收錄特定的人、地名、機構名稱等;“特殊詞匯”收錄專業術語、特殊的俗語、成語、詩詞等?!皩S忻~”和“特殊詞匯”統計信息和樣例見表3?!稑藴省诽峁┑脑~匯難度等級大綱共7個難度等級,增加上述兩個維度后,共計9維。

表3 “專有名詞表”和“特殊詞匯表”統計信息和樣例表

HSK中高級閱讀文本數據集詞匯難度等級占比統計結果如圖3所示。

圖3 HSK中高級閱讀文本詞匯難度等級占比統計

從圖3中可以看出,隨著文本難度升高,高難度詞匯使用占比逐漸升高,低難度詞匯使用占比逐漸降低;文本難度越高,未收錄詞語占比越高;隨著文本難度提升,文本中專有名詞和特殊詞匯占比也逐級升高。因此,可以認為文本詞匯難度等級分布情況能夠在一定程度上代表文本難度,詞匯等級特征有助于區分文本難度等級。

③語法等級特征

語法等級特征,指各等級語法數量在文本總語法數中的占比分布情況,共7維,每一維對應一個語法等級。

我們通過正則表達式匹配找到文本中包含的所有語法點,并根據《標準》中的語法等級大綱,找到各語法點對應的難度等級,以此得到每篇文本中包含的各等級語法點數量。如“只要你認真學習,就一定能取得好成績”,通過正則表達式匹配得到語法點“只要……,就……”,查找語法等級大綱,可知其語法等級為“二級”。繼而將各等級語法點數量除以該文本中總語法點數量,計算得到文本中各等級語法點頻率,將各級別頻率拼接成7維向量,作為該文本語法等級特征。HSK中高級閱讀文本數據集語法難度等級統計結果見圖4。

圖4 HSK中高級閱讀文本語法難度等級占比統計

由圖4可知,隨著文本難度等級的升高,五、六、七級語法點使用占比逐漸升高,而低難度等級語法點使用占比則有所下降。說明文本難度在一定程度上與文本語法點等級分布情況有關,語法等級特征有助于區分文本難度等級。

(2)基于深度學習的通用語言特征

一般來說,難度等級高的文本會表達更復雜的語義,而難度等級較低的文本可能包含更多簡單句,傳遞更簡單的語義。這是區分文本難度的重要特征。因此,除了基于《標準》的多維等級特征之外,我們還使用了基于深度學習的通用語言特征來衡量文本語義信息。①Zha,J.,Li,Z.,Wei,Y.,&Zhang,Y.,Disentangling Task Relations for Few-shot Text Classification via Self-Supervised Hierarchical Task Clustering,2022,arXiv Preprint arXiv:2211,p.08588.該信息通過深度學習模型對文本進行整體編碼,語義特征共兩項,其中一項為BERT②Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.,Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding,2018,arXiv preprint arXiv:1810,p.04805.語義特征,共768維;另一項為DeBERTa③He,P.,Liu,X.,Gao,J.,&Chen,W.Deberta,Decoding-enhanced Bert with Disentangled Attention,2020,arXiv preprint arXiv:2006,p.03654.語義特征,共768維。

以上兩個深度學習模型旨在通過將離散的字符映射到連續的向量空間表示字符語義信息。兩者都使用多層Transformer④Vaswani,A.,Shazeer,N.,Parmar,N,et al.,Attention is All You Need,Advances in Neural Information Processing Systems,2017,p.30.結構實現,并在大規模語料上通過一系列預訓練任務進行訓練。訓練得到的模型參數學習了自然語言表達模式,使模型具有優秀的編碼文本語義特征能力,從而使模型對輸入文本能夠在一定程度上表征其深層語義信息。一般認為,模型輸出層第一個字符“[CLS]”的768維向量,能夠在一定程度上表示該輸入文本的語義信息,我們使用這768維向量來表示文本中所包含的語義信息。

3.特征抽取過程

(1)基于等級大綱的多維等級特征抽取

漢字等級特征部分,我們使用Python編程工具清除文本中非中文字符后,遍歷文本中所有漢字,根據《標準》中的漢字等級大綱,對文本中每一個漢字,查找其相對應的難度等級,從而獲得每一等級漢字頻數。將各等級漢字頻數除以總漢字數后,各級頻數轉換為頻率,各級頻率拼接形成漢字難度等級分布特征,該特征共7維。

詞匯等級特征部分,我們使用Python編程工具,借助Jieba工具⑤Jieba工具是用來實現分詞操作的工具。Jieba工具來自:https://github.com/fxsjy/jieba.,對文本進行分詞處理。為了提升Jieba分詞效果,使其分詞結果更加適合當前任務,我們在Jieba工具自定義詞典中,導入了《標準》“詞匯大綱”以及我們構建的“專有名詞表”和“特殊詞匯表”。

經過上述分詞處理后,文本被轉換為詞匯列表。根據“專有名詞表”和“特殊詞匯表”,我們遍歷查找出專有名詞和特殊詞匯,統計其數量歸入“專有名詞和特殊詞匯”維度,并從詞匯列表中剔除。

繼而遍歷詞匯列表中所有剩余詞匯,根據《標準》中的詞匯等級大綱,分別對文本中每一個詞語,查找其相對應的難度等級,從而獲得每一等級詞語頻數,同時將未在大綱中找到的詞語暫時歸入“未收錄詞語”維度中。對“未收錄詞語”進行進一步統計分析,我們發現其中很多能夠繼續進行拆分,因此我們制定了38項規則,以進一步拆分“未收錄詞語”。部分拆分規則見表4。

表4 部分“未收錄詞語”拆分規則內容與舉例

根據《標準》提供的詞匯等級大綱,分別對文本中每一個詞語,查找其相對應的難度等級,從而獲得每一等級詞語頻數,同時將未在大綱中找到的詞匯歸入“未收錄詞語”維度中。將各級詞語頻數除以總詞匯數后,各級頻數轉換為頻率,各級頻率拼接形成詞匯難度等級分布特征,該特征共9維。

語法等級特征部分,《標準》中的語法等級大綱中共有572個語法點,分屬于12個語法類型:詞類、短語、句子成分、句子的類型、動作的態、特殊表達法、提問的方法、語素、強調的方法、口語格式、句群和固定格式。我們對語法點數量占比最高的“詞類”“短語”“句子的類型”“口語格式”“固定格式”等五類進行了正則表達式的大規模匹配;其余語法點數量比較少的語法類型,“句子成分”“動作的態”“特殊表達法”“提問的方法”“語素”“強調的方法”“句群”,則暫不在本工作中考慮。最終我們通過構造正則表達式,完成474個語法點的匹配,匹配完成度達到82.87%。正則表達式匹配語法點示例見表5。

表5 正則表達式匹配語法點示例

我們使用Python編程工具,借助正則表達式對文本中語法點進行匹配,根據《標準》中的語法等級大綱,對匹配后語法點查找其對應難度等級,從而獲得每一等級語法點頻數。將頻數除以該文本中所有語法點個數后,頻數轉換為頻率,將各級別頻率拼接,形成語法難度等級分布特征,共7維。

(2)基于深度學習的通用語言特征抽取

基于深度學習的通用語言特征,用于衡量文本語義信息,共有兩個特征,各768維,共1536維。我們借助BERT和DeBERTa兩個深度學習預訓練模型,提取文本語義信息。具體做法為:下載預訓練好的模型參數(其中BERT預訓練模型來自Hugging Face/bert-base-chinese①BERT預訓練模型是一種基于Transformer的encoder層堆積模型,具有判斷句子關系的能力,通常用來提取文本的語義信息。BERT預訓練模型來自:https://huggingface.co/bert-base-chinese.;DeBERTa預訓練模型來自Hugging Face/MoritzLaurer/mDeBERTa-v3-base-mnli-xnli①DeBERTa預訓練模型在BERT預訓練模型的基礎之上增加了注意力解耦機制和增強的掩碼解碼器。DeBERTa預訓練模型來自:https://huggingface.co/MoritzLaurer/mDeBERTa-v3-base-mnli-xnli.),借助Python編程工具和Pytorch深度學習工具,將文本轉化為字符編碼序列,輸入模型中,取模型輸出層第一個字符“[CLS]”的768維向量,將其作為所輸入文本語義特征。

4.實驗模型構建及結果分析

(1)實驗數據劃分

我們按照8∶1∶1的比例將HSK中高級閱讀文本數據集隨機劃分為訓練集、驗證集和測試集。訓練集用于訓練模型,幫助模型調整自身參數以擬合數據集,共2076個文本;驗證集用于調整模型超參數,增強模型擬合能力,共259個文本;測試集用于計算模型預測準確率,判斷模型效果,共260個文本。

我們將HSK中高級閱讀文本難度自動分級任務抽象成分類任務,抽取漢字、詞匯、語法、語義四個層面特征作為文本特征。使用支持向量機(SVM)②Cortes,C.,&Vapnik,V.,Support-vector Networks,Machine Learning,vol.20,no.3,1995,pp.273-297.、K近鄰(KNN)③Cover,T.,&Hart,P.,Nearest Neighbor Pattern Classification,IEEE Transactions on Information Theory,vol.13,no.1,1967,pp.21-27.、樸素貝葉斯(NB)④Lewis,D.D.,Naive (Bayes)at Forty:The Independence Assumption in Information Retrieval,In European Conference on Machine Learning,Springer,Berlin,Heidelberg,1998,pp.4-15.、決策樹(DT)⑤Quinlan,J.R.,Induction of Decision Trees,Machine Learning,vol.1,no.1,1986,pp.81-106.、Adaboost(Freund,1999)和隨機森林(RF)⑥Breiman,L.,Random Forests,Machine Learning,vol.45,no.1,2001,pp.5-32.算法作為模型分類算法。

(2)實驗評價指標

我們將HSK中高級閱讀文本難度自動分級任務抽象成分類任務,故而采用分類模型評價指標準確率(Accuracy)、精確率(Precision)、召回率(Recall)、調和值(F1),來衡量模型在該任務上的有效性。

(3)實驗結果

為探究最適合HSK中高級閱讀文本難度分級任務的特征組合與分類算法,我們對不同分類算法的預測效果進行了實驗,也對多維等級特征的預測效果進行了討論,對不同特征及其組合的整體預測效果和對不同級別文本的預測準確率進行了比較。

①不同分類算法的預測能力

為了探究不同分類算法在HSK中高級閱讀文本難度自動分級任務上的精度,我們選擇“漢字+詞匯+語法+語義”特征組合,比較不同分類算法在該特征組合下,在HSK中高級閱讀文本數據集上的預測效果,統計結果見表6。

表6 不同分類算法下的預測效果統計表

由表6可知,在當前特征組合下,隨機森林算法在四項指標上均獲得了最佳效果,支持向量機算法次之。原因可能是由于隨機森林是一種集成式算法,通過構造多個決策樹對預測結果進行投票,具有更好的模型泛化性。因此我們決定選用隨機森林算法進行后續實驗。

②單一層面特征以及多維特征組合的預測能力

為探究不同特征對HSK中高級閱讀文本難度自動分級的影響,我們以預測準確率最佳的隨機森林算法為分類模型,比較漢字、詞匯、語法和語義特征及其組合在HSK中高級閱讀文本數據集上的預測效果。不同特征組合下模型準確率、精確率、召回率、F1值見表7。

表7 漢字、詞匯、語法和語義層面特征及其組合預測效果統計表

從單一層面來看,語義(BERT)對文本難度預測準確率最高。除此之外,從語言要素——漢字、詞匯、語法角度來看,單一層面詞匯預測效果最佳。

從多維特征組合層面來看,可以發現“漢字+詞匯+語法+語義(BERT)”特征組合在準確率、精確率、召回率、F1值上均獲得了最佳效果,說明漢字、詞匯、語法、語義層面特征對于文本難度衡量均具有重要作用。值得一提的是,“漢字+詞匯+語法”這一組合方式準確率、精準率、召回率均達到了80%以上,F1值為79.63%。該結果揭示了《標準》對HSK中高級閱讀文本具有一定的指導意義。

在語義層面特征中,相比DeBERTa,BERT語義特征在難度等級分級任務上表現更好,這可能是因為兩者在對每個詞語的編碼方式上存在一定差異。BERT在輸入層中每個詞語用內容嵌入和位置嵌入拼接向量表示,而DeBERTa采用注意力解耦機制,每個詞用內容嵌入和位置嵌入兩個向量表示。在文本難度評級任務中,由于文本中每個詞語義內容與位置關系相對較為緊密,每個詞更適合用內容嵌入和位置嵌入的拼接向量表示,因此,與DeBERTa相比,BERT語義特征更適合本任務。

語義特征的加入,使模型預測準確率得到了較大幅度提升。從實驗結果來看,BERT模型提取到的深度語義特征能夠在一定程度上代表文本中所表達的語義信息。

③單一層面特征及多維特征組合在不同級別文本上的預測能力

以表現最優的隨機森林算法作為分類模型,比較漢字、詞匯、語法和語義特征及其組合在HSK中高級閱讀文本數據集上對不同級別文本的預測效果。我們用精確率這一指標,來衡量模型在不同級別的預測精度。不同特征組合下模型在四級文本、五級文本、六級文本上的預測精確率見表8。

表8 不同特征組合對不同級別文本預測精確率統計表

從表8中可以發現,就單一層面特征來看,對HSK四級閱讀文本來說,詞匯預測精確率最高(0.8780),語義次之(0.8605);對HSK五級和六級閱讀文本來說,語義維度預測精確率依然最高,與表7一致。

就多維特征組合層面來看,“漢字+詞匯+語法+語義(BERT)”特征組合方式在四級文本和六級文本上的預測精確率均達到了最佳水平,且遠高于其他特征組合方式。在五級文本預測精確率上,“漢字+詞匯+語法+語義(BERT+DeBERTa)”特征組合方式取得了精確率為0.8244的最佳效果,“漢字+詞匯+語法+語義(BERT)”特征組合方式次之,精確率為0.8188。因此,綜合來看,“漢字+詞匯+語法+語義(BERT)”特征組合方式預測能力最佳。

三、結論與討論

1.各層面特征及多維特征組合模型預測能力

本研究結果顯示,加入語義特征的多維特征組合模型,就語言要素特征組合而言,具有更好的預測能力。與此同時,就單一層面特征來說,基于語義特征的模型預測準確率最高,即使是基于漢字、詞匯、語法三種特征組合的模型,其預測能力也略遜色于單一語義特征。語義特征是一種更具有普適意義的特征,可適用于不同應用場景(如二語文本和母語文本),不同文本類型(如科技文本和文學文本),具有較強泛化能力。因此,對于中文文本難度分級的研究,關注語義特征是十分必要的。

單一層面特征中,基于詞匯特征的模型預測準確率位于第二。詞匯特征是在眾多研究中被廣泛證明的有效特征。①Feng L.,Jansche M.,Huenerfauth M.,etal.,A Comparison of Features for Automatic Readability Assessment,23rd International Conference on Computational Linguistics,Posters Volume,23-27 August 2010,Beijing,China,Association for Computational Linguistics,2010.②宋曜廷、陳茹玲、李宜憲、查日蘇、曾厚強、林維駿、張道行、張國恩:《中文文本可讀性探討:指標選取,模型建立與效度驗證》,《中華心理學刊》2013年第1期。③吳思遠、于東、江新《漢語文本可讀性特征體系構建和效度驗證》,《世界漢語教學》2020年第1期。④杜月明、王亞敏、王蕾:《漢語水平考試(HSK)閱讀文本可讀性自動評估研究》,《語言文字應用》2022年第3期。本研究以《標準》中的詞匯大綱為原型,構建了適用于國際中文教育領域的詞匯特征,在面向HSK中高級閱讀文本的難度分級上,呈現了較好的預測能力。

基于漢字特征的模型預測準確率位于第三。不同于英文文本,漢字是漢語的文字載體,因此,漢字對文本難度的影響也不容忽視。眾多學者對于文本難度分級的研究都將漢字因素納入其特征體系。①郭望皓:《對外漢語文本易讀性公式研究》,上海交通大學碩士學位論文,2010。②左虹、朱勇:《中級歐美留學生漢語文本可讀性公式研究》,《世界漢語教學》2014年第2期。③王蕾:《初中級日韓學習者漢語文本可讀性公式研究》,《語言教學與研究》2017年第5期。④劉苗苗、李燕、王欣萌、甘琳琳、李虹:《分級閱讀初探:基于小學教材的漢語可讀性公式研究》,《語言文字應用》2021年第2期。在本研究中,同樣證明了漢字對于文本難度分級預測的重要作用。

基于語法特征的模型預測準確率最低,僅在58%左右。說明僅依據語法難度對文本進行難度分級效果較差。然而,在漢字特征與詞匯特征基礎之上,加入語法特征,其預測準確率達到了80%左右。由此可見,語法特征的加入可顯著提高模型預測能力。該結論在朱君輝關于漢語語法點特征的研究中亦得到證明。⑤朱君輝、劉鑫、楊麟兒、王鴻濱、楊爾弘:《漢語語法點特征及其在二語文本難度自動分級研究中的應用》,《語言文字應用》2022年第3期。

就多維特征組合層面而言,融合BERT語義特征的多維特征組合模型預測準確率最高,可達到85%以上,說明本研究基于《標準》設計的漢字、詞匯、語法特征在融合語義特征之后,能夠較好地完成對HSK中高級閱讀文本的難度自動分級任務。

2.最優模型對不同級別的預測能力

在本研究中,基于漢字+詞匯+語法+語義多維特征組合的隨機森林模型是預測HSK中高級閱讀文本難度的最優模型。在表8中,我們可以看到最優模型對四級、五級、六級文本預測能力差異較大,模型對四級文本和六級文本預測能力顯著高于五級文本。因此,我們通過構建混淆矩陣的方法,嘗試對測試集中的分級情況進行進一步分析,結果如圖5所示。

圖5 隨機森林模型預測結果的混淆矩陣

由圖5可知,在預測等級為四級和六級的文本中,均有少量文本真實等級是五級;而在預測等級為五級的文本中,有一部分文本真實等級是六級,少量文本真實等級是四級。由此可見,模型可以較好地區分四級和六級文本,展示了對越級文本的顯著區分能力,對于位于中間的五級文本的區分能力,尚有進步空間。

眾所周知,處于中間級別的文本具有模糊性,即使對專家而言,確定中間級別也是困難的,進一步挖掘五級文本和六級文本之間的特征差異,或可提高模型對五級文本的預測能力。

四、結語

本研究將《標準》中漢字、詞匯、語法等級大綱作為特征集的主要特征,并融合基于深度學習的BERT語義特征,構成本研究的多維特征集。通過對比六種常見機器學習算法在HSK中高級閱讀文本中的應用,實現了基于多維特征的隨機森林(RF)算法模型對HSK中高級閱讀文本的難度自動分級。研究結果表明:第一,單一特征維度語義特征對HSK中高級閱讀文本難度自動分級精確率最高,加入語義特征的多維特征模型對HSK中高級閱讀文本難度自動分級效果最佳。因此,面向文本難度分級的研究應關注語義特征對文本難度的影響。第二,語言要素中,詞匯特征對HSK中高級閱讀文本難度預測能力最強,漢字特征次之,加入語法特征之后,模型預測能力能夠得到顯著提升。第三,融合BERT語義特征的多維特征組合隨機森林算法模型對HSK中高級閱讀文本預測效果最佳,達到了85%左右。該模型在HSK四級、五級、六級閱讀文本中預測精準率分別達到了92%、81%、85%,模型對四級和六級文本區分度較高,對五級和六級文本區分度較低,尚有進一步優化空間。

自《標準》發布以來,由于其與大家熟悉的HSK大綱不完全一致,不斷有人質疑兩者之間關系。本研究基于“漢字+詞匯+語法”特征組合方式的隨機森林算法模型,對HSK中高級閱讀文本預測能力可達到80%左右,對HSK四級和六級閱讀文本預測精準率甚至達到了85%左右,對HSK五級閱讀文本預測精準率在82%左右。這也從一個側面證明了《標準》作為國際中文教育領域唯一國家級標準,與HSK中高級文本關聯度較高,可以為HSK優化和改革奠定堅實基礎。

(本文得到譚可人的協助,其所做工作包括實驗設計、實驗實施和結果分析,特此致謝!)

猜你喜歡
語法語義分級
語言與語義
跟蹤導練(二)4
Book 5 Unit 1~Unit 3語法鞏固練習
分級診療路難行?
分級診療的“分”與“整”
“上”與“下”語義的不對稱性及其認知闡釋
分級診療的強、引、合
“水到渠成”的分級診療
認知范疇模糊與語義模糊
語義分析與漢俄副名組合
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合