?

面向分級閱讀的分級詞表研制*

2022-07-20 01:54吳云芳胡章樹王迎蘭
辭書研究 2022年4期
關鍵詞:詞表童書學段

吳云芳 胡章樹 王迎蘭

分級閱讀,是指根據兒童的身心發展規律,給不同的兒童提供適合其閱讀水平的文本讀物。文本閱讀難度分級,是對于給定的文本,根據其中的詞語、句法、語義、篇章等特征,計算機自動判斷其閱讀難度,進而推薦給適合的讀者。早在2011年,國務院就頒布《中國兒童發展綱要(2011—2020年)》,提出“推廣面向兒童的圖書分級制,為不同年齡的兒童提供適合其年齡特點的圖書,為兒童家長選擇圖書提供建議和指導”的要求。

教育部于2019年頒布了《義務教育常用詞表》(以下簡稱《義務詞表》)(蘇新春 2019),由專家學者歷經多年潛心研制而成。不同于前人主要依靠專家人工評定的方法,面向漢語分級閱讀,本文研制的現代漢語分級詞表主要基于大規模語料庫的統計分析,遵循詞語在實際語料中的使用規律,采用計算機自動處理與人工審核相結合的方式。本文分級詞表構建努力追求的目標是:

1) 主要依據大規模語料的統計分析;

2) 盡可能地由計算機自動處理,將專家的人工勞動減到最少;

3) 構建流程透明化、規范化,總體上可復現;

4) 詞表能夠快速地構建,能夠隨時代便捷地迭代更新。

本文構建的分級詞表主要依據大規模語料庫的詞頻分析。早在20世紀30年代,葉圣陶先生就指出了詞匯量化對課本編輯的重要意義(賴華強 2006):“如果把目前通行的書報作為依據,統計其中每個詞的出現次數,把得票最多的若干詞組織在課本里頭,我想,讀了這課本的人固然不能夠就去閱讀《五經》或者《史》《漢》,但是看看《申報周刊》,或者《現代十國論》,該不會有‘面熟陌生’的憾事了?!?0世紀60年代,呂叔湘先生指出:“關于詞的出現頻率的研究就很重要。西方國家特別是美國幾十年前就有人做這種統計。這種材料對編教科書編詞典都很有用處?!保ㄙ嚾A強 2006)2019年頒布的《義務教育常用詞表》也將詞頻高低作為詞表分級的主要依據之一。

下文我們將介紹分級詞表所依據的語料庫、選詞的基本原則、構建的基本流程,并分析詞表的詞語分布狀況。期望本文所構建的分級詞表能服務于漢語分級閱讀,成為專家詞表的有益補充。

一、漢語分級語料庫的構建及詞匯分析

文本難度的自動分級、分級詞表的構建都需要以大規模的分級語料庫為基礎,因此我們構建了較大規模的漢語分級閱讀語料庫,包括教材語料庫和童書語料庫。

教材語料庫。通過不同的途徑,包括網絡檢索和人工錄入等方式,我們搜集了國內多個出版社的中小學語文教材課文,包括部編版、人教版、北師大版、蘇教版等多種版本,對文本進行了格式處理和文字核對。配合漢語分級閱讀系統的程序實驗,去除了其中的詩歌和文言文。

童書語料庫。主要通過人工錄入的方式,整理了約400本經典的兒童圖書。進一步根據教育部《中小學生閱讀指導目錄(2020年版)》以及《愛閱小學圖書館基本配備書目》2018年版為每一本圖書賦予了一個級別標簽。

網頁文本語料。此外,通過搜索引擎,從超大規模網絡文本中抽取出了所有詞語,將之作為本文詞表構建的重要參考。

在初始語料的基礎上,利用自動分詞軟件pkuseg(Luoet al. 2019)對所有文本進行了分詞和詞性標注,進而對漢語詞匯運用情況進行了統計分析。上述不同語料庫的字頻、詞頻統計信息請見表1所示。

表1 三種語料的字數與詞數信息

依據三種不同的語料庫,構建了三個按照詞頻降序排列的詞語列表(如表2所示),這些是進行分級詞表構建的原始素材。

表2 三種語料前10位高頻詞語

教材文本、童書語料、網頁語料面向不同的閱讀對象,關注不同的內容主題,在語言使用、詞匯運用上存在差異。為了考察不同語料在詞語使用上的異同,我們統計了不同語料之間的斯皮爾曼(Spearman)相關系數,如表3、表4所示。斯皮爾曼系數反映了兩個變量之間的相關性:0.8—1.0表示極強相關,0.6—0.8表示強相關,0.4—0.6表示中等程度相關,0.2—0.4表示弱相關,0.0—0.2表示極弱相關或不相關。

表3 前90%詞語

表4 前80%詞語

上述統計結果與人們的直觀認識相符合,我們可以觀察到:

1) 教材文本與童書語料在詞匯運用上極強相關,提示兩者可以合并考察;

2) 網頁語料與教材文本、童書語料弱相關,這說明教材文本、童書語料的詞語使用與網頁語料存在較大差距,提示在分級詞表構建中需要合理收入部分網頁詞語,以滿足生活閱讀的實際需求。

3) 網頁語料、童書語料的相關性大于網頁語料、教材文本的相關性,說明在詞語運用規范方面:教材>童書>網頁。

二、分級詞表的規模和等級設定

分級詞表構建要回答的第一個問題是:一共要收錄多少詞語呢?

《義務教育常用詞表》一共收錄了15114個詞目,按照學段劃分為四級。面向對外漢語教學,《國際中文教育中文水平等級標準》(2021) 收錄了三等九級共11092個詞目。而早期的《漢語水平詞匯與漢字等級大綱》(1992) 僅收錄了8822個詞語。

青少年兒童認識多少詞就能滿足閱讀需求呢?我們對教材、童書、網頁語料中的高頻詞語進行了統計分析,不同語料中的詞頻分布都符合齊夫定律(Zipf)定律。三種語料中高頻詞的累加頻率分布如表5所示。

表5 三種語料詞語的累加頻率分布

雖然三種語料的總詞匯量差別巨大,但是累加頻率的詞匯量分布大體相當。具體而言,14350個詞語覆蓋到教材語料的90%,14552個詞語覆蓋到童書語料的86%,14991個詞語覆蓋到網頁語料的87%。由此推知,1.4萬—1.5萬詞匯量就基本能夠滿足閱讀需求,因此我們初步選擇 1.5萬個候選詞語進入分級詞表。

《義務教育常用詞表》按照學段設定的分級詞表稍顯粗略,每級詞表包含太多詞語而不具區分性,例如二級詞包含5503個詞語,三級詞包含5975個詞語。本文依年級區分,劃分為七級詞表,一—六級分別對應1—6年級,七級對應初中階段。后期研究中,根據需要可以將一—二級詞語合并為第一學段,三—四級合并為第二學段,五—六級合并為第三學段,初中為第四學段。

按照由易到難、循序漸進的原則,并參考前人的成果,各級詞表數目初步設定為:一級600,二級1200,三級1800,四級2400,五級2800,六級3200,七級3600,總計1.56萬個詞語。

三、分級詞表的選詞方法

本文的分級詞表構建基于大規模語料庫,將詞頻作為劃分詞語難度等級的主要依據。

網頁語料反映了語言在現實生活中的真實運用情況,教材文本是專家們精心編選的名著作品,童書是對教材文本的有益補充與拓展。根據表3、表4的統計分析,教材和童書在詞匯使用上高度相關,為了擴大語料規模,選詞時將兩者合并考察。但網頁語料與教材文本差異很大,考慮到詞匯學習的語言交際與應用功能,分級詞表應適當選擇部分網頁詞語作為補充。例如,“手機”和“超市”在日常生活中使用頻繁,在網頁語料的頻率詞表中,“手機”排位第26,“超市”排位第760。但是,這兩個詞在教材語料中的出現頻率都非常低(在人教版教材中均沒有出現,在北師大版教材中都僅出現1次)。這提示我們,在重點關注教材語料詞語的同時,需要兼顧網頁語言的實際應用情況。

網頁詞匯對教材語料的補充體現在兩個方面:(1) 對于一些高頻使用的新詞,補充進分級詞表;(2) 對于一些在網頁中使用頻繁,而在教材語料中出現次數較少的詞語,降低其難度級別。

經過多次嘗試,我們制定了選詞規則:每級候選詞=90%教材童書詞語+10%網頁語料詞語。對教材童書語料和網頁語料的詞語按照出現頻率分別從高到低排序,根據前文所設定的分級詞語數目,選定一個頻率斷點,即得到一—七級的候選詞語列表。在具體選詞過程中,從低到高逐級選擇,每級先教材童書語料再網頁語料。

分級詞表數據庫以“級別”為單位來組織詞語。對于詞表中的每一條詞目,設定三個字段:詞語,詞頻,語料來源,如表6所示。

表6 一級詞語呈現示例

詞語是分級詞表呈現的主要對象。不同于前人詞表,分級詞表將如實列出詞語在語料庫中出現的頻率。詞語的難易度是個相對的序列問題,級別的區分只是人為的一種劃定。給定“詞頻”,對于詞語的使用狀況就有了清晰的顯示,在同一個級別下對于詞語難度也有了一定的區分,還便于后期的其他應用。給定“語料來源”,明示了選詞的來源,由于網絡詞匯變化較快,依據“語料來源”,將來可以快速更新網絡詞語。

四、詞語的批量預處理

本文的分級詞表構建盡可能應用了計算機程序來自動處理,以減少專家的人工勞動。面向中小學閱讀和學習,分級詞表規模有限,要盡量收錄有價值的學習型詞語;而對于具有能產性、類推性的詞語,則不宜收錄?;诖笠幠UZ料庫的頻率詞表,利用程序進行了預處理,批量刪除了一些不宜收入的詞語。

(一) 基于《現代漢語詞典》和《現代漢語語法信息詞典》的“非詞”排除

候選詞語是基于語料利用自動分詞軟件切分得到的詞語,但可能存在一些非詞的分詞碎片。還有一些片段,從自然語言處理的角度被當作了“詞”,但不是學習意義上的詞語。因此,利用《現代漢語詞典》第5版(以下簡稱《現漢》)對詞語進行了過濾,即刪除了那些不在《現漢》中的詞語。但是,人工觀察詞表發現,《現漢》收詞嚴格(或者是所依據的電子版本不完全、有遺漏),有些常用的詞語并沒有收錄。因此,我們進一步依據北京大學的《現代漢語語法信息詞典》(俞士汶 1998,以下簡稱《語法詞典》)進行補充,將雖然沒有在《現漢》中出現但是出現在《語法詞典》的部分詞收入分級詞表。

操作中,我們編寫程序刪除了“同時”不在《現漢》和《語法詞典》中的語言片段,部分刪除的非詞如表 7所示。對于教材童書中的“非詞”直接刪除;而對于網頁語料中的“非詞”則添加一個刪除標記,等待進一步人工審核,以保留部分新詞補充到分級詞表中。

表7 基于《現漢》和《語法詞典》刪除的“非詞”示例

(二) 刪除專有名詞

因分級詞表主要收錄語文詞而不收錄地名、人名等專有名詞,故我們編寫計算機程序,根據詞性標記刪除了詞表中的人名、地名、時間詞、數詞等。

(三) 刪除組合疊加詞

組合疊加詞數量眾多,可以類推產生,也不宜收入分級詞表,故我們編寫計算機程序,刪除了以下類型的組合疊加詞。

1) 由趨向動詞結尾組成的組合詞,趨向動詞包括“來、去、上、下、進、出、回、過、起、開、到”,例如“出來” “看到” “想起” “走進” “拿出”等。

2) 刪除重疊詞,例如“慢慢” “深深” “靜靜” “輕輕”等。

3) 刪除“一月”“二月”“星期一”“星期二”這樣的時間數詞組合形式。

(四) 刪除網頁語料的單字詞

我們希望通過網頁語料來補充一些新出現的、高頻使用的詞語。新出現的詞語絕大多數是兩字詞或者三字詞,因此我們編寫程序刪除了網頁語料中的單字詞。

五、網頁語料詞表的人工審核

按照上文分級詞表規模和等級的初步設定,我們根據網頁語料的詞頻表收錄了約 15600*10% =1560個詞語。將網頁詞語加入分級詞表需要分外小心,仔細斟酌。

經過上述程序的批量預處理后,在網頁詞頻表中未在《現漢》和《語法詞典》中出現的語言片段被添加了刪除標記,專有名詞、組合疊加詞、單字詞已被刪除。而后,課題組聘請了一位漢語詞匯語義專家對網頁語料中的高頻詞語進行了仔細篩選,又經本文作者多遍審核,選出約 2000個候選詞語加入詞表。

由表 8可以看出,擬擴充分級詞表的網絡詞語主要有兩種。一種是應用廣泛、關涉現代科技的一些詞語,例如“手機”“視頻” “微信”“下載”等,這些詞語可能未在教材童書語料中出現,但應作為新詞補充進分級詞表。另一種是生活交際中的常用詞語,例如“公司” “圖片” “英語” “作文”等,這些詞語在教材童書語料中出現次數少,但由于在網頁語料中高頻出現,將降低其難度級別列入分級詞表。

表8 高頻網絡詞語示例

六、基于《義務教育常用詞表》的調整

本文基于大規模語料庫的詞頻分析來構建分級詞表,也充分借鑒、參考了前人的研究成果。蘇新春教授歷經多年編著的《義務詞表》,凝聚了豐富的專家知識,為我們提供了很好的參照和基礎。

我們將目前階段的分級詞表候選詞與《義務詞表》做了對比分析,結果如下:

兩個詞表共有詞:8987,占比:8987/15600=57.6%。

在分級詞表但不在《義務詞表》中的詞:6613,占比6613/15600=42.4%。

在《義務詞表》但不在分級詞表中的詞:5238,其中成語有 2238 個,成語占比 2238/ 5238=42.7%。

(一) 人工審核在分級詞表但不在《義務詞表》中的詞

分級詞表的候選集中有6613個詞語未出現在《義務詞表》中,對這些詞語,我們聘請專家進行了仔細的人工審核,刪除了以下類型的詞語共計2273個:

1) 一些組合詞,如“心中”“大樹”等;

2) 一些不常用或者表義不清的單字詞,如“備”“稟”“昂”等;

3) 一些重疊詞,如“安安靜靜”“匆匆忙忙”等;

4) 一些口語色彩明顯的詞,如“行不通” “夠嗆” “吊死”等。

(二) 人工增加部分在《義務詞表》但不在分級詞表中的成語

在《義務詞表》但不在分級詞表中的詞語有5238個,其中42.7%是成語?!读x務詞表》利用專家的經驗知識收錄了一些成語,而大多成語在真實語言運用中并未頻繁出現,因此未能進入分級詞表的候選詞集。為了文化傳承和書面語言的學習,我們認為分級詞表需要增加收錄部分成語。

因此,對于在《義務詞表》而不在分級詞表中的2238個成語,我們在教材童書語料中進行了檢索,共出現有1081個成語。對這1081個成語,專家人工進行了甄別并標記了難度等級,將其中1032個成語補充收錄至分級詞表。表 9是分級詞表中的部分成語及其分級。

表9 增加的部分成語示例

七、基于《語文課程標準》的調整

教育部制定的《義務教育語文課程標準》(2011年版) 列出了“識字、寫字教學基本字表”,包含300個漢字,明確指出“這些字應作為第一學段教科書中識字、寫字教學的基本內容”。同時列出了“義務教育語文課程常用字表”,包含常用漢字 3500個。漢字是通過詞語承載的,中小學生在學習詞語的同時也即學習了漢字。根據課程標準,我們進一步對分級詞表的候選詞做出了調整。

(一) 基本字表的 300 字應被一—二級詞表全覆蓋

基本字表中的300個漢字按規定應該在第一學段掌握。經程序統計,基本字表中有 18 個漢字在候選詞表中沒有出現,分別是:

我們對候選詞表進行了人工調整,規則如下:1) 在高級別的詞表中查找包含上述字首次出現的詞語,將其調整到第一學段;2) 級別調整時,優先調整入距離相近的級別,再結合人工經驗知識加以判斷。表 10列出了根據上述規則所做的一些詞語的級別 調整。

表10 根據基本字表的部分詞語的級別調整

是否存在“詞不越字”的規則呢?即第一學段詞表中包含的字不能超越基本字表中的字。我們對候選一二級詞表進行了統計,發現這樣的字共有 1555 個,全部刪除顯然不合適,因此這條規則不適用。

(二) 常用字表的3500字應被一—七級詞表全覆蓋

在義務教育階段,應該掌握常用字表中的 3500 個字。對應到分級詞表,這3500個字應該被一—七級詞語全部覆蓋。

經程序統計,常用字表一2500字中有74個在候選詞表中沒有出現,分別是:

常用字表二1000字中有226個在候選詞表中沒有出現,分別是:

可以看到,未出現的主要是一些筆畫繁雜、使用頻率極低的字,以及一些姓氏用字(前期處理中刪除了專有名詞)。另外,由于語料中詞頻分布的長尾效應,對低頻的詞語,頻率因素的重要性降低。因此,我們檢索了包含上述漢字的部分詞語,人工調整到分級詞表中。

從教材童書語料的詞表中,共找到包含上述300個字的詞語 289 個,人工增加到六級或七級詞表中,少數高頻出現的姓氏用字增加到了三、四、五級中。例如下面是新增加的一些詞語,其中涵蓋了需要學習的常用字:

但教材童書語料的詞表中,仍有以下漢字未包含(刪除了專有名詞):

主要是三類漢字:大寫的數字、化學元素名稱、人名用字。我們進而人工將大寫數字加入了六級詞表,將化學元素名稱、人名用字加入了七級詞表。

八、分級詞表的詞語分析

經過上述一系列處理,分級詞表的構建基本完成。下文將對分級詞表的詞語進行分析。

(一) 基本數據分析

詞表一共收錄了14459個詞語,各級詞語數目如表 11所示。其中,語料來源為網頁語料的詞語數為1420個,占比9.8%,與最初的設定基本相符。

表11 分級詞表中各級詞語數目

表12列出了不同音節的詞語數目,其中雙音節詞占比72.61%;四音節詞語數占比9.25%,絕大多數為成語;而三音節詞占比最低。

表12 不同音節的詞語數目

(二) 與《義務教育常用詞表》的比較分析

本文所構建的分級詞表,與《義務詞表》的最大區別是:基于大規模語料庫由計算機半自動構建,詞語的選擇與等級的設定都以語料的客觀使用為依據。其優點是構建快速,方便重現,更新便捷;而缺點則是缺少專家人工的精雕細琢。為了更好地理解兩表的異同,我們將所構建的分級詞表與《義務詞表》進行了比較分析。

表 13顯示了兩個詞表在收詞數目上的不同。兩詞表詞語規模大體相當,《義務詞表》詞目數略多于分級詞表,兩詞表共有詞為10032個,約占三分之二。

表13 分級詞表與《義務詞表》收詞數目的比較

分級詞表的年級分級可以映射到《義務詞表》的學段,即一—二級映射第一學段,三—四級為第二學段,五—六級為第三學段,七級(初中)為第四學段。以分級詞表為基準,我們考察了兩個詞表不同學段收詞數的差異,如表 14所示??梢钥吹?,一、二學段共有詞比例較高,分別為93.9%和83.3%;而隨著學段升高,共有詞比例逐漸降低,第四學段的共有詞比例低于50%。這顯示,在基于頻率的分級詞表中,使用頻率越高的詞與專家的經驗認知更為一致,而頻率較低的詞與人工經驗的判別就存在較大差別。

表14 兩詞表不同學段的共有詞

我們進一步比較了兩個詞表在不同學段上詞語的差異。從表 15可以觀察到,不同學段的最大值都在混淆表的對角線上,這顯示了兩個詞表的分級相關性較高。

表15 分級詞表與《義務詞表》的分級混淆表

(三) 與對外漢語詞表的比較分析

漢語作為第二語言的對外漢語教學與漢語作為母語的中小學教學存在差別,但在詞匯學習、詞匯等級劃分上有共通性,都遵循循序漸進、由易到難的基本原則。因此,我們以廣泛使用的《漢語水平詞匯與漢字等級大綱》(以下簡稱《漢語水平詞匯》)(1992)為基礎,比較了分級詞表與對外漢語詞表的共同性與差異性。

分級詞表收錄詞語14459個,劃分為一—七級;《漢語水平詞匯》收錄詞語8822個,劃分為甲、乙、丙、丁四級。兩個詞表總詞匯量差別較大,等級劃分也不一致,圖1展示了分級詞表一—四級詞語與《漢語水平詞匯》甲、乙、丙、丁四級的對應關系。

圖1 分級詞表一—四級與《漢語水平詞匯》甲、乙、丙、丁四級的對應關系

令人驚喜的是,主要基于使用頻率制定的分級詞表,與專家制定的對外漢語詞表存在較好的對應關系。其中,一級詞與甲級詞很好對應,映射比例為388/562=69%;二級詞與乙級詞映射比例最高;三級詞與乙+丙級詞對應;四級詞的對應則較為分散。隨著詞級的升高,分級詞表中有更多詞語在《漢語水平詞匯》中沒有被收錄。

九、結語

本文基于大規模語料庫的統計,采用計算機程序處理與專家人工審核相結合的方式,半自動構建了漢語分級詞表。詞語的選擇與分級主要依據詞語的使用頻率,有數可依、更新快捷。統計分析顯示,我們所構建的分級詞表與《義務詞表》、對外漢語詞表都呈現較大的相關性。本文所構建的分級詞表可應用于漢語分級閱讀的系統研制、中小學語文教學以及對外漢語詞匯教學中。我們將在漢語分級閱讀網站(http://www.chinesepku.com/)上發布此數據,供業界與學界免費使用。誠然,相比于專家人工積多年心血構建的詞表,本文構建的分級詞表還顯得比較粗糙,還需不斷地完善改進。

猜你喜歡
詞表童書學段
二手童書交換會
新東方童書
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
放緩坡度 因勢利導 激發潛能——第二學段自主習作教學的有效嘗試
AR童書熱的冷思考
英文原版童書推薦(0~2歲)
第二學段數學新授課“學導課堂”的教學范式
敘詞表與其他詞表的互操作標準
如何設計小學語文第一學段的家庭作業
高中各學段史料教學與歷史思維能力的培養
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合