?

基于認知診斷理論的國際中文閱讀測驗Q 矩陣的構建

2023-11-16 16:22李亞男
華文教學與研究 2023年4期
關鍵詞:測驗考查專家

劉 慧,李亞男,2

(1.北京語言大學語言科學院,北京 100083;2.漢考國際教育科技(北京) 有限公司,北京 100088)

1. 引言

閱讀能力是人類最重要的能力之一,同時,閱讀能力高度復雜。盡管在閱讀能力的構成上,以往研究者并未能完全達成一致,但絕大多數研究者認為閱讀能力由不同能力要素構成(Lee & Schallert,1997)。在語言測驗領域,很多研究者認為閱讀能力是可細分的(Grabe,2009:39),這些細分的閱讀能力就稱為閱讀子技能。

在國際中文教育中,學習者閱讀能力的發展情況,是教學中師生共同關心的問題?,F實中,由于個體差異的存在,尤其是國際中文學習者背景(母語、性格、語言學習能力、學習風格、動機、對語言學習的態度等)差別大,這會在不同程度上對國際中文習得的不同方面產生影響,其閱讀能力的發展情況也會更加分化。然而,對于各閱讀子技能發展情況的描述,傳統的測驗分數和偏誤分析都無法實現,而認知診斷分析可以勝任。

認知診斷理論通過運用統計模型識別技術,能夠從被試在測驗各個題目上的實際作答反應出發,推斷其內在子技能的發展狀況。閱讀領域的認知診斷分析可以報告學生各閱讀子技能發展情況,明確其優勢和弱勢;能夠為下一步的教學提供更加詳細的建議,進行更加直接的指導,為“因材施教”提供基礎。

實際上,語言測驗都有提供診斷信息的潛力(Bachman,1990:60),以往國內外相關研究也確實在閱讀領域成功進行了一系列診斷分析(Buck、Tatsuoka&Kostin,1997;Jang,2009)。不過,縱觀以往閱讀測驗領域的診斷研究,尤其是國際中文閱讀的相關研究,關注點多在于認知診斷模型的使用,主要考查認知診斷模型能否應用于相應的測驗,而對于如何構建Q 矩陣關注不足。

Q 矩陣反應的是子技能水平上的測驗結構,其合理構建是成功進行認知診斷分析的先決條件(Tatsuoka,1983)。同時,目前的閱讀測評使用的幾乎均為大型標準化測驗,這些測驗一般基于非診斷目的開發,屬于傳統的非診斷性測驗;想要從中獲取診斷信息,更是需要首先分析測驗本身所考查特質的構成,確定Q矩陣。因此,研究擬以中小學生漢語考試(以下簡稱“YCT”)測驗為例,對國際中文閱讀測驗Q矩陣的構建進行專門探討,具體研究兩個問題:(1)YCT(四級)閱讀測驗考查了哪些閱讀子技能?(2)國際中文閱讀測驗的Q 矩陣應當如何構建?期望對上述問題所進行的探討,能夠為后續研究確定Q 矩陣提供更多參考建議,提升國際中文閱讀測驗診斷分析的效用。

2. 研究背景

2.1 認知診斷理論

認知診斷理論(Cognitive Diagnostic Theory,CDT)是新一代測量理論,它不將測量的特質看作意義模糊的統計結構,而是致力于描述個體不同的認知結構。認知診斷理論由Q 矩陣和認知診斷模型兩部分構成。

Q 矩陣定義的是正確作答每道題目所需要掌握的子技能,它從不可觀測的多個潛在子技能的角度對可觀測的測驗題目的表現進行解釋,體現了子技能水平上的測驗認知結構。Q 矩陣的行代表題目,列代表子技能;如果Q 矩陣的元素qjk的值為1,就表示第j道題目考查了第k個子技能;如果為0,就表示第j道題目沒有考查第k個子技能。

認知診斷模型根據Q矩陣和實測作答反應來推斷被試子技能掌握狀態,目前大多數認知診斷模型都定義了一個函數,這個函數用來表達被試對某道題目正確作答的概率與這道題目所考查的子技能和被試的子技能掌握情況之間的關系;它們既可以用于專門的診斷性測驗,也可以用于傳統的非診斷性測驗(Fu&Li,2007)。

2.2 以往的閱讀認知診斷研究及其Q 矩陣的構建

從上世紀末開始,研究者就已經開始了閱讀領域的認知診斷研究,目前已經有了一定的積累。以往研究中,絕大多數都是基于傳統的非診斷性測驗開展的。

Buck 等(1997)是閱讀領域首批認知診斷研究的代表,研究采用文獻回顧、專家判斷和回歸分析等多種方法確定Q 矩陣,然后使用規則空間模型對考生在托業考試閱讀部分的作答進行分析。Jang(2009)是后期研究的代表,研究采用文獻回顧、出聲思維和基于縮減融合模型(The reduced reparametrized unified model,R-RUM) 的量化分析方法確定Q 矩陣,并用R-RUM 對LanguEdgeTM 閱讀測驗進行認知診斷分析。蔡艷等(2011)是國內相關研究的代表,研究采用文獻回顧和專家判斷方法建立Q 矩陣,并采用分層回歸分析等方法對Q 矩陣進行認定,然后使用屬性層級模型對英語高考閱讀理解進行分析。

在國際中文閱讀領域,也有研究者不斷進行探索。黃海峰(2010)采用文獻回顧和因素分析相結合的方法確定了Q 矩陣,然后使用融合模型對考生在漢語水平考試(HSK)初、中等閱讀測驗上的作答表現進行分析;鹿士義和苗芳馨(2014)采用文獻回顧和問卷調查相結合的方法確定子技能及其層級關系并計算Q 矩陣,然后使用規則空間模型對某大學入學分班的閱讀理解測驗進行診斷性研究。

由以上研究可知,Q 矩陣的構建是進行診斷分析的重要基礎。Q 矩陣構建通常通過“定義子技能”和“建立Q 矩陣”這兩個步驟實現(Lee & Sawaki,2009)?!岸x子技能”時,一般會對相關領域認知子技能構成的理論進行回顧,并結合目標測驗的特點對測驗所考查的子技能進行定義;在條件具備的情況下,出聲思維法和專家判斷法也是定義子技能的比較有效的方法?!敖 矩陣”時,一般會使用兩類方法,一類是僅基于對測驗內容本身的分析,另一類是將測驗內容分析和量化分析相結合。第一類方法是指由一位或者多位專家對目標測驗的每道題目內容進行分析并編碼(Douglas、de la Torre、Chang、Henson&Templin,2006),第二類方法是指在測驗內容分析的基礎上,再依靠量化分析識別內容分析中專家判斷與實測數據不匹配之處,進而對依據測驗內容分析所建立的Q 矩陣進行優化。

以往大多數閱讀認知診斷研究在建立Q 矩陣時,采用了將測驗內容分析和量化的實證數據分析相結合的方法。在量化方法的選擇上,有研究采用了因素分析(Jang,2005;黃海峰,2010)、回歸分析(Buck 等,1997)等方法,也有研究采用了基于認知診斷模型的量化分析方法。這些方法中,因素分析方法表現并不太好,尤其是對于傳統的非診斷性測驗來說(Li & Suen,2014);回歸分析方法也只能對Q矩陣的合理性進行較為粗略的判斷;而不少認知診斷模型能夠對單個測驗題目的表現進行分析,并能夠對子技能分配的具體情況進行評估,從而更精確地識別測驗內容分析中可能出現的誤判,在Q 矩陣構建中表現良好。R-RUM 模型(DiBello、Stout & Roussos,1995)就是這種認知診斷模型的典型代表。

在國際中文閱讀測驗領域,以往診斷研究在構建Q 矩陣時,僅僅通過測驗內容分析直接確定Q 矩陣(鹿士義、苗芳馨,2014),或者在測驗內容分析的基礎上,通過因素分析、回歸分析等量化分析對Q 矩陣的合理性進行總體評估(黃海峰,2010);少有研究采用基于認知診斷模型的方法對Q 矩陣的合理性進行精細評估。

3. 研究方法

3.1 研究工具

本研究所用測驗為YCT(四級)的閱讀分測驗。

YCT 是一項旨在考察漢語非第一語言的中小學生的漢語應用能力的大型國際漢語能力標準化考試,分為四個級別,水平從低到高分別為YCT(一級)、YCT(二級)、YCT(三級)、YCT(四級)。YCT(四級)考查考生的日常中文應用能力,共80 題,分聽力、閱讀和書寫三部分,其中閱讀測驗長度為30 題,包括四種題型,均為四選一的單項選擇題。第一種題型,每題提供一張圖片和3 個句子選項,要求考生選出對應圖片的一項;第二個題型提供20個句子,每10 個一組,要求考生找出對應關系;第三個題型提供一個單輪對話,對話中有一個空格,要求考生選詞填空;第四個題型提供一句或兩句話,之后有一個問題,要求考生從備選項中選出答案。

3.2 研究設計

研究擬綜合采用文獻回顧法、專家判斷法和基于認知診斷模型的量化分析方法構建Q 矩陣。首先,通過文獻回顧法初步析出測驗所考查的閱讀子技能;然后,利用專家判斷法,對初步析出的子技能進行考查并構建初始Q 矩陣;接下來,采用基于R-RUM 模型的量化方法對初步構建的Q 矩陣進行優化;最后,對Q 矩陣的合理性進行檢驗。

專家判斷法的基本流程為:(1)對目標測驗的目標群體、考察目的、測驗構成等相關情況進行詳細介紹,為專家分發全部題目,并請專家閱讀試題;(2)介紹主要的閱讀能力認知結構理論模型,報告初步析出的閱讀子技能清單;(3)請專家結合目標測驗具體情況,對初步析出的子技能清單進行討論,確定子技能清單;(4)專家對目標測驗的每一道題目獨立標注目標群體在作答時需用到的子技能;(5)全部專家對題目標注完成后,對各題所考查的子技能進行逐題討論;如果專家們在某題目上無法達成一致,就采用專家出聲思維法對該題考查的子技能進行討論并做出決定;(6)基于專家組確定的各題所考查的子技能,構建初始Q矩陣。

3.3 被試構成和專家組構成

3.3.1 被試構成

研究采用的數據為2017 年4 月全球施測的YCT(四級)閱讀分測驗的考生作答結果和成績,經清理后的有效數據共1101 條。試卷質量分析顯示:以原始分計,考生成績均值為18.04,測驗的平均通過率為0.60,試卷難度中等偏易;全卷標準差為6.67,考生成績變異合理,考生成績全距為2 分到滿分30 分,得分分布較廣;試卷α 系數為0.88,信度較高,較為穩定;全卷平均點二列相關為0.47,題目區分度很好,試題質量不錯。

3.3.2 專家構成

專家組由5 名成員構成,均有三年以上國際中文教學經驗,熟悉漢語水平考試,且長期參與YCT 或HSK 的命題、審題工作。其中,有三位專家為大學教師,兩位專家為考試機構資深工作人員,另有一位語言學專業的碩士生進行會議記錄。

3.4 數據處理

研究過程中涉及到的數據處理有三類:基本測量學指標的分析采用ITEMAN 軟件完成,基于R-RUM 進行的分析采用Arpeggio 軟件完成,其他的數據整理和處理采用R 軟件自編程序完成。

4. 研究結果

4.1 認知子技能的初步析出及確認

研究首先基于YCT(四級)閱讀測驗的基本特點,在閱讀認知過程和閱讀能力評估相關文獻分析的基礎上,初步析出了YCT(四級)閱讀測驗所考查的閱讀子技能初始清單。

以往研究中,多數研究者認為閱讀是一種高度復雜的活動,閱讀能力由不同的能力要素構成(LEE&Schallert,1997),并且認為閱讀能力可細分(Grabe,2009:39)。然而,在閱讀能力具體包含哪些子技能上,不同的研究者從不同的視角出發,觀點并未能夠達成一致(Davis,1968;Grabe,2009:21-58)??紤]到閱讀能力的潛在結構確實會隨研究內容或研究目的不同而不同(Song, 2008),本研究采用文獻分析法初步析出子技能時,重點依據在閱讀測驗背景下構建的閱讀認知過程模型。

Perfetti(1999)、Grabe(2009)以及Khalifa和Weir(2009)描述了語言測試領域比較重要的三種閱讀認知過程的模型。三個模型雖然在包含的具體要素上略有不同,但其大體結構相似,均認為閱讀認知過程包括從“詞匯識別”到“建立命題”直至“建立各種層面的文本表征”,且各層級的切分框架與以往認知診斷研究的結果(Jang,2009;Li & Suen,2014)也較為一致。因此,我們將這類模型作為本研究析出YCT(四級)所考查閱讀子技能的基礎模型。具體到YCT(四級)閱讀測驗來說,其涉及的文本均為一句或兩句話,不考查語段和篇章,那么測驗考查的閱讀子技能也就不應包括語段及以上層面文本表征構建的能力(Khalifa&Weir,2009:34-61)。

基于以上考慮,研究提取了上述三個模型中建立文本模型之前所涉及的全部五種認知技能(具體為“詞匯識別”“詞義獲取”“句法分析”“意義命題構建”和“推理”),作為YCT(四級)閱讀測驗的認知子技能的初始清單,并將其提交至專家組。

在對試題內容進行逐一考察后,專家組認為通過文獻回顧法析出的子技能初始清單總體合理。不過,結合YCT(四級)具體情況,專家組提出,作為一項大型標準化測驗,測驗中并沒有題目能夠對“詞匯識別”與“詞義獲取”這兩種能力進行單獨考查,建議將兩子技能合并,統稱為“詞匯識別”。

通過以上步驟,研究確定了目標測驗所考查的四個子技能,即:詞匯識別、句法分析、語義命題構建和推理,見表1。

表1:閱讀子技能清單

4.2 Q 矩陣的初步析出及優化

在確定子技能清單后,專家對每道題目所考查的子技能進行獨立判斷和標注。全部專家均標注完成后,專家組對題目所考查的子技能逐題匯總、討論。討論過程中,若專家組在某道題目所考查的子技能上無法達成一致,采用專家出聲思維法(Afflerbach &Johnston,1984)對相應題目考查的子技能進行討論:請專家重新對相應題目進行作答,在作答過程中,作為成熟且可以去自動化的閱讀者對自己的思考過程進行出聲報告,然后依據五位專家出聲思維報告的結果對該題目考查的子技能進行再次標注和分析。多輪討論后,專家組對測驗在認知子技能水平上的結構形成最終的意見,進而析出初始Q 矩陣(見表2)。

表2:初始Q 矩陣

如前所述,R-RUM 模型可以識別基于測驗內容分析得到的初始Q 矩陣中可能出現的誤判,對其進行優化。進行優化時,主要考查模型的兩個題目參數π*和,它們能夠對Q 矩陣為每道題目所指派每個子技能的合理性進行評估。

R-RUM 模型如公式(1)所示。

其中P是被試n正確作答題目i的概率;αn=(αn1,...αnk)代表被試n對所有k個子技能的掌握狀態,αnk=0/1 表示該被試“未掌握/掌握”相應子技能;π*是指被試在掌握某個題目所考查所有子技能的情況下正確作答題目的概率;是指沒有掌握題目i所考查的子技能的被試在題目i上的正確作答概率與掌握了子技能的被試在該題目上正確作答概率的比值,定義為,其值越小,表明題目i越能將掌握子技能k的被試和未掌握子技能k的被試區分開來。

基于初始Q 矩陣,本研究估計了30 個π*和42 個。一般認為,若值小于0.6,表示Q 矩陣對題目所考查子技能的指派不充分,也就是對于Q 矩陣中指派給第i道題目的子技能來說,這道題目過難,那么應給第i道題目指派更多或更難的子技能;若參數值大于0.9,表示掌握子技能k對于被試在題目i上的表現影響很小,意味著Q 矩陣對題目所考查子技能的指派有冗余,應將Q 矩陣中相應的對應關系解除(Leighton & Gierl,2007)。本研究初始Q矩陣估計結果顯示、、、和共五個參數值大于0.9,基于此,研究對相應題目逐題分析,考查此五組對應關系的指定是否合理。通過題目分析,專家組認為第11、13 和15 題對第一個子技能、第24 題對第二個子技能以及第3 題對第三個子技能并沒有進行考查,這五道題目和相應子技能的五組對應關系不存在,建議將這五組對應關系刪除,形成優化的Q 矩陣。

基于優化的Q 矩陣,研究使用R-RUM 模型對被試作答反應進行第二輪估計,結果如表3 所示。

表3:R-RUM 模型基于優化Q 矩陣的題目參數估計結果

表3 顯示,全部題目參數均值為0.88,所有值均大于0.6,且過半值都大于0.9,也就是說優化的Q 矩陣對題目考查的子技能的指派比較充分、無重要子技能遺漏;全部題目對所考查全部子技能的值均小于0.9,15 個值小于0.5,也就是說優化的Q矩陣對題目與其所考查子技能關系的認定不存在冗余。

綜上,優化的Q 矩陣對每道題目所考查子技能的認定既充分又無冗余,題目與其所考查子技能對應關系的認定較為合理。

4.3 Q 矩陣的檢驗:模型與數據擬合檢驗

在確認估計出來的題目參數的合理性后,研究對模型與數據的擬合情況進行了檢驗。為了直接評估數據模型的擬合情況,并且充分利用R-RUM 模型估計的全信息,研究擬合優度采用了后驗預測檢驗(Henson、Roussos &Templin,2005)。采用R-RUM 模型進行分析時,模型與數據的擬合檢驗指標一般為題目難度、題目對之間的相關以及測驗分數分布情況的平均偏差(BIAS)、均方根誤差(The overall Root Mean Squared Error,RMSE)以及平均絕對離差(The overall Mean Absolute Deviations,MAD);另外,由于分數分布的平均偏差總是會為0,因此計算測驗分數分布的擬合情況時,計算指標不是平均偏差,而是最大偏差(maximum deviation,MAXD)。本研究模型與數據的擬合情況見表4。

表4:模型與數據的擬合優度

表4 顯示,在題目難度、題目對之間的相關以及測驗分數分布情況這三個方面,基于實際觀測值與基于模型的預測值計算得到的BIAS(MAXD)、RMSE 以及MAD 值均較?。↗ang,2009;Henson、Roussos & Templin,2005)。這一結果表明數據與模型擬合較好,優化的Q 矩陣得到了模型與數據擬合檢驗的支持。

5. 討論

5.1 YCT (四級)閱讀測驗所考查能力的構成

確定目標測驗所考查的子技能是構建Q矩陣的第一步,因此研究首先對YCT(四級)閱讀分測驗所考查的子技能進行了分析。

文獻回顧和專家判斷顯示,YCT(四級)閱讀測驗考查了“詞匯識別”“句法分析”“語義命題構建”和“推理”四種子技能。對照YCT(四級)大綱中規定考查的語言能力可知,其閱讀測驗的考查目標集中在基礎閱讀能力上,對于高層級閱讀能力涉及較少。本文析出的四種閱讀子技能聚焦于詞匯和句子層面的基本語義理解和語義命題構建,不涉及高層級能力,與YCT(四級)閱讀分測驗的考查目標比較一致。

細觀可知,測驗對四個子技能的考查強度并不相同:“詞匯識別”子技能考查了21 次,“句法分析”5 次,“語義命題構建”8 次,“推理”3 次?!霸~匯識別”和“語義命題構建”均為低層級的閱讀技能(Grabe,2009:21-38),YCT(四級)將閱讀考查重點放在這兩種子技能上,與其考試定位一致。雖然“句法分析”也是一種低層級的閱讀技能,但測驗對其僅有5 次考查,且考查多嵌套在交際任務中,而非進行單純的語法考查,這應與測驗開發的理念相關:重視考生漢語實際應用能力,不強調對具體語法點的考查。另外,“推理”是對文本中沒有明確提及信息的加工過程,它是基于“語義命題構建”或者考生的背景知識進行的,屬于稍高層級的閱讀技能,不是YCT(四級)的考查重點,僅有3 次考查也符合這一定位。

這四種閱讀子技能的確認,不但明確了YCT(四級)閱讀測驗所考查能力的基本結構,而且為析出Q 矩陣,進而進行診斷分析奠定了基礎。

5.2 國際中文閱讀測驗Q 矩陣的構建

合理的Q 矩陣是診斷分析指導教學實踐、為教學提供切實有效建議的重要基礎。以往研究中,雖有研究單獨采用質性分析方法來構建Q 矩陣,但更多的研究采用的是質性與量化相結合的方法(Lee&Sawaki,2009)。

以往研究所采用的質性分析方法主要包括文獻回顧、專家判斷和出聲思維等方法。本研究質性分析同樣采用了文獻回顧和專家判斷方法,并基于這兩種方法,確認了測驗所考查的子技能、構建了初始Q 矩陣。雖然被試的出聲思維報告可以更直接地獲取其語言處理過程(Kucan & Beck,1997),但研究未采用此方法,這主要是因為目標被試在漢語水平和認知能力兩方面都處于不太成熟的階段,在完成試題作答的同時用漢語進行出聲思維報告存在較大的困難;而如果無法保證被試在報告過程中所述信息的準確性,出聲思維方法的效果就會大打折扣。

構建Q 矩陣所使用的量化方法,隨著模型開發的進展,存在較大的變化。早期研究中的量化方法一般采用較為簡單的指標,幫助研究者對子技能的取舍進行粗略判斷,比如Buck 等(1997)采用了多種基礎指標:均值低于0.98、與總分的相關大于0.2 和偏回歸系數(在對總分的多重線性回歸中)在0.0001水平上顯著不為0 的子技能能夠被保留下來。后期研究不少都采用了基于認知診斷模型的量化方法,能夠利用更為細致的指標對子技能的作用進行具體評估,基于R-RUM 模型的方法就是其中較為突出的一種。本研究采用了質性與量化相結合的方法,基于多角度證據來源構建目標測驗Q 矩陣。對實證數據進行量化分析時,研究通過R-RUM 模型的兩個題目參數對子技能指派的必要性和冗余度進行判斷,通過模型與題目的擬合指標對Q 矩陣所構建的模型與實測數據的擬合情況進行判斷,并以此為依據對初始Q 矩陣進行優化和檢驗。

綜上,本研究采用文獻回顧、專家判斷、基于認知診斷模型的數據分析等橫跨質性和量化兩方面的方法,構建出了YCT(四級)閱讀測驗的Q 矩陣。對于結構復雜、所包含子技能模糊的國際中文閱讀測驗來說,多角度的證據來源能夠進行交叉驗證,從而在更大程度上保障所構建Q 矩陣的合理性。

5.3 非診斷性閱讀測驗Q 的構建

開發真正的診斷性測驗或者從非診斷性測驗中抽取診斷信息,是當下獲取診斷信息的兩種途徑。目前,在閱讀測驗領域,真正的診斷性測驗極少,因為診斷性測驗的開發絕非易事,需要耗費大量的人力、物力和時間(Alderson、Haapakangas、Huhta、Nieminen &Ullakonoja,2015)。因此,從非診斷性測驗中抽取診斷信息,雖然并非獲取診斷信息的最優途徑,卻是目前較為可行的方案,尤其是對于還沒有真正的診斷性測驗的國際中文閱讀領域來說。

非診斷性測驗構建Q 矩陣需要對現有測驗進行事后分析,合理的Q 矩陣對于診斷分析的成功實施具有決定性意義。本研究確認的閱讀子技能有4 個,這個數量與以往不少研究相當,比如Li & Suen(2014)和Lee & Sawaki(2009)。實際上,在構建非診斷性測驗Q 矩陣時,子技能粒度大小的設置尤為關鍵。子技能粒度是指對子技能劃分的細致程度,粒度大則子技能劃分較粗、數量較少,粒度小則子技能劃分較細、數量較多。子技能粒度越小,診斷能力就越強,分析結果對現實中教學實踐的指導就可能越具針對性??紤]到診斷需求的滿足,子技能粒度應小一些。然而,對于非診斷性測驗來說,測驗開發時的藍圖一般并未能考慮到事后進行診斷性分析的需求,如果在事后確定Q 矩陣時子技能劃分過細,很可能會導致測驗對某些重要子技能的考查次數過少甚至未能考查某些重要的子技能;而一般來說,如果單個子技能的考察次數不足三次,認知診斷模型中的相關參數很難得到準確估計,也就是說子技能的考察次數不足會給后面的參數估計以及診斷分析的結果報告等帶來一系列的困難。由此可知,因為非診斷性測驗Q矩陣的構建需要在現存測驗的框架下進行,就必須綜合、平衡更多方面的要求,從而更加具有挑戰性。

當然,我們同樣清楚,即使構建Q 矩陣時考慮得比較全面,基于非診斷性測驗所進行的診斷分析,仍然無法擺脫現存測驗本身固有特征的束縛。開發真正的診斷性測驗,能夠在根本上保障診斷信息的獲取,后續研究可以在這一領域持續發力。

6. 結論

研究通過文獻分析法與專家判斷法,得到了目標測驗所考查的閱讀子技能并初步構建了Q 矩陣;通過基于R-RUM 模型的量化分析,對初始Q 矩陣進行了優化和檢驗。結果表明,YCT(四級)閱讀測驗考查了“詞匯識別”“句法分析”“語義命題構建”和“推理”四種子技能;對于所考查能力結構復雜的現存大型標準化國際中文閱讀測驗而言,采用質性分析與量化分析相結合的方法,能夠對測驗對各子技能的考查情況進行全面、細致評估,并在此基礎上有效構建Q 矩陣。

猜你喜歡
測驗考查專家
致謝審稿專家
創新視角下高考中關于統計的考查
創新視角下高考中關于統計的考查
《新年大測驗》大揭榜
例談氯及其化合物的學習與考查
釩及其化合物在高考中的考查
兩個處理t測驗與F測驗的數學關系
請叫我專家
專家面對面
你知道嗎?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合