?

新世紀20年國內測驗信度研究*

2022-08-09 11:04溫忠麟陳虹熹葉寶娟蔡保貞
心理科學進展 2022年8期
關鍵詞:同質性測驗信度

溫忠麟 陳虹熹 方 杰 葉寶娟 蔡保貞

新世紀20年國內測驗信度研究*

溫忠麟1陳虹熹1方 杰2葉寶娟3蔡保貞1

(1華南師范大學心理學院/心理應用研究中心, 廣州 510631) (2廣東財經大學新發展研究院/應用心理學系, 廣州 510320) (3江西師范大學心理學院/心理健康教育研究中心, 南昌 330022)

隨著驗證性因子分析模型的應用, 信度研究進入了嶄新的發展階段。新世紀前20年國內有關測驗信度的研究有三條發展主線。一是基于驗證性因子模型的信度發展, 包括同質性系數、合成信度、最大信度等; 二是數據類型的拓展, 包括兩水平和追蹤數據的信度; 三是信度用途的拓展, 如評分者信度、編碼者信度等。對于通常的測驗(題目之間的測量誤差不相關), 如果α系數夠高, 信度就夠高; 否則使用合成信度。如果一個統計模型中所有變量的合成信度都很高(超過0.95), 使用顯變量建模與使用潛變量建模的結果差別不大; 否則, 使用潛變量建模較好。

信度, α系數, 同質性系數, 合成信度, 區間估計

在心理、教育、管理等領域, 研究者廣泛使用問卷測驗進行實證研究, 測驗信度(reliability)是測驗結果的穩定性(stability)或一致性(consistency)程度, 是衡量測驗質量的一個重要指標。信度反映了測驗的可靠性和精確性, 即使一個完美的研究設計也無法彌補不可靠和不精確測量所帶來的缺陷, 所以, 評價測驗信度是進行數據分析的必要前提和重要步驟(葉寶娟等, 2012)。

信度的定義以經典測驗理論的真分數模型=+為基礎, 其中為觀測分數,為真分數,為測量誤差。對于被試總體, 假設、、滿足:誤差的均值為0, 誤差與真分數零相關, 各題目誤差之間零相關。測驗信度ρ定義為真分數的方差與觀測分數的方差之比:ρ= S22(Lord & Novick, 1968; 孟慶茂, 劉紅云, 2002)。在有了樣本數據后, 可以得到觀測分數的方差, 但在經典測驗理論中, 真分數的方差卻無法估計, 因而研究者只好用一些替代的方法去評估信度, 這就有了人們熟知的重測信度、復本信度、分半信度、α系數(coefficient alpha)等。

直至上世紀末, 國內信度研究的成果主要是針對α系數的不足提出了改進的信度估計的β和γ系數(陳希鎮, 1991; 謝小慶, 1998), 但這些工作都和α系數一樣沒有從信度的定義出發, 因此提出的信度估計方法都只是某種程度上比α系數有改進, 但難有根本的突破。隨著驗證性因子分析(confirmatory factor analysis, CFA)的引入, 新世紀伊始, 國內信度研究進入了嶄新的發展階段。

新世紀前20年, 測驗信度是僅次于結構方程模型的心理統計方法研究熱點(溫忠麟等, 2021)。國內學者對信度的研究主要集中于尋找更加合適的信度指標, 以及如何在不同的情況下更加精確地估計信度。以中國知網(https://www.cnki.net/)全文數據庫為數據源, 出版年限設為2001~2020年, 關鍵詞包括:信度、測驗信度、重測信度、復本信度、分半信度、α系數、同質性系數、內部一致性系數、合成信度、最大信度、評分者信度、編碼者信度、信度概化, 經篩查得到有關信度的方法學研究論文51篇(見表1)。從發表刊物看, 大多數文章都發表在心理學期刊上(33篇), 這可能與心理學研究常需要使用問卷并報告問卷的信度有關, 其中《心理科學》17篇, 《心理學探新》6篇, 《心理學報》4篇, 《中國臨床心理學雜志》3篇, 《心理科學進展》、《心理發展與教育》與《應用心理學》各1篇。此外, 《教育測量與評價(理論版)》3篇, 《中國衛生統計》3篇, 《統計與信息論壇》2篇, 其余10篇。從研究內容來看, 研究最多的是α系數; 其次是合成信度(composite reliability)和同質性系數(homogeneity coefficient)。

表1 2001~2020年國內信度的方法學研究文獻一覽

注:表中文獻按發表時間先后排序

國內測驗信度的研究有三條發展主線, 第一條主線是基于驗證性因子模型的測驗信度的發展, 從圍繞α系數的研究發展到基于驗證性因子模型的信度研究, 包括同質性系數、合成信度、最大信度(maximum reliability)、單指標信度和整個題目集分數的信度; 第二條主線是數據類型的拓展, 從單水平數據的測驗信度發展到多水平數據和追蹤數據(追蹤數據也可看成是多水平數據)的測驗信度; 第三條主線是信度用途的拓展, 從測驗本身的信度發展到其他用途的信度, 如評分者信度、編碼者信度、認知診斷屬性分類一致性信度和差異分數的信度等。以下將按照這三條主線逐一評述國內新世紀前20年的信度研究。

1 有關α系數的研究

1.1 α系數的點估計和區間估計

α系數是最常用的信度指標, 信度的發展大都以α系數為基礎, α系數的計算公式為:

其中為量表中的題數, 根據樣本計算α系數時將方差改為樣本方差便可。α系數可以用SPSS軟件計算得出, 也可在SAS軟件中調用PROC CORR過程計算α系數, 只要在選擇項加上參數α即可(馬文軍, 潘波, 2000), 也可用Mplus軟件編寫程序計算α系數(王孟成, 葉寶娟, 2014)。

α系數是一個總體參數, 在實證研究中通常用樣本的α系數來估計, 最好同時計算其置信區間, 以此得到在所研究的總體上重復取樣時α系數的精確性(Raykov & Shrout, 2002; Zinbarg et al., 2006)。尤其在樣本容量不大、α較小時, 非常有必要報告α系數的置信區間(Maydeu-Olivares et al., 2007)。葉寶娟和溫忠麟(2013a)介紹了10種計算α系數置信區間的方法, 并通過模擬研究比較了其中較好的7種方法(包括Fisher法、Bonett-02法、Bonett-10法、精確Koning-Franses法、漸近ID法、漸近Koning-Franses法和ADF法)。結果發現Bonett-10法和精確Koning-Franses法較好。這兩種方法都比較簡單, 只需要樣本的α值、測驗題數、被試人數及臨界值, 通過簡單的運算便可得到α系數的置信區間。

1.2 α系數和信度的關系

許多研究表明, α系數不能很好地估計測驗信度(陳炳為等, 2005; 劉拓, 戴曉陽, 2011; 李春會, 朱永忠, 2012)。劉紅云(2008)通過模擬研究表明, 在基本τ-等價(essentially τ equivalent)測驗的條件下(即任意兩個題目的真分數只相差一個常數, Graham, 2006), α系數于測驗信度, 否則α系數容易低估測驗信度。有時候α系數甚至還會出現負值(席仲恩, 汪順玉, 2007)。溫忠麟和葉寶娟(2011)通過梳理文獻后指出, 如果(i)各題的誤差不相關(這個條件容易滿足); (ii)測驗是基本τ等價(這個條件很強, 通常的測驗難以滿足), α系數等于測驗信度; 如果滿足條件(i), 但不滿足條件(ii), α系數小于信度??傊? 如果各題的誤差不相關, α系數是信度的下限(即有可能低估信度); 否則α系數有可能高估信度。多數情況下, 各題的誤差是不相關的, 若α系數高到可以接受, 那么測驗信度就可以接受, 所以α系數還可以繼續使用(溫忠麟, 葉寶娟, 2011)。

1.3 對α系數的誤解和誤用

傳統上將α系數稱為內部一致性信度或者同質性系數, 但實際上α系數不能用來衡量測驗的內部一致性, 也不能用來衡量測驗的同質性(溫忠麟, 葉寶娟, 2011), 因為題目數量的增加會導致α系數的增加, 哪怕是多維度的測驗, 只要題目夠多, α系數就會高(孟慶茂, 劉紅云, 2002)。已有研究發現α系數高不代表測驗是同質的(劉紅云, 2008)。為了避免研究者為提高α系數而增加多余條目的行為, 有人認為α系數不宜超過0.9 (安勝利, 陳平雁, 2001; 孟慶茂, 劉紅云, 2002)。后面我們會看到, 合成信度可以用來衡量測驗的內部一致性, 同質性則要使用同質性系數來衡量(見第2節)。

在應用α系數的過程中容易忽視正態分布這一使用前提。因為α系數以經典測量理論的真分數模型為基礎, 但經典測量理論是以正態分布為前提的。焦璨等(2008)通過模擬研究表明, 當測驗數據為非正態時, 偏度越大, α系數越小。焦璨等建議, 先將非正態數據進行聚類, 假設聚為3個組, 則分別求3個組的α系數, 用多個α系數來描述測驗可靠性。關守義(2009)進一步指出, α系數在實際應用中除了需要滿足正態分布的前提, 還需要確保每個個體方差相同、每次觀測均相互獨立, 并且各測量題目需要具有相同的心理刻度。

2 基于驗證性因子模型的測驗信度

隨著驗證性因子模型(包括雙因子模型)的引入, 信度研究得到了迅猛發展, 其中研究最多且成果最豐富的當屬同質性系數和合成信度。

2.1 同質性系數

同質性是指所有題目都測量了相同的特質(Revelle & Zinbarg, 2009; 劉紅云, 2008), 如果所有題目之間的相關都高, 則同質性高。無論單維還是多維測驗, 都可以考慮測驗同質性。

2.1.1 單維測驗的同質性系數

其實新世紀前后國內已經有學者發現α系數不能很好地衡量同質性, 提出了一些新的同質性指標。陳希鎮(1991)提出了β系數, 謝小慶(1998)提出了γ系數, 丁樹良和周新蓮(2002)提出ξ系數。這些系數都只是某種程度上比α系數有改進, 但也和α系數一樣, 沒有從信度的定義出發, 所以沒有根本上的突破。

基于驗證性因子模型, Raykov (2001)提出用ρ系數作為單維測驗(也稱為同屬測驗)的同質性系數, 這是方法上的突破。在建立單因子模型后, 整份測驗的總分 = (題目的因子負荷之和) × 因子+ (題目誤差之和), 加號前面的為真分數部分, 加號后面的為誤差部分。這樣, 總分的方差就可以分解為真分數方差和誤差方差。將信度的定義應用于總分, 就得到ρ系數, 它等于測驗總分的方差中, 真分數方差所占的比例(Raykov, 2001;陳希鎮, 李學娟, 2011)。ρ系數可以用任意一款結構方程軟件計算得到。

顧海根和李超(2005)采用概化理論的研究方法, 對ρ系數、α系數、β系數、γ系數、ξ系數進行了比較研究。結果發現, ρ系數最優, 表現在ρ系數最接近信度的真值, α系數最劣, βγξ系數基本處于一個水平, 介于ρ和α系數之間。因此, 應當將ρ系數作為單維測驗的同質性系數指標。

2.1.2 多維測驗的同質性系數

對于多維測驗, 在決定將多個維度的測驗分數合成測驗總分時, 應當考慮測驗同質性的高低。如果測驗同質性高(例如大于0.5), 合成總分是有意義的(溫忠麟等, 2018); 如果同質性太低, 合成總分沒有什么意義, 以合成總分為基礎進行的統計分析也就沒有什么意義, 這時應當以維度為變量進行統計分析。

估計同質性系數可以使用雙因子模型(bi- factor model, 詳見:顧紅磊等, 2014)。在雙因子模型中, 測驗總分的方差就可以分解為三部分:全局因子分數的方差、局部因子分數的方差和誤差方差。測驗的同質性系數定義為:測驗總分的方差中, 全局因子分數方差所占的比例, 有些文獻將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)。

葉寶娟和溫忠麟(2012b)用Delta法推導出計算同質性系數的標準誤公式, 進而計算其置信區間。他們通過模擬比較了用Delta法和Bootstrap法計算的置信區間, 發現兩者差異很小。他們還提供了簡單的計算多維測驗的同質性系數及其置信區間的LISREL和Mplus程序。

與同質性密切相關的一個概念是單維性。在雙因子模型中, 將全部題目的全局因子分數的方差相加是全局因子解釋的方差, 將全部題目的局部因子分數的方差相加后再加上全局因子解釋的方差就是公共方差。全局因子對公共方差的解釋比例(explained common variance, ECV) = (各題的全局因子分數的方差之和) / (各題的全局因子分數的方差之和 + 各題的局部因子分數的方差之和)。ECV通常作為單維性指標(Bentler, 2009), 用來判斷多維測驗的單維傾向性的程度。如果ECV超過0.7, 可以認為測驗是單維的(顧紅磊, 溫忠麟, 2017; Reise, 2012)。ECV指標可用Mplus軟件進行計算(王孟成, 葉寶娟, 2014; 顧紅磊, 溫忠麟, 2017)。

綜上可知, 同質性系數和單維性指標ECV是兩個同源指標, 都源于雙因子模型將每個題目分解為三個部分, 如果從整份測驗的總分入手進行分析, 則可得同質性系數; 如果從題目的方差入手進行分析, 則可得ECV。隨著全局因子的方差的變大, 同質性系數和ECV都會變高。兩者的區別也明顯, 因為ECV沒有涉及誤差方差, 單維測驗的同質性不一定高(因為可能誤差方差大)。但同質性系數越高, ECV也越高。

2.1.3 題目表述效應對同質性系數的影響

題目表述效應是指由題目表述方式的差異(如正向題和反向題)引起的與測量內容無關的系統變異。題目表述效應模型本質上是一種雙因子模型, 包括全局因子(所測特質, 影響全部題目)、局部因子(如正向題目效應因子1, 反向題目效應因子2)和測量誤差。評價這類測驗的同質性系數可以了解, 在排除了題目表述效應和測驗誤差引起的變異之后, 所測特質的變異占總變異的比例, 進而評價合成總分是否有意義。顧紅磊和溫忠麟(2014)發現忽視題目表述效應會高估測驗的同質性系數。韋嘉等(2017)發現忽視題目表述效應, 還會高估測驗的α系數和合成信度。

2.2 合成信度

2.2.1 合成信度的點估計和區間估計

合成信度是量表的合成分數(均值或者總分)的信度。對于單維測驗, 合成信度與同質性系數相同(溫忠麟, 葉寶娟, 2011), 即測驗總分的方差中真分數方差所占的比例。單維測驗的合成信度可用SPSS軟件(楊強等, 2014b)、LISREL和Mplus軟件(溫忠麟, 葉寶娟, 2011)計算得到。

對于多維測驗, 使用雙因子模型將總分的方差分解為三部分:全局因子分數的方差、局部因子分數的方差和誤差方差。測驗的合成信度定義為:測驗總分方差中, 全局因子和所有局部因子分數方差所占的比例, 有些文獻將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)??偡值姆讲钪? 如果將誤差方差之外的都理解為真分數的方差, 按信度定義計算得到的就是合成信度。多維測驗的合成信度可用LISREL (徐萬里, 2008; 屠金路等, 2010)和Mplus (王孟成, 葉寶娟, 2014)等結構方程軟件計算得到。

值得注意的是, 合成信度在計算測驗總分的時候, 通常直接將題目得分相加求和, 即將測驗所有的題目賦予了同樣的權重(權重為1)。也有研究者利用驗證性因子分析的結果, 選擇一組權重(每個題目的權重=該題目的因子負荷/該題目的誤差方差), 將題目得分乘以該題的權重, 再求和合成一個總分, 此時求得的合成信度達到最大值, 稱為最大信度(Fu et al., 2018; 田雪垠等, 2019; 葉寶娟, 楊強, 2011)。最大信度即可用于通常的單維測驗(葉寶娟, 楊強, 2011)和多維測驗(Fu et al., 2018), 也可用于被試有層級結構的測驗(即多水平測驗; 田雪垠等, 2019)。

有三種方法可以估計合成信度的標準誤進而計算合成信度的置信區間:Bootstrap法(屠金路等, 2005)、Delta法、直接用結構方程建模軟件輸出的標準誤。葉寶娟和溫忠麟(2011)比較了以上三種方法在計算單維測驗合成信度的置信區間中的表現, 推薦用Mplus軟件估計Delta法的單維測驗合成信度的置信區間。后續的一系列研究都表明, 無論單維還是多維, 是否偏態分布, 測驗誤差是否相關, 都推薦使用Delta法估計合成信度的置信區間(楊強等, 2014a; 葉寶娟, 2012; 葉寶娟, 溫忠麟, 2012a; 葉寶娟, 楊強, 2014, 2015)。

2.2.2 合成信度與內部一致性、同質性的關系

內部一致性可以定義為題目之間的相關性(Revelle & Zinbarg, 2009), 如果同一維度內部的題目之間相關高, 則內部一致性高。對于多維量表, 內部一致性應當理解為同一維度內部的題目之間的相關性, 而不是全部題目之間的相關性。這樣, 合成信度可以理解為內部一致性信度 (Bentler, 2009; 溫忠麟, 葉寶娟, 2011)。同質性高的測驗, 內部一致性也高, 但反過來不一定成立(張力為, 2002)。

可以證明同質性系數不超過合成信度(因為合成信度的分子中包含局部因子方差), 當且僅當局部因子不存在時(即單維), 兩者相等(溫忠麟, 葉寶娟, 2011)。不論誤差是否相關, 合成信度都不超過測驗信度(溫忠麟, 葉寶娟, 2011), 即同質性系數≤合成信度≤測驗信度。因此, 用合成信度來估計測驗信度更為準確。溫忠麟和葉寶娟(2011)總結出一個測驗信度分析流程(見圖1), 可以對量表合成分數的信度做出評價。

圖1 測驗信度分析流程(溫忠麟, 葉寶娟, 2011)

2.2.3 合成信度的實際意義

研究變量之間關系既有基于顯變量(合成分數)的分析(可以使用回歸模型), 也有基于潛變量(帶有指標)的分析(可以使用結構方程模型)。什么時候使用顯變量分析已經足夠, 什么時候需要潛變量分析才好, 判斷的主要依據就是量表的合成信度。兩個顯變量之間的相關系數, 等于兩個相應的潛變量之間的相關系數乘以兩個合成信度的幾何平均(侯杰泰等, 2004)。如果兩個合成信度都超過0.95 (題目較多的許多量表都滿足), 使用顯變量分析與使用潛變量分析的結果差別不大, 否則, 使用潛變量分析較好。對于回歸系數, 關鍵是自變量的合成信度(因為因變量通過殘差考慮了測驗誤差)。使用顯變量得到的回歸系數, 等于使用潛變量得到的回歸系數乘以自變量的合成信度。如果自變量的合成信度超過0.95, 使用顯變量分析與使用潛變量分析的結果差別不大, 否則, 使用潛變量分析較好。

2.3 其他測驗信度

2.3.1 單指標信度

根據真分數模型, 測驗中的單個題目是無法按信度的定義計算其信度的。但基于驗證性因子分析, 真分數的方差也是可以估計的, 因而可以估計單個題目的信度, 即單指標信度。單指標信度反映單一題目得分受潛變量影響的程度, 其值越高, 表示真分數所占的比重越大(方敏, 2009)。王孟成和葉寶娟(2014)給出了計算單指標信度的Mplus程序。對于完全標準化估計, 題目負荷的平方就是單指標信度。

2.3.2 整個題目集分數的信度

用合成信度和最大信度衡量測驗的信度是有前提的, 即測驗的各個題目可以相加得一總分。而在實際應用中, 有些測驗的各個題目相加得一總分并沒有多大意義, 雖然此時仍可計算合成信度及最大信度, 但沒有意義。Alonso等(2010)用驗證性因子分析推導出了兩個新的信度系數R和Λ。R信度系數是用觀測分數與誤差分數的方差-協方差矩陣的跡, 來概括觀測分數與誤差分數的變異得到的; 而Λ是用觀測分數與誤差分數方差?協方差矩陣的行列式, 來概括觀測分數與誤差分數的變異得到的。

葉寶娟和楊強(2011)比較了合成信度、最大信度、R和Λ, 并討論了這4種信度系數估計方法的差異:(1)信度計算時對每個題目分數的處理方法不一樣。合成信度及最大信度是將各題目分數單位加權或不等加權合成總分, 計算的是測驗總分的信度, 而R和Λ系數計算的是整個測驗題目集分數的信度。(2)測驗長度對信度的影響不一樣。隨著題目的增多, 合成信度不一定變大, 如果加入質量不好的題目(如題目的因子負荷小), 合成信度和R都可能降低; 而最大信度和Λ會隨著題目的增多而增大。(3)信度系數的數值大小不同。最大信度=Λ≥合成信度≥R。

3 特殊數據類型的測驗信度

前面介紹的信度用于常規的測驗數據。對于有層級結構的數據(多水平數據)、追蹤研究的重復測量數據(縱向數據), 需要有相應的方法得到更準確的信度估計。

3.1 兩水平研究的信度

在心理、教育、管理等研究領域中, 經常會遇到兩水平的數據結構, 如學生嵌套于班級中, 員工嵌套于企業中, 這樣的兩層數據結構能夠更準確地研究變量之間的關系。葉寶娟和溫忠麟(2013b)用兩水平驗證性因子分析模型推導出兩水平研究中單維測驗的信度公式, 無論組間因子負荷是自由還是固定都適用。組間因子負荷自由估計的兩水平研究中, 單維測驗信度的點估計可用Mplus軟件得到(葉寶娟, 溫忠麟, 2013b)。但如何得到單維測驗信度的區間估計還亟待解決。

田雪垠等(2019)以兩層數據為例討論多水平研究的信度估計。將觀察分數分解為層1真分數和層2真分數、層1誤差和層2誤差四個部分。然后分別估計層1信度和層2信度, 包括層1和層2的α系數、合成信度和最大信度。例如, 將α系數公式分別應用于層1的方差和層2的方差, 得到層1的α系數和層2的α系數。他們使用Mplus軟件展示了如何利用兩水平驗證性因子分析計算兩水平多維測驗的信度。但如何得到多維測驗信度的區間估計還亟待解決。另外, 劉霖芯等(2018)將單層數據(個被試完成個題目)看成是題目嵌套于被試的兩層數據(題目為層1, 被試為層2), 利用兩水平模型計算α系數。

3.2 追蹤研究的信度

有研究者用體現追蹤數據特點的數學模型提出相應的信度估計, 包括基于單純形模型的ρ, 基于概化單純形模型的ρ(S), 但ρ和ρ(S)都只估計了單個時間點測驗的信度, 而沒有給出整個追蹤研究測驗的信度。還有研究者基于線性混合模型, 利用前面介紹的計算R和Λ的思想定義了追蹤數據中的R和Λ,R和Λ既可估計追蹤研究中單個時間點的測驗信度, 也可估計整個追蹤研究的測驗信度, 推薦同時使用R和Λ來估計追蹤研究的測驗信度(葉寶娟等, 2012)。但是在非線性條件以及非平衡設計等條件下, 它們的適用性還有待進一步的研究。實際上, 追蹤數據還可看成重復測量的時間點嵌套于被試的兩水平嵌套數據, 用兩水平信度測量方法進行信度估計。關于R和Λ與兩水平信度系數在追蹤數據的信度計算中的表現孰優孰劣, 有待進一步研究。

4 其他用途的測驗信度

除了用來評價測驗(如問卷和試題)結果的一致性外, 信度還可以有其他用途, 例如評價不同評分者對被試作答的評分的一致性(評分者信度)、評價不同編碼者對相同文本獨立編碼的一致性(編碼者信度)、評價認知診斷屬性分類的一致性(認知診斷屬性分類一致性信度)、評價培訓或者練習效果的一致性(差異分數的信度)等。

4.1 評分者信度

評分者信度的計算方法有相關法(孫曉敏, 張厚粲, 2005; 何佳等, 2007; 蔣小花等, 2010), 百分比法(孫曉敏, 張厚粲, 2005)和基于概化理論的方法(嚴芳, 李偉明, 2002; 李斌等, 2011)。相比相關法和百分比法, 概化理論對評分者一致性的估計更為靈活(所需前提假設更少, 適用面更廣)和主動(不僅可以得到概化系數, 還可以根據所得到的方差分量估計值算出為達到一定的概化系數, 選擇多少評分者是合適的), 孫曉敏和張厚粲(2005)推薦用概化理論估計表現性評價中的評分者信度。

4.2 編碼者信度

檢驗編碼者信度的方法有歸類一致性指數、編碼信度系數、相關系數、中位數檢驗、概化系數(徐建平, 張厚粲, 2005)。其中, 歸類一致性指數是指對編碼歸類相同數占歸類總數的百分比, 因此其穩定性更多地受相同編碼數目的影響, 相同編碼數據越多, 歸類一致性指數越高; 概化系數則受編碼者和編碼題目數量的影響。具體地, 編碼者側面、以及與編碼者相關的交互效應變異分量越小, 編碼者一致性就越高。在編碼題目數量較小時, 概化系數的增幅較大(徐建平, 張厚粲, 2005)。

4.3 認知診斷屬性分類一致性信度

對于認知診斷的屬性分類一致性信度的點估計, 可用改進后的α系數法(汪文義等, 2018)、四分相關法(郭磊, 張金明, 2018)、一致性法(郭磊, 張金明, 2018; 汪文義等, 2018)、基于Bootstrap的積差相關法和修正的一致性法(郭磊, 張金明, 2018)進行估計。郭磊和張金明(2018)的模擬研究表明, 積差相關法表現最優(平均偏差的絕對值更接近0和誤差均方根指標最小), 修正的一致性法和一致法居中, 四分相關法最差。

對于認知診斷屬性分類一致性信度的區間估計, 汪文義等(2018)在一致法獲得屬性分類一致性的點估計的基礎上, 比較了三種估計信度置信區間的方法:Bootstrap法、平行測驗配對法和平行測驗法, 推薦使用Bootstrap法估計認知診斷屬性分類一致性信度的置信區間。汪文義等(2020)進一步發現, 用Bootstrap法估計的屬性分類一致性信度平均數和標準誤在不同研究條件的模型選擇率較穩定, 總體表現較好。

4.4 差異分數的信度

差異分數(也稱增長分數)是指同一批被試兩次測試的得分之差, 用以判斷培訓或者練習的效果。關丹丹等(2005)給出了差異分數的信度點估計的計算公式, 差異分數的信度不超過兩次測試中信度相對較高的那次測試的信度。兩次測試的信度、標準差和相關都會影響差異分數的信度。

5 討論與拓展

新世紀20年來, 國內學者努力探索如何更準確地估計測驗的信度, 既包括理論層面的探索(從經典測驗理論→概化理論; 陳社育, 余嘉元, 2001), 也包括工具層面的探索(從無因子分析模型→驗證性因子分析模型→雙因子模型), 使得信度領域的方法學研究取得了長足的發展, 加深了我們對信度的認識。本文從有關α系數的研究開始, 系統回顧了這期間國內有關信度的研究, 重心是基于驗證性因子分析模型的信度, 也包括兩水平和追蹤數據的信度、其他用途的測驗信度等。但也還有一些尚未介紹的發展情況需要補充一下。

第一, 國內信度研究在信度的元分析方面也有發展。信度的元分析有兩類研究。一類是利用變化系數模型對單維測驗的合成信度進行元分析, 并提出用Delta法估計合成信度元分析置信區間(葉寶娟等, 2013)。他們還以區間覆蓋率為衡量指標, 用模擬研究證明Delta法的合成信度元分析區間估計的方法是得當的。另一類是信度概化(reliability generalization), 信度概化是概化理論的應用, 它是以某一特定的測驗工具(如問卷)在不同研究中的信度系數作為研究樣本, 對這些信度系數作再研究, 探究影響信度的變量, 即使信度系數發生變化的預測源, 并研究與信度系數有關的測量條件及因素的變異性(關丹丹, 張厚粲, 2004; 焦璨等, 2009)。

第二, 已有一些學者嘗試在傳統心理測驗中引入計算機化自適應測驗技術(例如, 李宇斌等, 2020; 汪大勛, 涂冬波, 2021; 張龍飛等, 2020), 但目前還沒有合適的方法估計計算機化自適應測驗信度, 有待研究。

為了更好地對信度的當下研究有所了解, 下面從三個方面介紹國外期刊信度研究的情況, 或許可以發現一些值得未來探索和拓展的方向。

5.1 α系數該不該放棄?

McNeish (2018)認為α系數過時了, 建議用合成信度、最大信度等替代α系數。Raykov和Marcoulides (2019)則認為, 在某些條件下, α系數還可以作為信度的估計值, 不用放棄。Sijtsma和Pfadt (2021)指出, 即使題目誤差相關, α系數的屬性仍保持不變。國外學者現在還在爭論的這個問題, 國內學者在10年前已經說得相當清楚。溫忠麟和葉寶娟(2011)已明確指出, 對于大多數測驗來說, 假設誤差不相關是合理的, 如果α系數高到可以接受, 那么測驗信度就可以接受。因而對于大多數測驗來說, 計算并報告α系數, 已經足以支持測驗信度。所以, 多數情況下, α系數還可以繼續使用。

5.2 有關合成信度的研究

Edwards等(2021)比較了單維的合成信度、多維的合成信度、信度的最大下限和α系數的表現, 結果發現合成信度和α系數比較準確地反映了總體信度, 且信度估計受樣本大小、基本τ-等價的違反程度、總體信度大小和題目數量的影響。合成信度受樣本大小和題目數量的影響更大, 特別是當總體信度低的時候, 而α系數對違反τ-等價性的程度比較敏感。

Padilla和Divers (2016)比較了6種合成信度的置信區間獲得方法(不包括貝葉斯法), 結果發現bootstrap置信區間表現最優。Kelley和Pornprasertmanit (2016)比較了4種信度系數的置信區間, 包括類別變量的合成信度, 建議使用bootstrap置信區間。Pfadt等(in press)提出在貝葉斯框架下, 利用Gibbs抽樣得到信度系數的后驗分布后, 估計信度系數的可信區間。模擬研究表明, 在無信息先驗條件下, 95%的貝葉斯可信區間與95%的bootstrap置信區間相當。

如果因子模型有跨因子負荷卻被忽略, 結果會如何?Fu等(2022)用模擬研究比較了探索性結構方程模型(麥玉嬌, 溫忠麟, 2013)和驗證性因子模型在求合成信度中的表現。結果表明, 基于探索性結構方程模型和驗證性因子模型得到的合成信度相當接近, 說明忽略跨因子負荷對合成信度的估計影響不大。

Lai等(2020)將合成信度拓展到多水平模型中, 定義了6種適用于多水平數據的合成信度指標, 并給出R和Mplus程序計算信度的置信區間。

5.3 基于概化理論的信度研究

Scherer和Teo (2020)指出信度概化存在三個不足:信度系數估計中存在不切實際的假設(例如, α系數的基本τ-等價假設); 忽略量表總分和分量表分數的信度系數的相關性; 不同類型的信度系數之間缺乏可比性。他們提出元分析結構方程(meta-analytic structural equation modeling, MASEM)來解決這三個不足, 進行信度概化分析。ten Hove等(in press)將評分者信度拓展到多水平模型, 用概化理論考察多水平觀測數據的評分者信度, 用馬爾可夫鏈蒙特卡羅法來估計多水平觀測數據的方差。

安勝利, 陳平雁. (2001). 量表的信度及其影響因素.(4), 315–318.

陳炳為, 許碧云, 倪宗瓚, 楊惠芳. (2005). 證實性因子分析在量表信度中的應用研究.(4). 261–263.

陳社育, 余嘉元. (2001). 經典真分數理論與概化理論信度觀評析.(3), 258–263.

陳希鎮. (1991). 如何正確使用信度估計公式.(1), 41–49.

陳希鎮, 李學娟. (2011). 結構方程模型下的信度估計.(1), 13–15.

丁樹良, 周新蓮. (2002). 一種新的信度估計.(3), 222–224.

方敏. (2009). 結構方程模型下的信度檢驗.(5), 524–526.

顧海根, 李超. (2005). 同質信度多種指標的比較研究.(5), 1196–1198.

顧紅磊, 溫忠麟. (2014). 項目表述效應對自陳量表信效度的影響——以核心自我評價量表為例.(5), 1245–1252.

顧紅磊, 溫忠麟. (2017). 多維測驗分數的報告與解釋: 基于雙因子模型的視角.(4), 504–512.

顧紅磊, 溫忠麟, 方杰. (2014). 雙因子模型: 多維構念測量的新視角.,(4), 973–979.

關丹丹, 張厚粲. (2004). 信度的再認識與信度概括化研究.(2), 445–448.

關丹丹, 張厚粲, 李中權. (2005). 差異分數的信度分析.(1), 161–163.

關守義. (2009). 克龍巴赫α系數研究述評.(3), 685–687.

郭磊, 張金明. (2018). 使用Bootstrap方法計算認知診斷評估中的信度.(5), 433–439.

何佳, 何懼, 席雁, 徐超. (2007). 評分者信度的分析方法簡介及比較.(6), 76–77.

侯杰泰, 溫忠麟, 成子娟. (2004).北京:教育科學出版社.

蔣小花, 沈卓之, 張楠楠, 廖洪秀, 徐海燕. (2010). 問卷的信度和效度分析.(3), 429–431.

焦璨, 吳利, 張敏強, 張文怡. (2009). 信度概化研究的新進展評析.(2), 54–59.

焦璨, 張敏強, 黃慶均, 張文怡, 黎光明. (2008). 非正態分布測量數據對克隆巴赫信度α系數的影響.(3), 276–281.

李斌, 辛濤, 張淑梅, 孫佳楠. (2011). 多評分者多任務情境下評分者信度的模型擬合研究.(6), 107–110.

李春會, 朱永忠. (2012). 基于信度系數與α系數分析結構方程模型.,(3), 250–252.

李宇斌, 蔡艷, 涂冬波. (2020). 手機依賴的計算機化自適應測量及其效果評估.(3), 748–755.

劉紅云. (2008). α系數與測驗的同質性.(1), 185–188.

劉霖芯, 張韜, 楊珉. (2018). 利用多水平模型計算及校正Cronbach alpha系數.(6), 838–842.

劉拓, 戴曉陽. (2011). 不擬合被試對測驗信、效度的影響.(6), 743–745.

馬文軍, 潘波. (2000). 問卷的信度和效度以及如何用SAS軟件分析.(6), 364–365.

麥玉嬌, 溫忠麟. (2013). 探索性結構方程建模(ESEM): EFA和CFA的整合.(5), 934–939.

孟慶茂, 劉紅云. (2002). α系數在使用中存在的問題.(3), 42–47.

孫曉敏, 張厚粲. (2005). 表現性評價中評分者信度估計方法的比較研究——從相關法、百分比法到概化理論.(3), 646–649.

田雪垠, 鄭蟬金, 郭少陽, 賀冠瑞. (2019). 基于多層驗證性因素分析的各種信度系數方法.(5), 461–467.

屠金路, 金瑜, 王庭照. (2005). bootstrap法在合成分數信度區間估計中的應用.(5), 1199–1200.

屠金路, 王庭照, 金瑜. (2010). 結構方程模型下多因子非同質測量合成分數的信度估計.(3), 666–669.

汪大勛, 涂冬波. (2021). 認知診斷計算機化自適應測量技術在心理障礙診斷與評估中的應用.(2), 111–117.

王孟成, 葉寶娟. (2014). 通過Mplus計算幾種常用的測驗信度.(1), 48–52.

汪文義, 方小婷, 葉寶娟. (2018). 認知診斷屬性分類一致性信度區間估計三種方法.(6), 1492–1499.

汪文義, 朱黎君, 葉寶娟, 方小婷. (2020). Bootstrap區間估計在認知診斷模型誤設中的應用.(6), 1498–1505.

韋嘉, 郭磊, 張進輔. (2017). 表述效應對平衡量表內部一致性信度的影響.(8), 133–139.

溫忠麟, 方杰, 沈嘉琦, 譚倚天, 李定欣, 馬益銘. (2021). 新世紀20年國內心理統計方法研究回顧.(8). 1331–1344.

溫忠麟, 黃彬彬, 湯丹丹. (2018). 問卷數據建模前傳.(1), 204–210.

溫忠麟, 葉寶娟. (2011). 測驗信度估計: 從α系數到內部一致性信度.(7), 821–829.

吳瑞林, 袁克海. (2012). 基于結構方程模型的合成信度及其使用問題研究.(12), 14–20.

席仲恩, 汪順玉. (2007). 論負克倫巴赫alpha系數和分半信度系數.(6), 785–787.

謝小慶. (1998). 信度估計的γ系數.(2), 193–196.

徐建平, 張厚粲. (2005). 質性研究中編碼者信度的多種方法考察.(6), 152–154.

徐萬里. (2008). 結構方程模式在信度檢驗中的應用.(7), 9–13.

嚴芳, 李偉明. (2002). 用結構方程建模(SEM)估計概化理論(GT)中的評分者信度.(5), 534–539.

楊強, 葉寶娟, 溫忠麟. (2014a). 兩種估計多維測驗合成信度置信區間方法比較.(1), 43–47.

楊強, 葉寶娟, 溫忠麟. (2014b). 用SPSS軟件計算單維測驗的合成信度.(3), 496–498.

葉寶娟. (2012). 偏態分布下單維測驗合成信度三種區間估計的比較.(10), 28–32.

葉寶娟, 溫忠麟. (2011). 單維測驗合成信度三種區間估計的比較.(4), 453–461.

葉寶娟, 溫忠麟. (2012a). 用 Delta 法估計多維測驗合成信度的置信區間.(5), 1213–1217.

葉寶娟, 溫忠麟. (2012b). 測驗同質性系數及其區間估計.(12), 1687–1694.

葉寶娟, 溫忠麟. (2013a). α系數的區間估計方法比較.(1), 215–222.

葉寶娟, 溫忠麟. (2013b). 兩水平研究中單維測驗信度的估計.(3), 728–733.

葉寶娟, 溫忠麟, 陳啟山. (2012). 追蹤研究中測驗信度的估計.(3), 467–474.

葉寶娟, 溫忠麟, 胡竹菁. (2013). 單維測驗合成信度元分析.(6), 1464–1469.

葉寶娟, 楊強. (2011). 用驗證性因子分析估計單維測驗的信度.(11), 8–12.

葉寶娟, 楊強. (2014). 偏態分布下多維測驗合成信度區間估計的比較.,(11), 8–11.

葉寶娟, 楊強. (2015). 用Delta法估計誤差相關測驗合成信度的置信區間: 以FAD為例.(3), 251–256.

張力為. (2002). 信度的正用與誤用.(3), 348–350.

張龍飛, 劉凱, 宋鴿, 涂冬波. (2020). 計算機化自適應測驗技術在情緒智力智能測評中的初步應用——基于項目反應理論.(5), 454–461.

Alonso, A., Laenen, A., Molenberghs, G., Helena Geys, H., & Vangeneugden, T. (2010). A unified approach to multi- item reliability.(4), 1061–1068.

Bentler, P. M. (2009). Alpha, dimension-free, and model- based internal consistency reliability.(1), 137–143.

Edwards, A. A., Joyner, K. J., & Schatschneider, C. (2021). A simulation study on the performance of different reliability estimation methods.(6), 1089–1117.

Fu, Y., Wen, Z., & Wang, Y. (2018). The total score with maximal reliability and maximal criterion validity: An illustration using a career satisfaction measure.(6), 1108–1122.

Fu, Y., Wen, Z., & Wang, Y. (2022). A comparison of reliability estimation based on confirmatory factor analysis and exploratory structural equation models.,(2), 205–224.

Graham, J. M. (2006). Congeneric and (essentially) tau- equivalent estimates of score reliability: What they are and how to use them.(6)930–944.

Kelley, K., & Pornprasertmanit, S. (2016). Confidence intervals for population reliability coefficients: Evaluation of methods, recommendations, and software for composite measures.(1), 69–92.

Lai, M. H. C. (2020). Composite reliability of multilevel data: It's about observed scores and construct meanings.(1), 90–102.

Lord, F. M., Novick, M. R. (1968).. Reading, MA: Addison-Wesley.

Maydeu-Olivares, A., Coffman, D. L., & Hartmann, W. M. (2007). Asymptotically distribution free (ADF) interval estimation of coefficient alpha.(2)157–176.

McNeish, D. (2018). Thanks coefficient alpha, we’ll take it from here.(3), 412–433.

Padilla, M. A., & Divers, J. (2016). A comparison of composite reliability estimators: Coefficient omega confidence intervals in the current literature.(3), 436–453.

Pfadt, J. M., van den Bergh, D., Sijtsma, K., Moshagen, M., & Wagenmakers, E. (in press). Bayesian estimation of single-test reliability coefficients..

Raykov, T. (2001). Estimation of congeneric scale reliability using covariance structure analysis with nonlinear constraints.(2), 315–323.

Raykov, T., & Marcoulides, G. A. (2019). Thanks coefficient alpha, we still need you!(1), 200–210.

Raykov, T., & Shrout, P. E. (2002). Reliability of scales with general structure: Point and interval estimation using a structural equation modeling approach.(2), 195–212.

Reise, S. P. (2012). The rediscovery of bifactor measurement models. Multivariate Behavioral Research(5), 667–696.

Revelle, W., & Zinbarg, R. E. (2009). Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma.(1), 145–154.

Scherer, R., & Teo, T. (2020). A tutorial on the meta- analytic structural equation modeling of reliability coefficients.(6), 747–775.

Sijtsma, K., & Pfadt, J. M. (2021). Part Ⅱ: On the use, the misuse, and the very limited usefulness of cronbach's alpha: Discussing lower bounds and correlated errors.(4), 843–860.

ten Hove, D., Jorgensen, T. D., & van der Ark, L. A. (in press). Interrater reliability for multilevel data: A generalizability theory approach..

Zinbarg, R. E., Yovel, I., Revelle, W., & McDonald, R. P. (2006). Estimating generalizability to a latent variable common to all of a scale's indicators: A comparison of estimators for ω.(2), 121–144.

Research on test reliability in China’s mainland from 2001 to 2020

WEN Zhonglin1, CHEN Hongxi1, FANG Jie2, YE Baojuan3, CAI Baozhen1

(1School of Psychology & Center for Studies of Psychological Application, South China Normal University, Guangzhou 510631, China) (2Institute of New Development & Department of Applied Psychology, Guangdong University of Finance & Economics, Guangzhou 510320, China) (3School of Psychology & Center of Mental Health Education and Research, Jiangxi Normal University, Nanchang 330022, China)

With the application of confirmatory factor analysis, research on reliability has entered a new stage. In the first two decades of the 21st century, the studies on test reliability in China’s mainland show three main lines of development. The first is the development of test reliability based on confirmatory factor models, including homogeneity coefficient, composite reliability, maximum reliability, etc. The second is the expansion of data types collected by scales, including the reliability of two-level data and longitudinal study. The third is the extended use of reliability, involving rater reliability, encoder reliability, etc. For a common test (with item-errors uncorrelated each other), if the coefficient αis high enough, test reliability is acceptable; otherwise composite reliability is recommended. If the composite reliability of every variable in a statistical model is very high (over 0.95), modeling with composite scores does not differ much from modeling with latent variables. Otherwise, it is better to use latent variable modeling.

reliability, coefficient α, homogeneity coefficient, composite reliability, interval estimation

2021-12-29

* 國家自然科學基金項目(32171091)資助。

溫忠麟, E-mail: wenzl@scnu.edu.cn

B841

猜你喜歡
同質性測驗信度
《廣東地區兒童中醫體質辨識量表》的信度和效度研究
作為數學教育研究質量分析的信度
平衡損失函數下具有時間效應和通脹因子的信度估計
《新年大測驗》大揭榜
同質性和社會影響對混合型社交網絡形成的仿真分析
基于同質性審視的高職應用型本科工程教育研究
兩個處理t測驗與F測驗的數學關系
中文版腦性癱瘓兒童生活質量問卷的信度
理性程度的異質性:基于理論與實踐的考察
你知道嗎?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合