量表數據中不努力作答的識別和清理*

2023-02-27 14:47劉紅云

心理學探新 2023年6期

王丹劉紅云

(北京師范大學心理學部,應用實驗心理北京市重點實驗室,心理學國家級實驗教學示范中心[北京師范大學],北京 100875)

1 引言

量表調查是指通過制定詳密的工具,要求被調查者據此進行回答以收集資料的方法。因其具有成本低、快捷高效和操作便捷等優點,被廣泛應用于心理學、教育學和社會學研究。盡管研究者可以通過量表收集到大量有價值的數據,但是并不能保證作答者參與的熱情和動機,如大量研究發現現實中作答率呈現逐年下降的趨勢(Anseel,Lievens,Schollaert,& Choragwicka,2010;Christian,Dillman,& Smyth,2008;Weiner &Dalessio,2006)。特別是當下在線問卷的流行,很難保證在無人監管的情況下作答者認真參與調查(Pauszek,Sztybel,& Gibson,2017)。

不努力作答(Insufficient Effort Response,IER)又稱不認真作答,指被調查者缺乏作答動機,作答不專心、疲勞或加速作答,導致作答數據無法反映其真實物質(Curran,2016;Hong,Stee dle,& Cheng,2020,Huang,Liu,& Bowling,2015;Meade &Craig,2012)。不努力作答的程度在2%到50%之間(Johnson,2005;Meade &Craig,2012),不努力作答更容易出現在題量較多的量表中,被調查者的疲勞效應會促使其在后半部分不認真作答(Berry et al.,1992;Clark,Gironda,& Young,2003)。被不努力作答污染的數據,不僅會令個體作答數據無效,還會為量表指標的計算帶來偏差,得出不可靠的分析結果(Crede,2010;Johnson,2005;Huang,Curran,Keeney,Poposki,& DeShon,2012;Maniaci &Rogge,2014;McGonagle,Huang,& Walsh,2015;Merritt,2012;Steedle,Hong,& Cheng,2020;Woods,2006)。由此可知,對不努力作答的甄別就顯得很有必要。

目前對不努力作答的主要甄別方法和指標大約有十幾種,研究者主要集中在針對量表作答過程中可能出現的不努力作答的行為模式,構建不同的指標并評估指標甄別效果(Dunn,Heggestad,Shanock,& Theilgard,2018;Huang et al.,2012;Meade &Craig,2012)。面對不斷出現的指標方法,如何選擇和應用效果最好的指標成為了研究的重點。有研究通過模擬不同程度的不努力作答數據,評估在不同條件下,各指標的敏感度和特異性(Hong &Cheng,2019;Meade &Craig,2012)。但是,不努力作答表現多樣,并非全是隨機作答數據,有的還會呈現多種的規律,很難通過模擬數據研究得出的結論對實際測驗中不努力作答情況進行推斷。也有研究者以實際量表數據為分析對象,評估清除不努力作答數據后,工具質量指標的計算結果的變化(Steedle et al.,2019),但是并未對不同甄別指標在實際數據中的選擇進行更進一步的研究。

綜上,當前研究大多介紹不努力作答甄別的方法及其效果,而對于實際研究中如何綜合應用多個指標進行甄別等問題缺少關注。本文在對不努力作答識別指標進行歸納的基礎上,重點探索不同指標的適用性和一致性;并探討了不努力作答的消極影響。最后,通過比較實際應用中清理不努力作答數據的不同方法,在方法選取方面給出了建議。

2 不努力作答識別方法概述

不努力作答的識別方法分為主動偵查法、作答過程指標法和指標分析法三類。主動偵查法是一種在測驗實施之前,通過主動設置題目對不努力作答行為進行識別的方法,主要包括陷阱題、直接反應題和自評準確率。第二類是作答過程指標,基于計算機在線測試的普及,被調查者的作答過程信息可以被輕易獲取,比如作答時間和作答完成率。第三類指標分析法是對不努力作答的一類事后甄別方法,該類方法通過計算已回收數據的各項指標,判斷被調查者不努力作答的可能性,常用的指標有七種。詳細見表1。

表1 不同IER模式所對應的行為表現及操作定義

表1 不努力作答方法介紹

3 研究問題與設計

主要采用指標分析法,輔助主動偵查法和作答過程指標,探討不同方法的應用情況。

3.1 研究方法

3.1.1 測驗工具

通過一個實際的網絡測試的量表數據,幽默風格量表(Humor Styles Questionnaire,HSQ),對不努力作答識別方法和效果進行研究。HSQ是由Martin等人開發的用于測試幽默類型的5點評分量表(Martin,Puhlik-Doris,Larsen,Gray,& Weir,2003),共有4個子量表,每個量表8道題目。

3.1.2 數據

所用的數據來自于心理測量項目公開的資源(https://openpsychometrics.org/_rawdata/)。1071名被調查者參與作答,其中男性581名,女性477名,缺失13人;年齡范圍為14-70歲。在調查最后會詢問被調查者作答準確率(Accuracy),即“請對自己作答的準確程度進行0至100的評分”。由于本量表為人格類型的測驗,作答準確率和被調查者的能力無關,只和其作答的認真程度有關,因此被調查者匯報的準確率可等同于自評的認真程度。

3.2 指標截斷值的確定

在進行指標識別之前,首先需要設置各指標的截斷值(Cutoff)。對于主動偵查法和作答過程數據指標,并沒有一個明確設置截斷值的方法。這里將自評認真程度不高于50%的被判定為不努力作答;題目缺失率(Missing)可考慮采用缺失1道和2道題這兩個標準來判定。

對于指標分析法中的多個指標,確定截斷值的方法并不同(分析語句見https://osf.io/wgfhv/)。LongString的截斷值采用Johnson(2005)提出的碎石圖法,對所有作答者在每個選項上面不同長度的連續作答的頻率進行比較,將碎石圖的拐點作為截斷值,每一個選項對應一個截斷值。根據圖1,選項2-4的拐點對應的題目數目為4,選項1和選項5的拐點在3或4,因此最終選出四組截斷值,分別是(3,4,4,4,3),(3,4,4,4,4),(4,4,4,4,3)和(4,4,4,4,4)。

圖1 選項1至選項5的碎石圖

對于lz指標,可直接基于零假設的顯著性檢驗,采用第一類錯誤率(α)0.01或0.05所對應的臨界值作為截斷值。利用R語言中的PerFit包(Tendeiro,Meijer,& Niessen,2016)計算每個被試四個子量表的lz值。參考Hong等(2020)的研究,當其中一個子量表的lz低于截斷值時,意味著作答者的答案與預期答案的差異在統計上是顯著的,代表其很可能沒有認真讀題或者隨機作答,因此被判定為不努力作答。對于MD指標,理論上也可以采用零假設的顯著性檢驗,但在實際中,MD的平方有可能偏離了中心卡方分布,直接采用此方法可能會帶來較大偏差(Hong et al.,2020)。

對于MAD,PS,Even Odd、IRV和MD指標,截斷值的確定主要有兩種方法。第一種方法是異常值檢測,該方法的原理是模擬各指標的零假設分布。首先通過清理數據降低IER的消極影響和α,然后選擇合適的IRT模型擬合清理后的測驗數據,再根據IRT參數和能力分布模擬樣本作答,根據模擬樣本計算出每個指標,并建立該指標零假設下的抽樣分布,α=0.05和0.01對應的值為截斷值(Steedle et al.,2019)。第二種方法比較簡單,按照比例直接篩選不努力作答,比如Dunn等人以10%的比例篩選不努力作答被調查者(Dunn et al.,2018),Huang等人則分別以1%和5%設置截斷值(Huang et al.,2012)。

這里采用第一種方法計算截斷值,用R語言中的mirt包(Chalmers,2012)和careless包(Yentes &Wilhelm,2023),語句見附錄1。各項指標的截斷值和識別人數見表2。

表2 各指標對不同類型IER行為的識別效果

表2 各指標的截斷值和識別結果

4 不同方法對不努力作答識別的效果及應用

4.1 研究一 IER指標在不努力作答模式中的適用性

不努力作答的表現形式多樣,這里將不努力作答的表現概括為以下五種:

(1)連續相同作答。即連續選擇相同答案,比如“3,3,3,3,3,3,3”。

(2)忽略相反題。忽視了當前題目中的相反詞,從而出現作答方向錯誤的情況。

(3)趨中作答。在沒有認真閱讀題目的情況下,連續選擇立場不夠明確的中間答案,比如在六點量表中出現大量“3,4,3,3,4,4,4,3,3”模式的作答。

(4)順序作答。按照順序選擇答案,比如“ABCDABCD……”。

(5)完全隨機作答。在不努力作答時,每一個選項都有同等的可能性被不努力作答者選中(Huang et al.,2015),通常毫無規律。

為了研究不同指標對不同IER模式的適用性,針對以上五種不努力作答的模式,就其對應行為的表現特點進行了描述,并在給出了其操作定義見附錄表1。

對比每個指標識別出的不努力作答者和努力作答者,在不同模式所對應的操作定義中表現是否有顯著差異,從而判斷不同指標的模式適用性。采用指標MAD(α=0.05)、PS(α=0.05)、LongString(截斷值3,4,4,4,4)、IRV(α=0.01)、MD(α=0.01)、Even Odd(α=0.05)和lz(α=0.01)區分出的不努力作答群體和努力作答群體在五項行為上的表現,兩組群體的平均值和差值在附錄的表2中呈現,根據結果可知:

(1)對于連續相同作答,連續相同作答平均長度值越大,說明越容易連續選擇相同答案。LongString、IRV的識別效果較好,識別的出不努力作答者(IER組)的平均長度值較大,與未識別出的被調查者(安全組)相比差值顯著(p=0.025,cohen’sd=0.266;p=0.043,cohen’sd=0.223)。

(2)對于忽略相反題,同一維度下反向題(轉換成相同方向后)與正向題分得分方向相反,表明忽略相反題的可能性越大。MAD、PS、MD、Even Odd和lz標注出的IER組忽略相反題的次數更多,與安全組相比差值都顯著(p<0.001)。根據差值從大到小依次是MAD、MD、Even Odd、lz和PS(cohen’sd依次為1.589,0.604,0.528,0.547,0.403)。

(3)對于趨中作答,選擇“3”的頻率越高,說明趨中作答越明顯。IRV指標區分出的兩組群體趨中作答的頻次差異最大,IER組與另一組的差值為5.340(p<0.001,cohen’sd=1.493),說明IRV對趨中作答的識別效果較好。

(4)對于順序作答,作答數據中順序作答的數量會較多,說明其按照順序選擇答案的傾向就更明顯。IRV識別效果最佳,IER組與另一組相比差值為2.140(p<0.001,cohen’sd=0.558)。

(5)隨機作答模式中,以與平均發生率的差值為效標,通常量表中每個選項被選擇的頻次呈現一定的規律,比如中間選項被選的頻次通常較兩段的選項高一些,而完全隨機作答的數據不會呈現此規律,因此隨機選擇答案的被調查者的實際選項頻率和平均發生率的差值較大。其中差值較大的是IRV、LongString、MD、lz指標(p<0.001,cohen’sd依次為2.393,1.045,0.265,0.262)。

根據表3可知,IRV指標比LongString表現更好,在一定程度上可以替代LongString(Dunn et al.,2018)。在“忽略相反題”中,MD和lz有不錯的表現,因此可與IRV組合覆蓋全部IER模式,達到取長補短的效果。

表3 不同IER指標的適用情況

對不同方法效果之間的一致性進行分析,大部分指標之間的相關系數雖然顯著,但是識別效果的并不完全一致。根據表4可知,MD和lz之間呈現強相關(r=0.528,p<0.001),說明二者甄別結果比較一致,二者與MAD、PS和Even Odd呈現顯著正相關;IRV和LongString之間呈現微弱的相關(r=0.161,p<0.001),二者與其他指標的相關關系并不強,甚至IRV與lz和MD呈現微弱的負相關。

表4 同IER指標識別效果的相關系數

4.2 研究二不努力作答的識別及其對測驗信效度的消極影響

Herman和Hilton(2017)認為量表數據質量參差不齊,會對測驗工具各項指標的分析產生不可靠的影響。研究二假設刪除不努力作答數據之后,會對測驗分析提供更準確的工具指標分析結果。在過往的研究中HSQ被證明有較好的信效度,是一個穩定有效的測量工具(詹雨臻,陳學志,卓淑玲,& Martin,2011)。對回收的1071份數據進行分析,可知α=0.862,CFI=0.842,RMSEA=0.060,四個量表的平均相關系數r=0.278,與前人研究結果接近。接下來會以HSQ的數據為例,演示不努力數據清理的步驟,并比較清理前后的工具指標。首先,進行不努力作答數據的清洗。

第一步,通過主動偵查法,清理不努力作答。本量表沒有設置測謊題和陷阱題,只有自我匯報準確率,對于準確率不高于50%的數據進行清理;

第二步,通過過程數據清理無效作答。因為缺少作答時間的數據,只能考慮作答缺失,作答缺失在兩題及以上的被清理;

第三步,指標識別不努力作答。根據前面研究結果,考慮將IRV指標結合MD或lz指標,對不努力作答進行篩選,截斷值與前面一致。

值得注意的是前兩個步驟的方法對不努力作答的識別雖準確卻不夠敏感(Meade &Craig,2012),因此這里將在前兩步的基礎上結合第三步的指標對不努力作答進行識別,共有六種指標組合,組合1沒有加入任何指標,是“題目完成率+自我匯報準確率”,組合2是“題目完成率+自我匯報準確率+IRV”,組合3是“題目完成率+自我匯報準確率+MD”,組合4是“題目完成率+自我匯報準確率+lz”,組合5是“題目完成率+自我匯報準確率+IRV+MD”,組合6是“題目完成率+自我匯報準確率+IRV+lz”。

將原始數據分析得出的工具指標結果作為基線模型,比較六種組合下數據清理后各工具指標的與基線模型的差值。

根據表5可知與基線模型相比,各指標組合清洗后的數據所得內部一致性系數和CFI值基本上都更高,大部分組合的RMSEA均小于基線模型。大部分組合的量表平均相關系數也都高于總體。這說明清理了不努力作答數據之后,其描述測驗質量相關的各項指標在大部分情況下基本優于不努力作答的數據,工具的信度和效度的指標計算結果變得更好。

表5 數據清理前后的測驗工具各項指標平均數(無IER)

不同組合進行比較,組合2和組合6清理后的數據,計算得出的α系數、擬合指數和平均相關系數皆優于基線模型。說明題目作答率、自我匯報準確率、lz和IRV在對不努力作答數據清理之后,量表的信度、結構效度和同時效度都能得到更好的驗證。

5 討論和不足

除了介紹不努力作答的方法和類型,以及截斷值計算,與以往研究不同的是,對不努力作答的行為模式特點也進行了分類和分析,并在研究一中總結了多種識別指標擅長的不努力作答模式。結果表明IRV屬于比較綜合的指標,僅在忽略相反題的模式上表現不突出,因此可與在該模式表現較好的MAD、MD、lz等指標進行組合篩查。通過各指標識別效果的一致性分析,IRV和MD、lz呈現負相關,這可能是因為MD和lz主要針對無規律的不努力作答形式,而IRV和LongString則主要針對連續相近或相同作答這類有規律的不努力作答模式。因此,各指標對不同的不努力作答行為各有所長,應當將多個指標綜合使用取得最佳甄別效果。研究二演示了不努力作答數據清洗的步驟,結果表明多種方法組合清理后的數據質量更好,將題目完成率、自評認真程度、IRV和lz進行組合達到了較好的甄別效果。

不努力作答被認為會對數據分析結果產生消極影響。對比清理前后的作答數據,無不努力作答的數據分析結果顯示CFI更高,RMSEA更低,內部一致性系數更好,子量表之間的相關系數也更高。這反映出不努力作答數據對測驗工具的信度、結構效度的計算產生消極的影響。努力作答的數據會讓分析結果更加穩定,且能更好地擬合量表背后的理論結構,結果也更容易被解釋。

對不努力作答甄別方法進行歸納,如表6所示。建議在實際研究中進行不努力數據清洗時,可優先考慮主動偵查法和作答過程指標,因為這些方法是基于被調查者明確的行為,因此更有可靠性,比如作答時間極短的人是無法努力作答的。但這些方法對不努力作答模式不夠敏感,檢驗力有限。比如,由于作答者很容易察覺到預先設置的題目,導致方法失效,因此這類方法識別出的不努力作答者相對其他方法較少(Meade &Criag,2012);同時作答時間只能找出快速作答者,無法甄別出作答速度正常的不努力作答者。倘若缺乏這類信息或想增加檢驗力,可考慮使用多種IER指標對作答數據進行事后分析和清洗。

表6 不努力作答數據清洗方法總結與建議

根據表6可知,不同方法有各自的優缺點,建議結合多種方法和指標清理不努力作答數據,達到最佳清洗效果。建議采用“MD/lz+ IRV”指標組合進行甄別,在此基礎上也可以再考慮MAD、PS、Even Odd等指標作為補充。

本文主要存在以下兩方面的不足。首先,缺乏更加有效的效標對各指標的識別效果進行評估。不努力作答的成因復雜,很難用作答表現直接去解釋。在研究一中,5種行為僅能說明該被調查者有這樣的行為特征,卻不能直接說明這樣的行為特征完全是由不努力作答引起的,這是存在的局限。其次,根據被調查者自評的準確率可知,不同的被調查者作答認真程度并不相同,目前只是對不努力作答進行了“是”或“否”的區分,卻無法評估其不努力作答程度。在后續研究中,對以上兩個問題進行深入探討是有必要的。

6 小結

對不努力作答的常用指標進行梳理,通過一個實際的量表對不努力作答程度以及其消極影響、各指標的具體表現進行了數據分析和探討,得出以下三個結論:

第一,針對不同的不努力作答行為,不同指標識別效果的并不一致,這反應出不同指標在甄別不同IER行為的效果各有所長。

第二,不努力作答會對數據分析結果產生消極影響,不努力作答的數據會導致信度、效度等指標計算結果變差。

第三,針對心理量表的數據,建議綜合采用多種方法和多個甄別指標對不努力作答被試進行識別和清理。