?

作為數學教育研究質量分析的效度

2020-04-08 04:57華中科技大學附屬中學430074玉華中師范大學數學與統計學學院430079徐章韜
中學數學研究(江西) 2020年1期
關鍵詞:內容效度效度信度

華中科技大學附屬中學 (430074) 梁 玉華中師范大學數學與統計學學院 (430079) 徐章韜

1.引言

對于定量取向的數學教育研究而言,效度分析作為研究中不可缺少的一環,是衡量研究成敗優劣、標志研究科學化水平的最重要指標,反映了一項研究的真實性與準確性程度.在數學教育教學過程中,要研究學生的學習態度、認知策略、“四基”掌握情況等,常使用教育測量研究(包括學業成績的測驗等).縱觀歷史發現,教育測量的思想和實踐在我國由來已久,我國古代考試制度便是現代教育測量的先河.近代以來,教育測量研究的重點則放在編制教育測量的工具—測驗,和評價測量結果的工具—評價所應參照的標準等科學原理和方法上,“量表”一般是包括這兩種工具在內.[1]教育測量走向客觀化、科學化是其必然趨勢,與此同時,也對作為教育測量結果的質量分析的核心指標——效度提出了更加客觀化、精確化、科學化的要求.在測量研究中,效度往往與研究的目的密切相關,一項研究所得結果必須符合其目的才是有效的,根據人們對研究目的解釋角度的不同,形成了諸如內容效度、構想效度、效標關聯效度等系列概念.這些效度概念分別是用以解決何種矛盾的,其內在關聯性如何,本文將說明這一問題,闡述效度在數學教育研究數據處理中的原理和應用.

2.全方位認識效度

伴隨著測量理論和實踐的發展,效度由一個單一概念發展為一個內涵豐富的多維概念系統.由于效度是就測量結果達到測量目的的程度而言的,所以效度問題的兩個根本方面是測量什么和測量程度,從不同角度進行考察,可以得到不同類型的效度.

2.1 從變異角度認識效度——理論定義

由信度與效度的理論定義公式可以看出,Val≤ρXX,信度高,效度不一定高;效度高,往往信度一定高,因此高信度是高效度的必要不充分條件.關于信度與效度的關系可理解為,在教育測量中,既要求施測的準確可靠,又要求工具的切實有效[1],有效的工具還需方法的嚴格配套,方能使教育測量精準見效.但信度的高低不能決定效度的高低,信度高,效度卻不一定高,信度低,效度更不可能高.

2.2 從效用角度認識效度——效標關聯效度

早期的心理測量學認為,測量就是要盡可能準確地估計變量的價值,而要判斷這種估計的準確性程度就需要“效標”——效標被假定能夠提供變量的“真正的”價值,于是就產生了效標關聯效度,即測驗與某種獨立的外在效標——“標準測驗”之間關系的程度.效標是指能顯示或反映所欲測屬性的變量,是考察檢定測驗效度的一個參考標準,其本身具有良好的信度和效度,如標準化的學業成績測驗、人格測驗等.根據測驗分數和效標分數獲得時間的差異,效標關聯效度可以分為同時效度和預測效度.預測效度是指測驗分數與未來的效標之間的相關程度,多用于預測將來的結果,如利用美國的學業成績測驗(SAT)來選拔接受高等教育的學生,該測驗的效度如何,就要通過其效標——即學生進入高等學校后學習情況——來加以驗證.同時效度是指測驗分數與現有效標分數之間的相關程度,常用于診斷現在的狀態.效標關聯效度常常用于局部效度的研究,即比較強調情境具體化時測驗的效度.

效標關聯效度的估計方法一般有相關法、區分法和命中率法.相關法是估計效標關聯效度最常用的方法,計算測驗分數與效標資料的相關系數,作為測驗的效度系數.如果效標分數是連續變量,則計算測驗分數和效標分數之間的皮爾遜積差相關系數;如果效標分數是離散變量,則計算測驗分數和效標的等級相關系數.區分法是將測驗分數按效標分數線分為成功組與失敗組,再考察兩組之間的差異是否顯著,差異顯著則說明具有較高的效度,也可分析成功組與失敗組分數分布的重疊量,重疊量百分比越低效度越好.當用測驗分數作為決策依據時,常用四格相關系數求取效度系數,即命中率法,決策的總命中率和正命中率是測驗有效性的良好指標,具體關系見表1:

表1測驗命中和失誤的四種情況

效標測驗 失敗成功成功A(失誤)B(命中)失敗C(命中)D(失誤)

然而,效標關聯效度也存在一定的局限.在很多情況下,測驗很難隨時找到合適的效標,因為效標的值同樣需要驗證.這樣,所謂的效標驗證就容易成為一個無限循環的、沒有結果的過程.另外,預測效度依賴于不能與測驗分數同時獲得的未來表現的指標,不能直接驗證推斷,因此對于錄取、雇傭和認證等情境中基于數據的決策是不充分的.[2]

2.3 從內容域角度認識效度——內容效度

鑒于效標關聯效度容易陷入循環論證的僵局及預測效度的理想化,人們開始尋求替代物,目光逐漸聚焦于測驗內容對內容領域的代表性,也即測驗題目的要求反映表現領域內容的程度,即所謂的內容效度.內容效度是指實際測量內容與所要測量的特定的行為域之間的關聯度,即測驗所用的測題對整個內容范圍是否有很好的代表性,分配比例是否恰當.如對一個一般數學能力測驗來說,一個包含加減法題目的測驗顯然優于一個包含體育項目的測驗,一個包含加減乘除題目的測驗顯然優于一個只包含加法題目的測驗,一個包含加減乘除題目且各部分題量均衡的測驗顯然優于一個包含加減乘除題目但絕大多數題目是加法題目的測驗.[3]因此要具備較高的內容效度,就得要求測驗的內容域明確、內容取樣要具有較高的代表性.

內容效度的估計方法一般有邏輯分析法和統計分析法.運用邏輯分析法時常采用專家評定的方法來估計內容效度,評估程序一般為:界定和描述內容域——將每個測驗項目對應的內容域確定下來——將測驗結構與內容域結構相比較得出定性評判結論.統計分析法可分為復本相關法、評分一致性考察法、前后測比較法.復本相關法是從同一個內容域總體中抽取兩套獨立的平行測驗,用以測試同一批被試,求其相關性,若相關系數大,則提供了支持內容效度的證據;評分一致性考察法是將內容域使用評定量表的方式進行評價,一方面將結果以量化指標表現,另一方面減少了不同判斷者之間的差異;前后測比較法是指對同一批被試用兩個復本在內容教學前后實施測驗,測驗內容效度可由兩次測驗成績差異的顯著性來判斷.

內容效度對學績測驗和職業選拔測驗比較適用,因為這些領域的內容域比較容易確定.然而,對于內容域的界定不清楚的情形,內容效度是不適用的,如對能力傾向測驗和人格測驗.內容域的難以界定直接導致了缺乏嚴格量化的統計方法來評估內容效度,對內容效度的評估仍是以主觀評估為主.

2.4 從結構角度認識效度——構想效度

內容效度通常由專家(通常是測驗編制者)來判斷,不可避免具有主觀性;并且對所測量領域內容的界定也經常存在分歧,難以達成共識,內容效度也就難以確定.由于存在高度主觀性和強烈的確定性偏見,內容效度的概念為公眾所詬病,因此順應時代需求,結構效度應運而生.結構效度指測驗能夠測量到某一理論構想或心理特質的程度.結構效度涉及一個測驗對一些未加“操作性定義”的品質或特性的測量.

因此,因素分析的關鍵是進行探索性因素分析找尋共同因素,求出因素負荷矩陣A,每個測驗在共同因素上的因素負荷aij就是測驗的因素效度,可以轉化為求解相關系數rij(即測驗與各因素的相關),測驗分數總變異中來自有關因素的比例就是該測驗結構效度的指標.而后,再經由驗證性因素分析對所得量表進一步驗證,此時往往需要重選被試施測,將數據用結構方程模型軟件處理,根據計算數據可以得到量表的結構效度,同時可以調整以使結構最優化.因素分析對矩陣運算有較高的要求,需要計算測驗的相關系數矩陣、再生矩陣、再生矩陣的最大特征根、變量共同度的估計、共同因素個數的確定、因素負荷矩陣進行旋轉變換等,[4]當然,也可通過相關統計軟件(如SPSS)完成此過程.

多特質-多方法矩陣法(MTMM)主要考慮兩個問題:其一,使用不同方法測量同一成分,結果的相關性高則稱測量具有聚斂效度,關鍵是“求同”、“收斂”;其二,用同種方法測量不同成分,結果的相關性低則稱具有判別效度,核心在于“求異”、“區別”.可見,MTMM的技術支持也是相關分析,將所得數據置于矩陣內進一步分析處理,就能判斷測驗的結構效度的高低,如果一個測驗既具有聚斂效度又具有判別效度,則該測驗具有較高的結構效度,它們是結構效度的重要指標.

3.效度的多維性

效標關聯效度、內容效度、構想效度是主要的三類效度指標,通常被認為是效度的三位一體,是效度理論的主流觀念.各種效度的區別在于各自強調的方面不同:內容效度提供了關于測驗內容域方面的信息,要驗證的是測驗對完善理論的匹配程度;構想效度反映了測驗與其所依據的理論或概念框架的符合程度,是對不完善理論的探索和驗證;與前兩者相比,效標關聯效度側重反映的是研究工具與其他測量標準之間的關系,關心依據測驗做出決策的問題(做出預測的后果和效用).一個測驗可以有多種效度,每種效度根據使用者的具體目的而定,但各種效度又是相互聯系和補充的,內容效度和構想效度既是效標關聯效度的保證,又須得到它的支持.考察內容效度和效標關聯效度又有助于確定構想效度.對于效度概念,三個側面各有所長卻也各有不足,宜有一個全面整體性的認識,既要“尋求外部參照”(效標關聯效度),又要“關注內部解釋’(結構效度和內容效度),一個好的理論既要有內在的完備性,又需外部的證實.

4.結語

在教育測量叱咤風云的現代,效度作為反映測量質量好壞的核心指標,其決定著測量的真實性、有效性和可推廣程度.如今,效度分析在數學教育領域應用廣泛,如數學學習態度量表、高考數學試卷質量分析、國際PISA測試質量分析等,一方面可以評價已有測驗的質量優劣,另一方面也可以為今后測驗的改良提供參照,確實保證測驗的有效性.不僅如此,效度分析在社會科學領域的應用也越來越廣泛,如結構化面試和人員選拔決策等.這體現了數學的擴張性和輻射性,須充分理解效度的原理和內涵以對各種測量研究的數據進行有效性分析,把好“質量”這一關!

猜你喜歡
內容效度效度信度
作為數學教育研究質量分析的信度
來華留學生對全英文授課教學服務滿意度量表的信度和效度分析——以昆明醫科大學為例
COSMIN方法介紹:評價患者報告結局測量工具內容效度的評分系統
問卷是否可信
——基于體育核心期刊論文(2010—2018年)的系統分析
Beep test評估11~15歲少年游泳運動員有氧能力的效度研究
談高效課堂下效度的提升策略
巧用模型法提高科學課堂教學的效度
英語專八閱讀理解部分內容效度的歷時對比研究(2009—2017年)
大學英語新四級閱讀理解內容效度研究
語言測試效度研究的另一視角:考試的因子結構研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合