作為數學教育研究質量分析的信度

2021-07-24 11:13華中科技大學附屬中學430074華中師范大學數學與統計學學院430079徐章韜

中學數學研究(江西) 2021年7期

華中科技大學附屬中學 (430074) 梁玉華中師范大學數學與統計學學院 (430079) 徐章韜

1.引言

一件合格產品的問世必須經過上百道工序的錘煉、全方位品質監控體系的檢測，同樣地，做教育實證研究，不可缺少的一環是對研究進行“質量把關”，一項好的研究必須是穩定可靠的，多次使用獲得的結果應前后一致，這是教育研究得以推廣使用最基本的前提.在教育研究中，誤差不可避免，但大小有所不同，我們總是盡力縮小隨機誤差到可接受的程度，從而使得研究結果更準確可靠.一項研究結果的穩定性和一致性如何、可靠性有多大、能在多大的程度上保證研究工具的精密是研究中最不容忽視的基本問題，這個問題即是研究的信度.不同研究的信度可能存在高低程度上的不同，教育實證研究應當追求更高的信度以保證得出研究結論的客觀性、科學性和可推廣性.本文將揭示信度理論的原理，從信度的理論定義走向操作定義，并作進一步細化，從平行測驗的獲得方法重復施測、復本替代及等值分半等得到數學教育研究中的不同信度類型，深化對信度概念的理解，以期更有效地做好數學教育定量實證研究.

2.全方位認識信度

2.1 從誤差角度——理論定義

2.2 從相關角度——操作定義

既然真分數無法直接求解，不妨以退為進，設法找一些可以實際獲得的已知量來代替信度公式中的未知量，由于實測分數是實驗過程中唯一可直接獲得的資料，做法是從實測分數出發來定義信度，使信度變得實際可操作.理論上看，同一組被試在兩平行測驗上的實測分數是相同的，然而在實際研究中，同一組被試在兩平行測驗上實測分數往往存在差異，這種差異正是由測量誤差決定的，如果兩個實測分數高度接近，可以推論測量誤差很小，測量是可靠的.因而，一個合乎邏輯的想法是用兩個平行測驗實測分數之間的相關來定義信度，間接來推論測驗控制誤差的能力，該定義具有可操作性.

從相關角度來看，信度是通過計算兩平行測驗得分的相關系數得到的，信度系數介于-1到1之間，信度系數越大，測驗越可靠.如果信度為負值，說明在一個平行測驗中得分高的被試在另一個平行測驗中得分低，當然這種情況很少出現，信度系數一般介于0到1之間，不同目的的測驗對信度系數的要求不同，例如一般標準學業成績考試要求信度在0.90以上，標準智力考試的信度應達到0.85以上，個性考試和興趣考試則較低，達到0.70-0.80即可.用相關法評估信度，用一個0至1之間的數，依據數值的大小刻畫研究的效度高低，這種方法可操作性很強，關鍵點和難點就在于平行測驗的獲得.

2.3 平行測驗的獲得——三種方法

要從操作層面得到測驗的信度指標，就要求得兩平行測驗的相關性，前提是存在兩組平行測驗，可以說，解決信度問題的能力就取決于獲得平行測驗的能力.平行測驗測的是同一被試屬性，要求對同一足夠大的被試施測后，這些實測分數的平均數和方差都相等，且所有測驗與其他任一測驗的相關也相等.這是按照統計學方法進行檢驗，在數學教育研究中，我們還應對測驗內容進行分析.

(1)從時間變量來看——重測信度

如果一個測量工具和所測屬性是穩定可靠的，那么測量結果應當不以時間為轉移，前后一致.從這個角度出發，用同一測驗對同一組被試在不同時間重復實測兩次，測驗的形式和內容相同，就得到一組平行測驗，計算兩次實測分數的相關系數得到測驗的信度，稱為重測信度.根據重測信度的高低，可以得知測驗結果跨時距的穩定性程度，因此重測信度也成為穩定系數.例如，為了考察學生對學習數學的興趣，就需要確定一定時間間隔，在使用某種教學方式前后分別對學生進行施測，考察兩次實測分數之間的相關性，即求重測信度是獲得平行測驗最簡單的方法，然而由于使用的是同一套測驗，形式與內容完全一樣，測驗結果不可避免地受到練習和記憶的影響，加之時間間隔的確定不太容易，因此重測信度存在明顯的局限性，測量誤差較大.

(2)從功能等值來看——復本信度

為了避免使用同一測驗重測帶來的記憶效應和練習效應，一種自然的想法是使用兩個功能相同的測驗對同一組被試對象進行施測，計算兩個版本得分的相關系數，這種類型信度稱為復本信度.復本信度系數越高，表示兩個版本的實測分數基本相同，可以相互替代；復本信度系數低，則說明兩版本的實測分數不一樣，不能互相替代.例如，在許多正規考試中，都會出A、B兩套試卷，B卷作為備用卷，其功能在誤差允許范圍內與A卷是等值的.考察兩個版本試卷的功能是否等同，就需要求出A卷得分與B卷得分的相關系數作為兩個版本在功能上的等價程度，即復本信度.在可以被接受的信度范圍內，兩套試卷互為復本，相互替代，以備不時之需.

實際上，復本信度的高低反映了兩個互為復本的測驗在效能上的等價程度，而不是直接反映一個測驗本身受隨機誤差影響的大小.通常要求兩個版本在題目內容、形式、題數、難度等方面保持一致，這樣才能保證整體測驗的效能類似，從而提高復本信度系數，因此復本信度也成為等值系數.然而，在教育研究中，兩個測驗具體的項目難以保證“平行等值性”，內容抽樣和難度匹配難以做到嚴格等同，并且編制兩份復本測驗所花費的人力物力成倍地增加，成本很高.

(3)從內部屬性來看——內部一致性信度

重測信度和復本信度都需要前后施測兩次，且復本信度還需要兩種形式的測題.為了減少時間和成本損耗，循著使用單一形式測驗只施測一次的思路，不妨從測題內部的一致性著手考察測驗的信度，這樣得到的信度稱為內部一致性信度或同質信度.如果測驗內部各測題間相關一致性強，則認為是同質的，說明測驗的所有成分都在集中力量考察同一屬性，那么內部一致性信度就高；相反地，各測題相關較低，則認為測驗為異質的，測驗的內部一致性信度就低.

內部一致性信度擺脫了傳統上信度系數的定義——用兩平行測驗向同一組被試前后施測兩次獲得兩批實測分數的相關性，另辟蹊徑，從內部屬性角度出發，用單一形式測驗只施測一次求出信度系數，其原理還是使用了平行測驗，具體獲得平行測驗的方法如下：

從分半信度到α系數和KR-20公式，這一大類單一形式測驗內部一致性信度都考察測驗的組成成分，直至最基本的單位即項目之間的相關性.如果它們的相關一致性強，說明測驗的所有成分都集中于考察同一屬性特征，這樣測驗的信度系數取值高，測驗質量好.內部一致性信度在操作上采用了單一形式測驗，但本質上仍是求取平行測驗間分數的相關，因而與重測信度系數和復本信度系數一樣，都是一組實現平行性要求的策略和方法.從內部屬性角度考察獲得平行測驗的方法，還能從信度和效度兩方面說明問題.它從信度與效度的關系角度提出了對測驗量表內部一致性檢驗的思路，效度從根本上受到信度的限制，如果一個測量量表是有效的，這個量表就必須是前后一致的.

重測信度、復本信度、內部一致性信度是主要的三類信度指標，用來對研究質量進行分析各有優點和特殊適用范圍，嚴格地說，都是信度系數的大體估計值.一般地，內部一致性系數大于復本信度，復本信度大于重測信度，復本信度和重測信度兩種估計方法中，屬于測量誤差的因素多與內部一致性信度.在具體操作中，用來估計信度的方法應當與研究的目的相吻合，有時還需把幾種方法加以綜合應用，貫穿統一起來，使得在真分數理論的框架下，獲得對信度完整透徹的理解和運用.

3.教材尋根

數據是數學教育實證研究的命門，沒有量化數據的支撐何談研究的客觀、可靠、有效、可推廣.然而從“量”的角度客觀還原事物本質的同時，不可避免地會產生隨機誤差，使得研究信度大大降低.因此無論是數學教育研究還是概率統計相關知識的中學數學教學，都會強調控制隨機誤差，確保所獲得資料的準確性和可靠性，提高研究的信度.

鑒于信度原理的復雜性，信度在中學概率統計部分的體現，遠遠不如方差分析、相關系數、回歸分析這般明顯，但教材中對信度概念的處理、信度思想的滲透在細微處可見一斑.例如教材中統計部分，用樣本估計總體所提及到抽取樣本，三種抽樣方法往往只有“好壞之分”，而不是“對錯之分”，評價抽樣方法的優劣應該以樣本的代表性為標準，為了使樣本具有代表性，抽樣規則應客觀、公正，保證總體中每個單元被抽中的概率相等，因此等可能性是三種抽樣方法賴以存在的前提和根本，這樣的抽樣結果才客觀公正、不失代表性，提高了研究的信度.再如教材中概率部分，頻率在大量重復試驗的前提下可以近似地作為這個事件的概率，這就是頻率與概率的關系，而“大量重復試驗”正是為了減少隨機誤差，提高了研究的信度，保證了試驗結果——概率的精準與合理，概率從數量上反映了隨機事件發生可能性的大小.統計與概率關系密切，理性和嚴謹是數學學科的特點，借助概率知識，通過邏輯分析和運算過程，讓三種抽樣方法的“等概率性”變得有理有據，促進學生進一步體會抽樣規則的科學、合理之處，減少隨機誤差和偶然，保證研究的高質量.