?

基于數理統計方法的水質總氮校準曲線殘差值檢驗

2024-01-29 13:18楊玉鳳
云南化工 2024年1期
關鍵詞:檢驗法正態正態分布

楊玉鳳

(昆明滇池水務環境監測有限公司,云南 昆明 650200)

在化驗檢測的實踐過程中,最重要的一點是要采取有效措施保證所得到的數據和資料的可靠性?,F代化驗檢測工作中,絕大多數使用儀器分析方法,一些儀器需要建立分析信號與分析物量值(質量或濃度)之間的相關關系,即建立校準曲線。其中,確保用于建立校準曲線數據的可靠性是儀器分析獲得準確定量分析結果的前提條件。

校準曲線的擬合是建立在回歸分析的理論基礎上,通過最小二乘法估計其參數。采用普通最小二乘法擬合校準曲線應滿足以下假設條件[1-2]:①正態性假設,即其因變量y的隨機誤差項εi服從均值為0,方差為σ2的正態分布;②獨立性假設,即其因變量y的隨機誤差項之間相互獨立,滿足COV (εi,εj)= 0(i≠j);③同方差性假設,即其因變量y的隨機誤差項εi的方差都相同。

由于校準曲線估計結果的正確性與可靠性需建立在一系列假定基礎之上。為此,本文從工作需要出發,利用實際工作中所得數據,結合文獻資料,以水質中總氮測定為例,著重對校準曲線殘差值各假定條件的檢驗方法進行探討。

1 材料與方法

1.1 儀器與試劑

TU1810PC紫外可見分光光度計(北京普析通用儀器有限公司),用于水質總氮的測定。

硝酸鹽氮溶液(102119#):證書號GSB 05-1144-2000,500 mg/L,相對擴展不確定度2%,k=2,環境保護部標準樣品研究所提供。

1.2 實驗方法

總氮檢測方法依據為 HJ 636—2012《水質 總氮的測定 堿性過硫酸鉀消解紫外分光光度法》[3]。

2 數據的收集及檢驗

2.1 數據收集

依據GB/T 22554—2010《基于標準樣品的線性校準》[4]規定:①每個標準樣品應至少測量2次(建議實際中盡可能多次重復);②所有標準樣品的重復測定數應相等;③重復測量所用時間和條件的覆蓋范圍應盡可能放寬,以確保所有操作條件的代表性。

本文數據來源于2022年內對總氮項目不同質量濃度硝酸鹽氮標準使用液進行k=6次測定,數據收集結果見表1。各曲線點一年內累計的殘差值,結果見表2,殘差值樣本量n=48。

表1 各質量濃度點6次測定所得數據及曲線擬合

表2 殘差值匯總

2.2 正態性檢驗

一般情況下,如果因變量的隨機誤差項εi是由許多微小的獨立隨機因素影響的結果,那么就可以認為εi具有正態分布。

一般檢測中,在進行校準曲線的擬合時,總是假定數據來源于正態總體,但此假定是否成立,需要對測得數據進行正態性檢驗。本文將介紹QQ圖法,該方法可直觀的判斷數據分布是否近似于正態分布,同時介紹AD法,該方法通過計算出檢驗統計量 A2*來檢驗數據是否服從正態分布。

2.2.1 QQ圖法

對應于正態分布的QQ圖,是由標準正態分布的(修正)分位數為橫坐標,樣本值為縱坐標繪制而成的散點圖。要利用QQ圖鑒別樣本數據是否近似于正態分布,只需看QQ圖上的點是否近似地在一條直線附近[5]。本文操作步驟為[6]:①將殘差值按升序j排列;②計算P(Z)=(j-0.5)/48; ③根據P(Z)值,通過Excel函數“NORM.S.INV”求出標準正態分布的(修正)分位數Zj,列于表3中;④依據表3的數據,以Zj為橫坐標,eik為縱坐標繪制圖1。由圖1看出,各點近似地在一條直線附近,說明該樣本殘差值服從正態分布。

圖1 QQ圖

2.2.2 AD檢驗法

AD檢驗是正態性檢驗的一種,能夠在較小樣本(n>5)的情況下,對數據正態性進行檢驗。其原理是通過計算樣本分布函數(CDF)和經驗概率密度函數(EDF)之間的二次 A-D 距離來衡量樣本是否屬于某一特定分布族[7]。本文操作步驟為:①假設該樣本殘差值服從正態分布(原假設H0);②將殘差值eik按照升序j排列為ej;③計算殘差值的均值和方差;④計算累計分布函數F(ej);⑤通過公式(1)計算A2;⑥通過公式(2)計算修正過的檢驗統計量A2*;⑦查AD檢驗臨界值表,如果A2*>0.752就可判定在 5%的顯著性水平下拒絕正態性假設,如果A2*<0.752,就可判定在 5%的顯著性水平下不能拒絕正態性假設。用于計算A2的數值見表4,最終結果為A2=0.3527,A2*=0.3586,小于0.752,可判定在5%的顯著性水平下不能拒絕正態性假設,此結論與繪制QQ圖所得結論一致。

(1)

表4 AD檢驗計算數據

(2)

2.3 獨立性檢驗

本文將介紹圖示檢驗法,該方法可直觀地對數據獨立性進行判斷。同時介紹DW檢驗法,該方法通過計算出檢驗統計量DW值,從而檢驗數據是否存在序列相關。需要注意的是,回歸模型中殘差值之間出現自相關現象,指的是殘差值前后期數值之間的相關關系[2]。

2.3.1 圖示檢驗法

圖示檢驗法是一種直觀的診斷方法。本文操作步驟為:①將殘差值eik按測定時間t的先后順序進行排列,以表5中的et表示;②依據表5中數據(et,et-1)繪制圖2。如果大部分點落在第1、3象限,表明殘差值存在正的序列相關;如果大部分點落在第2、4象限,表明殘差值存在負的序列相關[2]。圖2中大部分點落在1、3象限,但也有部分點落在2、4象限,初步推斷殘差值存在正的序列相關,需進一步通過DW檢驗進行驗證。

圖2 (et,et-1)散點圖

表5 (et,et-1)數據

2.3.2 DW檢驗法

DW統計量只可檢驗殘差值具有一階自回歸形式的序列相關。本文操作步驟為:①假設殘差值不存在序列自相關(原假設H0);②應用表5中數據,通過公式(3)計算得ρ值為0.561,通過公式(4)計算得DW值為0.877;③根據樣本量為48,解釋變量數目為2,在5%的顯著性水平下查DW分布表,確定檢驗臨界值dL為1.49>0.877;④查DW檢驗判別表[8],當0

(3)

DW≈2(1-ρ)

(4)

2.4 同方差性檢驗

異方差是與同方差相對而言的,同方差即是指線性回歸模型的隨機干擾項的方差全部等于一個有限的常數,而異方差現象可表述為線性回歸模型中隨機干擾項的方差不再是某一相等的常數,而是隨著觀察點的變化而變化[9]。

對異方差的檢驗,本文將介紹殘差圖法,該方法可對異方差現象進行直觀判斷。同時介紹等級相關系數法,該方法通過計算出等級相關系數,隨后計算t統計量,從而檢驗數據是否存在異方差現象。

2.4.1 殘差圖法

殘差圖反映出的現象一般非常簡單、直觀,但因每個人的主觀判斷不同,殘差圖只能作為一種非正式的檢驗方法。本文操作步驟為:①依據表2中數據,以殘差值eik為縱坐標,以自變量xi為橫坐標繪制散點圖,得圖3。②根據各點的分布情況判斷是否出現異方差現象,如果校準曲線殘差值eik存在異方差性,殘差圖上各點的分布會呈一定的走勢,例如殘差eik的值隨xi值的增大而增大(或減小),呈現出明顯的規律。由圖3看出,隨xi值的增大圖中各點的離散程度有增大的趨勢,說明有可能存在異方差現象,但需進一步使用等級相關系數法進行驗證。

圖3 殘差圖

2.4.2 等級相關系數法

等級相關系數法使用的是非參數檢驗方法[10],其思路是將異方差性與擾動項εi和自變量xi之間的相關程度掛鉤[11]。由于擾動項無法觀測,就用殘差值eik代替。本文操作步驟為:①取eik的絕對值|eik|,把數據對(xi,|eik|)按序號j排列于表6中。②通過EXCEL函數“RANK.AVG”,分別計算xi,|eik|的等級秩次axi、beik。③在xi與|eik|中無相同秩次的情況下,按式(5)計算等級相關系數;在xi與|eik|中有相同秩次的情況下,按式(6)~(8)計算等級相關系數[12]。④由于本文中xi與|eik|中有相同秩次,應用表6中數據按式(6)~(8)計算等級相關系數,得rs校正=0.402。⑤假設殘差值eik與自變量xi之間無相關(原假設H0)。⑥對等級相關系數rs校正進行顯著性檢驗,按照式(9)計算得t=2.98,查t分布臨界值表,t0.025,46=2.32,得t>t0.025,46,拒絕原假設,說明該樣本殘差值存在異方差現象。等級相關系數法的檢驗結果對殘差圖檢驗法的判斷結果進行了有效佐證。

(5)

表6 等級秩次數

(6)

(7)

(8)

(9)

備注:axi為的等級秩次;beik為|eik|的等級秩次

3 討論

3.1 正態性假設相關問題

采用普通最小二乘法擬合校準曲線,在其它假定條件滿足時,非正態性對最小二乘法估計和總變異的分解影響不大,其結果仍是最優線性無偏的,但將對參數估計值的著顯性檢驗和置信區間的估計帶來影響[13]。若檢驗發現因變量y的隨機誤差項εi不服從正態分布,通常采用對因變量y進行變換的方法,將其數據轉換成正態分布。但同時需注意,在數據轉換時已將數據蘊含的原始信息進行了改變,由此得到的曲線回歸結果,其參數的解釋意義已和變換前有所不同。

3.2 獨立性假設相關問題

一個線性回歸模型的隨機誤差項εi存在序列相關時,如果仍然使用普通最小二乘法估計未知參數,將會產生如下后果[2]:①參數的估計值不再具有最小方差線性無偏性;②均方誤差(MSE)可能會嚴重低估誤差項的方差;③容易導致對回歸方程進行檢驗的F檢驗和t檢驗失效;④最小二乘估計量對抽樣波動非常敏感;⑤利用回歸模型進行預測和結構分析將會帶來較大的方差甚至錯誤的解釋。當線性回歸模型的隨機誤差項εi存在序列相關性時,需要查明引起隨機誤差項εi產生序列相關性的原因:如果是因回歸模型選用不當,則應該改用適當的回歸模型;如果是因缺少重要的自變量,則應該增加自變量;如果以上兩種方法都不能消除隨機誤差項εi的序列相關性,則需采用迭代法、差分法等方法進行處理。

3.3 同方差性假設相關問題

一個線性回歸模型的隨機誤差項εi不滿足同方差性,即存在異方差現象時,仍使用普通最小二乘法估計回歸參數,將會出現的問題[2]:①參數估計雖然是無偏的,但不是最小方差線性無偏估計;②參數顯著性檢驗失效;③回歸方程應用效果不理想。線性回歸模型的隨機誤差項εi存在異方差性現象時,可采用以下兩種方法進行處理:①對因變量y作適當的變換,使方差趨于穩定。這是由于因變量的變化范圍愈大,隨機誤差項εi的異方差性一般也愈明顯,因此,采用適當形式縮小因變量y的變動幅度,可在一定程度上消除異方差性[14]。②使用加權最小二乘法進行校準曲線擬合。

3.4 校準曲線擬合優度檢驗相關問題

由于在實際檢測過程中,線性校準曲線兩端,即高濃度和低濃度范圍內有時會出現不同程度的彎曲,影響校準曲線預測的準確性,因此需要對該現象進行檢驗,即進行校準曲線擬合優度的檢驗,從而確定校準曲線的直線范圍。GB/T 22554—2010《基于標準樣品的線性校準》[4]介紹了通過建立方差分析(ANOVA)表的方式,對校準曲線擬合優度進行檢驗。同時提到隨機誤差項εi的正態性及獨立性影響到方差分析法的有效性。因為對單因素多水平設計定量資料進行一元方差分析的前提條件是定量數據應具有獨立性、正態性和方差齊性[15]。因此,對校準曲線擬合優度進行檢驗前,需對該曲線隨機誤差項εi的獨立性、正態性和方差齊性進行驗證,以保障校準曲線擬合優度檢驗的可靠性。

4 結論

一般檢測過程中人們重點關注校準曲線的判定系數,本文中校準曲線判定系數r2=0.9997,已滿足相關標準[3]要求,但由上文檢驗結果可以了解到該曲線殘差值滿足正態性,不滿足獨立性和同方差性,而不滿足相關假設條件將會產生一系列不良后果。故檢測工作中,檢測人員在采用普通最小二乘法擬合校準曲線時,應考慮到應用普通最小二乘法的前提假設條件是否滿足,不能盲目默認相關假定條件成立,應將數理統計理論與化驗檢測實際相結合,保障曲線擬合的可靠性。同時,應該注意到對相關假定條件進行檢驗時,圖示檢驗法一般比較簡單直觀,但存在各人主觀判斷差異的問題,而通過計算統計量值的方法,可以得到定量的判斷依據,避免了因主觀判斷引起的誤差。

猜你喜歡
檢驗法正態正態分布
PCR 檢驗法和細菌培養法用于陰道細菌檢驗的效果
基于對數正態分布的出行時長可靠性計算
雙冪變換下正態線性回歸模型參數的假設檢驗
正態分布及其應用
基于泛正態阻抗云的諧波發射水平估計
正態分布題型剖析
半參數EV模型二階段估計的漸近正態性
χ2分布、t 分布、F 分布與正態分布間的關系
基于正態變換的貸款組合定價模型構建及實證
關于協方差的U統計量檢驗法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合