1.3 水质分析结果的误差分析及数据处理
1.误差的概念
水质监测需要借助于各种测量方法去完成。由于被测量的数值形式通常不能以有限位数表示,又由于认识能力的不足和科学技术水平的限制,测量值与它的真值并不完全一致,这种矛盾在数值上的表现即为误差。任何测量结果都具有误差,误差存在于一切测量的全过程中。所谓真值是指在某一时刻和某一位置或状态下,某量的效应体现出的客观值或实际值。
2.误差的成因
误差按其性质和产生的原因,可以分为系统误差、随机误差和过失误差。
(1)系统误差。系统误差又称可测误差、恒定误差或偏倚误差,指测量值的总体均值与真值之间的差别,是由测量过程中某些恒定因素造成的。
在一定的测量条件下系统误差会重复地表现出来,即误差的大小和方向在多次重复测量中几乎相同。因此,增加测量次数不能减少系统误差。
(2)随机误差。随机误差又称偶然误差或不可测误差,是由测量过程中各种随机因素的共同作用造成的。
随机误差是由能够影响测量结果的许多不可控制或未加控制的因素的微小波动引起的,如测量过程中环境温度的波动、电源电压的小幅度起伏、仪器的噪声以及分析人员判断能力和操作技术的微小差异及前后不一致等。因此,随机误差可以看作是大量随机因素造成的误差的叠加。
(3)过失误差。过失误差又称粗差。这类误差明显地歪曲测量的结果,是由测量过程中犯了不应有的错误造成的,如器皿不清洁、加错试剂、错用样品、操作过程中试样大量损失、仪器出现异常而未被发现﹑读数错误﹑记录错误及计算错误等。过失误差无一定规律可循。
3.减少误差的办法
(1)减少系统误差。
1)进行仪器扫描。测量前预先对仪器进行校准,并将校正值应用到测量结果的修正中去。
2)进行空白试验。用空白试验结果修正测量结果,以消除由于试剂不纯等原因造成的误差。
3)进行对照分析。一种是采用标准物质与实际样品在同样条件下测定,当标准物质的测定值在其允许误差范围内时,可认为该方法的系统误差已消除;另一种是采用不同的分析方法,以校正现在所使用分析方法的误差。
4)进行回收试验。用人工合成的方法制得与实际样品组成类似的物质,或在实际样品中加入已知量的标准物质,在相同条件下进行测量,观察所得结果能否定量回收,并以回收率作为校正因子。
(2)减少随机误差。减少随机误差必须严格控制试验条件,按照分析操作规程正确进行各项操作。此外,还可以利用随机误差的抵偿性,用增加测量次数的办法减少随机误差。
(3)消除过失误差。过失误差的消除关键在于分析人员必须养成专心、认真、细致的良好工作习惯,不断提高理论和操作技术水平。含有过失误差的测量数据经常表现为离群数据,可以用离群数据的统计检验方法将其剔除。
4.误差的表示方法
(1)绝对误差与相对误差。绝对误差是指测量值(单一测量值或多次测量的均值)与真值之差,即
绝对误差(E)=μ-τ
式中 μ——测定值;
τ——真值。
当测量结果大于真值时,误差为正,反之为负。
相对误差是指绝对误差与真值之比(常以百分数表示),即
(2)绝对偏差与相对偏差。绝对偏差即某一测量值xi与多次测量均值x-之差,以di表示:
di=xi-x
相对偏差为绝对偏差与均值之比(常用百分数表示),以d表示:
(3)平均偏差与相对平均偏差。平均偏差为绝对偏差的绝对值之和的平均值,以d-表示:
相对平均偏差为平均偏差与测量均值之比(常用百分数表示):
(4)极差。
极差为一组测量值中最大值与最小值之差,表示误差的范围,以R表示:
R=xmax-xmin
式中 xmax——测量值x1,x2,…,xm中最大值;
xmin——测量值x1,x2,…,xm中最小值。
(5)误差计算实例。
【例1.3.1】某标准水样中氯化物含量为110mg/L,以硝酸银滴定法测定5次。其结果分别为112mg/L、115 mg/L、114 mg/L、115 mg/L、113mg/L。①计算其均值,求其中测定值112mg/L的绝对误差、相对误差、绝对偏差和相对偏差;②计算平均偏差、相对平均偏差和极差。
解1:平均值:
绝对误差:112-110=2(mg/L)
相对误差:
绝对偏差:di=xi-x-=112-113.8=-1.8(mg/L)
相对偏差:
解2:平均偏差:
相对平均偏差:
极差:xmax-xmin=115-112=3(mg/L)
5.数据处理
(1)有效数字。
1)有效数字的修约规则。在记录和整理分析结果时,为避免报告结果混乱,要确定采用几位“有效数字”。报告中的各位数字,除末位外,均为准确测出,仅末位是可疑数字。可疑数字以后是无意义数。报告结果时只能报告到可疑的那位数,不能列入无意义数。报告的位数,只能在方法的灵敏限度以内,不应任意增加位数。例如75.6mg/L,表示化验人员对75是肯定的,0.6是不确定的,可能是0.5或0.7。
当可疑数以后的数字为1、2、3、4者舍去,为6、7、8、9者进入,若为5时又需根据5右边的数字而定。若5右边的数字全部为零,舍或入需根据5之左的数字为奇数或偶数而定。5之左为奇数时进1,5之左为偶数时则舍去;若5右边的数字并非全部为零,则不论5左边的数字为奇数或偶数,一律进入。例如某数为14.65,应报告为14.6。又如0.35可修约为0.4,1.0501可修约为1.1。
“0”可以是有效数字,也可以不是有效数字,仅仅表示位数。如104、40.08、1.2010,所有的0均为有效数字;而0.6050g,小数点前面的0则不是有效数字,只起到定位作用。
0为有效数字时不可略去不写,如滴定管读数为23.60ml时,即应记录为23.60ml,而不得记录为23.6ml。如用量筒取25ml水样,就只能写成25ml,而不能写成25.0ml。
在说明标准溶液浓度时,常写作1.00ml含0.500mg某离子,该数字表示体积准确到0.1ml,重量准确到0.01mg;然而1ml含0.500mg某离子,则只是一种粗略的含量表示。
2)近似计算规则。当几个相加或相减时,小数点后数字的保留位数,应以各数中小数点后位数最少者为准。例如,2.03+1.1+1.034的答数不应多于小数点位数最少的1.1,所以答数是4.2而不是4.164。当几个数值相乘除时,应以有效数字位数最少的那个数值,即相对误差最大的数据为准,弃去其余各数值中的过多位数,然后进行乘除。有时也可以暂时多保留一位数,得到最后结果后,再弃去多余的数字。例如,将0.0121、25.64、1.05782三个数值相乘,因第一数值0.0121仅有三位有效数字,故应以此数为准,确定其余两个数值的位数,然后相乘,即0.0121×25.6×1.06=0.328,不应写成0.328182308。当进行乘方或开方时,原近似值有几位有效数字,计算结果就可以保留几位有效数字。例如,6.542=42.7716,其结果保留三位有效数字则为42.8;又如,…其结果保留三位有效数字则为2.72。
(2)离群数据与可疑数据的取舍。
1)离群数据与可疑数据的概念。明显歪曲试验结果的测量数据,即与正常数据不是来自同一分布总体的数据,称为离群数据。可能会歪曲实验结果,但尚未经过检验判定其是离群数据的测量数据则称为可疑数据。
2)离群数据的产生。一组正常数据应来自具有一定分布的总体。一旦试验条件发生了变化,或在实验中出现了过失误差,那么由此产生的测量数据就脱离了正常数据的分布群体,即会出现离散度较大的离群数据。
3)离群数据的剔除。剔除了离群数据,可使测量结果更符合客观实际。然而,正常数据也具有一定的离散性,如果为了能够得到精密度好的结果而人为地删去一些误差较大但并非离群的测量数据,而由此得到的精密度很高的测量结果并不符合客观实际。因此,可疑数据的取舍必须遵循一定的原则。试验中一经发现明显的系统误差和过失误差,就应随时剔除由此而产生的数据。但有时即使试验做完仍不能确知哪些数据是离群的。这时,对这些可疑数据的取舍应采取统计方法判别,即离群数据的统计检验。
4)离群数据统计检验的判别准则。
a.若计算的统计量不大于显著水平α=0.05时的临界值,则可疑数据为正常数据。
b.若统计量大于α=0.05时的临界值且同时不大于α=0.01时的临界值,则可疑数据为偏离数据。
c.统计量大于α=0.01时的临界值,则可疑数据为离群数据,应予剔除。
d.对偏离数据的处理要慎重,只有能找到原因的偏离数据才可做为离群数据来处理,否则应按正常数据处理。
e.一组数据中剔除了离群值以后,应对剔除后剩余的数据继续检验,直至其中不再有离群数据。