第二节 可疑数据的处理方法
在检验检测过程中,将一组平行测得的数据从小到大按顺序排列,可以发现,可疑数据的出现通常有以下两种情况:一种是一个或极少数的几个数据和其他大多数数据比较,明显偏高或偏低;另一种是和其他大多数数据比较,有两个数据,一个明显偏高,同时另一个明显偏低。以下就这两种情况,分别介绍运用统计学进行处理的方法。
一、偏大或偏小的可疑数据的处理方法
将测得的一组九个数据,按大小顺字排列;x1,x2,…,xn,其中x1为可能出现的偏小数据,xn为可能出现的偏大的数据。
1.“4d”检验法
假设xn为可疑值。
(1)除去可疑值后求平均值:
(2-1)
式中,n为测量次数,即总的数据个数;xi为第i次的测得值。
(2)求平均偏差:
(2-2)
(3)计算可疑值与的差的绝对值D:
(2-3)
(4)将计算得的D值与比较。如D大于的四倍,即D>4,则该可疑数据弃去(见例2-1)。
该方法的优点是简单易记,不需要计算标准偏差,也不需查表。它是从拉依达检验法简化而来的。本法只适用于测量次数较大(n>10)的情况。如测量次数较少(n=5~10),可改为当D>2.5d时,将可疑数据弃去。本法的缺点是当测量次数较少,如n<10(使用4d检验法)或n<5(使用2.5d)时,即使存在误差大,应该剔除的数据也无法舍去。
例2-1 今有以下11次平行测定的分析数据(%):30.18、30.23、30.21、30.15、30.28、30.31、30.56、30.32、30.38、30.35、30.19。问:其中30.56%这一数据是否应弃去?
解:
(1)除去30.56%这一数据后,求其余10个数据的平均值:
(2)求平均偏差:
(3)求D:
(4)将D与4比较:
故知30.56%这一数据应弃去。
2.拉依达检验法
(1)计算包括可疑值在内的平均值。
(2)计算包括可疑值在内的单一测定值的标准偏差S(以下均简称为标准偏差):
(2-4)
(3)计算可疑值与平均值的差的绝对值D,采用式(2-3):
(4)将计算得的D值与S比较,如D大于S的三倍,即D>3S,则该可疑数据弃去(见例2-2)。本法也较简便,但只适用于测量次数较大(n>10)时,如测量次数较少(n=5~10)则可改为D>2S时,将该可疑数据弃去。它的缺点也和“4d”检验法一样,如测量次数较少,则偏离较大的可疑值无法舍去。
例2-2 有一组分析测试数据:0.128、0.129、0.131、0.133、0.135、0.138、0.141、0.142、0.145、0.148、0.167。问:其中偏离较大的0.167这一数据是否应舍去?
解:
(1)计算包括可疑值在内的平均值及按式(2-4)计算标准偏差S:
(2)按式(2-3)计算D:
(3)将D与3S比较:
故按拉依达检验法,0.167这一可疑值不应舍去。从直观上看,0.167与最接近它的0.148之差比其他数据之间的差要大得多,这样的数据不舍去,正说明拉依达检验法的缺点,即在测量次数较少的情况下,偏离较大的可疑值无法舍去。
3.“Q”检验法
(1)先计算Q值”:
(2-5)
分母中xmax-xmin是指包括可疑值在内的最大值与最小值之差。
(2)选定显著性水平a值,在表2-1中查得相应的Q(n,a)值,其中n为测量次数。
表2-1 Q检验临界值
(3)将计算得的Q值与从表中查得的Q(n,a)值比较,若Q>Q(n,a),则舍去该可疑值(见例2-3)。
Q检验法适用于测量次数较少的情况。
显著性水平a值,我们可以把它看成是由于舍掉该可疑值而犯错误的概率,故a值应选取适当。
如a取得太小,有可能使误差大的、应该剔除的可疑数据被保留下来,但犯不应剔除的可疑值被舍去的错误的概率较小。如a取得太大,则有可能把不应剔除的数据也舍去,但犯应舍去的可疑值被保留的错误的概率较小。在化学分析中,检验可疑值的取舍时,不管用哪种检验方法,通常取a=0.01。只有在分析方法很成熟或对测量结果要求较高时,a值才可选用0.05或0.10。
例2-3 求某金属标样中石墨碳含量的标准值,由一个检测机构分析数次,得到以下一组数据(按大小顺序排列), %:0.220、0.223、0.236、0.284、0.303、0.310、0.478;问:偏差较大的0.478%这一数据是否应弃去?
解:
(1)根据式(2-5)计算Q值:
(2)查表2-1:Q(7,0.01)=0.637。
(3)将计算得的Q值与Q(n,a)值比较:
故在显著性水平a为0.01时,0.478%这一数据应舍去。
4.格拉布斯(Grubbs)检验法
对一个偏高或偏低的可疑值进行检验时:
(1)计算包括可疑值在内的;
(2)按式(2-4)计算标准偏差S;
(3)求G0值:
(2-6)
(4)将计算得的G0值与表2-2中的G(n,a)值比较,若G0>G(n,a),则该可疑数据弃去(见例2-4)。
表2-2是以双侧检验为基础计算得的数值,它适用于还不能确定可疑值是在高侧还是低侧时的情况。如该可疑值已确定在高侧或已确定在低侧,那么舍去该可疑值相应的a值为表中所标明的a值的。例如,按表中a=0.05某一数据可舍去,但该数据很明显是偏高(在高侧),则舍去该数据的实际的a值为0.025。
表2-2 Grubbs检验临界值G(n,a)
例2-4 容量法测定某样品中的锰含量,八次平行测定数据如下(%):
10.29、10.33、10.38、10.40、10.43、10.46、10.50、10.82。问:10.82%这一数据是否应舍去?
解:
(1)计算出包括可疑值在内的平均值和标准偏差S:
(2)根据式(2-6)计算G0值:
(3)选定显著性水平a=0.01,由于这里可疑值已确定在高侧,这是单侧检验,故查表2-2时应查a=0.02,n=8相应的G(n,a)值,查得G(n,a)=2.22。
(4)结论:由于G0>G(n,a),故在显著性水平a为0.01时,可疑值10.82%应舍去。
严格来说,应用格拉布斯(Grubbs)检验法时,式(2-6)中标准偏差的值不应由原来的一组测量数据中求得,而是应由相同的试样,通过较多次数的分析测试求得,设此值为Sv,其中v为求标准偏差时的自由度,然后再查表2-3,如G0值大于该表中相应值,则弃去该可疑数据(见例2-5)。
表2-3 Grubbs检验临界值G(n,v,a)
例2-5 采用电重量法测定某黄铜样品中的铜含量,通过对样品中铜含量的40次平行测定,计算所得的标准偏差为0.019%。现对同一黄铜样品试样,采用相同方法再做9次测定,得到如下测定数据(%):57.82、57.84、57.83、57.86、57.81、57.89、57.82、57.83、57.85。问:偏离较大的数据57.89%是否要舍去?
解:
(1)从题意得:Sv=0.019%,v=40-1=39
(2)计算包括可疑值在内的9次测定的平均值:
(3)计算G0值:
(4)查表2-3:v≈40,n=9,当a=0.05时,查得G(n,v,a)=2.50;
(5)结论:由于G0>G(n,v,a),故将57.89%这一数据舍去。
格拉布斯(Grubbs)检验法也可用于检验有两个数据(x1,x2)较其他大多数数据偏小,或有两个数据(xn-1,xn)偏大的情况。此时可仅检验内侧数据,即前者检验x2,后者检验xn-1。如检验结果x2应舍去,则x1和x2两个数据均舍去;同样,如xn-1应舍去,则xn-1和xn。两个数据均舍去。如果检验结果x2或xn-1不应舍去,则继续检验x1或xn(见例2-6)。
例2-6 对同一铜合金,有10个分析人员分别进行分析,测定其中铜含量(%)的数据如下:68.20、68.49、70.30、70.65、70.82、71.03、71.22、71.25、71.33、71.38。
问:以上数据中68.20%和68.49%这两个数据是否应舍去?
解:
(1)按检验一个可疑值的方法,检验内侧的68.49%这个数据(外侧的68.20%先不计算在内):
依据式(2-4)计算标准偏差S,S=0.9082
(2)按式(2-6)计算G0:
(3)选定显著性水平a=0.01,由于这里是单侧检验,故查表2-2时应查a=0.02,n=9相应的G(n,a)值,查得G(n,a)=2.32。
(4)由于G0>G(n,a),故在显著性水平a为0.01时,68.49%这一数据应舍去。既然内侧的数据已应舍去,作为外侧的,偏离更大的68.20%更应舍去,即68.20%和68.49%两个数据都应舍去。
在此情况下,也可用以下方法来判断这两个数据是否均应舍去:
(1)当可疑值为x1,x2时,计算包括可疑值在内的偏差平方和S2:
(2-7)
式中,为包括可疑值x1、x2的平均值。
(2)除去可疑值x1,x2,计算:
(2-8)
式中,为除去可疑值x1,x2的平均值。
(3)计算g0值:
(2-9)
(4)将g0值与表2-4中对应的g(n,a)值比较,如g0<g(n,a),则x1,x2两数据均舍去(见例2-7)。
同样,可用以上方法检验两个偏大的可疑值(xn-1,xn),用和式(2-8)相似的方法计算,再以代替式(2-8)中算g0,然后查表,如g0<g(n,a),则xn-1,xn两数据均舍去。
表2-4是双侧检验表。如已确定可疑值是偏大,或者已确定是偏小,则舍去该可疑值相应的a值为表中所标明的a值的1/2。
表2-4 Grubbs检验临界值g(n,a)
例2-7 用例2-6的测试数据。
解:
(1)计算:,
(2)计算:
(3)计算g0:
(4)查表2-4:g(10,0.01)=0.1415
(5)比较:g0<g(10,0.01)
故在a=0.005下,68.20%及68.49%两个数据应舍去。
同时规定计算S时,测量次数应大于7(n>7)。
如果标准偏差S=0.005已被确定,则应用表2-3查G(n,v,a),其中n为测量次数,v=∞,a为选定的显著性水平。
5.狄克逊(Dixon)检验法
(1)根据测量次数n,确定相应的rij,见表2-5。
表2-5 根据测量次数n确定的rij
(2)根据可疑值是偏大还是偏小,按下式计算rij值,见表2-6。
表2-6 可疑值偏大、偏小时计算rij值的公式
(3)选定显著性水平a,按计算得的rij,从表2-7中查得相应的ra值。
(4)将计算得的rij值与表中查得的ra值比较,如rij>ra,则舍去该可疑值(见例2-8)。
表2-7是单侧检验表,若做双侧检验,则查相当于a/2的r值。
表2-7 Dixon检验临界值
本法在试样的真值(或标准值)和分析方法的标准偏差均为未知时特别适用。
例2-8 用分光光度法测定某样品中的磷含量,一分析人员平行测定12次,得到以下数据(%):1.578、1.566、1.578、1.588、1.587、1.535、1.568、1.603、1.567、1.591、1.575、1.576,其中1.535%偏离较大,问:是否应舍去?
解:
(1)将数据从小到大依次排列(%):1.535、1.566、1.567、…、1.588、1.591、1.603。
(2)n=13,应选用r21。
计算r21,因1.535是偏小值,所以选用以下计算式:
由数据得:x1=1.535,x3=1.567,xn-1=1.591,则:
(3)查表2-7:rij=r21,n=13,a=0.01,查得ra=0.615。
(4)比较:rij<ra,故1.535这一数据不应舍去。
二、偏大和偏小的可疑数据同时出现的处理方法
在一组数据中,对偏小的数据x1和偏大的数据xn同时出现的情况,有以下几种检验方法:
1.戴维(David)检验法
(1)包括可疑值在内,按式(2-4)计算标准偏差。
(2)计算d/S值
(2-10)
(3)选定显著性水平a值,根据测量次数n,在表2-8中查得相应的数值。
(4)将计算得的d/S值与表2-8中查得的值比较,如计算值大于表中值,则可认为偏大的可疑值(xn)或偏小的可疑值(x1)的任一个或两者都是应舍去的可疑值。
表2-8 David检验临界值
为了进一步确定应舍去哪一个可疑值(x1或xn)或是否应同时舍去这两个可疑值(x1和xn),可以再用上节中介绍的检验一个可疑值的Grubbs检验法检验。此时按以下步骤进行:
(1)先按下式确定x1是否应舍去:
(2-11)
式中,S及系包括x1及xn计算得到的标准偏差及平均值。如计算得到的G1值大于表2-2中相应的G(n,a)值,则舍去可疑值x1。
(2)再按下式确定xn是否应舍去:
(2-12)
如已确定x1应舍去,则此时计算S及均不包括x1值。同样,如计算得的Gn值大于表2-2中相应的G(n,a)值,则舍去可疑值xn(见例2-9)。
例2-9 有一含锰试样,需要测定其中锰元素的含量,检测人员对此试样进行15次连续平行测定,检测结果如下(%):25.60、26.56、26.70、26.76、26.78、26.87、26.95、27.06、27.10、27.18、27.20、27.39、27.48、27.63、28.01。以上有两个数据25.60%和28.01%与其他数据偏离较大,问:是否应舍去?
解:
(1)包括可疑值,按式(2-4)计算标准偏差S:
(2)按式(2-10)计算d/S:
(3)查表2-8:a=0.05,n=15,查得表中值为4.17。
(4)将计算值(d/S)与表中值比较:
这表明可疑值25.60%和28.01%,其中一个或两个是应舍去的异常值。再用Grubbs方法检验,确定哪一个(或两个)是应舍去的异常值。
(5)先检验25.60%这个数据,按式(2-11)计算:
查表2-2:G(15,0.05)=2.55。比较G1和G(n,a),因G1>G(n,a),故25.60%这一数据应舍去。
(6)除去25.60%这一数据后,在剩下的14个数据中再检查28.01%这个数据,重新计算剩下14个数据的平均值和标准偏差S:
再按式(2-12)计算:
查表2-2:G(14,0.05)=2.51,比较Gn和G(n,a),因Gn<G(n,a),故28.01%这个数据应保留。
根据以上检验结果,在15个数据中应将可疑值25.60%舍去。
2.狄克逊(Dixon)检验法
上节中介绍的狄克逊(Dixon)检验法也适用于本节“偏大和偏小的可疑值同时出现”的情况,其步骤如下:
步骤(1)和(2)与上节介绍的狄克逊(Dixon)检验法中步骤(1)和(2)相同。
(3)选定显著性水平a后查表。应该注意此时和上节介绍的只出现偏大可疑值或只出现偏小可疑值的情况不同。此时如欲选定a值为0.10,则查表2-7时应查a/2值,即查0.05一栏中相应值。也就是说表2-7中注明的显著性水平为0.05时,则同时检验偏大和偏小可疑值的取舍的实际显著性水平为0.10。
(4)将计算得的可疑值偏大的rij值和可疑值偏小的rij值分别与表2-7中所查的相应ra值比较,任一可疑值,只要大于表中的相应值,则将该可疑值舍去(见例2-10)。
例2-10 用例2-9的测试数据。
解:
(1)根据测量次数n=15,确定rij为r22。
(2)计算rij值:
①可疑值偏大:
②可疑值偏小:
(3)选定显著性水平a=0.01,由于这里是做双侧检验,故查表2-7时,需查相应于a/2=0.005的r值,n=15,查得r0.005=0.647。
(4)将计算得的rij值分别同ra值比较:可疑值偏大的r22<ra;可疑值偏小的r22<ra。
(5)结论:由于r22<ra,故在显著性水平a=0.01时,28.01%和25.60%两个数据都应保留。
3.极差确定法
(1)选定显著性水平a。
(2)查表2-9中q1-a(n,a)值,其中n为测定次数,另Sv为独立测得的标准偏差,v为测得该标准偏差时所用的自由度,计算式见式(2-13)。
(3)计算w值:
(2-13)
(4)如xn-x1>w,则舍去该可疑值。
(5)舍去可疑值后,再按以上步骤重新检验剩下的数据,直至最大值减最小值小于按式(2-13)计算得的w值为止。
如果该测定方法的标准偏差Sv已事先确定或通过大量实验事先求得,则在选定a值后,查表2-9中q1-a(n,∞)值,再按w=q1-aSv式计算w。如xn-x1>w,则舍去该可疑值,然后再按此方法重复检验,直至无可疑值要舍去为止。
例2-11 用一标准方法测定钢样品中的钼含量,测定40次,得到分析测试的标准偏差为0.0030%。现用此方法分析组分相同、含量相近的钢样,测定其中钼的含量,平行测定10次,得到结果如下(%):0.123、0.124、0.126、0.129、0.120、0.132、0.126、0.129、0.128、0.115。问:有无可疑值应舍去?
解:
(1)选定显著性水平a=0.05。
(2)根据题意,已知:v=40-1≈40,n=10,
查表2-9:q1-a(n,v)=q0.95(10,40)=4.73
(3)计算w:已知Sv=0.0030%,
(4)比较:xn-x1=0.132-0.115=0.017(%)
在这组数据中,0.115比0.132偏离更大些,方将0.115%这一可疑值舍去;
(5)按以上步骤,再继续检验剩下的9个数据:
仍选定a=0.05,此时n=9,查表2-9得:
计算得 w=4.63×0.0030=0.014;xn-x1=0.132-0.120=0.012,因为xn-x1<w,故表明此时无可疑值需要舍去。
结论:所测得的10个数据中,只有0.115%为异常值,应舍去。
如果真值(或标值)m和标准偏差S均为已知,则可用以下的极差确定法来检验可疑值。
(1)选定显著性水平a。
(2)计算a'值:
(2-14)
(3)查表2-10中相应的值,其中为式(2-14)所计算得的a'值除以2。
(4)计算测量值范围:
(2-15)
(2-16)
(5)如果偏大的可疑值大于b,则将该可疑值舍去;同样,如偏小的可疑值小于a,则舍去该可疑值;舍去可疑值后,再按以上方法检验,直至全部数据均落在范围内为止。
以上检验方法也适用于只出现偏大可疑值或只出现偏小可疑值的情况,但此时式(2-14)需改为:
(2-17)
然后直接查表2-10中的值,再计算。本法特别适用于通过较多检测机构的大量数据所考核的标准分析方法(S已知),并用该标准方法所测得的某参考物质的标值(m已知)的情况。由于此时S和m均为已知,故如采用该标准分析方法和该参考物质再次进行分析时,则可检验所得的一组分析结果中是否存在应舍去的异常值。
表2-10 正态分布表
[u=(测量值-平均值)/标准偏差]
此表为单侧检验表,若做双侧检验,则查对应于a/2的u值。
例2-12 某标钢中含铁量为70.91%,一分析方法的标准偏差为0.020%,现将此标钢交给一分析人员,由他用该分析方法测定其中铁含量。此分析人员平行测定六次,得到以下一些数据(%):70.85、70.88、70.90、70.91、70.95、70.93。问:这些分析测试数据是否都可靠?
解:
(1)选定a=0.05。
(2)计算a':,则
(3)查表2-10,u0.0043=2.627
(4)按式(2-15)及式(2-16)计算a,b值:
(5)偏大的可疑值70.95<b(70.96),所以70.95(%)这一数据应保留;偏小的可疑值70.85<a(70.86),故70.85(%)这一数据应舍去。
舍去70.85%后,再检验剩下的5个数据:
(6)此时n=5,,则
(7)查表2-10:u0.0050=2.575
(8)
(9)偏大的值70.95<b(70.96),偏小的值70.88>a(70.86),故此时无可疑值需舍去。
以上介绍了多种检验可疑值的方法,在实际应用时,对同一组数据中的可疑值用不同的方法进行检验,得到的结论不一定相同,因此推荐:如检验一个可疑值,以Grubbs方法为准;检验两个以上可疑值,以Dixon方法为准。关于显著性水平的选取,应当选得稍小一些,以使数据不能轻易被剔除,如果在0.01和0.05两显著性水平中任选其一,则常常选取0.01。