分析测试统计方法和质量控制
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 随机误差的正态分布

1.3.1 测量结果的分布

在重复测量的条件下,不可避免受到许多误差因素的影响,这些影响最终都反映为测量结果的微小变化。例如,对某认定值为μ的标准物质进行n次独立测量,得到一系列测量值x1x2、…、xn,如果不考虑系统误差,测量误差分别为δ1=x1-μδ2=x2-μ、…、δn=xn-μ。在重复测量条件下,由于大量微弱的随机因素的作用,出现的误差 δ1δ2 、…、δn是大小不等、符号不同的数值,其数值的分布反映误差的随机性。

表1-2列出了用红外吸收法测定某碳素钢中碳含量的160次重复测量结果。这些未经整理的测量值参差不齐、高低不一,看不出有什么规律,能直接提供的信息有限。

表1-2 碳素钢中碳元素含量的测量结果  单位:%

为研究数据的分布规律,将这些数据加以整理,可获得许多有用的信息。绘制直方图是对大量原始数据进行初步整理的有效方法。

根据表1-2的测量结果,可按如下方法绘制直方图:

①将测量结果由小到大排列,得最大值xmax=0.597%,最小值xmin=0.554%,极差R=0.043%,平均值=0.5755%;

②将全部测量数据按等组距(0.004%)分成12(m=12)组,计算每组的组中值及组中值的误差;

③计算测量结果在每组中出现的频数和积累频数及频率和积累频率,计算数据列于表1-3。为避免位于分组点上的测量结果在分组时发生跨组的问题,组界值的有效数字比原测量结果多取一位。上下组界值的平均值为组中值。

表1-3 碳含量分组的频数与频率分布表

注:误差指测量组中值与平均值(0.5755%)之差。

从频数和频率的分布基本可看出测量结果的变化规律,测量结果离平均值愈近,其出现的频数和频率愈大;而离平均值愈远,其出现的频数和频率愈小。

④以各组组距为横坐标,频数和频率为纵坐标,绘制测量结果分布直方图(图1-3)。

图1-3 测量结果频数和频率直方图

注:绘制直方图时,分组数(m)可按m=1.52(n-1)2/5算式估计,n为样本量,当n=160时,计算得m=11.55,可分为12组;也有推荐分组数取近似为样本量平方根的数值。表1-3所有参数由表1-2数据通过Excel表格计算完成。

分析测试中,在消除了系统误差的条件下,许多不可控制的随机因素引起测量误差,并使测量值随之变动。因此,测量结果和测量误差都是一个以概率取值的随机变量。图1-3表明了测量结果和测量误差的分布规律:一是测量结果有明显的集中趋势,在平均值0.5755%附近出现的频数(频率)最高,即误差为零附近测量值的频数(频率)最高;二是各测量值相对应平均值而言,大小相等、符号相反的误差出现的频数大体相等;三是正误差和负误差的分布大体呈对称图形,误差小的测量结果出现的频率远比误差大的测量结果出现的频率多,大误差出现的频率趋于零。当测量次数进一步增加,各组距相对频数趋向于一个稳定值,相对频数分布的直方图逐渐趋于一条中间高、两边对称并渐渐降低、最终趋于零的平滑的铃形曲线。这一铃形曲线就是表示测量误差分布的正态分布曲线。

数据处理的目的就是要从这种变动的数据中找出其中的统计规律。分析测试中,可认为随机变量是由众多互相独立的随机因素的微小影响叠加而成。由概率统计理论,随机变量在数值上服从正态分布。因此,测量值和测量误差都可以用正态分布来描述。

1.3.2 正态分布

正态分布函数是1809年德国数学家高斯(Gauss)推导出来的。

正态分布是连续随机变量x的一种概率分布,其分布函数可表示为:

  (1-9)

正态分布的概率密度函数为:

  (1-10)

式中,x是正态分布总体中随机抽取的样本值;μ是正态分布总体的均值,-∞<μ<∞;σ2表示正态分布总体的方差,σ>0。因此,正态分布由μσ2这两个基本参数确定,即随机变量x和测量误差δ服从均值μ、方差为σ2的正态分布,记为Nμσ2)。

要正确区分概率和概率密度的概念。概率是表示测量值落在某一区间可能性的大小,无量纲,其值在0到1之间;概率密度指单位随机变量的概率(dP/dx),其值可以是任何正数,量纲是随机变量x单位的倒数。

图1-4表示以测量值x为横坐标的Nμσ2)测量值正态概率密度曲线。

图1-4 正态分布的概率密度曲线

图1-5表示以误差δ为横坐标的N(0,σ2)误差分布概率密度曲线,此时误差分布概率密度可表示为:

  (1-11)

图1-5 误差分布的概率密度曲线

测量值的方差σ2越小,表示测量的精密度越好,测量值集中;而σ2越大,表示测量的精密度越差,测量值分散。从图1-4、图1-5可以看出,正态分布函数曲线有以下几个特性:

①单峰曲线,在x=μ(或δ=0)处有极大值,此时fx)=1/(σ)。随σ增大,峰形变宽,曲线变得平坦;当σ=1时,fx)≈0.4;当σ=2时,fx)≈0.2;绝对值小的误差出现的概率比绝对值大的误差出现的概率大。

②在x=μ(或δ=0)处,曲线具有对称性。

③在x=μ±σ(或δσ)处,曲线有两个拐点。

④在x→±∞(或δ→±∞)时,曲线与x轴为渐近线。

⑤曲线与x轴(或δ轴)所围的面积为1,表示各样本值出现的概率总和。

μ决定分布曲线的中心位置,称为位置参数;σ决定曲线的形状,称为形状参数。μ的变化只导致曲线的平移,不改变曲线的形状;而σ的变化正好相反,只改变曲线的形状,不改变曲线的中心位置。σ的数值反映曲线的“胖”“瘦”程度,σ越大,曲线越平坦,其最高点越低,呈“矮胖”型,随机变量在其均值μ(或δ=0)附近的密度越小。而σ越小,曲线越陡,其最高点越高,呈“瘦高”型,随机变量在其均值μ(或δ=0)附近的密度越大。当σ不变,均值μ变动时,其密度分布曲线形状不变,只是其位置沿x轴移动。当x(或δ)→±∞时,曲线与x轴为渐近线。

由此,随机误差具有以下几个特性:

①单峰性,绝对值小的误差出现的概率比绝对值大的误差出现的概率大,多数的测量值集中在其平均值附近。测量精密度愈高(σ愈小),测量值愈集中,而精密度愈差,测量值愈分散。

②对称性,绝对值相等的正误差和负误差出现的概率相等。

③有界性,绝对值很大的误差出现的概率近于零,即误差有一定的限度。

④抵偿性,在同一条件下对同一量进行多次测量,由于随机误差的对称性,算术平均的随机误差值随着测量次数的增加减小,并逐渐趋近于零。

正态分布函数恰当地表征了测量值和测量误差的分布规律。

1.3.3 标准正态分布

正态分布曲线与横坐标之间所夹的面积为函数在样本x在-∞<x<∞区间的积分值,代表了各随机误差出现概率的总和,其值为1:

  (1-12)

样本x落在区间(ab)的概率Paxb)等于x=ax=b区间的曲线与横坐标之间所夹的面积:

  (1-13)

为了计算上的方便,令

这样,通过变量的变换,使Nμσ2)变换为均值μ=0,方差σ2=1的标准正态分布N(0,1)。

标准正态分布N(0,1)的积分要比Nμσ2)简便得多。标准正态分布的分布函数和密度函数分别记为Φu)和φu),通过对式(1-13)的积分,可计算测量值落在任何给定区间(如ab之间)的概率:

  (1-14)

标准正态分布密度函数为:

  (1-15)

图1-6表示正态分布密度函数概率范围。分布图中阴影部分表示在横坐标该区间所夹的面积,表示样本测量值落在区间(ab)的概率。

图1-6 样本值在各区间的概率示意图

为计算和使用方便,可以将标准正态分布Φu)的数值制成各种形式的表,一般有(-∞,u)、(u,∞)、(0,u)等几种形式的表,几种表列的数值不同,概率值的计算方法也不同,但计算的结果是一致的,在引用时要注意。分析测试中常用的是(0,u)表,见表1-4。

表1-4 标准正态分布函数

表1-5列出的是标准正态分布分位数P对应的uP

表1-5 标准正态分布分位数

由于正态分布的对称形曲线,所以(―u,0)与(0,+u)范围给出的积分值是相等的,如果要求+u至-u范围内的概率,可查u值的概率,乘以2,即2Φu)。而在±u范围之外的概率为:1-2Φu)。

例如,计算分析值落在(μ-2σμ+2σ)区间的概率P

由于

查表1-4得,u等于2.0时,Φu)=0.4773,则Pμ-2σμ+2σ)=0.4773×2=0.9546≈95.5%。

计算的概率值表明,单次测量结果落在μ±2σ范围内的概率P为95.5%,而落在μ±2σ范围外的概率(1-P)为1-95.5%=4.5%。

同理,可计算几个典型取值区间的概率分布:

Pμ-σμ+σ)=0.3413×2=0.6826≈68.3%,表示单次测量结果落在μ±σ范围内的概率为68.3%,而落在μ±σ范围外的概率为31.7%。

Pμ-1.96σμ+1.96σ)=0.4750×2=0.950=95.0%,表示单次测量结果落在μ±1.96σ范围内的概率为95.0%,而落在μ±1.96σ范围外的概率为5.0%。

Pμ-2.58σμ+2.58σ)=0.4950×2=0.990=99.0%,表示单次测量结果落在μ±2.58σ范围内的概率为99.0%,而落在μ±2.58σ范围外的概率为1.0%。

Pμ-3σμ+3σ)=0.4987×2=0.9974≈99.7%,表示单次测量结果落在μ±3σ范围内的概率为99.7%,而落在μ±3σ范围外的概率为0.3%。

上述计算结果十分重要,可疑数值的取舍、测量值的取值范围、分析方法精密度试验的统计、测量不确定度的评定等都基于这些概率分布结果。

从理论上讲,随机变量x的取值范围是(-∞,∞),但在实际测试中,测量值只是在某一有效范围内变动。一般认为这个范围为(μ-3σμ+3σ),则出现偏差大于3倍标准差的测量值的概率只有3‰(0.3%)。从统计上讲,在有限次的测量中,出现偏差大于3倍标准差的测量值几乎是不可能的,而一旦出现这样大偏差的测量值,就有理由认为这个测量值是离群值,数据处理时可将其剔除,这就是所谓的“3σ”规则。在现在的分析测试中,更常用的是“2σ”规则,出现偏差大于2倍标准差的测量值认为是异常值。

【例1-1】 某样品中碳的质量分数为0.445%,测量的σ=0.005%,假定测量的系统误差已消除,求测量结果落在0.445%±0.005%范围内的概率。

由表1-4可知,u=1.00时,Φu)=0.3413,其概率为2×0.3413=0.6826=68.26%。

【例1-2】 例1-1中,求测量结果大于0.452%的概率。

 此例讨论测量结果大于0.452%的概率,属于单边分布,

由表1-4可知,u=1.40时,Φu)=0.4192,测量结果大于0.452%的概率为0.5000-0.4192=0.0808=8.08%。

关于测量结果的正态性检验见第2章2.4。