1.3 随机误差的正态分布
1.3.1 测量结果的分布
在重复测量的条件下,不可避免受到许多误差因素的影响,这些影响最终都反映为测量结果的微小变化。例如,对某认定值为μ的标准物质进行n次独立测量,得到一系列测量值x1、x2、…、xn,如果不考虑系统误差,测量误差分别为δ1=x1-μ、δ2=x2-μ、…、δn=xn-μ。在重复测量条件下,由于大量微弱的随机因素的作用,出现的误差 δ1、δ2 、…、δn是大小不等、符号不同的数值,其数值的分布反映误差的随机性。
表1-2列出了用红外吸收法测定某碳素钢中碳含量的160次重复测量结果。这些未经整理的测量值参差不齐、高低不一,看不出有什么规律,能直接提供的信息有限。
表1-2 碳素钢中碳元素含量的测量结果 单位:%
为研究数据的分布规律,将这些数据加以整理,可获得许多有用的信息。绘制直方图是对大量原始数据进行初步整理的有效方法。
根据表1-2的测量结果,可按如下方法绘制直方图:
①将测量结果由小到大排列,得最大值xmax=0.597%,最小值xmin=0.554%,极差R=0.043%,平均值=0.5755%;
②将全部测量数据按等组距(0.004%)分成12(m=12)组,计算每组的组中值及组中值的误差;
③计算测量结果在每组中出现的频数和积累频数及频率和积累频率,计算数据列于表1-3。为避免位于分组点上的测量结果在分组时发生跨组的问题,组界值的有效数字比原测量结果多取一位。上下组界值的平均值为组中值。
表1-3 碳含量分组的频数与频率分布表
注:误差指测量组中值与平均值(0.5755%)之差。
从频数和频率的分布基本可看出测量结果的变化规律,测量结果离平均值愈近,其出现的频数和频率愈大;而离平均值愈远,其出现的频数和频率愈小。
④以各组组距为横坐标,频数和频率为纵坐标,绘制测量结果分布直方图(图1-3)。
图1-3 测量结果频数和频率直方图
注:绘制直方图时,分组数(m)可按m=1.52(n-1)2/5算式估计,n为样本量,当n=160时,计算得m=11.55,可分为12组;也有推荐分组数取近似为样本量平方根的数值。表1-3所有参数由表1-2数据通过Excel表格计算完成。
分析测试中,在消除了系统误差的条件下,许多不可控制的随机因素引起测量误差,并使测量值随之变动。因此,测量结果和测量误差都是一个以概率取值的随机变量。图1-3表明了测量结果和测量误差的分布规律:一是测量结果有明显的集中趋势,在平均值0.5755%附近出现的频数(频率)最高,即误差为零附近测量值的频数(频率)最高;二是各测量值相对应平均值而言,大小相等、符号相反的误差出现的频数大体相等;三是正误差和负误差的分布大体呈对称图形,误差小的测量结果出现的频率远比误差大的测量结果出现的频率多,大误差出现的频率趋于零。当测量次数进一步增加,各组距相对频数趋向于一个稳定值,相对频数分布的直方图逐渐趋于一条中间高、两边对称并渐渐降低、最终趋于零的平滑的铃形曲线。这一铃形曲线就是表示测量误差分布的正态分布曲线。
数据处理的目的就是要从这种变动的数据中找出其中的统计规律。分析测试中,可认为随机变量是由众多互相独立的随机因素的微小影响叠加而成。由概率统计理论,随机变量在数值上服从正态分布。因此,测量值和测量误差都可以用正态分布来描述。
1.3.2 正态分布
正态分布函数是1809年德国数学家高斯(Gauss)推导出来的。
正态分布是连续随机变量x的一种概率分布,其分布函数可表示为:
(1-9)
正态分布的概率密度函数为:
(1-10)
式中,x是正态分布总体中随机抽取的样本值;μ是正态分布总体的均值,-∞<μ<∞;σ2表示正态分布总体的方差,σ>0。因此,正态分布由μ和σ2这两个基本参数确定,即随机变量x和测量误差δ服从均值μ、方差为σ2的正态分布,记为N(μ,σ2)。
要正确区分概率和概率密度的概念。概率是表示测量值落在某一区间可能性的大小,无量纲,其值在0到1之间;概率密度指单位随机变量的概率(dP/dx),其值可以是任何正数,量纲是随机变量x单位的倒数。
图1-4表示以测量值x为横坐标的N(μ,σ2)测量值正态概率密度曲线。
图1-4 正态分布的概率密度曲线
图1-5表示以误差δ为横坐标的N(0,σ2)误差分布概率密度曲线,此时误差分布概率密度可表示为:
(1-11)
图1-5 误差分布的概率密度曲线
测量值的方差σ2越小,表示测量的精密度越好,测量值集中;而σ2越大,表示测量的精密度越差,测量值分散。从图1-4、图1-5可以看出,正态分布函数曲线有以下几个特性:
①单峰曲线,在x=μ(或δ=0)处有极大值,此时f(x)=1/(σ)。随σ增大,峰形变宽,曲线变得平坦;当σ=1时,f(x)≈0.4;当σ=2时,f(x)≈0.2;绝对值小的误差出现的概率比绝对值大的误差出现的概率大。
②在x=μ(或δ=0)处,曲线具有对称性。
③在x=μ±σ(或δ=±σ)处,曲线有两个拐点。
④在x→±∞(或δ→±∞)时,曲线与x轴为渐近线。
⑤曲线与x轴(或δ轴)所围的面积为1,表示各样本值出现的概率总和。
⑥μ决定分布曲线的中心位置,称为位置参数;σ决定曲线的形状,称为形状参数。μ的变化只导致曲线的平移,不改变曲线的形状;而σ的变化正好相反,只改变曲线的形状,不改变曲线的中心位置。σ的数值反映曲线的“胖”“瘦”程度,σ越大,曲线越平坦,其最高点越低,呈“矮胖”型,随机变量在其均值μ(或δ=0)附近的密度越小。而σ越小,曲线越陡,其最高点越高,呈“瘦高”型,随机变量在其均值μ(或δ=0)附近的密度越大。当σ不变,均值μ变动时,其密度分布曲线形状不变,只是其位置沿x轴移动。当x(或δ)→±∞时,曲线与x轴为渐近线。
由此,随机误差具有以下几个特性:
①单峰性,绝对值小的误差出现的概率比绝对值大的误差出现的概率大,多数的测量值集中在其平均值附近。测量精密度愈高(σ愈小),测量值愈集中,而精密度愈差,测量值愈分散。
②对称性,绝对值相等的正误差和负误差出现的概率相等。
③有界性,绝对值很大的误差出现的概率近于零,即误差有一定的限度。
④抵偿性,在同一条件下对同一量进行多次测量,由于随机误差的对称性,算术平均的随机误差值随着测量次数的增加减小,并逐渐趋近于零。
正态分布函数恰当地表征了测量值和测量误差的分布规律。
1.3.3 标准正态分布
正态分布曲线与横坐标之间所夹的面积为函数在样本x在-∞<x<∞区间的积分值,代表了各随机误差出现概率的总和,其值为1:
(1-12)
样本x落在区间(a,b)的概率P(a≤x≤b)等于x=a、x=b区间的曲线与横坐标之间所夹的面积:
(1-13)
为了计算上的方便,令
则
这样,通过变量的变换,使N(μ,σ2)变换为均值μ=0,方差σ2=1的标准正态分布N(0,1)。
标准正态分布N(0,1)的积分要比N(μ,σ2)简便得多。标准正态分布的分布函数和密度函数分别记为Φ(u)和φ(u),通过对式(1-13)的积分,可计算测量值落在任何给定区间(如a和b之间)的概率:
(1-14)
标准正态分布密度函数为:
(1-15)
图1-6表示正态分布密度函数概率范围。分布图中阴影部分表示在横坐标该区间所夹的面积,表示样本测量值落在区间(a,b)的概率。
图1-6 样本值在各区间的概率示意图
为计算和使用方便,可以将标准正态分布Φ(u)的数值制成各种形式的表,一般有(-∞,u)、(u,∞)、(0,u)等几种形式的表,几种表列的数值不同,概率值的计算方法也不同,但计算的结果是一致的,在引用时要注意。分析测试中常用的是(0,u)表,见表1-4。
表1-4 标准正态分布函数
表1-5列出的是标准正态分布分位数P对应的uP。
表1-5 标准正态分布分位数
由于正态分布的对称形曲线,所以(―u,0)与(0,+u)范围给出的积分值是相等的,如果要求+u至-u范围内的概率,可查u值的概率,乘以2,即2Φ(u)。而在±u范围之外的概率为:1-2Φ(u)。
例如,计算分析值落在(μ-2σ,μ+2σ)区间的概率P:
由于,,
查表1-4得,u等于2.0时,Φ(u)=0.4773,则P(μ-2σ,μ+2σ)=0.4773×2=0.9546≈95.5%。
计算的概率值表明,单次测量结果落在μ±2σ范围内的概率P为95.5%,而落在μ±2σ范围外的概率(1-P)为1-95.5%=4.5%。
同理,可计算几个典型取值区间的概率分布:
P(μ-σ,μ+σ)=0.3413×2=0.6826≈68.3%,表示单次测量结果落在μ±σ范围内的概率为68.3%,而落在μ±σ范围外的概率为31.7%。
P(μ-1.96σ,μ+1.96σ)=0.4750×2=0.950=95.0%,表示单次测量结果落在μ±1.96σ范围内的概率为95.0%,而落在μ±1.96σ范围外的概率为5.0%。
P(μ-2.58σ,μ+2.58σ)=0.4950×2=0.990=99.0%,表示单次测量结果落在μ±2.58σ范围内的概率为99.0%,而落在μ±2.58σ范围外的概率为1.0%。
P(μ-3σ,μ+3σ)=0.4987×2=0.9974≈99.7%,表示单次测量结果落在μ±3σ范围内的概率为99.7%,而落在μ±3σ范围外的概率为0.3%。
上述计算结果十分重要,可疑数值的取舍、测量值的取值范围、分析方法精密度试验的统计、测量不确定度的评定等都基于这些概率分布结果。
从理论上讲,随机变量x的取值范围是(-∞,∞),但在实际测试中,测量值只是在某一有效范围内变动。一般认为这个范围为(μ-3σ,μ+3σ),则出现偏差大于3倍标准差的测量值的概率只有3‰(0.3%)。从统计上讲,在有限次的测量中,出现偏差大于3倍标准差的测量值几乎是不可能的,而一旦出现这样大偏差的测量值,就有理由认为这个测量值是离群值,数据处理时可将其剔除,这就是所谓的“3σ”规则。在现在的分析测试中,更常用的是“2σ”规则,出现偏差大于2倍标准差的测量值认为是异常值。
【例1-1】 某样品中碳的质量分数为0.445%,测量的σ=0.005%,假定测量的系统误差已消除,求测量结果落在0.445%±0.005%范围内的概率。
解
由表1-4可知,u=1.00时,Φ(u)=0.3413,其概率为2×0.3413=0.6826=68.26%。
【例1-2】 例1-1中,求测量结果大于0.452%的概率。
解 此例讨论测量结果大于0.452%的概率,属于单边分布,
由表1-4可知,u=1.40时,Φ(u)=0.4192,测量结果大于0.452%的概率为0.5000-0.4192=0.0808=8.08%。
关于测量结果的正态性检验见第2章2.4。