1.3 随机误差的正态分布_分析测试统计方法和质量控制-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3　随机误差的正态分布

1.3.1　测量结果的分布

在重复测量的条件下，不可避免受到许多误差因素的影响，这些影响最终都反映为测量结果的微小变化。例如，对某认定值为μ的标准物质进行n次独立测量，得到一系列测量值x₁、x₂、…、x_n，如果不考虑系统误差，测量误差分别为δ₁=x₁-μ、δ₂=x₂-μ、…、δ_n=x_n-μ。在重复测量条件下，由于大量微弱的随机因素的作用，出现的误差 δ₁、δ₂ 、…、δ_n是大小不等、符号不同的数值，其数值的分布反映误差的随机性。

表1-2列出了用红外吸收法测定某碳素钢中碳含量的160次重复测量结果。这些未经整理的测量值参差不齐、高低不一，看不出有什么规律，能直接提供的信息有限。

表1-2　碳素钢中碳元素含量的测量结果　　单位：%

为研究数据的分布规律，将这些数据加以整理，可获得许多有用的信息。绘制直方图是对大量原始数据进行初步整理的有效方法。

根据表1-2的测量结果，可按如下方法绘制直方图：

①将测量结果由小到大排列，得最大值x_max=0.597%，最小值x_min=0.554%，极差R=0.043%，平均值=0.5755%；

②将全部测量数据按等组距（0.004%）分成12（m=12）组，计算每组的组中值及组中值的误差；

③计算测量结果在每组中出现的频数和积累频数及频率和积累频率，计算数据列于表1-3。为避免位于分组点上的测量结果在分组时发生跨组的问题，组界值的有效数字比原测量结果多取一位。上下组界值的平均值为组中值。

表1-3　碳含量分组的频数与频率分布表

注：误差指测量组中值与平均值（0.5755%）之差。

从频数和频率的分布基本可看出测量结果的变化规律，测量结果离平均值愈近，其出现的频数和频率愈大；而离平均值愈远，其出现的频数和频率愈小。

④以各组组距为横坐标，频数和频率为纵坐标，绘制测量结果分布直方图（图1-3）。

图1-3　测量结果频数和频率直方图

注：绘制直方图时，分组数（m）可按m=1.52（n-1）^2/5算式估计，n为样本量，当n=160时，计算得m=11.55，可分为12组；也有推荐分组数取近似为样本量平方根的数值。表1-3所有参数由表1-2数据通过Excel表格计算完成。

分析测试中，在消除了系统误差的条件下，许多不可控制的随机因素引起测量误差，并使测量值随之变动。因此，测量结果和测量误差都是一个以概率取值的随机变量。图1-3表明了测量结果和测量误差的分布规律：一是测量结果有明显的集中趋势，在平均值0.5755%附近出现的频数（频率）最高，即误差为零附近测量值的频数（频率）最高；二是各测量值相对应平均值而言，大小相等、符号相反的误差出现的频数大体相等；三是正误差和负误差的分布大体呈对称图形，误差小的测量结果出现的频率远比误差大的测量结果出现的频率多，大误差出现的频率趋于零。当测量次数进一步增加，各组距相对频数趋向于一个稳定值，相对频数分布的直方图逐渐趋于一条中间高、两边对称并渐渐降低、最终趋于零的平滑的铃形曲线。这一铃形曲线就是表示测量误差分布的正态分布曲线。

数据处理的目的就是要从这种变动的数据中找出其中的统计规律。分析测试中，可认为随机变量是由众多互相独立的随机因素的微小影响叠加而成。由概率统计理论，随机变量在数值上服从正态分布。因此，测量值和测量误差都可以用正态分布来描述。

1.3.2　正态分布

正态分布函数是1809年德国数学家高斯（Gauss）推导出来的。

正态分布是连续随机变量x的一种概率分布，其分布函数可表示为：

　　（1-9）

正态分布的概率密度函数为：

　　（1-10）

式中，x是正态分布总体中随机抽取的样本值；μ是正态分布总体的均值，-∞<μ<∞；σ²表示正态分布总体的方差，σ>0。因此，正态分布由μ和σ²这两个基本参数确定，即随机变量x和测量误差δ服从均值μ、方差为σ²的正态分布，记为N（μ，σ²）。

要正确区分概率和概率密度的概念。概率是表示测量值落在某一区间可能性的大小，无量纲，其值在0到1之间；概率密度指单位随机变量的概率（dP/dx），其值可以是任何正数，量纲是随机变量x单位的倒数。

图1-4表示以测量值x为横坐标的N（μ，σ²）测量值正态概率密度曲线。

图1-4　正态分布的概率密度曲线

图1-5表示以误差δ为横坐标的N（0，σ²）误差分布概率密度曲线，此时误差分布概率密度可表示为：

　　（1-11）

图1-5　误差分布的概率密度曲线

测量值的方差σ²越小，表示测量的精密度越好，测量值集中；而σ²越大，表示测量的精密度越差，测量值分散。从图1-4、图1-5可以看出，正态分布函数曲线有以下几个特性：

①单峰曲线，在x=μ（或δ=0）处有极大值，此时f（x）=1/（σ）。随σ增大，峰形变宽，曲线变得平坦；当σ=1时，f（x）≈0.4；当σ=2时，f（x）≈0.2；绝对值小的误差出现的概率比绝对值大的误差出现的概率大。

②在x=μ（或δ=0）处，曲线具有对称性。

③在x=μ±σ（或δ=±σ）处，曲线有两个拐点。

④在x→±∞（或δ→±∞）时，曲线与x轴为渐近线。

⑤曲线与x轴（或δ轴）所围的面积为1，表示各样本值出现的概率总和。

⑥μ决定分布曲线的中心位置，称为位置参数；σ决定曲线的形状，称为形状参数。μ的变化只导致曲线的平移，不改变曲线的形状；而σ的变化正好相反，只改变曲线的形状，不改变曲线的中心位置。σ的数值反映曲线的“胖”“瘦”程度，σ越大，曲线越平坦，其最高点越低，呈“矮胖”型，随机变量在其均值μ（或δ=0）附近的密度越小。而σ越小，曲线越陡，其最高点越高，呈“瘦高”型，随机变量在其均值μ（或δ=0）附近的密度越大。当σ不变，均值μ变动时，其密度分布曲线形状不变，只是其位置沿x轴移动。当x（或δ）→±∞时，曲线与x轴为渐近线。

由此，随机误差具有以下几个特性：

①单峰性，绝对值小的误差出现的概率比绝对值大的误差出现的概率大，多数的测量值集中在其平均值附近。测量精密度愈高（σ愈小），测量值愈集中，而精密度愈差，测量值愈分散。

②对称性，绝对值相等的正误差和负误差出现的概率相等。

③有界性，绝对值很大的误差出现的概率近于零，即误差有一定的限度。

④抵偿性，在同一条件下对同一量进行多次测量，由于随机误差的对称性，算术平均的随机误差值随着测量次数的增加减小，并逐渐趋近于零。

正态分布函数恰当地表征了测量值和测量误差的分布规律。

1.3.3　标准正态分布

正态分布曲线与横坐标之间所夹的面积为函数在样本x在-∞<x<∞区间的积分值，代表了各随机误差出现概率的总和，其值为1：

　　（1-12）

样本x落在区间（a，b）的概率P（a≤x≤b）等于x=a、x=b区间的曲线与横坐标之间所夹的面积：

　　（1-13）

为了计算上的方便，令

则

这样，通过变量的变换，使N（μ，σ²）变换为均值μ=0，方差σ²=1的标准正态分布N（0，1）。

标准正态分布N（0，1）的积分要比N（μ，σ²）简便得多。标准正态分布的分布函数和密度函数分别记为Φ（u）和φ（u），通过对式（1-13）的积分，可计算测量值落在任何给定区间（如a和b之间）的概率：

　　（1-14）

标准正态分布密度函数为：

　　（1-15）

图1-6表示正态分布密度函数概率范围。分布图中阴影部分表示在横坐标该区间所夹的面积，表示样本测量值落在区间（a，b）的概率。

图1-6　样本值在各区间的概率示意图

为计算和使用方便，可以将标准正态分布Φ（u）的数值制成各种形式的表，一般有（-∞，u）、（u，∞）、（0，u）等几种形式的表，几种表列的数值不同，概率值的计算方法也不同，但计算的结果是一致的，在引用时要注意。分析测试中常用的是（0，u）表，见表1-4。

表1-4　标准正态分布函数

表1-5列出的是标准正态分布分位数P对应的u_P。

表1-5　标准正态分布分位数

由于正态分布的对称形曲线，所以（―u，0）与（0，+u）范围给出的积分值是相等的，如果要求+u至-u范围内的概率，可查u值的概率，乘以2，即2Φ（u）。而在±u范围之外的概率为：1-2Φ（u）。

例如，计算分析值落在（μ-2σ，μ+2σ）区间的概率P：

由于，，

查表1-4得，u等于2.0时，Φ（u）=0.4773，则P（μ-2σ，μ+2σ）=0.4773×2=0.9546≈95.5%。

计算的概率值表明，单次测量结果落在μ±2σ范围内的概率P为95.5%，而落在μ±2σ范围外的概率（1-P）为1-95.5%=4.5%。

同理，可计算几个典型取值区间的概率分布：

P（μ-σ，μ+σ）=0.3413×2=0.6826≈68.3%，表示单次测量结果落在μ±σ范围内的概率为68.3%，而落在μ±σ范围外的概率为31.7%。

P（μ-1.96σ，μ+1.96σ）=0.4750×2=0.950=95.0%，表示单次测量结果落在μ±1.96σ范围内的概率为95.0%，而落在μ±1.96σ范围外的概率为5.0%。

P（μ-2.58σ，μ+2.58σ）=0.4950×2=0.990=99.0%，表示单次测量结果落在μ±2.58σ范围内的概率为99.0%，而落在μ±2.58σ范围外的概率为1.0%。

P（μ-3σ，μ+3σ）=0.4987×2=0.9974≈99.7%，表示单次测量结果落在μ±3σ范围内的概率为99.7%，而落在μ±3σ范围外的概率为0.3%。

上述计算结果十分重要，可疑数值的取舍、测量值的取值范围、分析方法精密度试验的统计、测量不确定度的评定等都基于这些概率分布结果。

从理论上讲，随机变量x的取值范围是（-∞，∞），但在实际测试中，测量值只是在某一有效范围内变动。一般认为这个范围为（μ-3σ，μ+3σ），则出现偏差大于3倍标准差的测量值的概率只有3‰（0.3%）。从统计上讲，在有限次的测量中，出现偏差大于3倍标准差的测量值几乎是不可能的，而一旦出现这样大偏差的测量值，就有理由认为这个测量值是离群值，数据处理时可将其剔除，这就是所谓的“3σ”规则。在现在的分析测试中，更常用的是“2σ”规则，出现偏差大于2倍标准差的测量值认为是异常值。

【例1-1】　某样品中碳的质量分数为0.445%，测量的σ=0.005%，假定测量的系统误差已消除，求测量结果落在0.445%±0.005%范围内的概率。

解

由表1-4可知，u=1.00时，Φ（u）=0.3413，其概率为2×0.3413=0.6826=68.26%。

【例1-2】　例1-1中，求测量结果大于0.452%的概率。

解　此例讨论测量结果大于0.452%的概率，属于单边分布，

由表1-4可知，u=1.40时，Φ（u）=0.4192，测量结果大于0.452%的概率为0.5000-0.4192=0.0808=8.08%。

关于测量结果的正态性检验见第2章2.4。

1.3 随机误差的正态分布

1.3.1 测量结果的分布

1.3.2 正态分布

1.3.3 标准正态分布

1.3　随机误差的正态分布

1.3.1　测量结果的分布

1.3.2　正态分布

1.3.3　标准正态分布