第四章 测量不确定度评定
第一节 测量不确定度概述
由于测量误差的存在,再加被测量自身定义和误差修正的不完善等缘故,被测量的真值难以准确复现,测量结果带有不确定性。长期以来,人们不断追求以最佳方式估计被测量的值,科学和合理地评价测量结果的质量高低。用测量不确定度来评定测量结果的质量高低,这是自20世纪80年代起国际上建议用于评定测量结果的新概念。正确掌握有关测量不确定度的几个名词术语、符号,并清楚认识如何从分析不确定度的来源出发,估计不确定度分量,合理进行测量结果的不确定度评定,对计量测试人员是十分重要的。
一、测量不确定度的概念
(一)测量不确定度的由来与应用
“不确定度”一词最早出现在1927年德国物理学家海森堡(Heisenberg)首次在量子力学领域中提出的测不准原理中。1963年美国原美国国家标准局(NBS)的Eisenhart首先在计量校准中提出了定量表示不确定度的建议。1970年以来,美国NBS推广计量保证方案(MAP),其中明确采用了不确定度的表示方法。一些国家计量部门也开始相继使用不确定度,但对不确定度的理解和表示方法尚缺乏一致性。1978年国际计量局书面征询各国意见后,起草了一份INC-1(1980)建议:实验不确定度表示。1981年10月国际计量委员会发文(CI—1981建议)批准了INC-1(1980)建议。CIPM在1986年再次重申CI-1981建议,并委托ISO联络其他六个国际组织,在考虑工商业利益的基础上提出一份详细的指南(CI-1986建议),这六个组织是:国际电工委员会(IEC)、国际计量局、国际法制计量组织、国际理论化学与应用化学联合会(IUPAC)、国际理论物理与应用物理联合会(IUPAP)、国际临床化学联合会(IFCC)。我国也参加了该工作组(ISO/TAG4/WG3)的活动。多年来,在形成几份指南草案的基础上,由ISO出版发行了《测量不确定度表示指南—1993(E)》(缩写为GUM)文件,1995年又做了修订和重印。GUM在术语、概念、评定方法和报告的表达方法上都已作了明确和统一的规定,它代表了当前国际上的约定做法,使各国和不同地区、不同领域在表示测量结果和测量不确定度时有了相互交流、取得一致的根据。在2001年召开的国际计量学指南联合委员会(JCGM)工作组会议上,讨论并决定要继续增补和完善1995 GUM的技术内容。
我国也非常重视测量不确定度的研究和应用工作,1999年发布了有关测量不确定度的GJB 3756—1999、JJF 1059—1999《测量不确定度评定与表示》等技术文件。2012年12月发布了JJF 1059.1—2012《测量不确定度评定与表示》、JJF 1059.2—2012《用蒙特卡洛法评定测量不确定度技术规范》等测量不确定度评定技术规范。
一些发达国家非常重视测量不确定度的问题,例如美国国家标准技术研究院(NIST)制定了执行国际指南的1992年方针,编入NIST的管理手册;1993年还起草了一份NIST指南文件。该文件简明扼要,规定具体,有较强的指导作用。国际上其他许多国家的校准实验室和计量机构,也纷纷在制定采用GUM的一些方针措施。一些区域性和全球性国际组织,都强调用GUM方法来表示测量结果,例如国际实验室认可合作组织(ILAK)、亚太实验室认可合作组织(APLAC)、亚太计量规则组织(APMP)、欧洲认可合作组织(EA)、欧洲计量组织(EUROMET)、西欧校准公司(WECC)等。
测量不确定度的基本概念、基本评定方法已经开始被人们接受,成为科技、经济、商贸等许多领域进行交流的依据。目前,在测量模型的建立与主要不确定度来源的确定方法、多变量情况、一般(工程)测量不确定度的评定,以及适用于非正态分布情形、小样本的贝叶斯估计、稳健自动化估计、动态测量问题等方面还待进行深入研究。
GUM文件规定了评定和表示测量不确定度的一种通用规则,它不仅限于计量领域中的检定、校准和检测。目前,测量不确定度的主要应用领域大致包括:
1)建立、保存和比较国际和国家的计量标准和标准物质。
2)计量认证、计量确认、质量认证及实验室认可的活动。
3)测量仪器的校准和检定。
4)生产过程中的质量保证与控制,以及产品的检验和测试。
5)科学研究与工程领域内的测量,以及与贸易结算、医疗卫生、安全防护、环境监测及资源测量等。
6)以上评定测量结果的场合,可以广义理解为对实验、测量方法、复杂部件和系统的概念设计和理论分析。
在以上各场合,凡需要给出测量结果、编制技术文件、出具报告和证书、发表技术论文或编著技术书籍时,均应按GUM正确地表述测量不确定度。
(二)测量不确定度的定义
测量不确定度(Uncertainty of Measurement)是与测量结果相关联的、表征合理地赋予被测量值分散性的参数。这个定义主要包含以下三个含义:
1)该参数是一个分散性参数。这个参数是一个可以定量表示测量结果的质量指标,它可以是标准偏差或其倍数,或说明了包含概率的区间半宽度。
2)该参数一般由若干分量组成,将它们统称为不确定度分量。关键是,对这些不确定度分量大小的估计要合理,最好还应知道每个分量估计的可靠程度。为了处理问题的方便,GUM规定,将这些分量的评定方法分为两类,即A类评定的分量和B类评定的分量。A类评定的分量,是依据一系列测量数据的统计分布获得的实验标准偏差。B类评定的分量,是基于经验或其他信息假定的概率分布给出的标准偏差。“INC-1(1980)建议”曾用sj和uj分别表示A类分量和B类分量,后来GUM又不加区别地记为uj。
3)该参数是用于完整表征测量结果的。完整地表征测量结果,应包括对被测量的最佳估计及其分散性参数两个部分。贡献于测量不确定度的部分,应包括所有的不确定度分量,在这些分量中,除了不可避免的随机影响对测量结果有贡献外,当然也包括由系统因素等的影响,如与修正值和参考标准有关的分量,均对分散性有贡献。
如果做到了以上三点,可以说该参数是合理赋予被测量值的分散性参数。最关键的是,在结合具体测量操作时,如何将不确定度分量考虑得合理呢?原则上,凡是对测量结果有影响的因素,即所有的测量不确定度源均应考虑进去。GUM强调,首先要注重建立测量模型关系,从寻找分析输入量、影响量和输出量之间的数量关系着手;其次,为了简化分析处理的方法,在搞清主要不确定度来源的前提下,可以丢弃次要的不确定度分量而保留主要的不确定度分量,力争做到合理而有效地进行测量不确定度的评定。
此外,还有以下几个与测量不确定度有关的名词术语。
标准不确定度(standard uncertainty):用标准偏差表示测量结果的不确定度。标准不确定度用符号u表示。
测量不确定度的A类评定(Type A evaluation of measurement uncertainty):在规定测量条件下测得的量值用统计分析的方法进行的测量不确定度分量的评定。
测量不确定度的B类评定(Type B evaluation of measurement uncertainty):用不同于测量不确定度A类评定的方法对测量不确定度分量进行的评定。
合成标准测量不确定度(combined standard measurement uncertainty):由一个测量模型中各输入量的标准测量不确定度获得的输出量的标准测量不确定度。简称合成标准不确定度,用符号uc表示。
扩展不确定度(expanded unceltainty):合成标准测量不确定度与一个大于1的数字因子的乘积。扩展不确定度用符号U表示,一般可记为U=kuc,k称为包含因子(在概率论与数理统计中称为“置信因子”)。对这个定义有以下几点说明:
1)该区间包含的大部分称为包含概率(Coverage Probability,Level of Confidence),而该区间半宽度往往是标准偏差的若干倍数。
2)将扩展不确定度与包含概率联系起来,应清楚了解(或正确假定)其表征的概率分布。
3)INC-1(1980)建议中曾称其为“总不确定度”。因不确定度的合成也包含“总”的含义,故自1993年起GUM的文件改称其为“扩展”不确定度。
(三)测量不确定度的来源
测量结果是测量的要素之一,而其他测量要素,如测量对象、测量资源、测量环境等均会在测量过程中对测量结果产生不同程度的影响。凡是对测量结果会产生影响的因素,均是测量不确定度的来源,它们可能来自以下几个方面:
1)对被测量的定义不完整或不完善。例如,定义被测量是一根标称值为1m的钢棒长度。如果要求测准至μm量级,则被测量的定义就不完整。由于定义的不完整会使测量结果中引入温度和大气压力影响测长的不确定度。如果在定义标称值为1m的钢棒在25.0℃和101 325Pa的长度下进行测量,就可避免由此引起的测量不确定度。
2)复现被测量的定义的方法不理想。例如,上述完整定义的钢棒长度,由于测量时温度和压力实际上达不到理想定义的要求(包括温度和压力的测量本身存在不确定度),使测量结果仍然引入了不确定度。
3)测量所取样本的代表性不够,即被测量的样本不能完全代表所定义的被测量。例如,被测量为某种介质材料在给定频率的相对介电常数。由于测量方法和测量设备的限制,只能取这种材料的一部分做成样块,然后对其进行测量,如果测量所用的样块在材料的成分或均匀性方面不能完全代表定义的被测量,则样块就引起测量的不确定度。另外,由于对被测量只能进行少数几次的测量,而又根据这几次测得的数据统计所测量的估计值及其标准偏差。在这之前和之后又进行过几次测量,也相应得到它们的测量标准偏差。那么,为了排除不同采样所引起的测量不确定度的差异,应当将该多次测量所得的测量不确定度按自由度进行加权平均后的结果,来评定其测量不确定度。
4)对测量过程受环境影响的认识不周全,或对环境条件的测量与控制不完善。同样以上述钢棒为例,不仅温度和压力会影响其长度,实际上,湿度和钢棒的支撑方式也会产生影响。由于认识不足,没有注意采取措施,也会引入测量不确定度。
5)对模拟式仪器的读数不准。模拟式仪器在读取其示值时,一般是估读到最小分度值的1/10。由于观测者的观测视线以及个人习惯不同等原因,可能对同一个状态下的显示值会有不同的估读值。这种差异将产生测量不确定度。
6)仪器计量性能上的局限性。仪器的未修正的系统误差、灵敏度、鉴别阈、分辨力、死区和稳定性等计量性能的限制,都可能是产生测量不确定度的来源。例如,一台数字式称重仪器,其指示装置的最低位数字是1g,即其分辨力为1g,可以认为该测值落在X-0.5g到X+0.5g的区间内机会均等。这里,因该仪器的分辨力限制引入的测量(扩展)不确定度为0.5g。
7)赋予测量标准和标准物质的标准值的不准确。通常的测量仪器都是通过与此相关的量值的测量标准来传递量值或校准其测量值。例如,用天平测量时,测得质量的不确定度中包括了标准砝码的不确定度。用卡尺测长时,测得的长度量的不确定度中应该包括该卡尺检校时所用的标准量块的不确定度。
8)引用常数或其他参量的不准确。例如,在精密测量黄铜工件的长度时,要用到黄铜材料的线胀系数,由有关的数据手册可以查到所需的线胀系数值,该值的不确定度同时由手册给出,它同样是造成测量结果的不确定度的一个来源。
9)与测量方法和测量程序有关的近似性或假定性。例如,被测量表达式的某种近似;自动测试程序的迭代程度,电测量中由于测量系统不完善引起的绝缘漏电、热电势、引线上的电阻压降等,均会引起测量的不确定度。
10)在表面上看来完全相同的测量条件下,被测量重复观测值的变化。这是我们在测量中不可避免的一种综合因素造成的随机影响,它必然也贡献于测量结果的不确定度。
11)在有察觉存在系统影响(误差)的情形,应当尽量设法找出其影响的大小,并对测量结果予以修正,对于修正后剩余的影响应当把它当为随机影响,在评定测量结果的不确定度中予以考虑。
12)在有的情况下,需要对某种测量条件变化,或者是在一个较长的规定时间内测量结果的变化做出评定。此时,也应把相应条件变化而合理赋予测量值的分散性大小作为该测量条件下的测量结果的不确定度。
以上的各种不确定度来源可以分别归为设备、方法、环境、人员等带来的不确定性,以及各种随机影响和修正各种系统影响的不完善,特别还包括被测量定义、复现和抽样的不确定性等。总的说来,所有的不确定度源对测量结果都有贡献,原则上都不应轻易忽略。但是当对各个不确定度来源和大小都比较清楚的前提下,为了简化对测量结果的评定,就应力求“抓主舍次”。另外,这些来源也未必相互独立,在分析处理时,还有一些细致的考虑。这些问题,留待在后面讨论测量不确定度分量的两类评定方法以及不确定度合成问题时,再予以具体讨论。
(四)几个相关的名词概念
测量不确定度涉及计量学(即测量科学)的基本概念,为此需要说明以下几个与此相关的名词概念。正确理解并用好这几个名词,对分析掌握误差和不确定度的概念及其处理方法都是有用的。
1.被测量(Measurand)
被测量是指接受测量的特定量。对某被测量的定义应与测量所需的准确度相适应,或说按所需准确度而完善地定义。
“被测量的值”指与被测量定义完全一致的值,即“真值”。然而,“真值”不仅在实际操作上不可真得,而且因对被测量本身定义的某种不完善也不可真得,在某些情况下只可得到“约定真值”或者是在某准确度等级意义下的“合理赋予被测量的值”。因此国际上已不再提倡用“真值”一词。
2.复现量(Realized Quantity)
复现量是指实际测得的量,俗称观测值。由于对被测量定义的不完全,以及测量过程的不完善,复现量(的值)并不等于被测量(的值),而是对被测量的一种(最佳)估计。一般俗称实际测得量或测得值,现称为复现量更为科学。
以上各种情况所得的复现量都是对被测量的一种估计,随着测量完善程度的不同,而有不同的不确定度。为使复现量带有更小的不确定度,必须更完全地定义被测量,并将测量的不完善减至最小。
3.测量结果(Result of a Measurement)
测量结果是指由测量所赋予被测量的值。由于测量的不完善,赋予被测量的值往往不唯一,而是赋予分散的无限多个值。由于真值不可通过测量得到,因此所得测量结果只能是被测量的一个最佳估计值。在必要时,应表明这个复现量的示值、未修正结果或已修正结果,还应表明是否对多次测量的值进行了平均。为了完整地表示测量结果,必须附带其测量不确定度。必要时,应说明测量所处的条件,或影响量的取值范围。测量结果的获得,依赖于(重复)观测,或是借助于间接测量的测量模型。
4.(测量)误差(Error)
误差是指测量结果与真值之差。由于真值是理想的概念,在实际测量场合,真值往往不存在;在某些测量场合也只能获知约定真值。严格地说,约定真值含有相应的不确定度,故误差的大小和方向不可准确知道。另一方面,由于测量的不完善,也必然使测量结果带有误差。因此测量误差是客观存在,而且它总是带有一定分布范围的概念。误差可分为随机(偶然)的和系统的。随机误差不可避免,根据抵偿性,可适当增加测量次数来减小它。对系统误差,如果已知其来源,可采取技术措施消除或补偿它,或者能分析其对测量结果的影响而进行修正。显著的粗大误差可以从物理来源上或用统计检验方法判断后消除。最终,总是剩下尚未认识的误差(包括减小后的随机误差、修正不完善的系统误差、不显著的粗大误差以及其他尚未认识的误差等),它们仍然对测量结果的不确定度有贡献。
由于尚未认识的误差源客观存在,因而也是无法减小、消除、补偿和修正的。由于这个原因,尽管已有测量误差以及诸如准确度、正确度和精密度等名词的提法,但在最终表示测量结果时,这些尚未认识的误差源仍然对测量结果的不确定度有“贡献”。再加前面提到的还有不属于误差源的其他不确定度来源,因此仅用误差的大小来表示测量结果的测不准大小是既不便操作,也不够完备,只有用以上定义的“不确定度”来评定测量结果的测不准大小才是更为科学、合理的。
5.不确定度(Uncertainty)
不确定度是指不能肯定或有怀疑的程度。测量不确定度是指对测量结果(复现量)的不能肯定的程度,它反映了对被测量的“真值”的认识的不足。如何理解这一点呢?经测量,合理地赋予被测量的值不是唯一的,而是有许多个可能的值,“真值”在何处并不知道,而只可能获知一个最佳估计值,而“真值”是在最佳估计值的一个不确定度范围内。这与人们对现实世界的认识程度相一致。如图4-1a所示,在系统偏差已修正的前提下,不确定度小,肯定测量结果与被测量的真值很接近(即误差也小)。虽不能排除未修正或修正不完善而引入的系统误差(此误差仍占有一定的大小),但总体上仍赋予测量结果一个小的分散性参数。如图4-1b所示,不确定度大,也可能某测量结果与被测量的真值很接近(即误差很小),但尚未认识到,因此只能赋予测量结果一个较大的分散性参数。总之,测量不确定度的大小,反映了测量者对被测量的认识的程度,是一个可操作性的定义(过去有的规定曾经定义不确定度是可能误差或真值所处范围的度量,因涉及误差或真值,这种定义不易操作,故欠妥)。在系统偏差已修正的前提下,不确定度小,误差肯定也小,但误差不可准确知道;不确定度大,误差或大或小,限于认识水平,误差尚不清楚。不确定度的大小决定了测量结果的使用价值,成为一个可以操作的合理表征测量质量的一个重要指标。
图4-1 测量不确定度与误差、真值
二、测量不确定度与测量误差
测量误差是指测量结果与真值之差。由于真值是理想的概念,在某些测量场合也只能获知约定真值。严格地说,约定真值含有相应的不确定度,加上被测量自身定义的不完善等,故造成了误差是不可“真”知的。因此人们尽管主观愿望但实际无法严格得知其测量结果离开真值有多远。人们转而关心其测量结果的可信程度的大小。有人可能会说,用来表示随机误差大小的一个数字特征量,即标准偏差不就是用来表示测量结果的分散性的大小吗?问题是,该标准偏差并不是包含合理赋予被测量的、所有影响该测量结果的分散性参数。所以有必要引入表征合理赋予被测量的分散性参数,即测量不确定度的新概念。只有用该定义的“测量不确定度”来评定测量结果的测不准大小,才是更为合理和完备的。不确定度小,则说明该测量结果的质量好,使用价值大,其测量的质量水平高;反之,则效果相反。
比较测量不确定度与测量误差,两者的定义既有联系,又有区别。所谓联系是指两者都与测量结果有关,而且两者是从不同角度反映了测量结果的质量指标。前者是指对测量结果的不能肯定的程度,后者是指测量结果相对真值的差异大小。对于前者,人们在主观上是完全可以根据所掌握的有关测量结果的数据信息来估计,后者在严格意义上是主观不可知的,但在已知约定真值的情况下测量误差又是可知的。不确定度的大小决定了测量结果的使用价值,成为一个可以操作的合理表征测量质量的一个重要指标。测量误差主要是用在测量过程中对误差源的分析,即通过这样的误差分析,设法采取措施达到减小、修正和消除误差的目的,提高测量的质量水平;当然,它也可用于最终对测量结果中所含误差的分析与处理。最终,在评价测量结果之前,先需要对测量所得的数据进行正确的统计与处理后,给出最佳的估计;同时,还需要视可掌握的相关测量信息,采用测量不确定度的评定和表示方法,合理给出对该测量结果所评定的测量不确定度的大小。
总之,测量误差与测量不确定度是两个不同的概念,不应混淆或误用。两者的区别与联系见表4-1。
表4-1 测量误差与测量不确定度的区别