第三节 统计学的基本概念
现代统计学概念众多,其中有几个概念是经常用到的,准确理解这些概念对以后各章的学习至关重要,因此有必要对其单独介绍,这些概念包括总体、样本、标志、指标、指标体系、参数、统计量和变量等。
一、总体和样本
定义1.2 在同一性质基础上结合起来要研究的许多个别事物(数据)的集合被称为统计总体,简称总体(population)。
总体通常由所研究的一些个体组成,例如,要研究乡镇工业企业的数量特征,多个乡镇工业企业结合构成的集合就形成一个总体,因为每一个乡镇工业企业的经济职能是相同的(同一性质),即进行工业生产活动的基层单位。各个事物在某一点上的共同性(即同质性),是形成统计总体的必要条件,也是作为统计总体的一个重要特征。组成总体的每一个元素称为总体单位或个体。在乡镇工业企业总体中,每个乡镇工业企业是一个个体。
在统计学的研究中,确定总体的范围是开展研究工作的第一步。但总体范围的确定有时比较明确,而有时却比较困难。比如,要研究某省的乡镇工业企业的利润情况,这个省在册的乡镇工业企业构成的集合就是一个总体,每个乡镇工业企业就是一个个体,总体的范围很清楚。而对于某食品公司新推出的一种新口味食品,要想知道消费者是否喜欢,首先必须弄清楚哪些人是消费的对象,也就是要确定构成该口味食品的消费者这一总体。但在现实生活中,我们很难确定哪些消费者是这种新口味食品的潜在消费者,总体范围的确定就变得十分困难。在总体范围难以确定的情况下,可以根据研究的需要,重新定义总体,例如,上例中,我们可以通过定义消费者的年龄来缩小总体范围。
一个统计总体中所包括的单位数可以是无限的,称为无限总体;也可以是有限的,称为有限总体。例如,在科学实验中,每个实验数据可以看作一个总体中的一个元素,而实验则可以无限地进行下去,因此,由实验数据构成的总体就是一个无限总体。在现实的统计学研究中,统计总体大多数是有限的,例如,人口总数、企业总数、待检验的产品总数等,都是有限总体。
对总体无限和有限的划分,其主要目的是为了推断统计的需要。对无限总体而言,每次抽取一个单位,并不影响下一次的抽样结果,因此,每次抽取可以看作是独立的;对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果会影响第二次的抽样结果,因此,每次抽样是不独立的。所以,对不同类型的总体进行抽样,抽样对推断结果的影响是不一样的。
定义1.3 从总体中抽取的一部分元素的集合,称为样本(sample)。
定义1.4 构成样本的元素的数目,称为样本容量(sample size),通常简称为样本量。
上面已经提到,从总体中抽取一部分元素作为样本,目的就是要根据样本提供的有关信息去推断总体的特征。比如,要测算新生产出来的1000台液晶显示器的平均寿命,可以从这1000台液晶显示器中随机抽取50台,这50台液晶显示器就构成了一个样本;然后,根据这50台液晶显示器的平均使用寿命去推断这1000台液晶显示器的平均寿命。
二、标志、指标和指标体系
1. 标志
定义1.5 标志(characteristic),是表达总体单位或个体的特征、属性的名称。
例如,在研究某单位职工的构成状况时,该单位的职工就是一个总体单位,职工的性别、年龄、民族、工资收入等是每个职工个体所具有的标志。
标志按其表现形式分为品质标志和数量标志,品质标志是表明个体的特征或属性,一般只能用文字表述,不能用数值表示,如某职工的性别为“女”、民族为“汉族”,这里的“女”和“汉族”分别是品质标志“性别”和“民族”的属性,是这类品质的具体表现。品质标志主要作为统计分组的依据,数量标志是反映个体量的特征。数量标志可用数量具体表示,如某职工的年龄是30岁、工资收入是3000元,则“年龄”和“工资”是数量标志,而“30岁”和“3000元”是它们的数值表现。数量标志除了用以统计分组,还可用于计算有关平均指标。
2. 指标
定义1.6 指标(index)是反映总体现象数量特征的概念。
指标是统计学中最重要的基本概念。在统计中,统计指标占居中心地位,许多统计方法都是围绕指标而产生的。例如人口数、职工人数、工农业总产值、国内生产总值、商品销售额、劳动生产率、失业率等。统计指标通常有三个要素,即指标名称、计量单位和计算方法。需要特殊说明的是,统计指标的含义有时还包括具体数值,比如,2008年按支出法核算的我国国内生产总值(GDP)总额为306859.8亿元,其中货物和服务净出口额为24134.9亿元。这些都是统计指标,按照这种理解,统计指标除包括上面三个要素之外,还包括时间限制、空间限制和指标数值三个要素。这六个要素可以归纳为两个组成部分,一是统计指标概念,二是统计指标数值。
指标的主要特点有以下三点。
(1)数量性。指标反映的是客观现象的量,而且是一定可以用数字表现的,不存在不能用数字表现的统计指标,即使是不包括数值的统计指标也具有这个特点。客观现象必须是可以度量的才能够用数字表现它。
(2)综合性。统计指标说明的对象是总体而不是个体,它是许多个体现象数量综合的结果。一个人的年龄、一个人的工资等都不叫作统计指标,而许多人的平均年龄,许多人的工资总额和平均工资才叫作统计指标,个体现象的数量综合成为统计指标有一个前提条件,这些个体在性质上必须是同类的,把性质不同类的现象综合成统计指标会歪曲人们对客观现象的认识。
(3)具体性。统计指标不是抽象的概念和数字,它是具体的社会现象和自然现象量的反映。不存在脱离了质的内容的统计指标。
指标从不同的角度可划分为不同的种类。
指标按其所说明的总体现象内容的特征,可分为数量指标和质量指标。①数量指标亦称外延指标,它反映事物总体的范围大小绝对数量,是认识事物总体数量的出发点,如全国人口数目、国内生产总值等;②质量指标亦称内含指标,它是反映总体内部的结构、比例和水平等数量关系的,如第三产业在国内生产总值的比重,城镇居民平均每人可支配的生活费收入等。
指标按其表现形式,可分为总量指标、相对指标和平均指标。①总量指标亦称绝对数,是反映总体现象规模的统计指标;②相对指标亦称相对数,是两个有联系的总量指标相对比的结果,可以反映现象总体的结构、比例、速度、强度及密度等;③平均指标亦称平均数,用于说明某一数量标志或者等级在一定时间、空间条件下的一般水平,如平均工资、平均成本、劳动生产率等。
3. 指标体系
定义1.7 若干个相互联系的统计指标组成的整体称为指标体系。
习惯上,统计指标指的是单个的统计指标或是笼统的所有的统计指标,但各个统计指标不是孤立的,在一定的范围或条件下是相互联系的。单个统计指标反映总体现象的一个侧面,了解和研究总体现象要使用一套相互联系的统计指标。由于社会经济现象本身的联系是多种多样的,所以统计指标之间的联系也是多种多样的。例如,一个工业企业是人力、物资、资金、生产、供应、销售相互联系的整体运动,用一系列统计指标反映和研究工业企业的全面情况,这就组成了工业企业统计指标体系。
和单个统计指标相比较,统计指标体系是应用更为广泛和更为重要的手段,因为,任何社会现象和自然现象都是一个相互联系的有机整体。一个企业是由许多有机联系的部门组成的整体,整个国民经济是由许多有机联系的部门或地区组成的整体,生产、分配、流通、消费是有机联系的复杂过程。人类所进行的各种社会活动也是相互联系的。这种社会经济现象的相互联系是产生统计指标体系的客观基础,同时也产生了使用统计指标体系的要求。另外,以对社会现象总体的认识来讲,一个指标的作用是有限的,因为它只能反映社会总体及其运动的一个侧面,不能只靠一个指标来了解情况和做出判断,而要使用相互联系的一套指标来反映它和研究它,否则,就容易产生片面性。对自然现象的认识也是如此,需要使用一整套相互联系的指标才能揭示自然现象的本质。
三、参数、统计量和变量
定义1.8 用来描述总体特征的概括性数字度量,称为参数(parameter)。
参数是研究者为了了解总体的某种特征而统计出来的某种特征值。一般来讲,研究者所关心的参数常有总体平均数,总体标准差等。由于总体数据通常是不知道的,所以参数是一个未知的常数。比如,不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭收入的差异,不知道一批产品的合格率,等等。因为参数是未知的,所以才进行抽样,根据样本计算出来的统计量去估计总体参数。参数估计是统计研究的重要内容,后面的章节会详细介绍。
定义1.9 用来描述样本特征的概括性数字度量,称为统计量(statistic)。
与参数相比,统计量是根据已知的样本数据计算出来的一个量。研究者通常关心的统计量有样本平均数、样本标准差等。由于样本是从总体中抽取出来的,所以统计量总是可以求得的。抽样的目的是根据样本统计量去估计总体参数,比如,我们可以用样本平均数去估计总体平均数,用样本标准差去估计总体标准差等。
除了上面提到的常用的样本统计量之外,常用的样本统计量还有用于统计检验的z统计量、t统计量、F统计量等,它们的内容将在后面相关的章节中再作系统介绍。
定义1.10 说明现象某种特征的概念,称为变量(variable)。
顾名思义,变量的特点是从一次观察到下一次观察会呈现出差别或变化。如“商品销售额”“受教育程度”“年龄”等都是变量。变量的具体取值称为变量值,比如商品销售额可以为10万元、20万元、30万元……这些数字就是变量值。统计数据就是统计变量的某些取值。