统计理论与实务(第2版)
上QQ阅读APP看书,第一时间看更新

第三节 统计学中的几个基本概念

统计学研究社会现象的数量方面,包括社会现象的规模、水平、结构、比例关系、发展速度等。这些数量方面靠什么来反映?靠统计指标。什么叫统计指标?怎样构成?为了回答这些问题,有必要先介绍统计学中最常用的几个基本概念。这些概念很重要,在统计中要经常用到,应该理解它们的准确含义。

一、统计总体与总体单位

凡是客观存在的,在同一性质基础上结合起来的许多个别事物的整体,就是统计总体,简称总体。例如,高等学校是一个总体,因为高等学校是客观存在的,每个高等学校的职能是相同的(统一性质),即进行教学活动或教学与科研活动,是培养人才的基层单位。各个事物在某一点上的共同性(称“同质性”)是形成统计总体的一个必要条件,也是作为统计总体的一个重要特征。

构成统计总体的个别事物称总体单位。例如,构成“高等学校”这一统计总体的清华大学、山东大学、山东财经大学、山东外国语职业学院等都是总体单位。一个统计总体包括的单位数可以是无限的(无限总体),也可以是有限的(有限总体)。例如,在连续大量生产的某种小件(如小铁钉、小弹簧)产品中,总产量可以看作是无限的。在社会经济现象中,统计总体大多是有限的,例如,人口总数、学生总数、企业总数、学校总数等都是有限总体。在统计中,不能全面调整无限总体,只能调查其中很小一部分单位,据以推断总体。例如,对大量连续生产的小件商品,很难全部检验其产品质量,只能抽查其中一小部分产品,据以推断全部产品。对有限总体既可全面调查,也可只调查其中一小部分,如人口普查(全面)及人口抽查(小部分)。调查总体的一小部分单位时,往往要根据这些局部资料来推算整体。为了保证这种推算的准确性、可靠性,就必须设法使局部资料具有充分的代表性。提高这种代表性有多种办法,其中一个重要方法就是使这个局部资料尽可能多地包括一些单位,因为单位数如果太少,就会出现偏高或偏低的偶然因素,降低代表性。如果单位增多,这种偶然偏差就会趋于互相抵消,从而提高其代表性,有可能显现出总体的真实情况。例如,某市职工是一个总体,每个职工是一个总体单位,如果要了解职工工资的一般水平,只调查少数几个职工是不行的,因为所调查的几个工人恰巧都是老工人、技术工人,其工资可能偏高;而所调查的几个工人如果都是新工人、普通工人,则其工资可能偏低。这种偏高、偏低都不能代表全体。但是,如果抽查足够多的职工,如几千人或几万人,那么就能包含各行业、各类型工人,求其平均数,则抽查到的工人中偏高、偏低因素会相互冲消,偶然性偏差会大大减小,可以得出比较可靠的结论。调查的单位越多,据以推算的总体的可靠性就越高。这个方法在统计中称为大量观察法。所抽出的部分单位实际上也是一个小规模的总体。

总体和总体单位的概念不是固定不变的,而是随着统计研究目的的不同可以转化。例如,某市纺织工业局所属企业是一个总体,这个总体是我们研究该市纺织工业有关情况的研究对象,每个纺织工厂是这个总体中的一个单位。但是,如果要研究一个典型纺织厂的内部情况,则上述统计总体中的某一个单位(该典型企业)又变为总体了。

二、标志与指标

标志是说明总体单位属性和特征的名称,有品质标志和数量标志之分。品质标志是表示事物质的特征,一般用文字叙述,而不能用数值表示,如人的性别、企业的类型。数量标志表示事物量的特征,是用数值表示的,如人的身高、企业的总产值、商店的销售额等。标志的具体表现是在标志名称之后所表现的属性和数值。例如,某工人的性别是“男”、民族是“汉族”。这里“男”和“汉族”是品质标志名称“性别”和“民族”的属性,是这类标志的具体表现。又例如该工人的年龄是45岁,工资是3500元,则“年龄”和“工资”是数量标志的名称,“45岁”和“3500元”则是它们的具体数值表现。

每个总体单位从不同角度考察,可以有许多属性和特征。例如,每一生产工人可以有社会成分、性别、年龄、民族、文化程度、工种、工龄、工资等属性和特征,这些都是工人的标志。这些标志在总体单位之间各有一定的表现,有的相同,有的不相同。因此,标志又可分为不变标志和变异标志。标志如果在总体各单位之间的表现完全相同,则该标志称为不变标志。社会成分在各工人之间都一样,社会成分就是生产工人的不变标志。任何总体的各个总体单位至少有一个共同的、使它们能够结合在一起的不变标志,它构成总体同质的基础。标志如果在总体单位之间的具体表现不完全相同,则该标志称为变异标志。上述除社会成分外的其他属性和特征,均为生产工人的变异标志。它构成统计认识的内容和根据。

根据统计研究目的,确定所要研究的社会现象的总体和总体单位后,对总体各单位的标志的具体表现进行登记汇总,最后形成说明总体综合特征的各种数字资料,就是统计指标,统计指标一般具有3个特点。

① 它是综合性的,是说明总体综合特征的。

② 它是一定质的规定下的数量方面,反映一定的社会经济范畴。

③ 它是用数字表示的,表现为数字资料。因为,统计指标可以理解为反映一定社会经济范畴的总体综合性的数字资料指标由综合总体各单位的有关资料而形成的,因此也称作综合指标。它包括总量指标,如总产值、净利润、职工总数、工资总额等;相对指标,如男女职工的比重、产品合格率、农产品商品率等;平均指标,如劳动生产率、平均亩产量、职工的平均工资、单位产品消耗等。

统计指标由指标名称和指标数值构成。指标名称是指标质的规定,它是社会经济范畴;指标数值是量的规定,它是根据指标的内容计算的具体数值。同一个指标可以表现为不同的指标数值。指标一方面是抽象的社会经济范畴的具体化,另一方面是具体的总体单位变异、变量的抽象化。

(一)统计指标按其内容的不同,可分为数量指标和质量指标

数量指标是指说明现象规律和水平的各种总量指标。质量指标是指反映生产经营效果和工作质量的各种相对指标和平均指标。质量指标通常由两个有联系的数量指标进行对比求得,也可以由两个有联系的质量指标或一个数量指标和一个质量指标对比求得。

(二)统计指标按其计量的单位的不同,可分为实物指标和价值指标

实物指标采用实物计量单位,直接反映产品的使用价值数量。价值指标采用货币计量单位,标志产品的社会必要劳动量。

关于指标和标志的关系,有必要加以说明。指标与标志有明显的区别,又有密切的联系。两者的主要区别如下。

(1)指标是说明总体特征的,而标志是说明单位特征的。

(2)标志有不能用数值表示的品质标志与能用数值表示的数量标志两种,而指标都是用数值表示的,没有不能用数值表示的统计指标。

指标与标志的联系,也有如下两点。

(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的,如一个工业主管局的总产值是从所属各企业总产值汇总而来的,一个县的粮食总产量是所属各乡、村粮食产量的总和。

(2)指标与数量标志之间存在着转换关系。由于研究的目的不同,原来的统计总体变成统计单位了,则相应的统计指标就变成数量指标了,反过来也是如此。例如,前面在研究某市纺织工业局的生产情况时,局属各厂的总产值是总体单位的数量标志,各厂总产值的总和是该局的统计指标,即纺织工业局的总产值。现在,如果研究目的改为全市各工业局的总产值之和是全市工业统计指标,而纺织工业局只是这个新统计总体中的一个单位,该局的总产值只成为说明这个总体单位的数量标志了。

一项统计工作往往统计多项指标,由一系列相互联系的统计指标构成统计指标体系。

三、变异与变量

统计中的标志和指标都是可变的,那就是,标志和指标的具体表现各不相同。因此,变异标志(包括品质标志和数量标志)在总体单位之间的不同具体表现一般都可以称为变异。但严格地说,变异仅指品质标志的不同具体表现。例如,性别表现为“男”“女”,民族表现为“汉”“回”“满”“蒙”“维”“壮”……

数量标志的不同具体表现称为变量,如某生产工人的年龄为50岁、工龄28年、工资1800元等。品质标志的变异最后表现为数量差别,如按教师的性别,汇总计算出男女各多少人,才能构成统计研究的对象。观察、登记总体各单位品质标志和数量标志的变异和变量,是统计研究的起点。

在这里,还要分清变量和变量值这两个概念。如上所述,可变的数量标志就是变量,所有的统计指标也都是变量。变量的数值表现就是变量值,也就是可变的数量标志和统计指标的不同取值。例如,“职工人数”是一个变量值,因为各厂的工人数多少不等,如甲工厂52人,乙工厂5000人,丙工厂800人,都是“职工人数”这个变量的不同取值。“变量”这个概念在统计中很重要,但要注意不能误用。例如,有4个人的工资分别为450元、890元、1500元、1650元,要求计算其平均工资,不能说求这4个变量的平均数,因为这里只有“工资”这一个变量,并没有4个变量,所要平均的是“工资”这个变量的4个数值,即4个变量值。只有在相关分析中才有几个变量的问题,那是研究变量之间的关系的,也不可能把几个性质不同的变量加起来求平均数。

变量按其取值是否连续,可分为离散型变量和连续型变量。离散型变量指只能取整数的变量。职工人数、企业数、设备数等都属于离散型变量。连续型变量指在整数之间可插入实数的变量。总产值、资金、成本、利润、身高、体重、年龄等都属于连续型变量。

变量按其所受因素影响的不同,可分为确定性变量和随机性变量。由确定因素影响形成的变量为确定性变量。例如,推广良种可使农作物增产,这是个确定性因素的影响,但其增产的数量是不确定的,因为除了良种以外,还有土质、雨量、天气、施肥等因素的影响。由随机性因素的影响形成的变量为随机性变量。如产品质量检验,在所控制的质量数据范围内,由于受偶然因素如温度、金属的延伸、电压的高低、机器转速快慢等影响,产品的数据也不是绝对相同的,它们与质量标准有一定的误差,这是随机性因素的影响。现实社会现象中的总体变量既包括确定性变量,又包括随机性变量,因而对总体变量的认识比较复杂,既要运用社会经济统计学的认识方法,又要运用数理统计学的方法。