第二节 统计数据类型和统计研究方法
统计数据是统计含义的核心。统计数据能够揭示社会经济现象的规律。统计数据可按不同标志分类。
一、统计数据类型
(一)统计数据按照采用的计量尺度不同,可以分为定性数据与定量数据两类
1. 定性数据
定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类数据与定序数据两种。
(1)定类数据。它是对事物进行分类的结果,表现为类别,由定类尺度计量而成。例如,人口按照性别分为男、女两种类别,人的消费按照支出去向分为衣、食、住、行、烧、用、医、文、娱、健等类别,这都属于定类数据。为了便于统计处理(计算机录入等计数处理),常用数字代码来表示各个类别。例如,分别用1,0表示男性与女性,分别用1,2,3,4,5,6,7,8,9,10等表示衣、食、住、行、烧、用、医、文、娱、健等。需要注意的是,这时的数字没有任何程度上的差别或大小多少之分,只是符号而已。
(2)定序数据。它是对事物按照一定的排序进行分类的结果,表现为有顺序的类别,由定序尺度计量而成。例如,学生的考试成绩表示为优、良、中、及格、不及格,课题成果的鉴定等级表示为A,B,C,消费者对某产品的满意程度表示为很满意、满意、一般、不满意、很不满意,等等,这都属于定序数据。同样,定序数据也可以用数字代码来表示,例如,学生的考试成绩可以分别用5,4,3,2,1来表示优、良、中、及格、不及格。这时,数据代码能体现一种顺序或程度的不同,但还不能体现事物之间或不同结果之间(如及格与不及格之间、很满意与满意之间)的具体数量差别。定序数据包含的信息量大于定类数据。
2. 定量数据
定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。
(1)定距数据。它是一种不仅能反映事物所属的类别和顺序,还能反映事物类别或顺序之间数量差距的数据,由定距尺度计量而成。例如,两位学生的考试成绩分别为85分和55分,不仅说明前者良好,后者不及格,前者高于后者,而且说明前者比后者高30分。再例如,某日甲、乙、丙三地的最高气温分别为30℃、20℃和10℃,说明该日甲与乙之间最高温度的温差等于乙与丙之间的温差,都是10℃。但要注意的是,定距数据一般只适合于进行加减计算而不适合乘除运算。例如,气温30℃与10℃相比,并不能说明前者的暖和程度是后者的3倍,因为气温可以是0℃或0℃以下,而0℃或0℃以下并不代表没有温度。这种情况称为不存在绝对零点的现象,类似的还有企业利润等。
(2)定比数据。它是一种不仅能体现事物之间的数量差距,还能通过对比运算,即计算两个测度值之间的比值来体现相对程度的数据。它由定比尺度计量而成。只要是反映存在绝对零点的现象(即0代表没有)的数据,都是可以进行对比运算的定比数据。例如,企业销售收入3亿元,人的身高176厘米、体重65千克,物体的长度30厘米、面积600平方厘米、容积9000立方厘米,水稻的平均亩产400千克/亩,某地区的人均国民生产总值25000元/人、第三产业比重48%等,都是定比数据。定比数据是包含信息量最多的数据,绝大多数统计数据都属于这一类。
定性数据在一定条件下可以转化为定量数据。定类数据是指通过计数的方法可以计算出各类别的频数及在总体中的比重;对于定序数据,在一定的假设下,可对定序的数字代码进行统计计算(如计算平均数、标准差等),计算结果在假设范围内有意义。在统计处理与统计分析中,如何使定性数据尽量客观地反映实际并提供尽可能多的信息,是一个非常重要的统计问题。
(二)统计数据按照其表现形式不同,可以分为绝对数、相对数和平均数三类
1. 绝对数
绝对数是用以反映现象或事物绝对数量特征的数据,它以最直观、最基本的形式体现现象或事物的外在数量特征,有明确的计量单位。例如,人的身高176厘米、体重65公斤,地区的人口数500万人、属地面积11000平方公里、国内生产总值1250亿元,企业销售收入15亿元、利润2.1亿元等,都是有明确计量单位的绝对数。绝对数是表现直接数量标志或总量指标的形式。
2. 相对数
相对数是用以反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现现象(事物)内部或现象(事物)之间的联系、关系,其结果主要表现为没有明确计量单位的无名数、少部分表现为有明确计量单位的有名数(限于强度相对数)。具体的,相对数又包含结构相对数(如某地区三大产业比重为12%、48%和40%)、比例相对数(如新生婴儿男女性别比为107∶100)、比较相对数(如A地区的人均国内生产总值是B地区的1.2倍)、动态相对数(如某地区国内生产总值的发展速度为109%)、强度相对数(如某地区的人口密度为300人/平方公里,人口出生率为11‰)和计划完成程度相对数(如企业产量计划完成程度为120%)6种。相对数是表现相对指标的形式。
3. 平均数
平均数是用以反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。例如,某班级同学的平均年龄为19岁,某年某企业职工的平均月收入为1500元,某年某地区居民的平均月消费支出为800元等,都是平均数。具体来说,平均数可以按计算方式不同分为算数平均数、调和平均数、几何平均数等数值平均数与众数、中位数等位置平均数,按时间状态不同分为静态平均数与动态平均数。平均数是表现平均指标的形式。
通过各种尺度计量而成的统计数据,最终都可以归结为绝对数、相对数和平均数这三大表现形式。这部分内容将在第三章中详细介绍。
(三)统计数据按照其来源不同,可以分为观测数据与实验数据两类
1. 观测数据
观测数据是通过统计调查或观测的方式获取的反映研究现象客观存在的数量特征的数据,这类数据是在没有人为控制的条件下产生的。有关社会经济现象的统计数据几乎都是观测数据。
2. 实验数据
实验数据是在人为控制的条件下,通过实验的方式而获得的关于实验对象的数据。自然科学研究中的数据大都属于实验数据,如生物实验数据、产品性能实验数据、药物疗效实验数据等。随着实验方法在经济等领域的应用,逐步形成了实验经济等学科,在经济等领域出现了许多实验数据。
(四)统计数据按照其加工程度不同,可以分为原始数据与次级数据两类
1. 原始数据
原始数据是指直接向调查对象收集的、尚待加工整理、只反映个体特征的数据,或通过实验采集的原始记录数据。原始数据是统计数据收集的主体。
2. 次级数据
次级数据也称为加工数据或二手数据,是指已经过加工整理、能反映总体数量特征的各种非原始数据。次级数据又包括直接根据原始数据整理而来的汇总数据,以及根据各种已有数据进行推算而来的推算数据。如果次级数据已能满足有关分析和研究需要,就不应再去收集原始数据,以免造成浪费。次级数据的来源包括各种统计年鉴、有关期刊和网站等。
(五)统计数据按照其时间或空间状态不同,可以分为时序数据与截面数据两类
1. 时序数据
时序数据是时间数列数据的简称,是对同一现象在不同时间上收集到的数据(空间状态相同,时间状态不同),描述的是现象某一方面(或某几方面)的数量特征随时间而变化的情况。例如,把我国2000年以来的国内生产总值数据按时间先后顺序加以排列,就形成了我国国内生产总值的时序数据。
2. 截面数据
截面数据是对一些同类现象在相同或近似相同的时间上收集到的数据(空间状态不同,时间状态相同),描述的是在相同时间状态下,同类现象的数量特征在不同空间状态的差异情况。例如,我国某年各省、市、区的国内生产总值数据,就是截面数据。
有时,时序数据与截面数据可以结合起来,称为平行数据(时间、空间状态都不同),例如,列出历年各省、市、区的国内生产总值数据,就成为平行数据。
二、统计数据研究过程
统计数据研究过程,也就是统计工作过程,包括以下4个基本环节:统计设计、数据收集、数据整理、数据分析与解释。
(一)统计设计
统计设计就是制定统计数据研究方案的环节,是关于以后各环节的总体安排。统计设计要在有关学科的理论指导下,根据研究问题的性质、目的和任务,科学地确定统计研究的总体对象,明确所要收集数据的种类,确定相应的统计指标及其体系并给出统一的定义和标准,确定统计数据收集、整理、推断和分析的基本方法,规定研究工作的进度安排和质量要求,拟定研究工作的资源配置和组织实施方式等。统计设计对于研究统计数据的质量至关重要,要求设计者不仅要掌握系统的统计学理论和方法,还应具有所研究领域的有关知识和理论素养。
(二)数据收集
数据收集就是按照统计设计的要求,有针对地获取所需的统计数据的环节,也称为统计调查环节。也就是说,要通过统计观测或实验的方式、方法收集各类计算统计指标所需的原始数据,以及其他已经存在的各类相关数据。数据收集是否准确、及时、完整,直接影响到统计分析的质量。
(三)数据整理
数据整理就是对通过统计观测或实验所获得的原始数据,进行必要的系统处理,使之条理化、综合化,成为能反映总体特征的统计数据环节,也称为统计整理环节。数据整理也包括对已有数据的再加工和深加工。数据整理的手段有统计分组、汇总和计算等,整理结果表现为统计图、统计表或统计指标。
(四)数据分析与解释
数据分析是在数据整理的基础上,围绕统计设计确定的研究任务,运用各种统计方法对数据进行各种统计分析,得出某些有用的定量结论的环节,也称为统计分析环节。数据分析实质上就是对数据的深加工整理,是整个统计研究的核心,也是统计研究的最终目的。在这个环节,既要用到描述统计方法,又要用到推断统计方法。
数据解释则是对整理和分析的数据或有关数量结果进行说明,即说明为什么会得出这些数据,这些数据的含义分别是什么,从中能得出哪些规律性的结论,需要进一步探讨哪些问题等。数据解释是对数据分析的深化。
三、统计数据研究方法
统计数据研究的基本方法有大量观察法、统计分组法、综合指标法、统计推断法和统计模型法。
(一)大量观察法
大量观察法是统计数据收集环节(统计调查环节)的基本方法,即要对所研究现象总体中的足够多数的个体进行观察和研究,以期得到具有规律性的总体数量特征。大量观察法的数理依据是大数定律,即虽然每个个体受偶然因素的影响作用不同而在数量上存有差异,但对总体而言可以相互抵消而显现出稳定的规律性,因此只有对足够多数的个体进行观察,观察值的平均结果才会趋于稳定,建立在大量观察法基础上的统计数据才会给出具有普遍意义的结论。统计学中的各种观测调查方法都属于大量观察法。
【思考】
请大家运用大量观察法思考、解释身边的诸多现象,如公交车到达终点站的时间、餐厅的饭点儿等。
(二)统计分组法
由于所研究现象本身的复杂性、差异性及多层次性,需要对研究现象进行分组或分类研究,以期在同质的基础上探求不同组或不同类之间的差异性。统计分组法在整个统计研究过程中占有重要的地位,在统计调查环节可以通过统计分组法来收集不同类的原始数据,并可以采用抽样调查法使样本的代表性得到提高(即分层抽样方式);在统计整理环节可以通过统计分组法使各种数据得到分门别类地加工处理和储存,并为编制分布数列提供基础;在统计分析环节则可以通过统计分组法来划分现象类型、研究总体内在结构、比较不同类或组之内的差异(显著性检验)和分析不同变量之间的相关关系。统计分组法有传统分组法、判别分析法和聚类分析法等。
(三)综合指标法
统计研究现象的数量方面是通过统计综合指标来反映的,即运用统计指标来综合反映现象总体的数量特征,常见的综合指标有总量指标、相对指标和平均指标。综合指标法在统计学尤其是社会经济统计学中占有十分重要的地位,是描述统计学的核心内容。如何最真实、客观地记录、描述和反映研究现象的数量特征和数量关系,是统计指标理论研究的一大课题。
(四)统计推断法
在统计研究过程中,我们观察的往往只是研究现象总体中的一部分个体,掌握的只是具有随机性的样本观测数据,而认识总体数量特征才是统计研究的目的所在,这就需要根据概率论和样本分布理论,由样本观测数据来推断总体数量特征——参数估计或假设检验。这种由样本来推断总体的方法叫作统计推断法。统计推断法已在统计研究的许多领域得到应用,除了最常见的总体指标的推断外,统计模型参数的估计和检验、根据时间数列所做的外推预测等,也都属于统计推断的范畴,都存在着误差和置信度的问题。
(五)统计模型法
在以统计指标来反映现象总体数量特征的同时,还经常需要对相关现象之间的数量变动关系进行定量研究,以了解某一(些)现象数量变动与另一(些)现象数量变动之间的关系及变动的影响程度。在研究这种数量变动关系时,需要根据具体的研究对象和一定的假设条件,用合适的数学方程来模拟。这种方法叫作统计模型法。统计模型法的3个基本要素是变量、数学方程和模型参数。运用统计模型法,可以使统计分析更具广度和深度,提高统计的认识能力。统计学提供了各种线性的和非线性的、简单的和复杂的统计模型构建方法。
上述各种方法相互联系共同构成统计研究方法体系。