统计学基础(第2版)
上QQ阅读APP看书,第一时间看更新

知识链接

1.1 统计的内涵

“统计”一词有三种含义:统计学、统计工作和统计资料。统计学是一系列统计方法的理论阐述;统计工作是统计的具体实践活动;统计资料是统计工作各阶段的成果,也可称为统计数据。

1.1.1 统计学

统计学是关于收集、整理、分析和解释统计数据的科学,是一门方法论性质的学科,其目的是探索研究对象的数量特征和数据的内在规律性。

统计学的这一定义包含了如下3个要点。

(1)统计学是研究“数据”的科学,离开了数据,统计学也就失去了它存在的意义,因此有人称统计学是“数据的科学”。

(2)统计学是方法论科学,是研究数据的“工具”,因此它适用于所有有数据存在的学科领域。

(3)统计学研究的不是抽象的数据,而是“有载体的统计数据”,因此利用统计方法得到的任何数据特征和数据规律都与某一研究对象紧密相连。

统计学的研究对象是现象总体的数量方面。统计通过对总体中大量个体的差异化数据进行收集、整理和分析,获得研究对象总体的特征和规律性。

英文“Statistics”一词包含了两层含义,一是作为一门学科的统计学;二是表示统计数据或统计资料,说明了统计学与统计数据之间密不可分的关系。

1.1.2 统计工作过程

一般将统计工作概括地分为4个阶段,即统计设计、数据收集、数据整理和数据分析,如图1-1所示。

45404-00-014-01.jpg

图1-1 统计工作过程

1. 统计设计

统计设计是根据统计研究的目的和研究对象的特点,对统计工作各个方面及各个环节所做的通盘考虑与安排。其基本任务是制定出各种统计工作方案,主要内容应包括统计指标体系、统计调查方案、统计汇总或整理方案以及统计分析方案等诸多方面。统计设计是统计工作实施的基本依据,是使统计工作协调、有序、顺利进行的必要条件。

2. 数据收集

数据收集是根据统计设计的要求,采用科学的数据收集方法,收集总体中全部或部分个体数据资料的工作过程。数据收集是统计工作的基础环节,是认识事物的起点。原始数据质量的高低,直接影响到分析结论的可靠性。因此,数据收集阶段应尽可能地降低统计调查误差。

3. 数据整理

数据整理是对收集来的统计数据进行科学的加工整理,使之系统化、条理化,把大量的反映个体特征的零散资料转化为反映总体综合数量特征的统计资料的过程。数据整理是数据收集和数据分析之间承上启下的中间环节,其主要任务是对收集到的数据进行分组、归类,并用合适的统计表或统计图展示整理的结果。

4. 数据分析

数据分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上对研究对象总体进行分析,以揭示研究对象数量特征和数量规律的统计工作阶段。数据分析是统计工作的最后一环,也是关键的一步。统计分析报告是统计分析的产品,统计分析报告的质量既取决于数据本身的质量,又有赖于对统计数据分析利用的程度。

一般来说,统计工作的4个阶段是依次进行的,任何一个阶段的工作失误都会影响到下一阶段的工作质量。但在某些情况下,为保证统计工作整体上取得好的效果,各阶段也会交叉进行。例如,在数据收集和整理阶段可以进行一些必要的分析,或者对原设计方案进行适当的改进;在数据分析阶段,如果现有资料不能满足分析的需要,可以做一些必要的补充调查、数据整理等工作。

1.1.3 统计数据

统计数据是对现象进行计量和分析的结果,是研究对象的特征表现。对个体而言,其特征既可以用数字表示也可以用文字表示;对总体而言,其特征都是用数字表示的。

一个完整的统计数据,应包括3个最基本的构成要素:数据名称、数值和数据的计量单位。但在具体表述一个统计数据时,很多时候只有这3个要素是不够的,还应包含对数据其他方面的内涵规定,如数据所属的时间和空间范围等。

例如,“工业机器人7 485(台/套)”传递的信息是不完整的,如果改为“2016年11月,我国规模以上工业企业生产的工业机器人有7 485(台/套)”,数据的内外边界就很清楚了。

统计数据从不同的角度有不同的分类,通常可以从以下3个角度分类,如图1-2所示。

45404-00-015-01.jpg

图1-2 统计数据的分类

1. 按计量尺度分类

按计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

(1)分类数据,用文字来表述,表明事物的不同属性或类别。在统计处理时,我们用数字代码来表示分类数据的各个类别。例如,用“1”代表“男性”,用“2”代表“女性”,这里的“1”和“2”只表达了现象分属于两个类别这样一层含义。再如,企业所属的不同行业、企业的不同所有制类型、不同职业等都属于分类数据。

(2)顺序数据,用文字来表述,表明有顺序的不同类别。在统计处理时,我们同样可以用数字代码来表示。例如,用“1”“2”“3”“4”“5”分别代表考试成绩的“不及格”“及格”“中”“良”“优”,这里的1、2、3、4、5不仅表明现象分属于不同的类别,而且表明这些类别的顺序。再如,不同的教育程度、产品的不同等级等均属于顺序数据。

(3)数值型数据,用数字来表现各种现象的数量特征,是使用自然或度量衡单位对事物进行计量的结果。一个企业的职工人数、产值、销售收入、市场占有率等指标都是用具体的数字来表示的。数值型数据不仅能表明现象数量上的不同和大小顺序,还能在数据之间进行数量运算,大部分统计分析方法适用于数值型数据的分析,统计处理的大多是数值型数据。

分类数据和顺序数据也统称为品质数据或定性数据,数值型数据也称为数量数据或定量数据。

2. 按数据来源分类

按来源不同,可将统计数据分为观测数据和实验数据。

(1)观测数据是指通过直接调查或观察收集到的数据。社会经济领域的统计数据基本上是观测数据。

(2)实验数据是通过对实验对象、实验环境以及实验过程的有效控制而获得的统计数据。这些数据主要用于考察变量之间的因果关系。

3. 按与时间的关系分类

按与时间的关系不同,可将统计数据分为截面数据、时间序列数据和面板数据。

(1)截面数据是指某一总体中不同个体在相同或近似相同的时间上的数据表现。

(2)时间序列数据是指将不同时间上某一指标值列出所形成的按时间顺序排列的数据序列。

(3)面板数据是指总体中不同个体在不同时间上的数据表现,是时间序列数据与截面数据的结合。

1.2 统计的职能

统计的职能可以概括为信息职能、咨询职能和监督职能,如图1-3所示。

1. 信息职能

信息职能指的是统计提供信息服务的功能,通过采集、处理、传递、存储和分析数据,提供以数量描述为基本特征的社会经济信息。

2. 咨询职能

咨询职能指的是统计提供咨询建议和对策方案的服务功能,利用已经掌握的丰富的统计信息资料,运用科学的统计分析方法和先进的技术手段,开展综合分析和专题分析,为科学决策和科学管理提供可选择的咨询建议和决策方案。

45404-00-016-01.jpg

图1-3 统计的职能

3. 监督职能

监督职能指的是统计揭示事物运行中的偏差,促使事物运行不偏离正常轨道的功能。统计以定量检查、监测、预警指标体系等为手段,揭示决策及其执行过程中的偏差,使决策及其执行过程按客观规律的要求进行。

信息职能是统计最基本的职能,是保证咨询和监督职能得以有效发挥的前提,反过来统计咨询职能和统计监督职能的强化又会促进统计信息职能的强化。统计的3种功能相辅相成,相互作用,构成了一个有机整体,故又称为统计的整体功能。

统计方法已应用到人类生活的各个领域。尤其是生活在21世纪的人们,将与数据朝夕相处,收集相关数据,从数据中提取信息,进行预测与决策,将是个人、企业、政府经常面对的事情。在科研领域,统计方法已应用到几乎所有的研究领域,有些学科广泛地应用统计方法使得其拥有各自的统计术语,如生物统计、医学统计、卫生统计、商务统计、经济统计学、统计物理学、人口统计、心理统计学、教育统计学、社会统计、体育统计学等。

统计在工商业领域扮演着一个重要的角色。一个工商管理人员会经常面临大量企业经济管理方面的数据,而这些数据只有被分析、提炼才能成为管理人员进行管理和决策的依据。

图1-4简要表述了当我们遇到一个具体问题时,借助于统计工具解决问题的思维过程。

45404-00-017-01.jpg

图1-4 应用统计的思维过程

我们在讨论统计所具有的职能、统计应用的广泛性及统计对决策的重要性时,还应看到统计有所为也有所不为。统计可以帮助人们分析数据,并通过分析得出某种结论,但对统计结论的进一步解释,则需要相关领域的专业知识。

45404-00-017-02.jpg

视频1-1 统计的源流

45404-00-017-03.jpg

视频1-2 统计与生活

1.3 统计学的研究方法

统计学从17世纪产生发展到今天,其应用领域越来越广泛,其方法越来越丰富。统计学的研究方法可以简单地划分为两大类:描述性统计方法和推断性统计方法。

传统统计学以描述统计为主,主要包括数据的收集、整理、图表显示和数据的综合测度等内容,描述统计是统计学的基础和统计工作的初步。

现代统计学产生于20世纪初,以推断统计为主,其方法包括抽样理论、参数估计、假设检验、方差分析、统计决策理论、非参数统计、现代时间序列分析、多变量分析等,推断统计是现代统计学的核心。现代统计学体现了对数学方法的广泛吸收和应用,现代统计方法的应用也提高了数据分析的效率和数据挖掘的深度。

在统计工作的不同阶段应用着不同的统计方法。在数据收集阶段,要体现统计的“大量观察法”,具体应用时还有不同的调查方式与方法可供选择;在数据整理阶段,主要应用“统计分组法”,通过分组、归类了解数据的内部结构,并通过合适的图、表展示数据;在数据分析阶段,根据分析问题的角度和深度不同,又有大量的统计分析方法可供选择。随着对更多数学方法的吸收和先进信息技术的不断渗透,更有效的统计分析方法还在不断产生。

本书将按照统计工作的不同阶段,分别介绍数据收集的方式与方法(任务二 数据收集)、数据整理与数据显示方法(任务三 数据整理与显示)和数据分析(任务四至任务八)的一系列方法。

任何统计方法的有效性都取决于研究对象是否满足方法的适用条件或基本假设,误用统计学的方法可能会导致描述上的偏离或者推论的错误,而这个错误又可能导致决策的失误。因此,作为统计方法的使用者应正确使用统计方法,避免误用。

1.4 统计学中的基本概念

1.4.1 总体、样本与个体

总体是客观存在的、性质相同的大量个体组成的整体,是由统计研究目的决定的统计研究对象的全体。个体是组成总体的个别单位。例如,要研究某地区国有企业的生产经营状况,则该地区全部国有企业构成总体,某个国有企业就是个体;某企业要检查某批产品的质量,该批所有产品构成总体,某件产品就是个体。

样本是从总体中抽取出来的一部分个体组成的整体。抽样的目的是用样本的数据特征推断总体的数据特征。例如,研究顾客的满意度,从该产品的用户中随机抽取5%构成样本,用这部分顾客的满意度对该产品用户的满意度进行估计。总体、样本与个体的关系如图1-5所示。

45404-00-018-01.jpg

图1-5 总体、样本和个体

1.4.2 参数与统计量

参数是描述总体综合数量特征的概括性数字度量,是对总体中所有个体某一数量特征的综合。

统计量是描述样本综合数量特征的概括性数字度量,是对样本中所有个体某一数量特征的综合,计算样本统计量是为了估计总体参数。

不管是总体参数还是样本统计量,体现的都是对个体数量特征的综合,都用数字表示。例如,随机抽取5%的用户进行满意度调查,5%用户的满意度得分是82分,这就是统计量;据此推算出全部用户的满意度得分为79~85分,这就是参数。

习惯上,也将总体的综合数量特征称为统计指标。

1.4.3 变量

变量是描述个体特征的概念,变量的具体取值称为变量值。习惯上,也将反映个体特征的变量称为标志。

1. 按变量的表现形式分类

变量按其表现形式的不同可分为品质变量和数值型变量。

(1)品质变量用文字表示,包括分类变量和顺序变量。分类变量是说明事物类别的一个名称,其取值是分类数据。例如,企业的“行业”属性是分类变量,其变量值表现为“IT业”“物流业”“旅游业”等不同类别的行业;顺序变量也是说明事物有序类别的一个名称,其取值是顺序数据。如“服务等级”是顺序变量,其变量值表现为“优”“良”“中”“差”4个顺序等级。

(2)数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。例如,企业的“营业额”是数值型变量,其变量值为具体的数值,如“20万元”“30万元”“40万元”等。

以商场的会员卡为例,每个会员的个体信息就是变量,如某会员的性别是一个分类变量,教育程度是一个顺序变量,购买金额是一个数值型变量。

2. 按变量的取值不同分类

数值型变量根据变量的取值不同,分为离散型变量和连续型变量。

(1)离散型变量是只能取整数值的变量,一般用来反映以自然整数计量的数量表现,变量值之间以整数位断开。例如,企业从业人数1 000人,只用整数来计量,在999和1 000两个整数之间不可能有小数值。

(2)连续型变量是可以在一个或多个区间中取任何值的变量,其取值是连续不断的,不能一一列举。例如,销售收入20万元,以货币单位计量,在顺序的两个“万元”之间可以有小数值,表示比万元更小的计量单位上的取值。

1.5 统计应用软件简介

从古人在树木上刻痕以计算家畜和财产的数量,到今天通过计算机和软件来收集、储存、分析数据,人类处理和分析数据的速度和规模已发生了革命性的变化。人类正行驶在以数据为载体的信息高速公路上,在人们的日常生活、政府行政事务管理、企业生产经营管理、科学研究等各个领域,手工计算已被计算器、计算机所取代,数据分析软件帮助人们快速、高效地完成数据分析任务。

在统计教学中,统计学中的众多公式、符号及数字,令很多人望而生畏、感到枯燥乏味;同时,数据量较大、较为复杂的运算,手工也难以胜任。近年来,借助于计算机和数据处理软件,统计教学和统计学习变得更高效。

目前,可以用于统计数据处理和分析的软件很多。办公自动化软件Excel就包含强大的数据处理功能,其应用非常普遍。专业的统计软件有SPSS、SAS、Minitab、Statistica、Eviews等。本书的适用对象是非统计专业的学生,也不涉及很复杂高深的模型与运算,因此选择具有较高普及率的Excel软件作为统计入门学习和掌握常用数据处理方法的工具,本书将使用Excel的最新版本Excel 2016来进行讲解。

Excel具有强大的表格格式化功能、计算和函数功能、图表制作功能等,可以利用Excel的相应命令来制作电子表格、图表(见图1-6),进行数据的分类汇总(见图1-7),利用统计函数或相应的数据分析工具完成数据的运算或分析等(见图1-8~图1-10)。Excel具有功能强大和使用方便的特点,广泛应用于会计、财务、金融、营销、贸易、统计、行政等领域,是比较适合非统计专业的经济管理人员使用的应用统计软件。

本书有关运算的任务实施都借助于Excel来完成,很少涉及手工计算,相应的公式推导、手工计算简捷公式全部省略,读者可将注意力放在统计方法的基本原理、Excel的操作步骤和统计结果的解读上。

45404-00-019-01.jpg

图1-6 插入图表

45404-00-020-01.jpg

图1-7 数据的分类汇总

45404-00-020-02.jpg

图1-8 插入函数

45404-00-020-03.jpg

图1-9 工具菜单中的数据分析

45404-00-020-04.jpg

图1-10 Excel中的数据分析工具

1.6 案例——女排夺冠背后的“数据分析之道”

在2016年8月的里约奥运会上,中国女排继2004年拿到雅典奥运会冠军后,时隔12年再次获得奥运会冠军!这一刻,女排姑娘们又创造奇迹!“女排精神”再次感动中国!郎平“执教有方、训练有道、指挥有谋”,被称为“女神”!

当我们见证体坛明星们创造奇迹的时候,是否想过在他们的背后还有一个科研团队在用科技的力量帮助这些天才走向成功?现代赛场上,主教练在指挥时单凭个人记忆和历史经验做决策已经不够了,经常要用到实时比赛数据分析作为参考,重大体育比赛项目配备专业的数据分析团队已经是标准配置了。2010年,国家排球队重金引进了一套技战术统计软件,里约奥运会上,女排的数据分析师袁灵犀就是运用这套软件,通过临场的数据分析告诉教练组最佳的应对策略。

比赛后的数据分析是事后诸葛亮,仅供参考,比赛进程中的趋势分析是及时数据,用来作为是否进行调整的依据。开赛前半小时,袁灵犀在指定的“技术区域”,架上摄像机,接好笔记本电脑,再连上打印机,为比赛的数据采集做好准备。比赛过程中,袁灵犀需要在一瞬间判断球员打了什么战术,还要判断她打到了哪个区域,然后马上输入,软件就会自动画出扣球线路。每场排球比赛,现场输入技术数据至少有1 000条,包括每个队员的发球集、二传传球位置分析、重点球员在不同战术中扣球和吊球的习惯线路。必须详细记录每一分的来历,用于备赛和协助现场指挥。还要记录我方和对手每一名队员的扣球路线、扣球区域概率、助攻区位、调整攻区位等,软件依靠收集的数据生成分析图。借助于数据分析软件,可以对各种扣球线路数据了如指掌,教练可以根据这个数据来安排换人,改变下一局的轮次打法。

目前,借助于该软件可以进行排球轨迹获取和智能分析、排球扣球动作生物力学分析、运动员弹跳力和下肢运动关联分析、跳发球技术和移动步法数据分析、运动员体能衰减数据分析、得失分影响因子分析、运动员之间的关联关系分析、运动员和后备队员功能特征等分析。袁灵犀作为中国女排数据分析师,不仅懂排球业务,懂各种排球打法,还要懂数据分析,懂外语,懂电脑。毕竟,不懂业务就没法让数据分析软件发挥最大功效。

45404-00-021-01.jpg

视频1-3 带你认识统计员家族

1.7 习题与实训

一、选择题

1. 利用统计方法认识研究对象包括的统计活动有()。

A. 解释数据
B. 收集数据
C. 分析数据
D. 整理数据

2. 属于某一有序类别的非数值型数据是()。

A. 支付方式(现金、支票、刷卡)
B. 购物金额
C. 企业规模(大、中、小)
D. 年龄

3. 一个统计数据的构成要素有()。

A. 名称
B. 数值
C. 时间范围
D. 计量单位

4. 在不同时间上收集到的数据是()。

A. 观测数据
B. 实验数据
C. 截面数据
D. 时间序列数据

5. 描述总体的特征值称为()。

A. 统计量
B. 变量
C. 参数
D. 变量值

6. 下列属于离散型变量的是()。

A. 某企业职工总人数
B. 城乡居民储蓄存款余额
C. 职工的月收入
D. 全国城镇居民家庭总户数

二、思考题

1. 什么是统计学?举出几个统计应用的例子。

2. 简述统计工作的流程。

3. 统计数据可分为哪几种类型?举例说明各类数据的特点。

三、综合应用题

1. 判断下列数据属于分类数据、顺序数据还是数值型数据:品牌、职业、产品的满意度(满意、较满意、一般、不太满意、不满意)、考试成绩、市场占有率、流动资金占用额、学历、购物方式、月收入。

2. 某市的城市抽样调查队随机抽取了1000户居民作为固定样本,记录其每月的消费支出情况,连续记录了12个月,并对这100户居民12个月的每月消费总额及消费构成进行了汇总和分析,以此估计该市居民的消费支出情况。

(1)指出该调查的总体、样本、个体;参数、统计量、变量。

(2)某户居民每月支出额是分类变量、顺序变量还是数值型变量?

(3)某户居民每月食品支出额是离散型变量还是连续型变量?

(4)某月1 000户居民的支出额和12个月1 000户居民的平均支出额,哪个是时间序列数据?哪个是截面数据?

(5)上述数据是观测数据还是实验数据?

3. 某校组织了一次学生消费水平的调查。该校共有在校生5 000人,随机调查了800人。

(1)指出该项调查的总体、总体单位、样本、样本单位。

(2)针对该项调查,设计调查内容,并举例说明什么是变量、统计量、参数,什么是离散型变量和连续型变量。