3.1 实例一——定距变量的描述性统计
3.1.1 定距变量的描述性统计功能与意义
数据分析中的大部分变量都是定距变量,通过进行定距变量的基本描述性统计,我们可以得到数据的概要统计指标,包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过获得这些指标,可以从整体上对拟分析的数据进行宏观把握,从而为后续进行更深入的数据分析做好必要的准备。
3.1.2 相关数据来源
【例3.1】为了解我国各地区的电力消费情况,某课题组搜集整理了2009年我国31个省市的电力消费量的有关数据,如表3.1所示。试通过对数据进行基本描述性分析来了解我国各地区电力消费的基本情况。
表3.12 009年我国31个省市的电力消费量的有关数据
3.1.3 Stata分析过程
在用Stata进行分析之前,我们要把数据录入到Stata中。本例中有两个变量,分别是地区和电力消费量。我们把地区变量设定为region,把电力消费量变量设定为cunsumption,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作我们在第1章中已有详细讲述。录入完成后数据如图3.1所示。
图3.1 案例3.1数据
先做一下数据保存,然后开始展开分析,步骤如下:
进入Stata 14.0,打开相关数据文件,弹出主界面。
在主界面的“Command”文本框中输入命令:
summarize cunsumption
设置完毕后,按键盘上的回车键,等待输出结果。
3.1.4 结果分析
在Stata 14.0主界面的结果窗口中可以看到如图3.2所示的分析结果。
图3.2 分析结果图
通过观察分析结果,我们可以对2009年我国各地区的电力消费量情况有一个整体初步的了解。从结果可以看出,有效观测样本共有31个,2009年我国各地区电力消费量的平均值为1180.489亿千瓦时,样本的标准差是903.5561,样本的最小值是17.6987,样本的最大值是3609.642。
3.1.5 案例延伸
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。但是Stata 14.0的强大之处在于,它同样提供了更加复杂的命令格式以满足用户更加个性化的需求。
1.延伸1:获得更详细的描述性统计结果
操作命令可以相应地修改为:
summarize cunsumption, detail
在命令窗口输入命令并按回车键进行确认,结果如图3.3所示。
图3.3 分析结果图
从上面的分析结果中可以得到更多信息。
(1)百分位数(Percentiles)
可以看出数据的第1个四分位数(25%)是550.1556,数据的第2个四分位数(50%)是891.1902,数据的第3个四分位数(75%)是1324.61。数据的百分位数的含义是低于该数据值的样本在全体样本中的百分比。例如,本例中25%分位数的含义是全体样本中有25%的数据值低于550.1556。
(2)4个最小值(Smallest)
本例中,最小的4个数据值分别是17.6987、133.7675、337.2368、462.9585。
(3)4个最大值(Largest)
本例中,最大的4个数据值分别是3609.642、3313.986、2941.067、2471.438。
(4)平均值(Mean)和标准差(Std. Dev)
与前面的分析结果一样,样本数据的平均值为1180.489,样本数据的标准差是903.5561。
(5)偏度(Skewness)和峰度(Kurtosis)
偏度的概念是表示不对称的方向和程度。如果偏度值大于0,那么数据就具有正偏度(右边有尾巴);如果偏度值小于0,那么数据就具有负偏度(左边有尾巴);如果偏度值等于0,那么数据将呈对称分布。本例中,数据偏度为1.309032,为正偏度但不大。
峰度的概念用来表示尾重,是与正态分布结合在一起进行考虑的。正态分布是一种对称分布,它的峰度值正好等于3,如果某数据的峰度值大于3,那么该分布将会有一个比正态分布更长的尾巴;如果某数据的峰度值小于3,那么该分布将会有一个比正态分布更短的尾巴。本例中,数据峰度为3.889152,有一个比正态分布更长的尾巴。
2.延伸2:根据自己的需要获取相应的概要统计指标
例如,我们想观察各地区电力消费量数据的平均数、总和、极差、方差等数据,那么操作命令可以相应地修改为:
tabstat cunsumption, stats(mean range sum var)
在命令窗口输入命令并按回车键进行确认,结果如图3.4所示。
图3.4 分析结果图
从上面的分析结果中可以得到更多信息。该样本数据的均值是1180.489,极差是3591.944,总和是36595.15,方差是816413.7。
统计量与其对应的命令代码如表3.2所示。
表3.2 统计量与其对应的命令代码
3.延伸3:按另一变量分类列出某变量的概要统计指标
例如,我们要在延伸2的基础上按各个省市分别列出数据的概要统计指标,那么操作命令就应该相应地修改为:
tabstat cunsumption, stats(mean range sum var) by(region)
在命令窗口输入命令并按回车键进行确认,结果如图3.5所示。
图3.5 分析结果图
4.延伸4:创建变量总体均值的置信区间
例如,我们要创建电力消费量均值的98%的置信区间,那么操作命令就应该相应地修改为:
ci cunsumption, level(98)
在命令窗口输入命令并按回车键进行确认,结果如图3.6所示。
图3.6 分析结果图
基于本例中的观测样本,我们可以推断出总体的98%水平的置信区间。也就是说,我们有98%的信心可以认为数据总体的均值会落在[781.7159,1579.262]中,或者说,数据总体的均值落在区间[781.7159,1579.262]的概率是98%。读者可以根据具体需要通过改变命令中括号里面的数字来调整置信水平的大小。