数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

1.3.1 三类统计分析策略

描述性统计分析、探索性统计分析和推断性统计分析三类策略是一种循序渐进、由浅入深的分析步骤,从事数据分析需要掌握这三类源自统计学领域的统计分析策略。

1.描述性统计分析

描述性统计分析侧重于对数据的描述,这种描述就相当于在阐述所看见的一幅图画。对数据的描述性统计,其实就是描述数据的特征,如数据的平均水平、数据的可行范围、数据的波动分散程度等。通过描述性统计分析,可以使数据分析人员更好地掌握和理解数据,做到心中有“数”。描述性统计分析在数据分析过程中,既是基础环节也是重要环节,基础是因为它的操作非常简单,重要是因为它是进行下一步数据分析工作的前提。

下面是一个描述性统计分析的例子。

老板可能会问:小王,帮我查一下9月份网站流量的基本数据。

那么问题来了,这个基本数据都会包含哪些内容呢?首先查看9月份的流量数据。如图1-9所示,其中PV和UV分别代表页面访问量和用户访问量,即网站的访问人次和访问人数。如果你了解描述性统计分析,就可以将网站流量的基本数据展现在表格中。

图1-9 待描述的网站流量数据

如表1-1所示,即为常用的基本统计指标,以PV为例,简单解释这7个指标的含义:9月份网站的日均访问人次为41,072.87次,标准差为5,685.52,最少的一次访问量为30,471次,该月中有四分之一天数的每天访问人次在36791.5次以下,该月中有一半天数的每天访问人次在42,529次以下,该月中有四分之三天数的每天访问人次在44,643.25次以下,全月中最多的一次访问量为49,847次。需要注意的是,表格中的下四分位数即统计学意义的25%分位点,上四分位则为统计学意义的75%分位点。

表1-1 统计描述的汇总结果

该案例就是一个典型的描述性统计分析,其实就是针对数据的统计结果做简单的描述,表达出数据的统计特征。除此之外,还可以通过图形的方式描述数据的内在规律。例如,需要统计某电商平台在近一个月各支付渠道的支付比例,或者分析用户年交易额的分布特征。通过饼图和直方图就可以很好地描述这两个问题。

如图1-10所示,电商的快捷支付占比最大,达到42%,占比第二的是微信支付,达到28%,两者相差14%,货到付款的比例最小,只有7.3%,该支付方式与其他支付方式的比例非常接近。

图1-10 各支付方式的占比

如图1-11所示,用户的总交易金额存在严重的不平衡,交易额在2000元以内的用户最多,且占到绝对优势;几乎所有用户的交易额都在10000元以内,超过10000元的用户只有零星点点;从数据的分布形态来看,存在严重的右偏特征(即长尾分布在右侧)。图中还绘制了两条曲线,分别是实际分布曲线(即核密度曲线)和理论分布曲线(即正态密度曲线),通过两条曲线的对比,发现它们的吻合度并不是很高,故进一步断定该数据的分布并非正态分布。

图1-11 用户交易金额的直方图

因此,描述性统计分析包括数据的频数分析、数据的集中趋势分析(如均值、中位数、众数等)、数据离散程度分析(如标准差、极差、变异系数等)、数据的分布(如偏度值,峰度值等)以及一些基本的统计图形(如饼图、直方图、箱线图等)。在日常的学习或工作中,数据分析人员需要掌握这些基本的统计描述方法,进而可以很好地融入业务中,并了解业务的数据环境。

2.探索性统计分析

探索性统计分析主要用于数据分析过程中的探索,通过探索可以发现数据背后隐藏的内在规律和联系,通常探索性统计分析还可以挖掘出数据中出现异常的原因。例如,需要研究某些变量之间是否存在一定的相关性,研究两组样本之间是否存在显著的差异,探索企业内某指标(如曝光量、广告点击率、支付成功率、某支付渠道占比等)没有达标的原因,探索企业内某指标在接下来的一段时间内将会有怎样的变化趋势等。

对于数据分析人员而言,探索性统计分析的策略在工作中的应用非常频繁,因为通过该策略可以帮助分析人员了解数据中不易发现的内在价值和联系。在绝大多数情况下,探索性统计分析都是借助于数据可视化的技术将问题的答案图形化呈现,以便于直观地发现数据中有意思的信息。

为使读者更好地理解探索性统计分析的应用,这里举三个通俗易懂的小例子:探索汽车的速度与刹车距离之间的关系;探索某电商的交易量在PC端和移动端之间的比例变化;探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异。

对于探索两变量之间的关系,最常用的方法就是绘制它们的散点图,通过散点图可以直观地发现两者之间的某种内在关系(如线性关系、非线性关系或无相关关系)。所以,在探索汽车的速度与刹车距离之间的关系时,不妨绘制散点图来观察两者之间的关系,如图1-12所示。

图1-12 汽车速度与刹车距离的散点图

图1-12中,横轴表示汽车的行驶速度,纵轴表示汽车的刹车距离。从图中可知,随着行驶速度的增加,刹车距离也在增加。所以,可以明确地得出,它们之间存在正相关的线性关系。那么,这种线性关系可否通过某个具体的数学函数来表达呢?答案是肯定的,这部分内容将涉及后文所介绍的推断性统计分析。

通常在对比两组或多组样本之间的差异时,可以选择统计学中的箱形图(也称为盒须图,关于该图形的具体介绍可以查看2.4.2节的内容),该图形有两大作用:一是可以方便地实现数据的对比;二是可以识别出数据中的异常样本点。所以,在探索泰坦尼克号男女乘客在一等舱内的票价是否存在差异时,不妨选择箱线图来描述,如图1-13所示。

图1-13 男女乘客的票价箱线图

图1-13中横轴表示乘客的票价,纵轴表示男女性别,在两个箱线图的中间箱体部位都有一个明显的分界线,它是中位数(一种用于描述数据的中心化指标,即理解为整体水平)。从图中可知,两个箱线图的中位数并没有近似垂直对齐,说明男女乘客的票价存在显著差异。而且从图的最右侧,也发现了一些样本点,它们就是利用箱线图技术识别出的异常点。很显然,这是通过图形的对比,得出两者存在差异,那么有没有定量的方式验证男女性别在票价上存在显著差异呢?答案仍然是肯定的,可以通过推断性统计分析实现。

对于探索某电商的交易量在PC端和移动端之间的比例变化,可以选择百分比堆叠条形图,该图形最大的特色是将所有的条形高度标准化到100%(即所有条形高度都是一样的),然后可以对比内部比例的变化趋势。如图1-14所示,即为交易量在PC端和移动端在不同时间段上的比例差异。

图1-14 PC端与移动端的占比趋势

图1-14中横轴代表2014—2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。借助于百分比堆叠条形图,可以非常直观地发现移动端的交易量在迅速扩张(即随着移动互联网的发展,用户越来越青睐于选择移动端完成网上的交易),由2014年第一季度的11.7%,发展到2016年第四季度的85.5%,短短的三年时间,发生了翻天覆地的变化。

3.推断性统计分析

推断性统计分析非常经典但相对较难。我们都知道,统计学实质上就是根据样本的特征来推断总体的情况。例如,借助于随机抽样的方法,从总体中抽出部分样本,并根据样本推断出总体的平均水平(解决问题的方法是统计推断中的均值检验);根据样本的两个属性(即两个变量),判断属性间是否存在相关性(需利用统计推断中的相关系数检验或卡方检验);根据样本的分布,判断其总体是否服从正态分布(该问题的解决可以使用数据的正态性检验技术)。

相比于探索性统计分析,推断性统计分析更加侧重于寻找定量的答案,通常是计算统计量和对应的概率P值。如果概率P值小于0.05(默认的对比值),则需要拒绝原假设(原假设即假设事件成立的情况,如样本均值等于某个值,两属性之间不相关,样本服从正态分布),反之需要接受原假设。

为使读者掌握推断性统计分析的方法,接下来通过几个小的例子加以说明:通过t检验推断两样本之间的均值是否存在差异;通过卡方检验与Pearso相关性检验推断样本的两个属性是否不相关;通过Shapiro正态性检验推断样本是否服从正态性分布。

(1)t检验

t检验也称为均值检验,即通过该检验方法可以验证样本的均值是否满足某个常数或者两样本之间的均值是否存在差异。假设如表1-2所示的数据为某品牌充电宝电容量的抽样数据,为检验该品牌充电宝是否满足其宣传的5000毫安容量的说法,需要借助于t检验的工具(基于Python):

表1-2 充电宝电容量数据

1)提出原假设与备择假设。

H0:样本均值为5000毫安(原假设)。

H1:样本均值不为5000毫安(备择假设)。

2)计算统计量。

结果显示,t检验的所得的统计量为-0.694。如果单从该统计量的值,并不能直接得出样本是否满足均值为5000毫安的说法,所以需要进一步比较概率P值。

3)对比概率P值,下结论。

结果显示,概率P值为0.502,大于0.05的阈值,说明不能拒绝原假设,即认为样本均值为5000毫安的说法是正确的,也就是说该品牌的充电宝符合其宣传的电容量5000毫安的说法。

(2)卡方检验与Pearson相关性检验

卡方检验用于验证两个离散型变量之间的独立性,而Pearson相关性检验则用于验证两个数值型变量之间的独立性。图中为两组数据(部分):一组是关于高三某班级学生的性别与其是否被录取的数据(如图1-15所示);另一组是关于汽车速度与刹车距离的数据(如图1-16所示)。

图1-15 学生录取表

图1-16 汽车信息表

首先通过卡方检验对学生性别与其是否被录取进行相关性分析。步骤如下(仍然基于Python):

1)提出原假设与备择假设。

H0:学生的性别与其是否被录取相互独立。

H1:学生的性别与其是否被录取不相互独立。

2)计算统计量。

结果显示,卡方检验的统计量为4.86,可以进一步借助于概率P值得到明确的判断结果。

3)对比概率P值,下结论。

结果显示,概率P值为0.028,小于0.05的阈值,说明应该拒绝原假设,即认为学生的性别与其是否被录取是相关的。

接下来通过Pearson相关性检验分析汽车速度与刹车距离的相关性。具体步骤如下:

1)提出原假设与备择假设。

H0:汽车速度与刹车距离不相关。

H1:汽车速度与刹车距离相关。

2)计算统计量。

结果显示,汽车速度与刹车距离之间的Pearson相关系数为0.807,说明两者之间存在很强的相关性,为进一步验证这个结论,可以计算概率P值。

3)对比概率P值,下结论。

结果显示,概率P值远小于0.05,说明需要拒绝原假设,即认为汽车速度与刹车距离之间强相关性是正确的。

(3)Shapiro正态性检验

对于样本的正态性检验,可以使用Shapiro检验方法(通常要求样本数量在5000以内,如果样本量在5000以上,可以使用KS检验方法)。不妨以Titanic乘客的年龄数据为例,验证其是否服从正态性分布。

1)提出原假设与备择假设。

H0:乘客的年龄数据服从正态性分布。

H1:乘客的年龄数据不服从正态性分布。

2)计算统计量。

结果显示,Shapiro检验的统计量为0.981,但看该值,无法直接得出检验的结论,故仍然需要结合概率P值才能够明确地下结论。

3)对比概率P值,下结论。

结果显示,概率P值远小于0.05,故需要拒绝原假设,即Titanic乘客的年龄并不服从正态性分布。

所以,在数据分析过程中,通常要对数据做如上的探索和研究,一方面通过探索方法,让分析人员能够对数据做到心中有“数”,了解数据呈现的特征和规律;另一方面通过深入研究,让隐藏在数据背后的价值淋漓尽致地展现在数据分析人员的面前,进而基于数据分析的结果,为下一步的决策提供有力依据。