数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

1.3.2 数据分析的常用方法

上面介绍的三类统计分析方法属于概括性的方向指引,即读者在进行数据分析过程中,需要借助于这三类统计分析方法的策略去描述或思考数据反映的现象和问题。本节将从细化的角度,分享一些具体的常用数据分析方法(考虑到篇幅的限制,这里仅分享部分重要的方法),这些方法在平时的学习或工作中得到广泛的应用。

1.对比分析法

该方法又称为比较分析法,通过指标的对比来反映事物数量上的差异和变化,属于统计分析中最常用的方法。在实际应用中,读者可能听过纵向对比和横向对比的说法,纵向对比指的是同一事物在时间维度上的对比,这种对比方法主要包含环比(如日活用户数DAU在本月与上月之间的对比)、同比(如销售额在本年度3月份与上一年3月份之间的对比)和定基比(如2~6月份的点击量均与1月份的点击量做对比)。而横向对比则是不同事物在固定时间上的对比(如不同用户等级在客单价之间的差异;不同品类之间的利润率高低;新用户在不同渠道的支付转化率)。应用对比分析法,得到的结果可以是相对值(如百分数、倍数、系数等),也可以是相差的绝对数和相关的百分点(一个百分点即指1%),即把对比的指标做减法运算。所以,通过对比分析法就可以对规模大小、水平高低、速度快慢等做出判断和评价。

2.分组分析法

分组分析法与对比分析法很相似,所不同的是分组分析法可以按照多个维度将数据拆分为各种组合,并比较各组合之间的差异。为使读者能够理解分组分析法和对比分析法之间的差异,这里各举一个简单的例子加以说明。

假设新书上市做营销时,会考虑多个销售渠道,例如新华书店、当当、京东、天猫和中国图书网。如果要对比各销售渠道在10月份的销量,就应采用对比分析法,如表1-3所示;如果要对比各销售渠道在9月、10月和11月的销量,就应采用分组分析法,如表1-4所示。

表1-3 10月份各销售渠道的销量对比分析

表1-4 各销售渠道在时间维度上的对比

表1-3中运用对比分析法可以发现,新书在10月份的销售总量为3863册,其中当当网的销售量最高,占到总销售的34.3%;相比于中国图书网的销售渠道,当当网的销售量是它的近6倍。当当、天猫和京东为销售量前三名的渠道,它们的销售量在总销售量中超过85%。

如表1-4所示,销售渠道基础上又添加了时间因素(即综合了横向对比和纵向对比),所以通常称这样的数据为横截面数据。表中的数据(比例为行百分比)是为了对比各渠道销售量在当月的销售占比。从数据中可以发现,当当的销售占比在呈现逐月上涨趋势,而京东和中国图书网则呈现逐月下降趋势,天猫和新华书店的销售占比则非常稳定。为了使数据展现得更加直观,不妨使用前文介绍的百分比堆叠条形图展现数据的变动趋势,如图1-17所示。

图1-17 各销售渠道在时间维度上的对比

依据此图,可以非常容易得出这样的结论,即京东和中国图书网的销售占比在逐步下降,而当当则呈现上涨趋势,其余两种渠道的销售占比并没有大的起伏。

3.预测分析法

预测分析法主要用于未知数据的判断和预测,这个方法在大数据时代显得尤为突出和重要,例如依据过往三年的历史销售数据,预测未来六个月的销售额;根据患者各项体检指标的检查,预测其患某种疾病的可能性;利用消费者在互联网留下的日志数据,向消费者推送可能购买的商品等。预测分析法大致可以划分为两种:一种是基于时间序列的预测,即根据指标值的变化与时间依存关系进行预测(具体的预测方法有移动平均法、指数平滑法、ARIMA法等);另一种是回归类预测,即根据指标之间相互影响的因果关系进行预测(具体的预测方法有线性回归、KNN算法、决策树模型等)。

下面通过一个简单的案例来阐述预测分析法的应用。假设影响某商品销售利润(Profit)的因素包含研发成本(RD_Sperd)、管理成本(Administration)和市场营销成本(Marketing_Spend),数据如图1-18所示,为部分数据。那么,如何基于这三个因素来预测商品的销售利润?

图1-18 产品各项成本与利润数据

下面利用预测分析法中的线性回归模型(有关该模型的具体用法,读者可以参考本书第5章的内容),对数据进行建模,并基于模型实现商品销售利润的预测:

得出的结果如图1-19所示。

图1-19 模型的概览信息

从上图结果可知多元线性回归模型的系数(图中方框内所示)。假设不考虑模型的显著性和回归系数的显著性,那么得到的回归模型可以表示为:

Profit=50120+0.81RD_Spend-0.03Administration+0.03Marketing_Spend

所以,当已知三个因素的具体值时,就可以将它们的值导入到线性回归模型的方程式中,求得可能的商品利润。

4.漏斗分析法

漏斗分析法通常也称为流程分析法,其目的是关注某事件在重要环节上的转化率,该方法在互联网行业的使用尤为普遍。以B2C的电商为例,用户从浏览页面到完成购买通常会有4个重要的环节,即用户通过主页或搜索的方式进入商品列表页,再到点入具体的商品进入商品详情页,接着将心仪的商品加入到购物车,最后将购物车内的商品结账完成交易。直观判断可知,经过这4个重要环节的用户数量肯定越来越少,进而形成锥形的漏斗效果。

在实际的应用中,数据分析人员可借助于漏斗分析法对网站运营过程中各个重要环节的转化率、运营效果和过程进行监控及管理,对于转化率特别低的环节,或者波动发生异常的环节加以有针对性的修正,进而保证转化率的提升,从而提升整体运营效果。为了使读者有一个直观的理解,这里不妨以电商平台的用户消费行为为例(假设电商平台为推广某个产品做了相应的营销活动,用户购买该产品的4个环节转化率如图1-20所示),分析几个重要环节的漏斗效应。

图1-20 用户购买产品4个环节的转化率漏斗图

从上图可知,漏斗图中涉及4个核心的环节,首先从商品详情页开始,其转换率为43.7%,即在本次营销活动中,被触达的用户有43.7%的比例会进入到商品详情页;然后是购物车页,该环节的转化率为62.3%,即进入商品详情页的用户中,有62.3%的用户会将商品加入到购物车;接下来是收银台页(即进入到支付页),其转化率为88.4%,表示将商品加入到购物车的用户中,会有88.4%的比例进入到支付环节;最后为支付成功页,转化率为93.8%,说明在选择支付的用户中,有93.8%的比例最后完成了支付,剩下的6.2%的用户可能是改变主意了,或卡里余额不足等。

因此,借助于上述的漏斗分析,对比各环节之间的转化率,当发现某些环节的转化率发生陡崖式下降时,就可以认为产品的某些流程或者营销活动的某些步骤出了问题,然后再针对这些问题寻找改善方案,最终提高整体的转化率。

5.AB测试分析法

AB测试分析法也是一种对比分析法,该方法侧重于对比AB两组结构相似的样本(如用户属性和行为相似、产品特征相似等),并基于两组样本的指标值挖掘各自的差异。例如某APP的同一个功能页面,设计了两种不同风格的页面布局,然后将两种风格的页面随机分配给测试用户(这些用户的结构都比较相似),最后根据用户在该页面的浏览转化率来评价不同页面布局的优劣。

这里举一个具体的例子加以说明,某公司的APP在收银台界面(即付款界面)呈现的支付方式顺序为微信、支付宝、快捷支付(即银行卡支付)和货到付款。为了提高快捷支付的占比,预期对支付方式的顺序做微调,即微信、快捷、支付宝和货到付款。但是这样的顺序真的能够提高快捷支付的占比吗?为了验证这个问题,技术人员对两批相似的样本用户做了测试,得到的结果如图1-21所示。

图1-21 快捷支付的AB测试图

从结果可知支付方式顺序的调整,对快捷支付占比的影响还是存在的,经过顺序调整后,快捷支付占比得到了近两个百分点的提升。所以,经过AB测试后,可以认为支付方式顺序的调整是有必要的。

在作者看来,解决任何事情都有其一定的规律(或步骤),因此只要理解并掌握了这些规律,问题就会简单很多。对于数据分析而言,同样也有它的规律,故请读者一定要掌握前文所介绍的三类统计分析策略和五种常用的数据分析方法,并将其应用到数据分析的工作中。