数据分析师养成宝典
上QQ阅读APP看书,第一时间看更新

0.4 数据分析过程

数据分析过程本质上是:

1)将数据与实际业务进行结合,深入了解业务背景,明确需求。

2)将数据信息化、可视化。

3)转化为生产力,帮助企业获利。

图0.7给出一个数据分析过程。

图0.7 数据分析过程

0.4.1 业务理解

业务理解就是识别需求,识别信息需求是确保数据分析过程有效性的首要条件,可以为数据分析提供清晰的目标。识别信息需求是管理者的职责,管理者应根据决策和过程控制的需求,提出对数据分析的需求。识别需求要对数据敏感,树立正确的思维观,熟悉行业业务流程,主要目的是理解数据,解决分析什么问题。

经常有人提出这样一个问题:有一个非常有趣的数据,请问应该如何分析这些数据呢?

这个问题无法回答。因为同一组数据,不同的业务目标,会产生完全不同的分析方案,所以在不清晰业务目标的情况下,是没有办法回答这个问题的。

此时我们要反问另外一个问题:你的业务目标是什么?

在这个问题没有得到清晰回答之前,所有的数据分析都是无效的!这就是为什么说:数据分析的第一步,不是分析数据,而是梳理业务目标!

什么叫作梳理业务目标?就是:如果能说得清楚YX,就认为业务目标是定义清晰的,否则就不是。

Y是因变量。它是一个指标,用于刻画我们最关注的一个结果。如果研究客户流失,那么Y就是流失与否;如果关心客户花费,那么Y就是消费能力;如果关心客户细分,那么Y就是品牌的选择。

总而言之,你最关心什么,Y就应该是什么。这个事情看似简单,其实很难。例如,Y是客户是否流失,但是,怎么定义流失呢?

就移动公司而言,有的客户流失,非常容易界定,因为他到营业网点销号了,这个很清晰。但是,更多的用户采用的方式是:停止使用,不销号。从移动运营商的角度来看,只能看到这个用户最近不活跃了,但是不容易确信他是否真的流失了,或者有其他原因(例如,短期出国)。

那么怎么定义Y呢?在这方面,整个行业都没有特别好的办法。一个可以接受的做法是,如果一个用户连续3个月不使用服务,也不缴费,那就视作等同流失。这个定义得到的Y并不是最好的,但是,至少这是一个可以付诸实施,并且为行业所接受的Y

X就是解释变量。它常常代表多个指标的集合,用于解释Y的结果。例如,Y是之前定义的客户是否流失,这是我们最关心的业务目标。接下来,人们渴望理解:为什么有的客户就流失了呢?而有的客户就没有呢?背后有没有系统性的规律?有没有什么因素或者特征可以解释Y?

例如,性别与流失(也就是Y)有关系吗?是否女性用户更加忠诚?如果这个猜测是有道理的,那么,性别就应该是X的一个分量。类似地,我们也可以思考:年龄有关系吗?消费习惯有关系吗?当前使用的产品有关系吗?等等。

这些思考能够帮助我们极大地丰富X,使它包含诸如性别、年龄、消费和产品等众多信息。如果说Y具体定义了我们的业务目标,那么X就决定了我们对业务目标理解的深度和广度。对于X的设计,需要创意,需要对业务有深刻的理解,以及天马行空的想象力。

总之,数据分析的第一步,不是分析数据,而是把业务问题定义清晰。判断的标准是: YX是否定义清晰。

0.4.2 指标设计

在实际工作中,业务问题定义永远都是模糊笼统的,如什么样的推荐者能够带来高(或者低)价值客户?但是,指标却是具体的。怎样把一个抽象的目标具体化?谁来起到桥梁的作用?那就是指标设计。好的指标设计能够把抽象目标具体化,而且具有直接的管理实践含义。

指标设计,首先要进行描述性统计分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

指标设计的核心任务是把原始数据转换为专家数据,使数据分析项目落地,包括对问题分解和对数据分解。

0.4.3 数据建模

有了专家数据就可以对数据建立模型。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。

在建模过程中,采用多种技术手段,挑选合适的变量参与建模。参与建模的变量太多会削弱主要业务属性的影响,并给理解分群结果带来困难;变量太少则不能全面覆盖需要考查的各方面属性,可能会遗漏一些重要的属性关系。输入变量的选择对建立满意的模型至关重要,应结合此次分析任务的目标,选择有重要业务意义并与数据挖掘目标密切相关的变量;被选择的变量应具备较好的数据质量,并且被选变量之间的相关性不宜太强。

不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与策略调整,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升、不断优化的过程,在每一次聚类结束后,需要判断聚类结果在业务上是否有意义,其各群特征是否明显。如果结果不理想,则需要调整聚类模型,对模型进行优化,称为聚类优化。聚类优化可通过调整聚类个数及聚类变量输入来实现,也可以通过多次运行,选择满意的结果。

0.4.4 分析报告

数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出解决问题办法的一种分析应用文体。好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现你的职场价值。数据分析报告回答分析结果如何?对决策的作用是什么?

分析报告的构成如图0.8所示,包括标题、目录、正文、总结与建议。

图0.8 数据分析报告构成