数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

1.1.2 数据分析的操作步骤

数据分析有一套比较规范的操作步骤,作为数据分析人员必须掌握好它,才能减少工作失误,提高工作效率。数据分析的操作步骤如图1-2所示。

图1-2 数据分析的操作步骤

1.明确目的

数据分析的第一步就是要明确分析目的。和大家在生活中处理某件事情一样,先确定目标,然后再去动手实施。例如,某电商APP上线后,前期导入了大量新用户但是用户质量不是很好(包括登录、付费等表现),需要通过数据分析查明原因。作为数据分析师,需要明确此次分析的目的是找出大量注册用户登录时间不长、付费金额低的原因,可以首先从注册用户本身的属性着手展开分析。

2.数据收集

数据是进行数据分析的前提,“巧妇难为无米之炊”说的就是这个道理。因此,数据的收集显得尤为重要。按收集方式的不同,数据收集可以分为线上收集和线下收集;按收集渠道的不同,又可以分为内部收集和外部收集。数据收集的两种不同分类如图1-3所示。

图1-3 数据收集的分类

线上收集的数据指的是利用互联网技术自动采集的数据。例如,企业内部通过数据埋点的方式进行数据收集,然后将收集来的数据存储到数据库中。此外,利用爬虫技术获取网页数据或借助第三方工具获取网上数据等都属于线上收集方式。一般情况下,互联网科技企业、互联网电商企业、互联网游戏企业等都采用此种方式收集用户行为数据,因为其效率高且错误率较低。

线下收集的数据相对比较传统,对技术要求不高。例如,通过传统的市场调查问卷获取数据即为线下收集。此外,通过手工录入获取数据、出版物收集的权威数据以及通过其他人提供的电子表格获取数据等都属于线下收集方式。这种收集数据的方式效率低且容易出现偏差。一般情况下,传统制造型企业、线下零售企业、市场调研咨询类企业等都采用此种方式收集数据。

内部收集的数据指的是获取的数据都来源于企业内部数据库、日常财务数据、销售业务数据、客户投诉数据、运营活动数据等。此类数据的获取相对较为方便,数据分析人员可以根据实际业务需求对内部收集的数据进行处理分析。

外部收集的数据指的是数据不是企业内部产生的,而是通过其他手段从外部获取的。例如,利用爬虫技术获取的网页数据,从公开出版物收集的权威数据,市场调研获取的数据以及第三方平台提供的数据等。外部数据的收集不像内部收集那么容易,且大部分都是碎片化、零散的数据。因此,数据分析人员需要对这些数据进行清洗和整合,然后再去进行分析。

总之,不管以何种方式收集过来的数据,都是企业宝贵的财富。数据分析人员需要多和这些数据打交道,多去研究数据背后隐藏的规律,为业务决策提供支持。

3.数据处理

一般通过不同途径收集过来的原始数据都是相对比较粗糙且无序的。此时,需要利用数据处理软件进行一系列的加工处理,降低原始数据的复杂程度,最终汇总成用户可以解读的业务指标。数据处理包括前期的脏数据清洗、缺失值填充、数据分组转换、数据排序筛选等,后期的业务指标计算、报表模板填充等。常用的数据处理工具包括Excel之类的电子表格软件、各类数据库软件、Python、R、SAS、SPSS等,这些工具都包含数据处理模块,方便用户对数据进行快速清洗,然后进行分析。

4.数据分析与数据挖掘

基于处理好的数据,数据分析人员才可以对其进行分析和挖掘,结合实际业务得出相关结论,提供给管理层进行决策。因此,数据分析人员需要掌握数据分析和数据挖掘的常用方法,才能为后期的数据报告的制作打下坚实的基础。

数据分析的侧重点在于对业务的熟练掌握,一个优秀的数据分析人员往往对公司业务了如指掌。例如,产品日常活动的前期设计、中期上线跟踪、后期效果评估以及最终的建议与反馈等,数据分析人员都要非常熟悉。当然,除了熟练掌握业务之外,数据分析人员对数据分析常用的分析策略和分析方法也必须掌握。一般情况下,数据分析策略分为描述性统计分析、探索性统计分析、推断性统计分析,如图1-4所示。

图1-4 数据分析常用的分析策略

常用数据分析方法包括对比分析法、分组分析法、预测分析法、漏斗分析法、A/B测试分析法,如图1-5所示。通过这些数据分析方法,可以挖掘出数据隐藏的价值,从而降低企业成本,提高营业利润等。

图1-5 数据分析常用的分析方法

数据挖掘的侧重点在于对模型和算法的理解,一个优秀的数据分析人员必须拥有扎实的数学基础和熟练的编码能力。数据的复杂性、多样性、动态性等特点会使得数据挖掘变得很困难。因此,在数据挖掘过程中,应该要清楚每一步需要做什么,达到什么样的效果,有问题及时调整方案策略,从而确保整个数据挖掘项目的最终成功。

数据挖掘的规范化步骤可以采用SIG组织在2000年推出的CRISP-DM模型,如图1-6所示。该模型将数据挖掘项目的生存周期定义为六个阶段。六个阶段分为商业理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、建立模型(Modeling)、模型评估(Evaluation)、结果部署(Deployment)。数据挖掘的流程并非要完全参照这个顺序执行,数据分析人员可以根据实际业务场景进行调整,通过不断地测试和验证,才能做好一个完整的数据挖掘项目。此外,数据挖掘具有循环特性,并不是一次部署完就结束挖掘过程,需要通过不断的迭代优化,获得最优结果。

图1-6 CRISP-DM模型流程图(来源网络)

5.制作数据报告

数据分析的最终结果需要汇总成一份数据报告,最常见的是PPT格式的报告。因此,关于数据分析报告的制作显得尤为重要。数据分析报告的制作要求目的明确、结构清晰、有理有据。

报告开始部分一般为目录和前言,简单扼要地列出本次汇报需要陈述的章节;中间部分为正文,主要是对目录的各章节点展开叙述;结尾部分进行报告总结并提出相关建议和解决措施。数据分析报告的结构如图1-7所示。

图1-7 数据分析报告结构图

开始部分的目录是数据分析报告的整体纲要,要求简洁扼要、结构清晰、逻辑有序,让阅读者能快速了解整个汇报的内容。目录切记要归纳总结,不要分太多章节,大致包含分析目的、分析要点、结论与建议。前言是对分析报告的目的、背景、思路、方法、结论等内容的基本概括,然后引出分析报告的正文内容。

正文部分的分析和论证是数据分析报告的核心部分,按目录的章节排序分别进行阐述,详解分析思路并进行论证。分析和论证要求条理清晰、层层剖析、有理有据。

结尾部分的结论和建议是依据前面的分析结果得出的相关结论。结论要求准确、干练、有价值,切不可冗余拖沓。在准确的结论基础之上,提出自己的见解和建议,为管理者进行决策时提供参考依据。

最后,数据分析报告的风格要前后一致,内容也可以加入一些动态展示效果,让阅读者赏心悦目,心情舒畅。当然,数据分析报告的核心还是分析、结论与建议,过分重视分析报告的美观程度而忽视分析报告的本质是不可取的。数据分析人员应抱着科学严谨的态度,将对业务的理解与分析挖掘技术相结合,得出可靠且令人信服的分析报告,提供给管理层进行业务决策。