Python数据分析快速上手
上QQ阅读APP看书,第一时间看更新

1.1 理解数据分析

本节将介绍什么是数据分析,以及数据分析的目的和步骤。

1.1.1 数据分析是什么

数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让企业获得持续竞争的优势。

1.数据分析简介

数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值,是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别但不区分顺序的,是定类数据,如性别、品牌等;定性数据中表现为类别但区分顺序的,是定序数据,如学历、商品的质量等级等。定量数据是指以数量形式存在的数据,并因此可以对其进行测量,以物理量为例,距离、质量、时间等都是定量数据。

2.数据分析的目的

数据分析的目的是把隐藏在一大批看似杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个生命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。

1.1.2 数据分析的步骤

数据分析主要有以下5个步骤。

1.明确数据分析的思路

数据分析一定是带着某种业务目的的。它可能是要追踪一个新产品上线之后的用户使用情况,也可能是观察用户在某段时间的留存情况,还有可能是运营某种优惠券是否有效,等等。因此数据分析的思路首先是明确分析目的,确定要从哪几个角度进行分析,然后找到能够说明目的的指标。

比如想要验证最近运营的一批优惠券是否有效,我们可以从优惠券的领取情况和优惠券的使用情况两个方面进行分析,而优惠券的领取情况的指标可以细化为领取率,使用情况的指标可以细化为使用率、客单价等。

2.数据的收集

在确定了此次数据分析的核心指标后,就要针对数据指标做数据收集。有些企业的数据准备非常充分,数据仓库、数据集市等早早就建设好了。有一些企业在数据分析上比较落后,那就需要我们自己做大量的前期数据收集工作:使用一些自己公司的或者第三方的数据分析工具进行埋点,拿到日志;或者使用数据库中的现有数据,比如订单数据、基础的用户信息,等等。

3.数据的处理

数据处理是指对采集到的数据进行加工整理,如从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据,保证数据的一致性和有效性,是数据分析前必不可少的阶段。

一般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。数据处理常用的方法有数据清洗、数据转化、数据抽取、数据合并、数据计算等。

4.数据分析

数据分析是指用适当的分析方法及工具将收集的数据通过加工、整理和分析,使其转化为有价值的信息。

一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的数据分析工具,常用的数据分析工具有SPSS、SAS、Python、R语言等。

5.数据展现

通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,之后即可通过图表呈现出来。常用的数据图表包括饼图、柱形图、折线图、条形图、散点图、雷达图等。当然,还可以进一步整理加工这些图表,使之变为我们所需要的图形,例如金字塔图、矩阵图、瀑布图、漏斗图、帕雷托图等。

多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。