1.1 Python数据分析基础
近些年来,数据分析和Python这两个词总是连在一起。那么,到底什么是数据分析?做数据分析为什么要选择Python?Pandas之于Python意味着什么?本节就来回答这些问题。
1.1.1 数据分析的基本概念
首先,我们来聊聊“什么是数据分析”这个常看常新的话题。
从定义上来看,数据分析是指通过工具处理和分析,从数据中得到有价值的洞察,给出建议并持续追踪的过程。
整个过程可以分为6个阶段:明确分析目标—数据获取—数据清洗—数据分析—结论输出—追踪验证。
1)明确分析目标:在展开分析之前,明确分析目标非常重要,甚至决定了分析的整体走向。最原始的需求方是谁?想解决什么问题?他描述的需求能否解决本质问题?如果不能,需求应该做怎样的调整?只有先和需求方多沟通,用一系列灵魂拷问找到最本质的分析目标,才能让分析有的放矢。
2)数据获取:从内外部获取数据,内部可以直接从数据库或留存的文件中获取,外部一般依赖于爬虫或付费购买。
3)数据清洗:原始数据经常会有各种问题,例如存在缺失值、重复值、格式错误、极端异常值等。我们需要清洗数据来解决这些问题,保证数据的“干净整洁”。
4)数据分析:利用合适的工具对数据做进一步处理和分析,包括建立模型、进行描述性分析、进行探索性分析等。需要注意的是,一切分析都要始终围绕分析目标进行。
5)结论输出:整理并汇总上一步数据分析的结果,用可视化的方式来呈现,并提炼出最关键的结论和建议。在结论输出的过程中,和需求方多轮沟通,适当引入业务的视角,避免就数论数。
6)追踪验证:给出建议并不是最后一步,数据分析师需要追踪建议的执行结果。建议被采纳了多少?执行效果具体怎样?有哪些经验或者问题可以总结?在复盘中验证和进步。
基于数据分析,我们可以量化决策、诊断现状、挖掘原因、预测未来,真正做到点“数”成金。
正如武林中的绝世剑客都有一把绝世好剑一样,一个优秀的数据分析师要想大显身手,也需要一把趁手的“武器”。接下来,我们一起来认识下这把“武器”——Python。
1.1.2 为什么选择Python
很多读者在学习数据分析的过程中,都纠结过“到底应该学什么数据分析工具”这个问题。市面上数据处理、分析、可视化相关的工具非常多,比如Excel、R语言、SQL和Python等。这些工具各有各的优势和应用场景,而Python凭借极其丰富的、导入即用的数据分析库以及极强的拓展性,成为数据分析领域非常流行的工具之一。
基于Python,我们可以爬取数据,可以根据需求轻松地对大量数据进行处理和分析,可以绘制炫酷的图表,还可以把分析好的数据结果做成报表并自动用邮件发送给相关的同事,功能强大又便利。
1.1.3 Pandas和Python的关系
Python的强大之处在于非常灵活,而且有丰富的工具包(Python中常叫作库)。做个类比,如果把Python当作一种万能的材料,有大神已经用Python打造出很多工具,例如汽车、空调、电脑。当我们要开车的时候,不用再花时间了解汽车的构造与组装原理,更不用自己重新制造汽车,只需要明确目的地,启动后控制好方向盘、油门和制动系统就好。
Pandas就是基于Python打造的专门用来做数据处理和分析的“超级跑车”,它把数据处理的底层原理和复杂的实现过程已经封装好了,我们导入直接调用就好。所以,Pandas学习的重点在于掌握驾驶这辆“跑车”的核心技巧。
准备好,我们一起上车吧!