利用Python进行数据分析(原书第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
Python语法基础、IPython和Jupyter notebook

当我在2011年和2012年写作本书的第1版时,学习Python数据分析的可用资源很少。我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。来到2022年,数据科学、数据分析和机器学习的资源已经很多,原先仅面向通用科学计算的工作也拓展到了计算机科学家、物理学家和其他研究领域的工作人员。此外,也出现了大量学习Python编程和成为卓越软件工程师的优秀书籍。

因为本书是专注于Python数据处理的,从数据处理的角度,我认为很有必要独立成章地概述Python内置的数据结构和库的重要功能特性。因此,本章和第3章将介绍一些基本知识,这些内容足以确保读者学习本书的后续章节。

本书大部分内容关注的是基于表格数据的分析和处理数据集的数据准备工具,数据集并不大,可以在个人计算机上运行。为了使用这些工具,必须首先将混乱的数据规整为整洁的表格(或结构化)形式。幸好,Python是一门理想的语言,可以快速整理数据。对Python的内置数据类型使用得越熟练,越容易准备新数据集以进行分析。

最好在IPython和Jupyter中亲自尝试本书中使用的工具。当你学会了如何启动IPython和Jupyter,我建议你跟随示例代码进行练习。与任何键盘控制的操作环境一样,熟练掌握常用命令也是学习曲线的一部分。

本章没有介绍Python的某些概念,例如类和面向对象编程,你可能会发现它们在Python数据分析中很有用。

为了加强Python知识,我建议你学习官方Python教程(https://docs.python.org),或者优秀的Python编程书籍。以下是一些推荐书籍:

Python CookbookThird Edition,David Beazley和Brian K. Jones著(O'Reilly出版)

Fluent Python,Luciano Ramalho著(O'Reilly出版)

Effective Python, Second Edition,Brett Slatkin著(Addison-Wesley出版)