利用Python进行数据分析(原书第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

2017年9月,我以SeanCheney为网名在互联网上写作、翻译了一系列文章,内容包括Python数据分析、爬虫、机器学习。出乎意料地,在随后的5年时间里,我得以接触成千上万的读者,其中既有各种专业的学生,也有从事不同行业的职场人士。这让我认识到,除了程序员,越来越多的人正在学习数据分析。身处大数据时代,数据分析能力正逐渐成为现代人不可或缺的一项技能。

在数据分析领域,本书是最值得阅读的图书之一。首先,Python这门语言非常适合初学者。得益于简洁的语法,Python代码的可读性非常好,即便非计算机专业的读者也能快速掌握它。本书正是以Python作为编程语言来讲解数据分析的,不仅学习门槛低,而且上手快。其次,对于已经入门Python的读者,数据分析是非常好的进阶学习内容。当掌握数据分析之后,读者可以继续学习机器学习、深度学习或者量化金融等。pandas库是使用Python进行数据分析最主要的工具,而本书作者正是pandas库的创建者,因此对知识点的讲解十分亲切、流畅、自然。最后,本书提供了非常丰富的学习内容,涉及机器学习、统计、时间序列分析、数据可视化。经过三版的迭代,本书的知识体系更加合理和系统化。如果读者能跟随本书示例学习并勤加练习,一定能收获学习和精进的乐趣。

本书第3版最大的变化是紧贴pandas的升级进行扩展,将pandas升级为1.4.0,将Python升级为3.10,主要是新增了方法和特性等内容。作者为第11章新增了分组时间重采样,并将第2版中第12章的内容前置到本书第7章中。曾经不止一次听别人抱怨,pandas的知识点分散、零碎、不便于记忆,作者在细节上也对此进行了改进。在本书中,作者摒弃了许多容易造成记忆混乱的用法,比如,用axis="columns"替代axis=1。简写方式破坏了代码的可读性,作者修改了许多类似的编程细节。本书对初学者更为友好了!

早在Python成为主力的数据分析工具之前,Excel、MATLAB、R都是强有力的竞争者。Python能后来居上,除了它极易上手的特性,主要还是归功于开源。本书作者Wes McKinney是开源界的先锋,他早年创建了pandas,后来完全依托开源社群对其维护。社群中不乏优秀的开发者,众人合力推动pandas持续进步,pandas才有如今的影响力。正是因为这种纯粹的开源理念,Wes专门为本书搭建了开源的网页版本,相信pandas社区不仅会进一步壮大,还会迎来一大批新用户和读者。

很高兴能与机械工业出版社合作,本人能力有限,尽管我已多次校阅过书稿,但疏漏之处在所难免。如果读者发现书中错误,非常欢迎通过电子邮箱seancheney@qq.com向我反馈。

陈松

清华大学科学馆