前 言
朱雪宁(布丁)
两年前,狗熊会微信公众号刚刚投入运营,到底写点什么好呢?因为我对R语言更加熟悉,熊大(王汉生)就提议我来牵头组织关于R语言数据分析的专栏,还取了一个相当文青的名字“R语千寻”。写了几篇后,没想到竟然收到不错的读者反馈,这个专栏也就逐渐固定下来。我们意识到,R语言是一种有力的工具,在实际案例、数据分析中有无限的魅力,而“R语千寻”结合实际数据进行案例讲解的形式也受到许多朋友的喜爱。
自建立以来,“R语千寻”专栏迎来了越来越多的创作者,积累了丰富翔实的内容。于是,就有了对这些内容适时系统地梳理、总结,形成一本结合丰富的数据与案例教学的R语言数据分析书籍的想法。对“R语千寻”专栏而言,这并不是一个终点。在未来的日子里,“R语千寻”将继续为大家推出有意思的故事与有趣的分析,也希望收到更多读者朋友的反馈。
本书适合刚刚入门或者了解R语言但还没有认识到R语言在实际数据分析中强大威力的朋友。或许你是一个编程小白,渴望入门一种较为容易上手的编程语言,但又在庞大的知识体系前望而却步;或许你还在求学,本学期刚刚学习了R语言课程,但是你想了解的不止于如何生成一个数组或者矩阵这么简单;又或许你是一个业界从业者,逐渐认识到手上开始积累越来越多的数据,它们也许能产生巨大的商业价值,而你却无所适从。本书希望能带给你一些感悟。
在这个最好的时代,我们有能力收集、积累大量的数据;数据分析、人工智能也正处在前所未有的风口上。正如狗熊会出品的第一本书——《数据思维》所强调的那样,最重要的是完成从数据到价值的转换。本书希望告诉大家,这种转换不仅需要培养严谨的数据分析思维,同时也要具备踏实的实务分析能力。如何将业务问题转变为数据可分析问题呢?对于现实中可能并不“美”的数据,如何清洗,如何描述,以及如何建模和解读呢?所有这些步骤,我们通过具体的R语言实务分析,向大家一一解读。
对于从事数据分析的人来说,这还不够,工作的需求往往不止于此。数据分析工作每天面临的是大量的细节。曾经以为数据分析就是玩转高大上的模型,然而入行后你才会发现,80%的时间你将用来理解业务、清洗数据、描述规律、大胆假设、小心求证……最后真正上模型的时间,通常也就不过剩下的20%而已。在所有的过程中,事无巨细,如果能熟练使用R语言,它将成为你得力的帮手。经常听到这样的抱怨:R语言处理实际数据太慢!我们应该去学C,Java。而实际去看看那些抱怨的人写出的代码,虽然能达到最终目的,但是效率却惨不忍睹!适当的转变编程思路,改用一两个函数或者R包,编程效率往往能数以十倍地提升。所以,那些每天喊着打语言仗的人真的不如花点时间稍微提高一下R编程的知识水平。在作者看来,急于学习多门语言不如先精通一门语言。
在内容组织方面,本书从R语言简介及优势入手,再到数据描述、建模等数据分析的各个环节,由浅入深,组成不同章节。第1章介绍R语言的背景、优势,用幽默的语言告诉你“R语言能做什么”。第2章介绍基本数据操作,包括数据基本类型、数据读写,这些组成了R语言应用的根基。第3章介绍R语言与统计分析,包括三大利器:描述分析、统计检验、回归分析,这些环节在实际的数据分析中缺一不可。第4章解读R语言与非结构化数据分析,主要包括无处不见的文本数据和图像数据。第5章介绍如何用R语言进行当下最火的机器学习建模,从数据清洗到模型集成、建模调参一网打尽。第6章介绍R语言的爬虫原理及技巧。本书对于R语言的整个知识体系框架也许不是涉及最广的,但是希望能对实际数据分析产生直接的借鉴作用。
本书由狗熊会核心创作团队齐心协力完成,希望向大家展示R语言有趣、实用、高效的一面。参与创作的成员有(按姓名拼音排序):常象宇(政委)、成慧敏、范超、李宇轩、鲁伟、潘蕊(水妈)、王健桥、王毅然、向韵桦;参与本书整理、校对的同仁有(按姓名拼音排序):何通、杨瀚轩,感谢所有参与成员付出的巨大心血和努力。本书还要特别感谢狗熊会CEO李广雨先生给予的鼓励和支持;感谢蔡知令教授、王汉生教授在写作过程中关于内容组织、时间安排等提出的宝贵建议;感谢狗熊会所有同事提出的宝贵建议以及细致的审查意见;感谢中国人民大学出版社李文重编辑在书稿形成、章节安排等方面付出的巨大努力。
另外,本书中引用的图片除特殊标注外均来源于网络,鉴于引用这些图片时无法获知原创作者及出处,在此对原创作者统一表示感谢。
最后,把本书献给所有培养过我们的老师、企业合作伙伴;献给我们的朋友、家人。正是因为有你们,我们才能站在更高更大的舞台上,施展抱负,勇往直前。在这里,再次想起狗熊会的理念:聚数据英才,助产业振兴。同时,也祝福狗熊会的明天会更好,愿越来越多志同道合的小伙伴加入我们,分享数据分析带给你的快乐。由于本书写作仓促,疏漏之处在所难免,请大家多多批评指正!