大数据分析师面试笔试宝典
上QQ阅读APP看书,第一时间看更新

前言

“大数据分析”这个职业在当前可谓炙手可热,几乎所有的公司都需要这样一个岗位来协助公司管理层运筹帷幄,一个具有三年工作经验的大数据分析师,年薪可达30万以上,对初入职场的人来说,非常有吸引力。

在人工智能技术日益发达的今天,有些职业通过引入“大数据分析”技术后形成了新的工作内涵,从而保证该职业长盛不衰。以会计职业为例,在计算机技术还不像今天这么发达时,其等同于记账,而加了“数据分析”技能后,该工种已经衍生出了像“财务分析”这样的新职业。

很多人不明白“数据分析”和“大数据分析”有什么区别,这两个职业称呼看上去一样,其实具体内涵还是有差别的。加了“大”字实际上是突出的数据规模,在小规模数据量下进行数据分析和在大规模数据量下进行数据分析是有很大不同的。

这里从三个方面进行简单说明:第一,小规模数据用Excel电子表格、关系型数据库就可以处理,而大规模数据需要用到复杂的分布式数据处理技术;第二,小规模数据意味着抽样,抽样就有风险,因此需要运用复杂的统计技术对数据结论进行验证,而大规模数据往往意味着全量,无须抽样,直接统计就可以代表总体的实际情况,得出错误结论的风险极低;第三,小规模数据往往维度较少,很难掌握业务的全貌,无法对业务进行精准预测,其结论往往只有参考价值,而无一锤定音的价值,而大规模数据可以帮助企业更为全面地掌握业务的状况,从而做出更为精准的预测——对业务进行预测才是最有价值的。

目前大部分公司招聘的都是大数据分析师,这样的人要可以胜任在大规模甚至超大规模数据集上进行数据分析的工作,这对传统数据分析师提出了很大的挑战——需要掌握大数据知识,但是还不能在技术路线上研究得过于深入,否则就变成了程序员。

可是,当你去问一个大数据分析师“成为一名大数据分析师要学什么”时,他/她很难给出一个准确的答复。这个和“程序员”有很大的区别,程序员的学习目标非常明确,学“Java”、学“C语言”……然后,深入学习……最后成为一名“高级软件工程师”。

大数据分析师这个职业很特别,需要用到数学知识、业务知识、营销知识、产品知识、编程知识、大数据知识……而且大部分知识都在不断更新。

事实上,真正的“数据分析技术”在中国的发展才不到10年,目前开设相关课程的大学也并不多。很多刚毕业的同学即使想主动学习相关技术,但是由于网络知识的零散特征,也很难体系化掌握。

基于以上所述的各种原因,再结合当前招聘公司公布的岗位需求,本书全面剖析了“大数据分析师”职业的技能,并引导读者对各类知识进行更深入的学习。

本书有别于各类培训教程,很少对理论进行推导,而是采用“拿来主义”,只求解决问题,因为工作中一般也不会进行理论推导。本书还有别于市面上其他同类型图书,对于知识点的讲解既不会“蜻蜓点水”,也不会过于深入,而是力求恰到好处,让读者能够刚好明白其中的原理,在工作和面试中均能用上。本书还有别于形形色色的互联网博客内容,要想在纷繁芜杂的互联网中获取正确的内容,是一件非常困难的事情,而本书作者通过查阅大量资料,结合自己十多年的工作经验,对所有知识点都以实战为基础进行了取舍。

希望读者朋友阅读本书后,能对相关职业有更深入的理解,从而在茫茫的职业大海中找到属于自己的那盏“明灯”。

本书共5章,从职业方向剖析、面试技巧解析,到数据分析最基础的统计学、算法知识,再到大数据处理技术,最后到数据可视化,贯穿解析了整个数据分析流程中的各个重要环节所需要的知识点。

第1章,讲解大数据相关职业需要的技能、工作流程以及面试方法,让读者对相关岗位有一个较为清晰的认识,从而找到更适合自己的职业方向。

第2章,讲解统计学基础知识。本章内容特点有三个:1)大部分知识点都和面试相关,同时考虑了知识点之间的衔接关系,以便形成一个完整的知识体系;2)重点讲解了使用统计学知识可以解决哪些实际问题,对于相关问题直接给出公式或者计算方法,由于舍弃了理论推导,因此要求读者具备一定的统计学基础;3)尽量使用一些生活当中的例子辅助读者理解相关统计学知识。

第3章,讲解有关数据挖掘算法的相关知识。大部分数据挖掘算法的原理非常简单,相关知识也非常容易从各种途径获得,但关于算法分析和评估的知识则比较稀少,因此本章对算法的原理和流程讲解较少,而以较大篇幅来讲解有关算法评估的知识,这些知识相比算法原理来说实战性更强,也是在面试过程中最能体现应聘者水平的地方。

第4章,讲解大数据相关知识。本章内容主要讲解了数据采集方法、数据仓库、ETL数据质量提升方法以及主流的两种分布式数据处理技术。限于篇幅,本章主要结合面试题对这些内容最为精华的部分进行了讲解。这些内容不仅适合相关开发人员阅读,而且也适合需要主动获取和处理大数据的纯数据分析人员学习。

第5章,讲解数据可视化相关知识。制作简洁易懂、美观大方且富有商业气息的图表可以说是每个大数据分析师的职业需求。本章以柱状图为例,教大家如何制作更加符合商业化图表要求的柱状图。

最后,本书还根据一线互联网公司的面试题总结了三套真题,供读者检验自己的水平。

本书在撰写过程中得到了很多同事、同学、家人以及出版社编辑老师们的鼓励和支持,在此表示感谢。由于编者水平有限,书中难免存在不足之处,欢迎读者批评指正。

编者