大数据技术体系与开源生态
上QQ阅读APP看书,第一时间看更新

前言

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。随着信息技术和人类生产生活的交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。大数据技术的应用和发展,为人类提供了认识复杂系统的新思维和新手段,成为推动经济转型升级的新动力,也是提升社会治理能力的新途径,以及提升国家综合能力和保障国家安全的新利器。

美国政府最先对大数据技术革命做出战略反应,从2012年到2016年共实施了4轮政策行动,美国白宫成立了“美国大数据研发高级指导小组”,实施了《大数据研究和开发计划》,加强了在大数据研发和应用方面的布局。欧盟发布了《数据驱动经济战略》,大力推动“数据价值链战略计划”,倡导欧洲各国抢抓大数据发展机遇。英国政府发布了《把握数据带来的机遇:英国数据能力战略》,从提升数据分析技术、加强国家基础设施建设、确保数据安全和共享等方面作出部署。此外,日本、韩国、澳大利亚等国均出台了相关政策,大力推动大数据应用及产业发展。

我国在党的十八届五中全会上将大数据上升为国家战略。2015年8月,国务院印发了《促进大数据发展行动纲要》;2017年1月,工信部印发了《大数据产业发展规划(2016—2020年)》等政策指导文件,为大数据战略的实施指明了具体方向。在党的十九大报告中,习近平总书记明确指出:“推动互联网、大数据、人工智能和实体经济深度融合。”2017年12月8日,在中共中央政治局第二次集体学习时,习近平总书记发表了“大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善”的讲话。自此,我国大数据发展开启了新的篇章。

在这样的大背景下,全球大数据产业日趋活跃,技术演进和应用创新加速发展,全世界各地的创新人才不断地涌入到大数据产业中来,进一步反哺大数据技术的发展。再加上开源生态的不断壮大,进一步促进了大数据技术的分享和发展。

大数据技术已成体系,从大数据生命周期的角度,其可以划分为大数据获取、大数据管理、大数据处理、大数据分析与挖掘、大数据可视化、大数据安全与治理6个方面,本书也是从这6个方面来对大数据技术体系和开源生态的建设进行相应的介绍。

本书共7篇15章,其中:

第一篇:大数据技术体系与开源生态概述,包括第1~4章。第1章为大数据技术体系概述。第2章描述了开源生态与代码托管平台简介。第3~4章着重介绍了大数据技术和云计算技术这两类技术的开源生态建设及发展情况,包括Apache软件基金会、Linux基金会、OpenStack基金会、Cloud Native Computing Foundation和开源中国。其中,第1章由段雄编写,第2~4章由罗童编写。

第二篇:大数据获取技术,包括第5章,从当前主流的消息队列相关技术的角度阐述数据如何从异构系统采集并融合在一起,包括 ZeroMQ、RabbitMQ、ActiveMQ、Apache Kafka4个开源项目。第5章由樊路遥编写。

第三篇:大数据管理技术,包括第6~7章。第6章描述了当前主流数据库技术,包括MySQL、PostgreSQL、MongoDB、Apache CouchDB、Vertica、Apache HBase、Neo4j、OrientDB、InfiniteGraph、Alluxio、Apache Tajo 11个开源项目。第7章介绍了大数据平台资源管理技术,包括Apache Zookeeper、Apache Hadoop YARN、Apache Mesos、Apache Mnemonic 4个开源项目。其中,第6章由温琦和胡柏青编写,第7章由方久鑫编写。

第四篇:大数据处理技术,包括第8~9章。第8章介绍了当前主流的大数据批处理平台,包括Apache Hadoop、Apache Spark、Apache Kylin这3个开源项目。第9章介绍了当前主流的实时流处理平台,包括 Apache Storm、Apache Spark Streaming、Apache Flink、Apache Beam和Apache Apex 4个开源项目。其中,第8章由王新科编写,第9章由林秋霞编写。

第五篇:大数据分析与挖掘技术,包括第10~11章。第10章介绍了主流大数据分析工具,包括Apache Mahout、Apache Lens、Apche Spark MLlib、Scikit-Learn4个大数据开源项目。第11章介绍了主流人工智能开源平台,包括 TensorFlow、Caffe、PyTorch、TensorFlow Lite4个开源项目。其中,第10章由陈喆和王新科编写,第11章由樊路遥、朴成哲和温琦编写。

第六篇:大数据可视化与交互技术,包括第12~13章。第12章介绍了两个主流大数据:可视化与交互技术,Tableau和Apache Zeppelin。第13章介绍了其他大数据可视化与交互技术,包括BIRT、KNIME、Jaspersoft Community 3个开源项目。其中,第12章由张晶和罗童编写,第13章由陈喆、胡柏青和林秋霞编写。

第七篇:大数据安全与治理技术,包括第14~15章。在第14章,通过介绍Apache Falcon 和Apache Atlas两个开源项目阐述了大数据治理技术。第14章介绍了Apache Kerberos、Apache Ranger、Apache Sentry和Apache Metron 4个大数据安全开源项目。其中,第14章由陈喆编写,第15章由陈喆和张晶编写。

由于编者及撰写者的认识和水平所限,本书内容仅从大数据技术体系及其开源生态发展的一个视角写作,既不全面,也难免偏颇。但能够为读者提供一定的参考,则本书目的已达。欢迎广大读者对本书进行批评指正。

作者

2018年4月