第2章 数据平台大图
什么是数据平台呢?或者更时髦点,什么是大数据平台呢?目前业界并没有对数据平台的精确定义,但通常所说的数据平台主要包含三部分。
❏ 数据相关的工具、产品和技术:比如批量数据采集传输的Sqoop、离线数据处理的Hadoop和Hive、实时流处理的Storm和Spark以及数据分析的R等。
❏ 数据资产:不仅包含公司业务本身产生和沉淀的数据,还包括公司运作产生的数据(如财务、行政),以及从外界购买、交换或者爬虫等而来的数据等。
❏ 数据管理:有了数据工具,也有了数据资产,但是还必须对它们进行管理才能让数据产生最大价值并最小化风险,因此数据平台通常还包括数据管理的相关概念和技术,如数据仓库、数据建模、数据质量、数据规范、数据安全和元数据管理等。
上面是对数据平台逻辑范畴上的一个划分,实际上数据平台从数据处理的时效性角度通常还是分为离线数据平台和实时数据平台。
离线数据平台通常以天为典型的数据处理周期,数据延迟也是以天为单位。离线数据平台的数据应用主要以“看”为主,就目前业界的数据现状来看,离线数据平台还是数据平台的主战场。
但是随着大数据应用的日益深入以及人工智能浪潮的兴起,产品的智能化趋势越来越明显,数据的实时化、在线化也对数据平台的实时性提出了越来越高的要求,从刚开始的分钟级别延迟到目前的秒级甚至毫秒级延迟,实时数据平台越来越得到重视,挑战也越来越大,当然也变得越来越主流,随着Spark、Flink、Beam技术的发展,未来有一天也许将会颠覆离线数据平台的技术和架构。
本章将主要介绍数据平台,出于逻辑清晰以及技术相关性考虑,将主要从离线数据平台、实时数据平台以及数据管理三个方面来对数据平台相关的概念和技术进行介绍。
本章是后续各章技术的一个总览,因此请读者务必仔细阅读本章,确保对数据平台的整体架构和大图做到心中有数。后续各章将会聚焦在各个具体的技术上。