序
“大数据”一词最早出现于20世纪90年代,作为一个技术术语流行起来则始于2012年。时至今日,该词仍没有统一、明确的定义。人们通常从Volume、Velocity、Variety等角度定义大数据,而最吸引大众是Volume这一特点。根据维基百科的介绍,自20世纪80年代起,人均存储信息的能力每40个月增加一倍;截至2012年,全世界每天产生2.5艾字节(1018字节)的数据。IDC报告预测,全球数据将从2018年的33泽字节(1021字节)增长到2025年的175泽字节,其中近30%数据需要实时处理。世界正在以前所未有的速度数字化和创造数据。数字化时代到来了,数据时代到来了!
随着数据时代的到来,越来越多的企业和政府开始重视大数据及相关技术。2012年,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的一种国家核心资产。随后多国政府和很多组织提出了相应的大数据战略。
然而,任何行业的升级、发展都不是一蹴而就的。就目前来看,不同企业和组织处于四种不同的数字化和大数据阶段:传统阶段、数字阶段、数据阶段和数学阶段。传统阶段指企业仍然以传统的方式使用软件技术,其主要特点是用软件支撑企业内部流程,通常是由企业内部的IT部门主导;数字阶段指企业开始用全新的视角看待和使用软件,软件成为公司主营业务的重要组成部分或者主要组成部分;数据阶段指企业通过全业务的数字化,积累大量数据,再通过数据分析,从数据中获取洞见,反过来促进业务健康发展;数学阶段是指自动化、智能化达到了高阶阶段,通过算法和模型的自动优化为公司提供动力,数学算法和模型成为公司发展的核心引擎。目前来看,虽然大家已经对“大数据”一词耳熟能详,但大多数企业和组织仍然处于传统阶段或者数字阶段早期。造成这一现象的主要原因之一是人才匮乏。根据中国商业联合会数据分析专业委员会统计,未来我国基础性数据分析人才缺口将达到1400万,而大数据专业技术人才缺口将达数百万。优秀的专业书籍对培育人才、缓解这一缺口大有裨益。
目前,市面上的大多数关于大数据的书籍要么侧重于大数据思维,要么侧重于某种或者某几种具体的大数据技术。与这些大数据书籍不同,本书立意新颖,涵盖范围很广,从多个角度对大数据战略到技术进行系统性介绍。本书横向从商业角度介绍了大数据、云计算和人工智能的关系,站在高阶数字化战略的高度解读大数据;纵向从数据处理背后的技术推动力的角度,阐述了大数据发展的历程及未来趋势;从技术实战角度则详细介绍了如何使用Greenplum大数据和机器学习平台实现大数据战略。
Greenplum是先进的开源分布式数据库之一,创建于2003年,2010年被EMC公司收购。它因出色的技术能力、易用性和丰富的企业级特性受到大量用户的欢迎,被广泛应用于金融、保险、证券、通信、航空、物流、零售、媒体、医疗、制造、能源等行业,在国内外有一大批拥趸者。2015年开源后更是发展迅速,目前在全球拥有大量的开源用户。腾讯云等主流的云厂商都将其列为重要的大数据存储、处理和分析服务之一。
本书作者均为Greenplum内核开发团队核心成员,在大数据和机器学习行业具有丰富的经验,全球视野和技术前瞻性都毋庸置疑。我也有幸和作者团队多次深度合作,相信他们精心打造的这本书可以给读者全新的启发,帮助大家用正确的理念和方法论来迎接大数据和人工智能时代的挑战与机遇。
祝各位阅读愉快!
王龙
腾讯云副总裁
2019年3月