Greenplum:从大数据战略到实现
上QQ阅读APP看书,第一时间看更新

前言

数字原生

2010年11月,在Greenplum创始人的支持下,我们在北京建立了Greenplum中国研发体系。2013年4月,随着Pivotal公司的建立,我们在Greenplum中国研发的基础上合并了部分VMWare中国研发集团的P层云资产,建立了Pivotal中国办公室。截至本书完稿的时候,我们的中国核心研发团队和全球研发团队一起奋斗了8年,打造的Cloud Foundry产品和Greenplum产品成为Pivotal公司在纽约证券交易所上市荣登PaaS第一股的基础。作为Pivotal中国办公室的创始团队,我们一直在审视和提升Pivotal中国办公室的使命和愿景。高尚的使命和愿景是促使一个机构达到世界一流水平的必要条件,因为使命和愿景比战略更高一层。一个机构在前进的过程中,其战略不可避免地需要调整。在面对战略调整时,如果组织成员缺乏共同的使命和愿景,就很难在变化中存活下来。以PC行业为例,苹果公司由最初的苹果电脑公司(Apple Computers)发展到今天苹果(Apple)公司,业务也从以PC为重心迁移到以移动和云服务为重心。苹果公司的转型一路颠簸但最终成功,这与它们坚持艺术和科技的融合并提供一流的用户体验的使命是分不开的。对于不少没有完成转型的PC企业,仔细观察一下,会发现它们通常不能清楚地表达自己的使命。

那么Pivotal中国办公室的使命是什么?简单地说,是支持全球Pivotal产品和商业战略的成功。但是,这个回答显然不能说服和召集一批学霸把Pivotal中国办公室变成世界一流的创新机构。作者有幸参与Pivotal公司在EMC和VMWare内部的启动倡议(Pivotal Initiative),聆听到董事长Paul Maritz先生对Pivotal宣言(Manifesto)的解读。中国读者可能还不熟悉Maritz先生,根据维基百科的介绍,他是微软Windows平台的主要执行团队成员,负责过Windows 95和Windows NT等关键产品。在创建Pivotal之前,Maritz先生是VMWare公司的CEO,奠定了VMWare在虚拟化和I层云的行业领导地位。鉴于Maritz先生在业内的声望,作者仔仔细细阅读了他撰写的三页纸篇幅的Pivotal宣言,并且思考了Pivotal中国办公室如何既能拥抱Pivotal宣言又能在自己专注的领域成为国内意见领袖。今天,Pivotal的使命用一句话描述就是“The Way The Future Gets Built”,用中文直接翻译过来就是“构建未来的方式”。这句话显得有些抽象,所以在Pivotal中国办公室的日常事务中,我们会针对不同的团队来细化这句话:对于面向数字化转型客户的Pivotal Lab团队,这句话被表述为“交付一流的数字化转型体验”;对于云研发团队,这句话被表达为“通过Cloud Foundry云平台成为云原生平台的行业标杆”;对于数据库研发团队,这句话被阐述为“通过Greenplum成为大数据平台和机器学习的意见领袖”。这些使命背后的共同愿景就是提供“数字原生”世界的新产能,以及企业建立数字化所需要的软件平台和方法论。

数字原生就是从由物理世界为重心向数字世界为中心迁移时思考问题的方式。数字计算机发明之前,我们几乎没有什么数字资产和技术。数字计算机发明至今,我们对于数字资产的积累呈指数级增长,在我国更是呈现出跨越式发展的态势。举个例子,今天,如果我们出门不带手机,就会感觉寸步难行,本质上是因为手机已经成为我们进入数字世界的入口。通过手机,我们可以向数字世界发出各种请求,调度物理世界的资源为我们所用。Pivotal公司喜欢以“ask+综合部门@pivotal.io”的邮件方式来获得综合部门的支持。早期行政部门的同事刚加入Pivotal公司的时候常问我:“为什么不面对面请求,或者打个电话,又或者开个单子?”我的回答是这几种方式看似差别不大,但反映了思考问题方式的差别。Pivotal公司作为数字化的领导者,把软件和数据平台看作数字世界的入口。我们获取资源的方式是向这个数字世界发出请求。数字世界可能通过它的计算找到最优执行路径。有些工作的执行可能还需要转发给人进行人工处理,例如安装一台打印机。但是,有些请求则可以直接通过软件方式解决,例如申请一台云服务器。对于某些请求,虽然我们今天还无法完全以全数字化、无人干预的方式完成,但是,我们可以先把数字原生的框架奠定起来,为以后的进一步对接和持续改进做好准备。在作者看来,数字原生的持续改进过程分为三个阶段:

1)软件公司:通过数字应用实现数字世界和物理世界的无缝交互。

2)数据公司:通过大数据平台实现数据积累和数学模型运行支撑。

3)数学公司:通过数学模型的持续改进来最优化数字世界和物理世界资源。

因此,作者和团队希望能够以三部对应的著作(下面简称为“数字化三部曲”)在数字原生的征程上为读者提供战略参考和对应的软件平台及工具指导。

● 第一部曲:《Cloud Foundry:从数字化战略到实现》—这本书的主要目标是阐述企业如何实现数字原生第一阶段:实现数字化应用。该书讨论了云计算作为第三代技术平台带来的商业模式变更。在云计算的技术栈中,P层云带动了企业数字化浪潮。传统企业通过P层云可以迅速获得顶级互联网公司的软件迭代和发布速度,把与客户的交互通过消费级的应用数字化。书中例举福特公司通过FordPass建立了以汽车实体产品为核心的一系列用户数字化体验:汽车金融、远程监控车辆、停车位预留、旅途产品和服务推荐等。这个阶段也是一个持续改进的过程。以共享出行为例,今天用户通过手机平台进入数字世界,在打车应用中发送订单。打车平台通过选择最优执行路径,把订单发送给打车平台的司机。然后,司机在物理世界中驱车到达用户起点。随着有辅助的无人驾驶技术的成熟,这个数字世界的运行链条会继续延长,数字平台可以直接把无人车派送到用户起点。在其他的行业,数字应用的链条同样也在持续延长。

● 第二部曲:《Greenplum:从大数据战略到实现》(也就是本书)—我们的主要目的是阐述企业如何实现数字原生的第二阶段:大数据平台。随着数字应用的链条不断延长,企业需要一个大数据平台来积累应用生成的数据。这个工作听上去很容易,因为人们很早以前就使用磁带来存储数据,之后,存储媒介发生了巨大的变化,能够便捷地存储大量数据。那么为何还需要Greenplum这样一个大数据和机器学习平台?原因有两个:1)量大;2)快速计算。说到大,当数据量达到PB级别(相当于16000个64GB的iPhone中存储的数据)时,企业利用廉价但是可靠的存储来备份和管理是非常困难的。说到快,想象让用户从16000个iPhone存储的数据中寻找一张5年前的照片就可以感受到大海捞针般的困难;更何况企业的数据平台要支撑的机器学习和人工智能的数学模型的复杂度要比寻找一张照片的复杂度高几十到几万倍。可见,要想用极快的速度处理如此海量的数据是极其困难的。这也是企业在构建大数据平台时步履维艰的原因。Greenplum团队的优秀专家用企业积累了15年的知识和创新来解决这些难题:如何利用低价的存储设备来实现高可靠的数据存储?数据的存储如何为今天模型的计算做准备?如何给模型提供简单但又标准的接口?数据管理如何在“便于存储”和“便于日后查找”之间取得平衡?如何利用现在的I层云计算资源?如何访问文本和地理位置信息等各种数据源?如何访问和计算存储在其他系统(例如Hadoop)的数据?如何支撑今天主流的人工智能和机器学习模型?我们在创新过程中触碰到了很多计算机科学本身的极限。希望这本著作能给读者呈现一个解决了上述问题并可以实操的大数据平台和战略。

● 我们还在酝酿的第三部著作希望能帮助读者更好地实现数字原生的第三阶段:机器学习和人工智能。企业通过第一阶段和第二阶段的努力捕获和存储了大量的数据。为了更好地理解用户的需求,不少企业进入了更高阶的数字化战略:大数据驱动的机器学习和人工智能。在这个阶段的竞争中,企业会增设一个新的岗位:数据科学家。数据科学家会在大数据平台上创造和优化数学模型,以期待改进数字世界和物理世界的运作来更好地为人服务。前两部曲提供了软件工具和方法论以帮助企业成为基于大数据的人工智能和机器学习战略的数学公司,不少企业在实践过程中希望作者能够分享实践案例并就企业领导力转变提供咨询。考虑到这样一本著作的出版需要两年以上的时间,碰巧出版社和作者看到了顶级大数据咨询公司Booz Allen Hamilton的两位高管收集了大量实际案例的著作《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》,其中关于“数学公司”的提法和作者的观点不谋而合。通过出版社的努力,作者和团队把这部著作翻译成中文著作,可以作为第二部曲的伴侣著作来阅读。

虽然数字原生第三阶段的探讨还在创新者和早期用户者群体中进行,但是第二阶段大数据平台的建设已经在中国如火如荼地展开。大数据平台在数字原生三部曲中扮演了承上启下的关键角色,中大型的公司已经将大数据纳入信息平台的建设方案中。Greenplum因为开源生态和杰出的创新能力被列为方案的候选技术选项,这也使Pivotal中国办公室的同事们倍感欣慰。伴随Greenplum生态的持续发展壮大,希望这部著作能给企业高层制定战略提供建议和参考,既帮助工程团队开发应用,又能指导运营团队运维和保障。