2 大数据智能产业链版图
在IT向DT技术泛型转化的过程中,相关技术产业链版图也时刻在动态变化调整。传统信息化技术多是在小规模数据或结构化的大数据上进行计算处理,一套三层(或四层)架构走遍天下。大数据时代呢,需要智能预测和分析支持,核心技术框架一直在加速拓展,如机器学习、深度学习、人工智能等前沿信息技术的开源框架、系统也加入混战。另外,还需考虑海量数据的分布式存储管理和学习算法的并行化处理,所以数据的大规模增长客观上促进了DT技术生态的繁荣与发展,可谓是百花齐放,百家争鸣。
百家争鸣的DT生态
DT新技术生态下的大数据版图十分庞杂,当然也有泡沫的成分存在,这个版图也会时刻处于变化之中,就像PC时代的应用程序、互联网发展初期的各种网站、移动互联网的APP开发潮,大数据时代的技术和产品也正处于优胜劣汰的过程。下面我们来看2017版的大数据技术和产业版图(见图2-4),由纽约风投公司FirstMark的合伙人Matt Turck发布,Matt Truck对大数据技术体系有个经典的判断。
(1)大数据的成功不在于实现技术的某一方面(比如Spark、Hadoop、TensorFlow等),而是需要把一连串的技术、流程和相关人员糅合到一起。整个大数据应用链条需要捕捉数据、存储数据、清洗数据、查询数据、挖掘数据、分析数据、可视化数据,并应用部署于决策支持,这些工作一部分可以由产品来完成,而有的则需要人来做,一切都需要无缝集成起来。
(2)要想让所有这一切发挥作用,整个企业从上到下都需要树立以数据驱动决策的文化。另外,大数据技术在企业中的应用要远远滞后于炒作周期,所以大数据从新兴炫酷的技术变成核心系统,从炒作到产品部署往往需要数年的时间。
上述论断包含两个层面的意思,对大数据应用落地来讲至关重要:一是大数据是技术链,打通技术链才是关键,大数据应用的规划设计要通盘考虑,要避免一叶障目、不见泰山的做法;二是新兴技术由于自身的风险和成熟度问题,其大规模应用一般具有滞后性,要做好技术的可行性、稳定性、扩展性等前瞻性预研工作。
如图2-4所示,2017版大数据产业链技术版图基本涵盖了国外大数据相关核心技术和产业链生态圈,不管是个人学习技术还是企业开发产品,分析和理解这个大数据产业版图都十分必要。版图细节这里不做赘述,我们重点从应用的角度来看DT技术泛型下包括哪些核心技术和企业,各技术领域之间是什么样的逻辑关系,这是应用大数据首先要搞清楚的问题(国内也有中关村版的大数据版图,涉及相关技术特别是具有自主核心技术的企业还是太少,多是传统IT企业在凑数,我们不再多讲,感兴趣的朋友可以自行搜索相关资料了解)。
图2-42017版大数据产业链技术版图
开源的巨大推动力
从图2-4可以看到,大数据技术产业链包含从数据源、开源技术、基础设施、分析计算到行业应用、产品落地等多个层面,每个链条环节和下辖的细分内容都涉及大量DT技术、产品和企业。
数据源层,各个行业都有相应的数据服务商。大型垄断企业有完整的数据生态,中小企业依托大数据巨头的数据资源提供相关API服务,或通过自行采集汇聚垂直细分领域的数据资源。另外,一些研究机构和开放产业联盟也有相应的大数据资源。
最上面分为基础设施平台、智能挖掘分析和学习、企业内部应用和行业应用三个层面。大数据基础设施平台重点在于数据的采集、存储和管理,包括各种基础软件和硬件,比如Hadoop、Spark、Storm、NoSQL数据库、Cloud云计算、GPU计算硬件等。
中间的智能挖掘分析和学习重点在于算法方面,包含各种机器学习、数据挖掘和人工智能技术和软件,比如AI技术产品有Watson和AlphaGo,挖掘和可视化软件分别有Rapidminer和Tabealu等。
应用层分为企业内部应用(服务于企业自身的销售、客服、人力资源和安全等部门)和行业大数据应用(服务于垂直行业,广告、教育、医疗和金融等)。
数据源层上的开源技术层,基本涵盖了主流的大数据、云计算和AI等领域的开源的技术框架和系统。
上述几个层面涉及大量核心技术和框架,要理解整个版图传递的意思,需重点把握如下几点。
● 一是各大互联网巨头是这一拨DT技术革命的强大推动者,互联网企业与生俱来就具备解决大数据处理的基因,大数据智能关键技术和系统受到了互联网巨头们的(如Google的GFS、BigTable, Amazon的云平台、Facebook的PyTorch深度学习、Twitter的Storm流计算框架等)极大关注,这些公司在处理自身大数据的同时,也成为大数据智能技术的创造者和推动者(比如各大开源平台的建设)。
● 二是互联网大数据处理技术的逐步成熟在加速向传统信息化领域拓展,比如IBM、微软、Oracle等企业感受到了大数据智能技术去IOE的强大推动力,自身必须投入这一领域迎接挑战。
● 三是开源技术的推动,也是最重要的一点。为什么MattTurck把开源技术作为独立统一的基础层展示出来,跟笔者以前的判断一致,DT技术生态发源于互联网的开源精神,繁荣于开源。大数据智能领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将开启物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE进程,倒逼传统IT巨头拥抱开源,Gogle和OpenAI联盟的深度学习开源(以TensorFlow、PyTorch、Caffe等为代表)正在加速人工智能技术的发展。数据科学的标配语言R和Python更是因开源而生,因开源而繁荣。
● 四是大数据与人工智能的融合式发展。随着大数据核心技术的不断发展,大数据的采集、存储、管理和分布式计算(如Mapreduce)相关技术平台逐渐成熟。下一步就是怎么智能化,怎么深度挖掘和智能预测,从而获得智慧洞察。
技术洞察 去IOE与DT开源化
IOE是指以IBM小型机、Oracle数据库、EMC高端存储为代表的传统IT技术架构,曾经是很多大型企业、机构信息化技术架构的标配。虽然IOE这种“高富帅”架构在结构化大数据的处理方面有优势,但因其基础技术太重量级,应用成本较高。在多源异构的大数据环境下,面临很大的限制,特别是IOE系统技术的可扩展性、定制性等瓶颈难以快速支撑DT时代的云服务模式转型。去IOE的本质是基于分布式架构的共享融合,也是云计算能够落地的必要条件,用基于云服务的DT技术架构彻底改变传统的IT基础架构。去IOE运动的兴起伴随着DT开源技术的繁荣,从早期互联网时代的Linux,到移动互联网时代的Android,到大数据时代的Hadoop&Spark(见图2-5),再到当前大数据智能时代的TensorFlow&Pytorch,云/端的关键技术应用普及,开源技术框架起了关键性作用。
图2-5 Hadoop&Spark开源技术生态