第二节 大数据的历史演变过程
“大数据”一词来源于英文“big data”,其概念起源于美国。大数据最早在统计领域得到应用,并在计算机通信领域引发了一场革命,随后蔓延至经济、社会、科学、环境等各个领域,并成为现代国家发展战略的重要组成部分。在互联网热潮的推动下,“大数据”技术迅速渗透至人们生活的方方面面,吸引着人们的关注。
一、大数据的主要发展阶段
大数据发展的主要时间节点如图1-1所示。
图1-1 大数据发展的主要时间节点
20世纪90年代,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术(如数据仓库、知识管理系统等)开始被广泛应用,大数据概念开始萌芽。此时关于大数据的研究主要聚焦于数据挖掘技术方面,其他方面涉及较少。
2003—2006年是大数据发展的突破阶段,是非结构化数据的自由探索阶段。2004年Facebook的创立使得大量非结构化数据涌现,大数据技术的快速突破得益于非结构化数据的爆发。
2006—2009年为大数据发展的成熟期,大数据技术并行运算与分布式系统基本形成。
2010年,随着智能手机的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,移动数据量急剧增长。
2011年,麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》研究报告。之后,经Gartner技术炒作曲线和2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》的宣传推广,大数据概念开始风靡全球。
2012年《大数据研究和发展提倡》的发布,标志着大数据已经成为时代特征,这一倡议也意味着大数据从商业行为上升到国家科技战略这一更高层面。联合国在纽约总部发布了一份与“大数据政务”相关的白皮书,概括性地阐述了各国政府如何利用大数据更好地服务和保护人民,实现“与数俱进”,快速应变。
2013年,“大数据”监管进入公众视野。我国证监会利用各个异动指标数据,将交易异常数据和股价异动联系起来,构建证券市场监控的综合数据模型,全面提升对内幕交易、市场操纵、证券欺诈等文本信息的挖掘和监管。大数据也成为政府监管对象之一。
2014年,云计算的爆发推动智能科技加速发展,大数据产业从理论迈向实际应用。2014年12月,中关村大数据产业联盟与中国计算机协会共同发布了《大数据白皮书(2014年)》,第一次全面深入且系统完整阐述了我国大数据产业发展与学术研究的大方向,从国家主权、政府政策、产业发展、数据科学、投资理念、公司战略等层面分析了我国大数据市场当前发展现状以及未来发展趋势,这是我国大数据行业逐步迈向产业化、系统化的重要一步。
2015年,大数据逐步迈向独立发展阶段,其市场化和规模化程度进一步提升,已经成为一种新兴行业,数据租售服务大量出现,数据分析企业更加专业化,数据决策外包服务企业更加高效,推动更多传统企业向科技智能化转型。
2015年全球大数据市场规模将近1 500亿元人民币,同比增长24.2%,预计到2018年全球大数据市场规模将达到超过2 500亿元,2015—2018年的复合增长率为21.8%。2015年,我国大数据市场规模为160亿元,仅占全球总市场规模的10.7%,但同比增长率为65.3%,是全球增长率的2.7倍,增长势头迅猛。预计至2018年我国大数据市场规模将超过500亿元,复合增长率为47.0%,是全球复合增长率的2.2倍(1)。可见,未来几年内,我国大数据产业的市场规模将迅速扩大,未来前景可观。
二、大数据在国外的发展历程
19世纪80年代,“大数据”概念开始萌芽。1887—1890年,美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器将原本耗时8年的人口普查活动缩短为1年,由此在全球范围内引发了数据处理的新纪元。1944年,卫斯理大学图书馆员弗莱蒙特·雷德预见了大数据时代的到来,他估计美国高校图书馆的规模每16年就会翻一番。1961年德里克·普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长,得出“指数增长规律”,即新期刊数量的增长方式为指数型而非线性型,每15年翻一番,每50年以10为指数倍增长。这些规律发现都表明数据知识未来将呈爆炸式的增长,大数据时代即将来临。
在信息通信领域,数据的大规模增长与存储首先引发关注。1980年4月I.A.特詹姆斯兰德在第四届美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers, IEEE)“大规模存储系统专题研讨会”上发表了一个题为《我们该何去何从?》的报告,其中指出所有数据都正在被无选择地保存下来以避免丢失有价值的信息。1986年7月哈尔·B.贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文,预计数据记录密度将大幅增长。1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在文章《为外存模型可视化而应用控制程序请求页面调度》中较早使用了“大数据”这一术语。2001年,美国一家在信息技术研究领域具有权威地位的咨询公司Gartner首次开发了大数据模型。同年2月,梅塔集团分析师道格·莱尼发布了题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告,文中提及的3V特征,定义了大数据的三个维度,如今被广泛接受。从此,“大数据”这一概念在信息通信领域被普遍接受、研究和使用。
Nature杂志于2008年推出的一份专刊,从互联网科技、自然与环境、网络经济和金融等多个方面介绍了海量数据带来的挑战。2008年年末,一些著名的美国计算机科学研究者开始认同“大数据”这一概念。业界组建起计算社区联盟(Computing Community Consortium, 3C),并发布了一份影响深远的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。该白皮书使得大众对大数据的解读发生了显而易见的变化——从单一的数据处理机器这一角度扩展到了商业、科学、社会等各个领域,极大地丰富了“大数据”的内涵和价值,而计算社区联盟也因此可以被称为最早提出“大数据”概念的机构。2011年5月,全球知名咨询公司麦肯锡发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,该机构第一次全方面地介绍和展望大数据,具体论述了大数据的应用价值与发展前景,“大数据”概念逐渐进入公众视野。
(一)美国
作为“大数据”概念发源地的美国,不仅在大数据理论研究方面引领全球风潮,也在大数据应用实践中占得先机。2009年,美国政府通过启动data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各项政府数据。
2010年1月,美国总统办公室下属的科学技术顾问委员会(PCAST)和信息技术顾问委员会(PITAC)提交了一份《规划数字化未来》的战略报告,第一次把大数据收集和使用的工作提升到体现国家意志的战略高度。在2012年美国总统选举中,竞选团队开创性地利用“大数据”来规划这次选举,如利用房产记录、选举记录甚至是期刊的订阅注册等来预测人们对候选人的看法、这些看法是否能被改变,以及为此要采取怎样的措施等。这次实践充分说明了大数据的潜在价值只有通过数据挖掘才能显现。由此可见,如何有效分析和利用巨大的原始数据,将其转化成有价值的信息,成为日后研究大数据的重要意义所在。2012年3月,奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的重要标志。美国政府将数据定义为“未来的新石油”,表明了大数据技术领域的竞争事关一个国家未来的发展。
虽然大数据应用的广阔前景引起了广泛关注,但在实际应用中如何科学、规范、公正地使用大数据也成为各相关主体议论的焦点。2014年5月,美国白宫发表的2014年全球“大数据”白皮书研究报告《大数据:抓住机遇、守护价值》指出,应当鼓励利用数据来促进社会进步,同时,还需要制定相应框架结构来保护个人隐私、反歧视或保证公平。
(二)法国
2011年7月,法国启动“Open Data Proxima Mobile”项目,挖掘公共数据价值。该项目旨在通过实现公共数据在移动终端的使用,最大限度地发掘公共数据的应用价值。该项目涉及文化、旅游、环境、交通等多个领域。待结项后,所有的公共数据都可以免费使用,法国公民及在法国旅游的欧洲公民都将能使用个人移动终端获得法国的公共数据。应用程序操作简单,不仅方便公民使用,而且也为私人企业提供了巨大商机。2011年12月,法国政府推出公开信息线上共享平台data.gov,该网站的所有数据都是经过政府部门专员统计和收集的,后期会不断实时更新。这个平台大大方便了公民自由查询和下载公共数据。
2013年2月,法国政府发布《数字化路线图》,明确了未来将大力支持大数据这一战略性高新技术。法国政府将以工程师、信息系统设计师、新兴企业、软件制造商为主体,进行一系列投资计划。2013年4月,法国投入专项资金促进大数据技术发展。法国经济、财政和工业部预计投入1 150万欧元投资7个项目,目的在于通过创新性解决方案来确保法国在大数据领域的领先地位。
(三)德国
德国在大数据发展早期重点关注的是数据保护,通过立法为大数据的发展提供安全保障。1977年,德国《联邦数据保护法》生效。德国凭借自身较高的信息化水平,通过大型基础数据库和地方数据库的建设,逐渐在政府管理中运用数据资源服务公众和服务决策。对政府管理而言,大数据的价值在于提供尽可能多的详尽信息并对信息进行有效分析,实现科学化决策和精细化管理。
2000年德国发布了《2005年联邦政府在线计划》,该计划要求联邦政府到2005年向公众提供所有可用的在线服务。2003年6月,德国启动了整合电子政务的“德国在线”计划,加强基础数据库及地方数据库的建设力度,整合大量分散的信息资源,以公众需求为导向,为公众提供更方便的数据服务。
2004年生效的德国《电信法》也涉及电子通信领域的数据保护。2006年,德国开始对其拥有的GESTIS等7个有毒有害物质官方数据库及本国气候变化预测图实行免费公开。德国电信和Vodafone也通过开放API的方式,向数据挖掘公司等机构提供一些客户的匿名定位数据,从而捕捉公众出行的特征和规律。德国在云计算与大数据技术的支持下发展人工智能技术,研发本国的“谷歌眼镜”、智能农场、交通监测等技术。2009年,德国对现行的《联邦数据保护法》进行修改并生效,约束范围包括互联网等电子通信领域,目的是防止因个人信息泄露引发的侵犯隐私行为。政府内部需设立“联邦数据保护与信息自由专员”,实时监控政府机构在保护个人数据方面的行动。除了联邦层面外,德国各州也都设立了各自的数据保护专员,以类似的方式监督各州政府机构的行为。
同时德国也重视信息资源共享。例如,2013年1月,为了改善教学和科研中的数字信息支撑水平,德国科学组织联盟启动了第二期数字信息计划,该计划主要包括以专业的信息科学与信息技术方法实现科研数据的收集、存储和开放共享,确保用于科研目的的科研数据不受访问限制、实现数字出版物的永久保存等内容。
2011年,德国在汉诺威工业博览会上首次提出了“工业4.0”概念,2013年德国联邦教研部与联邦经济和技术部正式将“工业4.0”战略纳入了《高技术战略2020》。德国认为,工业革命可以分为四个阶段,第三次工业革命引入了电子与信息技术,在此基础上,如果德国可以广泛地将物联网和服务网应用于制造领域,在智能工厂中实现数字和物质两个系统的无缝融合,德国就可以在第四次工业革命的道路上占领先机,巩固德国的竞争地位。德国“工业4.0”战略打出“确保德国制造业的未来”的口号,以期将信息化与工业化紧密结合起来。
三、大数据在国内的发展状况
全球大数据技术发展的浪潮引起我国政府部门、商业企业和学术界的高度关注,政府也将大数据发展提升到国家战略的高度。2011年11月,工业和信息化部发布的《物联网“十二五”发展规划》中,提出了信息处理技术,确认了其为4项关键技术创新工程之一的战略地位,其中包括了数据存储、数据挖掘、图像视频智能分析等,这些都是构成大数据的坚实基础。2012年4月,政府推出《软件和信息技术服务业“十二五”发展规划》,积极发展数据编辑、整理、分析、挖掘等数据加工处理服务,可见政府高度重视大数据的应用,将其与国家发展规划联系在一起。2015年6月24日,国务院办公厅发布了《关于运用大数据加强对市场主体服务和监管的若干意见》,将大数据技术应用于市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力。
2012年7月,阿里巴巴集团率先设立了“首席数据官”一职来挖掘大数据的商业价值,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台“聚石塔”,为淘宝、天猫平台上的电商和电商服务商等提供数据云服务。其后,马云在2012年网商大会上发表演讲时称自2013年1月1日起阿里巴巴将转型重塑数据、金融和平台三大业务,因此其成为第一家提出利用数据进行企业数据化运营的企业。
国内学术界也紧跟国际前沿,广泛开展大数据技术的研究和开发。2012年中国计算机学会(China Computer Federation, CCF)发起并组织了CCF大数据专家委员会,还特别成立了一个“大数据技术发展战略报告”撰写组,并于2013年、2014年相继发布了《中国大数据技术与产业发展白皮书》。2012年10月,第十七次全国统计科学讨论会开幕,其主题就是大数据背景下的统计。自2013年以来,国家自然科学基金、973计划、核高基、863等重大研究计划都已经把大数据研究列为重大的研究课题。2014年2月在北京召开了以“科研大数据与数据科学”为主题的“科学数据大会”,研讨了大数据时代下数据的分析和应用,以及科研数据带来的挑战和机遇。2014年3月,国家社科基金也将“大数据国家战略研究”列为国家社科重大研究项目指南。清华信息学院、国家实验室也相继成立了数据科学院,并于2014年12月22日举办了“大数据论坛——数据科学与技术”,对大数据发展战略和各大数据专项进行了探讨。
与此同时,“大数据”也逐步走进公众的视野。2013年4月14日和21日,央视著名节目“对话”邀请了美国大数据存储技术公司LSI总裁阿比和《大数据时代——生活、工作与思维的大变革》一书的作者维克托·迈尔·舍恩伯格分别做客“对话”节目,做了两期大数据专题谈话节目“谁在引爆大数据”与“谁在掘金大数据”。官方媒体对大数据的关注和宣传充分体现了大数据技术已经成为国家与社会普遍关注的焦点。
2015年8月31日,国务院发布《促进大数据发展行动纲要》,提出要系统部署大数据发展工作,重点推进大数据在多个领域的应用,利用大数据等新技术打造服务贸易新型网络平台。同时,要强化数据安全保障,提高管理水平,促进大数据产业的健康发展。
2005年到2015年的10年间,我国网民规模和互联网普及率迅速攀升,截至2015年互联网普及率为50.3%,比2014年增长2个百分点。随着信息技术的创新,互联网的普及,数据量会不断扩大。据IDC(互联网数据中心)预测,至2020年全球所产生的数据量将达到近40 000 EB(1 EB=1 024×1 024 TB),届时,大数据将在行业变革中承担更重要的角色。
2016年4月,为加快实施国家大数据战略,促进区域性大数据基础设施的整合和数据资源的汇聚应用,发挥示范带动作用,国家发展改革委、工业和信息化部、中央网信办函复贵州省人民政府,同意贵州省建设国家大数据(贵州)综合试验区。10月8日,三部门发函批复,同意在京津冀等七个区域推进国家大数据综合试验区建设,包括两个跨区域类综合试验区(京津冀、珠江三角洲),四个区域示范类综合试验区(上海市、河南省、重庆市、沈阳市)以及一个大数据基础设施统筹发展类综合试验区(内蒙古)。大数据战略已经上升到国家战略的高度。