第一节 大数据概念提出的背景
“大数据”概念的提出建立在信息技术进步的基础上,有其清晰的社会历史发展脉络,迎合着现代产业结构转型升级的需要。硬件存储性能、光纤传输带宽等基础设施的完善,互联网、云计算与物联网技术的发展,网络社交以及智能终端的普及都为“大数据”概念的提出奠定了基础,并推动“大数据”这一概念不断渗透到更多相关领域。
一、技术进步
(一)信息基础设施的完善
作为英特尔的创始人之一,Gordon Moore于1965年提出了著名的“摩尔定律”。该定律阐述了计算机存储器的未来发展趋势,即每隔18个月,计算机存储器的性能便会提升一倍,即计算机的计算、存储能力将相对于时间周期呈指数式上升。与此同时,计算机软件系统也会随之升级,从而使计算机的信息处理和存储功能在短期内得以迅速提升,单位信息存储的成本大幅下降。当IBM于1955年推出第一款商用硬盘存储器时,其价格是6 000多美元/兆,1960年下降到3 600美元/兆,1993年约为1美元/兆,2000年再降至1美分/兆,截至2010年则约为0.005美分/兆。而自1977年美国芝加哥率先投入使用光纤通信系统以来,光纤传输带宽实现迅猛增长,其信息传输能力也得到大幅跃升,甚至超越了摩尔定律下芯片性能的提升速度。信息基础设施的持续完善,包括数据存储性能不断提升、数据传输带宽的持续增加,为大数据的存储和传播提供了物质基础,使得数据信息的大规模存储、传输与分析得以实现。目前硬件存储性能与网络带宽不再成为制约大数据应用的主要因素,并且它们的高速发展将持续为大数据时代提供廉价的存储与传输服务。
(二)互联网领域的发展
人与人之间交流沟通由于互联网的出现而极大地便利了,互联网的广泛运用改善了人们的日常生活,并逐渐渗透到人们生活的方方面面。人们在互联网的海洋里徜徉时,也留下来海量数据。于是越来越多的重要数据被保存在无数个计算机上,为了保证数据存储的安全与数据传递的高效,要求计算机之间相互传递数据、互为备份的通信机制具有更高的性能标准。目前在使用互联网数据时,一般都是通过“请求”+“响应”的模式,即只有在客户端发出请求的情况下,服务器终端才会发送所需要的数据。这种数据传递模式在一定程度上保证了数据传递的安全和高效,使得人们在使用网络时的每一个搜索请求、每一个访问请求、每一个交易记录等数据信息都忠实准确地被记录在各类服务器的日志上。因而互联网的广泛普及积累了巨量的数据信息,使大数据分析过程中的数据采集成为可能,大大降低了数据采集的成本,提高了数据信息记录的真实性和可靠性。
(三)云计算技术的进步
云计算是一种基于互联网的新兴计算方式,共享的软硬件信息资源可以通过这种计算方式按需提供给计算机和其他终端应用设备。云计算服务主要是通过提供通用的在线商业应用来实现的,云计算技术改变了以往数据分散保存在每个独立的计算机中的状况,改变了数据的存储与访问方式,为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道,也为数据分析、数据挖掘奠定了坚实基础。因此从某种程度上可以说,云计算是大数据诞生的前提和必要条件,没有云计算,就缺少了集中采集和存储数据的重要基础。总之,云计算为大数据提供了存储空间和访问渠道,大数据则是云计算的灵魂和升级的必然方向。近年来,以大型互联网公司、银行、电信运营商、政府部门等为代表,各市场主体都越来越关注数据的价值,纷纷出资兴建自己的“数据中心”。其中绝大部分银行、电信、互联网公司都实现了全国级的数据库建设工作,为“大数据”应用的诞生提供了必备的储存空间和访问渠道,进一步推动了大数据时代的早日来临。
(四)物联网、网络社交及智能终端的普及
基于传感器技术的物联网迅速发展,能够持续集中收集海量数据,这成为大数据的重要来源之一。其实在我们的日常生活中,传感器的运用无处不在,它既可以是遍布大街小巷的摄像头,将实时路况及时传达;也可以是智能手机终端的重力感应器、加速度感应器、距离感应器、电子罗盘、摄像头等各类传感器,通过数据回馈分析,实现电子导航、健康指标监测等功能,提升用户体验。如果说,物联网技术的发展改变了物与物、人与物之间的关系,使得互联网的概念延伸到实物中,那么社交网络的兴起则重新定义了人与人之间交往的方式,将实际生活中的人际关系投射到互联网空间中,大大拓展了互联网的内涵。从社交网络的信息中可以了解人们的喜好、偏爱、消费习惯等信息,还能够利用网民的关系链来传播这些信息,从而构成了以个人为枢纽的数据集合,从而提供真实有效的数据。智能终端的普及拉近了互联网与日常生活的距离,也使得物联网技术与社交网络进一步融入人们的生活中,不断产生各种类型的数据,构成了大数据的重要来源。自2010年第二季度开始,智能手机和平板电脑的出货量就已经超越了传统台式电脑,智能手机和平板电脑凭借其便捷性迅速占领市场,并日益渗透到日常生活、商业办公、统计调查、政府治理等各个方面,成为大数据的重要来源渠道。
二、产业升级
从哲学意义上说,世界处于永续变动之中,万事万物在其运动过程中都产生了大量的数据信息。近年来,随着互联网、云计算、物联网等信息技术的飞速发展,各行各业的产业结构不断升级,这无时无刻不在产生海量的数据,形成大数据雏形。目前,我国经济本质上仍处于传统经济阶段,缺乏具有国际竞争力的现代产业,产业结构升级已经迫在眉睫,这无疑为大数据的滋生提供了肥沃的土壤。
当前互联网的普及、信息技术的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。据粗略估计,一个中等规模企业每天要产生100 MB以上的商业数据。而电信、银行、大型零售业随着产业结构的不断调整和升级,每天产生的数据量都可以用TB来计算(数据的最小计量单位是字节,具体换算标准为1 KB=1 024 B;1 MB=1 024 KB;1 GB=1 024 MB;1 TB=1 024 GB;1 PB=1 024 TB;1 EB=1 024 PB;1 ZB=1 024 EB;1 YB=1 024 ZB;1 DB=1 024 YB;1 NB=1 024 DB)。《至顶网年度技术报告》的数据统计结果显示,2013年中国产生的数据总量超过0.8ZB,是2012年数据总量的2倍,相当于2009年全球的数据总量。而且预计到2020年,中国产生的数据总量将超过8.5 ZB,是2013年的10倍。产业结构升级所带来的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好地利用这些数据。现有的数据库系统虽然拥有高效地完成数据的输入、统计、查询等功能,却不能发现数据中的关系与规则,不能在现有数据的基础上来推断今后的发展趋势。大数据技术背后隐藏的知识手段的不足,使得“数据爆炸但知识匮乏”这一现象浮现出来。自此人们纷纷提出“学会选择、提炼、舍弃信息”,并思考怎样才能不被海量的信息所淹没,怎样才能及时发现有用的知识、提高信息利用效率?如何从浩瀚如烟海的资料中选择性地收集有价值的信息?这为数据分析带来了一些挑战:第一是信息过量,难以消化;第二是信息真假难以辨别;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。为应对这些挑战,计算机数据仓库处理技术随之走向成熟,从数据中发现知识及其核心技术——大数据技术便应运而生,并得以蓬勃发展,显示出越来越强大的生命力。
三、社会历史
1998年,《科学》杂志刊登的一篇名为《大数据的处理程序》的文章中第一次明确使用了大数据(big data)一词。2008年9月Nature杂志刊登了名为“Big Data”的专题,“大数据”概念开始受到广泛关注,大数据的产生和发展有其特定的社会历史发展脉络。其实大数据存在的历史非常悠久,“大数据”概念的提出标志着人们已经开始意识到大数据的客观存在,而且已经感受到了大数据应用的重要性。
各种各样的海量数据构成了大数据的基石。悠久的社会历史文化为大数据的产生提供了充足的时间条件。从人类历史发展脉络来看,数据的产生与人类自身的生存、生活密切相关,也正是这种内在需求促进了数据发展为大数据。大数据分析是一种非常实用的技术,古希腊的哲学家率先让数据从实用走向抽象。哲学家们第一次抛弃经验主义的桎梏,把数据当作事物的本源,这种独特的思维模式为自然哲学的研究开辟了一条崭新的道路,也为大数据的诞生奠定了哲学历史基础。纵观数据的发展历史,数据和其他语言文字一样,都是人类文明的产物,是用于记录事物性质和互相交流的工具。从广义上看,数据可以被看作语言的一部分,但与文字语言的差别在于,数据的表达形式更简单、更加有利于交流。所以虽然不同人类文明有着不同的记数方式和数制,但随着不同文化的相互交流融合,数据形式的高度统一超出了所有文字语言,这离不开数字简单精确的属性。回顾科学技术的发展史,科学技术的迅猛发展离不开科学数据的支撑,科学数据具有客观性、精确性、一致性和易交流性等特征。所以说,数据不仅是连接事物客观性和人类主观性的纽带,还是人类认识世界的桥梁。但从数据产生的那一刻起,人类主观因素无时无刻不在影响着数据的客观性。大量数据构成的集合形成了一种重要的研究素材,激发着科学家和哲学家们进行深入的探究,他们在研究过程中越发意识到数据的重要性,所以大数据便应运而生。
在这里,我们简要介绍一下数据科学的发展历史。
自20世纪中期以来,生物学领域的基因组测序技术发展迅猛,累积了海量的生物学数据,如何理解这些数据,是生物学家们面临的一种新挑战。同样的数据分析问题也存在于其他领域(如气象学、社会学等)和复杂系统的研究之中。值得注意的是,国际科学技术数据委员会(Committee on Data for Science and Technology, CODATA)于1966年成立,旨在提升数据的质量、可信度、可达性并加强对数据的管理,从而在世界范围内实现共享科技数据的目标。1984年6月,中国科学院以国家会员的身份加入CODATA。
基于数据的相关研究已得到学术界的广泛关注。数据科学是一门以大量观测数据、理论数据和计算机模拟数据为研究对象,通过挖掘、提取等手段寻求其内在规律的学科。1960年,Peter Naur首次提出“数据科学”(data science)这一术语。1996年,在日本东京召开的分类国际联合会(the International Federation of Classification Societies, IFCS)上,第一次将数据科学用于会议题目——“数据科学,分类和相关方法”(Data Science, Classificationand Related Methods)。美国普渡大学统计学教授William S. Cleveland于2001年首次倡导将数据科学建设成一门独立的学科,他认为数据科学是统计学与数据的结合,并建立了数据科学的6个细分技术领域:多学科研究、数据模型和方法、数据计算、教育、工具评估、理论。
2001年,CODATA创办了学术刊物CODATA Data Science Journal,标志着数据科学的诞生。2003年,由中美两国学者共同创办的Journal of Data Science在哥伦比亚大学正式出版,Journal of Data Science主要发表一些关于数据的研究成果,如数据的收集、分析以及建模等。
2012年,Springer出版集团创建了期刊EPJ Data Science。该期刊的主办方认为,21世纪出现的“数据驱动科学”是传统“假说驱动科学”研究方法的重要补充。数据科学的出现促进了科学研究范式的变革。利用电子计算机,在对密集型数据进行深度挖掘后获取有用信息,由此催生了不同学科领域的新的研究方向,如生物信息科学、地理信息科学等。这种发展伴随着科学范式从“还原主义”到“复杂系统”的转变,不仅极大地丰富了自然科学的研究范式,而且对技术—社会—经济科学研究也产生了非常重大的影响。
学者们从超级计算、互联网经济、生物医药等多个方面重视“大数据”引发的技术挑战以及今后的发展趋势。2010年,Bollier提出计算机存储技术、产生数据流的设备(如望远镜、摄像机及交通监视设备)、云计算、面向消费者的应用(如Google Earth和Map Quest)等成为大数据产生的几个重要因素,并首次提出“一种新的知识基础设施正在实现,大数据时代正在出现”的观点。