1.1 网络大数据
一般意义上,大数据是指无法在一定时间内用常规机器和软/硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。网络大数据是指“人、机、物”三元世界在网络空间彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据。当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战。著名咨询公司IDC发布的研究报告指出,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB(1Z=1021)。
网络大数据中包含大量有价值的信息,根据其产生方式的不同可以分为Web内容数据、Web结构数据、自媒体数据、日志数据。其中,Web内容数据主要是通过互联网网页产生和发布的数据,它既可以是文字、文本、消息,也可以是图片音视频等,以及HTML、Java scripts、Interstitial间隙窗口、Microsoft Netshow、Flash等所产生或解析的数据。如今,Web内容数据量呈指数级增长,例如检索网页的总量达500亿,在线图书网页达7.5亿,其中,英文维基百科数量达427万个页面,中文百科数据达900万个页面。Web内容数据的特点既包括数据量巨大、内容信息丰富,还具有动态更新快,多源异构等特点。Web结构数据是指Web页面间的结构数据,主要包括页面间的超链接关系和Web的组织结构。伴随着Web内容数据的增长,Web页面间的链接关系也呈现出大规模增长的趋势。
自媒体数据主要是指通过以Facebook、Twitter等为代表的社交网络中产生的用户生成数据(user generated content,UGC),具有空前的规模性和群体性,数据总量巨大,数据变化非常快。1min内,Twitter上新发的数据量超过10万条;Facebook用户每天分享的内容条目超过25亿个,数据库中的数据每天增加超过500TB。此外,自媒体数据还具有十分复杂的内在关系,超过10亿的Facebook用户的好友关系和超过5亿的Twitter用户之间的关注关系构成了极为复杂的关系网络。
日志数据主要指各种网上服务提供商积累的系统和用户操作的日志记录,比如Google、百度等搜索引擎提供商积累的用户搜索行为日志等。此类数据的特点是,具有大量的历史性数据,同时数据增速极快、数据访问吞吐量巨大。以Google为例,目前有超过200个谷歌文件系统GFS(Google File System)集群在运行,而每个集群有1000~5000台机器,每个GFS都存储着高达5PB的数据;成千上万台机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB/s,每天都在产生着富含大量知识的数据。IBM将大数据的特点总结为3个V,即大量化(volume)、多样化(variety)和快速化(velocity)。首先,网络空间中数据的体量不断扩大,数据集合的规模已经从GB、TB到了PB,而网络大数据甚至以EB和ZB等单位来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍,以迎合50倍的大数据增长。其次,网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。在现代互联网应用中,呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例达到互联网整个数据量的75%以上。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用。再次,网络大数据往往呈现出突发涌现等非线性状态演变现象,因此难以对其变化进行有效的评估和预测。另一方面,网络大数据常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能充分利用这些数据。
近几年,网络大数据越来越显示出巨大的影响力,正在改变着人们的工作与生活。2012年11月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘。目前,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析。每年的互联网购物季,都发生着大规模的商业活动,其中,在“双十一”期间,天猫淘宝系网站的销售总额已经突破千亿元人民币。淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求,得益于对往年的情况,特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析。
网络大数据给学术界也同样带来了巨大的挑战和机遇。网络数据科学与技术作为信息科学、社会科学、网络科学、系统科学等相关领域交叉的新兴学科方向正逐步成为学术研究的新热点。近年来,“Nature”和“Science”等刊物相继出版专刊来探讨对大数据的研究。2008年,“Nature”出版专刊“Big Data”,从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战[2]。2011年,“Science”推出关于数据处理的专刊“Dealing with data”,讨论了数据洪流(data deluge)所带来的机遇[3]。特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。