1.2 网络大数据研究的意义
总体而言,网络大数据研究的重要性体现在以下几个方面。
(1)网络大数据对捍卫国家网络空间的数字主权、维护社会稳定、推动社会与经济可持续发展有着独特的作用。信息化时代,国家层面的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力。国家在网络空间的数字主权也将是继海、陆、空、天这4个空间之后另一个大国博弈的空间。在网络大数据领域的落后,意味着失守产业战略制高点,意味着国家安全将在网络空间出现漏洞。为此,2012年3月,美国政府整合6个部门投资2亿美元启动“大数据研究和发展计划”。在该计划中,美国国家科学基金会提出要“形成一个包括数学、统计基础和计算机算法的独特学科”。该计划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引发教育和学习的变革。这意味着网络大数据的主权已上升为国家意志,直接影响国家和社会的稳定,事关国家的战略安全。
(2)网络大数据是国民经济核心产业信息化升级的重要推动力量。“人、机、物”三元世界的融合产生了大规模的数据,如何感知、测量、利用这些网络大数据成为国民经济中许多行业面临的共同难题,成为这些行业数字化、信息化的障碍和藩篱。如何使不同行业都能突破这一障碍,关键在于对网络大数据基本共性问题的解决。譬如,对于非结构化数据的统一表示与分析,目前缺少有效的方法和工具。因此,通过对网络大数据共性问题的分析和研究,使企业能够掌握网络大数据的处理能力或者能够承受网络大数据处理的成本与代价,进而使整个行业迈入数字化与信息化的新阶段。从这个意义上看,对网络大数据基础共性问题的解决将是新一代信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,也是行业用户提升竞争能力的新动力。
(3)网络大数据在科学和技术上的突破,将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业。网络数据科学与技术的突破意味着人们能够理清数据交互连接产生的复杂性,掌握数据冗余与缺失双重特征引起的不确定性,驾驭数据的高速增长与交叉互连引起的涌现性(emergence)[4],进而能够根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧,最终达到充分利用网络数据价值的目的。涌现性是指由低层次的多个元素构成高层次的系统时展示出的每个单一元素所不具备的性质。网络数据不再是产业环节上产生的副产品,相反地,网络数据已成为联系各个环节的关键纽带。通过对网络数据纽带的分析与掌握,可以降低行业成本、提升行业效率和生产力。因此,可以预见,在网络数据的驱动下,行业模式的革新将可能催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业。
(4)大数据引起了学术界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。科学研究最初只有实验科学,随后出现了理论科学,研究各种定律和定理。由于在许多问题上,理论分析方法变得太过复杂以至于难以解决难题,人们开始寻求模拟的方法,这又产生了计算科学。而大数据的出现催生了一种新的科研模式,即面对大数据,科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触被研究的对象。2007年,已故的图灵奖得主吉姆•格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式(The Fourth Paradigm)”[5],把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决所面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。
网络大数据的深入挖掘、大规模利用是新兴产业界的立足点。即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来说就是来源于应用的问题。著名出版公司O’Reilly的创始人Tim O’Reilly断言,大数据就是下一个Intel Inside,未来属于那些能把数据转换为产品的公司和人群。麦肯锡全球研究院(McKinsey Global Institute,MGI)的研究报告也宣称,大数据是下一代革新、竞争力和生产力的先导,网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益。