1.1.1 大数据的定义
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
关于大数据的定义,很多学者也给出了自己的观点。在维克托·迈尔-舍恩伯格、肯尼斯·库克耶编写的《大数据时代》中,大数据指不采用随机分析法(抽样调查),而是采用所有数据进行分析处理。大数据具有5V特点(IBM提出):Volume(数据量大)、Velocity(高速)、Variety(多样)、Value(价值密度低)、Veracity(真实性)。
麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
结合众多学者的观点,可以发现大数据具有如下特征。
(1)数据量大(Volume)
第一个特征是数据量大。大数据的起始计量单位至少是PB(220GB)、EB(230GB)或ZB(240GB)。
(2)多样(Variety)
第二个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。
(3)价值密度低(Value)
第三个特征是数据价值密度相对较低,随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代需要解决的难题。
(4)高速(Velocity)
第四个特征是高速,即产生速度快,这是大数据区分于传统数据挖掘最显著的特征。
(5)真实性(Veracity)
第五个特征是数据的真实性。具体指数据的准确性和可信赖度,即数据的质量。
大数据的价值体现在以下几个方面。
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
2)中小微企业可以利用大数据做服务转型。
3)传统企业充分利用大数据的价值实现转型。