上QQ阅读APP看书,第一时间看更新
2.2 大数据的4V特征
大数据从结构化数据向半结构化数据和非结构化数据演进,为了确保数据可用性,就要分析大数据的数据特点。数据量大、数据产生速度快、数据类型复杂、价值密度低4个特点就是大数据的显著特征,或者说,只有具备这些特点的数据才是大数据,大数据的4V特征如图2-6所示。
图2-6 大数据的4V特征
1)规模性(Volume):大数据需要采集、处理、传输的数据量大;处理PB级的数据是比较常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。
2)多样性(Variety):大数据的种类多、复杂性高;大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且非结构化数据。这些非结构化数据广泛存在于社交网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
3)高速性(Velocity):大数据需要频繁地采集、处理并输出;因为数据会存在时效性,需要快速处理并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,数据必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。
4)价值密度低(Value):大数据不经过相应的处理则价值较低。挖掘大数据的价值类似于沙里淘金。以视频为例,一个一小时的监控视频数据,可能有用的数据只有一两秒。如何通过强大的算法更迅速地完成数据的价值“提纯”是目前大数据技术研究的重要课题。