1.1 互联网和物联网上的数据
“十三五”时期是一个大数据时代,国务院在正式印发的《促进大数据发展行动纲要》中指出,要加快政府数据开放共享,推动资源整合。
传统企业也好,新兴的互联网企业也罢,凡是想要做精细化管理的企业,对数据都是非常关注的,因而在新出现的各种技术中,对“大数据”这一项有相当多的偏好和关注。今天的企业CIO和CTO,如果不说自己也在作一些“大数据”的研究和应用项目,都感觉自己好像落伍了。
在互联网上奉行的开放和透明的理念,应用到精细化管理和工业管理上也是一样的,而这里我们说的开放和透明,就是基于数字的。
1.1.1 互联网上越来越多的数据被存储
随着互联网和移动互联网的发展,越来越多的数据被存储和使用,这是毋庸置疑的。
移动互联网上数据的特殊性首先在于它能够锁定一个特定用户,其次在于它能够获取用户的地理位置信息,再次在于移动互联网上的时空信息等多样化的数据种类。从而导致移动互联网上的数据数量会比传统互联网更大,形式也比传统互联网更加丰富,也有更高的价值。
在今天,数据的产生无论是数量、速度还是类型上都发生了很大的变化。下面我们看一个对比。
New York Times是世界上最老牌的报纸之一,他们把从创立之初的1851年到1980年的所有存档都扫描并转化成PDF格式,一共才有4TB的数据。而今天一家普通的线上媒体每个月采集的包括高清照片、视频在内的素材,其数据量都可以轻松超过这个数字。
图1-1来自Mary Meeker的《2016年互联网趋势报告》。
图1-1 各种应用和设备在产生各种各样的数据
正如Mary Meeker在报告中所说,数据在今天越来越重要,下一波技术浪潮会是充分利用今天畅通的互联网渠道和存储来收集、整合、关联及翻译所有的这些数据,从而对人们的生活和企业的有效运作产生价值。
与传统互联网数据不同的是,在移动互联网数据中,文字以外的其他信息占到更多的比例。从数据的属性上来讲,移动互联网上的数据比传统互联网更加复杂,其中一个原因是这些数据包含了大量的时间和空间信息,也就是说我们需要把数据挖掘延伸到时空数据领域(spatio-temporal data mining)。因为多了一个维度,时空数据挖掘的复杂度比一般的数据挖掘又深了一层,虽然说研究方法和算法还是类似的。
在各种不同场景中产生的各种数据,其应用方式是不同的。有些数据会被存储起来,用作业务分析和流程管控,而有些数据则需要被实时或者准时监控、分析和处理。
那么各家公司的数据量究竟有多大呢?
图1-2中列出的是2016年Tintri公司走访了数百家有数据中心的公司作出的数据统计。从图中我们可以看到,已经有24.4%的公司的数据量在1PB以上,而只有32%的公司的数据量在100TB以下。
图1-2 数据中心存储数据量的对比
注:请读者注意这里调查的是“有数据中心的公司”,所以数据量比较大是显然的。
不过没有数据中心的公司也一样需要存储和处理和自己相关的数据。
如图1-3所示,各家公司存储的数据量基本上在1TB~1EB(1000000TB),而这个量级恰恰是Hadoop系统最能发挥优势的量级。
图1-3 公司数据量级示意图
1.1.2 物联网带来更多的数据
“互联网+”和“工业4.0”的概念也为我们添加了更多的数据。工业机床、工业控制设备、RFID阅读器、传感器网络、GPS跟踪设备等这些设备每天、每小时甚至每分每秒都在产生新的数据。
我们可以认为互联网其实是一个连接人的网络,采集的数据大部分都是人的行为的数据,如人的交易数据、人的上网记录,而物联网(Internet of Things, IOT)采集的数据更多来自机器和设备。
物联网为我们提供了感知物理世界的接口和手段。遍布于各处的传感器,就如同人的眼耳鼻舌,是大数据系统的输入端。
在过去的10年中很多新科技的发展对物联网的发展起到很大的作用,比如:
(1)PV6;
(2)传感器技术;
(3)PV6;
(4)带宽价格;
(5)全面免费的WiFi覆盖;
(6)性价比更好的CPU。
不过,对于物联网来说最重要的技术还是大数据,如图1-4所示。
图1-4 物联网的基础是大数据
根据Gartner的数据,在2016年已经有64亿个设备连接到互联网上,而且每天还在新增550万个设备,或者说每秒增加63个新设备。
和互联网数据相比,物联网数据的第一个差异是数据量更大。如果比较这两个数据源,我们发现它们的数据量会差一个量级。全世界人口可能是60亿,但已经有上百亿的设备,如果我们将这些设备产生的数据都采集到的话,其数量会比来自互联网的数据更大,所以这会对数据系统架构产生一个新的、大的挑战。
第二个差异是,物联网数据并发度非常高,而且数据一旦产生需要立刻处理。比如我们有一个真实的客户案例,客户目前有一千万个传感器,每秒有一千万次的数据发送量,这可能就已经超过很多互联网公司的数据量,所以它对底层数据架构的并发要求非常高。
第三个差异在于互联网数据可能是人的行为数据,主要用来分析,可以作一些营销;但是物联网数据更多的是用于发现一些自然规律,因为这里面使用到了大量的技术运算,也会用到大量复杂的物理和数学的方法。