1.4 大数据工具
数据正成为企业数字化发展过程中的新资本形式,新一代企业尤其依赖数据的数量与质量。在此前提下,收集整合数据与运用生态系统及清晰的数据战略,对企业的发展至关重要。也就是说,企业需要理解现有数据资产的价值,采取一种程序化的方法来构建数据资产,并在所有业务部门的支持下,运用现有数据指导业务开展,提升企业的核心竞争力。因此,企业需要建立一套完整的大数据处理流程。以物联网大数据处理为例,该流程包括4个阶段,共8个主要模块(见图1-8)。
图1-8 物联网大数据处理流程
(1)终端管理模块:提供终端注册、身份验证、监控、数据库用户角色和权限设置,以及资源管理等功能,对传感终端等物理设备进行统一管理。
(2)数据预处理模块:接收终端上传的数据,进行数据转换,屏蔽不同厂商传感器硬件数据的差异性,生成统一的标准数据格式。
(3)数据存储模块:实现数据采集、数据清洗、数据更新、数据分析、数据归类等各类物联网数据的存储和备份等功能。
(4)实时分析模块:通过对实时数据的统计分析,对数据进行分析处理,输出分析结果。
(5)离线分析模块:对大量非实时数据进行统计、分析挖掘,定时生成分析结果,当用户调用相关分析数据服务时,可以直接输出已分析的结果,提高服务效率。
(6)数据服务模块:提供服务注册、服务发现、服务组装服务。
(7)数据接口模块:开放式数据应用程序接口,为外部访问数据库提供一种通用的应用程序语言。
(8)应用管理模块:对访问数据服务的物联网应用进行注册、注销管理。
流程化的数据资产构建方法意味着有良好的数据架构,能够优化数据的采集、分析、聚合、使用与后续更新,并保持数据的准确性、一致性与安全性;同时,通过保留开放的接口,可以灵活快速地扩展到未来的新技术。随着数字化和智能化时代的快速到来,基于大数据的创新正成为新的经济增长点,越来越多的企业对拥有的数据进行存储管理、清理、分析、价值挖掘和数据可视化,将大数据应用作为获得差异化竞争优势的重要途径。为了满足企业采集处理数据等的需求,大数据工具迅速得到应用,并发展出了执行各种任务和流程的数千个种类,而且其市场还在不断增长。
1.4.1 数据存储管理工具
数据存储管理工具是大数据分析平台的基础。它需要根据大数据应用的主要特点和基础架构,切实有效地存取日渐丰富的信息,从而改善人们的日常生活,提高企业的运营能力。表1-1所示为常用的数据存储管理工具。
表1-1 常用的数据存储管理工具
1.4.2 数据清理工具
原始数据多是杂乱无章的,而且里面有很多垃圾。因此,需要对原始数据进行清理,从而得到一些高质量的数据。另外,大数据集往往是非结构化和无组织的,并且可能来自不同地方:移动网络、物联网、社交媒体,因此需要将它们转换成某种统一的形式。只有经过清理和转换之后,才可以进行数据分析与分类,进而发现数据之间的相互关系,以及挖掘数据价值。常用的数据清理工具如表1-2所示。
表1-2 常用的数据清理工具
1.4.3 数据挖掘工具
大多数统计分析技术都基于完善的数学理论和高超的技巧,对使用者的要求很高。数据挖掘是利用统计、机器学习和人工智能技术的应用程序,可使人们不用掌握大量技巧也能找出隐藏于大数据的信息。因此,数据挖掘不是传统统计分析技术的替代,而是传统统计分析技术的延伸和扩展。作为大数据系统的核心竞争力,数据挖掘方案通常非常复杂。表1-3所示为常用的数据挖掘工具。
表1-3 常用的数据挖掘工具
1.4.4 数据可视化工具
除了一个功能强大的挖掘引擎,友好的数据可视界面也是大数据分析必须具备的。其旨在借助于图形化手段,清晰有效地传达与沟通信息[12]。在表现形式上,为了有效地传达思想,其需要同时具有可视化功能和美感,通过直观地传达关键特征,让用户深入洞察稀疏且复杂的数据集。一个良好的可视化人机接口能够增强系统的可用性,帮助销售代表、各级企业管理团队等理解数据及挖掘数据中的信息。表1-4所示为常用的数据可视化工具。遗憾的是,良好的可视化界面有时与深度特征集的读取不一致,这成了大数据可视化工具的一个主要挑战。
表1-4 常用的数据可视化工具