大数据Hadoop 3.X分布式处理实战
上QQ阅读APP看书,第一时间看更新

1.1 大数据概述

大数据技术是目前炙手可热的一门技术,那么,什么是大数据呢?目前大数据行业发展怎样?大数据的典型应用有哪些?

1.1.1 大数据的定义

现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云在演讲中曾提到,未来的时代将不是IT时代,而是DT时代。DT就是Data Technology(数据科技)的缩写,这显示出大数据对于阿里巴巴来说举足轻重。

对于“大数据”(Big Data),麦肯锡全球研究所给出的定义是,一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。IBM公司提出大数据具有5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

大数据需要特殊的技术,以有效地处理大量的数据。适用于大数据的技术,主要有大规模并行处理(Massively Parallel Processing, MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。

1.1.2 大数据行业的发展

我国高度重视大数据在经济社会发展中的作用,2015年8月31日,国务院以国发〔2015〕50号印发《国务院关于印发促进大数据发展行动纲要的通知》,全面推进大数据发展,加快建设数据强国。

“十三五”时期是我国新旧产业和发展驱动转换接续的关键时期,全球新一代信息技术产业正处于加速变革期,国内市场应用需求处于爆发期,我国大数据产业发展面临重要的发展机遇。培养出足够、合格的数据人才,对我国在未来掌握大数据的核心价值起着至关重要的作用。

1.1.3 大数据的典型应用

整体来看,目前国内大数据应用尚处于从热点行业领域向传统领域渗透的阶段。权威部门的调查显示,大数据应用水平较高的行业主要分布在互联网、电信、金融、电商、交通行业,一些传统行业的大数据应用发展较为缓慢,批发零售业甚至有超过80%的企业并没有大数据应用计划,远低于整体平均水平。

目前,大数据的典型应用有以下几个方面。

1. 运营商业务

运营商掌握体量巨大的数据资源,单个运营商的用户每天产生的话单记录、上网日志等数据就可达到PB级规模。对于运营商而言,可利用大数据技术提升传统的数据处理能力,聚合更多的数据提升洞察能力,借助大数据提高诊断网络潜在问题的效率,改善服务水平,为客户提供更好的体验,获得更多的客户以及更高的业务增长。

2. 金融业务

金融行业是信息产业之外大数据的又一重要应用领域,大数据在金融的银行、保险和证券三大业务中均具有广阔的应用前景。总体来说,金融行业的主要业务应用包括企业内外部的风险管理、信用评估、借贷、保险、理财、证券分析等,这些都可以通过获取、关联和分析更多维度、更深层次的数据,并通过不断发展的大数据处理技术,得以更好、更快、更准确地实现。大数据分析应用可以为金融机构提供统一的客户视图。

3. 政务业务

大数据政务应用获得世界各国政府日益重视。我国政府也非常重视大数据的应用。《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)提出“大数据成为提升政府治理能力的新途径”,要“打造精准治理、多方协作的社会治理新模式”。大数据应用着眼于提升政府提供公共产品和服务的能力。

4. 交通领域业务

交通数据资源丰富,具有实时性特征。在交通领域,数据主要包括各类交通运行监控、服务和应用数据。大数据应用系统可以基于对大数据的预测性分析,通过梳理影响安全畅通运行的各种原因,发现道路运行管理的内在规律,为交通管理决策、规划、运营、服务以及主动安全防范带来更加有效的支持。

5. 电子商务业务

大数据开启了电子商务行业的时代转型。电子商务和传统商家最大的区别在于:电子商务构建的各类型数据库能够涵盖商家信息、用户信息、行业资讯、产品使用体验、商品浏览记录、商品成交记录、产品价格动态等海量信息。电子商务行业大数据背后隐藏的是电子商务行业的用户需求、竞争情报,蕴藏着巨大的财富价值。借助大数据挖掘与分析技术,电子商务不仅可以提高营销转化为购买行为的成功率,而且能降低营销成本,使产品更契合用户的需求,全面提升企业竞争力。

6. 科学研究业务

科学数据是人类在认识自然、发展科技的活动中产生和积累的数据,是人类长期科学活动的知识积累,是一种重要的基础资源和战略资源。大数据时代,科学模式已经变革为“数据密集型科学”的科研范式阶段,部分学科领域的科研活动已经成为典型的大数据行为,科学技术人员有机会利用海量的科学数据探索世界,开展此前无法进行的研究,解决此前难以解决的科学问题,产生突破性进展。

7. 教育领域业务

教育领域大数据的主要目的是为不同利益相关者提供精准的教育服务,如学生的学习、教师的教学、课程开发者的资源开发、教育管理者的决策等。其核心是精准获取学习者的需求,为学习者提供精准教育服务。其数据主要来源于各类教育系统,包括学习管理系统、内容管理系统、电子档案系统、智能培训系统、社会性学习系统、实时教学系统、学习设计系统和学生信息管理系统等。

8. 健康医疗领域业务

通过对医疗大数据的获取和分析,将数据与各级医疗平台进行实时共享,对分散医疗卫生机构的数据以及公众随身的健康医疗传感器数据进行快速、有效、可靠的采集,实现医疗卫生机构卫生数据的有效接入,这将对公共医疗信息化建设起到至关重要的作用。