大数据智能核心技术入门:从大数据到人工智能
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4 从数据科学看大数据智能

什么是数据科学

大数据时代,虽然我们获取数据的成本越来越低,但获取有价值的信息和经验知识的成本却不见得更低,新兴DT技术正在涌现,组织、挖掘、分析和理解高速增长的大数据集,以识别其中的模式和规律,获得有用知识,通过数据的智能分析进一步创造应用价值。这种数据科学(Data Science)的兴起,被图灵奖得主Jim Gray喻为科学的“第四范式”(包括经验、理论、计算和数据驱动四个方面),并断言因为信息技术的影响和大数据的泛滥增长,未来不管什么领域的科学问题都将由数据所驱动。

一般来讲,数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法、技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、人工智能、深度学习、数据可视化、数据挖掘、数据仓库,以及高性能计算等。可见从技术角度看,数据科学与大数据智能有着非常紧密的联系,相关技术内容也有重叠。

从图2-11可以看到,一个典型的数据科学过程和数据挖掘跨领域标准流程CRISP-DM是类似的,比如都需要数据采集和预处理,需要进行学习建模和产品部署,简言之,数据挖掘可以理解为数据科学的一个子集。那么,不管是数据挖掘、大数据智能还是数据科学,整个分析流程里面到底包含哪些核心技术,哪些环节的技术是相同的?哪些环节的技术有差异?要理解上述问题,我们必须从DT技术泛型的角度来细化大数据智能的关键技术体系,搞清楚各技术领域之间的逻辑关系,这也是研究和应用大数据智能系统之前首先要搞清楚的问题。

图2-11 典型的数据科学过程

案例分析 什么是数据科学“第四范式”

图灵奖得主Jim Gray(吉姆·格雷)在《数据科学与第四范式:数据密集型科学发现》一书中提出了科学演化的四个典型阶段,经验主义、理论分析、模拟仿真和当前的数据驱动主义。数据驱动主义即数据密集型科学发现方法,Jim Gray将其定义为数据科学的第四范式,这种科学方法基于海量数据的收集、管理、分析和可视化等技术来获取科学规律知识。现代科学越来越依赖大数据智能技术,由于工业部门和科学领域都在以前所未有的规模和速度产生和收集大数据,例如欧洲核子研究中心的大型强子对撞机、从浩瀚宇宙中侦测引力波,这些量级的科学突破越来越依赖于先进的大数据分析技术,基于大数据的高效组织、探索和智能预测分析,从而发现新的科学知识。这种第四范式的数据科学正在迅速成为大多数科学研究领域的关键基础性技术。

数据科学的核心技术

上一节我们从基础技术和业务流程两个层面做了大数据智能关键技术体系的阐述和分析。接下来,我们从数据科学的维度来解读其各个层面所包含的关键技术内容。从数据科学看大数据智能,涉及如下几个方面的核心技术。

(1)机器学习:机器学习是大数据智能承上启下的关键性技术,机器学习往上是数据挖掘和人工智能,机器学习往下是深度学习和统计学习。人工智能的研究经历了从推理到知识库,再到现在的以学习为重点的三个阶段。机器学习是人工智能的一个分支,属于典型的交叉学科,涉及计算机、概率论、数学和统计学等学科知识。其核心目标是从原始数据中自动提取、识别模式或规律,即通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能,从数据中自动分析获得规律,并基于模型对未知数据进行预测。比如采用分类学习算法可以识别是否为垃圾邮件,是否要批准贷款,或做疾病的判断,等等。机器学习领域包括很多种类的智能建模技术,分类、聚类、回归、相关分析等每类下面都有很多算法进行支撑,如支持向量机、神经网络、逻辑回归、决策树、贝叶斯网络、随机森林等,无论是网络排名的机器学习十大算法还是二十大算法,都还只是一部分,随着深度学习算法的流行,其正在拓展衍生出一系列新的智能学习算法,使得机器学习算法库在加速扩张。

总之,大数据处理要智能化,机器学习是核心(当然也不能否定传统AI基于推理和知识库的方法,后文笔者会讨论两者怎么进行融合),从某种程度上讲,数据挖掘、商业智能、人工智能、大数据智能等概念的核心技术之一就是机器学习,机器学习用于图像处理和识别就是机器视觉,机器学习用于模拟人类语言就是自然语言处理,而机器视觉和自然语言处理也是支撑人工智能的关键技术,机器学习用于通用的数据分析也算是数据挖掘核心技术范畴。

(2)深度学习:深度学习是机器学习的子集,深度学习的概念源于人工神经网络的研究,由Hinton等人于2006年提出。可以理解为一种含有多个隐藏层的多层深度神经网络学习结构。深度学习通过自动学习低层特征组合形成更加抽象的高层特征来表示属性类别,以发现数据的分布式特征表示,并进行分类预测。深度学习是当前机器学习里面最热的一个子领域,由于在大数据条件下,图像、语音识别等领域的学习效果显著,有望成为人工智能取得突破的关键性技术,所以各大研究机构和IT巨头们都对其极其关注。

进一步讲,深度学习是使用包含复杂网络结构和多重非线性变换映射构成的多个深度网络处理层对数据进行高层抽象学习的算法(也叫表示学习、表征学习)。典型的深度学习算法模型有卷积神经网络(CNN)、循环神经网络(RNN)、堆叠自编码器(SAE)、玻尔兹曼机(RBM)及各自衍生出的相关变种方法,如长短记忆网络(LSTM)、神经图灵机(NTM)、可微分神经计算机(DNC)等。还有一些与深度学习相关的研究应用热点,如深度强化学习、深度对抗学习、深度迁移学习等新兴的机器学习方法。AlphaGo不只是深度学习的成功,也有强化学习与蒙特卡洛树这样的启发式搜索算法的功劳。

(3)人工智能:人工智能是机器学习的超集,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能涉及的技术内容更加广泛,从基础的符号表示、逻辑推理到概率计算、搜索优化求解,从机器视觉、自然语言处理、专家系统到智能代理等,当然也包括机器学习、深度学习和强化学习,各种技术、算法和模型可谓是包罗万象。AI企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

AI的终极目标是机器智能化、拟人化,机器能完成和人一样的工作,虽然机器的计算能力比人类强很多,但人类的直觉理解、感性推断、记忆和幻想、心理学等方面的能力,机器是难以比肩的,所以机器要拟人化很难,单从技术角度很难把人工智能讲清楚。人工智能与机器学习的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌等领域取得了巨大的成功,但深度学习在现阶段还难以实现更复杂的推理和计算,特别是涉及情感、记忆、认知、经验等人类独有的能力,人工智能是否能实现这些能力,还有很大的不确定性(见图2-12)。

图2-12 人工智能与机器学习、深度学习的关系

(4)数据挖掘(Data Mining):数据挖掘是一个更为宽泛的概念,它是用人工智能、机器学习、统计学和数据库、知识发现等的交叉方法在相对较大型的数据集中发现模式和规律的计算过程,核心目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

可以说数据挖掘的核心技术来自机器学习和AI领域,如深度学习是机器学习中一类比较火的算法,当然也可以用于数据挖掘。还有传统的商业智能领域也包括数据挖掘技术,比如OLAP多维数据分析可以做挖掘分析,甚至采用Excel这种基本的统计分析工具也可以做挖掘。关键是你的技术能否真正挖掘出有用的信息,然后这些信息是否可以指导决策。数据挖掘的提法比机器学习要早,应用范围更广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为大数据处理提供相关模型和算法。

(5)其他大数据处理相关的基础性管理和计算技术:大数据基础技术包括大数据资源的管理系统、分布式计算、云计算等方向,还有机器学习的理论基础,包括如算法、数据结构、概率论、代数、矩阵分析、统计学习、特征工程等方面;商业分析与理解如领域知识管理、产品设计、可视化等技术;数据管理如数据采集、数据预处理、数据库、数据仓库、信息检索、多维分析等技术。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个层面服务的。其中计算机科学基础理论方法与机器学习两个板块的相关内容最多,也最重要。

数据科学的技术体系

现阶段的大数据产品和服务多是在大数据基础管理层面的,大数据智能学习和决策支持的对接是数据科学和应用后续发展的关键突破点。

另外,大数据智能还涉及很多业务层面的应用知识,比如业务理解、交流沟通和可视化探索、流程优化和模型设计、工程设计等。如图2-13所示,我们给出了一个新的数据科学技术栈概览图(以大数据智能为背景),核心包括计算机科学知识、领域专家知识和智能学习建模、统计数学等基础知识四个层面。

图2-13 数据科学技术栈(机器学习、深度学习、人工智能等算法应用是核心)

数据科学的艺术

这里需要强调的一点是,智能学习建模这种涉及算法的分析和设计可以说是一门艺术,比如Alphago系统架构里的三种核心算法应用设计,为什么用深度学习+强化学习?为什么用蒙特卡洛树?这都需要对智能算法有极其深入的理解和把握,具体设计实现称之为艺术一点也不为过。这个艺术也说明了数据科学、大数据智能与传统信息化技术的本质不同,数据科学的核心能力是根据问题提出设想,再把设想转化为学习算法、模型,这种能力需要直觉、理解、设计和反复优化。因为可选的技术、模型和算法不止一种,技术路线多样,评价指标也有多个维度,甚至优化方法也有很多种,所以很多业内专家戏称深度学习为“炼丹术”,大数据智能的本质就类似深度学习,就是在处理一门艺术,好的智能算法和系统就像一件艺术作品,需要反复雕琢、迭代和优化。给定原始数据、限制条件和问题描述,没有标准答案,每种方案的选择就是一种假设,需要具备利用精确的测试和实验方法来验证和证伪这些假设的能力,从这个层面讲,未来所有科学研究问题以及商业、政府管理决策问题都将离不开数据科学和大数据智能技术的支持。

大数据智能的落地应用并不是那么容易,因为如何把现实问题转化为智能模型,并没有标准答案,这本身就需要持续的探索和创新精神。

另外,关键技术的突破并不是媒体宣传的那么容易,甚至可能会出现倒退和迂回前进的现象。比如Hinton发明的新型深度胶囊网络Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[C]//Advances in Neural Information Processing Systems. 2017: 3859-3869.,还想推倒自己40多年前就提出的人工神经网络训练等基础理论,以重建新的深度学习理论框架,远景虽然宏大但却困难重重。

技术洞察 深度学习“炼丹术”

深度学习的难点在于如何构造、设计和优化一个高效的深度神经网络模型,模型优化的关键是调整合适的超参数(模型超参数是需要人为设定的各项配置参数,如网络层数、每层神经元个数、学习率、迭代次数、优化器、激活函数、损失函数、丢弃率等;而不是模型本身训练过程中自动学习到的参数,如神经元之间的连接权重参数)来定义深度学习网络的运行方式。一般来讲,对于一个给定的深度学习模型,通常需要设置数十项超参数来进行训练,如果训练性能表现不佳,则需要人工调整一些设置,然后再次训练,这种试错法简单直接,但却非常耗时,很难保证得到最优效果。这就是为什么深度学习被称为“炼丹术”。我们可以采用一些自动化的方法来改进这种超参数优化过程(见图2-14)。比如网格搜索,通过遍历每个参数设置变量来逐个尝试;随机搜索可以通过超参数裁员设置来提升调优性能;贝叶斯算法和进化算法进行辅助优化等。但上述方法都有各自的问题,特别是随着深度学习模型规模和复杂性的增加,参数之间也存在相互影响,如何有效进行超参数的优化设置还需要深入研究。

图2-14 深度学习模型调优过程