4 大数据智能三要素
智能时代将由大数据、算法和算力三者驱动,为什么这样讲,这一拨AI热潮的兴起有三个关键原因。
一是通过物联网和移动物联网等技术的大规模普及应用,大数据的爆炸式增长成为常态,产生了大数据燃料。随着互联网、移动互联网和物联网的高速发展,可以说已经构建了地球人类文明以来最强大的知识库、数据库和记忆库,然而大数据燃料还在源源不断地补充。
二是得益于强化学习和深度学习算法设计训练的突破,在机器学习和智能算法层面进行了极大的拓展,让机器学习算法得以走出实验室,应用于工业界。这也是通过大数据分析预测解决不确定性问题的可行路径之一,大数据条件下的多方博弈和复杂性预测问题,越发难以应用传统数据建模技术加以解决。由于客观世界的复杂性和大数据的相关性,传统人工设定的浅层学习模型和编程规则更是难以应用于大数据挖掘分析和预测,而神经网络的再次崛起已经让机器缓缓睁开了眼睛,不仅能看图说话还能听会道,初步具备了对外在环境的感知能力。
三是GPU计算设备的普及,为大规模深度学习提供了强有力的计算资源。
数据:智能燃料
如果大数据智能是我们要飞抵的AI星球,那么大数据就是火箭燃料,数据是智能系统与环境交互的第一手资料。AlphaGo为什么能在短短几个月时间内学会围棋,而且战胜了人类顶尖棋手?归根结底,离不开棋谱大数据的支持(初期版本),短短几天就能学习和对弈上百万盘棋谱,而人类顶尖棋手一辈子才下多少盘棋?人类的成长是一样的道理,幼儿经过几百天的数据训练,而且是在看到的物体、听到的话语等输入数据很有限的条件下,就能激发大脑里的神经网络,形成基本的听说经验和学习能力。我们大脑接收和处理的数据越多,面对相应复杂问题的挑战时,学习、反应和决策能力就越强。所以,大数据是智能诞生的关键要素之一,这一论断在绝大多数情况下是成立的,即使如Alpha Go的升级版AlphaGo Zero,虽然能抛开数百万盘人类的棋谱,直接学习围棋规则,但是其通过强化学习自动生成了更多的学习棋谱,本质上自我对战学习的过程还是在应用大数据,只是这个大数据是其“左右互搏”自己产生的,而不是基于人类棋谱大数据。
算法:智能引擎
深度学习的核心技术是几十年前就已经提出的人工神经网络,如果将人工神经网络比作火箭发动机一代,那么深度学习就是火箭发动机二代,升级了训练方式(Hinton首创),拓展了发动机功能(GAN、LSTM、NTM等一系列新的深度神经网络结构被提出),加装了高性能计算设备GPU(做游戏显卡起家的Nvidia居功至伟),当然最重要的是还有了大数据燃料,这样一来,我们飞抵人工智能星球的能力就大大增强了。这也是为什么神经网络换“马甲”为深度学习之后,能取得突破性进展(图像、语音、翻译等多个领域接近或超过人类)的本质原因,上述三个方面的天时、地利、人和发挥了关键作用。
学习算法作为大数据智能的核心引擎,面对传统浅层机器学习算法的瓶颈,如何拓展其处理能力是关键,而我们好像抓住了深度学习这一救命稻草。大数据与智能引擎算法好比一对互相学习、共同进步的兄弟:一方面,AI基础理论技术的发展为大数据机器学习和智能系统的构建提供了更丰富的模型和算法,如深度神经网络的突破,衍生出了一系列智能技术和算法(深度学习、强化学习、迁移学习、对抗学习等);另一方面,大数据为智能引擎的发展提供了算法优化的关键动力和燃料,数据规模大了之后,传统机器学习算法面临挑战,要加速、要改进、要做并行化处理等。总之,当前的大部分弱AI应用都遵从数据驱动智能这一技术路线,暂时还难以绕开大数据。
算力:智能加速
大数据智能的成功,数据、算法和算力,一个都不能少。自从深度学习于2012年大放异彩以来,GPU计算走入我们的生活并日益普及,从此大规模深度神经网络的训练再无大的性能瓶颈。最早的神经网络已提出了数十年,为什么现在才能大规模应用,这跟计算机的高性能处理能力有莫大关系。大数据的处理离不开高性能计算(High Performance Computing, HPC),其核心目标就是解决算力这一根本问题,这些是实现大数据智能的必备要件(见图1-6)。
图1-6 高性能计算资源(DWAVE量子计算机、太湖之光超算系统、AlphaGo的集群环境)
当机器拥有比人脑强上亿倍的计算能力(如Google的数据中心有上百万台服务器集群),拥有互联网上亿级实例数据的训练条件时(如互联网千亿级网页数据、机器自我对战的海量模拟演练数据等),再结合深度神经网络算法、强化学习算法和启发式搜索算法,弱AI应用的普及和爆发只是时间早晚的问题,所以很多专家讲要小心人工智能,虽然有些观点稍显夸张,但从技术角度看也不是没有道理的。依托强大的算力、算法和数据,大数据智能技术已经可以帮助我们从宇宙中找到引力波,帮助解码我们的致病基因序列,可以让汽车自动驾驶数十万公里……