1.5.2 数据驱动方法
2010年以来,深度学习结合大数据成了实现人工智能的新方法。基于脑科学、数据科学尤其是大数据技术发展形成的数据驱动方法,以新的角度提出了人工智能的具体实现途径和创新性思路,在技术层面上进一步增强了智能模拟的精确性和有效性,是传统人工智能方法的重要补充。
算法、大数据与计算能力被认为是推动人工智能发展的三大引擎。大数据最早在20世纪80年代被提出,麦肯锡公司在2011年的评估报告中指出“大数据时代”已经到来。21世纪,随着微博、微信等新型社交网络应用的快速发展,以及平板电脑、智能手机等新型移动设备的快速普及,数据呈爆炸式增长,世界已经进入数据大爆炸时代。大数据不但复杂多样,而且具有潜在价值,人们对数据进行收集的根本目的正是从中提取出有价值的信息。大数据作为一种战略性资源,不仅对科技进步和社会发展具有重要意义,还对人工智能的发展起到了基础性的支撑作用。
大数据本身就是一个很抽象的概念,目前尚无统一的定义,通常被认为是数据量很大、数据形式多样化的非结构化数据。2008年,在Science的专刊中,大数据被定义为“代表人类认知过程的进步,数据集的规模大到无法在可容忍的时间内用目前的技术、方法和理论去获取、管理和处理”。大数据的4个特征如图1.10所示。
图1.10 大数据的4个特征
我们从大数据的定义中不仅要认识到其数据规模之大,更重要的是,要学会从这些动态快速生成的数据流或数据块中获取有用的且具有时效性价值的信息。但是大数据所包含的数据类型众多,结构化、半结构化、非结构化的数据给已有的数据处理模式带来了巨大的挑战。
1.数据规模(volume)大
数据规模大是大数据的基本特征,随着互联网技术的广泛应用,互联网的用户急剧增多,数据的获取、分享变得相当容易。过去,也许只有少量的机构会付出大量的人力、财力成本,通过调查、取样的方法获取数据;现在,普通用户也可以通过网络非常方便地获取数据。此外,用户的分享、点击、浏览等操作都可以快速地产生大量数据,大数据已从TB(TB是一个计算机存储容量的单位,1TB=240个字节,即超过1万亿个字节)级别跃升到了PB(1PB=250个字节,在数值上1PB=1024TB)级别。当然,随着技术的进步,这个数值还会不断变大。也许5年以后,只有EB级别的数据量才能够称得上是大数据。
2.数据种类(variety)多
除了传统的销售、库存等数据,现代企业所采集和分析的数据还包括网站日志数据、呼叫中心通话记录、各个社交媒体中的文本数据、智能手机中内置的全球定位系统所产生的位置信息、时刻生成的传感器数据等。数据类型不仅包括传统的关系数据类型,还包括未加工的、半结构化和非结构化的信息,例如,以网页、文档、视频、音频等形式存在的数据。
3.处理速度(velocity)快
数据产生和更新的频率也是衡量大数据的一个重要特征。例如,全国用户每天产生和更新的微博、微信和股票信息等数据,随时都在传输,这就要求处理数据的速度必须快。
4.数据价值(value)密度低
数据量在呈现几何级数增长的同时,这些海量数据背后隐藏的有用信息却没有呈现出相应比例的增长,反而是人们获取有用信息的难度不断加大。例如,现在很多地方安装的监控使相关部门可以很容易地获得连续的监控视频信息,但这些视频信息产生的大量数据中有用的数据可能仅有一两秒。因此,大数据的4个特征不仅体现了数据量之大,还体现了数据分析之复杂,以及速度与时效之重要。
除了数学统计方法,机器学习等人工智能方法也在大数据中得到了应用。人工智能与大数据的结合,使机器产生一种新的智能形态——数据智能,即直接通过大数据计算获取和发现数据中隐含的知识、规律及使用传统分析手段难以获取的信息,实现预测或问题解决方案。
数据驱动方法通过深度学习、大规模数据、传感器及其他复杂的算法,执行或完成智能任务。大数据结合深度学习技术,能够自动发现隐藏在庞大而复杂的数据集中的特征和模式,这是数据驱动方法的成功之处。目前,它们的结合也是超越传统方法设计和开发人工智能系统的有效途径。