AI生态:人工智能+生态发展战略
上QQ阅读APP看书,第一时间看更新

1.4 人工智能发展现状

近些年,人工智能正在以前所未有的速度发展,正深刻改变着人类社会生活的各个方面,并得到了各个国家的高度重视。美国国家科学技术委员会(NSTC)在2016年10月发布了《美国国家人工智能研究与发展战略计划》,确立了利用人工智能技术推进国家优先事项的愿景,从就业、教育、公共安全和国家安全方面影响国家发展。2017年7月8日,我国国务院也印发了《新一代人工智能发展规划》,明确指出建立新一代人工智能关键共性技术体系,人工智能掀起了下一轮互联网变革浪潮的新引擎,人工智能已成为全球科技巨头新的战略发展方向。

1.4.1 研究现状

人工智能是一门覆盖范围很广的综合性技术,主要包括自然语言处理(Natural Language Processing,NLP)、知识图谱(Knowledge Graph,KG)、计算机视觉(Computer Vision,CV)等。

(1)自然语言处理。自然语言处理是人工智能最初发展的切入点,也是目前大家关注的焦点,其目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。

1956年之前,人们主要进行的都是自然语言处理的基础性研究。1948年Shannon把离散马尔可夫过程的概率模型首次应用于描述语言的自动机,同时又把“熵”的概念引用到语言处理中(Roger,2004)。就在同一时期,Kleene研究了有限自动机和正则表达式(Kleene,1951)。1956年,Chomsky提出了上下文无关文法,也因此产生了基于规则和基于概率两种截然不同的自然语言处理方法,进而引发了数十年该领域研究中两大阵营有关孰优孰劣的争执(Chomsky,1958)。20世纪70年代初,由于自然语言处理研究中的一些问题未能在短时间内得到解决,而新的问题又不断地涌现,许多人因此丧失了信心,自然语言处理的研究进入了低谷时期。尽管如此,一些发达国家的学者依旧研究着。基于隐马尔可夫模型的统计方法和话语分析在这一时期取得了重大进展(Baum,1966;Baum,1967;Baum,1968;Baum,1970)。80年代,在人们对于过去的工作反思之后,有限状态模型和经验主义的研究方法开始复苏。90年代以后,随着计算机的速度和存储量大幅增加,自然语言处理的物质基础大幅改善,语音和语言处理的商品化开发成为可能;同时,网络技术的发展和互联网商业化使得基于自然语言的信息检索和信息抽取的需求变得更加突出。自然语言处理的应用领域已不再局限于机器翻译、语音控制等早期研究方向。从20世纪90年代末到21世纪初,人们逐渐认识到,仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合,自然语言处理的研究又迅速发展并逐渐兴旺起来。近年来,随着深度学习架构和算法的发展,深度学习在自然语言处理方面的贡献(Collobert,2011),在很多常见的自然语言处理任务中取得了顶尖的结果,如命名实体识别(Wang,2013;Finkel,2010)、词性标注(Wang,2014)和情感分析(Mishra,2017),在这些任务中神经网络模型优于传统方法,而机器翻译(Wu,2017;Wang,2017;Oda,2017)的进步可以说是最显著的。

(2)知识图谱。知识图谱的出现是人工智能对知识需求所导致的必然结果,但其发展又得益于很多其他的研究领域,涉及专家系统、语言学、语义网、数据库,以及信息抽取等众多领域,是交叉融合的产物而非一脉相承。

早在20世纪70年代,专家系统作为人工智能的重要分支,是指利用知识和推理过程来解决那些借助人类专家知识才能得以解决的问题的计算机程序。80年代,专家系统的发展激增,日本的五代机项目就是在这期间开始的,专家系统是其核心部分。专家系统一般由两部分组成:知识库与推理引擎。人类专家提供知识,再将这种显式的知识映射并存储到知识库中用来推理。1985年,普林斯顿大学认识科学实验室在心理学教授乔治·A.米勒的指导下开始建立和维护名为WordNet的英语字典(Miller,1990),旨在为词典信息和现代计算提供更加有效的结合,为计算机程序提供可读性较强的在线词汇数据库。在WordNet中,名词、动词、形容词以及副词被按照认知上的同义词分组,称为synsets,每一个synset表征一个确定的概念。synset之间通过概念语义以及词汇关系链接。在汉语中,类似的典型代表有《同义词词林》及其扩展版、知网(How Net)等,都是从语言学的角度,以概念为最基本的语义单元构建起来的可以被计算机处理的汉语词典。这些早期的知识图谱都是利用相关领域专家进行人工构建,具有很高的准确率和利用价值,但是其构建过程耗时耗力而且存在覆盖性较低的问题。1989年万维网的出现,为知识的获取提供了极大的方便,1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网,其初衷是让机器也同人类一样可以很好地获取并使用知识。不同于人工智能中训练机器使之拥有和人类一样的认知能力,语义网直接向机器提供可直接用于程序处理的知识表示。2001年,一个名为维基百科(Wikipedia)的全球性多语言百科全书协作计划开启,其宗旨是为全人类提供自由的百科全书,在短短几年的时间里利用全球用户的协作完成数十万词条知识。维基百科的出现推动了很多基于维基百科的结构化知识的知识库的构建,DBpedia(Auer,2007)、Yago等都属于这一类知识库。由于维基百科是社区撰写,其知识表达难免有不一致的情况,DBpedia利用mapping技术与抽取模板来实现知识描述的统一与一致性。在2016年发行的版本中,DBpedia拥有超过6百万实体及其数十亿事实知识,其中人工构建的本体库包含760种类别信息。同时,DBpedia拥有大量的跨语言知识,共拥有除英语外的66亿其他语言事实知识。2007年,Freebase开始构建,类似维基百科,其内容主要来自其社区成员的贡献,但与维基百科最大的不同之处在于Freebase中都是结构化的知识,在维基百科中人们编辑的是文章,而在Freebase中编辑的是知识。在Freebase中,用户是其主要核心,除了对实体的编辑,用户也参与本体库的构建、知识的校对,以及与其他知识库的链接工作。除人工输入知识,Freebase也主动导入知识,如维基百科的结构化知识。图1-7是一个典型的知识图谱示例。以上所介绍的知识图谱都是基于英文语言的,即使是多语言知识图谱也是以英文为主语言,其他语言知识是用过跨语言知识(如语言间链接(ILLs)、三元组对齐(TWA))链接得到。近些年,国内推出了大量以中文为主语言的知识图谱,它们主要都是基于百度百科和维基百科的结构化信息构建起来的。如上海交通大学的zhishi.me、清华大学的XLore、复旦大学的CN-pedia。2017年,由国内多所高校发起cnSchema.org项目,旨在利用社区力量维护开放域知识图谱的Schema标准。

(3)计算机视觉。计算机视觉技术属于人工智能邻域中的一个分支(Dana,1989;Huang,1996),是一门通过图像或者视频的处理,从而使得计算机具备“看”的能力的学科。借由获取到的图像形成的几何信息以及由红外、辐射线或者其他方法进行的测定,由数据采集器的属性和物理世界的属性,就能从图像中推断出优于物体的有用的信息。例如,物体的颜色,物体的轮廓,复杂环境中的移动物体,移动智能机器人面前的障碍物,安防系统中人物识别的人脸信息,地图中的目标位置等信息,如图1-8所示(Ian,2016)。为了能有效地完善这些功能,于是人们就开始研究计算机视觉技术。从最初的人工智能的子方向,计算机视觉技术作为一个完整的研究邻域已经活跃长达40年之久。近几年来,研究人员已经渐渐将研究的重点从图像中的静态目标慢慢过渡到了复杂环境中的动态目标的序列上面。对于此方面的研究和发展,已经广泛地应用于控制系统中的视频监测系统,视频编解码技术,人工智能的人机交互的感知接口,地图导航系统,军事上的制导、雷达视频图像中的目标分析等。

图1-7 知识图谱示例

资料来源:https://api.ownthink.com/kg/view?entity=周杰伦

图1-8 计算机视觉应用示例

资料来源:(Goodfellow et al.,2016)

伴随着计算机视觉技术的发展,随即又涌现了多模态和感知交互的技术,结合了机器视觉的研发,将能人机交互的技术推上一个新的台阶。之前的努力研究的重心在于继承多种感知模态,例如,计算机图像视觉技术,语音以及声音的处理,触觉的感知处理。这些应用都是基于视频的传感的。近年来,随着交互技术的发展,以视觉交互作为基础的新兴技术在人机交互相关领域中表现出巨大的潜力,例如生物测定技术、计算机智能技术和结合语音、文字、图像等多模态信息的感知技术等。在当今对于图像处理、视频中移动物体的监测技术中,存在的主要问题和难点有:

一是在采集到的每帧的图像信息中,对于想要检测的目标物之间总不能避免存在相互遮挡的情况,从而造成了采集到了不完整的目标信息,这样给只能通过结合图像信息来识别世界的人工智能技术带来困扰。

二是人们存在的生活环境都由多维立体组成,而采集到的图像信息却是2D的,那么因视角不同以及光照变化带来了目标物体形状的不同变化,造成了实时识别和跟踪的各种困难。

三是对于生活中的3D物体,检测其物体的属性就需要判断如何去选择以及提取其物体不变性的特征,然而这一过程是极具挑战性的。

四是在简单的场景下,分析目标物体相对较为简单,但是在复杂背景下,需要提高检测目标物体的精确性,以及提高检测的数学算法的鲁棒性、实时性。

五是实时采集到的图像信息,所具有的原始数据极其丰富,由于采集的时间间隔非常小,所以其相邻的帧之间有很强的相关性,利用好这个关键点,对于提高整个检测、跟踪系统的效率极其具有实际意义。

六是随着图像处理技术的提高,将采集到的图像信息创建成3D的场景,复原真实的场景,对于目标物体的分析、处理、跟踪技术都将会有很大的帮助。

国内的研发人员也开展了对于计算机视觉技术的研究。处于领先地位的是中国科学院北京自动化研究所下属的模式识别国家重点实验室。研究的主要方向为复杂环境中的运动物体的跟踪算法以及三维的模型定位。其在英国雷丁大学所设计的车辆交通监控系统原型基础上,取其精华,结合自身的优势,提出了新的模糊自组织神经学习算法,自主开发了交通监控的系统。除了研究院所,各大高校也以计算机视觉技术为发展前沿,自行开发各自的视觉技术,并且应用于机器人技术中,例如上海交通大学、北京航空航天大学、北京理工大学等。目前,在计算机视觉技术的研究中,应用较为广泛的软件程序都是基于加快图像处理的计算速度研发出来的。在整个系统项目中,调用基础程序函数是极其便利的,同时,也存在着不足:

一是对于未来的发展,可移植性和可嵌入性无疑决定了未来技术发展的方向,然而目前国内应用较多的软件都无法支持这个特性。

二是高级计算速度快的数学计算函数并没有使用于大多数软件程序。

三是对于图像处理的研究问题,在软件工具的使用中,还是由MATLAB作为主要的手段,其虽然提供了较为丰富的数学函数,但令人担忧的是其运行速度。

四是在网络时代,网络服务器结构的应用程序同样也注定了计算机视觉技术的未来,之前投入市场的大部分软件包在设计之初并没有预想到这一情况,所以许多并不能支持网络功能的开发。

针对上述几项不足之处,在1999年由英特尔建立了OpenCV(Bradski,2000),现在,由Willow Garage对其提供支持。OpenCV是一个开源的跨平台计算机视觉库,具有较强的可移植性和通用性。在主流的操作系统上可以进行开发、操作,例如Linux、Windows和MacOS等。其编程语言是C/C++;不仅如此,为了研发人员开发的方便,提供了Python、Ruby、MATLAB等语言的接口;还提供了针对不同情况下的图像处理的标准算法。OpenCV的产生以及发展对于图像处理和计算机视觉技术无疑起到了重要的作用。在不久的将来,工业生产、航天航空技术、军事、人工智能技术等各领域都会产生极大的动力。随着人们对于图像分析、视觉技术的不断的高要求,其也在不断的发展,并且适用于各种场合。

1.4.2 产业现状

业内人士将2016年定义为“中国人工智能元年”。这不仅仅是因为人工智能产业本身的火爆,更是因为人工智能概念在整个市场中分量的递增。从智能手表、手环等可穿戴设备,到服务机器人、无人驾驶、智能医疗、AR/VR等热点词汇的兴起,智能产业成为新一代技术革命的急先锋,近期AlphaGo大胜李世石和柯洁的人机围棋对战更进一步掀起了人工智能的浪潮。人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,国内外的高科技公司以及风险投资机构纷纷布局人工智能产业链。

据统计,2014年人工智能领域全球投资额为10亿美元,同比增长近50%。2015年全球人工智能公司共获得近12亿美元的投资,这个数字放在过去20年全年投资总额来看,已经超过了其中17年全年投资总额。2014年风投领域共完成40笔交易,总金额高达3.09亿美元,同比增加302%,预计2020年全球人工智能市场规模将超千亿。在未来10年或者更长的时间里,人工智能将是众多智能产业技术和应用发展的突破点。当前人工智能的浪潮已席卷了全球,人工智能领域的公司也在不断激增。截至2016年年初,全球共有957家人工智能公司,美国以499家位列第一,覆盖了深度学习/机器学习(通用)、深度学习/机器学习(应用)、自然语言处理(通用)、自然语言处理(语音识别)、计算机视觉/图像识别(通用)、计算机视觉/图像识别(应用)、手势控制、虚拟私人助手、智能机器人、推荐引擎和协助过滤算法、情境感知计算、语音翻译、视频内容自动识别13个细分行业。数据显示,中国人工智能领域约65家创业公司获得投资,合计29.1亿人民币。覆盖范围从深度学习等软件算法以及GPU、CPU、传感器等关键硬件组成的基础支撑层,到语音/图像识别、语义理解等人工智能软件应用以及数据中心、高性能计算平台等硬件平台组成的技术应用层,到AI解决方案集成层,再到工业机器人、服务机器人等硬件产品层以及智能客服、商业智能(BI)等软件组成的运营服务层。

人工智能已上升为国家战略,并明确了阶段性发展目标:2017年7月20日,新华社报道了国务院关于印发《新一代人工智能发展规划》(以下简称《规划》)的通知,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。本次《规划》的印发意义重大。其一,本次《规划》的印发由国务院主导,意味着人工智能正式成为国家战略。其二,本次《规划》明确提出了“三步走”的战略:第一步,我国人工智能产业到2020前与世界先进水平同步,重点发展领域为大数据智能、跨媒体智能、群体智能、混合增强智能、自主智能系统等,AI核心产业1500亿元,拉动1万亿元;第二步,到2025年部分技术与应用达到世界领先水平,重点领域为智能制造、智能医疗、智慧城市、智能农业、国防建设等,AI核心产业4000亿元拉动5万亿元;第三步到2030年达到世界先进水平,重点领域为类脑智能、自主智能、混合智能和群体智能等,AI核心产业1万亿元拉动10万亿元。三步走的战略将《规划》进行了细化,并给出了具体量化的发展目标,有望推动人工智能的快速发展逐步实现。其三,本次《规划》不仅对人工智能的基础硬件、算法框架等内容提出了要求,同时对软件、下游应用、生态,以及人才培养体系、相关配套政策等均提出了要求,有望使人工智能作为生态型重点发展产业扶持。其四,《规划》提出了要给予充分的财政和政策支持,并鼓励成立人工智能发展基金,政策和资金上的支持对新兴产业的发展至关重要,将成为行业发展的基石。

发展人工智能,芯片先行。深度学习通过构建很多隐层的机器学习模型和海量的数据来训练机器,使机器去学习更有用的特征,从而最终提升分类和推理的准确性,引领当今人工智能算法方向。深度学习需要进行大量的并行计算,而传统的CPU往往需要数百甚至成千上万条指令才能完成一个神经单元的处理,无法支撑深度学习大规模数据的并行计算,深度学习需要新的芯片来对大规模的并行计算进行加速。目前常用的加速深度学习并行计算的人工智能芯片有GPU、FPGA、ASIC和处于理论阶段的类脑芯片。深度学习的训练需要强大的计算能力:人工智能因其自身神经网络模型结构的复杂性,以及训练深度神经网络需要大量的高阶统计数据,对于计算能力的需求非常大。与李世石对弈的谷歌AlphaGo有1920个CPU加280个GPU,而这只是比赛时执行深度学习算法的计算机系统。训练这个深度学习算法的计算机网络规模至少要提高一个数量级,而这个提供训练计算能力的计算机网络才是AlphaGo持续进化的原动力。

人工智能芯片“云+端”高速发展。未来人工智能芯片的应用大体有两个方向:其一是用于云端服务器的芯片,对于云端的高运算需求来说,预计将以CPU+GPU搭配为主,主要特点是高功耗、高计算能力以及通用性,云端人工智能运算对于具体应用场景的要求较少,如图1-9所示,寒武纪发布的人工智能芯片,通用芯片即可满足要求;其二是用于终端(例如手机及其他智能硬件)的人工智能芯片,由于终端运算空间有限,所以对于芯片的要求主要在于其低功耗,并针对不同场景有所区分,因此定制及半定制化的FPGA、ASIC及类脑芯片有望成为主流。“CPU+GPU并行”在人工智能云端中被广泛运用:计算能力的限制曾经是人工智能研究跌入低谷的原因。随着摩尔定律的发展,计算能力逐步得到解放。CPU性能飞速提升,被最初用来训练深度学习。但不久发现拥有出色的浮点计算性能的GPU更适合做深度学习训练。提高了深度学习两大关键活动:分类和卷积的性能,同时又达到所需的精准度,相对传统CPU的方式,GPU拥有更快的处理速度、更少的服务器投入和更低的功耗。现在文本处理、语音和图像识别上,CPU+GPU并行,不仅被谷歌、脸书、百度、微软等巨头采用,也成为小猿题库、旷视科技这类初创公司训练人工智能深度神经网络的选择。

图1-9 寒武纪人工智能芯片

基于FPGA的半定制芯片在终端深度学习中的应用值得期待。FPGA,即现场可编程门阵列,是一种半定制的集成电路,百度就采用了FPGA打造百度大脑专用AI芯片。全球FPGA市场有三大产商,Xilinx和Altera长期稳坐第一和第二的位置,两者占据了市场约90%的份额,是市场和技术的领头羊。剩余的份额被Lattice占据。其中,Altera 2015年被英特尔以167亿美元收购,收购的原因之一就是看中FPGA的专用计算能力在人工智能领域的发展。Xilinx与IBM也进行了战略合作,加速数据中心应用。FPGA突出优势是能够根据应用的特征来定制计算和存储结构,达到硬件结构与深度学习算法的最优匹配,获得更高的性能功耗比;并且,FPGA灵活的重构功能也方便了算法的微调和优化,能够大大缩短开发周期,所以基于FPGA的半定制芯片在深度学习中的未来非常值得期待。

万物互联的背景下,AI芯片的应用拥有广阔的想象空间。未来每一个机器人、每一辆无人驾驶汽车、每一个摄像头甚至绝大多数硬件都将具有智能,而这其中充当其大脑的就是芯片。X86架构和ARM分别在互联网和移动互联网时代充当了霸主,英特尔收购FPGA公司,英伟达专门针对人工智能的深度学习开发了TeslaP100,国内中科院的寒武纪公司以及地平线机器人也正在发力人工智能芯片,充分说明了AI芯片领域被产业界看好,在新的智能时代,AI芯片作为人工智能底层的核心基础无疑将拥有非常广阔的应用空间。

智能硬件抢占C端入口,数据端入口打通,为算法奠定基础。智能硬件是继智能手机之后的一个科技概念,通过软硬件结合的方式,对传统设备进行改造,进而让其拥有智能化的功能。智能化之后,硬件具备连接的能力,实现互联网服务的加载,形成“云+端”的典型架构,具备了大数据等附加价值。智能硬件已经从可穿戴设备延伸到智能电视、智能家居、智能汽车、医疗健康、智能玩具、机器人等领域。比较典型的智能硬件包括谷歌眼镜、三星Gear、FitBit、麦开水杯、咕咚手环、Tesla等。智能硬件对于整个人工智能产业而言,其功能除了打开C端消费市场之外,更为重要的是通过智能硬件以及加载其中的软件,抢占C端入口可以进行终端数据的采集,为后续的算法完善及商业模式推进奠定良好基础。智能音箱产品亚马逊Echo在美国越来越受欢迎:目前亚马逊Echo在美国的认知率已经从2015年的20%提升到了2016年的61%,在所有美国亚马逊客户当中,Echo的拥有率已经从2%提升到了5%,相比于其他的亚马逊设备的拥有率,未来的销量前景非常可观。

机器人按照应用领域的不同分为工业机器人、服务机器人、特种机器人。由于传感器、人工智能、大数据、物联网等技术的运用,机器人产业中涌现出新的制造模式和商业模式——服务型机器人出现了。相较于工业机器人,它与个人、家庭生活联系更为紧密,2015—2018年,个人及家庭用服务机器人全球销量将达到2590万台,市场规模将达到122亿美元。目前我国服务机器人需求领域包括:养老、监护等社会需求;国防、公共安全、救援抢险、科学考察等国家重大需求;智能家居、教育、保洁等个人及家庭消费需求。服务机器人的重点在于服务,基于特殊场景应用的服务及AI的建设是重点,各行业AI化将是未来的发展方向。到2020年,我国服务机器人年销售收入超过300亿元:在助老助残、医疗康复等领域实现小批量生产及应用。围绕助老助残、家庭服务、医疗康复、救援救灾、能源安全、公共安全、重大科学研究等领域,培育智慧生活、现代服务、特殊作业等方面的需求,重点发展消防救援机器人、手术机器人、智能型公共服务机器人、智能护理机器人等四种标志性产品,推进专业服务机器人实现系列化,个人及家庭服务机器人实现商品化。重点突破人机协同与安全、产品创意与性能优化设计、模块化/标准化体系结构设计、信息技术融合、影像定位与导航、生肌电感知与融合等关键技术。

多层次特征提取提升计算机视觉识别效果。计算机视觉领域主要包括图片/视频识别与分析、人像与物体识别、生物特征识别、手势控制、体感识别、环境识别。计算机视觉的识别效果的提升,是通过引入卷积操作,将深度模型的处理对象从之前的小尺度图像(32pixel×32pixel)扩展到大尺度图像上(200pixel×200pixel),提出了卷积深度置信网(ConvolutionalDBN),通过可视化每层学习到的特征,演示了低层特征不断被复合生成高层抽象特征的过程。深度结构模型具有从数据中学习多层次特征表示的特点,这与人脑的基本结构和处理感知信息的过程很相似,如视觉系统识别外界信息时,包含一系列连续的多阶段处理过程,首先检测边缘信息,然后是基本的形状信息,再逐渐地上升为更复杂的视觉目标信息,依次递进。

深度学习研究的初衷主要就是应用于图像识别。迄今为止,尽管深度学习已经被应用到语音、图像、文字等方面,但深度学习领域发表的论文中大约70%是关于图像识别的。从2012年的ImageNet竞赛开始,深度学习在图像识别领域发挥出较大威力,在通用图像分类、图像检测、光学字符识别(OCR)、人脸识别等领域,最好的系统都是基于深度学习的。生物识别技术市场规模不断增大。生物识别不仅是目前正进行的如火如荼的行业,同时也是在未来五年具有发展潜力的市场。预计2020年生物识别技术全球市场规模将达到250亿美元。国内生物识别技术市场规模有望从2015年100亿元上升至2020年的300亿元。2013年的统计数据显示,人脸识别占比23%。同时国际生物识别小组于2009年的研究结果表明指纹识别占据生物识别的50%市场,人脸识别紧随其后占据13%的份额。预计到2020年,人脸识别市场空间预计超过40亿元人民币。

语音逐渐成为人机交互的新范式,产品及商业模式成为盈利的关键。过去200年左右时间里,基本的人机交互形式不断进化,在过去的75年当中几乎每隔10年,交互方式就有一个大的创新,现在语音已成为人机交互的新范式。语音技术逐步通用化、基础化,预计未来将面临免费提供的局面。通用算法技术成为免费平台的趋势已经呈现,行业需要商业模式的创新,如何将技术转换成产品及流量、数据等,才是真正实现盈利的关键。

技术进步与市场需求推动语音识别快速发展。狭义的语音识别就是让机器能够明白你说的是什么,广义的语音识别是机器不仅能理解语音含义,而且能把语音转化为文字、另一种语言或者命令。语音识别能够在社交娱乐、搜索、虚拟机器人中大规模应用主要得益于以下两个原因。其一是技术进步:语音识别算法模型的改进及训练效果的提升使得语音识别错误率不断降低。其二是市场需求:个人消费层面的社交娱乐需求催化行业热情,作为重要的人机交互方式应用场景广阔。

语音识别效果不断提升,国内语音识别与合成研究领先国际。自2009年把深度神经网络用于语音识别研究,相关研究突飞猛进,这一事件重新点燃了对语音识别的热情。2010年深度神经网络DCNN使语音识别错误率降低了20%,2011年微软用DCNN彻底改变了语音识别原有技术框架,2012年又公开演示了其全自动同声传译系统。国内,科大讯飞是语音识别研究的龙头,公司改进了RNN模型,使语音识别效果获得40%的性能提升。公司于2016年在国际重要比赛CHiME中包揽3项冠军,并在2017年语音合成大赛中获得第一名。

语音识别技术逐步开放,数据及场景成为竞争关键。截至2017年3季度,科大讯飞自身的开放平台累计终端数增长87%至15.9亿,第三方创业团队增长123%到45万,日均使用次数增长56%到40亿次。开放平台的大数据广告业务继续保持快速增长,前3季度收入同比增长241%。从国际大型互联网企业角度看,2017年3月,谷歌和亚马逊先后宣布旗下的语音技术对大众开放。国内,腾讯和阿里已在早前先后开放其语音平台,就在2017年11月30日,百度宣布语音技术全系列接口永久免费开放,为平台用户提供语音识别、语音合成、语音唤醒多平台SDK等。目前语音识别正在逐步成为开放平台,未来从语音输入端获取数据并基于具体场景的行业应用和商业模式创新成为厂商盈利的关键,如图1-10所示为,苹果公司发布的Siri功能。科大讯飞目前主要精力已经逐步转移到对赛道的开发,包括对接教育、法律、医疗、汽车等行业客户。阿里目前已经在智能电视、智能汽车、智能法庭、智能客服领域应用其语音技术进行行业深度下沉。

图1-10 苹果公司发布的Siri功能

智能制造成为各国转型升级的核心战略。2012年,美国率先提出“先进制造业国家战略计划”,随后德国、日本、英国分别提出“工业4.0”“科技工业联盟”“工业2050战略”。对比各国关于制造业转型升级的战略规划,尽管各个国家侧重有所不同,但均是以智能制造作为其战略核心,不断推动制造业向数字化、网络化、智能化发展。2015年,我国发布制造强国中长期发展战略规划《中国制造2025》,力争通过“三步走”实现制造强国的战略目标:①力争用10年时间,迈入制造强国行列;②到2035年,我国制造业整体达到世界制造强国阵营中等水平;③新中国成立一百年时,制造业大国地位更加巩固,综合实力进入世界制造强国前列。因此,我们认为制造业转型升级是我国长期战略,围绕此战略开展的业务将得到政策、产业、资金等多重支持。车间层的智能化生产是智能制造的核心。根据中国电子技术标准化研究院对智能制造系统的5层分级,一定程度可窥见智能制造的产业链情况,主要包括设备层、控制层、车间层、企业层、协同层。①设备层:是制造的物质技术基础,它包括传感器、仪器仪表、条码、射频识别等。②控制层:包括各类控制系统,如可编程逻辑控制器PLC、监视控制与数据采集系统SCADA(对现场运行设备监视和控制,涉及组态软件、数据传输链路、工业隔离安全网关等)、分布式控制系统DCS、现场总线控制系统FCS(将最底层的现场控制器和现场智能仪表设备互连的实时网络控制系统)等。③车间层:面向工厂和车间的生产管理,包括制造执行系统MES等,其中MES又包括工厂信息管理系统PIMS、先进控制系统APC、历史数据库、计划排产、仓储管理等,是智能制造的核心。④企业层:面向企业的经营管理,包括企业资源计划系统ERP、产品生命周期管理PLM、供应链管理系统SCM、客户关系管理系统CRM等。⑤协同层:体现企业之间的协作过程,它是由产业链上不同企业通过互联网进行全方位的协同和信息分享,实现协同研发、智能生产、精准物流和智能服务等。工业软件和工业互联网平台的发展前景看好。

2022年我国工业大数据有望突破1200亿元,复合增速42%。工业大数据是提升制造智能化水平,推动中国制造业转型升级的关键动力,具体包括企业信息化数据、工业物联网数据,以及外部跨界数据。其中,企业信息化和工业物联网中机器产生的海量时序数据是工业数据的主要来源。工业大数据不仅可以优化现有业务,实现提质增效,而且还有望推动企业业务定位和盈利模式发生重大改变,向个性化定制、智能化生产、网络化协同、服务化延伸等智能化场景转型。预计到2022年,中国工业大数据市场规模有望突破1200亿元,年复合增速42%。

我国MES 2018年市场规模有望突破百亿元,未来年复合增速约40%。工业软件主要包括运营管理类(ERP、CRM等)、设计研发类(PLM、CAD等)、生产控制类(MES等),我们认为MES软件未来发展弹性更大。2014年全球MES行业市场规模约为416亿元,过去5年保持年均21.65%的高速增长,到2020年,MES行业市场规模有望达到931亿元,未来保持年均18%的复合增速。而MES在中国的需求更为旺盛,2014年我国MES行业市场规模约为26亿元,同比增长24%,预计到2018年市场规模将达到100亿元,未来平均增幅保持在40%左右,远高于国际市场增速(预计2015—2020年全球复合增速13.6%)。

2025年形成3~5个国家级工业互联网平台。被誉为工业互联网平台操作系统的PaaS正逐渐成为工业互联网发展的聚焦点和关键突破口,目前由于平台标准体系尚未建立,商业模式尚不清晰,因此商业价值仍处于探索阶段。2017年11月,国务院发布《关于深化“互联网+先进制造业”发展工业互联网的指导意见》,强调到2020年,工业互联网平台体系初步形成,支持建设10个左右跨行业、跨领域平台,建成一批支撑企业数字化、网络化、智能化转型的企业级平台;到2025年,工业互联网平台体系基本完善,形成3~5个具有国际竞争力的工业互联网平台。可以预见,未来工业互联网平台发展前景广阔。

自动驾驶掌控权主要在算法。自动驾驶是一个宽泛的概念,涵盖智能辅助驾驶系统(ADAS)和无人驾驶。智能辅助驾驶系统中驾驶员可以对汽车进行控制,其智能体现在对环境的感知,并适时预警(如车道偏离预警)。无人驾驶是自动驾驶发展的高级阶段,除了对环境的智能感知,还加入了规划、决策和控制。智能辅助驾驶系统中最终的决策和控制权掌握在驾驶员手中,而无人驾驶对汽车的控制权由计算机掌握。无人驾驶从技术角度来看可以分为感知、决策和执行。其中决策层主要包括计算平台(芯片)及算法。目前在算法方面深度学习成为主流。深度学习强调的是端到端的学习,其优势在于对于非结构化数据的识别、判断和分类,并把复杂信息精简地表达出来。因此深度学习对感知有非常强的能力,可以理解各种复杂图像的含义,十分适合自动驾驶复杂的环境。深度学习通过与增强学习相结合,可以将感知和执行紧密地结合在一起,构成一个完整的自动驾驶系统。

智能感知系统和智能控制系统是产业链核心环节。无人驾驶汽车主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶,主要包括智能感知系统和智能控制系统。智能感知系统包括环境感知、速度感知等。智能控制系统主要包括自动泊车、自动刹车、智能巡航等。无人驾驶涉及的硬件核心是传感器,传感器包括激光测距仪、摄像头等。软件核心就是高精度地图,无人驾驶汽车需要将实时将感知到的数据与地图数据比较,来识别周边环境。

互联网公司与传统车厂引领智能驾驶浪潮。参与无人驾驶盛宴的企业可以分为两类,一类是互联网企业如百度、谷歌,一步到位直接切入到全自动驾驶,另一类是传统的汽车企业,从辅助驾驶一步步升级。随着CPU/GPU并行计算能力的提升,海量地图数据为人工智能的训练提供基础,加之高速网络、云计算的结合,汽车智能化已经进入了实质性阶段。

智能驾驶市场渗透率有望持续提升。2015年5月,国务院印发《中国制造2025》,将无人驾驶汽车作为汽车产业未来转型升级的重要方向之一。“十三五”规划也提出要积极发展智能网联汽车的目标,相关法律法规已经提上日程。智能汽车市场增长空间可期,中国智能驾驶产业市场规模预计2020年有望达到1214亿元人民币。从渗透率看,截至2015年,智能驾驶乘用车渗透率已经达到15%左右,未来预计有望进一步实现提升,并带动车载软硬件设施产业的发展。

人工智能开始用于医疗诊断。医疗诊断领域最重要的是药品、病情特征、病人情况数据信息。对于机器训练而言,需要海量的数据信息才能让机器学会获得医疗诊断的能力。辅助诊断领域的代表是IBM沃森系统。截至2015年5月,沃森已收录了肿瘤学研究领域的42种医学期刊、临床试验的60多万条医疗证据和200万页文本资料。之后,IBM“沃森健康部门”又陆续与数家医院、诊所公司、14家肿瘤研究中心、连锁药品零售商展开了深度合作。通过沃森,帮助护士快速完成复杂的病历检索;审查医疗服务提供者的医疗请求;为癌症患者诊断配药,为医药专家提供更多疾病考量因素等。

图像识别与庞大的医疗影像数据为智能医疗影像奠定基础。目前医疗数据中有超过90%来自医疗影像,这些数据大多要进行人工分析,如果能够运用算法自动分析影像,再将影像与其他病例记录进行对比,就能极大地减少医学误诊,帮助做出准确诊断。医疗影像智能分析是指运用人工智能技术识别及分析医疗影像,帮助医生定位病症分析病情,辅助做出诊断。人工智能与医疗影像的结合最关键有3个点:第一是数据,第二是算法,第三是临床的证明,其中数据与算法是基础。数据方面,全国X光设备保有量超过3万台,CT设备保有量超过2万台,基层医院已大部分配备了DR等设备。图像识别是深度学习等人工智能技术最先突破的领域,已经广泛用于图片搜索、自动驾驶、人脸识别。由于数据与算法已经具备,在医疗健康领域,医疗影像有望成为人工智能与医疗结合中,最可能先发展起来的领域。

物联网在医疗领域的市场价值逐年增加。到2020年,物联网在医疗领域的市场价值有望达到1630亿美元,2015年到2020年间复合增长率为38.1%,预计医疗机构对于医疗信息化的投入会随着IT预算的总体规模增加而增加。