深度解读华为云AI战略:如何靠AI赢得下一个十年?
10月10日开幕的2018华为全联接大会(HUAWEI CONNECT 2018)现场,华为轮值董事长徐直军详细阐述了华为的AI战略,并推出了全栈全场景的AI解决方案,正式向整个AI业界宣告华为入场……
总体来说,华为人工智能的发展战略是以持续投资基础研究和AI人才培养,打造全栈全场景AI解决方案和开放全球生态为基础。
所谓全栈,是从纵向的技术功能视角来看,包括芯片、芯片使能、训练和推理框架、应用使能在内的全堆栈方案。所谓全场景,是指从横向来看,华为的AI解决方案可以用于包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。
当然,华为AI全栈全场景,离不开华为云。同时,华为云BU虽然成立时间不长,但实际上是站在巨人的肩膀上前进——目前来看华为过去30年所积累的无论是软硬件技术的能力,还是基于运营商在网络方面的经验,及终端消费者客户的经验,对华为云BU来说都是一个很好的积淀。
华为云BU EI服务产品部总经理贾永利表示:“华为云从成立第一天就是带着全栈整合优势出现的。”以全栈技术为核心武器,在过去一年里,聚焦企业端的华为云在8大行业、200多个项目中,将行业智慧不断与AI进行融合,把AI能力扩展到了交通、物流、制造等无限场景。而这一切的支撑来自华为云贯通软硬件各个层面的技术创新。
华为云AI能力全面升级
基于新发布的昇腾芯片,华为云从底层算力到软件框架再到系统级服务进行了一次AI大升级,不仅进一步补齐AI软件体系,也为行业AI更好地落地打下了基础。
第一层进化:底层算力扩展
算力、算法、数据是当前AI的三大基石,目前行业中产生的大量数据在清洗、标注、训练上仍然需要消耗较长时间,因此算力仍是稀缺资源。
而算力的基础又在于芯片,华为在HC上发布的两款AI芯片昇腾910和昇腾310不出意料地成为热点话题。
这两款芯片均采用华为独创的“达芬奇架构”。
昇腾910属于Max系列,主打云场景的超高算力,半精度算力达到256 TFLOPS,比目前最强的NVIDIA V100的125T还高出一倍,是目前全球已经发布的单芯片计算力最大的AI芯片,采用7nm工艺,最大功耗350W,将在明年第二季度上市。
昇腾310属于Mini系列,采用12nm工艺,兼具高效计算和低功耗,算力可达16TFLOPS,最大功耗仅8瓦,集成了16通道全高清视频解码器。这既是目前面向边缘计算场景最强算力的SoC,也可以应用在云上。
我们都知道,中国的云厂商还没有做芯片的能力,在不少互联网厂商AI芯片还仅存在于PPT里的情况下,华为已经将昇腾310用于华为云,使AI的推理能力成为高端虚拟机的标配,用户可以获得16倍的推理算力。
如果觉得这个算力还不够,华为云还会在AI增强型的虚拟机和容器中,提供高达512T算力的服务;针对训练场景,华为云还将提供ECS和裸金属形态最高2PFLOP的计算能力。
除了H6服务,华为云还提供Ai1、At1、Physical.At1服务,全部基于昇腾AI芯片,有了这一系列云服务,华为云将全面进入AI新时代。
当然,正如华为云BU EI服务产品部总经理贾永利所说的:“算力肯定是华为的一个显著竞争力,但是我不认为它是华为云做人工智能唯一的竞争优势,而是其中一个优势。”
第二层进化:全平台统一训练和推理框架
在算力之上,华为还提出了完整的软件堆栈,以实现一次性算子开发、一致的开发和调试体验。
目前大部分AI算法都需要在云端训练,进而在终端部署。但大部分云厂商都不提供终端芯片售卖,芯片厂商也不提供云计算服务,所以,一般AI应用在训练跟部署之间一定会经过一次以上的底层计算环境迁移——对企业而言这是一个无用的“内耗”,既耗费人力物力,又浪费时间。
这对于开发者本人而言也是件麻烦事,因为转换底层环境涉及到很多算法跟算子的调校,很容易出现明明在云上跑得好好的,一换计算环境应用效率就跌。因此,华为希望能够用同一套框架,打通华为公有云、私有云、边缘计算、手机等不同AI应用场景,让AI应用只需要一次调校,从而大大简化部署工作。
算子库CANN能够兼具最优开发算力和算子性能,其中TensorEngine实现了统一的DSL接口、自动算子优化、自动算子生成以及自动算子调优功能。值得一提的是,华为在TensorEngine中采用了陈天奇等人提出的TVM。以Reduce_sum开发案例为例,使用CANN能将开发效率提升三倍。
Mindspore则是华为提出的统一训练和推理的AI框架,将于明年第二季度正式对外发布。Mindspore支持深度学习、强化学习、增强学习,能够灵活适应不同资源预算的部署环境,可以在云、边缘、端提供一致的开发体验,同时支持所有主流机器学习和深度学习框架(包括TensorFlow、PyTorch、PaddlePaddle、Keras、ONNX、MXNet等)。在发布会上,华为还介绍了MindSpore设备端深度学习框架,大小只有2MB不到,运行时占用内存不到50MB。
CANN和Mindspore共同构成了“全栈全场景”的核心基础框架。
第三层进化:一站式AI应用开发平台
除了稀缺且昂贵的算力,阻碍AI产业规模化发展的根本原因还有一个,就是开发效率低。标注、训练、部署整个过程不仅费时,还极其费力。为了解决这个问题,华为推出了普惠AI开发平台ModelArts。
ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成、模型调优,及端-边-云模型按需部署能力。
同时,ModelArts能够在AI开发全生命周期中,从原始数据、标注数据、训练作业、算法、模型、推理服务等,提供全流程可视化管理。支持千万级模型、数据集以及服务等对象的管理,无需人工干预,自动生成溯源图,选择任一模型就可以找到对应的数据集、参数、模型部署在哪里。其中最实用的训练断点接续功能、训练结果比对功能,在华为内部开发者中也颇受欢迎。
简单来说,ModelArts的特点是“四快”:
• 数据准备快
数据标注与准备对于很多AI开发者来说是最为痛苦的一项工作。曾有开发者吐槽,光是准备数据就要占掉整体开发时间的70%。ModelArts内置AI数据框架,以AI的机制来治理数据,用迭代训练来解决标注的数据量问题。尤其在数据量庞大的场景中,带来的直接效益是数据标注与准备效率达百倍的提升。
• 上手快
ModelArts具备自动学习功能,支持模型的自动设计与自动调参等,能够帮助开发者提升开发效率、快速上手。
对于有经验的开发者,可以在ModelArts上自行编写并导入算法代码,核心组件MoXing SDK支持丰富的模型库、优化算法和各类工具库;支持自动超参数调优;包含训练-验证-预测-模型导出的整套框架;开发者只需要编写一套代码就能自动实现单机及分布式化。
对于编程苦手却想快速生成模型的AI初学者,ModelArts也预置了能够覆盖大部分常用应用场景的算法模型(如RestNet_50、Faster_RCNN、SegNet_VGG_16等,未来还将上线更多算法模型),所有预置模型的基于开源数据集训练,模型精度领先。只需配置数据路径/日志输出路径和Hyper Parameter自动选择设置就可以一键启动训练。
• 训练快
针对模型训练耗时长的挑战,ModelArts通过各类优化技术,尤其是级联式混合并行技术,在同样的模型、数据集和同等硬件资源情况下,可以使模型训练耗时降低一半。
在大量数据需要同步的情况下,大规模集群做分布式仍是当前的业界难题。目前大数据集分布式训练在行业内的最好成绩是fast.ai团队在亚马逊云上实现的,通过128颗GPU实例同时运行,可在18分钟内完成训练,而华为云EI可以用同样的节点在12分钟以内完成同样的任务。
• 上线快
在AI规模化落地的场景下,模型部署会非常复杂。例如在智慧交通领域,以下场景非常常见——更新后的模型,需要一次性同时部署到各种不同规格、不同厂商的摄像头上,这是一项非常耗时、费力的巨大工程。
对于此类场景,ModelArts可以一键推送模型到所有边缘、端的设备上,云上的部署还支持在线和批量推理,满足大并发和分布式等多种场景需求。
ModelArts之外,华为还推出了专为视觉智能打造的开发工具HiLens。
HiLens由一个具备AI能力的摄像机和云上开发平台组成,搭载昇腾310,提供了强大的算力和存储空间,可以满足较大的图像处理运算需求,甚至实现1秒百帧的处理能力及毫秒级人脸检测。
同时,HiLens内置的轻量级容器,具备资源占用少、降低网络带宽、下载启动时间快等特性,因此也降低了系统实时处理的难度。
另外,HiLens为个人开发者、企业和设备生产厂商提供了一整套安全可靠的一站式技能开发、部署和管理服务,可无缝对接客户行业设备,增加业务开发效率、提升生产力。
HiLens预置了丰富的模型和Skill能力,其中Skill由控制代码和模型组成,AI模型由ModelArts训练,训练后可以封装为Skill开发基础组件,简化Skill开发。通过HiLens开发生成的Skill可以直接部署到有昇腾芯片的任何端侧设备中。同时HiLens也兼容其他主流框架训练的模型,在部署到端侧设备的过程中会将模型自动转换为MindSpore模型,以提供最优性能表现。
在以往AI视觉场景落地的过程中,通常某种处理方法在研究和开发中表现良好,但在复杂多变的应用环境中,却不时地出现问题。例如机器视觉检测的人脸识别系统,在目标配合时识别率可高达95% 以上,但在实际监控环境下,视觉检测识别率就会大大下降。HiLens提供在线利用每个设备独有的部署环境数据,在线训练针对设备的个性化模型,提高模型精度,极大增强用户体验。
ModelArts和HiLens在大会发布当天均已上线华为云EI平台。
除了这两个面向开发者的大杀器,华为云EI的全家桶相比去年刚推出时也变得更加丰富了。
截至目前,华为云EI已经上线45款服务142类功能,在解决方案层面,针对不同人群,华为云EI提供通用API、高阶API以及预集成解决方案三种不同类型服务。无论是数据科学家或数据算法工程师、IT开发人员,甚至是没有AI背景的业务人员,都可以在华为云上找到解决绝大多数场景问题的解决方案。
可以看出,华为云想要打造的是打通底层硬件到上层软件应用、开发者与行业两手抓的全方位AI生态体系,并且不是仅仅停留在想法、战略或口号层面,这些都是华为云已经做了和继续在做的事情。
进击的EI城市智能体
在与大会同期开放的展台上,华为AI的全场景全栈解决方案大部分都已经就位。上文提到的从全栈维度赋能开发者的ModelArts、HiLens等均有亮相,吸引了大量开发者的试用咨询。基于华为Ascend(昇腾)系列芯片和业界主流异构计算部件的Atlas智能计算平台,通过模块、板卡、小站、一体机等丰富的产品形态,已经实现了将AI能力带入云、边、端等全场景。
与此同时,华为云EI行业解决方案的发布和展示也同步进行,应用案例涵盖了公共事业、交通、金融、物流、教育、零售等众多行业,包括三大运营商、微软、英特尔,以及专攻行业智慧的诸多企业都汇聚现场展示了他们借助华为云EI为各自业务带来的智能化变革。
去年9月,华为第二届全联接大会上,华为云首次推出EI企业智能,主要包括基础平台服务、通用服务(大数据、视觉认知、语音语义)、行业场景解决方案三大类;推出的当年,华为云EI企业智能迅速攻城略地,把智能水务、智能制造、智能电力、智能交通、智能金融、智能零售六大行业解决方案推向市场。
今年6月,华为集EI企业智能、华为云全栈能力大成于一身,推出EI交通智能体和EI工业智能体。华为云EI智能体不仅基于历史的统计,更是实时感知、互动和优化,实现真正的智能。今年的全连接大会正式发布了华为云EI城市智能体,EI智能体进一步升级。
针对行业智慧与AI结合,贾永利表示:“华为云EI正从海量重复、专家经验及多域协同等三大场景助力行业升级,实现效率提升、专业传承和突破极限。”
其中,海量重复场景主要是指在企业实践中寻找高频出现的重复场景,例如华为云EI深度学习和图像搜索服务,支持中国图库每日数十万新增版权图片和数千万网络图片的自动入库和交叉检查,准确率达99%。
专家经验场景是指通过融入专家积累和经验(行业智慧),使AI达到专家助手水平。例如,第三方医学检验机构金域医学与华为云EI合作,在宫颈癌病理检测方面取得阶段性突破,敏感度(真阳性率)超过99%,特异度(真阴性率)超过80%。
对于涉及参数众多、依赖关系复杂、维度高的异常复杂场景——多域协同场景,比如工业生产、城市治理等,人工智能技术也为这些领域带来了新思路、新方法。
华为云EI城市智能体就是多域协同场景的一个典型例子:在数字孪生的基础上,通过AI协同云、大数据、边缘计算、物联网等多种技术,实现从数据产生到数据分析、数据闭环的完整系统;通过数字世界强大的计算力,驱动物理世界更加智能。
目前,EI城市智能体在交通、应急、环保、水务、水利、燃气等场景持续探索高效的资源调度与配置,以解决更多城市难题,在效率提升、能耗降低、绿色环保等方面均有实际落地案例。
来自深圳市公安局交通警察局的李强处长就用几组实际数字分享了采用华为云EI交通智能体为业务带来的显著改变:
• 华为云EI城市智能体帮助深圳交警在2018年上半年通过部署开车打手机、未系安全带、刷脸执法等AI应用,深圳交警执法量增加了15%;
• 深圳交警正在深圳龙岗坂田43个路口部署EI交通智能体TrafficGo解决方案,试点在线信号配时,关键路口等待时间平均缩短17.7%;
• 构建新型运营指挥中心,深圳交警“铁骑专项行动”应急反应时间缩短67%。
还有一个离我们更近的案例,来自深圳机场。当前深圳机场每天航班起降超过1000架次,靠桥率约为70% 左右,每天客流量12万人。通过“+AI”,同时进行基础设施的智能化改造,从传统的甘特图手工安排计划到AI的自动化,能够使靠桥率提升到80%。而这10% 的提升,意味着每年将有400万人不用坐摆渡车去远机位。与此同时,深圳机场正在结合人脸识别实现机场一站式通关,目标是让旅客的排队时间减少15%。
Cloud 2.0时代,且看华为云
未来,上云会成为新常态,云将是多数企业探索人工智能的唯一环境,因为人工智能需要海量的计算资源和存储空间。“云+人工智能”才是接下来推动产业变革的动力。
华为云BU CTO张宇昕认为,Cloud2.0时代的来临,相对于过去十几年互联网的发展有显著的不同。
第一,企业开始上云了,尤其是企业的关键应用开始上云了。过去,云仅应用于个人娱乐和消费领域,而Cloud2.0时代,云已经进入了生产领域。
第二,传统的互联网应用出现瓶颈。过去,互联网应用主要靠做流量红利,谁能获得更多的流量谁就能发展壮大。但是流量红利终究会有天花板,而且流量红利的模式很容易被复制。Cloud2.0时代新的互联网业务的核心从流量红利变成了数据红利。
张宇昕认为,在Cloud1.0时代,解决客户难题的技术关键词是分布式、自动化、大规模弹性,而在Cloud 2.0时代,光有这些技术已经远远不够。企业应用和互联网应用除了要求安全可靠之外,还有对智能化的普遍需求,这时拼的就是人工智能、大数据,还有技术和全系统架构的实力。
正如我们在这次HC大会上所看到的,从芯片、硬件、整个数据中心开始,到基础云服务,再到应用开发的平台、应用的开发部署运维平台和工具框架,直到AI的基础模型算法和面向领域的行业解决方案,华为云已经在垂直轴向上实现了诸多技术突破,足以应对未来的企业智能化挑战。
Cloud2.0时代,且看华为云还会带给我们哪些惊喜。