本书导读
一个半世纪前,狄更斯在其所著的《双城记》中有一句名言:这是一个最好的时代,也是一个最坏的时代;这是一个智慧的年代,也是一个愚蠢的年代;这是一个信任的时代,也是一个怀疑的时代。在新一轮科技革命和产业变革的今天,这句名言仍然应景。
人类社会的发展史,也是一部科技革命和产业变革的发展史。18世纪60年代到19世纪中期,蒸汽轮机的发明和使用,标志着人类社会开始进入蒸汽时代(第一次工业革命);19世纪下半叶到20世纪初,电力的发明和使用,标志着人类社会开始进入电气时代(第二次工业革命);20世纪后半期,计算机及信息技术的发展,标志着人类社会开始进入信息时代(第三次工业革命);近年来,随着大数据、云计算、人工智能、5G、物联网、区块链等新一代信息技术的发展与应用,人类社会开始进入人工智能时代。
人工智能时代以"人工智能"的发展与应用为主要驱动力之一。
人工智能
世人对人工智能(artificial intelligence,AI)的认知,大多是从2016年3月谷歌的阿尔法围棋(AlphaGo)击败围棋九段李世石开始的。短短的几年中,人工智能不断地进入一个又一个领域,改变着我们的工作和生活。如今,智能推荐、智能客服、智能搜索、智能导航、智能问诊、无人驾驶、无人机等,人工智能的应用场景俯拾皆是。
事实上,早在20世纪50年代,人工智能就开始发展萌芽了。
1950年,英国数学家、逻辑学家艾伦·图灵(Alan Turing)发表了一篇划时代的论文《计算机与智能》,文中提出了著名的图灵测试(Turing test)构想,即如果一台机器能够与人类展开对话(通过电传设备)而不被辨别出其机器身份,那么称这台机器具有智能;随后,图灵又发表了论文《机器能思考吗》。两篇划时代的论文及后来的图灵测试,强有力地证明了一个判断,那就是机器具有智能的可能性,并对其后的机器智能发展做了大胆预测。正因为如此,艾伦·图灵被称为"人工智能之父"。
1956年8月,在美国达特茅斯学院,约翰·麦卡锡(John McCarthy,LISP语言创始人)、马文·闵斯基(Marvin Minsky,人工智能与认知学专家)、克劳德·香农(Claude Shannon,信息论创始人)、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主)等科学家聚在一起,讨论是否可用机器来模仿人类学习以及其他方面的智能等问题。两个月的讨论虽然没能达成共识,但他们却为会议内容起了一个名字——人工智能。
时至今日,无论是学界还是业界,关于人工智能并没有一个统一的定义,但大体上形成了以下共识:人工智能是计算机科学的一个广泛分支,试图让机器模拟人类的智能,以构建通常需要人类智能才能够实施执行任务的智能机器。
其中,人工智能算法模型的训练和建立是核心。由于人工智能算法模型的训练和建立取决于算量(数据)、算法和算力的共同发展,因此时隔六十年后,人工智能才开始为大众所认知。
人工智能算法模型
人工智能算法模型的主要工作是将经验模型化、模型算法化、算法代码化和代码软件化。其中最为关键的两步是"经验模型化"和"模型算法化"。
所谓"经验模型化",就是根据事物变化的历史经验总结出规律性的逻辑机理。例如,我们可以根据某一商品的历史销售数据,总结出某一地区该商品季节性的需求变化规律;可以根据该商品在不同地区的历史销售数据,分析不同地区对该商品的需求变化差异;进而分析出影响这些需求变化规律和需求变化差异的主要因素有哪些、不同因素的影响程度等,并可对未来的需求进行预测,以调整销售计划,或根据这些经验,调整或改进针对不同地区、不同季节的产品功能(即对地区或季节进行画像,以调整产品策略,进行精准营销)。前文提到的智能推荐、智能客服、智能搜索、智能导航、智能问诊,大都是基于这样的思路,只不过所依赖的"历史经验"来自多方面,如来自某一类群体、某一类行业,甚至来自整个社会的"历史经验"总结。显然,这些"历史经验"需要表示成计算机可以处理的数据格式,这些数据就是"大数据"。
根据常识,在将经验总结成模型时,所依赖的数据量越大,模型就会越准确。反过来,如果想得到更为准确的经验模型,就需要收集更多的数据,即需要大数据进行支持。业界流行一句话:大数据是人工智能算法模型的"原料"。通常,也把大数据称为算量。
近年来,随着计算机通信技术和互联网技术的飞速发展,大数据得到前所未有的发展,包括大数据的产生、采集、存储和计算等大数据技术、大数据产业以及大数据思维(详见第1章)。大数据的发展为人工智能算法模型的构建提供了必要的原料,是人工智能发展的先决条件。
有了大数据,人工智能便有了原料。但要从这些原料中总结"经验"(即知识),并且将这些"经验"用于实际应用(如分析预测或辅助决策,类似前文提到的销售案例),离不开"模型算法化"这一关键步骤。
通常,大数据本身(原始数据)是没有用的,必须经过一定的处理后才能派上用场。这些数据来自多源,种类繁多,错综复杂,既有结构化数据(如关系型数据库与表格),也有非结构化数据(如Word、PDF、PPT、Excel,各种格式的图片、视频等),还有半结构化数据(如日志文件、XML文档、JSON文档、Email等)。虽然这些数据携带很多信息,但需要经过一定的梳理和清洗,才能形成有用的"信息"(information),这些信息里包含多种规律,需要借助智能算法进行挖掘才能提炼成"知识"(knowledge),然后需要把这些知识应用于问题解决和决策支持等实践,这便产生了"智慧"(intelligence)。
因此,所谓"模型算法化"就是利用大数据技术从各类数据中提炼、抽取出不同维度特征(即形成结构化数据,详见第1章特征工程),并建立这些不同维度特征与"经验"(即规律知识)之间的关系表达式(通常为数据公式)。通常这一过程分为两个步骤:使用一部分大数据进行"训练",即对一部分历史大数据进行"拟合",初步得到一个关系表达式;再使用另一部分大数据进行"测试",以修正和完善该关系表达式。直到测试结果达到一定的性能要求(如准确率达到95%以上),就可将这个关系表达式固定下来,再通过后续的"算法代码化""代码软件化"过程将模型嵌入实际应用中,从而让机器(计算机软件或计算机硬件)具有类似人脑的智能并代替人们进行预测或决策。可见,从大数据中寻找"关系表达式"是"模型算法化"的核心工程。
人工智能算法中,大部分的关系表达式是可以表示成数学公式形式的。其中,有众多现存的经典机器学习算法(也称为传统机器学习算法)可供参考使用,如常见的支持向量机、人工神经网络、逻辑回归、朴素贝叶斯、决策树、K-均值、K-最近邻、随机森林、线性回归和降维等,或用于解决分类问题,或用于解决回归问题(详见第2章机器学习)。对于较为复杂的系统(如数据特征维度非常多的情况),可将上述经典算法进行集成组合,构成集成算法模型;也可采用基于神经网络模型的深度学习算法进行训练与测试,这取决于实际应用效果。近年来,深度学习逐渐发展成为机器学习中的一个重要分支。
算力及其发展
算力是人工智能的三要素之一,已成为人工智能产业化进一步发展的关键。算力,就是计算能力,算力的大小代表对数字化信息处理(信息的获取、存储、计算和传输)能力的强弱。从原始社会的手动式计算到古代的机械式计算、近现代的电子计算,再到如今的数字计算,算力代表着人类对数据的处理能力,也代表着人类智慧的发展水平。
大数据的飞速发展对算力提出了较高的要求。早在2017年,国际数据公司IDC公布的《数据时代2025》报告显示,2025年人类的大数据量将达到163ZB; 2020年国际消费类电子产品展览会上,英特尔预测2025年全球数据量将达175ZB(1ZB=1024EB, 1EB=1024PB, 1PB=1024TB, 1TB=1024GB),相当于65亿年时长的高清视频内容。而据IDC统计,近10年来全球算力增长明显滞后于数据增长,也就是说,全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。
多年来,CPU(center processing unit,中央处理单元/器)一直是大多数计算机中唯一的计算单元。尽管"摩尔定律"(即每18个月在价格不变的情况下,计算机硬件性能提高一倍)一直都存在,但受制于CPU固有的计算模式,CPU硬件性能的提升速度远远赶不上数据增长的速度。
为了应对这种困局,人们在物理上将上千台、上万台甚至上百万台计算机"集群"起来,采用分布式计算,形成了"数据中心"解决方案。接着,人们采用虚拟化技术,把这些物理集群的计算机资源(包括存储、网络和计算等资源)在逻辑上进行"切片""切时"以应对各种动态变化需求,这就相对地让分布式计算能力得以倍增。更进一步,将虚拟化技术设计成可根据业务需求进行集群资源自动调度,这便是"云计算"的背后机理。
大数据的增长实在太快,云计算仍然存在瓶颈。为此,"端边云"计算思路应运而生。它将计算任务分解到数据产生的源端、数据采集的边缘,以缓解云计算的压力。因为实际应用中,尽管未来接入5G网络的物联网设备产生的数据量会呈指数级增长,但大多数数据没有应用价值,这样就可以通过端边计算过滤掉。例如,麦肯锡公司的一项研究发现,一个海上石油钻井平台可从3万个传感器中产生数据,但只有不到1%的数据可用于做出决策。
同时,为了应对人工智能算法的时间复杂度,提高算法效率,可将各种加速计算,如图形处理、人工智能、深度学习和大数据分析等应用专门分配给GPU(graphics processing unit,图形处理单元/器)处理,以缓解CPU的计算压力。无独有偶,近两年出现的DPU(data processing unit,数据处理单元/器),是继CPU和GPU后的第三个计算单元,主要负责数据中心安全、网络、存储等网络基础的运行管理计算,高性能计算,以及人工智能等专用任务的加速处理。CPU、GPU和DPU分工协作,共同担负起面向大数据时代的数据中心的计算任务。
"算力时代"已经到来。一方面,算力有望替代热力、电力,成为拉动数字经济向前发展的新动能、新引擎;另一方面,算力正在成为影响国家综合实力和国际话语权的关键要素,国与国的核心竞争力正在聚焦于以计算速度、计算方法、通信能力、存储能力为代表的算力,未来谁掌握先进的算力,谁就掌握了发展的主动权。基于此,2022年2月17日,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等启动国家算力枢纽节点的建设,并规划了10个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,"东数西算"工程正式全面启动。
人工智能的展望
如今,人们的生活、学习、工作等都融合在一个以智能手机为中心的生态体系之中,移动支付、移动社交、移动办公、移动购物等,不一而足。国家和政府借助大数据、云计算、5G网络、区块链等技术催生出"数字政府"等新的政务服务模式("一网通办")和社会治理模式("一网统管");企业的生产管理和市场营销开始拥抱各种数据技术,通过工业互联网和产业互联网的新业态、新模式加速数字化转型,以促进我国"数字经济"的发展;"数字民生"让人们充分享受智慧医疗、智慧家居、智慧交通、智慧出行带来的便利;"智慧城市"和"城市大脑"让百姓生活在一个人工智能无处不在的智慧社区、智慧城市之中;无人机、GPS定位等已应用于智慧农业、智慧物流等各种场景之中……
在这一切的数字化技术应用过程中,人工智能如影随形。
继2015年8月国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号)后,2017年7月,国务院印发了《新一代人工智能发展规划》(国发〔2017〕35号)。我国从此开启了一个"数智化"时代。
人工智能已成为国际竞争的新焦点和经济发展的新引擎。人工智能在给社会建设带来新机遇的同时,因其发展的不确定性也给社会带来了新挑战。人工智能是影响面极广的颠覆性技术,可能带来改变就业结构、冲击法律与社会伦理、侵犯个人隐私、挑战国际关系准则等问题,将对政府管理、经济安全、社会稳定乃至全球治理产生深远影响。在大力发展人工智能的同时,必须高度重视因此带来的安全风险挑战,加强前瞻预防与约束引导,最大限度地降低风险,确保人工智能安全、可靠、可控地发展。需要在《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》基础上,进一步制定"算法问责法案",明确算法开发者资格评估(包括开发者的社会信用、价值观和社会责任,流程管控、安全制度以及专业程度)、技术方案评估(如算法模型的人类伦理规范、算法设计的可解释性等)、风险影响评估(如数据和信息安全影响、算法责任等)、透明监管条例(能穿透"算法歧视"和"算法黑箱"进行审查)等具体流程和核心要点,以及各主体的法律责任、社会义务和法律界限。同时需要依法建立多层级监管体系,加强各个环节的透明监管。