联邦学习实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

Preface
前言

人工智能和大数据技术使我们对未来的社会产生了很多期待,但同时这些高端技术的发展瓶颈也越来越清晰。我们知道,AI的力量来自大数据,但我们在日常工作和生活中所面临的实际场景往往只有小数据。在法律这个应用领域,获取一个完整的案例样本往往需要很多的时间和资源:每一个案子的处理要经过很多步骤,从立案到结案可能需要几年的时间;毫无疑问,如此积累起来的完整案件样本数量非常少。金融领域也是如此,比如积累的洗钱案例数量可能非常有限,在风控建模中,如果把反洗钱案例看成正样例,那么这样的正样例数据非常珍贵。在医疗领域,CT胸片的自动检验和诊断需要专业医生来标注数据,但医生的时间十分宝贵,因此对于罕见疾病,能获得的病例数据更是少之又少。这些例子说明,在现实中能获取的往往是小数据。如果把这个情况延展开来,我们会看到,在人工智能的主战场,如无人车、智能终端等,每一台设备上的数据也是有限的,每一个数据集都不足以建立可用的机器学习模型。

那么,我们可不可以把这些数据汇聚起来形成大数据呢?长久以来,工业界聚集大数据的办法就是在云端上传众多终端的数据集,形成大数据。我们熟知的包括图像训练数据集如ImageNet,语音训练数据集如Common Voice,自然语言训练数据集如bAbi等。应该说,用这种方式获取的大数据为人工智能的发展开创了很好的先例。

但是,现代社会不仅要有强大的技术,同时对技术的社会责任也有严格的限定。随着人工智能和大数据技术的不断发展,社会和政府也对数据的权益和保护有了逐步完善的监管法律法规。例如,欧盟在2018年施行了《通用数据保护条例》(General Data Protection Regulation,简称GDPR),我国对数据的保护也日趋完善,从国家机关到地方政府,各行各业的数据隐私保护立法日趋完善。所以,一方面人工智能和大数据技术为人类的发展提供了光明的前景和技术保障;另一方面,人类自身的权益保护又限制了数据按照粗放方式进行简单的汇聚。那么,如何在这两者之间找到平衡点,继续推动技术向前发展呢?

在这里,我们给大家讲一个小故事。2018年,本书的作者之一杨强教授在瑞典举办的国际人工智能大会(IJCAI)上遇到了瑞典的一位工业部长,进行了一些问答交流。对于GDPR会不会限制欧洲人工智能的成长这一问题,这位部长的回答是:虽然看上去GDPR会限制人工智能的发展,但是他希望欧洲公司有提出一些满足GDPR的人工智能方案的理想。今天看来,这个想法是非常好的,因为如果真的做到了,人工智能的技术就能够螺旋式上升,掌握这一技术的人就可以走在世界的前列。

我们看到,随着数字经济的发展,数字经济也演变成“数据经济”,其特点是数据本身成为了重要的生产要素,而数据的交易和流通要满足数据监管及保护数据隐私的要求。这个趋势在全世界范围内将形成一个新的数据化潮流,因为不管是政府还是社会,人们对数据隐私的安全保护都是非常在意的。今天,一项新技术正在中国蓬勃发展,这项技术就是联邦学习。

联邦学习的技术产生于上述的社会和法律背景下。联邦学习的目的是,不管在面对单个消费者的to C场景,还是面对企业或机构的to B场景,都希望各自的数据可以不出本地,数据集不为其他人所有,保护用户隐私和数据权益。在这一要求下,数据的价值可以同时得到充分体现。机器学习模型在极小损失的前提下,能够达到和传统数据汇聚几乎一样的效果,并且这个模型能够为所有参与者使用。

不久前,本书的作者团队出版了世界第一本联邦学习的书籍,包括中文和英文版。在该书中,我们做了一个形象的比喻来描述联邦学习的思想:把联邦学习训练模型的过程类比成喂养一只羊。过去的做法是把草放到羊圈里喂养,就像把数据聚合到中心服务器来建立机器学习模型。但出于隐私利益的考虑,草不能离开本地。为了满足这一要求,且让羊持续得到喂养,我们可以带着羊去访问各个草场,同时保证在这个过程中不泄露隐私。这样,羊可以长大,隐私也可以受到保护。

联邦学习就是采用上面这种分布式隐私计算的思想:在多方合作建模过程中,各方不交换原始数据;在建立模型的过程中,各方可以交换加密后的参数,以保护用户隐私。这就需要我们做几个层面的研究和工程实现,包括分布式建模、安全合规、抵御攻击、网络设计、计算效率、加密算法、边缘计算、生态建设和激励机制等。所以,联邦学习是一个多学科交融的领域,也特别适合跨学科研究。

关于联邦学习,我们常说的有两句话。第一句话是“数据不动模型动”,这是联邦学习的核心,让模型在不同机构之间、端和云之间进行沟通交流。它产生的效果是什么?就是第二句话——“数据可用不可见”。这里所说的不可见,是别人看不见你的数据,你也看不见别人的数据,即数据和模型都保留在本地,建模的过程也保证了数据的安全。

本书在阐述联邦学习原理的同时,着重描述了联邦学习的落地应用实践,以联邦学习开源平台FATE为基础,涵盖多个领域。既可以为工业实践者提供很好的应用案例,也可以手把手地为初学者引路。读者可以在粗通人工智能及机器学习基本知识的前提下,在本书指引下深入了解人工智能项目落地实践的过程。

总之,我们建立的人工智能体系离不开人的因素,而保护人的隐私是当下人工智能发展中特别重要的一个方面。这也是从政府到个人、企业及社会的要求。另外,人工智能的发展也需要保护模型的安全,保证用户的隐私不被泄露,使用户的权益得到保障。我们衷心希望读者朋友们能够从本书中窥见人工智能的未来,并动手建立负责任的、可信赖的、安全的人工智能和大数据的社会。

本书的部分案例章节有对应的代码实现,读者可以在GitHub网站上查找本书配套的资源。其中,第3章、第10章和第15章的案例使用了Python实现;第4章、第5章、第8章和第9章的案例使用了联邦学习平台FATE实现;第11章、第12章和第13章是实际的落地案例,由于签署了保密协议,我们不会对外公开这部分的代码细节。书中所涉链接,读者可以扫封底二维码获取。

基于本书和《联邦学习》一书的内容,本书作者杨强教授、刘洋老师在香港科技大学开设世界上首批“联邦学习”的全日制研究生课程(2021年春季学期启动)。相关教学资源(链接0-1),包括视频、课件等,已部分对外开放。

联邦学习目前正处在高速发展的阶段:一方面,联邦学习的理论知识仍在不断完善和丰富;另一方面,随着联邦学习的应用越来越广泛,很多新的挑战和新的解决方案也会陆续产生。因此,虽然本书力求在理论和实践上都能兼顾最新的发展趋势,但难免有遗漏或者不完善的地方。欢迎读者提出宝贵意见,帮助我们不断完善本书的内容。

杨强,黄安埠,刘洋,陈天健

2021年3月,中国,深圳