当我点击时,算法在想什么?
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章
数学怎会侵蚀我们的道德品质?

2016年3月,三位来自伦敦的研究员和一位来自美国得克萨斯州的犯罪学家在《空间科学》(Journal of Spatial Science)期刊上发表了一篇论文。文章以枯燥、学究的方式呈现研究方法,但论文本身并不深奥和抽象。文章标题开宗明义:“寻找班克西(Banksy)——地理侧写(Geographic Profiling)解开现代艺术之谜”。也就是通过数学来追踪世界上最负盛名的涂鸦艺术家。

研究人员首先通过班克西的网站来找到他街头作品的位置。之后他们系统地造访班克西的所有画作,包括出现在伦敦和他家乡布里斯托的涂鸦,并用GPS记录下它们的位置。采集到这些数据后,研究人员绘制了一个热图。假定班克西通常在家附近进行创作,那么热图上色调更亮的区域就表示班克西很有可能曾在此生活。

在伦敦的地理热点图上,最热的区域距离某人前女友的旧居仅500 米。此前有人猜测,这位神秘人物可能就是街头艺术家班克西。同样,在布里斯托的热点图中,最热的区域恰好位于此人曾经的住所和他效力过的足球队球场附近。因此,文章推断,这位与地理侧写特征相匹配的人物极有可能是班克西本人。

刚读到这篇文章时,我的感受和看到同行做出一些成绩时的大多数学者一样五味杂陈,既觉得有趣,又感到嫉妒。这项研究是对数学的聪明应用。这正是我孜孜以求的应用数学:充分发挥想象力,然后合理运用数学方法。真希望做这项研究的是我本人。

但接着读下去的时候,我开始有些不舒服了。我喜欢班克西,在我的咖啡桌上就放着一本他的涂鸦作品集,书中还有他的俏皮话语录。我还曾徜徉于伦敦的街头巷尾,寻觅他的墙上涂鸦。曾经有个视频展示的是他意义非凡的艺术作品在纽约中央公园货摊上无人问津的情景,我不禁对此开怀大笑。他在约旦河西岸和法国加来移民营的作品,让我对自己享有的特权深感不安,提醒我身在福中要知福。我无须某些情感冷漠的学者用算法告诉我班克西是谁。

他之所以成为我们眼中的班克西,是因为他会在夜晚悄悄地潜入我们的街区,然后在天亮前留下艺术作品,揭示我们社会的虚伪,正所谓“事后拂衣去,深藏功与名”。

数学在摧毁艺术。冷冰冰的逻辑统计在伦敦街头追踪穿着套头衫的自由斗士,这是荒谬的。寻找班克西应该是警察和小报记者的活儿,不应该是拥有自由思想的学者们该做的。他们自作聪明,以为自己是谁?

当读到这篇关于班克西的文章时,我的作品《足球数学》快要出版了。我写这本与足球相关的书,目的是带领读者在这项奇妙的运动中开启一场数学之旅。通过这本书,我想说明一点:足球场上的结构和各种阵法里都隐藏着数学的影子。

《足球数学》出版之后,媒体对它满怀兴趣,每天都要求我接受采访。大多数情况下,记者们和我一样为足球里蕴藏的数学奥秘而着迷,但也不断向我抛出一个不那么容易回答的问题。记者们告诉我,读者很想知道我是否认为足球中蕴含的数学夺去了这项运动的激情。

“当然没有!”我有些愤怒地回答。我解释,足球这项博大精深的运动有足够的空间让逻辑思维和激情并行不悖。

但是,通过数学找出班克西难道就没有夺走他艺术作品的一丝神秘感吗?可笑的是,我也将数学用在了足球上面。或许,我对足球的了解与那些从事空间统计的学者对街头涂鸦所做的研究没有本质上的区别。

谷歌掌握你的个人医疗数据,你是否能接受?

2016年5月底,谷歌邀请我到其伦敦总部,做一个关于足球里蕴藏着的数学奥秘的演讲。演讲是由《足球数学》的编辑丽贝卡安排的,我们都很想参观一下谷歌的研究部门。

谷歌果然没有让我们失望。他们的办公室非常好找,就坐落在白金汉宫街上,大堂里耸立着高大的乐高模型,冰箱里塞满了保健饮料和超能食品。他们称自己为“谷歌人”,显而易见,他们对自己的办公环境非常满意。

我向一些谷歌人询问公司目前的情况。此前我就听说过自动驾驶汽车、谷歌眼镜、隐形眼镜、送货上门的无人机,以及向我们的身体注射纳米颗粒来检测疾病的传闻,我想知道有关它们的更多信息。

但是谷歌人戒备心很强。谷歌的创新活动曾经因为采纳了一些过于疯狂的创意而招致批评,后续的公关活动还不太成功。在这之后,公司政策规定员工不能再向外界过多透露公司的情况。当时谷歌的高级技术项目负责人是雷吉娜·杜根(Regina Dugan),此前她在美国国防部高级研究计划局(Defense Advanced Research Projects Agency, DARPA)担任同样的职务。她在谷歌推行“适度知情”(need to know)的信息共享原则。研究部门目前由许多小组组成,每个小组负责各自的项目,并在小组内部共享想法和数据。

一名谷歌人禁不住我们连番的追问,终于愿意和我们聊起一个项目。据他了解,谷歌正通过DeepMind来对肾衰竭进行医疗诊断。他们计划利用机器学习来发现医生漏诊的肾脏疾病的模式。DeepMind(深度思维)是谷歌的一个研究部门,它已经让一台计算机成了世界上最好的围棋选手,并开发了一种算法来精通《太空入侵者》(Space Invaders)等老式街机游戏的玩法。

现在,它可通过检索英国国民医疗服务系统(National Health Service, NHS)的患者诊断记录,找出疾病发生的模式。未来,DeepMind将成为医生的智能计算助手。

和我第一次读到那篇关于班克西的文章时一样,我再次觉得五味杂陈,既嫉妒谷歌人又渴望自己成为他们当中的一员,利用算法发现疾病、改善医疗保健。想象一下,如果你能借助你所擅长的技能,通过自己获得的财力和数据来执行这样的项目以拯救生命,那将是一件多么了不起的事情。

但丽贝卡不是那么激动,她说:“我不确定是否希望谷歌拥有我的一切医疗数据。想到他们可能将这些医疗数据和我的其他个人数据一起结合使用,我就忧心忡忡。”

她的反应让我再度陷入思考。如今涉及健康和生活方式的数据库正在以前所未有的速度积累数据。谷歌过去一直遵守严格的数据保护原则,但泄密的风险始终存在。为了更加全面地了解我们以及我们生病的原因,未来的社会可能会要求我们将使用谷歌的搜索记录和我们的社交媒体及健康数据关联起来。

在我演讲之前,我们没有太多时间来讨论被数据所驱动的医学研究有何利弊。而当我一打开足球的话匣子,我很快就忘记了整件事情。谷歌的员工们对我的演讲很感兴趣,并且提了不少问题:最新、最先进的摄影跟踪技术是什么?通过不断地改善策略,机器学习能够取代足球经理吗?另外他们还提了一些关于数据采集和机器人足球的技术问题。

谷歌人没有问我是否认为数据剥夺了足球运动的灵魂。依我看,他们高兴还来不及。只要让球员佩戴 24 小时的健康和营养监控设备,他们就能更全面了解球员的身体状况。对于谷歌人来说,他们获得的数据越多越好。

数学杀伤性武器引发的血案

我和谷歌人有一些共同之处,正如我和研究班克西的统计学家有一些共同之处一样。在电脑上查询国民医疗服务系统的患者数据库,或者通过空间统计学追踪罪犯,当然很酷。不论是在伦敦、柏林、纽约,还是在加利福尼亚、斯德哥尔摩、上海或东京,都有和我们一样的数学极客在收集和处理数据。

我们设计算法来识别面孔、理解语言、了解我们的音乐品味;我们创建个人助理和聊天机器人来帮你排除电脑故障;我们预测选举和比赛结果;我们帮助单身人士找到理想伴侣,或帮助他们对现有的潜在交往对象一一筛选;我们尝试在脸书和推特(Twitter)上给你推送与你最为密切相关的新闻;我们确保你找到最佳的假日去处和廉价航班。我们的目的就是通过数据和算法让生活变得更美好。

但事实真的如此简单吗?数学家正在让世界变得更加美好吗?我对空间统计学家解密班克西的反应,足球记者对我《足球数学》一书中数学算法模型的反应,以及丽贝卡对谷歌使用医疗数据库的反应,并非不正常或多虑。相反,这些反应非常自然。算法的使用无处不在,它帮我们更好地认识这个世界。

但如果这意味着算法要剥夺我们所爱的东西并且夺走我们的道德品质,我们是否还愿意更透彻地认识这个世界?

我们开发的算法真是社会需要的吗?

还是只为一小部分数学极客以及他们效力的跨国公司服务?

当我们开发出日渐完美的人工智能(AI)后,是否存在算法接管这个世界并且主宰我们命运的风险?

现实世界和数学间的相互作用从来都不是非黑即白的。所有人,包括我在内,有时都会对数学产生一种误解,认为它是解决所有问题的万能钥匙。应用数学家职业性地以“数学建模循环”来看待世界。现实生活中的消费者给我们抛出一个他们想要解决的问题,这个循环就开始了。不管是找到班克西还是设计一个在线搜索引擎,我们都会拿起自己的数学工具箱,打开电脑,编写代码,找到解决方案。我们运行算法,并将其结果提供给客户。接着他们给我们反馈,然后循环继续。

这种转动把手、模型循环的简单方式将数学家从现实世界中抽离,使谷歌人超然物外。在带有休闲玩具和室内运动场的办公楼里工作,谷歌和脸书里绝顶聪明的员工容易产生幻觉,认为一切问题尽在他们的掌控之中。象牙塔和外界的完美隔绝意味着我们的理论不会被现实挑战。这是大错特错的。现实世界存在实际问题,为这些问题提供实际解决方案是我们义不容辞的责任。除了计算,每一个现实问题都有其复杂的方面。

在 2016年5月参观谷歌之后的几个月里,欧洲和美国的时局充满了不确定性,而我也在报纸上见到了关于数学另外一面的报道:

谷歌搜索引擎提供带种族偏见的搜索建议;

推特上的机器人账号传播虚假新闻;

斯蒂芬·霍金(Stephen Hawking)担忧人工智能的潜在危害;

极右翼分子(极端保守主义者)在算法建立的过滤气泡里结党聚集;

脸书分析我们的个性并用于锁定目标选民。

关于算法给我们带来危险的报道接二连三、层出不穷。当统计模型对英国脱欧和美国总统选举的预测失败后,人们甚至开始质疑数学家的预测能力。一夜之间,媒体对数学的报道的话题全变了,足球、爱情、婚礼、涂鸦及其他有趣的主题被性别歧视、仇恨、反乌托邦、民意调查的尴尬结果所取代。

重读那篇关于班克西的科学论文时,我读得更加仔细,并且发现文章几乎没有提供关于班克西身份的新证据。研究人员绘制了 140 件艺术作品的确切位置,但他们只调查了一个怀疑对象的地址。英国著名小报《每日邮报》(Daily Mail)在 8 年前就已经判定这个怀疑对象就是班克西本人。《每日邮报》判断,我们的涂鸦艺术家来自郊区的一个中产家庭,而非一位如我们所愿的来自工薪阶层的英雄。

文章的作者之一,史蒂夫·勒库默(Steve Le Comber)在接受英国广播公司(BBC)采访时坦陈他们重点关注《每日邮报》怀疑对象的原因。他说:“很快我们就发现,靠谱的怀疑对象显而易见只有一个,而且大家都知道是谁。如果你搜索一下班克西和怀疑对象名字,你会得到大约 43 500 条搜索结果。”

在数学家着手此项研究很久之前,网络上就已经盛传班克西的真实身份。这次研究人员所做的只是将数字与这一信息联系起来,但未能真正说清楚这些数字的含义。这些科学家只验证了一个案例的一个怀疑对象。文章介绍了研究方法,但缺乏太多证据证实这些方法确实有效。

可是媒体不关心研究的局限性。《每日邮报》一篇没有凭据的传闻成了一个严肃的新闻话题,《卫报》、《经济学人》(The Economist)、BBC竞相报道。数学使传闻合理化,而且让人们相信可以通过算法来找到罪犯。

让我们将场景切换到法庭,设想一下,班克西不是因为他广受大众喜爱的街头艺术遭到指控,而是作为一个在伯明翰街道墙上绘制“伊斯兰国”恐怖组织宣传画的人而被控告。继续想象一下,警方在做了一点背景调查后,发现嫌疑人从伊斯兰堡搬到伯明翰后,涂鸦才开始涌现。但他们不能在法庭上采用这一调查结果,因为它不是证据。

那么现在警方可以怎么做呢?很简单,他们可以叫数学家来帮忙。运用算法,警方的统计专家预测班克西有 65.2%的可能性就住在某栋屋子里,接着反恐特别行动队破门而入。一周之后,班克西就会根据预防恐怖主义方案遭到软禁。

按照史蒂夫及其同事在他们的文章中提出的对研究结果的使用方法,上述情景的发生并非遥不可及。他写道,寻找班克西“证明了以前的想法是可行的——对涉及恐怖主义的轻微行为(比如涂鸦)进行分析,可以帮我们锁定恐怖分子基地,将恐怖行动扼杀在摇篮之中”。数学武器一朝在手,班克西便能被指控、定罪。过去在间接证据里都非常弱的统计数据现在却成了强有力的实证。

然而,潘多拉的盒子这才刚刚打开。在成功找出班克西后,私营企业会争先恐后地与警方签订合同,为其提供基于统计数据的建议。在获得首个合同后,谷歌会将警方的全部记录输入“DeepMind”,以便找出潜在的恐怖分子。

若干年后,政府将在公众的支持下引进“常识”措施,把我们的网页搜索数据和谷歌的警方记录数据库进行整合,“人工智能警官”就能够这样被创造出来。它们会通过我们的搜索和浏览数据推断我们的动机和未来行为。每个“人工智能警官”会配备一个行动小组,以便他们在深夜对潜在的恐怖分子发起突袭。这种黑暗的数学未来正以骇人的速度接近你我。

在展开长篇大论之前,我们就已经察觉到数学不仅会大煞风景,还会侵蚀我们的道德品质。它在给花边小报的流言蜚语提供合法性,它在诬告伯明翰公民进行恐怖活动,它还在帮助大量不负责任的公司积累海量的数据,建立超级大脑,监视我们的行为。这些问题到底有多严重?这些场景到底有多现实?为了找出答案,除了应用我唯一掌握的方法之外,我别无选择。这个方法就是审视数据,统计数据,并且进行数学运算。

注:① 地理侧写其实是一种刑事调查方法,通过分析连环杀人或强奸案件发生的位置,以确定最可能的犯罪者所居住的区域。——译者注(本书注释无特别说明皆为译者注,下同)

注:① 现已更名为X。——编者注

注:①过滤气泡:这个词由互联网活动家埃利·帕里策在 2010 年发明。谷歌搜索引擎的推荐算法根据个人偏好提供不同的消息,阻碍了人们认识真实世界的某些层面,这种现象被帕里策称为过滤气泡。社交媒体的出现更加加深了这个问题。

注: DeepMind是一家英国人工智能公司,创建于 2010 年。最初名称是DeepMind科技(DeepMind Technologies Limited), 2014 年被谷歌收购由这家公司研发的阿尔法狗打败了中国的围棋冠军柯洁