前言
我是占卜师
6:30 闹钟响了。我坐起身看看窗外,今日多云。我打开智能手机,瞅了眼天气预报。果然,中午要下雨,而且有70%的概率会下到晚上7点。“看来出门得带伞。”我心想。
8:00 收拾收拾该出门了,我得先送孩子上学。手机提醒我,这会儿环路上车多拥堵,建议改乘公交车穿过市中心,这样能快4分钟。嘿,我还是听它的吧。
8:30 进了地铁,我正好听听音乐打发时间。手机给我推送了两支乐队,说这是“我可能喜欢的风格”。我听了一两首,还不错,给他们点了赞,下了单。
9:00 终于到办公室了,我打开电脑查邮件。亚马逊和斯普林格(Springer)都给我发了推送,都是“你可能感兴趣的本周新书”。好久没读新书了,这些书名看着还挺有趣。鼠标轻轻一点,我把它们放进了购物车。
10:30 手机又响了。这是我每天订阅的新闻。手机会每天定时推送“你可能关心”的新闻。我快速浏览了一遍,准备待会儿回家路上细读几篇。
11:30 休息时间到了,趁着喝咖啡的空当,我浏览了主流报纸的网站。卫生部刚刚发布流感季的最新预测,据说感染人数会在下半年达到峰值。流感还是得重视,我得想着哪天去医院接种疫苗。
13:30 到了午饭时间,我约好跟同事们一起吃饭。我们边吃边聊。还有不到一个月就要大选了,谁会胜选,在我看来其实很明朗了。不过,统计数字总归有误差,就是这么点儿“合理的误差”让不同阵营的人吃着吃着就吵起来了。
15:30 由于工作需要,我得上网查资料。没有搜索引擎,在这年头真是寸步难行。我发现搜索结果好像越来越准了,总能找到我需要的信息。
16:30 从银行那儿传来了好消息,我的贷款申请获批了。因为个人征信记录良好,他们还给我降了0.25%的利率。
17:30 社交网络平台给我推送了新朋友,说这些人和我“可能特别投缘”。我点进去看了看他们的头像和主页,点了一圈赞,于是又多了几个新朋友。
18:30 手机应用程序提示我,公交车将在18:47抵达。离车站还有点儿距离,我得快走两步了。
18:35 我又瞅了眼天气预报。嘿,降雨的概率变成5%了,那我可以放心了。
19:30 下车了,我得先去超市买点儿东西。超市小票后面有打折码,貌似很划算。自从我成了它家会员,各种促销和会员价已经帮我省了200多欧元了。
21:30 孩子们都睡了,这一天下来真累!终于能休息休息,看看电视了。我来看看网飞有什么好的推荐……
这就是我的一天,和你的也许没什么差别。
这普通的日常充满了算法,它时时刻刻都在干预你的生活,而你也许根本意识不到。它会预测你周围将发生什么,预测你的需求,预测你的行为。算法的世界充满魔力,这魔力自然并非凭空产生。每次上网订票,你在旅行方面的购买力、最喜欢去的地方,都会形成数据被记录下来。每次刷信用卡,你最常买的东西也会被记录下来。智能手机还能通过GPS准确跟踪你的行程。社交网络会实时分析你聊天时的心情。你的个人信息、数据会和无数其他人的数据对比。通过这些数据便能绘制出你的心理肖像,预测你在音乐、文学、电影等方面的品位或兴趣。凡走过,必留下痕迹,凡所过往,皆为数据。过去的数据服务于当下的分析,并绘制未来的图景。我们早习惯了“被预测”,觉得这既方便又安全。可要是你意识到自己被预测者操控了,恐怕就不会这么想了——我们真能意识到这一点吗?
我已步入中年,相信很多中年读者朋友和我有相似的经历。我们出生、成长于昨日的世界,它和今天太不一样了。以前,没人会把手机一天到晚放口袋里。过去,我要是想买书,得在书店转半天,千挑万选。好几次走出书店后,我才发现都过了一个下午了。效率虽然不高,但这是多么美好的回忆!走过一排排书架,指尖划过书脊,期盼着偶遇自己找寻了很久的某本书,撞见那心心念念的封面。我后来从事物理学研究,关注计算机模拟技术。这是预测科学的风口浪尖。曾几何时,科学家试图以简单模型描述社会行为,很多人却说这是痴人说梦,讥讽预测科学不过是数学和统计物理的小把戏,和解答现实问题没有丝毫关系。当年即便是最疯狂的科学家也做梦都想不到,随着科技的飞速进步,我们今天已能搜集、掌握、分析如此海量的数据。在庞大的数据加持下,预测模型越来越准确了。
有人问我,在预测科学的发展史中,是否存在某个重要的转折点?其实,我决心写这本书,正是因为感到了某种紧迫性。借着本书的写作,我将对预测科学的发展做系统回顾。提笔为文,我的思绪又回到了几年前。2016年1月的一天早上,在美国国家卫生研究院流行病学研究中心工作的朋友给我打电话,问我能否预测拉丁美洲暴发的寨卡病毒的传播趋势。多数情况下,寨卡病毒感染者的症状只是普通发热、头疼、皮疹和关节疼痛。按说这不是什么严重的症状,但是,如果女性在怀孕期间感染寨卡病毒,就可能将病毒传染给胎儿,导致新生儿出生缺陷,罹患小头症(因颅骨发育不完全而导致的畸形,患者的头部尺寸小于正常值)和其他先天性畸形。世界卫生组织已宣布这是“国际关注的突发公共卫生事件”,这意味着寨卡病毒疫情拉响了全球医疗机构的最高警报。
接到这通电话时,2016年里约奥运会已经快开幕了。参赛运动员约17 000名,预计有50多万游客将涌入这座热情的城市。大规模体育盛事与病毒相遇,引发的担心显然并不多余。如果疫情因为奥运会扩散到拉丁美洲之外,后果不堪设想。在之前对流感、埃博拉病毒的研究中,科学家已经积累了不少经验,构建了多种预测模型,然而寨卡病毒的情况更为复杂。它主要通过埃及伊蚊(Aedes aegypti)进行传播。这种蚊子是寨卡病毒的宿主,能通过叮咬从感染者的血液中获取病毒,并在下次叮咬时实现传播。要建立针对性的预测模型,就必须掌握这种蚊子的地区分布和密度。这似乎是不可能完成的任务。
随着研究工作的推进,我们手头的数据越来越多。在整合、分析数据后,所掌握的埃及伊蚊的分布范围越来越具体。最终,我们可以在几平方公里的区域内描述它的分布。此外,我们还要掌握人口的相关数据,明确蚊子和人群的互动关系,如此方能完整描述病毒在人群中的传播路径。人口的流动在构建预测模型时极为关键。人是“不翼而飞”的动物,能在数小时内完成跨越数千公里的旅行。人的远途迁徙会将病毒带到有蚊子的地方,导致病毒进一步传播。研究到了这一阶段,我们必须掌握人在海、陆、空领域的流动数据,确定全世界190多个国家和地区的个体因旅行或日常活动发生的位移(比如“上学”,就是个体从家到学校发生的“位移”)。
最初的预测结果让我们颇为气馁,我们意识到模型仍需要改进。要进行有效预测,还需将个体的社会、经济情况纳入考量。有人住在市中心的高档公寓,生活优越;有人经济条件不算好,但家里好歹有蚊帐;有人生活条件恶劣,在贫民窟讨生活。这三种人的得病概率显然不一样,这种差异性也要体现在算法中。只有覆盖了以上各种因素,我们才能预判2016—2018年寨卡病毒传播的可能趋势,最后得出的数据才可能为国际机构所采信,作为制定政策(如划定未来高风险地区、评估疫苗的效果)的依据。
在我的职业生涯中,对寨卡病毒传播趋势的预测工作见证了一个特殊而重要的时刻。我当时没有意识到,自己正身处一个崭新的领域。如果预测疫情的工作交给亚马逊或者谷歌公司数据运算中心的超级计算机,它们将如何运行算法?别忘了,亚马逊通过算法准确预测了“我可能感兴趣的书”。诚然,预测科学的算法仍有进步和完善的空间,但不可否认的是,它的确越来越精确了。透过预测科学的视角,我们能看到一个没有秘密的未来,一个能被精准预测的未来,一个我们能完全掌控的未来。对我们的祖先来说,这是虚无缥缈的幻想。今天,这样的未来不再遥不可及,它的面貌日益清晰。
这一切不过是最近30年的事情。在这30年里,我亲历了两场科学革命。第一场是概念革命,它见证了复杂科学从无到有的发展。复杂科学是人类社会可预测性的根基。在蚂蚁社会里,蚁后地位尊崇,但从根本上说,群体才最重要。我们观察蚂蚁得出的结论,同样适用于人与人的关系。复杂科学破解了人类社会的“蚁后神话”。蚂蚁社会清晰可见的等级制度并非存在某个“领导”的结果,而是发生于大量个体间的群体现象,这种现象能通过数学和统计学手段来描述。在人类社会,某种时尚何以风靡某个社会,公众舆论又为何会两极分化,这些社会问题同样可以用数学和物理的手段来描述、分析和解答。
第二场是数字革命,它是海量数据和计算机运算能力升级的产物。数字革命为科学家打造了全新的“实验室”。我们的日常生活无时无刻不在接触数字世界,制造出海量的信息。这些信息构成了科学家研究社会的基本素材。什么是“海量的信息”?这里不妨给出一个直观的说明:人类每天都会制造出2.5个艾字节(exabyte,缩写为EB)的数据,1个艾字节等于260字节,将这些数据刻录进DVD光盘,需要足足50万张。这些海量数据来自我们生活中时时刻刻的涓滴积累。我们在健身时手机记录下的运动数据、上网时留下的检索记录、手机移动支付产生的数据等,共同构成了我们生活的完整画面。年轻的读者们可别忘了,就在不久前,这一切还是天方夜谭。
然而,数据本身并非知识。法国数学家、物理学家亨利·庞加莱(Henri Poincaré)曾说,科学不是一大堆数据的堆砌,好比只是把砖头一块一块垒起来,无法建成宜居的房子。信息是如何转化为预测能力的呢?答案是“算法”。信息在通过算法的筛选、加工、分析后,才能服务于预测。
何为算法?我们不妨给出一个简单的定义。所谓算法,是一系列精确的指令或数学表达式,用以明确信息间的关联,推演事物的发展趋势,总结出规律和法则,基于这些规律和法则便能预测疫情的蔓延、思想的传播、金融市场的波动等。亚马逊公司就是通过一系列复杂算法来了解用户的习惯,推送用户可能喜欢的书。社交网站则通过算法,分析我们的“点赞”行为和阅读习惯,推送我们感兴趣的文章。许多算法都基于自动学习模式,又被称为“机器学习”。通过机器学习,算法在海量数据中识别相似性和重复性,预测未来可能重复发生的事件。人是预测的主体,但在复杂系统中,仅凭人的智慧发现重复性或周期性谈何容易。这就需要计算机帮助我们捕捉人脑和肉眼无法识别的现象和信息。
出于对未知的天然焦虑,人类总在设法控制未来。这种焦虑是预测科学进步的动力。今天,我们能通过方程演算、定理推导,模拟人与人之间的社会互动,并将这一方式扩展到生物系统,运用于疫情研判与防治领域。我们能在计算机上通过数据和图形呈现全球人口的动态情况,可以精确到每平方公里的范围。在棋盘网格般呈现的数字世界中,我们能直观再现相关地区人口的年龄、性别、工作、流动等信息。精准的预测是危机管理的重要工具。科学的决策流程离不开科学的预测。预测,意味着将目光投向未来。
人类的预测行为并非始自今日。古希腊人和古罗马人会告诉我们,未卜先知的能力是一种权力。古希腊人相信,神谕和占卜出自永不会犯错的祭司。他们拥有无上权威,是神的使者。城邦生活的一切重大事务都要咨询他们,什么时候开战、什么时机发起总攻,也都要求问占卜。德尔斐神谕背后正是一套完备的祭祀制度,它反映了围绕这一制度运转的城邦生活。古希腊人每月会定期问询神谕,此时城邦会举行隆重的献祭。有时,神谕是特事特问,用今天的话说,类似咨询公司的付费咨询,由最负名望的公民代行祈求。德尔斐祭司在今天不必担心有失业的风险,不过前提是他们得与时俱进,通晓今天的算法。换句话说,今天的数字预言家就是古代占卜师的传人。他们的工作性质确有相似之处,都与权力运作、经济运行密不可分。人们尊重他们,有时也惧怕他们。在大众眼里,今天的预言家仍然神秘。当他们为我们解决现实生活中的具体问题时,他们仍面目模糊;当他们向我们揭示不安的未来时,我们仍看不清他们;当他们告诉我们,算法不仅能预测未来,还会影响、定义我们的未来时,他们的面目不仅模糊,而且令人不安。英国政治咨询公司“剑桥分析”(Cambridge Analytica)曾被指控利用脸书用户的数据,影响了2016年的英国脱欧公投和同年的美国大选。社交网站的“点赞”行为,可能被用来分析我们的政治、宗教倾向,从而被用于隐秘操纵我们的投票行为。现代“占卜师”可能会通过算法操纵我们、制造未来,而我们仍看不清他们是谁——这是预测令人不安的一面。
本书无意对历史上的预言按照准确率排序。失败的预言同样推动了科学进步。无论成功与否,无论是否被看见,这些“占卜师”真实存在于我们的生活中,他们的预测与每个人的生活息息相关。预测科学是门宏大、崭新的学问,本书不准备具体探讨相关理论或技术细节,对可能存在的某些争议也只点到为止。相信如此一来,本书反而能够沿着更清晰的主线从容展开叙述。预测科学需要祛魅。在许多读者眼中,预测是数字魔法,而本书将告诉你它的“魔力”从何而来,又有哪些局限性。
本书并非理论艰深、演算复杂的教材,而是在笔者多年从事科研活动的所见所闻与亲身经历的基础上写就。这些故事串起了本书的叙述主线。在本书第一章,我将告诉大家,30年前的科学家如何认识预测。第二章将讨论如何将社会系统置于物理学研究视域内,如何以数学公式描述个体行为。第三章将讨论数字革命。海量的数据、日新月异的人工智能技术是预测科学迅猛发展的基础。数据是预测的原材料,人工智能则是预测的重要手段。预测究竟如何开展,这是第四章的主题。初出茅庐的艺术家会迎来什么样的职业生涯,某本新书能否跻身畅销书之列,这些都可以是预测的对象。在第五章,我们要冷静下来反思预测科学。一方面,数字“占卜师”不可能百发百中,有时甚至会南辕北辙;另一方面,预测行为也可能制造陷阱。到了第六章,我们将认识以计算机虚拟世界为基础的新预测方式。在第七章和第八章,我将与读者一道重新审视我们生活的世界。随着预测科学的迅猛发展,世界变得可被预测。然而,这一光明的事业如同月亮,也有从不示人的阴暗面。
预测并非现代人的成就,它几乎和人类历史一样悠久。今天的预测科学家穿越回古代,会被视为祭司的同行。他们是通过算法解读数据、传达科学“神谕”的“占卜师”。他们并不神秘,知识是祛魅的前提。我愿在这里大胆预言:读完本书,你会更了解预测。