为人工智能配上“人类的面孔”
Soul Machines公司首席商务官格雷戈•克罗斯表示,他们正在将“数字虚拟人”应用于金融业、汽车服务、医疗服务、教育等多种行业场景。
FT中文网总编辑 王丰
一周之内,我对某家互联网公司的客服聊天机器人发了两次火。
作为老顾客,近期连续几次服务体验不佳, 我认为是由于他们的某个服务流程设计不完善,想找客服提一下具体的意见。但是,这家公司很早就全面使用聊天机器人处理初级客服问题,而这个聊天机器人预先设计好的“对话”范围并不包括我想提的意见内容,几句话之后就陷入死循环。我迅速失去耐心,机器人掌握的有限几句卖萌“潮语”也只能给我的情绪火上浇油。我一边心里埋怨着“这么大的公司还舍不得使用真人客服”、“如此不智能的机器人也好意思上线”,一边不断在聊天窗口回复“完全不满意”、“丝毫没有帮助”,“体验极差”。
几个小时之后,人工客服打来回访电话,我再次解释了我的抱怨和建议。对方仍旧无法立刻给出解决方案,但他们友好的态度和诚恳的语气令我很快“消火”,表示感谢,并希望他们尽快给我回复(虽然我也知道很有可能不会有下文)。
这次体验不禁让我反思;为何对机器和真人的态度如此不同?我立刻联想起了几周前与新西兰人工智能公司“灵魂机器”(Soul Machines)首席商务官格雷戈•克罗斯(Greg Cross)在北京的专访。当天,在2018 IBM中国论坛上,他与大屏幕上展示的一位二维女性面孔的“数字虚拟人”进行了简单对话。虽说近年来我见过许多语音、平面、立体的,甚至类似的具有人类面孔的聊天机器人,但瑞秋(Rachel)的表现令人惊艳,尤其是她丰富的面部表情和相对自然流畅的语音和语调。
给我印象最为深刻的是,瑞秋能够追踪对话者的位置,随着克罗斯在台上不断踱步,提出各种问题,她的颈部、面部、双眼和瞳仁都在随之移动,甚至瞳孔大小似乎也会随着克罗斯表情的变化而略有变化,其反应速度和逼真程度令人惊叹。我与台下其他听众的情绪也深受其感染。
那么,这位号称运用了尖端人工智能技术的“瑞秋”究竟是什么来头?以下是我与克罗斯的专访摘要。
FT中文网总编辑王丰(以下简称“FT中文网”):非常感谢Soul Machines公司首席商务官格雷戈•克罗斯先生(Greg Cross)接受我们的采访。你今天在 2018 IBM Think论坛上的演讲令人印象深刻,尤其是你展示的“数字虚拟人”瑞秋(Rachel)。首先,能否简单介绍下瑞秋背后的技术?
格雷戈•克罗斯:谢谢。Soul Machines公司的宗旨是综合运用多种不同技术,为人类创造一种与人工智能、机器人和其他新科技之间交流的全新方式…简而言之,我们就是为人工智能配上了一副人类的面孔。
我们创造了多位我们称之为“数字虚拟人”,比如今天带来的朋友瑞秋。瑞秋其实真有其人,她是在我们新西兰奥克兰研发实验室工作的一位工程师。今天你们见到的,是她的“数字化”版本。瑞秋本人大概也是世界上唯一一个整天花大量时间跟“自己”交谈的人。到目前,我们已经创造了八位像瑞秋这样的数字虚拟人,包括基于我们公司的两位华裔雇员造出的华裔虚拟人。
这背后的核心技术包括几个部分:首先,我们建造高度真实的数字面孔。我的合伙人、这项技术的发明人马克•萨加尔博士(Dr. Mark Sagar),他的整个职业生涯在研究仿真的人类面孔。他参与了《阿凡达》、《金刚》等好莱坞大片中的人脸特效制作,并因为这两部影片获得了奥斯卡奖。在电影特效制作中,他们使用的是动作捕捉技术,然后回放并剪辑。得奖之后,他开始研究如何建造能够具有自主控制和表达能力的虚拟角色和虚拟面孔,如何运用人工智能、机器学习和神经网络技术,将其与高度细节化的人脸模板结合。
你看我们的研究平台“X宝宝”,就不只是一副婴儿的面孔,而是虚拟的整个婴儿身体,你可以看到他的身体内部活生生的肌肉、骨骼结构,看到这些机械结构是如何造成肢体动作和面部表情的变化;我们为她建造了“数字肺”和“数字心脏”,研究这些如何影响身体动作和面部表情的变化。
马克和他的研发团队还模拟了大脑内的化学反应如何影响面部表情。例如,我坐在这里对你微笑,而你看到我微笑,你的大脑也会分泌多巴胺和血清素,让你感觉良好,你也很难不对我微笑。马克和他的团队也模拟了这样的人类的神经传感机制,拥有与人类大脑类似的化学反应。所以,当我向瑞秋微笑,她也会报以微笑;我如果给她一个惊吓,她的“大脑”也会瞬间充满“肾上腺素”,让她像人类那样感到紧张。
FT中文网:你们的终极目标是要让机器模拟人体所有的化学反应和机械运动吗?那种数据量可是非常庞大……
克罗斯:不,我们不是要完全模拟人脑和人体。基本的现实情况是,最牛的神经科学家仍旧不了解人脑的全部运作机制。我们也无法模拟我们不理解的东西。以我们的研究平台“X宝宝”为例,我们刚刚发布了第五代“X宝宝”,她与此前版本的最大区别是有了完整的身体——比如手脚、手指和脚趾——有了完整的运动控制系统。我们现在要研究的就是婴儿的大脑是如何学习的;比如,她是如何训练手眼协同的。
FT中文网:你刚才提到的“数字虚拟人”的概念很有意思。“人工智能”的概念现在异常火爆,很多研究机构和企业都在开发相关的技术和应用场景。对于你们的“数字虚拟人”来说,他们能从事人类社会内的什么工作呢?
克罗斯:我觉得我异常幸运,因为我的工作是世界上最具创造性的之一。我多数时间在全世界飞来飞去,与大企业CEO、知名艺术家、音乐家、体育明星等人交谈,探讨我们的技术如何帮助企业改变与客户交流的方式、明星与粉丝互动的方式……假设你是一位中国足球明星,你本人只能与非常有限的粉丝直接交流。但是假如你有一个数字虚拟的“自己”,你可以同时与数以百万计的粉丝面对面交谈,向小足球运动员们传授技巧和经验,与他们聊天……这项技术的应用前景简直是无限的。
我们正在将之应用于多种行业场景,比如金融业、汽车服务、医疗服务、教育等行业,都是极具规模化潜力的应用行业。(注:Soul Machines已经与苏格兰皇家银行、戴姆勒金融、美国软件服务公司Autodesk等企业合作,将其开发的“数字虚拟人”应用于上述公司的客户服务界面。)
FT中文网:所以到目前为止还主要是与顾客面对面服务的场景。你还提到了教育?
克罗斯:的确是,现在世界上很多地方面临教师短缺的局面。比如在新西兰和美国,很多高中缺乏理科教师。我们可以尝试造出“数字虚拟理科教师”,学生在做物理或几何习题时,遇到不懂的理论、难解的问题,可以向他们提问求解。医疗服务是另外一大领域:比如在缺乏医生的偏远地区,“数字虚拟医生”可以向病人提供个性化的医疗服务……当然,在这些领域里,都不会一夜之间发生革命性的变化,而是先易后难,先提供简单的解决方案,然后逐渐变得更加复杂更加深入。
FT中文网:IBM Watson人工智能技术平台是你们重要的技术合作伙伴,能具体解释下你们是如何合作的吗?
克罗斯:(数字虚拟人)这一整套技术(technology stack)包括两个核心组成部分:首先,是它的操作系统,我们称之为“虚拟神经系统”(Virtual Nervous System),相当于人类的中枢神经系统。这个系统给予瑞秋这样的虚拟人以生命,能够有自主反应。而Watson则提供了瑞秋背后的数据和知识。
基本流程是这样的:当我向瑞秋打招呼,我的语音和形象抵达瑞秋的虚拟神经系统,后者分析我的面部表情和语音语调的情绪信息;与此同时,我的语音被传给Watson,转化成文字,Watson用它查询自己的语料库,找到可能的答案,对其进行排序,并决定哪个是最佳答案。这个答案再以文字形式传回给我们,我们用自己的技术将其转化成语音,并且加入此前采集到的情绪信息,通过瑞秋的虚拟神经系统,将答案经过瑞秋表达出来……在整个对话过程中,这个流程持续不断地进行。这两套系统是非常紧密结合的,我们与Watson位于世界各地的研究人员都有深度合作。Watson还在研发能够辨认物体的视觉系统,而我们也在研究对话中的肢体语言和手势……这些未来都将融入我们的技术体系。
FT中文网:目前你们的“数字虚拟人”似乎都是表现在2D的电脑屏幕上。相关技术未来还能够应用在立体的、人形的机器人身上吗?
克罗斯:我们的模型实际上都是建在3D中的,所以可以直接应用于AR和VR(增强现实和虚拟现实)的环境,或者做成全息图像。对于机器人来说,最大的挑战是模拟人类面孔,因为人脸有几十块肌肉,其丰富的运动和组合构成了无比复杂的人类表情。当然,这是我们未来的努力方向,但要达到造出像电视剧《西部世界》(Westworld)那样逼真的机器人所需的生物机械技术,我们还有相当长的路要走。
FT中文网:当前有关人工智能和其他高科技的一个重要辩论是,它们开始取代一些人类的工作,对我们的社会和经济造成了冲击。作为一家领先的人工智能公司,你们能提供什么解决方案?
克罗斯:在我们看来,所谓“机器人要来抢我们的工作了,未来还要统治人类”,这是一个讨论方向,当然也是一个重要的讨论方向,但是人们往往过于关注这一点,因为它很耸人听闻。但我们还能看到很多其他可能的发展方向。我们的技术一些初期的应用,实际上可以用于那些人类不愿再做的工作,或者人类不甚胜任、或对人类成本过高的工作,所以它能够辅助人类。从理想化的角度来说,我认为这技术可以将个性化的服务和专业知识普及给更多的普通人;目前,只有富人能享受到这两者的结合服务。这在任何行业,对于世界任何地方的人来说,都是一个巨大的正面作用。例如我们刚刚提到的教育和医疗服务。
FT中文网:此前你还提到了自动驾驶——在无人驾驶的汽车里,让一位像瑞秋这样的虚拟人坐在司机座位上?
克罗斯:的确,目前我们正在与汽车业探讨这种应用。在我们即将进入的时代,我们必须要学会信任机器、信任机器人,因为我们要实实在在地把我们的生命安全托付在它们手中。我们团队内还有出色的心理学家研究相关问题,但简而言之,人类之间的信任来自面对面的交流。我们正在探讨的这个理论:如果一辆无人驾驶汽车有一位长着人类面孔,有自己个性的虚拟司机,能够与乘客交流,会让乘客感到更安全。