1.1.2 图灵测试与人工智能
1950年,英国学者阿兰·图灵(Alan Turing)发表了一篇具有划时代意义的论文,名为《计算机器与智能》。在该篇论文中,他提出了一个用于判断机器是否有智能的想法:“如果一台机器能够与人类展开对话(通过电传设备)而不会被辨别出其机器身份,那么称这台机器具有智能。”
图灵的这个想法后来被称为“图灵测试”。它可以被看作一个“思想实验”,测试内容如下:假想测试者与两个被测试者采用“问答模式”进行对话,被测试者一个是人,另一个是机器;测试者与被测试者被相互隔开,因此测试者并不知道被测试者哪个是人,哪个是机器;经过多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就算通过测试,并被认为具有智能。
图灵还为这项“思想实验”拟定了几个示范性的问题。
问:请给我写出有关“第四号桥”主题的十四行诗(十四行诗是欧洲的一种格律严谨的抒情诗体)。
答:不要问我这道题,我从来不会写诗。
问:34957加70764等于多少?
答:(停30s后)105721。
问:你会下国际象棋吗?
答:是的。
问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。现在轮到你走了,你应该下哪步棋?
答:(停15s后)棋子R走到R8处,将军!
图灵指出:“如果机器在某些现实的条件下能够非常好地模仿人回答问题,以致提问者在相当长的时间里误认为它不是机器,那么该机器就可以被认为是有智能的。”
就技术层面而言,要使机器回答限定在一定范围或者专业内的问题,其完全可以通过计算机程序来实现。然而,如果提问者并不遵循规则,那么要使机器像人一样准确地回答每一个问题,这几乎是不可能完成的任务,举例如下。
问:你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的。
问:请再次回答,你会下国际象棋吗?
答:是的。
看到上述问答内容,一般人们会认为与其交流的是一台“笨”机器。但如果问答的是下面这些内容呢?
问:你会下国际象棋吗?
答:是的。
问:你会下国际象棋吗?
答:是的,我不是已经说过了吗?
问:请再次回答,你会下国际象棋吗?
答:你烦不烦,老提同样的问题。
从最后一句回答内容来看,一般人们会认为回答者大概率是人而不是机器。上述两种测试过程的区别在于,第一种可令人明显地感到回答者是遵照某种规则在回答问题,第二种则令人感到回答者具有综合分析的能力,也就是回答者知道提问者在反复提出同样的问题。
图灵测试提供了一种测试机器智能的手段,但它仅限于文字和语言问答形式,因此,其并不能被作为判断机器是否具有智能的唯一标准。如今,图灵测试通过国际竞赛的形式一直在不断发展,测试的手段和方式不同于以往,已经不是单纯地通过文字来测试机器是否具有智能,而是需要通过语音、图像、视频等多种手段进行测试。
为了将图灵测试付诸实践,科学家兼慈善家休·勒布纳(Hugh Loebner)于1990年设立了人工智能年度比赛“勒布纳奖”。勒布纳奖的设立旨在奖励首个与人类回复无差别的计算机程序,即聊天机器人系统,并以此推动图灵测试及人工智能的发展。
2014年6月7日是图灵逝世60周年纪念日。这一天,英国皇家学会举行了“2014图灵测试”大会。大会中设置的比赛规则:如果计算机程序不仅能以文本方式通过交谈测试,还能在音频和视频测试中过关,则获金奖。按照比赛规则,如果在一系列时长为5min的键盘对话中,某台计算机被误认为是人类的比例超过30%,那么这台计算机就被认为通过了图灵测试。此前,从未有任何计算机达到这一水平。这次比赛中,一款称为 “尤金·古斯特曼”(Eugene Goostman)的聊天程序被宣称首次“通过”了图灵测试,其界面如图1.2所示。
图1.2 聊天程序“尤金·古斯特曼”界面
“尤金·古斯特曼”最初于2001年由弗拉基米尔·韦谢洛夫(Vladimir Veselov)、谢尔盖·乌拉森(Sergey Ulasen)和尤金·杰姆琴科(Eugene Demchenko)共同开发,它模拟的是一个13岁的男孩。
这次图灵测试大会共有5个聊天机器人参与,其中“尤金·古斯特曼”成功地被33%的评委判定为人类。“尤金·古斯特曼”这个程序通过了图灵测试,这虽然看起来很夺人眼球,但它终究只是一套计算机软件,实际上就是一套人类对话的模拟脚本。从认知角度看,它谈不上是能思考的。30%这个比例是图灵设置的,但是无论是这个比例,还是图灵测试本身,实际上都不是人工智能的完美标准——它还属于一种测量计算机能否思考的操作性定义,因为智能是由多元的、多维的、综合性的因素融合而成的。聊天机器人展示的智能只是一个维度的,是非常有限的。智能也并不只人类才具有。现阶段,人们研究人工智能更多思考的是如何让机器具有类人的、通用的智能,也就是既会聊天,又能理解人意,还能主动适应环境并采取行动的智能。图灵测试中并没有考虑与环境互动的因素。人工智能不仅要体现在语言表现上,还要体现在环境适应性上。
鉴于此,美国麻省理工学院罗德尼·布鲁克斯(Rodney Brooks)教授提出了新图灵测试方法。这种图灵测试方法的目标是为发展通用人工智能奠定基础。它不是简单的文本图灵测试,而是家庭健康助理或老年护理机器人伴侣。他所说的机器人伴侣,并不是指一个表达善意的机器人伙伴,而是一种能够提供认知和身体上的帮助,让人们在自己家中安度晚年时能够有尊严地独立生活的机器人。机器人伴侣需要一种体现在身体上的智能,并且这个机器人必须完成对人类而言仅需少量训练就能完成,但对机器人而言目前无法完成的任务。布鲁克斯所描述的机器人伴侣智能的许多要求远远超出了当今人工智能系统的能力范围,无论是在认知上、生理上还是社交上,都是如此。这些需求的实现方案将对人工智能的研究和发展产生积极影响。
无论怎样,图灵测试的目的是测试机器是否达到了人工智能或人类感知的水平,是评判一台机器是否能够成功地模仿人类。图灵当初认为20世纪末就可能出现这样的机器。虽然这样的机器至今也没有出现,图灵也并没有明确地提出人工智能的概念或给出其定义,但他在论文中破天荒地提出“机器是否能够具有思维”这一问题激发了后来很多人的联想,而此前从没有任何一个人提出这一问题。
在人工智能的概念(1.2.1小节将具体介绍人工智能这一概念诞生的历史)出现以后,处于人工智能不同发展阶段的专家从不同角度给出了关于人工智能的很多定义,他们并没有达成一致意见。美国斯坦福大学人工智能研究中心的尼尔斯·约翰·尼尔森(Nils John Nilsson)教授曾经将人工智能定义为“怎样表示知识、怎样获得知识并使用知识的科学”。
李德毅院士在《不确定性人工智能》一书中对人工智能下的定义:“人类的各种智能行为和各种脑力劳动,如感知、记忆、情感、判断、推理、证明、识别、设计、思考、学习等思维活动,用某种物化了的机器予以人工实现。”钟义信教授认为,人工智能就是人类智能(显性智慧)的人工实现。更具体地说,人工智能是“机器根据人类给定的初始信息来生成和调度知识,进而在目标引导下由初始信息和知识生成求解问题的策略,并把智能策略转换为智能行为,从而解决问题的能力”。这个定义将信息、知识、策略、行为等概念联系起来。
这里再列举几个典型的人工智能的定义。
(1)人工智能是研究那些使理解、推理和行为成为可能的计算。
(2)人工智能是一种能够运行需要人类智能的创造性机器的技术。
(3)人工智能是智能机器所执行的通常与人类智能有关的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习、问题求解等思维活动。
上述3个定义分别是从模拟理性思维、拟人行为、机器智能的实现角度给出的。第3个定义最接近人工智能的真实发展方向和目标,即创造出具有像人一样有智能,甚至超人类智能的机器。未来通过布鲁克斯新图灵测试的人工智能体,将会符合第3个定义,但定义中应补充“同时还应具备随思维活动而来的环境适应能力和行动能力”。
归根结底,上述定义都可以归结为人工智能是研究智能的机制和规律,构造智能机器的技术和科学。也可以说,人工智能是研究如何使机器具有智能的科学。
在社会上,人们更多的是从学科和工程技术角度来理解人工智能的。例如,作为一个新学科,人工智能是研究用于模拟、延伸、扩展和学习人类智能的理论、方法、技术及应用系统的学科。这里需要指出的是,人工智能中的“智能”主要是指人类的智能,但实际研究中的人工智能的模拟对象也包括很多动物。若非特别指出,后文中所提到的智能模拟对象均指人类的智能。