1.2.2 自然语言理解
自然语言理解是指机器接受人类提问的语音输入,先通过语音识别将人类语音转化为文字,再运用自然语义分析理解人类提问的含义(即理解人类的行为),最后反馈给人类以所提问相关的精准搜索结果,其核心技术在于用自然语义分析来理解人类日常说话中的提问。在词语解析方面,AI系统在确定句子语法结构上的能力已经接近人类能力的94%。在从文档中找到既定问题的答案的能力已经越来越接近人类(见图1-6左图)。AI系统识别语音录音的表现早在2016年就已经达到了人类水平(见图1-6右图)。
图1-6 问答准确性比较(左图)和语音识别能力比较(右图:直线为人类,曲线为AI)
从PC互联网到移动互联网再到AI时代,每个时代都伴随着一次交互式的变革。利用语音识别、自然语言处理和自然语言理解等技术研发的对话机器人,正在改变着传统的人机交互方式。它们或内嵌到应用程序中,或与硬件相结合,致力于成为用户的个性化“助理”。目前,这些“助理”已经具备了基本的问答、对话以及上下文理解功能。它们正在打造全新的人机交互方式,为用户提供多场景的便捷服务。例如,智能音箱是最近几年美国消费中的热门产品。虽然语音交互的老大依然是苹果公司的Siri,但是Amazon Alexa正在快速崛起(见图1-7左边的产品),它不仅可以对话应答,还可以和多种智能家居设备进行交互,比如:语音关灯等。谷歌的智能音箱产品(见图1-7中间的产品),功能类似Alexa。苹果也于2018年2月9日正式上市HomePad智能音箱(见图1-7右边的产品)。
图1-7 智能音箱产品
语音交互可以说是人与机器“交流”的重要环节,这对于未来的人工智能而言是非常关键的入口。在国内,自然语音处理领域的融资排在第二,在整个AI投资中占比19%。国内企业中,京东与科大讯飞公司合作布局了智能音箱,致力于成为家庭控制中心。阿里推出了名叫“天猫精灵”的智能音箱,小米推出了小米AI音箱。激烈的音箱之争背后其实是下一代服务入口之争。
搭载百度DuerOS的智能硬件产品也在陆续面世。DuerOS是百度基于AI技术打造的对话式人工智能系统。搭载DuerOS的设备可让用户以自然语言对话的交互方式(比如“小度小度,我想听陈百强的歌”)实现影音娱乐、信息查询、生活服务、出行路况等多项功能。目前,腾讯的所有语音端都采用自己研发的AI技术,而阿里的淘宝、支付宝电话客服、天猫精灵、优酷、虾米音乐等都应用了自己的语音技术。除了使用自家语音技术外,BAT也在加速对外开放平台,滚动扩张。阿里云、腾讯云小微、百度DuerOS平台都开放了语音识别、视觉识别等AI技术。百度还宣布语音技术全系列接口永久免费开放。
在谷歌I/O大会上,语音助手Google Assistant更像人。作为谷歌AI用户感观最直接的语音助手,谷歌试图将其打造得更近似人:其一是声音拟人化,其二是对话日常化。I/O大会现场展示了指令Google Assistant预定餐厅座位,然后发出指令的人即可忙自己的事,而AI将自行打电话给餐厅,通过多轮对话与餐厅工作人员敲定好时间。在这个展示上,突显的亮点是,对话能力加强,近似日常交流习惯,极大地提高了与机器对话的用户体验。
语音是下一代人机交互的入口,未来语音技术会向各场景渗透。它们不但可以响应用户命令并执行任务,如回答问题、设置闹钟、检查航班行程等,而且与搜索、手机、智能家居等紧密结合。除了产品市场本身之外,争夺未来以语音交互为核心的智能家居生态的入口,是科技巨头纷纷推出智能音箱的重要原因。智能语音这块蛋糕有多大,目前尚未可知。有一点越来越清晰,未来肯定是通过人工智能核心技术+应用数据+领域支持的方式构建垂直入口或行业刚需。