2.5 智能化人机交互
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人两部分的信息交换,是人工智能领域的重要外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,交互设备包括键盘、鼠标、操纵杆、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、音箱等输出设备。
如图2-25所示,除了传统的基本交互和图形交互,随着人工智能技术的迅猛发展,原来处于科幻小说中的交互方式逐渐走向现实,走进我们的日常生活。随着消费产品和生活场景的升级变化,人机交互方式也必然会随之更新。
图2-25 人机交互分类
2.5.1 语音交互
语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。研究语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。另外,在特定的应用场景下,如无人驾驶、智能家居等,语音交互是最便捷的交互方式。
最早的、成熟应用的语音交互系统——客服中的语音应答系统出现在20世纪90年代,并且目前还在广泛使用,它可以通过电话线路理解人们的话并执行相应的任务。而真正与AI结合的、走进人们生活的语音交互系统,是各大IT公司推出的语音助手,代表产品有苹果的Siri、微软的Cortana、Amazon的Alexa。而最近几年,结合语音助手的智能音箱,如Amazon的Echo和Google的Google Home之类的设备,更是给我们提供了对未来生活和工作场景的想象空间。
和语音交互最相关的人工智能技术是自然语言处理(NLP)。近几年,Siri等的体验不断改善,这与自然语言处理的一个个技术难题的突破密切相关。
2.5.2 情感交互
情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统人机交互中的计算机无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,难以具有类似人一样的智能。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样进行自然、亲切和生动地交互。情感交互已经成为人工智能领域中的热点方向。目前,其在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。
在毛峡所著的《人机情感交互》一书中,作者将情感交互分成七大阶段:人脸表情交互;语音信号情感交互;肢体行为情感交互;生理信号情感识别;文本信息中的情感;情感仿生代理;多模情感人机交互。emojis就是人脸表情交互的一个例子。
2.5.3 体感交互
体感交互指个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备和环境进行自然的交互。依照体感方式与原理的不同,体感交互技术主要分为三类:惯性感测、光学感测及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互无论是在硬件还是在软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大减少了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有较为广泛的应用。
体感交互被称为第三次交互革命,是21世纪最激动人心的技术成果之一。它使人工智能的视觉感知成为现实,使机器拥有类似人类的三维立体视觉,并可区别不同的物体,辨识不同的人体行为动作,可像人眼一样实时地在千变万化的环境中看到每个人的行为动作及理解动作的含义。体感设备对人群行为进行自动识别、判断、报警和跟踪,将根本性地促进智能安防、智能家居、机器人等领域产业的快速发展,从而让智能看护走进医院、养老院、儿童娱乐中心和千家万户;让人们可以在家向奥运冠军学习体育,向郎朗学习钢琴;让机器人也能所看即所知,实现自动控制和自我反馈。
2.5.4 脑机交互
脑机交互又称脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路[14]。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或改善中枢神经系统的正常输出,改变中枢神经系统与内外环境之间的交互作用,从而帮助在沟通或行动方面有障碍的人群。脑机交互通过对神经信号解码实现脑电波信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电波信号采集的角度,一般将脑机交互分为侵入式和非侵入式两大类。前者指利用无线信号接收器来获得脑电波信号,而后者指在一个神经元旁边埋上一根细线来记录电化学活动并将其发送给计算机。只要从大脑中的特定区域记录足够多的电化学信号,人们就可以仅凭思考或简单的移动来控制计算机或任何其他想控制的东西。
脑机交互作为传统意义上的黑科技,可以说是最激动人心的一项技术了,同时,其也广泛出现在各科幻场景中。但是,受限于我们对脑认知科学的认识,真正要实现人机一体的无缝交互,还有很长的一段路要走。在某些领域,脑机交互已经有了一些研究成果,侵入式脑机交互在几年前已经可以(以可接受的精确度)控制机械手的三维运动、手腕方向、手指握力。脑机交互是未来,被认为是计算机与脑科学发展的完美结合,但目前时机尚未成熟,还需要无数科学家在这一领域进行长期不懈的探索。