1.3 机器人视觉感知研究挑战
机器人视觉感知系统得到了广大研究者的关注,取得了突出的进展和结果,但仍然面临着诸多挑战和发展。
1.二维视觉向三维视觉转换
目前工业现场绝大多场景应用机器人二维视觉检测和感知系统获取目标物体的平面特征,难以获得空间坐标信息,不能实现与三维形状有关的测量。如图1-3所示,三维视觉感知除了能获取二维视觉的RGB信息,还能获得深度信息(D),构成RGB-D三维视觉,比如检测目标物的三维位置信息。三维信息获取后可以实现环境和场景的结构化建模,实现场景的完整几何模型描述。三维视觉感知还可以进一步实现三维理解。
图1-3 机器人二维/三维视觉感知系统
机器人作业环境中的很多金属/橡胶/塑料等目标外观具有光滑的大表面形特征,这些纹理单一的特征往往会呈现出全反射、局部耀光、吸光、反射不规则、遮挡等特点,给传统的基于光学原理的机器人视觉感知系统带来了极大的挑战。如局部的大面积耀光可能使得机器人图像传感器出现过饱和与灰度溢出,使得这些局部数据信息丢失,导致后续的重建出现局部的数据空洞。同样,纹理稀疏也可能导致提取的特征点不够,使得重建结果仅能得到边缘轮廓信息。在实际的应用中,可以针对不同材质的光照和成像特点,开发多角度光源解决反射不佳等问题,结合激光与视觉融合的高速高精度三维成像技术和光度立体视觉辅助的多形态结构光三维成像原理,实现复杂场景的三维图像信息获取。如将TOF深度相机用于大场景的三维建模,其实时性强、分辨率高,且受光照和表面纹理影响小,采用多相机布置方式可以解决大范围机器人作业空间中目标和障碍物相互遮挡的问题。
2.传统机器视觉方法向基于深度学习架构的视觉感知系统转换
越来越多的机器人视觉感知场景存在检测和识别等任务复杂、精准模板创建困难、特征难以人工选择等问题,导致传统的机器视觉方法难以适应,而基于深度学习的机器人视觉感知能有效地解决这些实际的现场问题。深度学习依靠数以万计的参数对高维目标函数进行学习优化,从而获得有效的特征信息。如深度神经网络根据不同像素的值提取不同层次的特征,由高层到低层,由像素到边缘,再由各种边缘组合成目标的不同部位,最终实现目标检测和跟踪等功能,这些是传统的机器视觉方法难以完成的。但是,由于深度学习往往需要大量的数据作为训练数据集、依赖强大算力的GPU等硬件、参数量大、可解释性差等问题,因此传统的机器视觉感知系统在未来很长一段时间内仍然是不可完全取代的解决方案。
如图1-4所示,传统的喷码字符缺陷检测方法首先进行喷码图像的预处理,然后用图像处理方法对其字符区域进行定位和分割,最后把得到的字符输入基于机器学习的识别器中进行识别。基于深度学习的喷码检测系统通过目标检测架构得到每个喷码字符所属的类别和位置,再设置相关质量检测标准,最后比较字符检测结果和检测标准得到整体喷码图像的检测结果。
图1-4 传统机器视觉方法和基于深度学习架构的喷码字符检测
3.协作机器人对视觉感知系统提出了更多更高的要求
协作机器人与人工智能技术融合发展意义重大,融合人工智能的协作机器人被Science Robotics综述列为机器人十大发展挑战。在工业现场,机器人协助人类进行生产已经成为一种迫切的需求,人机协作能兼顾人的灵巧性和机器人的高可靠重复性完成柔性、灵活性等要求高的工作任务。根据英国银行巨头巴克莱的预测,到2025年,全球工业协作机器人的销售额将以年增长率50.31%的速度增长到123.03亿美元。2020年全球爆发的新冠疫情对全世界造成了巨大的冲击,也让人们更加深刻地认识到协作机器人的重要性。如协作机器人可以自主完成配药、咽拭子检测、医用垃圾处理、公共环境下病毒消杀等任务,极大降低了病毒传染风险。未来研究将聚焦协作与共融机器人对智能感知与控制关键理论、技术的迫切需求,有效地解决环境恶劣、劳动强度大、单调易错等工作岗位用工荒等问题,提高航空航天、海洋工程、轨道交通、新能源等高端制造行业自动化加工制造水平,在保障工业产品质量等方面发挥巨大作用,并且为疫情防控等公共卫生安全提供可靠的技术手段,产生显著的经济社会效益。
如图1-5所示,通过将三维视觉、六维力触觉信息等不同类型感知任务获取的结果相互融合,搭建多类感知融合与协同处理架构,为人机协作与共融提供可靠的感知支撑,是未来的研究方向。
图1-5 协作机器人感知与控制
4.结合轻量化网络与嵌入式平台的低成本高性能机器人感知系统
基于传统的机器视觉方法的机器人感知系统在诸多领域取得了很好的应用和效果,技术已较为成熟,理论性较强、速度快、过程可视化,并且只需要少量的样本实验即可实现。然而,大多数传统机器人视觉方法需要工程师结合具体的任务和获取的图像手工设计特征,而且要求获取的图像有较好的同一性,感兴趣区域和图像背景有较好的区分度,在实际系统开发中,如果被检区域背景复杂、图像背景干扰大、图像光照条件分布不均等情况发生,将很大程度上影响感知系统的结果和性能。深度学习是人工智能研究上的一项重大突破,也是使得人工设计的智能得以超越人类的重要原因。深度学习的发展极大地推动了计算机视觉和机器学习领域研究的进步。深度学习和传统机器学习在数据准备和预处理方面有许多相似之处,二者主要区别在于特征提取方面。传统机器学习依赖于人工选择特征,在一些简单的任务场景下,人工选择的特征简单有效,但泛化能力弱。深度学习的特征则不需要人工提取,在深度神经网络(Deep Neural Network,DNN)的学习过程中便可以自动获得。深度神经网络是在传统神经网络上的升级,它有更深的网络层数和更加复杂的计算过程,理论上可以映射到任意函数,所以能够解决很复杂的问题。深度学习极大依赖于数据驱动,理论上数据量越大,深度神经网络模型的表现就越好。目前深度学习算法在图像分类、目标分割和光学字符识别等方面都优于传统机器学习算法,深度学习技术也被广泛用于文字检测和识别领域。
自AlexNet在2012年的ImageNet竞赛上获得冠军,卷积神经网络(Convolutional Neural Network,CNN)在图像分类、图像分割和目标检测等经典计算机视觉领域的任务上获得了广泛的应用。随着人们对性能的要求越来越高,CNN的精度也在被不断提升。深度神经网络为获得更好的性能,其网络层数不断增加,如前期研究的7层AlexNet结构,依次发展到19层VGG、22层GoogLeNet、152层ResNet甚至上千层的DenseNet。模型深度的增加在一定程度上提升了性能,但并未很好地解决复杂模型引起的效率问题,一方面大型深层的网络结构有大量权重参数,参数保存需要有更大的设备内存;另一方面大型深层网络在推理过程中有更多的计算操作,耗费时间更长。实验室环境下可以通过不断提升设备内存和处理器性能,来提高深层网络的运行效率,但为保证深层网络能被广泛应用于移动端或嵌入式系统中,网络模型除了要满足相关性能指标外,还要根据实际条件设计出轻量化的网络结构。因此,轻量化神经网络模型的设计一直是工业上和学术界的研究重点。
嵌入式系统是由软件和硬件组成的综合体,是能够独立运行的器件。与一般的计算机处理系统相比,嵌入式系统具有高性能、低功耗、低成本和体积小等优势。嵌入式系统以应用为中心,专用性强。早期由于受到硬件水平的限制,嵌入式系统的硬件平台一般是基于8位机的简单系统,系统的设计者们在开发过程中需要同时考虑硬件和程序之间的配合。随着计算机软硬件技术的发展和更加复杂的应用需求,没有操作系统成了传统嵌入式的最大缺陷。随后,嵌入式系统的设计中提出了“片上系统”(System on Chip,SoC),SoC是信息系统核心的芯片集成,是指将完整的系统集成在一块芯片上,包括集成处理器(如CPU、GPU、DSP)、存储器、各种接口控制模块以及互联总线等。在SoC上软件和硬件之间可以实现无缝的结合,为高性能的嵌入式系统开发提供了功能丰富的硬件平台,而这些平台强大的运算能力和存储能力,足以支持复杂嵌入式操作系统(Embedded Operating System,EOS)的运行。
目前国内外主要使用的嵌入式平台架构有ARM、x86、MIPS、RISC-V等,它们大都使用的是单核处理器,对于处理一些传统领域的算法基本可以满足性能要求,但对于深度学习领域中大量数据的运算效率很低。为了提升算力,多核处理器芯片开始出现,不仅提高了CPU的处理性能,同时还能保持嵌入式系统低功耗的特点。人工智能的高速发展离不开大数据、计算机运算能力和算法这三个层面,一些良好的深度学习算法也对处理器提出了更高的要求。GPU是片上系统的重要组成部分,不同于CPU擅长调度、管理、协调等统领全局的复杂操作,GPU则擅长处理图形方面以及大数据的计算。GPU关键性能是并行计算,且有大量的核心数支持,同时它还具有更高的访存速度和浮点运算速度。因此,GPU非常适合用于提升深度学习中神经网络模型的计算效率。人工智能的发展突飞猛进,大数据计算领域正在经历重大变革。为此,NVIDIA公司推出了一系列人工智能超级计算平台、GPU加速器等。其中Jetson系列的嵌入式平台(见图1-6)以其高效性能运算、体积小、功耗低等特点在许多人工智能场景中得以应用,例如机器人、无人机、工业PC和数字医疗设备等智能终端产品。
图1-6 基于Jetson嵌入式平台的机器人感知处理终端