1.2 机器人视觉感知发展趋势
随着半导体技术、图像传感技术、图像处理器及图像处理技术的进步,视觉成像系统及获取的图像处理方法获得了很大的发展,已由模拟成像模式发展到当前的数字成像系统,并且正朝着智能化、小型化和集成化的方向发展。然而目前国内在该领域的成果主要集中在图像处理算法研究方面,但是对成像硬件系统、高速高质量图像传感器等核心硬件的研发能力非常薄弱,这些元器件基本上靠国外进口。
由工信部、国家发改委、科技部等15个部门正式印发《“十四五”机器人产业发展规划》对“十四五”时期机器人产业发展做出了全面部署和系统谋划。如专栏1机器人核心技术攻关行动的共性技术和前沿技术中的信息感知与导航技术、多机器人协同作业技术、机器人仿生感知与认知技术、人机自然交互技术、情感识别技术;专栏2机器人关键基础提升行动中的三维视觉传感器、大视场单线和多线激光雷达等都与视觉感知紧密相关。
Lecun于1998年首次提出基于卷积神经网络LeNet-5的手写数字识别方法[1],使得卷积神经网络逐渐获得重视。Geoff Hinton的博士生Alex Krizhevsky等人[2]于2012年设计AlexNet,并获得ImageNet分类竞赛的冠军。此后,基于一定深度的卷积神经网络的研究获得了空前的关注,并在语音识别、图像处理、模式识别等领域取得了突破性的研究成果。越来越多的机器人视觉感知方法都依赖于深度学习等人工智能方法的设计和应用。
深度学习近年来在图像、自然语言、智能决策等领域获得了快速的发展,与数据挖掘、云计算、边缘计算等技术一起加速了人工智能在不同领域的落地应用。深度学习网络能更好地表征高维度特征,通过对海量图像数据进行学习,自动获取有效的高层次语义特征信息。相比于传统的神经网络,深度卷积神经网络(Convolutional Neural Network, CNN)的主要特点是局部感知和参数共享机制,使其能很好地处理复杂背景的图像。卷积神经网络首先读取原始图像,通过模型训练从大量样本中学习到对任务最有效的抽象特征,不再需要工程师手动设计相关特征提取方法。特征提取方式的不同是深度学习与传统图像处理方法最大的不同。与传统的人工特征提取相比,基于深度学习的图像处理系统大大简化了工程师的工作任务,且可以提取到更加丰富和有效的特征。具体而言,深度学习网络与模型从底层开始,组合每一层获取的特征,不断地筛选更加抽象的特征并传递到下一层网络,最终获得高维和抽象的特征。深度学习具有特殊的模型结构组织方式,随着网络结构的不断加深,结合新型网络模型结构、特殊模型训练技巧、反向传播算法和随机梯度算法,在理论上深度学习可以表达任何函数的网络模型。