智能驾驶:视觉感知后处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 视觉感知在智能驾驶中的应用

1.2.1 计算机视觉概述

视觉是人类观察和认知外部世界的重要手段。人类获得的外部信息中有80%是通过视觉器官获取的。计算机视觉是通过图像或者视频数据来感知、识别和理解客观世界,从而达到模拟人眼的目的。它主要以数码摄像机拍摄的数字图像或数字视频为原始数据,从中提取出在图像或视频中能观察到的事物。

David Marr在其著作Vision中提出了计算机视觉计算理论框架(见图1-2)。该理论受人工智能和神经科学两方面的影响,是计算神经科学的前驱,也是对视觉计算理论研究影响最深刻的理论之一。

图1-2 计算机视觉计算理论框架

Marr指出,视觉实际上是一个层次化、模块化的信息处理过程,通过该处理过程最终建立一个外部世界的描述。视觉信息处理大致可以分为3个步骤:前期视觉信息处理、中期视觉信息处理、后期视觉信息处理。前期视觉信息处理是将原始图像转换为包括边缘、线段、角点、纹理等特征的基本要素图;中期视觉信息处理是完成2.5维描述,即对物体表面、深度及轮廓进行描述,是观察者坐标系下的部分三维描述;后期视觉信息处理是完成完整的三维描述,即对物体实现形状与空间位置的三维模型描述。视觉信息处理研究包括计算理论、算法描述和硬件实现3个方面,既要从计算理论出发研究计算策略、约束条件、基元等,又要设计三维重建算法,并用硬件实现。

1.2.2 计算机视觉原理

计算机视觉系统以图像模型的形式构建或复原现实世界,认知现实世界。计算机以及信号处理理论出现后,人们开始尝试使用摄像机等图像捕捉设备代替人眼获取图像,然后使用计算机或嵌入式处理器等代替人脑分析、认知和理解数据,由此诞生了计算机视觉学科。计算机视觉学科要实现的最终目标是使计算机和机器能够像人类那样观察和理解世界,目前应用中的一般目标只是让计算机和机器能够达到一定程度的智能要求。

计算机视觉的研究始于20世纪50年代,最初是通过统计模式识别方法识别光学字符。1959年,Russell等人成功研制出第一台数字图像扫描仪,从此揭开了数字图像处理的序幕。20世纪60年代初,数字图像处理学科形成,一些研究人员开始通过计算机编程提取简单形体的三维结构,从而得到物体形状和空间位置关系。同时,更多的研究人员开始研究图像特征提取,分析图像灰度、纹理、运动等,形成了很多方面的研究标准和统一规则。

20世纪80年代前后,MIT开设了计算机视觉理论的课程,标志着计算机视觉理论有了明确的体系。这一事件对于计算机视觉的发展起到了积极的推动作用。此后,越来越多的工程学者开始投身于计算机视觉的研究和应用领域。

到2006年,Hinton等人提出了深度神经网络(DNN)的概念,为计算机视觉领域的研究提供了新的工具和方法。随着深度学习技术的快速发展和应用,计算机视觉领域的研究也取得了重大突破。

1.2.3 计算机视觉在智能驾驶中的应用

在智能驾驶领域,智能驾驶系统可以通过图像识别和目标检测等技术,对车辆周围的环境进行感知和分析,从而为驾驶员提供更加准确和及时的驾驶辅助信息。例如,智能驾驶系统可以通过计算机视觉技术识别车道线、交通信号灯、行人、其他车辆的位置和速度等信息,并根据这些信息进行自动驾驶或辅助驾驶员进行更加安全、高效的驾驶。

视觉感知系统主要以摄像头作为传感器输入,经过一系列的计算和处理,实现对自车周围环境的精确感知。它的目的在于为融合模块提供准确、丰富的信息,包括被检测物体的类别、距离、速度、朝向以及抽象层面的语义信息。因此,视觉感知系统的道路交通感知功能主要包括以下3个方面。

1)检测和识别物体:视觉感知系统能够检测和识别道路上的各种物体,包括车辆、行人、道路标志、交通信号灯等,并为驾驶员提供准确的距离和速度信息。

2)判断交通情况:视觉感知系统能够根据交通场景中的各种因素,如车辆行驶轨迹、交通信号灯状态、道路标志等,判断交通情况,提供实时的交通信息。

3)提取语义信息:视觉感知系统能够根据检测到的物体和场景信息,提取出抽象层面的语义信息(如车辆行驶意图、行人行为意图等),为决策模块提供参考依据。

这3个功能可以通过一个主干深度神经网络实现。这样不仅可以提高检测速度、减少计算参数,还可以通过增加主干深度神经网络层数的方式提高检测和分割精度。如图1-3所示,我们可以将视觉感知任务分解成目标检测、图像分割、目标测量、图像分类等。

图1-3 视觉感知任务分解图

1.2.4 视觉后处理与智能驾驶

在“2D感知+以规则为主”的规划控制模块框架中,视觉后处理的重要性不言而喻。它是将图像坐标系下的环境信息转换为世界坐标系下的信息,让车辆更好地理解道路状况、交通参与者以及潜在的危险。通过这种处理,智能驾驶车辆可以更准确地掌握道路上的情况,从而更好地规划行驶路径和避让障碍物,提升行车安全性。同时,视觉后处理的结果还可以为后续的决策规划提供关键依据,帮助车辆在复杂多变的路况中做出正确的决策。

在进行视觉后处理的过程中,车辆需要完成一系列复杂的计算和推理。首先,对采集到的图像数据执行降噪、增强等预处理操作,以提高图像的质量和清晰度。然后,通过坐标转换将图像坐标系下的环境信息映射到世界坐标系下,实现车辆对环境的感知和理解。这个过程需要用到复杂的逻辑运算和各坐标系之间的旋转平移运算,以确保坐标转换的准确性和实时性。

在完成坐标转换后,智能驾驶车辆就可以在世界坐标系下实施一系列策略。如通过测距技术,车辆可以精确判断前方障碍物与自身的距离,从而自动调整行驶速度或进行避让。同时,跟踪拟合技术大大增强了车辆对周围环境的感知能力。无论行人、车辆,还是交通标志,都能被有效地识别、追踪和预测,这为车辆的决策规划提供了有力支持。这些技术的运用不仅可以提高车辆的行驶安全性,还可以优化行驶路径和速度,提高道路通行效率。

但是,视觉后处理也存在一些挑战和限制。在某些恶劣天气(如雾霾、雨雪等)下,图像的清晰度和对比度可能会大幅下降,给视觉后处理带来巨大挑战。在这种情况下,车辆的感知能力和决策能力会受到严重影响,甚至可能导致安全事故。此外,对于高速行驶的车辆来说,短时间内获取大量图像信息并迅速处理、决策是一项极具难度的任务。这也促使研究者不断探索更高效、更稳健的视觉后处理方法,以进一步提升自动驾驶的安全性和可靠性;同时,还需要通过不断的研究和实践来验证、完善这些技术。

1.2.5 视觉感知在智能驾驶中的发展趋势

当前,“BEV+Transformer”框架已经逐渐投入实际应用。Transformer模型的特性在一定程度上解决了传统规则视觉后处理中的一些缺陷问题。通过使用Transformer模型提取的特征向量,可以在统一的3D坐标系空间实现特征融合,从而提升智能驾驶的感知能力。这种方式有助于减少对高精地图的依赖,优化极端场景(Corner Case)的处理。

此外,Transformer大模型结合时序信息进行动态识别,在智能驾驶过程中通过对车辆周围环境的时间序列分析,可以更好地理解和预测车辆的行为和状态。这种基于特征融合的方式也有助于提升智能驾驶的感知能力,提高行车的安全性和舒适性。