2.2.2 计算机视觉
1. 计算机视觉的概念
计算机视觉致力于使计算机能够以与人类视觉相同的观测方式对目标进行测量、识别和跟踪,从而代替人眼进行初步观测,同时还可以对识别出的目标进行进一步的操作,使处理后的图像更适于人眼观测或是机器检测。计算机视觉是一个跨学科领域,我们可以将其看成一门工程学科、一门科学学科或对生物视觉学科进行补充的学科,它涉及让计算机从数字图像或视频中获得更高层次的理解的工作。
作为一个工程学科,计算机视觉寻求基于相关理论与模型来创建计算机视觉系统。它从单个或系列图像中自动提取并分析信息,通过算法去理解其中的有用信息。它利用开发理论和算法基础实现自动视觉理解,组成部分包括过程控制、事件监测、信息组织、物体与环境建模和交感互动。
作为一门科学学科,计算机视觉更关注从图像中提取信息的计算机视觉系统背后的理论内容。图像数据的构成方式可以是多种形式的,例如视频序列、来自多个摄像机的图片或是医学仪器扫描出的多维数据。
作为生物视觉学科的补充,在生物视觉领域中,计算机视觉创建了人类和各种动物系统感知信息过程中使用的物理模型。
2. 计算机视觉的实现
(1)图像处理
图像处理是对图像进行处理、产生图像、提高特征的可见性过程,目的是便于后续分析。图像处理的常用方法包括图像预处理、图像分割和特征提取。
图像预处理的原理是通过增加对比度、去除模糊和噪声、校正失真等方法,提高图像质量。例如在实物的外部检测过程中,如果实物表面光照不均匀,往往就会得到低对比度的图像。提高图像对比度的常用方法有基本点运算(强度映射)和直方图均衡这两种。基本点运算是通过将亮度级别拉伸为输入级别和输出级别之间的映射来提高图像对比度的技术;直方图均衡是一种通过展平直方图来突出图像亮度的非线性技术。此外,还可以采用其他的亮度校正或变换方法来校正实体表面的不均匀对比度,特别是检测目标的中心和边缘。在线检测系统中,由于系统抖动等一些不可控因素,采集到的图像不可避免地会出现模糊和噪声。一些低通滤波器,如平均滤波器、高斯滤波器和中值滤波器,通常用于去除图像的模糊和噪声。针对检测到的目标图像畸形问题,可以用一些几何变换进行校正,如图像变换、旋转、镜像、转置和缩放等。
图像分割是一个最重要且最具挑战性的步骤,可以将图像中具有不同特性的区域和感兴趣的部分提取出来。后续的图像处理和分析高度依赖于图像分割的准确性。基于阈值的分割、基于边缘的分割、基于区域的分割和基于分类的分割是4种主要的分割方法。
特征提取是构造组合变量以充分准确描述图像数据的方法的技术术语。特征提取是连接图像处理和图像分析的关键步骤,该技术将图像数据或分割区域转换为一组特征(特征向量)。图像分割成功后,可以根据分割区域提取的相关特征来测量和描述图像的外部质量。
(2)图像分析
图像分析是将图像处理和数学模型相结合来分析图像的上层结构和底层特征,从而提取有用信息的技术。
图像分析对从图像中提取的特征进行操作并产生解释。图像分析使用直观的解释来显示图像,并以数学方式操作图像以帮助解决计算机视觉问题。图像分析的结果可以让我们洞察它可能包含的对象,并允许我们对这些对象进行测量,或验证它们的存在。测量和模式分类是图像分析中最重要的方法。
视觉测量是图像分析中的一种定量分析方法,是指根据从图像中提取的特征,定量测量感兴趣的参数的过程。使用计算机视觉系统可以进行不同类型的测量,包括颜色、尺寸和纹理等。对于颜色和纹理,可以直接通过检查图像中的像素获得。但是对于尺寸,则需要和实际单位中指定的值进行比较而获得。因此,需要通过校准和验证将测量从数字图像坐标系转换为真实世界坐标系。
模式分类,或称模式识别,是图像分析中定性分析的一种方法,它利用统计、概率、多元分析、计算几何和算法设计技术,根据测量特征进行推理。
3. 计算机视觉的应用
计算机视觉作为人工智能的重要技术之一,拥有极高的应用价值,在农业、医疗、汽车、军事科研、生物、体育、影视等领域有着广泛的应用,下面简要介绍计算机视觉技术在农业、医疗保健和汽车驾驶领域的应用。
(1)农业
一些农场开始利用计算机视觉技术改善经营状况。农户利用的基于计算机视觉的无人机与“智能系统”相连,该系统由传感器、处理器、存储设备、网络、人工智能分析软件和其他用户界面组成,用于测量和监控作物产量。无人机拍摄到的农田图像显示了健康作物与“受压”作物的不同特征。“受压”作物的压力源包括虫害、营养不足、脱水以及预估收获时的潜在产量等。智能系统会对数据进行分析,帮助农民做出压力条件治疗相关的决策。
(2)医疗保健
在医疗保健领域,计算机视觉技术被用于减少或消除不准确的诊断和治疗,帮助医务人员准确地进行可能治愈的疾病的分类或疾病趋势的预测等。例如,位于美国加州的高斯外科(Gauss Surgical)已经开发了血液监测解决方案,使用应用程序在外科海绵和吸盘上捕捉血液图像,再使用基于云的计算机视觉技术和机器学习算法进行处理,以估计实时失血量,为医务人员提供重要的辅助信息。
(3)汽车驾驶
根据世界卫生组织的统计,每年有125万多人死于交通事故。世界卫生组织补充说,如果不采取持续行动遏制这一趋势,预计到2030年,交通事故将成为第七大死因。当驾驶员看到有人突然进入汽车的前进路径时,必须立即做出反应,在这一瞬间,人类视觉和大脑完成了一项复杂的任务,即识别物体、处理数据和决定做什么。计算机视觉的目标是使计算机能够以相同的效率执行与人类相同的任务。计算机可以从用采集到的2D图像创建3D图像,并向汽车和驾驶员传递重要数据。同时,汽车配备计算机视觉,就能够识别并区分道路和周围的物体,例如行人、动物、自行车、红绿灯等实体,并相应地快速下达行动指令。