第1章 绪论
1.1 机器视觉
视觉是人类重要的感知方式之一,它为人们提供了关于周围环境的大量信息,使得人们能有效地与周围环境进行交互。据统计,人类从外界接收的各种信息中有80%以上是通过视觉获得的,人类有50%的大脑皮层参与视觉功能运转。
视觉对于多数动物来说有着至关重要的意义。计算机视觉方面的知名学者李飞飞曾这样描述:眼睛、视觉、视力是动物最基本的东西。在寒武纪生命大爆发之前,地球上的生物种类稀少。寒武纪生命大爆发阶段,新物种突然增多,在短短的一千万年里生物种类出现了数十万倍的增长。寒武纪生命大爆发的原因至今没有公认的答案,但其中一个观点是这与生物视觉有很大关系。牛津大学生物学家Andrew Parker通过研究生物化石发现,5.4亿年前三叶虫最早进化出了眼睛(图1-1a)。动物有了视觉后就能看到食物,然后开始主动捕食,从而有了捕食者与被捕食者之间的复杂行为的演化,使动物种类不断增多。因此,很多科学家认为生命大爆发始于动物获得视觉后求生的过程,视觉在生物进化过程中极其重要。
图1-1 三叶虫、螳螂虾和蜻蜓的眼睛
a)三叶虫 b)螳螂虾 c)蜻蜓
关于视觉有很多有趣的发现,比如螳螂虾的眼睛能探测到偏振光。人眼以及普通相机只能感受到光的强度信息而不能探测到光的偏振信息。澳大利亚昆士兰大学的研究人员发现,螳螂虾的复眼(见图1-1b)能探测到偏振光。根据生物医学及光学方面的理论知识,生物组织特性与偏振信息有关,所以螳螂虾的眼睛是能够“诊断”出生物组织的病变的(https://phys.org/news/2013-09-mantis-shrimp-world-eyesbut.html)。此外,蜻蜓等昆虫具有复眼结构(见图1-1c),蜘蛛有很多只眼睛,青蛙的眼睛只能看到动态场景,狗对色彩信息的分辨能力极低。
那么,介绍完生物的视觉功能之后,什么是机器视觉呢?
机器视觉是机器(通常指数字计算机)对图像进行自动处理并报告“图像是什么”的过程,也就是说它用于识别图像中的内容,比如自动目标识别。
计算机视觉一般以计算机为中心,主要由视觉传感器、高速图像采集系统及专用图像处理系统等模块组成。
根据David A. Forsyth和Jean Ponce的定义,计算机视觉是借助几何、物理和相关技术理论来建立模型,从而使用统计方法来处理数据的工作。它是指在透彻理解摄像机性能与物理成像过程的基础上,通过对每个像素值进行简单的推理,将多幅图像中可能得到的信息综合成相互关联的整体,确定像素之间的联系以便将它们彼此分割开,或推断出一些形状信息,进而使用几何信息或概率统计计数来识别物体。
从系统的输入输出方式考虑,机器视觉系统的输入是图像或者图像序列,输出是一个描述。进一步讲,机器视觉由两部分组成:特征度量与基于这些特征的模式识别。
机器视觉与图像处理是有区别的。图像处理的目的是使图像经过处理后变得更好,图像处理系统的输出仍然是一幅图像,而机器视觉系统的输出是与图像内容有关的信息。图像处理可分为低级图像处理、中级图像处理和高级图像处理,处理内容包含图像增强、图像编码、图像压缩、图像复原与重构等。