1.1 图像及图像工程
1.1.1 对图像的认识
众所周知,人类是借助视觉、听觉、触觉、味觉、嗅觉等方式来感知世界的。而视觉是人类从客观世界中获取物体的颜色、纹理和形态大小等信息的最主要手段,是我们自出生以来的体验中最重要、最丰富的部分,更是人类感知色彩斑斓的世界,进而传递、表达和理解视觉信息来认识世界和改造世界的主要途径。
从人类视觉的角度来讲,图像就是二维或三维景物呈现在视网膜上的视觉记忆。按章毓晋在其编著的《图像工程》中的描述,图像应该包含两层含义,即“图”和“像”。所谓“图”,就是物体透射或者反射具有一定波长范围和能量的光分布;“像”是人的视觉系统接收图的信息而在大脑中形成的印象或认识。前者是客观存在的,而后者是人的感觉(推测是在象的左边放上单立人的缘故)。图像应该是两者的结合,即客观世界通过光学系统产生的视觉记忆,是对客观存在的物体的一种相似性描述或写真。因此,图像中肯定包含了被描述对象的相关信息,比如形状、大小、颜色、位置及相互关系等。或者从广义的角度出发,我们可以这样认为:图像是用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼而产生视知觉的实体。人眼、数码相机、摄像机,以及搭载在各类航空航天平台上的传感器等等都可以认为是有效的观测系统。
根据人眼视觉的可视性可将图像简单地分为可见图像和不可见图像。如果我们考虑将所有物体作为一个集合,图像则形成了其中的一个子集,并且在这个子集中的每幅图像都和它所表示的物体存在着某种对应关系。在图像集合中,有一个非常重要的、包含了所有可见图像,即可由人眼看见的图像的子集。在该子集中又包含几种不同方法产生的图像的子集,一个子集为图片,它包括照片、图(指用线条画成的,类似于AutoCAD的绘图产品)和画(油画、素描、水粉画等);另一个子集为光图像,即用透镜、光栅和全息技术产生的各种光学图像。不可见的物理图像如温度、压力、高度以及人口密度等的平面或空间分布图。它们无法用人眼直接进行观察,但是可以借助特定的测量仪器或统计方法获得并通过处理使其可见。
还有一种图像子集是由连续函数或离散函数构成的抽象的数学图像。我们认为,图像各个位置上的属性值乃是多种因素(包括光源的强度、颜色、位置和性质,场景中物体的位置、反射率和透明度,传输媒质的透射率、折射率、吸收和散射特性,以及成像设备的光电特性)交互作用的结果,图像具有空间坐标和属性。根据其连续性,可将图像分为模拟图像和数字图像。模拟图像又称为光学图像、物理图像或连续图像。这种图像类似于用胶片成像而得到的相片,是指空间坐标和图像数值连续变化的、计算机无法直接处理的图像,描述了物质或能量的实际分布,属于可见图像。数字图像则指空间坐标和图像数值不连续的、用一定的数字编码存储的、可用计算机直接处理的图像。一幅图像可定义为一个二维连续函数f(x,y),这里x和y是空间坐标,而在任何一对空间坐标(x,y)上的幅值f称为该点图像的强度(亮度或灰度)。当x、y和幅值f都为有限的离散数值时,称该图像为数字图像。关于连续图像和离散图像的概念及联系,将在后面详细叙述。
图1.1表示图像的基本类型。这幅关于图像基本类型的分类图最早出现在1996年[美]Kenneth R.Castleman编著的《Digital Image Processing》中,且已经在国内很多关于图像处理的教科书中出现过,概括得很全面,也比较合理。
图1.1 图像的基本类型
也可以从不同的侧面对图像的类型进行认识。
第一种类型,考虑图像的色彩特性,把图像分为灰度图像(或黑白图像)和彩色图像。黑白图像(或灰度图像,Intensity Images)在每个像点上只有一个归一化的取值表示亮度值的分布,不包含彩色信息的图像。就像我们平时看到的亮度由暗到亮的黑白照片,变化是连续的。二值图像(Binary Images)是灰度图像的特例,一幅二值图像由取值只有0和1的逻辑数组元素构成。而彩色图像每个像点上的属性值可被分解为红、绿、蓝三个不同的亮度值,这个属性值表示物体在不同光谱段上的反射强度,可通过视觉感知而得到不同的颜色。通常可把彩色图像分为索引图像(Indexed Images)和RGB图像(RGB Images)。索引图像有两个分量,即整数的数据矩阵和彩色映射矩阵,映射矩阵的每一行都定义单色的红、绿、蓝三个分量,索引图像将像素的亮度值“直接映射”到彩色值,每个像素的颜色由对应的整数矩阵的元素值指向彩色映射矩阵的一个地址决定。RGB图像是由按一定顺序排列的各个像素的R、G、B三个颜色值直接表示的。
第二种类型,根据图像的时间特性,把图像分为静态图像和动态图像。简单地说,我们常见的照片就是静态图像,而电影或电视画面就是动态图像。动态图像又称为视频图像、活动图像、运动图像或序列图像,它是由一组静态图像在时间轴上的有序排列构成的。
未加特殊提示,书中所说的图像指的是静态的灰度或彩色图像。
1.1.2 图像工程及包含的内容
在广义上,图像工程是指各种与图像有关技术的总称。按系统工程的观点,把图像工程描述为一个金字塔式的“处理锥”,即以原始图像数据为锥底,通过预处理和图像变换阶段,然后上升到特征提取和识别,最后以知识为引导,经过推理和理解达到锥顶,即求得图像处理问题的解答。整个系统以图像处理算法控制流、图像数据流为线索,组成高层次的智能化图像处理系统。常规而言,图像工程所涉及的研究内容按照抽象程度和智能化水平可分为三个层次,即图像处理、图像分析和图像理解。其层次分布如图1.2所示。
图1.2 “金字塔”式的处理锥
图1.2左侧标注“高水平”与“低水平”的纵线代表的是对图像数据处理过程中所采用算法对应的抽象程度及智能化水平的描述,也可以考虑是通过低级、中级和高级的三种类型的综合算法用计算机处理来划分。抽象程度高,数据量逐渐减少,研究难度越来越大,技术含量越来越高。而研究内容的三个层次相互间实际上是有交融的,目前并无十分明确的界定。如图像处理和图像分析两个层次比较合乎逻辑的重叠区域应该是对图像中特定目标对应区域的提取与识别这一领域。
图像处理(Image Processing),与处理锥的第一层至第三层的研究内容相关。主要是对图像信息进行加工得到满足人的视觉心理或应用需求行为的图像,为目标自动识别和图像理解打下基础,或对图像进行压缩编码,以减少图像的存储空间或提高对其传输的速度等。大体上可以这样认为,图像处理是一个从图像到图像的过程,主要研究内容包括图像的采集与获取、图像变换、图像降低噪声的预处理滤波、图像对比度增强和图像锐化、图像复原、图像重建和图像编码等。
图像分析(Image Analysis),与处理锥的第三层至第四层的研究内容相关。要求对图像中感兴趣的目标进行特征提取和测量,以获得目标的客观信息,从而帮助我们建立对图像的描述。特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征(边缘、角点、区域或颜色、纹理、形状、空间关系特征等)。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征描述又称特征选择,选择特征是某些感兴趣的定量信息或区分一组目标与其他目标的基础。识别则是基于目标的描述给目标赋予标号的过程。比如从图像上提取目标的边缘(区分一个图像区域和另一个区域的像素集)、轮廓以及单个对象的特征信息,并进行细化、连接和矢量跟踪以表达和测量目标。图像分析是一个从图像到数据的过程。这里的数据可以是对目标特征测量的结果,或是基于测量的符号表示,它们描述了图像中感兴趣目标的某些特点和性质。
图像理解(Image Understanding),则位于处理锥的顶层。主要是指在图像处理及图像分析的基础上,进一步研究图像中的目标及其相互之间的联系,通过执行通常与人类视觉相关的感知函数,做出对图像内容含义的理解以及对原来客观场景的解释及总体确认,从而可以指导和规划行动。研究内容包括图像匹配、图像解释与推理等。
由上述分析可知,图像处理、图像分析和图像理解是处在三个抽象程度和数据量各有特点的不同层次上。图像处理是比较低层的操作,也是最基础的操作,它主要在图像的元素(像素)上进行处理,处理的原始图像数据量非常大;图像分析位于图像工程的中层,利用图像分割和特征提取等技术把原来以像素描述的图像转变成比较简洁的非图像形式的符号描述;图像理解则主要是高层操作,基本上是相关的符号运算和语义描述。图像理解的处理过程和方法与人类的思维推理有许多类似之处,人工智能、模式识别、计算机视觉和专家系统的很多研究成果可以应用到图像的理解中。抽象程度和对智能化要求的提高,涉及的数据由原始的图像数据到一些特征的描述,数据量是逐渐减少的,但是研究难度越来越大,与处理者的经验、智能相关性提高,技术含量也越来越高。
另外,像计算机视觉这样的领域,其最终目的是用计算机来模仿人类视觉,包括学习和推理,并根据视觉输入采取相应的行动。该领域本身是人工智能的一个分支,其目的是模仿人类智能。
随着图像处理技术研究的不断深入,上述三个层次作为图像工程这个连续的统一体内紧密相关的研究内容并没有明确的界限,区分的界线也变得十分模糊,很多内容已经交融在一起并互相促进。所以,想从技术上严格地区分图像处理、图像分析和图像理解是十分困难的。近些年对图像工程研究的趋势表明,国内外诸多学者将从图像中提取目标特征的方法、图像简单的代数运算、三维建模和场景恢复等也逐步归入图像处理的技术范畴。
图像工程过程模型如图1.3所示。整个图像处理过程可概略地分为如下几步:第一步是由图像输入装置把图像送入计算机。一般情况下,输入的图像中常常包含着各种噪声或失真,这就需要第二步,即去除噪声和失真,使图像变得易于观看,或者使图像中的对象物变得易于识别。这一过程称为图像预处理,主要包括图像增强处理、图像几何校正、二值化处理等。第三步是为区分对象物和非对象物而进行的图像固有特征提取。例如在进行文字识别时,就需要提取文字轮廓线的形状及笔画线段的位置、方向、交点、闭合框等几何特征。主要包括边缘提取、细化处理、膨胀与收缩、尺度量算及标注等。第四步是利用提取出的特征来识别对象物。包括模型匹配、结构分析和语义描述等。不过,实际中很少能仅由最初设想的各步骤内容一成不变地进行到识别为止,而是一边由人来观察各过程的处理结果,一边对其进行修正或追加处理内容,即给处理过程加上必要的反馈,使处理结果满足要求。
图1.3 图像工程过程模型