视频处理加速及应用实践:基于英特尔GPU
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 人眼视觉系统概述

在介绍视频处理之前,通常要了解人眼视觉系统(human visual system)结构以及人眼的成像原理,因为所谓的图像就是对人眼看到的世界的模拟,但是鉴于介绍人眼系统的书籍已经很多了,这里仅做简要介绍。

人的眼睛是一个近似球状的物体,通常称作眼球。眼球包括眼球壁、神经以及血管等组织,影响视觉的主要是眼球壁。眼球壁由三层质地不同的膜组成。外层是角膜和巩膜。角膜在最外层,经常接触外界,所以容易发炎。巩膜是角膜内侧坚韧的白色膜层,俗称“眼白”。眼球壁的中层由虹膜、脉络膜和睫状体组成。虹膜是中间层外侧的环状膜层,虹膜有两个著名的应用:一个是用于身份识别,因为每个人的虹膜的细节特征是唯一的,在很多科幻电影中都会看到使用虹膜作为密码来保证贵重物品的安全;另一个是控制瞳孔的大小,在虹膜的内缘,照相机镜头上的光圈就是仿照瞳孔设计的,可以控制入射光的数量,猫能在黑夜中看清物体就是靠调节瞳孔的尺寸实现的。脉络膜紧贴巩膜的内面,含有丰富的黑色素细胞,它如同照相机的暗箱,可以吸收眼球内的杂散光线,保证光线只从瞳孔内射入眼睛,以形成清晰的影像。睫状体在巩膜和角膜交界处的后方,能够调节晶状体的凸度,又称曲率,近视眼就是睫状体的调节能力不够导致的。眼球壁最里面的一层透明且薄,但结构非常复杂的膜就是我们熟知的视网膜,它是人眼光学系统的成像幕布,就好像传统相机的胶片底片,形状类似一个凹形的球面,这样就使得人眼有了更广阔的视野,视网膜是眼球真正用来感光的部分。

在简要介绍了人眼的物理结构之后,我们来看人眼是如何看到外部景物,又是如何感受到色彩的。首先我们知道人眼并不能发光,火眼金睛只是人们的一个梦想。人眼之所以能够看到外部的景物,是由于有光线进入人的眼睛,刺激到了人眼视网膜上大量的视觉感光细胞,引发了对光的反应。我们初中学过的小孔成像的原理就是对这个过程的完美解释。来自外界的光线经过角膜以及睫状体的折射后,最后落到视网膜上,这样,物体不同位置的光线会落到视网膜的不同位置上,就形成了一个左右换位、上下倒置的影像,而人眼经过长期的训练会进行自动调节,把倒立的、左右颠倒的景物在大脑中形成一个自然正立、左右正确的影像。当然,人眼看到的光是有一定的范围的,并不能看到所有的光,这部分人眼能看到的光一般称作可见光。

依附在视网膜上面的视细胞(visual cell)包含感光神经元,内含感光物质,在光的刺激下,感光物质可以发生一系列的神经冲动,传给神经组织,从而使人类的大脑产生光的信息。视细胞根据树突形状的不同,可以分为视锥细胞(cone cell)和视杆细胞(rod cell)。视锥细胞主要能够感知三种色彩,分别是红、绿、蓝,通过这三种色彩的强弱变化、排列组合,人眼就能感受到多种多样的色彩,当然视锥细胞也可以感知光的强度,但是要达到一定的阈值才行。而视杆细胞则只能感知光的强度,不能感知色彩,而且还要在光线较暗时才能发挥作用。

猫可以在晚上看到景物,而人却不行。猫的瞳孔在夜晚可以变得很大,这样就有更多的光线进入猫眼,而人眼的瞳孔变化范围较小,进入眼睛的光线也较少。另外,人的瞳孔调节速度也是有限制的,比如晚上突然开灯或者突然关灯,人眼都需要一段时间才能适应,就是因为人的瞳孔调节能力没有那么强,不能马上适应环境的变化,而且突然增强的光线会损伤人眼的感光细胞,甚至造成永久性伤害。

通过对人眼的物理结构的介绍,我们了解了人眼感受光以及色彩的原理,那么从物理学上看,人眼的物理特性又包括哪些呢?物理学上的透过现象看本质的方法一般都是时域变换到频域,然后从频域上来分析其特点。而且光谱也可以被看作一个频率谱,所以从频域上我们可以看到,人眼具有对多频信号独立分析的能力,有点类似于带通滤波器,举个例子,给人眼某个固定频率的较长时间的光刺激后,人眼对同样频率的刺激灵敏度就降低了,但是对其他频率段的刺激灵敏度不受影响。人眼视觉系统的时域、频域以及强度等方面的特性都是相互的,举个例子,当有物体快速通过时,人眼很难捕捉到物体的细节,当频域的范围较高时,人眼对闪烁的敏感度下降等。人眼还有一个重要的特性就是视觉暂留效应,就是说人眼看到的景物在大脑中会缓存一段时间,这段时间大概是100毫秒,然后当前景象在大脑的缓存会被新的景物替换掉。这个特性绝对是人们赖以生活的重要因素。试想一下,如果我们看到的景物没有缓存直接清除掉,人们将会看到一个个独立的割裂的景物,没有连续的画面,将会是多么诡异的场景。

人眼的构造,以及很多动物眼睛的构造,都是人们研究世界的物理基础和理论基础。例如,基于对人眼的研究,人们创造了相机;基于对鹰眼的研究,人们创造了即时回放系统,该系统被广泛应用到体育比赛中;基于对苍蝇复眼的研究,人们创造了机器人视觉系统、导航系统等,都得到了广泛的应用。对于本书讨论的视频处理系统来说,了解人眼的构造、物理特性等特点,有助于我们理解编解码算法设计的原理,提高我们对参数应用的理解和使用。例如,人眼对光线强度变化的敏感性要高于对光线频率变化的敏感性,换成图像处理的术语,就是人眼对亮度变化的敏感度要大于对色度变化的敏感度,这样我们就需要给亮度分配更多的比特;而从频域来说,人眼对低频分量的敏感度要高于对高频分量的敏感度。所以我们可以扔掉更多高频信息,保留更多低频信息,这样才有更好的效果。