生成对抗网络:原理及图像处理应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 从图像处理到数字视觉

视觉,即“看”,是人类用眼睛感知世界最直接的方式,模仿人眼视觉功能的图像传感和显示等图像系统实际上就是机器视觉或计算机视觉(我们暂称它们为“数字视觉”)的雏形。因此,可以说图像处理是数字视觉的初级阶段。

从学科的形成和发展的角度看,图像处理形成比较早,是在20世纪60年代左右形成的一个相对独立的理论和技术领域;而数字视觉则是自20世纪90年代以来,随着计算机技术迅速发展而逐渐形成的一个新的以处理视觉信号为主的领域。

从字面上看,图像处理的对象是图像信号,数字视觉处理的对象是视觉信号,但实际上两者所处理的对象并没有多大的差别,都主要包括静止图像、视频图像、立体图像、虚拟现实图像及其他由非可见光形成的图像,如计算机断层(Computed Tomography,CT)图像、核磁共振图像、太赫兹(Tera Hertz,THz)图像、雷达图像等。一般来说,图像处理侧重于传统的平面或立体图像,数字视觉包含的图像种类更多、涉及的范围更广。在这个意义上,可以说数字视觉涵盖图像处理。

如果将讨论的范围进一步扩大到人工智能,则GAN、图像处理、ANN(Artificial Neural Network,人工神经网络)、数字视觉之间的大致关系可以用图1-1表示。图像处理作为一个相对独立的部分,是人工智能、数字视觉领域的理论基础、技术保证和工程实现的重要支撑之一;而GAN则是一项新技术,支持它的理论和技术基本上来自ANN、数字视觉和图像处理等。图1-1中没有专门标注计算机视觉和机器视觉的范围,大致和数字视觉差不多,也基本包含图像处理。

图1-1 GAN、图像处理、ANN、数字视觉之间的大致关系

1.1.1 数字图像技术

图像(Image)是人类获取信息的一个重要来源,相关研究表明,约有70%的信息是人类通过眼睛获得的图像信息。在当代科研、军事、航天、气象、医学、工农业生产等领域中,人们越来越多地通过图像信息来认识和判别事物并解决实际问题。例如,人们利用人造卫星拍摄的地面照片来分析地球资源、气象态势和污染情况;利用宇宙飞船所拍摄的月球表面照片来分析月球的地形、地貌;通过CT图像,医生可以观察和诊断人体内部是否有病变组织。在公安侦破中,可以通过指纹图像提取和比对来识别罪犯;在军事上,目标的自动识别和跟踪都有赖于高速图像处理;在交通领域内,通过计算机视觉对场景进行分析,进而实现汽车的无人驾驶。

随着人类社会的进步和科学技术的发展,人们对信息处理和信息交流的要求越来越高。图像信息具有直观、形象、易懂和信息量大等特点,已成为人们在日常生活、生产中频繁接触和使用的信息种类。近年来,随着信息社会数字化的进展,数字图像处理无论是在理论研究方面还是在实际应用方面都取得了长足的进展。计算机技术的应用、互联网的普及、人工智能的兴起、遥感技术的发展、数字处理芯片性能的提高及数学理论与方法的更新,对数字图像处理的发展起了关键性的推动作用,而数字图像处理技术的应用和发展又有力地促进和加速了上述各项技术的发展。

1.图像处理的发展历程

如果将1826年世界上第一张照片作为图像技术的开始,图像经历了光学图像、印刷图像、电子图像的发展历程。以电子方式获取图像,以数字方式处理图像,现代意义上的数字图像处理技术建立在计算机快速发展的基础之上,它开始于20世纪60年代初期,那时第3代计算机研制成功,快速傅里叶变换出现,图像的输出有了专用设备,从而使得某些图像处理算法可以在计算机上实现。

自20世纪70年代以来,数字图像处理逐渐从空间技术领域向其他应用领域推广。例如,在生物医学领域,随着CT技术的发明及其在临床诊断中的广泛应用,医学数字图像处理技术备受关注,成功推动图像处理的理论和技术跨上新的台阶。

到了20世纪八九十年代,以及进入21世纪以来,越来越多的从事数学、物理、计算机等基础理论和工程应用的研究人员关注并加入图像处理这一研究领域,逐渐改变了图像处理仅受信息工程技术人员关注的状况。各种与图像处理有关的新理论与新算法不断出现,如小波分析(Wavelet)、ANN、压缩感知(Compressed Sensing,CS)等已经成为图像处理中的研究热点,并取得了引人注目的进展。与此同时,计算机运算速度的提高、硬件处理器能力的增强,使人们不仅能够处理简单的二维灰度图像,而且能够顺利处理彩色图像、视频(序列)图像、三维图像及虚拟现实图像。

如今,图像处理技术已逐步应用到我们社会生活和生产的各方面中,如近年来蓬勃发展的医学图像处理、航天图像处理、智能图像分析、多媒体信息处理、遥感图像处理、生物图像特征识别、自动目标识别和跟踪、虚拟现实等技术,其中基于高速计算机和ANN的实现方法占据了重要地位。

2.图像处理技术的三个层面

传统的数字图像处理通常指利用计算机或/和专用处理设备(包括器件),以数字的形式对图像信号进行采集、滤波、去噪、增强、复原、变换、压缩、分割、分类、检测、提取、生成等处理,从而得到满足人们需求的图像信号。可见,数字图像处理就是根据特定的数学原理,采用某些信号处理方法,对数字图像信号进行有目的的处理,使其结果满足人们的视觉需求和其他应用需求。

数字图像处理发展到今天,既是一个前沿的理论研究领域,也是一个高端的工程技术领域,同时还是一个新兴的推广应用领域,这恰好反映了图像处理技术的三个层面。

(1)在理论研究层面,主要涉及应用数学、光电物理、信息理论、信号处理、形态学等基础学科和前沿学科。

(2)在工程开发层面,涉及电子技术、微电子技术、计算机技术、通信技术及软件技术等多种技术。

(3)在应用推广层面,涉及航天图像处理、医学图像处理、遥感图像处理、普通图像处理、雷达图像处理等多个领域。

图像处理技术的三个层面之间是相互关联、相互影响的。图像处理理论研究的新成果往往会直接影响新的工程实现方案的诞生,可能会带动一种新业务的出现,或提高以往图像处理业务的效率和质量;类似地,工程开发方面的新进展也会促进理论研究的改进并加快应用推广的步伐;应用推广则是理论研究和工程开发的最终目标,新的图像处理应用的普及和深入,必定会对理论研究和工程开发提出新的要求,提供新的研究方向和新的开发目标。

按照以上三个层面的划分,GAN技术在图像处理领域当前尚处于理论探索和研究、技术实验和开发阶段,实际的应用尚处于尝试的状态,远未到推广应用的程度,但这正是我们对GAN感兴趣的原因。

1.1.2 数字视觉技术

如今,有两种和数字图像技术密切关联的视觉技术,一个是计算机视觉,另一个是机器视觉。下面分别对这两种技术进行简单介绍。仍按前文所述,我们将它们统一称为数字视觉技术。

1.计算机视觉技术

从学术的角度看,计算机视觉(Computer Vision,CV)是计算机科学的一个分支,它本身也是一个内涵丰富、多学科交叉的领域。一般所说的计算机视觉,是指用计算机实现人的视觉功能,对客观世界的三维场景进行感知、识别和理解。计算机视觉偏重于软件层面的计算机处理,也包括传统的图像处理,但更多的是处理比较复杂和高级的视觉图像任务。计算机视觉还包括对图像的理解和分析,以及对图像的变换处理,甚至是语义图像的翻译、新图像的生成等。本书所讨论的一些图像生成方法,也可以归类到计算机视觉领域内。

计算机视觉从诞生至今已经历了50余年的发展。1966年,人工智能学家Minsky在给学生布置的作业中,要求学生通过编写一个程序让计算机表达出它通过摄像头“看”到了什么,这被认为是计算机视觉的开端。

20世纪七八十年代,随着现代电子计算机的出现,计算机视觉技术有了初步的发展。20世纪80年代后,计算机视觉技术迈上了一个新的台阶,著名的卷积神经网络(CNN)在此期间诞生。在这一阶段,计算机视觉的应用主要是光学字符识别、工件识别、显微/航空图像识别等。

20世纪90年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。一方面的原因是CPU、DSP等图像处理硬件技术迅速发展;另一方面的原因是人们开始尝试不同的算法,包括基于数理统计的方法和引入局部特征描述符的方法等。

进入21世纪,得益于互联网兴起和数码相机普及带来的海量数据,加之机器学习方法的广泛应用,计算机视觉迅速发展。以往许多基于规则的处理方式被机器学习替代,可以自动从海量数据中总结归纳物体的特征,然后进行识别和判断。这一阶段涌现了非常多的应用,包括人脸检测、人脸识别、车牌识别等。

在2010年以后,借助深度学习的力量,计算机视觉技术的产业化应用得到了快速发展。通过深度神经网络,各类视觉相关任务的识别精度得到了大幅提升。例如,在全球最权威的计算机视觉识别挑战赛ILSVRC(ImageNet Large Scale Visual Recognition Challenge)中,千类物体识别的错误率在2010年、2011年分别为28.2%和25.8%,自2012年引入深度学习方法后,后续4年的错误率分别为16.4%、11.7%、6.7%和3.7%,有了显著突破,超过了一般人的识别能力。由于采用了深度学习技术,人脸识别的准确率也提高到了99%以上。

计算机视觉技术的应用领域也在快速扩展,除了比较成熟的安防监控领域,还大量应用于金融领域的人脸识别/身份验证、医疗领域的智能影像诊断、无人驾驶车的视觉输入、卫星探测器的图像遥感系统等。

2.机器视觉技术

机器视觉(Machine Vision,MV)是指采用机器代替人眼来进行测量、判断和控制。一般认为,机器视觉更多地侧重于硬件层面的处理,具有较强的软硬件结合的图像智能化处理能力。例如,在制造行业中,机器视觉系统通过图像获取装置来获得现场图像,然后将该图像传送至处理单元,通过数字化处理做出判断,进而根据判断结果来控制现场设备的动作。

机器视觉的起源可追溯到20世纪60年代美国学者L.R.Roberts对多面体积木世界的图像处理研究。20世纪70年代中期,MIT的 Horn教授在人工智能实验室正式开设了机器视觉课程。20世纪80年代,全球性机器视觉研究热潮兴起,出现了一些基于机器视觉的应用系统。在20世纪90年代以后,随着计算机技术和半导体技术的飞速发展,机器视觉的理论和应用进一步发展。

进入21世纪,机器视觉技术的发展速度更快,已经大规模应用于多个领域,如智能制造、智能交通、医疗卫生、安防监控等。目前,机器视觉技术正处于不断突破、走向成熟的新阶段。

在我国,机器视觉的研究和应用开始于20世纪90年代。从跟踪国外品牌产品起步,经过二十多年的努力,国内的机器视觉从无到有、从弱到强,不仅理论研究进展迅速,而且出现了一些颇具竞争力的公司和产品。随着国内对机器视觉的研究、开发和推广不断深入,赶超世界前沿水平已不再是遥不可及的事情。

3.数字视觉技术

至此,我们已经简单介绍了数字图像处理、计算机视觉和机器视觉,那这三者有什么联系和区别呢?目前还没有严格的定义,看法常因人而异,研究人员对它们的理解未必都一样,所以这里只大致介绍一下被多数人认可的观点。

数字图像处理是一个传统的理论和技术领域,而计算机视觉和机器视觉则是两个相对较新的理论和技术领域。这三者之间有着千丝万缕的联系,但有一点还是比较清楚的:计算机视觉和机器视觉都包含了数字图像处理的基本内容。

机器视觉通常包括图像采集、图像处理和图像分析等操作,其工作平台大到计算机系统,小到嵌入式单片机,与计算机视觉领域有不少交集。然而,我们又强调过,机器视觉和计算机视觉不是完全同义的,它们之中谁都不是谁的子集。例如,机器视觉没有说明一定要使用计算机,在需要高速处理时经常会使用特殊的图像处理硬件,其速度是普通计算机无法达到的。在计算机视觉领域,更多的是关注计算机软件、算法,对其他的机器系统、硬件等并没有特殊的要求。

在很多情况下,我们没有办法严格地区分机器视觉和计算机视觉这两个概念,二者的共同点很多,尤其在有关图像处理的理论和技术方面,基本上都是相通的。这样看来,无论是计算机视觉还是机器视觉,它们的理论和技术基础有相当大一部分是来自数字图像处理的。本书倾向于不严格区分计算机视觉和机器视觉这两个概念,为了方便起见,把它们融合起来作为综合的“数字视觉技术”来对待,将数字图像技术看作数字视觉技术的重要组成部分。

1.1.3 数字视觉的应用

数字视觉技术是人工智能、大数据、云计算和物联网未来发展的主要支柱性技术之一。数字视觉技术应用广泛,几乎可以说是无处不在,当前大部分热门的领域都和它有关,大家所熟知的无人驾驶、自主安防、无人机、生物特征识别、三维(3Dimension,3D)显示、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)及医学图像分析等都与数字视觉技术密切相关。数字视觉的主要应用领域如下。

1.智能制造

智能制造从传统的由能量驱动转变为由信息驱动,这对系统工作的灵活性、精准性和智能性提出了很高的要求。这些高要求的实现离不开数字视觉。近十多年来,数字视觉技术已逐渐应用于工业生产的各步骤。其中,原始信息的采集和传送是最基础的工作,推动整个系统的决策和运行。例如,在流水线智能检测和分拣中,机器视觉技术利用红外线、微波或超声波等信号,可以通过传感器自动对产品的关键数据信息进行捕获和分析,探测到人眼无法观察到的东西,从而实现高速且准确的检测和分拣。

2.交通

数字视觉在交通领域内有着广泛的应用,如在高速公路上及卡口处对来往车辆进行车型、牌照识别,甚至对行驶车辆的违规行为进行识别。还有更智能化的应用,如在汽车上对驾驶员面部图像进行分析,判断驾驶员是否处于疲劳驾驶状态:无人驾驶汽车或辅助驾驶汽车借助计算机视觉技术,使用摄像头、激光/毫米波/超声波雷达、GPS等感知道路环境信息,自动规划路径和控制车辆的安全行驶;对道路车辆的流量密度、路段路况进行分析,对车辆逆行、违停等交通事件进行监测等。

3.智慧城市

智慧城市(Smart City)是一种以新一代智能信息化技术服务现代城市的发展新模式,致力于通过云计算和人工智能技术解决依靠人工无法解决的城市治理和发展问题。计算机视觉技术是整个智慧城市感知体系的关键部分。例如,通过大量的视觉传感器,为城市大型展会、体育赛事、商演活动等提供全面的数据分析和规划;获取城市中重要目标的位置、属性、身份及行为等信息,为自然灾害提供预警,为突发疾控收集数据,对城市水质进行分析,对违章建筑进行识别等。

4.安防监控

数字视觉打破了传统视频监控系统的限制,提升了系统的智能性,使智能视频分析得以逐步实现。以公共场所的视频监控为例,通过运用数字视觉技术,可以实现对飞机场、火车站等重点场所的智能监控,实现对可疑人物的自动检测、人脸识别、实时跟踪,在必要时,还可以实现多摄像机联动跟踪,同时发出报警信号,保存现场信息。

5.文教卫生

数字视觉技术在文教卫生领域得到了广泛的应用。在教育领域,智能校园中的智能门禁、考试身份验证、试卷智能评阅等都离不开数字视觉技术。在印刷出版行业,通过机器视觉技术进行自动校对,既提高了校对准确度,又缩短了校对时间,降低了印刷成本,缩短了出版物的交付周期。在卫生医疗领域,数字视觉面向医疗机构用户,实现医学图像重建和可视化,分析来自MRI、CT扫描和X射线的图像以发现异常或寻找疾病迹象,辅助多种疾病的诊断和治疗。数字视觉技术还可以协助制订手术规划,实现疾病跟踪管理,挖掘医疗数据潜力,以更低的成本提供更高效的服务。在医疗保健和康复中,数字视觉技术也发挥了重要作用,如可以针对视力障碍者进行室内安全导航。

6.物联网

随着物联网(Internet of Things,IoT)技术的发展,数字视觉的应用范围有了大幅度扩展。IoT利用信息通信技术将世上万物和人联接起来,通过广泛的数据采集、分析和控制,帮助我们在工作和生活中获得自动感知、不断优化和高效运行的体验。数字视觉是为IoT提供信息的最重要的基础技术之一。例如,全球IoT的快速发展推动了机器人产业的高速发展,使数字视觉产品的需求大量增加,加速了人类和机器人协同合作的进程。

7.商业管理

在商业管理中使用数字视觉技术已成为重要的技术趋势之一。实体零售商将计算机视觉技术与店铺摄像机结合使用,识别顾客的面部特征、性别、年龄等,分析他们的购买偏好。更重要的是,零售商可以使用计算机视觉技术跟踪顾客在店铺中的移动,分析导航路线和步行模式,以及衡量店面关注时间。在商业库存管理中,利用计算机视觉技术对监控摄像机获取的图像进行分析,可以对店铺中的可用物品做出准确估计。还有一个相当普遍的应用是分析货架空间的使用情况,从而实现最优的商品摆放布局。

8.现代农业

现代农业是数字视觉的重要应用行业之一,尤其是精确农业领域。数字视觉技术可以自动检测某些农作物的病虫害,或者在特定情况下准确地预测疾病或虫害。利用数字视觉技术,可以从拍摄的农田照片中识别出土壤的潜在缺陷和营养缺乏等问题,在分析后提出土壤修复建议,或针对所发现的问题提供可行的解决方案。此外,数字视觉技术还可用于农产品分类,通过对水果、蔬菜、植株等的图像进行特征检测、提取和分析,对它们进行识别或分类。