1.2.2 图像场景几何结构估计
图像是三维客观世界在二维平面的投影,对图像场景的全面理解不仅包含理解场景对象,还应包含理解场景对象之间的空间结构关系。图像场景几何结构估计是为了理解图像场景对象的空间关系,包括对象之间的遮挡关系、对象之间的相对位置关系、对象区域深度信息粗略估计等,它建立在对图像场景对象区域理解的基础上。
国内外在图像场景几何结构估计方面的研究主要集中在遮挡边界估计[39-41]、图像深度信息估计[42-44]、三维空间结构估计[45-47]等方面。处理遮挡边界估计的方法,需要根据底层图像分割方法得到图像中的边界,在此基础上,估计边界左右区域的遮挡关系。处理图像深度信息估计的方法,早期通过建立图像特征与深度的关联关系来估计图像深度信息,后来有学者将图像场景语义信息用来辅助指导深度信息估计。进入深度学习时代以来,鉴于FCN网络在场景语义分割方面的优秀表现,FCN也被广泛应用于其他密集预测任务,例如深度估计。在三维空间结构估计方面,三维空间关系的估计通常伴随着图像区域划分,两者相辅相成,其中图像特征起到了约束和指导的作用。
1. 图像场景遮挡边界估计方面
二维图像平面是真实三维世界的投影,由于投影视角原因,三维世界中的物体投影到二维平面时经常会出现遮挡现象。根据心理学理论,遮挡关系会引起人类感知系统对图像内容产生多种不同的理解。因此,理解图像场景的层次关系和遮挡关系有助于理解图像场景背后隐含的三维空间关系。图像遮挡边界估计是该领域最早关注的焦点,主要研究工作是对检测到的边界进行遮挡关系判定。
1990年,美国哈佛大学的Nitzberg和Mumford在ICCV会议上提出了2.1D sketch概念[39],即将图像域根据遮挡关系的秩序划分成不同区域,在分割图像的同时能够恢复出基于底层视觉感知的粗略图像深度信息。2006年,美国加利福尼亚大学伯克利分校的Ren等在ECCV会议上提出一种自然图像前/背景区域划分的方法[40],通过一种集成了凸状和平行特征的局部形状模式表达方式,在一定程度上恢复出区域的遮挡层次关系。2007年,美国卡内基梅隆大学的Hoiem等在ICCV会议上提出了基于单幅图像的遮挡边界恢复方法[41],从人类感知的角度出发,来恢复图像中的遮挡边界和垂直无依附物体的粗略深度信息。该方法利用了传统的边特征、区域特征,同时还利用了3D平面特征和深度特征,将这些特征用来推理遮挡边界,同时也能预测出平面的类别,最终将场景中的遮挡边界以及遮挡边界两边区域的遮挡关系恢复出来。部分结果如图1-12所示,左列为遮挡边界恢复结果,右列为深度信息恢复结果。蓝色线条代表遮挡边界,黑色线条代表与地面有接触的区域边界。在这种遮挡边界表示方式中,遮挡边界上的箭头代表了遮挡边界的方向,遮挡边界左边的区域遮挡了右边的区域。在深度图中,红色代表像素深度小,蓝色代表像素深度大。2009年,卡内基梅隆大学的Stein和Hebert在计算机视觉领域顶级国际期刊IJCV上发表了一种从运动视频中恢复遮挡边界的方法[48]。该方法认为,遮挡边界中包含了丰富的3D结构信息和物体形状信息,遮挡边界的准确识别有助于很多计算机视觉领域问题的解决,包括底层图像处理方面的问题到高层图像理解方面的问题。2011年,美国加州大学伯克利分校的Sundberg等在CVPR会议上提出一种基于光流的遮挡边界检测和前/后景划分的方法[49]。该方法针对视频数据,利用了动作线索和光流特征,检测识别遮挡边界,并且根据遮挡关系划分相邻区域的深度序列,如图1-13所示。
图1-12 基于单幅图像的遮挡边界恢复[41]
图1-13 基于光流的遮挡边界检测和前/后景划分的方法[49],左图为输入图像,右图为该方法遮挡边界检测结果,绿色边界表示前景区域,红色边界表示后景区域
2. 图像场景深度信息估计方面
图像场景几何结构估计的第二个方向是从单幅图像恢复出每一个像素点的深度信息。2005年,美国斯坦福大学的Saxena等在NIPS会议上提出一种基于监督学习的方法来估计单幅图像场景的深度信息[42]。该方法主要针对室外场景图像,场景中有树木、建筑,草地等语义类别,将扫描得到的深度信息作为训练数据。利用了MRF场结构模型,结合多尺度特征、领域特征,求解得到每点像素的深度信息。如图1-14所示,该方法采用了三个尺度上的四邻域特征,通过训练MRF场结构模型,建立了特征和深度信息的映射关系。2008年,Saxena等将此方法进一步推进,在领域内的国际顶级期刊PAMI上发表了由单幅图像直接恢复三维场景信息的方法[43],如图1-15所示,实验结果与基准深度数据比较接近。
图1-14 单幅图像场景深度信息估计方法[42]的四邻域特征
图1-15 单幅图像场景深度信息估计方法结果[43]
2010年,美国斯坦福大学的Liu等在CVPR会议上提出一种基于语义标记预测的单幅图像深度信息估计方法[44]。他们认为,语义信息对深度估计有重要的指导意义,因此该方法没有沿用之前由图像特征直接映射到深度信息的传统思路,而是首先预测图像场景每一个像素点的语义标记,然后用语义标记来指导图像场景三维重建,估计每一个像素点的深度值。在得到每一个像素点的语义标记后,利用该语义类别的深度和几何信息作为先验来约束这一类别对应区域像素点的深度估计。举例来说,天空非常远,因此天空区域像素的深度值较大。同时,在语义信息的指导下,深度信息可以很容易地通过对象区域外观特征的度量估计出来。例如,通常情况下,一棵树的外观特征在远处观察时比较均匀一致,而在近处观察时会表现出较大的纹理梯度变化。结合像素点之间的邻居关系、几何关系、深度先验、每个点的图像特征、语义信息和初始深度值,利用MRF模型求解出全局最优解作为图像最终深度解。该方法取得了很好的深度估计结果,如图1-16所示,左侧为输入图像,中间为语义标记结果,右侧为深度信息估计结果,其中由红至蓝代表深度由远及近。
图1-16 基于语义标记预测的单幅图像深度信息估计[44]
还有学者提出深度迁移的非参数方法,类似于语义迁移方法。其通常在给定RGB图像和RGB-D存储库的图像之间执行基于特征的匹配,以便找到最近邻,然后对检索到的深度对应图像进行变形以产生最终深度图。例如,2014年,澳大利亚国立大学的Liu等在CVPR会议上提出一种离散-连续式单幅图像深度信息估计方法[50],该方法将场景深度信息估计形式化为离散-连续式的CRF优化问题,以超像素为基本单元,每个超像素内的深度是连续的,超像素之间的深度是离散的,如图1-17所示。利用检索的相似图像的深度构造模型中连续变量的数据项,即单一项;使用离散变量来表达相邻超像素之间的遮挡关系。然后在这个高阶、离散-连续的图模型上使用粒子置信度传播(particle belief propagation)来进行推理。
图1-17 离散-连续式单幅图像深度信息估计方法[50],左图为输入图像,右图为对应的离散-连续的深度信息估计结果
近年来,深度学习领域的进步推动了CNN网络应用于深度估计的研究。2014年,纽约大学的Eigen等人首先提出将CNN应用在单幅图像稠密深度估计[51]。他们认为场景以及场景中的对象存在尺度上的变化,因此提出一种利用多尺度深度网络来估计单幅图像深度信息的方法。具体来说,通过使用两个深度网络堆栈来解决该任务:一个是基于整个图像进行粗略的全局预测,另一个用来局部地改进这种预测,如图1-18所示。他们的工作后来被扩展到通过用一个更深度、更具辨别力的网络模型(基于VGG)预测法向量和标签,然后用一个三尺度体系结构来进一步细化[52]。德国慕尼黑工业大学的Laina等人提出一种包含残差学习的全卷积结构[53],用于模拟单幅图像与深度信息之间的模糊映射。为了提高输出分辨率,该结构使用了一种在网络中有效学习特征映射上采样的新方法,另外,通过基于反向Huber函数的损耗优化来训练网络,并从理论和实验两方面论证了它的有益性。
图1-18 基于多尺度深度网络的单幅图像深度信息估计方法[51],全局粗略尺度网络包含五个由卷积和最大池化构成的特征提取层以及两个全连接层,局部细化尺度网络则由卷积层构成
提高预测深度质量的另一个方向是联合使用CNN和图模型。例如,澳大利亚阿德莱德大学研究人员提出了一个深层结构学习机制[54],在一个统一的深层CNN框架下学习连续CRF结构的单一项和二元项势能(图1-19)。整个网络由单一项部分、二元项部分和CRF损失层组成。单一项部分的网络由5个卷积层和4个完全连通层组成,输出一个包含n个超像素深度回归值的n维向量,n为输入图像在预处理时得到的超像素数量。二元项部分以所有相邻超像素对的相似向量作为输入,并将它们馈送到全连接层(参数在不同的对之间共享),然后输出包含所有相邻超像素对的一维相似度向量。CRF损失层将单一项和二元项部分的输出作为输入,以求解最优值。在此基础上,他们进一步提出了一种基于全卷积网络的快速等效模型和一种新的超像素池化方法[55],该方法在获得相似预测精度的同时,加速了10倍左右。有了这个更有效的模型,能够设计非常深入的网络,以便获得更好的性能。
图1-19 基于CNN框架和连续CRF结构的深度估计卷积神经场模型[54]
3. 图像场景空间结构估计方面
图像场景几何结构估计的第三个方向是三维空间结构估计,这种空间结构并非把整个场景完全建模出来,而是将对象或区域之间的空间关系表示出来,形成一种粗略的“场景建模”。有些学者认为,图像场景三维空间结构估计与图像分割和区域划分有着密不可分的关系,两者具有相辅相成的作用。因此,他们在求解图像场景三维空间结构的同时,会自动求解出图像场景的语义分割或者区域划分。
2010年,美国卡内基梅隆大学的Gupta等在ECCV会议上提出一种物理规则指导下的单幅图像积木世界搭建方法[45],称之为“3D解析图”。该方法基于1960年“积木世界”的思想,以真实世界的物理规律作为约束,以定性的物理单元块来表达室外图像场景的三维结构关系,包括对象的质量、体积以及对象之间的物理支撑关系。该方法提出的8个物理单元块符合全局几何约束和定性方式的静力物理学。从一个空的地平面开始,该方法交互地逐步添加物理单元块来拟合图像场景中的对象区域,判断场景几何和物理属性的稳定性,直到迭代收敛,最终生成输入图像场景的三维结构关系图,即“3D解析图”。该方法除了在表面支撑关系估计方面取得了较好的实验结果,更重要的是,从几何关系和物理关系的角度诠释了图像场景中对象的属性和关系。如图1-20所示,左边为输入图像、该图像的积木模型以及渲染后的结果,右边展示了输入图像的三维结构关系,包括各个物体的体积、质量、视角以及物体之间的几何关系。该方法所构建的图像场景“积木世界”,是图像区域划分和空间结构估计的联合表达,为该领域的研究提供了一种新的思路。
另一种思路是利用图像场景对象的层次结构来指导场景的语义分割和标记。2010年,美国加州大学欧文分校的Yang等在CVPR会议上提出了一种利用层次结构检测器来指导图像对象分割的方法[46]。他们首先对输入图像做检测识别,得到若干检测框,并利用基于局部检测器响应值的可变形状模板来估计对象形状,然后将检测框的形状、纹理、深度序列等特征集成在一个简单的概率模型里。由于图像自身具有纹理特征,当两个检测器有交叠的时候,不同的层次结构会产生不同的语义分割结果。因此,该方法通过迭代地估计对象形状信息、对象区域纹理特征信息,最终得到对象的语义标记,同时也得到了在该语义标记下,每一类对象所在的层次结构。如图1-21所示,可视化结果显示了不同对象所在的层次。该方法的创新点在于将图像场景对象的层次结构用来指导场景的语义分割和标记。
图1-20 物理规则指导下的单幅图像3D解析图[45]
图1-21 面向图像分割的层次结构估计[46]
2010年,美国加州理工学院的Maire在ECCV会议上提出一种基于嵌入角的图像分割和遮挡边界估计同时求解方法[47]。Maire认为,根据人类感知的规律,可以将图像分割和遮挡边界估计联合起来求解。该方法提出一种底层图像特征驱动下的单一框架,通过一种通用表达方式将相似性和序列偏好嵌入到该框架下,由此将问题转化为角嵌入问题。利用分割线索来推导图像边界的前/背景划分,反过来利用前/背景划分的线索来推导图像分割。实验结果如图1-22所示,该方法不仅能划分出对象区域,还能估计出区域边界的遮挡关系。中间一列显示了边界的遮挡关系,绿色线段指向的一端表示前景区域,绿色线段的长度表示遮挡关系的可信度。右边一列显示了层次关系,由红色到蓝色表示层次由前到后。
图1-22 基于嵌入角的图像分割和遮挡边界同时求解结果[47]
伊利诺伊大学香槟分校的Hoiem等首次提出布局估计的概念,并在场景结构布局估计上进行了大量的研究,提出从单幅图像中恢复室内场景空间布局的方法[56,57]。在很多室内场景中,由于物体摆放和视角等原因,场景结构的边界线经常存在被遮挡的现象,恢复室内场景空间布局即恢复场景结构的地-墙边界线,通过用参数化的三维“盒子”来建模全局房间空间,为了调整盒子以适应实际场景,引入了一种基于全局透视线索的结构化学习算法选择最优的三维“盒子”参数[57]。该方法从3D盒子空间布局和像素的表面法向量估计两个方面,对场景进行联合建模。3D盒子空间布局粗略地模拟了室内的空间,像素表面法向量标记提供了可视对象、墙、地板和天花板表面的精确定位,两者相辅相成。表面法向量标记帮助区分位于对象上的线和位于墙上的线,而3D盒子估计为法向量标记提供了强大的约束。通过将这两个模型结合起来,可以得到更完整的空间布局估计。更进一步,他们结合卷积神经网络模型将单幅图像场景空间布局估计推广到全景图、透视图、矩形布局及非矩形的其他布局,提出LayoutNet算法[58],通过具有编码-解码结构和跳跃连接的CNN网络来预测全景图像交界点和边界线的概率图。在预处理时进行边缘的对齐步骤,确保墙边界是垂直线,并大大减少预测误差。在训练过程中,用回归的方式优化三维布局损失参数来拟合所预测的交界点和边界线。LayoutNet取得了优异的效果,同时表明了深度网络方法仍然受益于显式的几何线索和约束,例如消失点、几何约束等。与LayoutNet类似的工作还有PanoContext[59]、RoomNet[60]、HorizonNet[61]和DuLa-Net[62]。
除了Hoiem及其团队之外,卡内基梅隆大学机器人研究所团队多年从事场景物体表面法向量估计方面的研究工作。例如,2014年他们在ECCV会议上提出一种新颖的室内折纸世界的展开方法[65]。该方法认为目前的室内场景三维解析多使用底层和高层特征来推理,忽略了中层特征。三维场景解析需要多颗粒度的特征。对于真实世界中的杂乱场景,三维场景解析在检测出对象三维立方块之前,首先应该检测出场景的表面法向和边界。因此,该方法针对单幅图像的三维表面信息估计,利用凸边和凹边作为中层约束特征,提出一种通用的模型,能够将这些约束和其他约束嵌入,以线标记和布局参数化的形式来表示室内场景的表面几何和表面之间边的相互关系,以此构成一个类似折纸展开的三维世界,如图1-23所示。随着卷积神经网络在计算机视觉理解方面的应用与发展,该团队研究人员为了探索深度网络在法向量估计方面的有效性,提出一种单幅图像曲面法向量估计的深度网络设计方法[63],将传统3D场景理解方面多年的工作经验引入CNN网络的结构设计,分别学习自上而下和自下而上的过程,得到粗略的全局理解和局部标记,然后使用融合网络将两者整合预测,输出更合理的结果。该网络能够提供有关曲面法向量、室内布局和边标记的连贯及更深入的理解。该团队还提出一种基于预训练Oxford-VGG卷积神经网络(CNN)的跳跃网络模型[64],在NYUv2的RGB-D数据集上实现了最先进的表面法线预测精度,并且恢复了精细的物体细节。他们认为,表面法向量、深度信息、空间布局结构都属于2.5D范畴,利用这些2.5D范畴的信息可以帮助恢复3D信息。因此,他们在输入图像和预测曲面法线上建立了一个双流网络,用于联合学习物体的姿势和样式,以便进行CAD模型检索。
分析以上研究现状发现,不论是遮挡边界估计、图像深度信息估计,还是三维空间结构估计方面的研究工作,都认为图像特征与图像场景的几何结构有密切的关系,并且都利用图像特征从二维信息推理出三维空间结构信息。因此,在图像场景几何结构估计中,合理地分析图像特征所起的作用非常重要。