深度学习高手笔记(卷2):经典应用
上QQ阅读APP看书,第一时间看更新
 第1章 双阶段检测

bt2-L 1.1 R-CNN

2012年之前,目标检测的发展变得缓慢,一个重要的原因是基于计算机视觉的方法,如尺度不变特征转换(scale-invariant feature transform,SIFT)、HOG等,进入瓶颈期。生物学家发现人类的视觉反应是一个多层次的流程,而SIFT或者HOG只相当于人类视觉反应的第一层,这是目标检测进入瓶颈期的一个重要原因。2012年,基于随机梯度下降(stochastic gradient descent,SGD)的CNN在目标识别领域的突破性进展充分展现了其在提取图像特征方面的巨大优越性。CNN的一个重要特点是其多层次的结构更符合人类的视觉反应特征。2014年,使用CNN框架的R-CNN被提出,并大幅提高了目标检测的精度,自从这个具有里程碑意义的算法出现,使用深度学习成为目标检测的主流思路。

但大规模深度学习网络的应用对数据量提出了更高的需求。在数据量稀缺的数据集上进行训练,迭代次数太少会导致模型欠拟合,迭代次数太多会导致过拟合。为了解决该问题,R-CNN使用了在海量数据上进行无监督学习的预训练与在稀缺专用数据集上进行微调的策略。

在算法设计上,R-CNN采用了“Recognition Using Regions”[8]的思想,R-CNN使用选择性搜索提取了2000~3000个候选区域,然后针对每个候选区域单独进行特征提取和分类器训练,这也是R-CNN命名的由来。为了提高检测精度,R-CNN使用岭回归对检测位置进行了精校。以上方法的使用,使得R-CNN在PASCAL VOC 2007检测数据集上的检测精度到达了新的高度。


[8] 参见Chunhui Gu等人的论文“Recognition using regions”。