留学工作随想:从深度生成学习到自动驾驶的仿真技术
我于2010年进入交大ACM班学习,2014年毕业赴美国密歇根大学继续深造。想通过这篇随想总结留学工作期间研究方面的一些感悟,希望对大家有点参考价值。
2014年秋天的一个下午,我从上海浦东机场起飞,至此踏上了赴美国求学的旅程。我的博士导师Honglak Lee对生成式模型很感兴趣,因此到了美国,我参与的第一研究项目是关于运用生成式模型做条件生成。2014年正值深度学习在视觉领域变革的早期,深度卷积网络刚刚在物体检测以及图像分割领域有了一系列开创性的工作;另一方面,梯度下降刚刚应用在训练生成式模型,比较具有代表性的是VAE和GAN这两个模型都在2014年相继发表,这两篇论文中包含了一些生成黑白数字和人脸的早期尝试。经过多次讨论,我和实验室的同事一致觉得运用深度卷积网络生成高清彩色图像,并能让生成的过程和条件可控是一个很新很有趣的研究方向。
研究方向虽然有趣,但是我们必须面对三大难题:第一,已有的深度训练模型框架非常早期,并没有对生成式模型训练的支持;第二,已有的图片分类数据集并不能支持我们的研究,重新收集数据将花费大量资源;第三,生成高清图方向的评估机制一片空白,很难在数值上比较两个模型的优劣。通过近一年不断尝试,我们终于一举解决了这三大难题:第一,我们自己写了一些关键layer的底层实现,可以支持GPU快速训练;第二,我们发现虽然大规模的图片分类数据集作为早期研究迭代非常困难,但是中型规模以物体为中心的精细识别数据集非常适合我们的研究;第三,我们运用已有的识别算法作为图片生成效果的评估。我们的几篇投稿最终发表在NIPS,ECCV和ICML大会上,成为条件图像生成领域奠基性的几个工作。在这之后,我在读博士期间又将生成式模型或者重建的思想和深度学习相结合,运用在三维物体重建和机械臂在三维空间中的应用中。
2018年冬天,正值博士毕业前夕,一个偶然的机会我在ECCV的会场上和Raquel Urtasun教授聊了起来,她是当时优步自动驾驶研究部门的负责人兼首席科学家。在聊天中,我发现她似乎对我的条件生成模型非常感兴趣。在这之前,我对自动驾驶相关的了解相对比较少,自动驾驶也不在我的毕业计划中。会后,我对该领域做了一些调研,发现自动驾驶发展了数十年,感知预测模块的仿真器方向的发展却非常滞后,导致新的版本需要通过数周甚至数月的安全路测才能在有限的区域投放。相比之下,如果能运用深度神经网络和条件生成式模型,大规模按需产生大量仿真数据,可以大幅度加速自动驾驶算法测试过程。虽然有潜力对整个领域产生推动性的影响,但相关的跨界研究和尝试几乎为零。
2019年的春节前夕,我从加州旧金山起飞,前往加拿大多伦多优步自动驾驶研究院参加面试和交流。整个面试过程进行得非常顺利,我演讲中提到的一些想法和优步研究团队不谋而合,同时也了解到了目前自动驾驶测试中的一些局限性并促使我思考了未来新的研究方向。毕业后我便顺理成章地加入了优步做这方面的相关研究,研究的主题包括从物体的生成,运动的模拟,到多传感器的仿真,各个角度都对传统自动驾驶仿真系统进行了重新定义并设计。为了让生成的数据更有效地应用在自动驾驶的感知训练以及测试中,我和合作者通过对已有场景中车辆的三维重建,排列组合,并通过深度生成网络将三维模型放入新的场景进行仿真。经过一年多的研发,我们做成了全球首个可以大规模部署的自动驾驶相机仿真模拟器GeoSim,论文投稿CVPR并收到了三个审稿人一致的Strong Accept,远远超乎了期待。
这篇随想通过留学工作期间的几个故事,总结了我的一些想法和感受。好的研究工作不仅需要扎实的知识储备,对整个领域大方向大环境把握也很重要,以及一些必要的耐心和遇到困难的信心。最后,向所有合作者表达衷心的感谢。
简介:严欣辰,男,ACM班2010级。高中毕业于江苏金陵中学。博士毕业于美国密歇根州安娜堡分校,导师为该领域顶级专家Honglak Lee,期间发表条件生成以及弱监督视觉学习领域多篇奠基性论文,至今已对相关领域产生了深远影响。曾担任优步自动驾驶研究院R&D Team高级研究员,参与设计并推动了全球首个可以大规模部署的自动驾驶相机仿真模拟器GeoSim,文章发表在CVPR 2021,并入选最佳论文候选名单。现任Waymo自动驾驶Research Team高级研究员,主推下一代自动驾驶仿真技术的研究与探索。