论文阅读17 BEV感知系列-Cam2BEV

2022-04-23 约 1445 字预计阅读 3 分钟

本文是了解BEV感知系列的第五篇论文阅读，来自亚琛工大，其针对IPM投影算法中的前景前景遮挡问题进行探究，标注遮挡类别，让网络预测遮挡类别，代码已开源。

简介

论文：《A Sim2Real Deep Learning Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird’s Eye View》
作者：Lennart Reiher and Bastian Lampe, Lutz Eckstein
机构：亚琛工大
论文水平：ITSC 2020
关键词：Perception && BEV segmentation
论文链接：paper code

TL;DR

摘要

准确的环境感知对于自动驾驶至关重要。当使用单目相机时，环境中元素的距离估计是一个重大挑战。将相机视角转换为鸟瞰图 (BEV) 时，可以更轻松地估算距离。对于平面，逆透视映射 (IPM) 可以准确地将图像转换为 BEV。车辆和易受伤害的道路使用者等三维物体会因这种变换而变形，从而难以估计它们相对于传感器的位置。

本文描述了一种从多个车载摄像头获取给定图像的校正 360° BEV 图像的方法。校正后的 BEV 图像被分割成语义类别，并包括对遮挡区域的预测。神经网络方法不依赖于手动标记的数据，而是在合成数据集上进行训练，使其能够很好地推广到真实世界的数据。通过使用语义分割的图像作为输入，我们减少了模拟和真实世界数据之间的现实差距，并且能够证明我们的方法可以成功地应用于现实世界。对合成数据进行的大量实验证明了我们的方法与 IPM 相比的优越性。

讨论

与前面说过的VPN类似，都将语义分割结果作为输入，以减少sim2real的gap，而本工作针对IPM的改进主要体现在动态物体方面，与LookAroundObjects不同，本文是预测动态物体，而LookAroundObjects则是通过mask，去除动态物体，进而让网络去自主学习遮挡下的背景深度。

不过比较好奇的是，本文没有引用VPN以及LookAroundObject，不知道是否是因为投稿会议的领域不同。

主要贡献

一种将多相机BEV语义分割的方法，通过输入校正的透视语义分割图像，以及针对前景预测的改进的IPM算法，将透视转换为BEV视角。
设计了两个变种网络
不需要BEV视角的手工标注即可训练网络

方法框架

问题定义

本文一开始讨论了IPM作为常见的pv2bev的方法，其虽然受到前景动态目标的影响，但其转换投影的过程是合理的，因此我们应该倾向于关注，如何处理运动目标以减少IPM的投影误差。

如何解决前景目标的遮挡问题？

本文通过额外引入一种语义类别来引导网络对遮挡区域进行预测，额外的类别被定义遮挡那个，对应为透视视角下的被遮挡部分。具体的操作是对BEV下的真值做预处理实现的，对四个相机各自视角中前景物体遮挡的区域边界形成射线，然后在BEV中将对应的区域定义为遮挡类别。

定义遮挡区域的原则如下：

如building、truck，认为他们永远会产生视线遮挡
比如road，永远不会产生视线遮挡
cars类则是会遮挡一些比他低的类别
被部分遮挡的目标拥有完整的可见性
只有在所有相机的透视视角中都被遮挡了，目标才会被定义为occluded类别

pipeline

输入
1. 4个相机的前景透视图像，先做校正以及语义分割，其中语义分割是为了保持仿真和现实场景的一致性。
坐标系变换
1. 图中的v就是具体操作，使用了之前的工作，Spatital Transformer，其中投影变换就是IPM
BEV语义输出，对应预处理过的BEV真值计算loss，通过对遮挡区域的预测来实现前景遮挡的处理。

实验

总结与思考

本文与LookAroundObject类似，只不过定义了遮挡label，然后让网络预测，而投影变换的方式则是去除了动态遮挡的IPM。作为早期开源的代码工作，其对IPM的实现值得学习。

目录