论文阅读04 HorizonLiDAR3D
本文是CVPR2020Waymo挑战赛的冠军方案,相比于AFDet,在数据增广、网络深度以及模型Ensemble等方面都做了改进。
简介
- 论文:《1 st Place Solution for Waymo Open Dataset Challenge - 3D Detection and Domain Adaptation》
- 作者:Zhuangzhuang Ding∗ Yihan Hu∗ Runzhou Ge∗ Li Huang Sijia Chen Yu Wang Jie Liao
- 机构:Horizon Robotics
- 论文水平:CVPR Waymo Challenge 2020
- 关键词:data aug && multi frame && ensemble
- 论文链接:paper
摘要
本工作主要是基于AFDet,继续优化这种anchor free以及NMS free的网络,以挑战waymo数据集上的检测任务.相比于AFDet,本工作主要的修改方向包括:
data aug
在AFDet的基础上进行了test time data aug,主要包括point cloud rotation around pitch, roll and yaw axis
, point cloud global scaling
and point cloud translation along z-axis
在每帧中加入了6个车辆、8个行人和10个自行车
network stronger
网络结构如下
在AFDet的基础上,使用了稀疏卷积,并且使用体素化替换了pillar,应该是为了保留z的特征细粒度.
grid size 0.04m, 0.04m, 0.1m along x, y, z axis respectively
在上图的框架下,本工作在backbone后面加入了RPN网络,进而通过调整不同的backbone以及不同的rpn结构,形成了三种不同的网络版本,结构如下
剩下的部分,head与loss应该与AFDet保持一致
first and second returns fusion in waymo
waymo的数据集,激光雷达点云是双回波的,所以在这个版本中,为了加强点云密度,新增加了对第二次回波点云的使用.以及将5个lidar的点云都使用上了
multi frame accumulation [-4, 0]
融合了多帧的信息,操作大概应该是位姿变换对齐,然后把每一帧的点云打上相对的时间戳.本工作是融合了前面四帧的点云.
utilizing image data: point painting
这里借助了pointpainting的思想,将图像的信息融合进来.
对图像信息的使用包括两阶段,首先是使用box,第二阶段是使用语义分割的信息.
- 如果只有box,对点云特征增加一个维度,具体计算方式为: 将lidar的点投影到图像,如果点在box中,那么将box的预测得分赋给这个点,如果不在box中,得分为0
- 如果可以有seg的信息,那么将seg的语义特征加到点云后面
训练阶段,使用图像的真值,保存成点云.测试阶段,使用Cascade-RCNN对图像进行检测.
model ensemble
涨点利器
总结
整体网络结构分为三部分,首先是体素化并且提取点云特征,转换到BEV视角,第二步是使用二维的backbone(也就是RPN)提取高维度特征,最终接五个head,作为三维box信息的预测以及编码.
本工作在AFDet的基础上,网络结构主要改进了backbone,替换掉原有的轻量化backbone,所谓的RPN,个人理解就是Encoder-Decoder的结构.并且在Decoder部分融合了多个分辨率的feature map.
此外的主要工作就是采用painting的方式融合了图像的信息,并且使用了ensemble涨点.这些操作都很值得借鉴