目录

论文阅读09 Cylinder3D

本文提出了一种圆柱化的3D卷积方案,有效针对lidar的数据特性设计网络。

简介

  • 论文:《Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation》
  • 作者:Xinge Zhu,Hui Zhou,Tai Wang,Fangzhou Hong, Yuexin Ma, Wei Li, Hongsheng Li, Dahua Lin
  • 机构:Chinese University of Hong Kong, § ShanghaiTech University
  • 论文水平:CVPR2021
  • 关键词:lidar segmentation
  • 论文链接:paper

摘要

大场景下的点云分割领域SOTA方法经常将点云投影到2D空间然后使用2D的卷积网络处理他们,这样虽然取得了具有竞争力的精度,但是不可避免地改变或者放弃了三维拓扑和几何关系。一种解决方案就是3D体素化和3D卷积网络,但是我们发现,这种方法在室外场景下的性能提升非常有限,很重要的原因就是室外场景下的点云具有稀疏性和密度可变性。

受到这项调查的启发,我们提出了一个全新的室外Lidar分割的框架,其使用圆柱型的区域划分方式以及设计了非对称的3D卷积网络,在保留点云固有属性的同时,探索3D几何信息。此外,我们还引入了逐点细化模块,以减轻受损的基于体素的标签编码的影响

我们在两个大场景数据集上评测了我们的模型,分别是SemanticKITTI和nuScenes。结果表明,我们的模型在SemanticKITTI数据集上达到了第一的性能,并且在nuScenes数据集上超越了现有算法较为明显的精度,约4%。此外提出的框架同样适用于点云全景分割以及点云3D检测

主要贡献

  1. 重新将Lidar分割问题的关注点从2D投影的方案转移到了3D表达上,并且探究了一些室外场景的挑战性问题,比如点云稀疏和随距离变化的密度.

  2. 提出了一个全新的框架,通过圆柱化分区以及非对称3D卷积网络,一定程度上解决了上述挑战

  3. 提出的方法在SemanticKITTI以及nuScenes两个数据集上,实现了SOTA,并且在点云目标检测以及点云全景分割两个任务上同样表现出优异的性能,说明方法具有极强的泛化性。

方法流程

概览

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162101.png

为了解决室外场景中的点云稀疏以及密度变化这两个困难,本文的框架针对性的使用了圆柱化以及非对称卷积,圆柱化的划分方式可以较好的适应变化的密度,对于输入的点云数据,首先将其按照圆柱的方式进行划分(类似体素化),进而使用非对称卷积学习每个Voxel级别的特征,最终,为了解决体素化带来的训练过程中的loss损失,本文还提出了一个point-wise的编码模块,用来调整loss,加入逐点的损失信息,所以最终的网络输出有两部分,分别voxel-wise的损失以及point-wise的损失。

圆柱区域划分(Cylindrical Partition)

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162046.png

第一行是range image的方案,其使用2D卷积,但是丢失了部分点云信息。

第二行是体素网格,第三行是圆柱网格,相比于体素,圆柱式的分区方式使点云分布更加均匀,89%对比61%。

此外,文中还给出了使用2D投影的以及基于体素网格的方法与本文方法的精度对比。可以看到polarnet等蓝色方法精度偏低。

圆柱化分区的优势在于,其可以很好的适应点云的密度变化,进而在较远的场景中,每个voxel中的点也是相对较于均匀分布的,对于提取特征的网络来说,点云在每个voxel中的均匀分布可以使网络更好的捕捉点云特征。

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162157.png

原始点云输入,进行坐标系的变换,将笛卡尔坐标系变换到polar坐标系,得到的三个坐标分别代表当前点到x-y平面坐标原点的距离,从x轴到y轴的角度以及高度。

另一边,使用MLP学习原始点云特征,进而将其整定到圆柱分区中,得到圆柱点云特征。

最终得到的特征张量的维度应该是 C x H x W x L,C表示特征维度,H表示圆柱的半径,W表示倾角,L表示高度。后续的非对称卷积会在这个张量上进行操作,以学习特征。

值得注意的是,随着距离边远,圆柱网格划分时会自动扩大网格体积,以维持较为均衡的点云,在远距离时与体素网格的效果对比明显,本文给出了详细的对比数据。见下表:

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162230.png

非对称3D卷积(Asymmetrical 3D Convolution Network)

这里的非对称3D卷积网络,借鉴了前人的一些工作[1],本文将原有2D的非对称卷积扩展到了3D。非对称卷积的作用就是,其可以增强水平和竖直方向上的响应,通过屏蔽原有3x3x3卷积核的某些维度,可以达到3x3x1或者3x1x3或者1x3x3的效果,因为这些卷积核不是对称的,所以叫做非对称卷积,这样在一定程度上增加了模型对翻转和旋转的鲁棒性。

对于非对称卷积,本文还使用了残差的结构,并且做了对应的消融实验来验证方案的有效性。在非对称残差卷积的基础上,本文提出的网络框架中,还利用非对称残差卷积实现了下采样以及上采样的模块。也就是网络框架中的AD以及AU模块。

点级别的特征细化模块(Point-wise Refinement Module)

虽然分区可以很有效地处理大规模地点云,但是却很难保留细粒化的点云信息。对于本文这类将点云分区的方法,无论是将点云划分成体素,还是扇形的分区,在网络预测时通常会每个分区预测一个标签,因此在计算每个分区的label时,都会存在精度上的损失。比如每个分区中的点可能属于不同的类别,所以我们可能需要采用众数投票的思想来获取当前分区的label,编码的损失就发生在这个阶段,换句话说就是一些点的类别信息被忽略了。为了解决这个问题,本文提出了点级别的优化模块,具体的操作方法就是通过圆柱化过程中的点到分区的映射关系,将高维度的分区特征再映射回每个点,然后再将每个点的原始特征与对应的分区特征聚合在一起,通过MLP学习对应的映射关系,最终输出的就是点级别的损失信息了。

实验结果

定量实验

分别在SemanticKITTI以及nuSence上进行的定量实验,对比点云语义分割的精度,评价指标是mIOU。

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162403.png

消融实验

分别探究了网络的不同模块的作用,以及非对称残差卷积的结构的有效性。

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162429.png

泛化性实验

本文的网络,在点云全景分割以及目标检测上,也表现了很好的性能。

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162504.png

https://pictures-1309138036.cos.ap-nanjing.myqcloud.com/img/20220326162516.png

Reference

[1] X. DIng, Y. Guo, G. DIng, and J. Han, “ACNet: Strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks,” Proc. IEEE Int. Conf. Comput. Vis., vol. 2019-October, pp. 1911–1920, 2019.