多传感器融合感知之用于感知的多传感器分析
本文记录了深蓝课程学习过程,主要是关于camera、lidar、radar等传感器的原理分析以及相关知识。
一、传感器概述
常见的自动驾驶感知传感器,一般包括 lidar,camera,radar以及ultrasonic。
思考,为什么使用以上传感器来做感知任务?从人的角度分析,无非就是一些感官信息,触摸、看见、听见。所以从机器人的角度来看,上述传感器便能让机器人感知周边环境。
总的来看,激光使用激光束,camera使用可见光,radar使用毫米波,这三种都可以成为电磁波。
radar到camera到lidar,波长逐渐变小,我们都知道短波检测精度高,但是易受干扰,而长波传播距离远,抗干扰能力强。所以我们可以使用毫米波和激光波来互补。
此外,还有声波,比如超声波,这是一种机械波,其有一定透视能力,但是衰减快。
关于机械波与电磁波,机械波是由于周期性扰动产生的,并且传播需要介质。而电磁波则是电磁振荡的传播,不需要介质。以人类为例子,我们看到的都是电磁波,听到的都是机械波。其他形式的波还包括引力波、物质波等,但是均不太合适用作自动驾驶。
二、传感器原理分析
2.1 camera
2.1.1 成像原理
- 针孔(pin-hole)相机为例,小孔成像原理
- 相机是一种被动式传感器,依靠外界的光源(比如太阳)反射成像。因此对光照条件敏感。
- 将三维映射为二维,丢失了尺度信息。
- 清晰成像时需要满足像距、物距以及焦距之间的相对关系,假设焦距是f,像距是v,物距是u,那么应该满足,1/f = 1/u + 1/v,且像距应该大于一倍焦距小于二倍焦距,才可以呈现清晰的像。
- 此外,相机传感器由于小孔成像的原理,存在一定的视场角,且视角由像距和传感器尺寸共同决定。此处可以通过相似三角形,求解水平和竖直的视角,如下图,视角之前的区域就是相机的盲区
一般来讲,像距和焦距相差不大,在一些场景中可以认为像距等于焦距。并且焦距越大,视角越小,长焦看的远,短焦看得全,这也就是我们所说的长焦与短焦镜头的区别。
2.1.2 成像过程
详细细节可以参考这个视频
- 景物在光源的照射下,产生的光学图像投射到相机中
- 镜头(LENS)
- 图像传感器,将光学信号转化为电信号,以及进一步通过AD转换器将模拟量转化为数字量。这里的光电转换传感器包含两种,分别是CCD以及CMOS,二者的差异在于信号的读出过程不同
- CCD仅能输出模拟电信号,集成度低,而 CMOS将图像信号放大器、信号读取电路、AD转换等集成到一块芯片上,集成度高
- CCD成本较高,工艺复杂,CMOS相对而言成本就低很多
- CMOS一般输出频率可以很高,500FPS以上频率输出的相机都是使用CMOS的
- DSP,数字信号经过DSP(Digital Signal Processing)进行加工处理,DSP包括ISP(Image Signal Processor)以及JPEG编码器等组成,DSP的功能就是对原始的图像数据进行过滤和筛选,最终将处理好的信号传递下去
- IO,负责与其他设备进行通信,目前主流的IO接口包括USB以及以太网等。
2.1.3 相机选型
对于感知任务来说,需要使用相机同时检测近距离和远距离的目标,且车辆覆盖的像素不少于30个,红绿灯覆盖的像素不少于10个,而在焦距固定时,相机是无法满足同时这个要求的,因此需要不同的焦距。使用长焦感知远距离,短焦感知近距离。
常见的相机传感器供应商有 Sony、Onsemi(安森美)以及OmniVision(豪威)等。
相机传感器的一些核心指标包括像素尺寸、感光范围、输出帧率等。
2.1.4 成像方式
分为两种,卷帘快门(rolloing shutter)和全局快门(global shutter)。
自动驾驶场景中,一般使用rolling shutter,因为其制作工艺简单,成本低。
但是卷帘快门导致行与行之间成像时间有误差,进而存在两点问题
- 行之间时间戳不一致,一般取中间行的时间戳作为整张图片的时间戳。
- 行与行之间的成像有形变,这也叫做果冻效应,如下图
2.1.5 小结
相机是一种被动式的传感器,依靠可见光感知目标,感知结果稠密且连续,但丢失尺度,视野范围依靠镜头焦距调节,卷帘快门出发,时间戳有误差,成本百元级别,量产方案成熟。
2.2 lidar
2.2.1 成像原理
首先,关于lidar的基本原理,参考以下视频 https://www.youtube.com/watch?v=NZKvf1cXe8s
简要来说,激光雷达通过TOF原理,自己发射光波来测量环境中障碍物的距离,多线的激光雷达可以通过旋转式的扫描方式来获取周边环境的点云信息。常见的激光雷达不仅可以返回目标表面点相对于自身的距离,还可以测量表面材质、颜色等信息,作为额外的每个点的属性(intensity、timestamp、elongation等)。
如上述简图所示,多个激光头并排旋转发射激光束,以构成周围环境的点云,其中,最上面激光头与最下面激光头的夹角叫做FOV,表示激光雷达竖直方向探测的角度范围。一般来讲, 可以通过修改激光雷达驱动文件,来配置线束之间的夹角,以达到下图的效果。
此外,激光雷达有一个很显然的特性,就是距离远近的同一目标,其覆盖的点云数量不同,越远越少,因为角度决定密度,进而决定感知距离。
对于检测任务,理论上车辆表面不少于30个点,行人表面不少于10个点。
2.2.2 常见的激光雷达类型以及核心参数
目前可以分为三类,分别是机械式、混合固态以及纯固态。
- 机械式,通过并列排列若干个激光头来产生多个线束,并且使用旋转平台来完成360度的水平fov,通常来讲机械式雷达较为精密,应该避免磕碰,一旦机械结构发生形变,就会影响测量结果,所以其寿命通常不可控。常见品牌有velodyne、何塞、镭神、速腾等。
- 混合固态,取消旋转平台,只用一个激光头,通过微振镜来产生不同的角度,但是并没有360度,水平和竖直都是确定的FOV,这种雷达使其有了过车规的可能,所以有一些无人驾驶公司会使用他们作为量产的解决方案。常见品牌有Innovution、DJI的livox等。
- 固态,进一步去掉微振镜的结构,完全通过固态电路板来产生点云,成本会更低,但是现在技术还不是特别成熟,需要进一步发展。
通常来讲,我们会关注lidar的线束、波长、测量精度、探测距离、视角以及分辨率、旋转频率等参数。
2.2.3 小结
Lidar是一种主动式传感器,通过自己发射激光束来对周边环境进行测距,生成的数据天然稀疏、但是测量距离精度高,且可以用来描述周边三维环境,其触发方式是逐点的,成像时间无误差,但是目前成本仍然是量产的一道阻碍。
2.3 radar
毫米波雷达是工作在毫米波波段的,电磁波频率大概是30 GHz ~ 300 GHz,波长介于1~10mm的雷达。毫米波雷达相对于激光雷达和camera,属于长波长,其对天气的鲁棒性更强。与lidar类似,毫米波雷达通过天线发射特定频率的电磁波,并计算发射和接收的差异性,进而获取目标的径向运动速度、飞行时间、径向距离等信息。
2.3.1 成像原理
毫米波雷达依靠多普勒效应,多普勒效应本质上说明了速度变化会引起波的发送和接收两者之间的频率差异。波源靠近接收者,那么频率升高,反之频率降低。
radar可以探测的物理量有三个,速度、距离、方位。
测速
其中测速是根据多普勒原理,测量得到的是相对且径向的速度,以FMCW调频连续波的radar为例,测速原理是,发射调频正弦波,通过计算发射和接收的频率变化,就可以计算相对速度。
推理过程如下 (毫米波是电磁波,空气中传播速度是c)
测距
除了测速,通过相位差计算频率的变化以及飞行时间t,还可以计算出径向的距离信息D,类似TOF原理 D=c·t/2。
测方位
radar内部通常设置1个发射天线,两个接收天线,通过计算反射波的相位差,可以计算出径向距离的差值,根据两个接收天线之间的距离l,以及径向距离之差Δd,可以大概估算出目标的方位角,推理过程如下图,这种估计会随着实际的θ角增加而误差变大。
其他信息
除了以上测量值,radar还可以拿到较为准确的timestamp以及粗略估计切向速度。由于自身测量的原理基于TOF,所以相对来讲时间戳信息是较为准确的。但是切向速度的估计通常误差较大。
2.3.2 radar的分类以及关键参数指标
按感知距离划分
- 短距离radar:探测范围大,但是距离较短 (15-30m),频段为24.0GHz 到 24.25GHz,窄带带宽 250 MHz,波长大于 1cm,严格来讲属于厘米波雷达。
- 中长距离radar:探测范围窄,但是距离较长(100-200m),最长可以长达250m,频段为76-77GHz,该频段有等效同性各向辐射功率的优势,同时满足高传输功率和宽工作带宽,可以同时做到长距离探测和高距离分辨率。波长更短所以收发天线面积大幅减小,雷达体积更小。
按电磁波辐射方式
可以分为脉冲和连续波两种方式,详见下图,其中FMCW是最常用的方式。
2.3.3 radar常见的问题
由于radar在处理原始数据时,为了计算发送与接收波之间的频率差,通常是将原始数据转换为频域处理,因为相对速度与频率差成正比,所以只要对频率差做阈值化,就可以得到想要的速度区间,实现测速的目的。但是这样其实对于理解传感器而言,并不是十分直观,如下图,颜色鲜艳的地方表示频率差比较大,也就代表着相对速度较大。
为什么好多人说radar误检比较多?
在频域的阈值化过程中,需要人工设定参数来对频率差做筛选,这就会导致低阈值时噪声多,但是为了保证recall,提高信噪比,阈值不能设定太低。比如德尔福的rader阈值比较低,希望给用户更多的信息,但是conti的radar则是更倾向于保证结果的置信度,所以阈值较高。
所以归根结底,radar的结果与阈值设置有关系。
radar为什么没有高度信息
对于常见的radar来说,因为早期只感知BEV平面是够用的,所以不带有高度信息。但是近些年4D的radar有很多厂商在做,这是加入了高度信息的。
2.3.4 小结
Radar类似于Lidar,是一种主动式传感器,但是成像稀疏,并且在频域处理,成像通常在2.5D(无高度)-4D(有高度),探测距离远近皆可,触发方式较为精准,时间戳无误差,价格在千元级别,成熟量产。
2.4 ultrasonic
超声波,是指传播速率大于20000Hz的机械波,正常声波的速度大概是340m/s,人耳可以听到的频率是20Hz-20000Hz之间,而超声波是大于这个区间的。
超声波的测距原理还是TOF,探测角一般是80-120°,近距离10cm之内会有盲区。一般超声波会被用于近距离,小于10m的障碍物感知。此外,超声波无法确定目标的方位,也就是说,在其感知范围内的障碍,超声波只能给出距离,而不能给出方位角的信息。
最终的超声波输出包含两个,分别是精准的时间戳以及0-1的障碍信息(粗略的距离值)。超声波有一个很好的特性就是抗干扰能力强,防水防尘能力好。
超声波的一些缺点如下:
- 对温度敏感
- 频率高,速度低,受自身速度影响较大(多普勒效应,自车速度大于相对速度时)
- 无法测量方位角
小结
超声波雷达是一种主动式传感器,感知结果可以近似为一种阶跃的物理量,由于无法感知方位角,所以大多会用来测量其感知范围内是否存在障碍。成本较低,小于1K,量产成熟。
三、自动驾驶车辆上的传感器
3.1 各传感器横向对比
总体而言,三种传感器各有优劣,所以目前主张多传感器融合的方案会想要集大家之长,但是激光雷达的量产化还有一段时间的路要走。
3.2 车载配置
现有的自动驾驶方案中,可以分为L2和L4两种。
一般L2或L2.5级别的自动驾驶,由于考虑了量产的需求,需要压缩成本,所以大多使用camera和radar,lidar一般均考虑半固态式,比如DJI的livox。而L4级别的自动驾驶则是会在早期的方案设计中加入机械式旋转的激光雷达。
所以,个人认为,自动驾驶传感器配置,现在就有了两种主流的方案,一种是极端主义者,代表就是Tesla,申明不使用激光雷达,并且也的确在近两年的FSD更新中逐步优化,甚至还提出了要使用camera代替radar的作用。另外一种就是多传感器融合,并且坚信lidar的量产成熟化会逐步加快,最终可以成熟地应用在自动驾驶中。
常见的用于感知的传感器配置可以参考下图
四、总结
对于自动驾驶任务来说,需要cover的场景因天气、光照、目标等因素而变得特别繁多,所以直观的想法就是将各种传感器的优势融合起来,比如多种电磁波与机械波的结合,被动传感器与主动传感器的结合,2D和3D的感知结合等等,这些都可以帮助我们解决困难的场景带来的挑战。
但是与此同时,一点不得不提的就是,成本控制,量产必然会经历成本的打磨,以及满足车规的要求。Lidar虽然相对量产化落后一些,但是发展很快,相信不久的以后就会成为量产的选择。