文献综述(或调研报告):
三维目标检测在自主驾驶感知系统中占有重要地位,按照传感器类型分为单目相机、双目相机、多目相机、激光雷达、深度相机等,按照数据类型分为单目图像,多视图图像,点云。由于点的深度数据可以直接测量,相比较而言基于点云的方法更为直观准确,三维检测问题本质上是三维点的划分问题。本研究将基于激光点云进行道路场景三维目标的检测。
目前,针对点云的深度学习网络主要分为3大类,即激光点云2D处理、激光点云分割处理和激光点云3D处理。
- 激光点云2D处理:
由于深度学习在2D图像上取得巨大成果,基于2D投影的深度学习网络开始得到重视。此种方式不直接处理三维点云数据,而是先将点云投影到某些特定视角再处理,如前视视角和鸟瞰视角。
Li等人[2]第一次提出点云数据可以作为2D CNN的输入数据用于3D目标检测。作者将点云数据映射成类似RGB-D中的2D深度图,然后利用全卷积网络从中进行目标检测。这种方法将3D点云数据转换成2D数据,使用2D目标检测网络进行目标检测,但是2D CNN不能有效利用深度图中的空间信息,而且点云数据在转换为2D深度图时会损失很多有用信息。为了克服这些缺陷,Li等人[3]将坐标(x,y,z)投影到柱面,得到坐标(r,c),生成密集的前视图,鸟瞰图采用多通道输入,将点云数据按照高度进行分割,对于每一个切面生成2D鸟瞰图投影。将2D FCN扩展为3D FCN,在保留2D FCN核心思想的基础上,将其移至3D卷积操作中,直接以3D点云数据为输入,在3D空间中进行目标检测。与2D FCN相比,3D FCN的表现大幅提升。
但是以上此种方法容易造成3D结构信息的丢失,而且投影角度的选取和同一角度的投影对物体的表征能力不同,对网络的泛化能力有一定影响。
- 激光点云分割处理:
对于给定的三维空间,将空间均匀分成很多三维小格子,每个小格子叫体素。体素不是数据固有的格式,需要预先确定体素的大小,人工对点云区域进行分割,将点云格式转为体素格式。体素化之后,有很多体素中没有点云,通常的做法是将其特征置0。体素这种稀疏的性质,使得大量卷积是无用计算。另外,体素是三维的,卷积模板也是三维的,而且卷积核移动的方向也是三维的,随着空间的增大,体素的数量以立方的数量增长,使得体素这种表达方式的精度依赖于三维空间的分割细腻度,而且3D卷积的运算复杂度也较高。
目前体素化的方法通常有基于0-1表示是否有点的体素方法、基于体素网络密度的方法和基于网格点的方法。现有的体素化的尺寸主要有11times;11times;11、16times;16times;16、20times;20times;20和32times;32times;32。此外,由于点云数据量大,有研究人员采用降采样体素化的方法降低数据量[4]。
为了进一步提高体素的表征能力,相继提出多种多尺度体素的CNN方法,如MS3_DVS和MVSNet。苹果公司提出VoxelNet[5],将三维点云划分为一定数量的体素,经过点的随机采样及归一化后,对每一个非空体素进行局部特征提取,并进行抽象特征,获取目标的几何空间表示,使用RPN对目标进行分类检测与位置回归。
- 激光点云3D处理:
为了充分利用点云的多模态信息,解决冗余计算的问题,基于点云中单个点的网络模型逐渐被提出。斯坦福大学Charles等[6]针对室内的点云场景提出了PointNet,PointNet是一种统一结构的深度网络,以点云作为输入。使用MaxPooling对称函数提取激光点云数据特征,解决点云数据无序性问题;训练小型神经网络,实现对点云数据的数据对齐,保证点云数据在实现旋转或者平移转换过程中的不变性。但由于PointNet网络只是简单地将所有点连接,只考虑了全局特征和单点特征,没有局部信息,对于多实例的多分类问题效果不好。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。