- 文献综述(或调研报告):
从CNN(卷积神经网络)开始,CNN是一种深度学习模型,是类似于人工神经网络的多层感知器,常用于分析视觉图像。其结构包括输入层、卷积层、池化层和全连接层。输入层是整个神经网络的输入,在处理图像的CNN中,它一般代表了一张图片的像素矩阵。卷积层则是CNN中最重要的部分,卷积层中每一个节点的输入是上一层神经网络的一小块;卷积层的过滤器(filter)或者内核(kernel)可以将当前层神经网络上的一个子节点矩阵转化为下一层神经网络上的一个单位节点矩阵,卷积层结构的前向传播就是通过将一个filter从神经网络当前层的左上角移动到右下角,同时通过填充的方式调整输出矩阵的大小。池化层虽然不会改变三维矩阵的深度,但是它可以缩小矩阵的大小。通过池化层,可以进一步缩小最后全连接层中节点的个数,从而达到减少整个神经网络参数的目的。使用池化层既可以加快计算速度也可以防止过拟合。在经过多轮卷积层和池化层的处理之后,在CNN的最后一般会由1到2个全连接层来给出最后的分类结果。
到Fast R-CNN,与传统CNN不同的是,Fast R-CNN将图片送入网络时同时将RoIs也送入网络,每一个RoI被池化到一个固定大小的特征图,然后通过全连接将其映射到一个特征向量,每个RoI最终得到两个输出向量。而Faster R-CNN则是对Fast R-CNN的进一步优化,最主要是提出卷积后的特征图同样也是可以用来生成region proposals。通过增加两个卷积层来实现 Region Proposal Networks (RPNs) , 一个用来将每个特征图的位置编码成一个向量,另一个则是对每一个位置输出一个 objectness score 和 region proposals。
Cascade R-CNN: Delving into High Quality Object Detection一文中,作者着重探讨了IoU阈值对目标检测性能的影响。IoU阈值越高,得到的正样本更接近目标,因此训练出的检测器定位更加精准。但是如果IoU阈值过高,会出现正样本过少导致训练的过拟合,以及训练和测试使用不一样的阈值导致评估性能的下降。而IoU阈值越低,得到的正样本更为丰富,有利于检测器的训练,但会导致测试时出现大量的虚检。因此,作者提出了Cascade R-CNN的核心思想,即分段,采用多阶段目标检测框架,每个级别使用了不同的IoU阈值,且不断升高,从而解决IoU阈值的选取问题,优化了性能。此外也探讨了不同的分段级别对性能带来的提升,可以发现第二级网络带来的提升最大,到第四级已不再有提升。
YOLO将目标检测看作是回归问题,输出空间分隔的包围盒以及类的概率。是单阶段的神经网络,可以进行端到端的训练,直接从全图预测包围盒以及类概率。检测网络是单阶段的。虽然速度很快,但在最初准确度远远低于同期的其他主流算法。随着一次次的更新,作者对该算法进行了多次优化,在YOLOv3的更新中,YOLOv3的精度与SSD321相当,但速度却快了三倍。
SSD方法将边界框输出空间离散化为每个特征图位置下的具有不同纵横比和尺度的一组默认框。预测时,网络为每个默认框生成各目标类出现在该框的概率,并调整默认框更好地匹配目标形状。此外,网络结合不同分辨率的多特征图的预测来处理不同大小的目标。SSD相对于目标提议的方法更简单,因为它完全消除了提议生成和随后的像素或特征重采样阶段,并将所有计算封装在单个网络中,因此相对于Faster R-CNN速度更快且精确度相当。
在以上各种方法的基础之上,存在着许多其他改进的算法。比如,金字塔形特征表示法是解决目标检测尺度变化挑战的常用方法,但是对于基于特征金字塔的单次检测器来说,不同特征尺度之间的不一致是主要限制。 在这项工作中,论文《Learning Spatial Fusion for Single-Shot Object Detection》提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。它学习了在空间上过滤冲突信息以抑制不一致的方法,从而改善了特征的比例不变性,并且推理开销很低。这种基于学习空间融合的单发目标检测能够实现最佳的速度与精度的折中。其优点在于:由于搜索最优融合的操作是差分的,因此在反向传播中可以方便的学习;它对主干模型是不可知的,适用于具有金字塔结构的单点探测器如SSD、YOLOv3等;且实现简单,增加的计算成本微乎其微。
边界盒回归也是目标检测的关键步骤。近年来,人们提出了IoU损失和广义IoU(GIoU)损失来衡量IoU度量,但仍存在收敛速度慢和回归不准确的问题。在论文《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》中,提出了一个距离IoU(DIoU)损失,通过合并预测框和目标框之间的标准化距离,它在训练中比IoU和GIoU损失收敛得快。在实验中能够发现DIoU相比GIoU的优势:DIoU收敛更快,且在两个框包含、水平与垂直方向的时候,DIoU仍能快速回归,而在这样的情况下GIoU退化为IoU损失。在此之上,还将框的IoU、中心点距离、以及框的宽高比例作为衡量预测与目标的要素,从而得到新的损失度量CIoU(Complete IoU),即,考虑了检测框与目标框的几何关系,对框的几何关系做了约束。
《基于机器视觉的生活垃圾智能分拣系统的设计与实现》一文中,分拣执行机构由多机械臂协调完成,由综合控制器以Profibus 工业总线的方式调度各个机械手完成瓶子的分拣。将生活垃圾的图像信息作为分拣软件的输入信息,最初采集的图像信息经过视觉识别处理器的采集、识别和计算转换为目标物体的位置、姿态、时间构成的目标向量信息,从而指导综合控制器对目标向量进行处理,控制机械手的分拣操作。此外本文中提到了人工辅助识别用于减少识别失误等,在生产实践中有很大的参考价值。
参考文献
[1] Cai, Zhaowei, and Nuno Vasconcelos. 'Cascade r-cnn: Delving into high
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。