一、文献综述
(一)国内外研究现状
当今社会,是知识经济的社会,高新科技飞速发展。人们在不断提高生活水平、知识水平的同时,也越来越关注自身的生活环境与医疗条件。而今,医学图像在医疗诊断中起着不可低估的重要作用,近年来,深度学习技术已广泛应用于医学图像领域,其中如何自动识别和分割医学图像中的病灶是最受关注的问题之一。由于人体器官多样、病灶形状复杂、图像噪声干扰等诸多原因,器官病灶等一些待分割物体容易出现边缘分割不清晰、缺失值大等状况。临床医生对这些结构进行手动注释是不切实际的,因为它费时、费力,并且容易受到人为错误的影响。解决这些问题取决于自动化和精确的医学图像分割方法。准确评估医学图像中的分割结果对于管理各种医学状况和疾病至关重要。
最先进的图像分割模型是编码器-解码器架构的变体,如U-Net[1]和全卷积网络(FCN)[2]。这些用于分割的编码器-解码器网络有一个关键的相似性:跳跃连接。它将解码器子网络的深度、语义、粗粒度特征图与编码器子网络的浅层、低级、细粒度特征图结合起来。事实证明,跳跃连接在恢复目标对象的细粒度细节方面是有效的,即使在复杂的背景下也能生成具有精细细节的分割掩膜。跳跃连接也是实例级分割模型(如 Mask-RCNN[3])成功的基础,它可以分割被遮挡的对象。可以说,自然图像中的图像分割已经达到了令人满意的性能水平,但是这些模型还未能满足医学图像的严格分割要求。
分割医学图像中的病变或异常需要比自然图像拥有更高的精度。虽然精确的分割掩码在自然图像中可能并不重要,但在医学图像中,即使边缘分割错误也可能导致临床环境中的用户体验不佳。例如,结节周围的细微毛刺可能表明结节恶性。因此,从分割掩码中排除它们会从临床角度降低模型的可信度。此外,不准确的分割也可能导致后续计算机生成的诊断发生重大变化。例如,纵向研究中对结节生长的错误测量可能导致将不正确的肺结节 Lung-RADS 类别分配给筛查患者。因此,需要设计更有效的图像分割架构,才能够有效地恢复医学图像中目标对象的精细细节。
目前已有较多学者开发了广泛的计算机视觉技术用于医学图像分割。这些方法可以概括为:基于区域的方法、基于边缘的方法、聚合区域与边缘的方法、以图卷积网络(Graph Convolution Network, GCN)为代表的图神经网络(Graph Neural Network, GNN)相关方法。
(1)基于区域的方法。得益于卷积神经网络(Convolution Neural Network, CNN)提取高级语义特征的出色能力,其在医学图像分割中得到了广泛的应用。现有的基于卷积神经网络的方法将分割视为密集像素分类任务。其中UNet[1]是最典型也是应用最广泛的方法,它利用收缩路径获取特征信息,利用扩张路径实现精确定位,在编码器和解码器之间采用跳跃连接来减少信息丢失,在各类数据集上均有较好的表现。另一种经典的基于区域的分割方法UNet [4],使用灵活的网络结构配合深监督,使得参数量巨大的深度网络能够在可接受的精度范围内大幅度缩减参数量,同时使用聚合机制融合多级特征,但是,在对象边缘采样不足的情况下,一些低级特征被不必要地过度提取,这可能会导致信息流过多,从而影响分割效果。同时,Gu等人提出 CE-Net[5] 来捕获高级信息并保留基于 UNet[1] 的空间信息。由于标准 CNN 的接受域有限,CE-Net结合了密集空洞卷积以扩大接受区域进行远程上下文推理。 M-Net[6] 以极坐标表示眼底图像,并在分割视盘(Optic Disc, OD)和视杯(Optic Cup, OC)方面实现了高精度。然而,它需要额外的过程,例如具有深度监督的多尺度输入和侧输出机制,以实现远程关系聚合的多级感受野融合。同样,Fan等人提出了一个 Inf-Net[7] 来解决 COVID-19 肺部感染分割问题。包含一个反向注意模块,以在多个侧输出方面进行深度监督。借助增强的远程关系推理能力,上述方法在分割任务中取得了可喜的成果。然而,它们效率不高,因为堆叠局部线索不能总是精确地处理远程上下文关系。特别是对于像素级分类问题,例如分割,执行远程交互对于复杂场景中的推理很重要。为了应对这一挑战,最近基于自我注意[8]的方法[9-10]已经证明了捕获远程关系的卓越能力。例如,Segtran[10] 提出了一个挤压注意力块,它正则化了 Transformers[11] 的自注意力,一个扩展注意力块学习了多样化的表示。通过这种方式,Segtran 可以计算所有输入单元之间的成对交互(self-attention),组合它们的特征并生成上下文特征。它在 OD amp; OC 和息肉分割任务中取得了可喜的成果。另一方面,为了理解场景或全局上下文,这些方法必须从高级语义意识和区域位置信息中学习对象的位置、边界和类别。然而,他们专注于学习图像强度特征,缺乏像素级的区域位置信息,这导致了不准确的对象边界预测。
(2)基于边缘的方法。基于多边形的方法沿对象边缘回归预定义的顶点位置,并连接预测的顶点以形成多边形,然后将其转换为掩码。例如,Cheng 等人[12]结合活动轮廓模型 (Active Contour Models, ACMs)和卷积神经网络,创建一个深度活动射线网络,它利用极坐标(射线)来表示活动轮廓。同样,Xie等人[13]提出了 PolarMask来解释极坐标系中的物体边缘,并提出了一个卷积神经网络来回归光线的长度,它隐式地估计了物体边缘。Meng等人提出的 CABNet[14],将对象边界表示为顶点,然后明确估计顶点位置。它在 OD 和 OC 分割任务上取得了可喜的成果。其他基于边界的方法[15-18]将边界几何约束集成到损失函数或评估测量中。例如,Kervadec 等人提出的边界损失[18],它采用轮廓空间的距离度量来减轻前景和背景之间高度不平衡的困难。Cheng等人提出了一个边界交叉联合(BIoU)[15]评估测量,量化了区域分割任务中的边界质量。这些方法适用于通过沿边界轮廓回归顶点位置来分割对象的整个区域。然而,他们忽略了内在的区域边界关系,而这对于提高分割性能至关重要。
(3)聚合区域与边缘的方法。区域特征强调像素级语义和对象级上下文信息的全局同质性,边缘特征描述了边缘轮廓两侧的局部边缘特征和空间变化,直观地说,结合有关区域和边缘特征的信息对于提高分割性能至关重要。目前已有较多学者针对这一方法展开相关研究,Zhang等人[19]提出了边缘注意网络(Edge Attention Network, ET-Net),嵌入边缘注意表示来指导分割网络。具体地,边缘引导模块用于学习早期编码层中的边缘注意表示,然后将其传输到多尺度解码层,并使用加权聚合模块进行融合,对边缘信息做到了很好的获取。Valanarasu等人[20]则提出了一个完整的级联网络KiU-Net进行脑解剖分割,可以同时利用Ki-Net的底层精细边缘特征图和U-Net的高级形状特征图,不仅提高了分割精度,而且对于小的解剖标志和模糊的噪声边缘也实现了快速收敛。针对分割区域及边缘的不确定性与模糊性,Lee等人[21]提出新颖的边缘关键点选择算法和结构边缘保持分割框架,使得模型能够自动提取和学习结构关键点信息,但在网络中增加了较多参数,不易于模型部署。针对区域边缘和区域内的不连续性,Chu等人[22]提出一种利用简单边缘检测器定位所有不连续点,并对这些区域进行额外监控的方法,有效提高了分割精度。此外,Fan等人[23-24] 和Zhang等人[25]分享了一个类似的边缘注意思想,其中对象边缘是从具有前景擦除机制的区域预测中隐式提取的。通常,这些方法将分割视为多任务学习问题,通过使用共享主干和两个独立子网络分别提取区域和边缘的特征。然后,区域和边缘的特征提取直接与基本融合操作相融合,例如逐元素加法、乘法或通道级连接。
(4)以图卷积网络为代表的图神经网络相关方法。图结构模型被用于分割任务,因为它们具有长距离信息传播和特征更新的天赋。Zhai 等人[26]基于血管分割图卷积网络算法前期研究,直接将提取的特征图输入到图卷积网络中,对图卷积网络进行训练,并对每个模块进行预测,以达到分割动脉和静脉的目的。Meng等人[27]提出BI-GCN,介绍了一种基于图形传播的框架来解决生物医学图像分割问题。提出了一个具有边缘意识且输入相关的图卷积模型(Bi-GConv),用于推理生物医学图像分割任务中区域之间边缘增强的长距离相关性。实验结果表明,所提出的GRM可以有效地了解语义区域特征,同时明确考虑到结肠息肉、视盘视杯分割任务上的空间边缘特征,达到分割最优效果。并且,与现有的基于区域的密集像素分类方法或基于边界的多边形回归方法不同,Meng等人[28]还构建了一个基于图神经网络的新型深度学习框架,该框架具有多个图推理模块,在端到端人工操作中显式地利用区域和边界特征。在两种具有挑战性的数据集上的实验表明,该方法均优于最先进的方法。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。