多模态知识图谱构建技术研究文献综述

 2023-08-14 15:16:06
  1. 文献综述(或调研报告):
  2. 研究的目的与意义:

知识图谱提供了有效的组织、管理、检索信息的方法,其作为知识工程复兴的一个重要特征,近年来快速发展。在许多实际应用中,知识图谱已经发挥出了巨大的价值,越来越多作为外部知识来源解决文本理解,推荐系统和自然语言问答等问题。知识图谱包括通用知识图谱(如DBpedia,Freebase)和领域知识图谱(如IMDB,UNIPROTKB),涵盖了常识知识(如Cyc,ConceptNet),词汇知识(如WordNet,BabelNet),百科全书知识(如Freebase,DBpedia,YAGO,WikiData,CN-DBpedia),概念知识(如Probase)和地理知识(如GeoNames等)等多种类型的知识。

现有知识图谱中的实体、概念、属性和关系大多是用纯符号来表示的,但是机器不能通过符号数据来理解实体、概念、属性关系的意义,正如除非与狗生活在一起,人类不能理解什么是狗,因此符号计算并不足以实现人类水平的认知,大大损伤机器理解世界的能力,因此,为了使机器面对抽象概念时能与人类有一样的体验,有必要在物理世界中建立符号到对应的所指物的映射,将符号接地到对应的图像、声音和视频数据。

随着多媒体的发展,多模态数据显著增长,深度学习技术的发展同样显著提升了机器处理多模态数据的能力。当前多模态工作多是较多关注在自然语言与图片、视频之间的相关联,而非符号知识。实现符号实体、概念或事实与对应的多模态对应项之间的关联本质上相当于在现有知识图谱中实现符号接地,当知识图谱中的元素都接地,即为构建了多模态知识图谱。因此大规模知识图谱的多模态化是进一步释放知识图谱价值的重要举措。

  1. 研究现状及优劣分析:

在现有文献中,有两种方法构建多模态知识图谱:(1)用知识图谱中表示实体、概念和关系的符号对图像进行标记;(2)将知识图谱中的符号接地到图像上。

  1. 标记图像:

在计算机视觉领域有许多图像标记的方案,这些解决方案可用于在知识图谱中用符号标记图像。大多数图像标签解决方案都是学习从图像内容到标签集(可能是对象、场景、属性、关系等符号)的映射。并且学习过程由人工标注的数据集监督,这一监督过程对学习模型的性能至关重要。这种标记方式通常是招募志愿者或工作人员来用给定的标签标注图像或图像区域,并且已经有许多数据集是用这样的方式来构造的。

例如斯坦福大学人工智能实验室提出的Visual Genome数据集[1],即通过众包的方法对图像进行人工标注。在该数据集中,每一张图片都被进行了区域化分割,边界框和文字一一对应,不同的区域都进行了详尽的描述,通过大量人工密集注释添加了更加完整的描述和问答,并通过投票策略等,对这些描述问答做筛选,保证准确性。此外,Visual Genome将图片标注中注释词汇映射到WordNet[4,5]中规范化,并对每个区域构建一个组织关系图的形式,同时将一张图片上所有的区域图联结起来,构成了一个完整的场景图。Visual Genome数据集蕴含了丰富的语义信息,能够更好的在认知任务中理解图像中对象之间的关系。然而采用众包的方式进行人工标注,人工成本是极高的。

NEIL数据集[2]是利用搜索引擎从互联网不断抽取视觉知识而建立的,通过抽取的实例和常识关系来增强知识库,同时使用数据集和抽取到的关系构建分类器和探测器从而帮助改进语义理解。程式采用了半监督的学习算法,通过迭代(迭代过程:种子图像——训练检测器/分类器——概念关系提取——给出新的物体标签)自动提取物体常识关系:物体与物体结构、类别、相同关系; 物体与场景关系; 物体与属性关系,分别用语义类别(从属部件、分科/类似)及关联功能,给出其可视范畴的标签,建立机器与人类可沟通的可视结构化知识库。然而,NEIL中所提供的标签分类数目非常有限,不符合知识图谱丰富语义的要求。

综上可以看出,现阶段在图像标记方面的研究无法满足多模态知识图谱的要求,并不足以创建大规模的多模态知识图谱:

  1. 图像标记解决方案只能生成平面标签,在融合进入知识图谱之前,仍然需要很多的工作来将其组织成层次结构或有序的方式。有一些研究尝试将图像标记模型生成的标签链接到知识库中的术语、实体或概念,例如Wikipedia[3]和WordNet[4,5]。然而图像标签并不容易被链接到知识图谱的对应部分,而且在有些情况下,图像标签不一定存在于知识图谱中。
  2. 目前的图像标签方案生成标签的数量是有限的。许多图像标记任务都是通过分类模型来解决的,当标签数量增加时,分类模型的性能通常会下降。例如,最先进的图像标签方案最多可以支持14K的标签数量[2]。
  3. 现有的图像标注方案的性能严重依赖于人工标注的数据集,获取这些数据集的成本是很高的。当标签类别的数目达到数十亿级别时,构造一个可用于训练的具有数十亿个标签的图像标记方案的带注释的数据集是非常困难的。
  4. 符号接地:

从数据来源来看,通过符号接地来构造多模态知识图谱的方式主要有两种:在线百科全书(如Wikipedia)和通过搜索引擎。在Wikipedia中,一篇文章通常用图像和其他多模态数据描述一个实体。Wikipedia和DBpedia[6,7]提供了大量的工具(如Wikimedia Commons)来帮助建立DBpedia中的实体与Wikipedia中相应的图像或其他形态数据之间的连接。使用Wikipedia构建第一个版本的大规模多模态知识图谱很容易,但它有两个主要缺点。首先,每个实体的图像数量是有限的。在Wikipedia中平均每个实体的图像数是1.16[8]。但是一个实体(例如一个人)通常具有多个方面,因此应该有多个图像来表示不同的方面,例如特朗普作为商人和美国总统应该对应两幅不同的图像。其次,Wikipedia上的图片的多样性是有限的。一般来说,作为一本百科全书,Wikipedia倾向于使用一个实体的授权图片,而忽略了一些非正式的图片。例如,特朗普的漫画是很难在Wikipedia上找到的。第三,通过Wikipedia构建的多模态知识图谱的覆盖率仍有很大的提升空间。Wikipedia已经涵盖了1200万个实体,这是通过Wikipedia构造多模态知识图谱的容量的上限。而在Wikimedia中仍然有许多实体没有相应的图像。因此,我们仍然需要提高来自Wikipedia多模态知识图谱的覆盖率。

为了提高多模态知识图谱的覆盖率,基于搜索引擎的解决方案被提出。通过指定实体名称作为查询语句,我们可以很容易地从搜索引擎的搜索结果中找到实体对应的图像。搜索结果中排名靠前的图像通常很有可能是要搜索的实体的正确对应图像,可以用这些图像来匹配对应的实体。然而基于搜索引擎的方法很容易将错误的图像匹配到多模态知识图谱中。搜索引擎的搜索结果可能是有噪声的,并且指定搜索关键字也并非易事。例如关键词“银行”并不足以寻找到商业银行的图片。通常通过添加父同义词集[9]或实体类型[10]来扩展查询词以消除歧义。在为实体选择最佳图像时,多样性也是一个不容忽视的问题。训练一个图像多样性检索模型,去除冗余的相似图像,使得实体接地的图像尽可能多样化[11]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。