- 文献综述(或调研报告):
1955年加菲尔德发表题为《引文索引用于科学》的论文,系统地提出用引文索引检索科技文献的方法,1961年开始编制面向全部科技领域的综合性引文索引《科学引文索引》(简称SCI)并于1963年出版[1]。1965年,普赖斯借助《SCI》发表了论文《科学论文的网络》,这篇论文研究了科学论文之间的引证和被引证关系,以及由此形成的引证网络。普赖斯指出在这个网络图上,有密集分布的小条或小块,如果把这些小条小块研究清楚,就可以绘制当代科学的“地形图”[2]。由此引文分析普遍开展起来,而信息技术的广泛运用,更使得引文分析、共现分析等方法如虎添翼。进入新世纪以来,知识图谱的理论与方法,以其理论上的综合化、方法上的可视化、描绘上的形象化等诸多特征,获得迅猛的发展,一跃成为当代科学计量学的研究热点与最新前沿,研究极为活跃[3]。
维基百科和谷歌对知识图谱给出的解释相同:知识图谱是谷歌用于增强其搜索引擎功能的辅助知识库。这样的定义对于知识图谱这一庞大的学科而言太过狭隘。百度百科给出的知识图谱的定义为:知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。实际上,知识图谱本质上是一种叫做语义网络的知识库,是结构化的语义知识库。知识图谱以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[4]。
知识图谱的定义本身是使用“实体-关系-实体”三元组描述物理世界,因此,如何建立这样的三元组是建立知识图谱的核心技术之一。
实体关系识别技术被开发的目的就是识别文本中的特定关系,在知识图谱发展当下,与其他技术结合的实体关系识别成为一个可行选择。在统计学可以将一般的工作转化为分类问题,在解决复杂问题上适应性良好,因此其中的半监督学习结合实体分析受到更多的关注。互联网数据的一大特性是复杂变化的,因此自主监督学习下的知识图谱才有应用的可行性。
知识融合指的是将多个数据源抽取的知识进行融合,在知识图谱建立过程中也扮演着重要的角色。与传统数据融合任务的主要不同是,知识融合可能使用多个知识抽取工具为每个数据从每个数据源中抽取相应的值,而数据融合未考虑多个抽取工具。由此,知识融合除了应对抽取出来的事实本身可能存在的噪音外,还比数据融合多引入了一个噪音,就是不同抽取工具通过实体链接和本体匹配可能产生不同的结果。另外,知识融合还需要考虑本体的融合和实例的融合[5]。
早在1997年,White等人将文献计量可视化的步骤归纳为5点;;针对新环境下的知识可视化,B9rner(2003)等人将其分为六部分:提取数据、定义分析单元、选择方法、计算相似度、布局知识单元和解释分析结果。Cobo(2011)等人则将其分为七部分:数据检索、处理、网络提取、标准化、作图、分析和可视化。我们认为知识图谱绘制过程可由八部分组成,具体内容见下图(知识图谱的一般建立过程)[6]。
知识图谱的建立后并不意味着工作的结束,因为单纯的知识图谱并不会提供知识推理等数据。针对不同的知识图谱,存在不同的知识分析方式:
- 突发检测:即观察某一变量在一段时间内的变化情况,且这个变化很剧烈。
- 地理空间分析:地理空间分析旨在展示事件发生的地点以及该事件是否对邻近地区产生影响。
- 构建网络:构建网络有很多具体的方法,计算中心度、聚类系数、K-近邻等。
- 时序分析:时间序列,即按时间顺序排列事件或数据观察结果。
- 性能和质量分析:主要是包括一些最基本的统计分析,如:数据总量、最大值、最小值、平均引用量等[7]。
此外,知识图谱的后续工作还包括数据的不断更新。任何数据都是有其存在的有效时间,就如同俗语说“前朝的剑斩本朝的官”是不行的。失效的数据带来的结果是推理结果将会产生偏差甚至严重错误。此外,数据本身也是存在错误的可能,因此,数据的更新是十分必要的。目前从数据更新方式来分类,主要有两类:一类是通过人工手动更新,一类是利用知识图谱中保留的时间戳或者地理位置的信息而实现的自动更新[8]。
总的来说,知识图谱的研究是当前一大热门研究领域,谁能攻克知识图谱研究过程中的难题,谁掌握了知识图谱的进一步技术,谁就能在网络时代复杂信息中获得比他人更快地获得自己的知识。
参考文献:
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。