知识图谱导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

知识图谱的发展历史源远流长。从经典人工智能的核心命题—知识工程,到互联网时代的语义Web,再到当下很多领域构建的数千亿级别的现代知识图谱,以及在语义搜索、智能问答、推荐计算、语言理解、大数据分析、设备物联等领域的广泛应用。知识图谱也是典型的交叉领域,是知识表示、机器学习、自然语言处理、图数据库、信息获取等多个领域相关技术的系统性综合运用。知识图谱同时也是不断发展的新领域,并在不断与图神经网络、联邦学习、区块链、视觉计算等众多领域的新发展进一步融合,不断更新和进步。

为什么写作本书

本书的初衷是作为浙江大学知识图谱课程的配套讲义。我理想中的大学课程一方面需要提纲挈领,为学生讲解核心概念和基本知识点,帮助学生形成一个领域的整体知识体系;另一方面也需要启发创新,为学生梳理最新的发展前沿,帮助学生开拓视野,启发学生进一步开展创新研究工作。

因此,本书的基本写作原则也和课程一样。全书包含了知识图谱的基础知识介绍,全面覆盖了知识图谱的表示、存储、获取、推理、融合、问答、分析等七大方面,一百多个基础知识点的内容。同时也囊括了多个知识图谱相关技术领域的最新发展前沿。例如,有关多模态知识图谱、知识图谱与图神经网络的融合、本体表示学习、事理知识图谱、知识增强的语言预训练模型、知识区块链等内容都是近两年的新热点,也被首次系统性地整理进来。此外,本书也包含了作者团队在知识图谱方向的一部分学术探索和应用实践工作,例如知识图谱与可解释人工智能、知识驱动的低资源学习、大规模知识图谱预训练等。

知识图谱不是单一技术,而是系统工程。本书希望帮助读者建立知识图谱的系统工程观,为各个领域的技术决策者提供知识图谱的整体视图,帮助企业技术实践者系统性地了解知识图谱的各方面技术要素,同时也为前沿科研人员拓展研究视野和创新方向。

因此,它的核心定位是一本知识图谱方向的导论、总论性质的书,并将持续配套课程内容进行更新。它可以和其他图书配合使用,例如由OpenKG组织编写的《知识图谱:方法、实践与应用》;由阿里巴巴与浙江大学知识图谱团队联合编写,详细介绍阿里巴巴电商知识图谱工程实践工作的《工业级知识图谱:方法与实践》等书。

本书主要内容

本书共包括9章,主要内容如下:

第1章首先从语言和知识两个视角阐明知识图谱是实现认知人工智能的重要一环。然后通过追溯知识图谱的发展历史,说明知识图谱不仅和人工智能有关,而且具有非常强的互联网基因。

第2章探讨了知识图谱的表示问题,分别介绍了知识表示的内涵、人工智能发展历史长河中出现的各种知识表示方法,并重点围绕知识图谱介绍了最常用的符号表示和向量表示两种方法。

第3章探讨知识图谱的存储和查询问题。在很多实际的知识图谱项目中,搭建图数据库并建立知识图谱查询引擎仍然是最基础的工作。本章不仅介绍了图数据库的一些选型原则,还深入到原生图数据库背后的实现原理,帮助大家从本质上把握图数据的优缺点。

第4章探讨知识图谱的构建。首先简要回顾并重新理解知识工程的发展历史与技术内涵,然后分别从实体识别与分类、关系抽取与属性补全、概念抽取、事件识别与抽取等五个方面介绍知识抽取技术的内涵。

第5章关注知识图谱的一个重要技术领域——推理。利用机器实现类似于人类心智的推理能力是人工智能自诞生以来最核心的目标和任务之一。我们构建各种各样的知识图谱来描述客观世界,抽象万物之间的逻辑关系,不只是为了查询和搜索,更是为了利用这些事实性知识去推断、归纳和预测未知的新知识。本章重点介绍了基于符号逻辑和基于表示学习的两类不同的知识图谱推理方法。

第6章探讨知识融合问题。首先简要回顾知识图谱构建和应用中遇到的知识异构性问题,并理解知识融合的意义和目标,然后分别从本体匹配和实体对齐两方面介绍知识融合技术的内涵,最后还总结了知识融合技术的发展前沿和趋势。

第7章介绍知识图谱在智能问答中的应用。知识图谱作为一种结构化的问答语料,由于能够提供相比于文本更为精准的答案而被广泛地应用于各种智能问答系统中。本章分别介绍了基于问句模板、基于语义解析、基于检索排序和基于深度学习等四种不同的知识图谱问答实现方法。

第8章重点介绍知识图谱中偏“图”方面的内容。从图论和图算法的一些基本知识出发,逐步扩展到介绍图表示学习算法和图神经网络模型,并着重介绍利用图表示学习和图神经网络等方法处理知识图谱数据的一些模型和方法,以及在计算机视觉、自然语言处理、推荐计算等领域的一些应用。

第9章主要介绍知识图谱的新发展。知识图谱是发展迅速的交叉技术领域,并在不断地与其他领域进一步融合。本章从多模态知识图谱、知识增强的语言预训练模型、事理知识图谱、知识驱动的低资源学习、知识图谱预训练、知识图谱与区块链等方面,尝试对一些知识图谱技术的新发展做一些概要性的介绍。

如何阅读本书

这是一本知识点比较丰富的书,读者应该怎样利用这本书呢?

首先,阅读本书的最好方式是和浙江大学知识图谱慕课课程配合学习。可在智慧树在线教育平台中搜索“知识图谱”获取。本书的章节安排与课程安排基本一致。除了观看慕课视频,读者还可以通过慕课课程提供的诸如知识点测试试题、课程实践向导等资源巩固相关知识点。

其次,本书的一些章节需要读者具备一些前置知识。例如,第2章需要读者具有数据库技术的相关基础,第3章到第8章要求读者已经了解基本的机器学习知识,并开展过一些深度学习实践。第4章要求读者已经掌握部分自然语言处理的基本知识。

知识图谱技术点繁多,比较好的学习方式是首先对书的整体内容进行概要性浏览,略过细节。在形成对知识体系的整体认知之后,再结合自己感兴趣的点进行深入研读。如果研读某个知识点仍然感觉吃力,可以通过对应的慕课课程讲解进一步深入理解。

致谢

感谢帮助建设知识图谱课程和为本书编写提供素材的浙江大学知识图谱团队全体成员,本书的不少内容得益于团队的集体努力。感谢我的家人给予我坚持不懈的支持。

感谢陆汝钤院士为本书撰写序言,感谢王熙照教授、张民教授和司罗教授的推荐,以及许多领域前辈和老师在本书撰写过程中给予的指导和支持。

感谢电子工业出版社博文视点的宋亚东编辑对本书的重视,以及出版人员为本书所做的一切。

由于作者水平有限,书中不足之处在所难免,敬请专家和读者给予批评指正。

陈华钧
2021年2月