前言
网络大数据是指“人、机、物”三元世界在网络空间(cyberspace)彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据。当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战。网络大数据包含大量有价值的信息,根据其产生方式的不同可以分为Web内容数据、Web结构数据、自媒体数据和日志数据等。
这些有价值的信息往往会通过某些属性或关系互相关联,这些反映相互关系的链接整合起来就是一个网络。这个网络中的数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强。数据自身的信息、数据间的关联信息以及网络的结构特征等都隐藏在这样的数据网络中,网络大数据往往以复杂关联的数据网络这样一种独特的形式存在。有效利用网络大数据的主要任务不是获取越来越多的数据,而是对数据去冗分类、去粗取精,从数据中挖掘知识,对大数据网络后面的知识进行深入分析。
面对复杂关联、动态变化、来源多样的网络知识,建构开放网络知识的有效模型是一个重要基础,它应该支持对开放网络知识自适应的感知、增量的更新、自动或半自动的新知识抽取等,并具有较为完备的基础理论支撑。同时,从应用角度,开放网络知识计算需要建立一套算子体系,实现面向领域的开放网络知识库的快速构建,并更好地支持知识演化、多源知识融合、隐性知识推断和时序知识预测等一系列问题的解决。
本书主要以概率论、图论、矩阵分析、组合优化等为模型基础,深入探讨了开放知识网络的建模与计算方法,并通过开放网络知识库和应用系统,介绍了典型应用案例。
本书共14章,从结构上可分为4个部分。
第一部分主要介绍研究对象,包括第1章网络大数据和第2章开放网络知识。其中,在第1章网络大数据中,介绍了网络大数据研究体系,从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会化计算以及网络大数据平台系统与应用4个方面回顾了相关领域的新近发展,探讨了网络大数据研究方向和所面临的挑战,并展望了网络大数据的主要研究方向。在第2章开放网络知识中,对当前国内外知名的开放网络知识库以及其支持的应用进行了分析和论述,并从开放网络知识库的构建以及基于开放网络知识库对信息检索与数据挖掘方面的应用方法和技术现状进行了综述,最后,展望了开放网络知识计算的应用和发展方向。
第二部分主要介绍开放网络知识计算的模型研究所需的基础理论和针对开放网络知识计算提出的模型方法。包括第3章概率论基础、第4章图论基础、第5章矩阵分析基础、第6章组合优化知识等基础理论知识。在此基础上,第7章给出了开放知识网络模型的表示方法、理论分析与证明。
第三部分介绍基于开放知识网络模型的知识计算方法,包括开放知识网络的构建、知识的融合与更新、知识推断和知识预测等知识计算的全生命周期。包括第8章~第11章。其中,第8章开放网络知识库的构建方法,包括开放文本中的领域概念抽取、实体属性抽取、实体关系抽取、领域概念的细化等;第9章从实体融合、关系融合、类别融合、自适应更新4个方面介绍知识融合与更新方法;第10章介绍的知识推断方法包括静态关系的推断和非时序动态关系的推断两个方面;第11章解决知识的预测问题,即给出时序的动态关系的知识推断方法。
第四部分介绍开放网络知识计算系统和应用场景。包括第12章~第14章。其中,第12章介绍现有的知识库与知识分析系统,包括早年由Metaweb公司创建的Freebase知识库、德国马普研究所的Yago知识库、微软公司的Probase知识库、谷歌公司的基于Knowledge Graph的知识计算系统、谷歌公司的基于Knowledge Vault的知识计算系统、大数据公司Palantir的知识计算系统、卡耐基-梅隆大学的NELL系统以及国内知名知识库和知识系统。针对现有的知识库构建技术缺乏有效的评价标准的问题,最后,给出了开放网络知识库构建的多维指标体系与量化评价方法。第13章将给出开放知识计算引擎,即OpenKN的整体架构与特点,以应对网络大数据下知识计算的实际需求。第14章将从人物谱系关系画像与分析、领域事件的演化态势分析、新闻语义推荐3个方面,分别探讨开放知识网络的应用场景与实际应用效果。
本书可供计算机、通信、信息等相关专业的教师、研究生和大学高年级学生作为教材或教学参考书,也适合大数据分析、商业情报挖掘、语义检索、知识问答等方面的研究人员和工程技术人员阅读使用。
本书涉及的研究工作得到了国家自然科学基金项目(No.61572469,No.61402442,No.61602467)和国家重点基础研究发展计划“973”项目(No.2014CB340400)和北京市自然科学基金项目(No.4154086)等的资助,在此表示深深的谢意!
中国科学院计算技术研究所的硕士研究生赵泽亚、李晓静、常雨骁、陈新蕾、蔡朋杉、李曼玲、仇韫琦、苏家林等人参与了本书的材料收集、撰写和排版等工作,在此一并表示感谢。
由于作者水平所限,加之开放知识计算方法的研究和应用仍处于不断发展和变化之中,书中错误和不足之处在所难免,恳请读者予以指正。
作者
2017年5月