上QQ阅读APP看书,第一时间看更新
1.4 研究内容
本书主要研究面向云计算平台的多源异构信息融合方法,提出以本体知识库为指导,并结合数据仓库方式的多源异构信息融合系统,其主要工作有以下几点:
(1)研究云计算环境下服务平台构建和服务部署,并分析讨论在分布式环境下数据的执行效率和瓶颈。本书主要研究基于OpenStack Mitaka的公有云的搭建方案。所搭建的公有云是基于实验虚拟出的一种公有云形式。真正的公有云是在互联网环境下,用户不需要任何软件,直接通过网络、Web浏览器获取的一种服务。
(2)对异构数据源查询、集成及融合技术进行了综合研究和分析,在此基础上,提出了面向云计算平台的多源异构信息集成及数据融合架构。该架构是对适应云平台特点的信息融合过程的全局性的诠释,具有重要的指导作用。把多源信息融合整体架构分为四个阶段:采集原始数据、数据抽象、数据集成与融合、特征抽象。本书详细阐述了各个阶段的流程及所起到的作用。
(3)研究基于MapReduce数据集成及数据融合总体架构,对架构中的几个主要模块做了重点分析,书中针对元数据信息存在的异构性问题提出了异构冲突解决方法,并将该方法运用到建立虚拟数据库的过程中,定义了用户统一信息查询的元数据信息虚拟数据库及面向虚拟数据库的相似结构化查询语言;分析了系统架构中解析器视图分析及任务分配过程;分析了执行器模块MapReduce执行过程、管理过程及连接过程。
(4)实现了数据采集及数据融合架构的原型系统,并对部分实现的系统结构进行了测试。实验结果表明,该架构模型能够在较短的时间内处理多数据源海量数据,为用户请求提供完整信息。