大数据搜索引擎原理分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

搜索引擎作为一门综合性的互联网技术,在行业中一直具备较高的关注度。随着近几年大数据的发展,人们对于搜索引擎的关注度越来越高,原因在于搜索引擎技术是大数据应用的前沿领域,也是最容易产生价值的大数据应用。大数据存储、大数据计算都是从搜索引擎中衍生出来的新领域。目前,搜索引擎技术的发展不仅以大数据为基础,还利用分布式实时计算对数据进行高性能处理,以及利用机器学习将数据变得更具价值,在行业中受到搜索研发工程师、算法研发工程师、大数据分析工程师、自然语言处理工程师、计算平台架构师、数据挖掘工程师等各类精英的关注,这些工程师占据了整个互联网研发体系的50%~60%,而在BAT中,甚至超过60%的工作人员是研发人员。

这类群体的薪资水平处于互联网研发人员薪资水平的较高位。猎聘网公布的数据显示,北京地区搜索引擎研发工程师的年薪为35万~60万元,大数据工程师的年薪为20万~25万元,大数据架构师的年薪为40万~70万元。也正是由于薪资水平处于较高位,所以很多互联网相关从业者也积极关注大数据搜索引擎领域的动态。

本书通过介绍大数据下的自然语言处理框架、大数据存储引擎、搜索引擎的分布式实时计算、高性能可扩展爬虫,以及利用大数据构建知识图谱、基于大数据日志的搜索引擎反馈学习等相关内容,不仅使读者对当代搜索引擎研发体系有了一定的认识,还使读者在搜索引擎领域及大数据领域进行深入思考。

本书特色

本书以当前搜索引擎主流技术为基础,密切结合前沿技术发展趋势,行文流畅,通俗易懂,由初步的原理性了解到各模块应用示例,并结合分布式存储、实时计算等,向读者提供了一套完整的大数据时代背景下人工智能搜索引擎的解决方案。

(1)内容循序渐进、行文有条有序地介绍搜索引擎知识。

由于充分考虑了不同层次的读者对搜索引擎的理解程度,因此本书由浅入深的写作方式、独特的技术写作视角符合广大读者对于技术类读物的理解需求,使得读者能够在掌握搜索引擎基础的情况下,不断按照搜索引擎的设计深入理解。

(2)技术前瞻性强,注重最新主流技术在现代搜索引擎中的应用。

本书充分利用了最新技术发展的应用成果,在自然语言处理的基础上不仅结合大数据分析,还包括分布式计算、机器学习、知识图谱等当前大数据应用与分析处理的主流技术,摒弃了传统过时的研发体系及算法。本书介绍的相关研发成果在当前甚至在未来3~5年都具有实际意义。

(3)将技术理论与应用范例结合,具备较高的商业实用价值。

本书内容紧密结合当前一线工程师的研究成果,对众多的技术理论以实际工作经验的方式展示应用效果。本书介绍的内容也广泛结合工作中的应用示例,并且用搜索引擎工程实践的脉络流程介绍技术要点,使读者能够在短时间内掌握当前搜索引擎研发的技术理论。

本书结构

本书按照由浅入深、循序渐进的顺序对现代搜索引擎的原理和实现进行介绍。全书分为10章,各章的主要内容如下。

第1章通过对搜索引擎的过去、现在、未来的相关概要介绍,以及现代搜索引擎与大数据、人工智能的相互关系,使广大读者能够在了解现代搜索引擎的前提下学习本书的后续内容。

第2章是对搜索引擎原理与技术的初步分析,从模块方面大致介绍爬虫、索引、缓存、搜索、日志等服务,从技术方面大致介绍自然语言处理、知识图谱、海量数据存储、分布式计算、搜索排序等,目的是使读者对搜索引擎的体系结构、部分技术有一定的认识,便于深入了解后续章节。

第3章从自然语言角度深入分析搜索引擎的原理。自然语言是搜索引擎进行文本处理的基础,其中包括分词、词性标注、语义分析、文档关键词提取、文档核心句提取、文本的分类与聚类等。读者将会从本章中获得当前主流的自然语言处理技术的相关知识。

第4章主要是针对大数据存储引擎的介绍。大数据存储是搜索引擎最先遇到的问题,解决大数据存储问题可以使搜索引擎在数据分析、索引构建、知识图谱构建等方面的工作持续进行。读者将会从本章中了解到大数据存储引擎的架构体系、数据存储模型、数据压缩、负载均衡、数据存储逻辑视图等知识。

第5章介绍了分布式实时计算。由于搜索引擎处理的是海量数据,数据分析必须依靠具有较强数据处理能力的计算平台,因此搜索引擎通过分布式实时计算去处理大数据,并在尽可能短的时间内返回处理结果。读者将会从本章中了解到分布式实时计算设计架构、负载均衡及通信设计等相关知识。

第6章对爬虫进行了深入分析。读者在本章中将会深入理解分布式可扩展爬虫的体系架构,以及对网页如何进行解析,并抽取结构化的数据信息。本章还涉及链接去重、网页去重、广告识别等相关算法的原理。

第7章详细介绍了知识图谱构建。知识图谱是智能化搜索引擎的重要组成部分,利用大数据分析构建较为合理的知识图谱是当前主流的方式。读者将会从本章中深入学习知识图谱的详细构建过程。

第8章详细分析了索引构建机制。索引的设计与构造是搜索引擎能够进行快速检索的核心要件,本章不仅对倒排索引进行了深入分析,而且对倒排索引的压缩、分布式存储等也进行了详细介绍。

第9章深入分析了搜索引擎的整个对外服务工作流程,包括大数据分布式缓存、搜索智能提示、个性化搜索、图片搜索、搜索与广告等内容。读者将会从本章中详细了解到文本纠错算法、动态摘要算法、网页排序算法及搜索引擎的评价体系。

第10章探讨和分析了基于用户日志的反馈学习。用户搜索日志记录了用户与搜索系统交互的整个流程。通过日志挖掘,不仅可以发现用户的自有特征和行为规律,还可以有效地帮助搜索引擎提升性能和效果。日志作为搜索引擎的核心数据之一,促使搜索引擎技术中的各类算法不断向前发展。读者在本章中将学会通过搜索日志分析用户特征、用户的部分搜索意图等。

读者对象

●适合对自然语言处理及机器学习应用领域有兴趣的读者。

●适合对现代搜索引擎相关算法有兴趣的读者。

●适合对大数据分析、数据挖掘应用有兴趣的读者。

●适合互联网行业不同层次的从业者。

●适合从事搜索引擎优化的网络营销读者。

●适合计算机、软件工程等相关专业的读者。