更新时间:2020-11-28 15:53:32
封面
版权信息
前言
第1章 搜索引擎
1.1 搜索引擎基本模块
1.2 开发环境
1.3 搜索引擎工作原理
1.3.1 网络爬虫
1.3.2 全文索引
1.3.3 搜索用户界面
1.3.4 分布式计算
1.3.5 文本挖掘
1.4 算法基础
1.4.1 折半查找
1.4.2 排序
1.4.3 最小生成树
1.5 软件工具
1.6 单元测试
1.7 本章小结
1.8 术语表
第2章 自己动手写全文检索
2.1 构 建 索 引
2.2 生成索引文件
2.3 读入索引文件
2.4 查询
2.5 有限状态机
2.5.1 运算
2.5.2 编辑距离有限状态机
2.6 本章小结
第3章 Lucene的原理与应用
3.1 Lucene快速入门
3.1.1 创建索引
3.1.2 查询索引库
3.1.3 创建文档索引
3.1.4 查询文档索引
3.2 创建和维护索引库
3.2.1 设计索引库结构
3.2.2 创建索引库
3.2.3 向索引库中添加索引文档
3.2.4 删除索引库中的索引文档
3.2.5 更新索引库中的索引文档
3.2.6 关闭索引库
3.2.7 索引的优化与合并
3.2.8 灵活索引
3.2.9 索引文件格式
3.2.10 定制索引存储结构
3.2.11 写索引集成到爬虫
3.2.12 多线程写索引
3.2.13 分发索引
3.2.14 修复索引
3.3 查找索引库
3.3.1 查询过程
3.3.2 常用查询
3.3.3 基本词查询
3.3.4 模糊匹配
3.3.5 布尔查询
3.3.6 短语查询
3.3.7 跨度查询
3.3.8 FieldScoreQuery
3.3.9 排序
3.3.10 使用Filter筛选搜索结果
3.3.11 使用Collector筛选搜索结果
3.3.12 遍历索引库
3.3.13 关键词高亮显示
3.3.14 列合并
3.3.15 关联内容(BlockJoinQuery)
3.3.16 查询大容量索引
3.4 读写并发
3.5 Lucene深入介绍
3.5.1 整体结构
3.5.2 索引原理
3.5.3 文档值
3.5.4 FST
3.6 查询语法与解析
3.6.1 JavaCC
3.6.2 生成一个查询解析器
3.6.3 简单的查询解析器
3.6.4 灵活的查询解析器
3.7 检索模型
3.7.1 向量空间模型
3.7.2 DFR
3.7.3 BM25概率模型
3.7.4 BM25F概率模型
3.7.5 统计语言模型
3.7.6 相关性反馈
3.7.7 隐含语义索引
3.7.8 学习评分
3.7.9 查询与相关度
3.7.10 使用Payload调整相关性
3.8 查询原理
3.8.1 布尔匹配
3.8.2 短语查询
3.8.3 索引统计
3.8.4 相关性
3.9 分析文本
3.9.1 Analyzer
3.9.2 TokenStream
3.9.3 定制Tokenizer
3.9.4 重用Tokenizer
3.9.5 有限状态转换