更新时间:2024-09-23 18:10:21
封面
版权信息
版权
内容提要
O’Reilly Media Inc.介绍
推荐序
译者序
前言
第一部分 Beam模型
第1章 流式入门
1.1 术语:什么是流式
1.2 数据处理模式
1.3 小结
第2章 数据处理的来龙去脉
2.1 路线图
2.2 批处理基础:定义及位置
2.3 开始流式处理:时机及方法
2.4 小结
第3章 水位
3.1 定义
3.2 源水位的创建
3.3 水位传播
3.4 百分位数水位
3.5 处理时间水位
3.6 案例分析
3.7 小结
第4章 高级开窗
4.1 时机/位置:处理时间开窗
4.2 位置:会话
4.3 位置:自定义开窗
4.4 小结
第5章 精确一次及副作用
5.1 为什么精确一次这么重要
5.2 准确性与完整性
5.3 确保在混洗中精确一次
5.4 解决确定性
5.5 性能
5.6 源端的精确一次
5.7 汇端的精确一次
5.8 使用场景
5.9 其他系统
5.10 小结
第二部分 流和表
第6章 流和表
6.1 流和表的基础:流表相对性的特殊理论
6.2 批处理与流和表
6.3 流和表世界的定义、位置、时机和方法
6.4 流表相对性的通用理论
6.5 小结
第7章 持久状态的实践
7.1 动机
7.2 隐式状态
7.3 通用状态
7.4 小结
第8章 流式SQL
8.1 什么是流式SQL
8.2 回顾:流和表的偏好
8.3 展望:迈向健壮的流式SQL
8.4 小结
第9章 流式连接
9.1 所有连接都是流式连接
9.2 非开窗连接
9.3 开窗连接
9.4 小结
第10章 大规模数据处理的演进
10.1 MapReduce
10.2 Hadoop
10.3 Flume
10.4 Storm
10.5 Spark
10.6 MillWheel
10.7 Kafka
10.8 Cloud Dataflow
10.9 Flink
10.10 Beam
10.11 小结
关于作者
关于封面