更新时间:2024-03-22 19:18:07
封面
版权信息
作者简介
内容简介
前言
第1章 数字化转型与数据技术
1.1 数字化转型
1.2 基于数据进行数字化转型
1.3 数据仓库
1.4 大数据
1.5 数据湖
1.6 云计算中数据技术的演进
1.7 本书目标
第2章 数据存储
2.1 数据存储的发展与趋势
2.1.1 集中式文件系统
2.1.2 网络文件系统
2.1.3 分布式文件系统
2.1.4 云原生存储
2.2 Azure Blob对象存储
2.2.1 数据冗余策略
2.2.2 分层存储
2.2.3 兼容HDFS的WASB文件系统
2.3 创建存储账号
2.3.1 订阅
2.3.2 资源组
2.3.3 存储账号
2.4 Azure数据湖存储
2.4.1 分层命名空间
2.4.2 兼容HDFS的ABFS文件系统
2.5 创建数据湖存储
2.6 基于HDFS访问数据湖存储
2.7 在HDInsight中访问数据湖存储
2.8 本章小结
第3章 数据引入
3.1 什么是数据引入
3.2 数据引入面临的挑战
3.3 数据引入工具
3.4 数据工厂
3.4.1 什么是数据工厂
3.4.2 创建数据工厂
3.4.3 数据工厂的主要组件
3.5 引入数据
3.5.1 数据复制
3.5.2 管道设计
3.5.3 参数化
3.5.4 监控
3.6 本章小结
第4章 批量数据处理
4.1 数据处理概述
4.2 数据处理引擎
4.2.1 MapReduce
4.2.2 Spark
4.3 Databricks
4.4 使用Databricks处理批量数据
4.5 Databricks的特性
4.5.1 依赖库管理
4.5.2 Databricks文件系统(DBFS)
4.5.3 密钥管理
4.5.4 Delta Lake
4.6 使用数据工厂处理批量数据
4.6.1 设计Data Flow
4.6.2 Data Flow的设计模式
4.6.3 如何选择Data Flow与Databricks
4.7 本章小结
第5章 实时数据处理
5.1 什么是实时数据处理
5.2 消息队列
5.3 Kafka的使用
5.3.1 创建虚拟网络
5.3.2 创建Kafka集群
5.3.3 配置IP Advertising
5.3.4 生产者发送数据
5.4 实时数据处理引擎
5.5 使用Spark Structured Streaming处理实时数据
5.5.1 连通Kafka与Databricks
5.5.2 在Databricks中处理数据
5.5.3 使用Cosmos DB保存数据
5.6 Event Hub
5.7 本章小结
第6章 数据仓库
6.1 什么是数据仓库
6.2 云原生数据仓库
6.3 Synapse Analytics
6.3.1 什么是Synapse Analytics
6.3.2 Synapse SQL的架构
6.3.3 创建Synapse工作区
6.3.4 创建SQL池
6.3.5 连接SQL池
6.4 数据加载
6.4.1 数据加载方式
6.4.2 使用COPY导入数据
6.5 Synapse SQL的资源和负荷管理
6.5.1 资源类
6.5.2 并发槽
6.5.3 最大并发查询数
6.5.4 工作负荷组
6.5.5 工作负荷分类器
6.6 数据仓库发展趋势
6.6.1 挑战