更新时间:2023-12-12 19:00:33
封面
版权信息
内容简介
前言
第1章 数据架构整体设计
1.1 数据架构概述
1.2 数据架构设计的8个考虑因素
1.2.1 适用性
1.2.2 延伸性
1.2.3 安全性
1.2.4 易用性
1.2.5 高性能
1.2.6 成本限制
1.2.7 应用需求
1.2.8 运维管理
1.3 数据架构设计的4个核心内容
1.3.1 物理架构
1.3.2 逻辑架构
1.3.3 技术架构
1.3.4 数据流架构
1.4 常见的6种数据架构
1.4.1 简单数据库支撑的数据架构
1.4.2 传统数仓支撑的数据架构
1.4.3 传统大数据架构
1.4.4 流式大数据架构
1.4.5 流批一体大数据架构
1.4.6 存算分离的流批一体大数据架构
1.5 案例:某B2B企业的数据架构选型
1.5.1 企业背景
1.5.2 应用预期
1.5.3 数据现状
1.5.4 选型分析
1.5.5 选型方案
1.5.6 未来拓展
1.6 常见问题
第2章 数据源和数据采集
2.1 数据源概述
2.1.1 常见的3种数据类型
2.1.2 常见的8种数据源
2.2 企业内部流量数据采集技术选型
2.2.1 企业内部流量数据采集常用的技术
2.2.2 内部流量数据采集技术选型的因素
2.2.3 内部流量数据采集技术选型总结
2.3 企业外部互联网数据采集技术选型
2.3.1 外部互联网数据采集常用的4种技术
2.3.2 外部互联网数据采集技术选型的5个因素
2.3.3 外部互联网数据采集技术选型总结
2.4 使用Requests+BeautifulSoup抓取数据并写入Sqlite
2.4.1 安装配置
2.4.2 基本示例
2.4.3 高级用法
2.4.4 技术要点
2.5 使用Scrapy+XPath抓取数据并写入MongoDB
2.5.1 安装配置
2.5.2 基本示例
2.5.3 高级用法
2.5.4 技术要点
2.6 案例:某B2C电商企业的数据源结构
2.6.1 企业背景
2.6.2 业务系统
2.6.3 数据源结构
2.7 常见问题
第3章 数据同步
3.1 数据同步概述
3.1.1 数据同步的3种模式
3.1.2 数据同步的5种预处理技术
3.2 数据同步的技术选型
3.2.1 数据同步的7种技术
3.2.2 数据同步选型的9个因素
3.2.3 数据同步技术选型总结
3.3 Python操作DataX实现数据同步
3.3.1 安装配置
3.3.2 基本示例
3.3.3 高级用法
3.3.4 技术要点
3.4 Python操作第三方库实现Google Analytics数据同步
3.4.1 安装配置
3.4.2 基本示例
3.4.3 高级用法
3.4.4 技术要点
3.5 案例:某O2O企业离线数据同步案例
3.6 常见问题
第4章 消息队列
4.1 消息队列概述
4.1.1 消息队列的核心概念
4.1.2 选择消息队列的3种技术应用场景
4.2 消息队列的技术选型
4.2.1 常见的6种消息队列技术
4.2.2 消息队列技术选型的4个维度
4.2.3 消息队列技术选型总结
4.3 Python操作RabbitMQ处理消息队列服务
4.3.1 安装配置
4.3.2 基本示例
4.3.3 高级用法
4.3.4 技术要点
4.4 Python操作Kafka处理消息队列服务
4.4.1 安装配置
4.4.2 基本示例
4.4.3 高级用法
4.4.4 技术要点