数字化转型实践:构建云原生大数据平台
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言
FOREWORD

作者多年来一直在微软公司从事企业数字化转型的布道与咨询工作,深刻地体会到数字化转型正在深刻地影响着我们生活的方方面面。例如,在物流行业中,对货物流转、车辆追踪、仓储等环节产生的数据进行归纳、分类、整合、分析和提炼,可以有效提升物流的整体服务水平。在保险行业中,基于企业内外部运营、管理和交互数据分析,可以全方位统计和预测企业经营和管理绩效;基于保险保单和客户交互数据进行建模,可以快速分析和预测市场风险、操作风险等。可以说,数字化转型使企业经营决策模式发生了转变,正在驱动着行业变革,不断衍生出新的商机和发展契机。

在整个数字化转型中,数据是驱动转型的核心力量。特别是近年来,数据蕴藏的巨大潜力和能量在各行各业中绽放光彩,为流程、组织、甚至社会本身的转型激发了更多新的方式,整个数据行业的技术基础和实践能力不断提升。本书聚焦数字化转型中数据的全生命周期管理与应用,帮助读者了解如何通过云原生技术将数据存储、数据引入、批量数据处理、实时数据处理、数据仓库、数据可视化和机器学习等核心要素综合起来,构建高效的数据服务平台。本书内容分为8章。

第1章为数字化转型与数据技术,介绍了什么是数字化转型及其中的数据价值,阐述了从数据库到数据仓库,从大数据到数据湖的技术发展进程。

第2章为数据存储,介绍了数据存储发展过程中各类文件系统的特点及使用场景,阐述了云原生存储的优势及其在现代大数据平台中的关键作用,演示了如何在各类大数据平台中对云存储进行访问。

第3章为数据引入,介绍了数据引入的相关知识,并以数据工厂为例,展示了如何使用云原生服务创建数据驱动型工作流,以对不同数据源进行访问,并将数据从本地移动/复制到数据湖存储中。

第4章为批量数据处理,介绍了数据处理的挑战和相关技术,展示了如何通过云原生数据处理技术,对数据进行批量处理等。

第5章为实时数据处理,从实时数据产生和流向的各环节出发,介绍了当前前沿的消息队列和实时数据处理引擎,展示了如何使用云原生服务构建实时数据处理系统。

第6章为数据仓库,梳理了当前主流的云原生数据仓库服务,并以Synapse Analytics为例,介绍了其架构、资源和负载管理,演示了如何快速将数据从数据湖存储导入到Synapse Analytics中,并展示了其无服务器架构、Spark引擎等特性。

第7章为数据可视化,介绍了目前市场上比较流行的可视化工具,并以Power BI为例,演示了如何创建、发布和共享报表,以及对数据仓库中的数据进行可视化。

第8章为机器学习,介绍了机器学习的算法类型和使用场景,阐述了机器学习的挑战和云原生平台的优势,深入展示了云原生机器学习平台中的机器学习设计器和自动化机器学习等功能。

本书的目标是既能让初学者快速熟悉数据技术的核心内容和流程,迅速上手;也能帮助已经熟悉数据技术的人员通过云原生服务进一步优化解决方案,降本增效。

感谢家人对我们利用业余时间编写本书的理解,在漫长的编写过程中始终给予关爱与支持,也感谢微软诸多同事和电子工业出版社编辑王群的鼓励与支持,本书的成书与他们密不可分。

本书所用数据集和相关代码请在https://github.com/builddigittransform/cloudnativedatademo下载。

由于作者学识有限,时间仓促,书中难免有错误或疏漏之处,恳请广大读者批评指正。

金鑫 武帅

2022年5月于上海