1.6 数据加工器_Python统计可视化之Altair探索分析实践指南（全彩版）-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.6　数据加工器

数据加工器主要用于完成数据预处理。

数据预处理有两种方法：一是使用Pandas；二是使用实例方法transform_*()。例如，缺失值的识别和处理既可以使用Pandas，也可以使用实例方法transform_impute()。类似地，条件查询的操作可以使用实例方法transform_filter()，数据查找的操作方法可以使用实例方法transform_lookup()。前者可以改变数据集，从而获得需要的数据集；后者不改变数据集，只是从数据处理的逻辑层面完成相应操作。因此，数据预处理后的数据集可以理解成一种“临时”数据集，也就是暂时存在的数据集。在“临时”数据集的相应变量映射到相应通道和编码数据后，“临时”数据集就不会参与其他映射和编码任务。

对于实例方法transform_*()，不同的实例方法具有不同的数据预处理作用，这些不同作用的数据预处理相当于不同功能的数据加工器。组合数据加工器可以搭建一个有具体功能的数据加工箱，这些数据加工器的名称和对应的实例方法如表1.2所示。

表1.2

注：纵向数据转换加工器和横向数据转换加工器互为逆转换数据加工器。表1.2中的数据加工器的前后顺序按照数据加工器的使用频繁程度排列。

这些数据加工器可以应用在数据预处理的各个环节中，使得原本烦琐耗时的数据预处理过程变得异常简便和快捷，使得统计可视化的过程变得高效。从使用顺序角度来讲，应该先加载数据集，再使用数据加工器。原因就是加载数据集返回对象Chart，对象Chart具有属性transfom_*()，Altair无法直接使用不指定对象的属性。正确的使用顺序的示例代码如下所示。

错误的使用顺序是先使用数据加工器，再加载数据集，示例代码如下所示。

我们将会在需要使用数据加工器的其他章节中，以实践的方式讲解这些数据加工器的应用场景和实现方法。

本周热推：

高性能MySQL（第4版）对比Excel，轻松学习Python数据分析（入职数据分析师系列）Redis使用手册一本书讲透数据治理：战略、方法、工具与实践数字化转型方法论：落地路径与数据中台