Python统计可视化之Altair探索分析实践指南(全彩版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 数据加工器

数据加工器主要用于完成数据预处理。

数据预处理有两种方法:一是使用Pandas;二是使用实例方法transform_*()。例如,缺失值的识别和处理既可以使用Pandas,也可以使用实例方法transform_impute()。类似地,条件查询的操作可以使用实例方法transform_filter(),数据查找的操作方法可以使用实例方法transform_lookup()。前者可以改变数据集,从而获得需要的数据集;后者不改变数据集,只是从数据处理的逻辑层面完成相应操作。因此,数据预处理后的数据集可以理解成一种“临时”数据集,也就是暂时存在的数据集。在“临时”数据集的相应变量映射到相应通道和编码数据后,“临时”数据集就不会参与其他映射和编码任务。

对于实例方法transform_*(),不同的实例方法具有不同的数据预处理作用,这些不同作用的数据预处理相当于不同功能的数据加工器。组合数据加工器可以搭建一个有具体功能的数据加工箱,这些数据加工器的名称和对应的实例方法如表1.2所示。

表1.2

注:纵向数据转换加工器和横向数据转换加工器互为逆转换数据加工器。表1.2中的数据加工器的前后顺序按照数据加工器的使用频繁程度排列。

这些数据加工器可以应用在数据预处理的各个环节中,使得原本烦琐耗时的数据预处理过程变得异常简便和快捷,使得统计可视化的过程变得高效。从使用顺序角度来讲,应该先加载数据集,再使用数据加工器。原因就是加载数据集返回对象Chart,对象Chart具有属性transfom_*(),Altair无法直接使用不指定对象的属性。正确的使用顺序的示例代码如下所示。

错误的使用顺序是先使用数据加工器,再加载数据集,示例代码如下所示。

我们将会在需要使用数据加工器的其他章节中,以实践的方式讲解这些数据加工器的应用场景和实现方法。