3.4.3 可视化的数据
数据可视化将数据变换为易于感知的可视编码。为了精准地通过数据的可视表达传播信息,需要研究数据的分类及其对应的可视编码方法。
人们对数据的认知,一般都经过从数据模型到概念模型的过程,最后得到数据在实际中的具体语义。在处理数据时,最初接触的是数据模型,数据模型是对数据的底层描述及相关操作。概念模型是对数据的高层次描述,对应于人们对数据的具体认知。对数据进行进一步处理之前,需要定义数据的概念和它们之间的联系,同时定义数据的语义和它们所代表的含义。例如,数值数据可用于表达温度、高度、产量等,而类别型数据则可表达性别、人种等不同意义。
根据数据分析要求,不同的应用可以采用不同的数据分类方法。例如,根据数据模型,可以将数据分为浮点数、整数、字符等;根据概念模型,可以定义数据所对应的实际意义或者对象,如汽车、摩托车、自行车等。在科学计算中,通常根据测量标度将数据分为4类:类别型数据、有序型数据、区间型数据和比值型数据。类别型数据用于区分物体。例如,根据性别可以将人分为男性或者女性;有序型数据用来表示对象间的顺序关系;区间型数据用于得到对象间的定量比较,相对于有序型数据,区间型数据提供了详细的定量信息;比值型数据用于比较数值间的比例关系,可以精确地定义比例。不同的数据类型也对应不同的集合操作和统计计算。对于类别型数据集合,可以互换元素间的位置,统计类别和模式。对于有序型数据集合,可以计算元素间的单调递增(减)关系、中值、百分位数。对于区间型数据集合,可以进行元素间线性加减操作,计算平均值、标准方差等。对于比值型数据集合,除了上述3种数据类型所允许的操作外,还可以进行更复杂的计算,如计算元素间的相似度或统计上的变异系数。
在数据可视化中,通常并不区分区间型数据和比值型数据,将数据类型进一步精简为3种:类别型数据、有序型数据和数值型数据(包括区间型数据和比值型数据)。基础的可视化设计一般针对这3种数据展开,而复杂型数据通常是这3种数据的组合或变化。