Python数据分析基础教程
上QQ阅读APP看书,第一时间看更新

1.1 数据的性质

1.1.1 数据的概念

所谓数据就是描述事物的符号,是对客观事物的性质、状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。在计算机系统中,各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。在现实生活中,数据无所不在,如天气预报、居民身份证号码、快递单号和火车时刻表中就包含了大量的数据。人们通过数据来认识世界,交流信息。

数据是对世界万物的记录,任何可以被测量或是分类的事物都能用数据来表示。在采集完数据后,可以对数据进行研究和分析,从而获得有价值的信息。数据与信息既有联系,又有区别。数据是信息的表现形式和载体,而信息则是数据的内涵,信息是加载于数据之上的,对数据做具体含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体地表达出信息。数据是符号,是物理性的,信息是对原始数据进行加工处理后得到的并对决策产生影响的数据,信息是数据有意义的表示。人们也常常借助信息进行预测,或者即使做不到预测,至少也能让推测更有根据。

当信息转化为一组有助于更好地理解特定机制的规则时,信息就已经转化为了知识,人们可以利用这些知识来预测事件的演变。

1.1.2 数据的类型

数据可以分为以下两个不同的类型。

■ 类别型:定类和定序。

■ 数值型:离散和连续。

类别型数据是指可以被分成不同组或类别的值或观察结果,通常可分为两种,即定类(Nominal)和定序(Ordinal)。定类型数据的各类别没有内在的顺序,而定序型数据有预先指定的顺序。

数值型数据是指通过测量得到的数值或观察结果,通常可分为两种,即离散和连续。离散型数据是指只能按计量单位数计数的数据,例如:职工人数、设备台数等。相反,连续型数据是指在一定范围内可以任意取值,数值是连续不断的,相邻两个数值可做无限分割(即可取无限个数值)的数据。例如:人体测量的身高和体重等。