2.9 数据科学入门:基础的描述性统计
在数据科学中,通常会使用统计信息来描述和汇总数据。本节介绍几个具有此类功能的描述性统计数据,包括:
minimum
—合集中的最小值;maximum
—合集中的最大值;range
—从最小值到最大值的范围;count
—合集中的值的个数;sum
—合集中的值的总和。
我们将在下一章研究如何确定count
和sum
。离中趋势度量(也称为离散程度度量),例如range
,可以帮助我们确定值的分布情况。后面的章节将介绍其他的离中趋势度量,包括方差和标准偏差。
确定三个值中的最小值
我们来编写程序确定三个值中的最小值。下面的脚本提示用户按要求输入三个值,然后使用if
语句确定三个值中的最小值并显示结果:
输入三个值后,程序每次处理一个值:
- 首先,假设
number1
包含最小值,第8行将其赋值给变量minimum
。当然,number2
或number3
可能包含真正的最小值,因此必须将另外两个值与最小值进行比较。 - 然后,第一个
if
语句(第10~11行)测试条件number2<minimum
,如果此条件为True
,则将number2
赋值给minimum
。 - 最后,第二个
if
语句(第13~14行)测试条件number3<minimum
,如果此条件为True
,则将number3
赋值给minimum
。
此时,变量minimum
中存储的是最小值,因此将它作为结果进行显示。我们执行了三次脚本,无论用户输入的第一个值、第二个值还是第三个值是最小值,脚本总是能够正确地找到最小值。
使用内置函数min
和max
确定最小值和最大值
Python有许多用于执行常见任务的内置函数。内置函数min
和max
分别计算一组值的最小值和最大值:
函数min
和max
可以接收任意数量的参数。
确定合集中值的范围
值的range
指的是从最小值到最大值。在上面的例子中,range
是从12到36。许多数据科学致力于了解数据的性质,描述性统计是其中的关键部分,因此,我们需要知道这些统计数据的含义。例如,如果有100个数字,范围为12到36,那么这些数字可以均匀地分布在这个范围内。在极端情况下,这100个数字也可能会包含99个12和1个36,或1个12和99个36。
函数式编程:约简
本书将介绍多种函数式编程的技巧,这些技巧可以使我们能够编写出更简洁、更清晰、更易于调试(即查找和纠正错误)的代码。min
和max
函数是称为约简的函数式编程概念的示例,min
和max
会将一个合集的值约简为一个值。书中还会用到许多其他的约简,例如合集中的值的总和、平均值、方差和标准偏差等,并且还会介绍如何自定义约简。
数据科学部分简介
在接下来的两章中,我们将继续讨论采用集中趋势度量的基础描述性统计,包括均值、中值和众数,以及离中趋势度量,包括方差和标准偏差等。