1.1 文件中的数据_数据准备和特征工程：数据工程师必知必会技能-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1 文件中的数据

文件是计算机科学中的常用术语。文件能用于保存数据，而且是多种多样的，如文本文件、图像文件和办公软件生成的二进制文件等。不同文件中的数据也有差别，有的数据是结构化的，有的数据是非结构化的。本节将向读者介绍数据科学项目中常用到的三种文件，并重点演示如何从文件中读取数据。

结构化数据是指关系型数据库中用二维表格表达和存储的数据，每个数据有严格的数据格式和规范。非结构化数据（如图像、视频等）则不能用二维表格形式表达和存储。

1.1.1 CSV文件

CSV（Comma-Separated Values，逗号分隔值）是以纯文本方式保存数据的常用文件格式，其中的数据属于结构化数据。

基础知识

用电子表格工具软件可以打开CSV文件，如图1-1-1所示。

图1-1-1 用电子表格工具软件打开的CSV文件

处理电子表格文件的常用工具，包括微软的Excel和WPS中的电子表格软件，也可以使用在线电子表格，如腾讯文档。

读者对电子表格软件一定不陌生，本书不再赘述操作方法。在数据科学项目实践中，也会有很多场景应用这类软件，请读者不要排斥。一切工具的目的都是得到符合预期的数据。只不过因为电子表格软件不是本书的重点内容，所以后面不再提及该工具，但不意味着不可以应用它。

下面重点说明使用Python编程语言读取CSV文件的数据。

path是本书开发环境中的数据集目录，读者要根据自己的开发环境进行修改。

In[1]第5行里的“# ①”表示注释，程序执行时忽略此内容。

老齐教室微信扫描二维码，关注我的公众号

为了便于学习，可以按照“前言”中的说明关注与本书相关的微信公众号，从而获得学习用数据集和加入在线实验平台。在代码示例中，用“/jiangsu/cities.csv”方式表示此文件在数据源目录中的地址。

附录A：简要介绍Jupyter。

以上代码在Jupyter notebook中调试。Jupyter是数据科学中常用的工具——详细使用方法请阅读“扩展探究”中推荐的资料。

用Python标准库的csv模块能够读取CSV文件内容，但在In[1]的①中得到的是一个迭代器对象，必须使用循环语句才能将文件中每一行读入内存，这使得后续操作很不方便。开发者不允许存在任何“不方便”，因为会降低工作效率，并且，CSV文件是常见的保存数据的文件。因此，必然有更简单且能够更适用于后续操作的方法——如果没有，则是创新的机会。

Python语言生态中的Pandas提供了实现上述诉求的函数——关于Pandas的使用方法请阅读“扩展探究”中推荐的资料。当然，如果读者对In[2]的②所示的函数不满意，也可以自己创造。

关于“迭代器”对象，请参阅《Python大学实用教程》（电子工业出版社出版）。

附录C：简要介绍Pandas。

比较Out[2]和In[1]的输出，此处的结果在显示方式上友好了很多。不仅如此，这里所得到的对象（变量df引用）是数据科学项目中用途最广泛的DataFrame类型的对象。

In[2]的②使用Pandas的read_csv函数读取了指定的CSV文件，此函数的完整参数列表是：

DataFrame是Pandas中的一种对象类型，类似于二维表格。

不需要对这些参数的含义死记硬背，可以使用帮助文档了解。建议读者浏览一遍pd.read_csv函数的帮助文档，当以后需要处理某个特殊问题的时候，可以再次借助帮助文档，查询相应参数。

在Jupyter中输入In[3]的代码并执行，能够显示函数read_csv的完整文档，其中包含对所有参数的解释。

例如，在Out[2]输出的二维数据表格中，以数字序号表示索引。在读取此CSV文件的时候，也可以通过参数指定文件中的某一列作为索引。

In[4]中函数read_csv增设了参数index_col=0，意思是用CSV文件的第0列作为索引，最终得到了Out[4]输出效果。

在In[2]的②中读取到CSV文件之后，返回的是DataFrame对象（②中用变量df引用此对象），有的资料将DataFrame翻译为“数据框”，本书使用英文名称。

推荐阅读《跟老齐学Python：数据分析》（电子工业出版社出版），系统化了解Pandas的各项知识。

项目案例

1．项目描述

读取“/kaggle/diabetes.csv”数据，并了解此数据集的概况。

2．实现过程

In[5]的③读取指定的CSV文件，得到了变量diabetes引用的DataFrame对象。④通过DataFrame实例的属性shape得到了diabetes的形状，Out[5]的输出结果表示diabetes共有765行、9列。如果直接调用diabetes，就会将所有内容显示出来（读者可以在Jupyter中尝试），在页面上占用较多篇幅，为避免这种情况，可以显示部分样本。

In[6]中出现的head方法是DataFrame对象常用的显示部分样本的方法，默认显示前5个，传入整数类型的参数，就可以根据指定数量显示样本。

与head方法类似的，还有tail和sample方法。

比较In[7]和In[8]的执行结果，了解二者的异同。

In[7]和In[8]的功能类似，能够显示出DataFrame对象中每列的数据类型。

动手练习

1．先在github.com网站完成用户注册和登录操作，然后完成如下操作。

●在本地计算机安装git，熟悉常用的git命令。

●在github.com网站创建个人公开代码仓库。

●应用git的push命令将本地指定目录中的文件上传到个人的代码仓库中。

git是源码管理工具，目前已经被普遍采用。

本题目与《Python大学实用教程》的“练习和编程1”第5题相呼应，建议读者查阅有关资料，完成本题各项操作。

2．参考本书附录或者推荐的书籍，完成如下操作。

（1）在本地计算机安装并运行Jupyter。

（2）在本地计算机安装Pandas、Numpy。

3．用Pandas读取“/bicycle/Bicycle_Counts.csv”文件的数据，并完成如下操作。

（1）以第1列为索引，并显示前10个样本。

（2）返回此数据集的样本总数。

（3）将（1）所显示的数据保存到一个新的CSV文件中。

扩展探究

1．Jupyter是基于浏览器的代码编辑工具，在数据科学中被广泛采用，其官方网站是https://jupyter.org/。建议读者根据网站文档安装此工具，并学会使用。

2．Numpy和Pandas是Python语言在数据科学中的重要工具，使用Python语言的数据科学项目都必须使用它们。本书在后续各种操作中会对涉及的一些函数（方法）给予必要的介绍，但是不能替代读者系统化学习。建议阅读《跟老齐学Python：数据分析》，系统学习Numpy和Pandas的有关知识。

3．在数据科学中，安装第三方模块（包）的方式，依然可以使用Python语言中常用的pip命令（参阅《Python大学实用教程》）。此外，还有另一个专门的数据科学集成开发工具Anaconda（官方网站：https://www.anaconda.com/），安装此工具之后，数据科学中常用的模块（包）就已经集成在其中，未集成进来的其他模块一般也提供了conda命令的安装方法。更详细的内容请查阅官方文档（https://docs.anaconda.com/）。

1.1.2 Excel文件

Excel文件也是常用于保存数据的文件，《Python大学实用教程》的9.2.2节专门介绍了如何使用Python第三方包读/写此类文件，请读者参阅。本节将重点介绍如何用Pandas从Excel文件中读取数据。

基础知识

在Jupyter中输入pd.read_，然后按下Tab键，就可以出现如图1-1-2所示的效果，从这里可以看到多个以“read”开始的函数名称——Python中规范的命名方式遵循着“望文生义”的原则。

图1-1-2 Tab键辅助记忆

利用Tab键可以查找函数，减轻记忆负担。

在学习和工作过程中，都应该充分利用帮助文档。In[3]演示了获得pd.read_csv函数帮助信息的方法，用同样的方法，也可以查看pd.read_excel函数的文档内容。

依然建议读者认真阅读文档内容，了解此函数的基本使用方法。在帮助文档的后面，通常还会有学习示例。

下面就使用这个函数读取Excel文件的数据。

path为In[1]中创建的变量。

除了如In[10]中的代码那样读取Excel文件，还可以利用电子表格软件将Excel文件转化为CSV文件，然后利用Pandas的read_csv函数读取文件。

如果将已有的数据，如DataFrame类的数据，保存为Excel或者CSV文件，应当如何操作？

继续使用如图1-1-2所示的方法，在Jupyter中输入“jiangsu.to_”，然后按Tab键，显示如图1-1-3所示的结果。

图1-1-3 保存为某种文件的函数

从这里可以看到，DataFrame对象实例保存为某种格式文件的方法（用这种方法找到解决1.1.1节“动手练习”中第3题所需要的方法）。读者应该认真观察图1-1-2和图1-1-3显示的函数（方法）名称，从而了解到Pandas可以读、写什么格式的文件。

在Jupyter中执行shell命令查看当前目录内容的方式：

即在命令前面写上“！”符号（英文状态）。

如果没有报错和其他显示，则说明已经保存成功。若不放心，可以到目录中查看是否已有保存的文件。

项目案例

1．项目描述

从“国家数据”网站（http://data.stats.gov.cn/）下载“全国居民消费价格分类指数”，并用柱形图表示指数的变化。

2．实现过程

打开“国家数据”网站，完成注册、登录步骤，然后根据导航信息，进入如图1-1-4所示的界面，下载所显示的数据。

图1-1-4 下载“全国居民消费类价格分类指数”

由于日期不同，读者打开此页面所看到的数据可能与图1-1-4有所差异。

将下载的文件更名为cpi.xls，用电子表格软件打开之后的基本样式如图1-1-5所示。

图1-1-5 Excel文件内容部分截图

可以利用电子表格软件对数据进行整理。因本书为了演示Pandas的应用，故在此无过多的操作。

在Jupyter中，利用pd.read_excel函数读入此文件。

因受篇幅所限，以上只显示部分列，请读者在调试的时候查看全部列的内容。

对照图1-1-5，理解缺失值产生的原因。

从显示内容可知，这个数据集不能直接用于绘图，比如第0行，都是缺失值（用NaN表示）；第1行是所统计的年月。因此，对该数据需要整理。

⑥是DataFrame的切片操作。

In[13]中的代码，使用了多种DataFrame对象有关方法和切片操作，最终将Out[12]所显示的数据变换为如Out[13]显示的样子。下面对In[13]中的代码逐行进行简要说明：

⑤替换了数据集中列的名称，变成对应的年月。

⑥截取Out[12]所显示的第2行及其以下的数据。

⑦删除索引号为11和12的两行，并更新原有数据集（inplace=True）。

⑧增加一列，对应于每行的统计指标，即简化原来的“指标”列的表述。

⑨删除“指标”列，并更新数据集。

⑩重新规划索引，删除原来的，实现从0开始重建索引，并更新数据集。

⑪将列索引的名字设置为空，并更新数据集。

注意区分由数字组成的字符串与整数、浮点数的不同。字符串不能参与数学运算。

这个反馈信息表明，每列中的数字，比如102.3，直观地看是浮点数，但Pandas并不认为它是浮点数（显示为object），所以，还要将每列的数据类型转换成浮点数。

In[15]的操作是“特征数值化”（详见3.1节）。

cpi.columns[: -1]得到的是数据集中除最右列名称外的其他列名称，然后用循环语句将每列的数据转换为浮点数（pd.to_numeric(cpi[column])。

下面使用Matplotlib绘制柱形图。为了简化，仅绘制一个指标的各月指数的柱形图。

对于In[16]第1行代码中的“#⑫”，读者在调试程序的时候不要输入。

建议读者参阅“动手练习”中的第1题，继续优化此图不完美（如图底部数字重叠）的显示结果。

用类似方法，可以绘制其他各项指标的柱形图。

但是，请读者特别注意，上述图示并非完美。这里只初步了解实现数据可视化的方法。

⑫的作用是声明将所绘制图像插入当前Jupyter所在浏览器中。注意，这一句必须在且只能在代码块的第1行。

⑬引入绘图模块，通常更名为plt。

⑭绘制柱形图，两个参数分别为x轴和y轴的数据。

⑮为柱形图绘制网格，以便比较观察各个柱的高度。

动手练习

1．在本地计算机上安装Matplotlib，并根据有关资料掌握初步的绘图方法。推荐以下文献资料：

①《跟老齐学Python：数据分析》。

②在线图书《案例上手Python数据可视化》（通过本书作者微信公众号“老齐教室”查阅）。

2．读取数据“/jiangsu/jiangsu.xls”，并绘制各个城市面积（area列）的柱形图。

3．改进“基础知识”中In[10]读取Excel文件的方法，要求将原Excel文件的第1列（“name”列）指定为所得到的DataFrame对象的索引。

4．利用Matplotlib，绘制In[10]所得数据中“population”列的箱线图。

箱线图（Box plot）是一种常见的统计图，能显示数据集中的最大、最小值；上、中、下分位数；平均值；离群值。

扩展探究

1．查阅有关统计学资料，理解常见的柱形图、饼图、折线图、箱线图、散点图等统计图的含义。

2．数据可视化是数据科学项目中普遍应用的技术。Matplotlib是用途广泛且历史悠久的数据可视化工具，其官方网站是https://matplotlib.org/。建议读者熟练掌握此工具的基本应用方法。

1.1.3 图像文件

图像文件很常见，“它里面也保存了数据吗？”

通常，图像可以分为“位图”和“矢量图”两类。文件扩展名为“.jpg”“.jif”“.png”的图像文件是位图；文件扩展名为“.swf”“.pdf”“.svg”的是矢量图。位图由很多点组成（称为“点阵”，点就是像素），每个点以0～255之间的整数表示一种灰度级别，不同的灰度级别代表了红、绿、蓝（RGB）的比例，即表示了一种颜色。矢量图记录的是绘制图像的方法，不是点阵数据，方法中包含了点的坐标值和填充颜色的值等信息。本书下述内容只讨论位图。

基础知识

在Python语言生态中，Pillow是常用的图像处理库（Python Imaging Library，PIL），具有强大的图像处理功能，其官方网站是https://pillow.readthedocs.io/。Pillow的基本安装方法如下：