从零开始学TensorFlow2.0
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.3 数据集

数据集是数据的集合,是机器学习的基础,本节使用tf.data.Dataset API构建管道,为模型提供数据。

1.创建源数据集

在使用数据集之前,需要先创建一个源数据集,使用工厂函数(如Dataset.from_tensors,Dataset.from_tensor_slices)或从TextLineDataset和TFRecordDataset等文件中读取的对象来创建源数据集,代码如下。

代码的运行结果如下。

打开返回的文件,如下。

2.转换函数

将map、batch和shuffle等转换函数应用于数据集记录。这里以map和shuffle函数为例,代码如下。

代码的运行结果如下。

3.迭代

迭代是处理数据集的常用方法,tf.data.Dataset对象支持迭代循环记录,示例代码如下。

代码的运行结果如下。

本节使用几个简单的例子对数据集进行了初步的介绍。在后面的章节中,会经常使用数据集。