1.3 基本术语与符号
本章讨论了监督学习、无监督学习和强化学习这三大类机器学习,下面将介绍本书中常用的基本术语。1.3.1节将介绍我们在引用数据集时将会用到的常用术语,以及更精确和高效地进行沟通所采用的数学符号。
因为机器学习领域广阔而且跨学科,所以肯定会遇到许多指向相同概念的不同术语。1.3.2节收集了机器学习文献中的许多常用术语,希望在你阅读更多不同的机器学习文献时能够有所帮助。
1.3.1 本书中使用的符号和约定
图1-8摘要描述了鸢尾属植物数据集,这是机器学习领域的典型示例。该数据集包含了山鸢尾、变色鸢尾和弗吉尼亚鸢尾三种不同鸢尾属植物的150多朵鸢尾花的测量结果。数据集每行存储一朵花的样本数据,每列存储每种花的度量数据(以厘米为单位),也称之为数据集的特征。
图 1-8
为了能简单而且高效地实现符号表示,我们将会用到线性代数的一些基础知识。下面的章节中将用矩阵和向量符号来表示数据。我们将按照约定将每个样本表示为特征矩阵X的一行,每个特征表示为一列。
鸢尾属植物数据集包含150个样本和4个特征,可以用150×4矩阵表示:
标注约定
除非特别注明,本书的其余部分将用上标i指第i个训练样本,下标j表示训练样本的第j个维度。
用小写和粗体字符表示向量,用大写和粗体字符表示矩阵。分别采用斜体字符x(n)或者表示向量或者矩阵中的某个元素。
例如表示第150个鸢尾花样本的第一个维度,即萼片长度。因此,该矩阵的每行代表一朵花的数据,可以写成4维行向量
每个特征维度是150个元素的列向量,例如:
类似地,可以把目标变量(这里是类标签)存储为150个元素的列向量:
1.3.2 机器学习的术语
机器学习领域非常广泛,而且因为有许多科学家来自其他的研究领域,因此学科的交叉现象比较严重。很多似曾相识的术语和概念被重新认识或者定义,名称可能会有所不同。为方便起见,下面精选了常用术语及其同义词,希望对大家阅读本书和其他人工智能书籍有所帮助。
- 训练样本:表中的行,代表数据集的观察、记录、个体或者样本(在多数情况下,样本指训练样本集)。
- 训练:模型拟合,对参数型模型而言,类似参数估计。
- 特征,缩写为x:指数据表或矩阵的列。与预测因子、变量、输入、属性或协变量同义。
- 目标,缩写为y:与结果、输出、响应变量、因变量、分类标签和真值同义。
- 损失函数:经常与代价函数同义。有时也被称为误差函数。在有些文献中,术语损失指的是对单个数据点进行测量的损失,而代价是对整个数据集进行测量(平均或者求和)的损失。