1.3 术语
为避免歧义引起混淆,本书使用的术语定义如下。
1.算法(Algorithm)
算法是机器为达到特定目标而遵循的一组规则。可以将算法视为定义输入、输出以及从输入到输出所需的所有步骤的配方:配方是一种算法,其中材料是输入,熟食是输出,准备和烹饪步骤是算法指令。
2.机器学习(Machine Learning)
机器学习是一种方法,能够允许计算机从数据中学习,以做出预测和改进预测(例如癌症、每周销售、信用违约),如图1-1 所示。机器学习是从常规编程(Normal Programming)到间接编程(Indirect Programming)的一种范式转换,常规编程是指所有指令都必须显式地提供给计算机,而间接编程是通过提供数据实现的。
图1-1 机器学习允许计算机从数据中学习
3.学习器(Learner)或机器学习算法(Machine Learning Algorithm)
学习器是用来从数据中学习机器学习模型的程序,它的另一个名字是诱导器(Inducer)(例如树诱导器)。
4.机器学习模型(Machine Learning Model)
机器学习模型是将输入映射到预测的学习程序,可以是线性模型或神经网络的一组权重。模型(Model)也可以称作预测器(Predictor),基于任务可以再分为分类器(Classifier)或者回归模型(Regression Model),如图1-2 所示。在公式化描述中,经过训练的机器学习模型称为或。
图1-2 学习器从训练数据中学习用于预测的模型
5.黑盒模型(Black Box Model)
黑盒模型是一个不揭示其内部机制的系统。在机器学习中,黑盒模型或称黑匣子,描述了通过查看参数(例如深度神经网络的参数)也无法理解的模型。黑盒的对立面有时被称为白盒(White Box),在本书中被称为可解释模型。与模型无关的解释方法将机器学习模型视为黑盒(即使这些模型本身可能不是黑盒)。
图1-3 黑盒模型
6.可解释的机器学习(Interpretable Machine Learning)
可解释的机器学习指使机器学习系统的行为和预测能够被人类理解的方法和模型。
7.数据集(Dataset)
数据集是一个表格,其中包含机器要从中学习的数据。数据集包含要预测的特征和目标。当用于训练模型时,数据集称为训练数据。
8.实例(Instance)
实例表现为数据集中的一行,也可以称作数据点(Data Point)、样本(Example)或观测(Observation)。实例由特征值向量x(i) 和目标结果y(i) 组成。
9.特征(Feature)
特征用于对输入进行预测或分类。特征表现为数据集中的列。本书认为特征是可解释的,这意味着很容易理解它们的含义,比如某一天的温度或一个人的身高。当然,特征的可解释性是一个很大的假设,如果很难理解输入的特征,就更难以理解模型的行为。对于单个实例,具有所有特征的矩阵记为X 和x(i),所有实例的单个特征向量是xj,而第i 个实例的第j 个特征对应的值是。
10.目标(Target)
目标是机器要学会预测的信息。在数学公式中,对于单个实例,目标通常记为y(i) 或yi。
11.机器学习任务(Machine Learning Task)
机器学习任务是一个具有特征和目标的数据集的组合。根据目标的类型,任务可以是分类、回归、生存分析、聚类或异常值检测。
12.预测(Prediction)
预测是指机器学习模型根据给定的特征“猜测”目标值应该是什么。在本书中,模型预测用 或表示。