1.2 什么是机器学习_可解释机器学习：黑盒模型可解释性理解指南-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2　什么是机器学习

机器学习是计算机基于数据做出和改进预测或行为的一套方法。

例如，为了预测房屋的价格，计算机将从过去的房屋销售中学习模式。本书关注监督机器学习，它涵盖了所有的预测问题，其中会有一个数据集，我们已经知道感兴趣的结果（例如过去的房价），并希望学习预测新数据的结果。监督学习不包括例如聚类任务，在这些任务中没有我们感兴趣的特定结果，但希望找到数据点的聚类。此外，诸如强化学习等也被排除，在这种情况下，智能体（Agent）基于环境（Environment）做出动作（Action）来学习优化某种奖励（Reward）（例如玩俄罗斯方块的计算机）。监督学习的目标是学习一个预测模型，将数据的特征（例如房屋大小、位置、楼层类型等）映射到输出（例如房屋价格）。如果输出的是类别，则任务称为分类；如果输出的是数值，则任务称为回归。机器学习算法通过估计参数（例如权重）或学习结构（例如树）学习模型，且算法由一个最小化分数或损失函数指导。例如，在房屋价格预测中，机器将最小化房屋的实际价格和预测价格之间的差值，然后就可以使用经过充分训练的机器学习模型预测新实例了。

房价估计、产品推荐、路牌检测、信用违约预测和欺诈检测……所有这些示例有一个共同点，即都可以通过机器学习解决。任务不同，但方法相同。

·步骤1：采集数据，且越多越好。数据必须包含要预测的结果，以及要从中进行预测的其他信息。对于路牌检测（例如“图像中有路牌吗”），需要收集街道图像并标记是否存在路牌；对于信用违约预测，需要过去实际贷款的数据、客户是否拖欠贷款的信息及有助于做出预测的数据，例如收入、过去信用违约信息等；对于房屋价格估计，可以从过去的房屋销售记录中收集数据和有关房地产的信息，例如面积、位置等。

·步骤2：将这些信息输入机器学习算法，生成路牌检测模型、信用评级模型或房屋价格估计模型。

·步骤3：将新数据输入模型。将模型集成到产品或流程中，例如自动驾驶汽车、信贷申请流程或房地产市场网站。

在许多任务中机器都超过了人类，例如下围棋或预测天气。即使机器的性能和人类一样好，或者在某个任务上略微逊色，但在速度、可重复性和规模化方面仍然有很大的优势。一个曾经实施过的机器学习模型可以比人类更快地完成一项任务，可靠地提供一致的结果，并且可以无限地复制。在另一台机器上复制机器学习模型既快速又廉价。相应的，培训人员完成一项任务则可能需要几十年，而且成本很高。使用机器学习的一个主要缺点是，机器解决任务的思路被隐藏在更加复杂的模型中。需要数以百万计的参数描述一个深层的神经网络，而没有办法完全理解这个模型。其他模型，如随机森林，由数百个决策树组成，它们通过“投票”进行预测。为了理解这个决策是如何做出的，必须查看数百棵树中每棵树的投票和结构。无论我们多么聪明或记忆力多么好，这都是行不通的。即使每个模型都可以被解释，但性能最好的模型通常是多个模型的集成，这就变得无法解释了。如果只关注性能，就会获得越来越多的不透明的模型。例如，看看Kaggle.com 机器学习竞赛平台对获胜者的采访：胜出的模型大多是模型的集成，或是非常复杂的模型，如提升树或深层神经网络。