1.2 什么是机器学习
机器学习是计算机基于数据做出和改进预测或行为的一套方法。
例如,为了预测房屋的价格,计算机将从过去的房屋销售中学习模式。本书关注监督机器学习,它涵盖了所有的预测问题,其中会有一个数据集,我们已经知道感兴趣的结果(例如过去的房价),并希望学习预测新数据的结果。监督学习不包括例如聚类任务,在这些任务中没有我们感兴趣的特定结果,但希望找到数据点的聚类。此外,诸如强化学习等也被排除,在这种情况下,智能体(Agent)基于环境(Environment)做出动作(Action)来学习优化某种奖励(Reward)(例如玩俄罗斯方块的计算机)。监督学习的目标是学习一个预测模型,将数据的特征(例如房屋大小、位置、楼层类型等)映射到输出(例如房屋价格)。如果输出的是类别,则任务称为分类;如果输出的是数值,则任务称为回归。机器学习算法通过估计参数(例如权重)或学习结构(例如树)学习模型,且算法由一个最小化分数或损失函数指导。例如,在房屋价格预测中,机器将最小化房屋的实际价格和预测价格之间的差值,然后就可以使用经过充分训练的机器学习模型预测新实例了。
房价估计、产品推荐、路牌检测、信用违约预测和欺诈检测……所有这些示例有一个共同点,即都可以通过机器学习解决。任务不同,但方法相同。
·步骤1:采集数据,且越多越好。数据必须包含要预测的结果,以及要从中进行预测的其他信息。对于路牌检测(例如“图像中有路牌吗”),需要收集街道图像并标记是否存在路牌;对于信用违约预测,需要过去实际贷款的数据、客户是否拖欠贷款的信息及有助于做出预测的数据,例如收入、过去信用违约信息等;对于房屋价格估计,可以从过去的房屋销售记录中收集数据和有关房地产的信息,例如面积、位置等。
·步骤2:将这些信息输入机器学习算法,生成路牌检测模型、信用评级模型或房屋价格估计模型。
·步骤3:将新数据输入模型。将模型集成到产品或流程中,例如自动驾驶汽车、信贷申请流程或房地产市场网站。
在许多任务中机器都超过了人类,例如下围棋或预测天气。即使机器的性能和人类一样好,或者在某个任务上略微逊色,但在速度、可重复性和规模化方面仍然有很大的优势。一个曾经实施过的机器学习模型可以比人类更快地完成一项任务,可靠地提供一致的结果,并且可以无限地复制。在另一台机器上复制机器学习模型既快速又廉价。相应的,培训人员完成一项任务则可能需要几十年,而且成本很高。使用机器学习的一个主要缺点是,机器解决任务的思路被隐藏在更加复杂的模型中。需要数以百万计的参数描述一个深层的神经网络,而没有办法完全理解这个模型。其他模型,如随机森林,由数百个决策树组成,它们通过“投票”进行预测。为了理解这个决策是如何做出的,必须查看数百棵树中每棵树的投票和结构。无论我们多么聪明或记忆力多么好,这都是行不通的。即使每个模型都可以被解释,但性能最好的模型通常是多个模型的集成,这就变得无法解释了。如果只关注性能,就会获得越来越多的不透明的模型。例如,看看Kaggle.com 机器学习竞赛平台对获胜者的采访:胜出的模型大多是模型的集成,或是非常复杂的模型,如提升树或深层神经网络。