2.1.1 机器学习的概念
学习是人类具有的一种重要的智能行为,关于学习的具体定义,社会学、逻辑学、心理学等不同领域的专家给出了不同的解释。同样,机器学习迄今为止仍没有统一的定义,但一般认为,机器学习是研究如何获取新知识和新技能,并识别现有知识的科学。机器学习的核心思想是利用算法解析数据,即依据数据的特征,让机器自动分析、从中学习,从而使得机器具备某一领域的学习能力,并对某些事物做出判定或预测。机器学习一般用来进行数据分析和预测分类等任务,接下来我们通过两个简单的示例描述机器学习的概念。
(1)香蕉和苹果。
考虑这样的一个问题:怎么设计一种用来判断一个水果是香蕉还是苹果的方法呢?人们区分这两种水果是依据它们各自的有区分度的典型特征:第一个典型特征是形状,香蕉的形状类似于长方形,苹果的形状类似于圆形;第二个典型特征是颜色,香蕉一般是黄色的,苹果一般是红色的。
由此可知,采取类似的手段编写算法程序可以解决这个问题。首先,采集一定数量的香蕉和苹果,记录它们的形状和颜色;然后,将这两种水果画在二维平面上,如图2-1所示。
图2-1 用于区分香蕉和苹果的特征
形状和颜色是区分这两种水果的有用特征,组合在一起构成了二维的特征向量。这些特征向量可表示为二维空间中的点,横坐标x代表形状,纵坐标y代表颜色。每记录一个水果,就得到一个点。将这些点绘制在坐标平面上,可以发现苹果在第一象限的左上方,香蕉在第一象限的右下方。按照这一规律,可以在平面上找到一条直线,把平面分成两部分,如图2-2所示,落在右下方这一部分的点被判定为香蕉,落在左上方这一部分的点被判定为苹果。
图2-2 用直线将香蕉和苹果分开
假设找到一个表示直线的函数,如式(2-1)所示。
(2-1)
其中,z>0的点被判定为苹果;z<0的点被判定为香蕉。
通过对大量水果样本进行测试,记录它们的形状和颜色,确定分类函数中相关参数的值,如果水果样本能够被正确分类,那么可以利用这个函数对未知水果进行判定。通过已知水果找分类函数的过程就是机器学习的训练过程,而依据分类函数对未知水果进行分类的过程就是机器学习的预测过程,分类结果的准确性是机器学习算法的一个衡量指标。
(2)啤酒和尿布的故事。
20世纪90年代,在一个普通的日子里,沃尔玛超市的管理人员在整理并汇总销售数据时,发现了一个有意思的现象:啤酒和尿布这两种看上去毫无关系的商品,经常被一起购买。为此,他们尝试将超市中的啤酒和尿布摆放在相近的柜台,从此该超市的销售额得到显著提升,这就是广为流传的啤酒和尿布的故事。购买尿布和购买啤酒,本来是两件看起来毫无关系的事情,该超市技术专家以大量的用户购买记录为样本,通过分析找到了二者之间的重要关联,这就是机器学习领域数据挖掘的一个重要应用。
综上所述,机器学习是一门研究算法的交叉学科,它研究计算机如何模拟或实现人类的学习行为,根据已有的数据或以往的经验进行算法选择,构建模型进行预测,并重新组织已有的知识结构使自身性能不断改进。