细说机器学习:从理论到实践
上QQ阅读APP看书,第一时间看更新

1.1 机器学习的定义与发展历史

学习机器学习之前,首先要明确机器学习的概念。本节首先从机器学习的定义出发,然后介绍机器学习的发展历史,逐渐带领读者进入机器学习的美妙世界。

1.1.1 什么是机器学习

不同的研究者对机器学习有不同的定义,常见的定义主要有以下几种。

(1)机器学习是让机器像人一样学习和思考的科学,通过观察并以与现实世界进行互动的形式提供数据和信息,随着时间的推移,以自主的方式提高计算机的学习能力。

(2)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

(3)机器学习是对能通过经验自动改进的计算机算法的研究。

(4)机器学习是用数据或以往的经验来优化计算机程序的性能标准。

(5)机器学习是一门不需要明确编程就能让计算机运行的科学。

(6)机器学习算法可以通过例子从中挑选出执行最重要任务的方法。

(7)最基本的机器学习是使用算法解析教程,并从中学习,然后对世界上的一些事物做出决定或者预测。

机器学习的定义五花八门,无论如何定义,该领域都有一些通用的共识。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

该学科专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。

由于该学科需要的基础知识很多,从业者需要具备一定的科学知识基础,这些基础包括数学基础、计算机基础和编程基础。

1.1.2 发展历史

在当今社会,机器学习的应用已遍及人们社会生活的各个领域,如互联网上的各种广告系统、新能源汽车的自动驾驶系统、语言翻译系统、模式识别、医学手术机器人、农业机器人等领域。但是,机器学习乃至人工智能的起源是对人本身的意识、自我、心灵等哲学问题的探索,技术归根结底是为人类服务的。

机器学习在长期发展的历史过程中,充分融合了统计学、神经科学、信息论、控制论、计算复杂性理论等学科的知识。总的来说,机器学习学科的发展是整个人工智能技术发展史上颇为重要的一个分支,详细查看各个阶段的发展历史,就会发现机器学习技术是人类在各个时期智慧的凝聚。

机器学习是一门不断发展的学科,虽然只是在近些年才广泛被大众所知道进而走进大众的视野,但机器学习的起源可以追溯到20世纪50年代,从人工智能的符号演算、逻辑推理、自动机模型、启发式搜索、模糊数学、专家系统到神经网络的反向传播BP算法等,经历了曲折的发展。可以说,机器学习是一门厚积薄发的学科。

尽管这些技术在当时并没有被冠以机器学习之名,但时至今日这些技术依然是机器学习的理论基石,以至于近几年的深度学习技术终于使机器学习技术爆发。

总的来说,机器学习的发展分为知识推理期、知识工程期、浅层学习(Shallow Learning)和深度学习几个阶段。

1.知识推理期

知识推理期起始于20世纪50年代中期,这时候的人工智能主要通过专家系统赋予计算机逻辑推理能力,赫伯特·西蒙(Herbert Simon)和艾伦·纽厄尔(Allen Newell)实现的自动定理证明系统Logic Theorist证明了逻辑学家拉赛尔(Russell)和怀特黑德(Whitehead)编写的《数学原理》中的52条定理,并且其中一条定理比原作者所写的更加巧妙。

这一时期,Fisher发明了线性判别分析(Linear Discriminant Analysis,LDA),其发展历史可以追溯到1936年,当时还没有机器学习的概念。这是一种有监督的数据降维算法,这种算法通过线性变换将向量投影到低维空间中,以保证投影后同一种类型的样本差异很小,不同类型的样本差异尽量大,即类内差异小,类间差异大。

1949年,Hebb提出了基于神经心理学的学习机制,由此开启了机器学习的第一步。此后该机制被称为Hebb学习规则。Hebb学习规则归根到底是一种无监督学习规则,这种学习规则的结果是使网络能够提取训练集的统计特性,最后把输入信息按照它们的相似性程度划分为若干类。这一点与人类观察和认识世界的过程具有很高的相似度,人类观察和认识世界在相当程度上就是通过人类大脑统计事物的特征,然后进行各种分类。

1950年,阿兰·图灵发明了图灵测试来判定计算机是否智能,这就是著名的图灵测试。图灵测试的基本原理为,如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称该机器具有智能性。这一高度抽象概念使得图灵能够令人信服地说明“思考的机器”是可能的。

1952年,IBM的科学家亚瑟·塞缪尔发明了一个跳棋程序。这个程序可以通过观察当前位置,并学习一个隐含的模型,继而为后续动作提供更优的指导。科学家发现,随着该游戏程序运行时间的增加,该程序可以实现越来越好的后续跳棋指导。通过这个项目,塞缪尔驳倒了普罗维登斯提出的机器无法超越人类,像人类一样写代码和学习的模式。塞缪尔创造了“机器学习”,并将它定义为“可以提供计算机能力而无须显式编程的研究领域”。

事实上,2016年3月,阿尔法围棋(AlphaGo)与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年年末到2017年年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩。

围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。这些战绩已经充分证明了塞缪尔当年的论断。

1957年,罗森·布拉特基于神经感知科学背景提出了新的模型,该模型类似于当今的机器学习模型。该模型在当时是一个令人兴奋的发现,该模型比Hebb的想法泛化性更强。基于这个模型,罗森·布拉特设计出了第一个计算机神经网络——感知机(Perceptron),感知机模拟了人类大脑的运作方式。

1960年,科学家维德罗首次将Delta学习规则用于感知器的训练步骤。事实上,这种方法后来被称为最小二乘法,这两者的结合创造了一个良好的线性分类器,成为机器学习发展史上的经典算法,是机器学习发展史上的一个里程碑事件。

20世纪50年代,贝叶斯分类器逐渐起步,基于贝叶斯决策理论,该分类器把样本分到后验概率最大的那个类。

Logistic回归的历史同样悠久,可以追溯到1958年。它直接预测出一个样本属于正样本的概率,在广告点击率预估、疾病诊断等问题上都有很广泛的应用。

诞生于1958年的感知器模型是一种线性分类器,可看作是人工神经网络的前身,但感知机过于简单,甚至不能解决异或问题,因此不具有实用价值,重要的是起到了思想启蒙的作用,为后面的算法奠定了思想上的基础,神经网络算法就是在感知机的基础上发展而来的。

2.知识工程期

从20世纪70年代开始,人工智能进入知识工程期,有知识工程之父美誉的科学家费根鲍姆(E.A. Feigenbaum)在1994年获得了计算机领域的最高奖项图灵奖。由于仅靠人工无法将所有自然界的知识都总结出来教给计算机软硬件系统,因此这一阶段的人工智能面临知识发展的瓶颈。

K最近邻算法诞生于1967年,是一种基于模板匹配思想的算法,虽然简单,但很有效,至今仍被用于无监督学习领域,依然大放异彩。

到20世纪六七十年代,多种人工智能学习技术得到了初步发展,具有代表性的比如以决策理论为基础的统计学习技术、强化学习技术等,基于这些理论的代表性成果主要有A.L.Samuel的跳棋程序以及N.J.Nilson的学习机器等。

20多年后,炙手可热的统计学习理论的一些代表性结果也是在这个时期取得的。在这一阶段,基于逻辑或图结构表示的符号学习技术也开始出现,基于这些理论的代表性成果有P. Winston的结构学习系统、R.S. Michalski等人的基于逻辑的归纳学习系统、E.B. Hunt等人的概念学习系统等,这些理论共同构建了一个思想灿烂的机器学习时代。

在1980年之前,这些机器学习算法都是零碎化的,不成体系,但它们对整个机器学习的发展所起的作用不能被忽略,十分重要。从1980年开始,机器学习才真正成为一个独立的方向。在这之后,各种机器学习算法被大量提出,得到了快速发展,得益于计算机硬件技术的发展,这些理论被迅速应用于工业界。

决策树的3种典型实现,即ID3、CART、C4.5,是20世纪80年代到20世纪90年代初期的重要成果,虽然简单,但可解释性强,使得决策树至今在一些问题上仍被使用,比如多种广告、推荐系统等。

3.浅层学习

实际上,在20世纪50年代,就已经有浅层学习的相关研究,代表性成果主要是罗森布拉特(F. Rosenblatt)基于神经感知科学提出的计算机神经网络,即感知器。在随后的10年中,浅层学习的神经网络风靡一时,特别是马文·明斯基提出了著名的XOR问题和感知器线性不可分的问题。但随后进入了一段时间的冷却期。

1980年夏天,在美国卡内基梅隆大学举行了第一届机器学习研讨会。同样是1980年,《策略分析与信息系统》连出三期关于机器学习的专辑,说明了机器学习技术在这一时期的巨大进步。1983年,Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主编的图书《机器学习:一种人工智能途径》,该书中汇集了20位学者撰写的16篇文章,对当时的机器学习研究工作进行了总结,在当时产生了巨大反响。

1986年,机器学习领域的重要刊物《机器学习》(Machine Learning)创刊。1989年,《人工智能》(Artificial Intelligence)出版了机器学习专辑,刊发了一些当时比较活跃的研究工作,其内容后来出现在J.G. Carbonell主编、MIT出版社1990年出版的《机器学习:风范与方法》一书中。

现在回头来看,20世纪80年代是机器学习成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期,类似于一个群雄逐鹿的时期。R.S. Michalski等人形象地将机器学习研究划分成“从例子中学习”“在问题求解和规划中学习”“通过观察和发现学习”“从指令中学习”等范畴;而E.A. Feigenbaum在其著名的《人工智能手册》一书中,则把机器学习技术划分为4大类,即“机械学习”“示教学习”“类比学习”“归纳学习”。现在回头来看,这些思想和概念依然适用。

1986年诞生了用于训练多层神经网络的真正意义上的反向传播算法,这是现在的深度学习中仍然被使用的训练算法,奠定了神经网络走向完善和应用的基础。

1989年,LeCun设计出了第一个真正意义上的卷积神经网络,用于手写数字的识别,该算法在当时的美国银行系统得到了成功应用,需要重点说明的是,这是现在被广泛使用的深度卷积神经网络的鼻祖。

在1986年到1993年之间,神经网络的理论得到了极大的丰富和完善,但当时的很多因素限制了它的大规模使用,例如工业发展水平、计算机网络水平、计算机硬件水平等。

20世纪90年代是机器学习百花齐放的年代。1995年诞生了两种经典的算法:SVM和AdaBoost,此后它们纵横江湖数十载。SVM通过隐式地将输入向量映射到高维空间中,使得原本非线性的问题能得到很好的处理,因此在当时得到了广泛的应用,在当今社会问题规模不大时仍然具有广泛应用;而AdaBoost则通过将一些简单的弱分类器集成起来使用,居然能够达到惊人的精度,该思想现在依然用于人工智能领域。

当今语音领域炙手可热的LSTM在2000年就出现了,这可能会让很多读者感到惊讶。但在很长一段时间内一直默默无闻,直到2013年后与深度循环神经网络整合,才在语音识别上取得成功。

随机森林出现于2001年,与AdaBoost算法同属集成学习,虽然简单,但在很多问题上效果好得出奇,因此现在还在被大规模使用。

由于计算机的运算能力有限,多层网络训练困难,通常都是只有一层隐含层的浅层模型,虽然各种各样的浅层机器学习模型相继被提出,对理论分析和应用方面都产生了较大的影响,但是理论分析的难度和训练方法需要很多经验和技巧,随着最近邻等算法的相继提出,浅层模型在模型理解、准确率、模型训练等方面被超越,机器学习的发展也几乎处于停滞状态。

4.深度学习

虽然真正意义上的人工神经网络诞生于20世纪80年代,反向传播算法、卷积神经网络、LSTM等也早就被提出,但遗憾的是神经网络在很长一段时间内并没有得到大规模的成功应用。主要原因有:算法本身的问题,如梯度消失问题,导致深层网络难以训练;训练样本数的限制;计算能力的限制。直到2006年之后,随着计算机硬件技术的飞速发展,算力不再受限,而移动网络技术的飞速发展,使得世界互联,产生了巨量的数据,情况才慢慢改观。

2006年,希尔顿(Hinton)发表了深度信念网络论文,本戈欧(Bengio)等人发表了Greedy Layer-Wise Training of Deep Networks论文,乐康(LeCun)团队发表了Efficient Learning of Sparse Representations with an Energy-Based Model论文,这些事件标志着人工智能正式进入深层网络的实践阶段,同时云计算和GPU并行计算为深度学习的发展提供了基础保障,特别是最近几年,机器学习在各个领域都取得了突飞猛进的发展。

神经网络研究领域的领军者Hinton在2006年提出了神经网络的深度学习(Deep Learning)算法,被众多学习者奉为该领域的经典著作,使神经网络的能力大大提高,向支持向量机(Support Vector Machine,SVM)发出挑战。2006年,机器学习领域的泰斗Hinton和他的学生Salakhutdinov在顶尖学术刊物《科学》(Science)上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮,微软、IBM等工业巨头投入了巨大资源开展研究,MIT等科研机构更是成果层出不穷。

Hinton的学生Yann LeCun的LeNets深度学习网络可以被广泛应用在全球的ATM设备和银行系统中。同时,Yann LeCun和吴恩达等认为卷积神经网络允许人工神经网络能够快速训练,因为其所占用的内存非常小,无须在图像上的每一个位置上单独存储滤镜,非常适合构建可扩展的深度网络,所以卷积神经网络非常适合识别模型。这些人都是机器学习领域全球的领导者。

目前,新的机器学习算法面临的问题更加复杂,机器学习的应用领域从广度向深度发展,这对模型训练和应用都提出了更高的要求。随着人工智能的发展,冯·诺依曼式的有限状态机的理论基础越来越难以应对目前神经网络中层数的要求,这些都对机器学习新的算法的发展和应用提出了挑战。

机器学习的发展并不是一帆风顺的,经历了螺旋式上升的过程,机遇与困难并存。凝聚国内外大量的研究学者的成果才有了今天人工智能的空前繁荣,是量变到质变的过程,也是内因和外因的共同结果,符合客观事物的发展规律。我们处在一个美好的时代,是机器学习的波峰时期。