前言
机器学习是人工智能的技术基础,伴随着人工智能几十年的发展,期间有过几次大起大落。作为机器学习的高级阶段,最近几年,深度学习算法在自然语言处理、语音识别、图像处理等领域的突破,使得机器学习成为计算机学科非常热门的一个方向。这也标志着机器学习已经彻底迈出实验室大门,走向实践,推动着人工智能向更高阶段发展。
与机器学习十分密切的概念有数据挖掘、大数据分析等,这些数据分析技术使用了一些机器学习的方法和算法,解决了企业应用的一些问题,辅助业务人员和管理人员做出更好的决策。几种技术相辅相成,共同促进了数据分析技术和人工智能的进步。
从早期的统计学习,发展到联结主义的神经网络,直到深度神经网络的过程中,机器学习的基础一直是足量的高质量数据。“互联网+”的热潮推动了大数据的产生以及处理大数据的软硬件技术的迅猛发展,为机器学习提供了更好的数据和分析的技术基础,在一些应用领域,机器已经达到甚至超过人类的智能水平,从而引发机器学习在金融、智能制造、零售、电子商务、电信等众多行业的广泛应用。
大数据应用和人工智能发展已经引起了全球关注,企业对机器学习的人才需求增大,与之密切相关的数据科学家、数据挖掘工程师、大数据分析师、机器学习分析师等数据分析类人才成为21世纪最有吸引力的人才。根据相关企业估计,上述人才的需求增长将持续6~8年。为此,教育部批准了一批高校成立数据科学与大数据技术、大数据应用、智能科学与技术等相关专业,为业界培养相应的专业人才。
机器学习是一门理论和实践并重的课程,内容比较多,很多算法也有一定的难度。此外,机器学习的应用需要一定的经验和技巧。编写一本兼顾机器学习理论的系统性,又能体现机器学习的应用,使之适合新工科教学的机器学习教材,就成为本书编写的目标。
目前,市场上已有多种机器学习的专业图书和教材,大多数图书有两种倾向,要么理论内容繁杂,对初学者和任课教师来说挑战较大,短短的几十学时难以消化;要么偏重应用和实践,理论的系统性不够,理论与应用方面的内容不够平衡。针对上述问题,作者参阅了大量文献资料,结合过去多年数据分析的研究和实践,重新梳理了机器学习的整个课程体系,使内容基本覆盖机器学习的基础内容,深入浅出,读者在此基础上可以钻研机器学习的高级算法。
本书具有以下特点。
(1)大多数章节都有典型的Python算法和案例,深入浅出地解释理论,方便学习理解。本书最后附有主要参考文献,方便读者加深对教材内容的思考。此外,每章还配有思考题,以此检验读者对基本知识的理解和应用能力。
(2)在介绍传统的机器学习理论的基础上,突出了机器学习目前主流的一些内容,包括深度学习的典型算法与应用、知识图谱、机器学习在电子推荐技术的应用等。
(3)本书第14章的华为FusionInsight平台提供3个月的免费使用期,请读者根据实际情况开通使用。
本书在写作过程中,得到了教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目组的大力支持,另外,研究生于召鑫、蒲实、朱荣斌、耿甲、袁雪如、陈子轩等在资料收集过程中做了一些工作,在此一并表示感谢。
赵卫东
2018年2月
复旦大学