机器学习与大数据技术
上QQ阅读APP看书,第一时间看更新

第1章 绪论

目前,云计算、物联网、大数据、机器学习、人工智能、芯片技术和移动网络等新一代信息技术不断涌现,掀起了新一轮技术革命和产业革命的浪潮,新一代信息技术受到了政府、学术界、媒体和企业的广泛关注,同时也带来了巨大的市场机遇,具有广阔的应用前景。

人工智能不是一个新名词,在 1956 年达特茅斯会议上计算机专家约翰·麦卡锡首先提出了“人工智能”的概念。1980年美国卡耐基·梅隆大学设计并实现了具有知识库和推理功能的专家系统;1997年IBM公司的“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫;2016年谷歌公司的“阿尔法狗”(AlphaGO)战胜了韩国棋手李世石和我国的围棋天才柯洁。这些里程碑式的标志使得人们对人工智能未来的发展充满了渴望和期待。

人工智能至今尚没有一个统一的定义。专家和学者们从不同的角度出发,给出了各自的定义:畅销书《人工智能》的作者伊莱恩·里奇(Elaine Rich)认为人工智能是研究如何利用计算机模拟人脑从事推理、规划、设计和学习等思维活动,协助人类解决复杂的工程问题;麻省理工学院教授温斯顿(Winston)认为人工智能是那些使知觉、推理和行为成为可能的计算的研究;加州大学伯克利分校教授斯图尔特·罗素(Stuart Russell)则把人工智能定义为:像人一样思考的系统,像人一样行动的系统。

机器学习的发展可以追溯到 1950 年,其发展过程大体经历了 3个重要时期,即推理期、知识期和学习期。1970年前称为推理期,主要标志是让机器具有简单的逻辑推理能力;1970年后称为知识期,主要标志是1965年斯坦福大学教授费根鲍姆(E.A.Feigenbaum)等人研制了世界上首个专家系统。20世纪80年代至今称为学习期,主要标志是让机器从样本中学习。1983年,美国加州理工学院霍普菲尔德(J.J.Hopfield)教授提出了著名的Hopfield反馈神经网络;1986年,斯坦福大学教授鲁姆哈特(D.E.Rumelhart)等人提出了 BP 神经网络;1995 年,美国工程院院士瓦普尼克(Vapnik)教授提出了基于统计学习理论的支持向量机,产生了以支持向量机为代表的核机器学习方法,如核聚类和核主分量分析等。深度学习是机器学习和人工智能的一个重要组成部分,来源于人工神经网络研究和发展,最早由加拿大多伦多大学的辛顿(Geoffrey E.Hinton)教授于2006年提出,辛顿通过pre-training较好地解决了多层网络难以训练的问题。深度学习近年来在图像识别和语音识别上取得了突破性的进展,深度学习的成功主要归功于 3 大因素,即大数据、大模型和大算力。深度学习的优越性能将人工智能推向了新的高潮。

目前,大数据背景下机器学习的研究又成为人们研究和关注的热点。传统机器学习的分类算法很难直接应用到大数据环境下,不同的分类算法面临着不同的挑战。大数据环境下的并行分类算法的研究成为一个重要的研究方向。目前,针对并行机器学习的研究方法主要有:基于多核与众核的并行机器学习、基于集群或云的并行机器学习、基于超算的机器学习和基于混合体系结构的并行机器学习。

“数据仓库之父”比尔·恩门(Bill Inmon)早在20世纪90年代就经常提起大数据。自2008年9 月国际著名的期刊《自然》(Nature)出版了大数据专刊以来,大数据的处理、分析和利用已经成为各行各业和科研人员关注的焦点。美国把大数据视为“未来的新石油”,我国将大数据上升为国家战略,大数据产业正在逐步地进入成熟期。目前,大数据几乎是家喻户晓,成为当今非常热门的话题。从电视上经常可以看到有关大数据的新闻,比如:中央电视台将大数据分析技术应用于新闻报道中,推出了两会大数据、春运大数据等相关栏目。

当今世界是一个“数据为王”的时代,数据的重要性已经引起各个国家政府、企业和科研人员的高度重视,大数据背后的价值也在发挥着重要的作用。IBM智力竞赛机器人沃森(Watson)收集了2亿页知识文本数据,并采用并行处理集群,利用大数据处理技术进行数据分析,可在1秒内完成对大量非结构化信息的检索。目前,软硬件技术与行业需求正在极大地推动大数据的发展。

大数据首先要有数据,因此大数据的采集技术是非常重要的。物联网技术、电商平台等各种采集技术和方法为大数据的采集提供了有力的支撑。另外,数据采集的完整性、准确性和稳定性,决定了数据采集的质量及数据是否能真实可靠地发挥作用。例如:传统农业田间数据的采集有时必须采用人工手段来进行,由于环境的复杂性等原因,往往存在数据采集不完整和不准确等问题。利用物联网技术进行农业数据的采集具有实时性、多样性和可靠性,又如:农业小气候站采集的气象数据具有实时性、多样性和可靠性的特点,为农业的辅助决策提供较为准确的依据。

研究大数据不仅仅是各种数据的采集和存储,更重要的是如何利用好大数据,通过分析和挖掘海量数据,发现其内在有价值和有规律的知识,并服务于各个领域。大数据的分析挖掘技术又为机器学习的发展和应用提供了广阔的空间。

目前,深度学习成为机器学习热点的同时,又为人工智能的发展提供了巨大的发展空间,例如:利用深度学习感知、识别周围环境,以及各种对车辆有用的信息,使得无人驾驶汽车成为可能;微软和谷歌利用深度置信网络,将语音识别的错误率降低了20%~30%。

深度学习在云计算和大数据背景下取得实质性进展,云计算为深度学习提供了平台。云计算平台服务的优点:搭建快速、操作简捷、智能管理、运行稳定、安全可靠和弹性扩展。国内云计算平台有很多,如著名的阿里巴巴公司和百度公司等。

物联网(Internet of Things)的概念是由麻省理工学院自动识别(MIT Auto-ID)中心阿什顿(Ashton)教授1999年提出的,其原理是利用各种传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来从而形成的一个巨大网络。《传感器通用术语》(GB7665—87)对传感器的定义是:“能感受规定的被测量并按照一定的规律转换成可用信号的器件或装置,通常由敏感元件和转换元件组成”。通俗地讲,物联网就是物与物相连的互联网。目前,各种传感器广泛地应用到我们的衣食住行等日常生活中,如湿度传感器、气体烟雾传感器、超声波传感器和空气质量传感器等。传感器正在朝着微型化、智能化、多功能化和无线网络化的方向发展。与发达国家相比,我国自主传感器核心技术仍需不断提高,高端传感器芯片以进口为主,市场竞争较为激烈。

当前,新一代信息技术革命已经成为全球关注的重点。同时,新产品、新应用和新模式不断涌现,改变了传统经济发展方式,极大地推动了新兴产业的发展壮大。这也给研究计算机技术的专业人员和企业带来新的机遇和挑战,这就需要加速学科深度交叉和融合,需要学术界和企业界深度交叉和融合,需要充分利用各行各业大数据,学习和研究人工智能、深度学习和大数据等新技术的基本概念、基本思想、基本理论和技术,掌握常用的相关开发工具,需要挖掘大数据背后的价值,发现规律、预测趋势,并辅助决策。

大数据必须和具体的领域、行业相结合,才能真正地为政府和企业决策提供帮助,才能产生巨大的实用价值和应用前景。本书以农业为应用背景,重点研究机器学习、深度学习、图像处理技术,以及大数据技术在农业领域中的应用。