数据挖掘原理与SPSS Clementine应用宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据挖掘的定义

数据挖掘技术是一门交叉学科,涉及数据库、统计学、人工智能和机器学习等多个领域。“数据挖掘”概念最早是由Usama Fayaad 1995年加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的,它的提出是与计算机科学、人工智能相关的机器学习等发展分不开的。1962 年, Rosenblatt提出了称为感知器的第一个机器学习模型,接着神经网络在20世纪80年代后半期得到发展。与此同时,一些研究者完善了主要用于分类问题的决策树理论。20世纪80年代后半期开始,统计方法用于实际的多元统计应用得到同步发展。20世纪90年代开始,统计学家也对机器学习表现出了兴趣。20世纪80年代末,机器学习方法的应用已超出计算和人工智能领域,特别是数据库市场的应用,提高市场竞争力,数据库中的知识发现(Knowledge Discovery in Databases,KDD)用于描述所有的从已知数据中发现关系和规则的方法。逐渐地,KDD 扩展为描述从数据库中推断信息的整个过程,从初始商业目标的确定到决策规则的使用。数据挖掘用于描述KDD中的一个组成部分,在KDD中把学习算法应用于数据。

这里,我们将从技术和商业的角度对数据挖掘的概念进行介绍。

1.2.1 数据挖掘的技术定义

数据挖掘(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。

并非所有的信息发现任务都被视为数据挖掘,如使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。

信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。例如,某超市想调查顾客同时购买口香糖和纸巾的信息。该查询的目的可能基于一个没有得到证实的想法:这两种产品之间可能存在某种联系,以便为未来的某个促销做准备。用这种方式得到的成功率要比用其他方式得到的成功率高许多。当然,这也是建立在对数据的初步统计基础之上的。

数据挖掘和信息检索的不同之处在于数据挖掘寻找现象之间事先未知的关系和关联。例如我们熟知的“啤酒尿布”例子,在进行数据挖掘之前我们不能想象啤酒和尿布会发生关联。也不要把数据挖掘和OLAP(在线分析处理)相混淆,OLAP只是一个工具,用来揭示对应二维报告的变量之间的关系。数据挖掘是对所有可用变量以不同的方式进行组合,为应用领域建立模型,OLAP只是其中的一个方面。

可以把用于从数据库中推断知识的过程表达成下面的简单序列:

查询和报告→信息检索→OLAP→数据挖掘

查询和报告有最小的信息容量,数据挖掘的信息容量最大;前者最容易实现,后者最难实现。

1.2.2 数据挖掘的商业定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集,而是由于纯机会的(Opportunistic)商业运作而产生的。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名,其过程如图1.1所示。

图1.1 数据挖掘的步骤

因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。例如利用数据挖掘可以对企业的海量数据进行客户分析,包括客户类型、各类客户的需求倾向、贷款偿还预测和客户信用政策分析、客户流失分析等;进行市场研究,包括商品市场占有率预测、市场拓展计划仿真;进行经营策略研究,包括经营成本与收入分析、风险控制、欺诈行为甄别等。