1.1 数据挖掘的社会需求
随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大。有数据表明,进入20世纪90年代,人类积累的数据量以每月高于15%的速度增加,如果不借助强有力的挖掘工具,仅依靠人的能力来理解这些数据是不可能的。人们已经评估出世界上信息的数量每20个月翻一番,并且数据库的数量与大小正在以更快的速度增长。
另一方面,激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段,必将导致 “数据爆炸但知识贫乏”的现象。例如,股票经纪人如何从日积月累的大量股票行情变化的历史记录中发现其变化规律,预测未来趋势,从而决定未来投资方向;大型卖场的决策人员怎样才能根据过去几年的销售记录来判断分析顾客的消费习惯和行为,及时变换营销策略?金融领域的经理人需要从顾客的消费习惯中判断正常消费,减少金融诈骗的发生,等等。
数据挖掘应用领域不乏成功案例,其中就有著名的“啤酒尿布”案例:美国加州某个超级卖场通过数据挖掘发现,下班后前来购买婴儿尿布的男顾客大都购买啤酒。于是经理当机立断,重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放置佐酒食品,同时还把男士日常用品就近布置。这样,上述几种商品的销量大增。
通过事例可以看出,数据挖掘能为决策者提供重要的有价值的信息或知识,产生不可估量的效益。目前,数据挖掘产品尚不成熟,但市场份额却日益扩大。其原因就是越来越多的大中型企业开始利用数据挖掘工具来分析公司的数据,为决策层做出辅助决策,以便于在市场竞争中领先,从而立于不败之地。
关于数据挖掘技术的研究,国外发展得较早,不仅取得了丰富的经验,而且出现了大量的软件产品,如数据挖掘应用软件 Advanced Scout 系统、Marksman 数据挖掘工具及 Intelligent Agent数据挖掘软件等。在国内,虽然起步较晚,但由于数据挖掘的市场需求高速增长,发展也很快。从事数据挖掘产品开发的有上海德门软件有限公司、北京宏能畅然数据应用有限公司等,但是由于受制于一些核心技术,开发的著名系统软件很少。