1.2.5 数据分析与数据挖掘技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先难以分辨的,但是具有潜在价值的信息和知识的过程。
用来进行数据挖掘的数据源必须是真实的和大量的,并且可能不完整或包含一些干扰数据项。发现的信息和知识必须是用户感兴趣的和有用的。一般来讲,数据挖掘的结果并不要求是完全准确的知识,而是发现某种规律或某种趋势。
数据挖掘可简单地理解为,通过对大量数据进行操作而发现有用知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。
从具体应用角度,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做预测。
数据挖掘的知识发现,不是要去发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和理论数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件的,是面向特定领域的,同时还是易于被用户理解并且能用自然语言表达的。
数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去,数据收集和分析的目的是用于科学研究。另外,由于当时计算能力方面的限制,对大量数据进行分析的复杂程度受到了很大限制。
现在,由于企业数字化、自动化的实现,生产和服务领域产生了大量的业务数据,分析这些数据也不再是单纯为了研究的需要,更主要是为生产或服务企业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是,企业数据量非常大,而其中真正有价值的信息却很少,对大量的数据进行深层分析,进而获得有利于企业生产经营、提高市场竞争力的信息,就像沙里淘金一样,数据挖掘也因此而得名。
1.数据挖掘的价值类型
数据挖掘就是在海量的数据中找到有价值的知识,为企业经营决策提供依据。价值通常包括相关性、趋势和特征。
(1)相关性分析
相关性分析是指,对两个或多个具备相关性的变量元素进行分析,从而衡量变量因素之间的密切程度。
元素之间需要存在一定的(或概率上的)联系才可以进行相关性分析。相关性不等于因果性,所涵盖的范围和领域几乎覆盖了我们所见到的各个方面。相关性分析用于确定数据之间的变化情况,即其中一个属性或几个属性的变化是否会对其他属性造成影响?影响有多大?图1.2.8就是几种常见的相关性的示例。
图1.2.8 属性之间的几处相关性的示例
(2)趋势分析
趋势分析是指,对有关元素的各时期相对于基期的变化趋势进行分析。例如,财务趋势分析便是,与不同时期财务报表中同类指标的历史数据进行比较,从而确定财务状况、经营成果和现金流量的变化趋势和变化规律。可以通过折线图预测数据的走向和趋势,也可以通过“环比”“同比”等方式对比较得出的结果进行说明,如图1.2.9所示。
图1.2.9 发展趋势
(3)特征分析
特征分析是指,根据具体分析的内容寻找主要对象的特征。例如,互联网“类数据挖掘”就是找出用户行为方面特征来对用户进行画像,并根据不同的用户给用户群加上相应的标签,如图1.2.10所示。
图1.2.10 以用户行为信息进行特征分析
2.数据挖掘算法的类型
在大数据挖掘中,我们的目标是如何用一个(或多个)简单而有效的算法或算法组合来提取有价值的信息,而不是去追求算法本身或算法模型的完美。
常用的数据挖掘算法一般分为两大类:有监督学习和无监督学习,如图1.2.11所示。
图1.2.11 常用数据挖掘算法的类型
有监督学习是基于归纳的学习,是通过对大量已知分类或输出结果的数据进行训练,建立分类模型或预测模型,用来对未知的实例进行分类或对未知值的可能结果进行预测。
无监督学习是在学习训练之前,对没有预定义好分类的实例按照某种相似性度量方法,计算实例之间的相似程度,并将最为相似的实例“聚类”成组,解释每组的含义,从而发现聚类的意义。