数据挖掘原理与SPSS Clementine应用宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 数据挖掘面临的挑战和局限性

数据挖掘是一门新兴的学科,其技术发展远没有成熟,还没能满足人们对其功能的需求;同时鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性课题。

1. 处理不同种类的数据

由于在不同的应用中有许多不同种类的数据及数据库,因此,期望知识发现系统能够对不同种类的数据有效地执行挖掘任务。由于大部分可用的数据库是关系型的,故在关系型数据库上数据挖掘系统进行高效及有效的知识发现是非常迫切的任务。许多可用的数据库含有复杂的数据类型,如结构化的数据、复杂的数据对象、混合文本、多媒体数据、时空数据、事务数据及历史数据。一个功能强大的系统应能在这些复杂的数据上进行有效的数据挖掘。但是,数据类型跨度太大及数据挖掘的不同目标对于期望一个数据挖掘系统能处理不同类型的数据是不现实的,特殊的数据挖掘系统可在特殊种类的数据上构造知识挖掘,如可将系统分为专门处理关系型数据库、事务数据库、空间数据库、多媒体数据库等的数据挖掘任务。

2. 数据挖掘算法的效率及扩展性

为了从数据库的大量数据中有效地抽取信息,知识发现算法运载大数据库必须是高效且可扩展的,即数据挖掘算法的运行时间必须是可预见的并且是可接受的。指数级甚至是中等级的多项式的复杂性在实际应用中将是不可接受的。

3. 数据挖掘结果的可用性、确定性及可表达性

所发现的知识需精确地描述数据库的内容并对已明确的应用是有用的。不完美的结果借助于不确定性来表达,以相似的规则或多个规则来表达。噪声及应去除的数据在数据挖掘系统中应仔细处理。这也说明对发现的知识如何来自动表达是一个系统性的研究项目,包括通过构造统计的、分析的及模拟的模型及工具集来对兴趣度及可靠性的研究。

4. 各种数据挖掘结果的表达

从大量的数据中可发现不同种类的知识,既可以从不同的角度来检验发现的知识,也可以用不同的形式来表达这些知识。这就要求既要表达对数据挖掘的要求,也要以高级语言或图形用户界面来表达发现的知识,所以数据挖掘任务可由非专家来说明,发现的知识是容易理解的并且直接由用户来使用。这就要求知识发现系统适合表达知识的表示技术。

5. 多抽象层交互挖掘知识

由于从数据库中能够确切地发现何种知识适合预言非常困难,高水平数据挖掘查询语言将被用来作为一个查询工具,而这种工具可能封闭了进一步探索的有用踪迹。应鼓励交互式发现,它允许用户交互式定义一个数据挖掘的查询,动态地改变数据焦点,进一步深化一个数据挖掘处理,从不同角度及多个抽象层面上灵活地查看数据及数据挖掘结果。

6. 从不同的数据源中挖掘信息

大量局域及广域计算机网络,包括因特网,连接了很多的数据源并且形成了海量的分布式、不均匀的数据库。从不同的格式化或非格式化并有不同语义的数据中挖掘知识对数据挖掘提出了新的挑战。更进一步说,海量数据库、数据的分布性及某些数据挖掘方法的计算复杂性都是并行及分布式数据挖掘算法发展的动力。

7. 隐私保护及数据安全

当数据能从不同角度及不同抽象层查看时,严重地威胁了保护数据安全及禁止侵犯隐私的目标。知识发现何时可能导致侵犯隐私及为了保护敏感信息而开发何种安全措施,这些研究工作都是非常重要的。

注意

上述要求可能导致目标相互冲突。例如,保护数据安全性可能与从不同角度进行交互挖掘多层知识相冲突。