2.4 研究现状与发展趋势
随着计算机的广泛应用、数字网络和通信技术的发展,知识发现的提出为大规模数据源的存储和管理提供了技术支持。数据挖掘和知识发现可以智能地把规模庞大的数据转化为可利用的知识。作为新的研究领域,数据挖掘和知识发现涉及模式识别、数据库和人工智能等多个学科。数据挖掘和知识发现得到了广泛应用与发展[24]。知识发现不能无中生有地创造知识,而是通过基于人的思维对知识发现、认识过程的模拟,发现已知经验数据中蕴含的关系、规律和有用知识。它是识别出存在于数据库中那些被认为有效的、新颖的、更深层次的、有潜在价值的、可理解的模式的过程。基于知识发现的数据挖掘则是揭示出隐含的、先前未知的、具有潜在价值的信息的过程[25]。Fayyad、Piatetsky Shapiro和Smyth在1996年的一次国际会议上提出“知识发现与数据挖掘是有根本区别的”。前者是从数据库中的大量数据中揭示并发现知识的全过程,而后者则是知识发现全过程中的一个特定环节和步骤。虽然几位学者对知识发现和数据挖掘进行了定义并加以区分,但在学术界相关讨论中仍存在两种现象:一种是偏向于使用数据采掘这个术语;另一种是在现今的文献中,对知识发现和数据挖掘这两个术语仍然不加区分地使用[27]。
国际上,对知识发现的关注由来已久。第十一届国际人工智能联合会议首次提出了知识发现(KDD)这一概念,其是发掘、提取、组织隐含在大量数据中的未经开发的可信信息与知识的过程[28]。随着KDD专题讨论会向国际会议年会的进阶,学者们对知识发现的关注从算法到对知识的表示、分析和运用等不断向纵深发展,研究者们对涉及知识发现模式的关联规则、决策树等问题也愈加关注。我国对知识发现的关注始于1997年,起步较晚。目前,知识发现的研究焦点主要在知识发现算法、知识发现任务、知识发现结果分析与评价等方面,由于研究对象与方法的不同,研究者们对知识发现的关注形成了以下趋势:针对数据库对象的知识发现研究强调效率,采用计量方法的知识发现研究关注结果的正确性,适用于经济学的知识发现研究致力于实现价值的最大化,应用于机器学习的知识发现研究则关注发现结果的有效程度。其中,从针对数据库对象的知识发现研究类型来看,主要包括对数据库、范例库和知识库的发现研究。这些知识发现研究的应用,不同程度地推进了数据库的发展进程,使数据库技术实现了潜在关联关系的深度开发,不再仅仅停留于数据的查询和浏览阶段,促进了数据库技术对潜在、可理解、可信且新颖的数据的提取与加工,促进了有用信息的开发[29]。而基于范例库的知识发现可实现范例知识的深度自动化获取,使以往范例的知识或经验能够被用来求解相似问题。知识库的知识发现主要是基于知识库对知识资源进行归纳、演绎以获取事实或规则知识的机器学习过程[24]。
从知识生命周期来看,知识发现的过程是从问题定义、数据探索、数据算法到数据挖掘的过程。从数据库知识发现来看,知识发现包括数据预处理、数据挖掘、关联数据生成和数据表示几个阶段。关联数据的出现简化了以往知识发现的复杂运算问题。关联数据通过描述逻辑引入语义网技术,提升了半结构化与非结构化文档的知识发现能力,也增强了结果的语义验证能力。语义网络环境下的知识发现的研究,可被看成一个具有牢固语义关联基础的知识结构与知识扩散的优化的过程,这种知识发现是通过数据挖掘等技术提炼知识关联数据,使机构知识库知识结构与知识扩散模式更明确、更具体、更有用。关联数据的出现将知识发现从过去的以数据库为中心逐渐转变为以网络数据为中心,在数据组织形式发生巨变的前提下研究和实现关联数据知识发现理论、方法和技术,最终实现应用与推广,这将是未来知识发现新的发展方向[24]。