1.3 基于WWW的数据挖掘与文本挖掘
1.3.1 基于WWW的数据挖掘
只要有数据积累的地方,就意味着其中存在有用的信息,同时也是数据挖掘的用武之地。WWW(World Wide Web)的迅猛发展,为我们积集了众多的数据,而对这些数据的分析处理可为Internet及WWW本身的设计及发展提供支持,因此基于WWW的数据挖掘已成为目前较为热门的研究方向之一。
Internet是一个具有开放性、动态性和异构性的全球分布式网络,资源分布得很分散。WWW以超文本的形式呈现给用户各种资料、信息、新闻等,可以为用户提供丰富的信息资源[4]。快速、准确地从大量的信息源中定位所需要的信息是每个用户的期望,基于WWW的数据挖掘可为用户实现信息服务的良好支持,它可分为以下三类[48]。
(1)WWW内容挖掘:针对Web页面内容进行挖掘,包括传统的从WWW上提取信息的搜索引擎(如Webcrawler)、智能地提取信息的搜索工具(如Information Filtering)、把半结构化的Web信息重构为结构化信息后以常用的数据挖掘方法进行分析、对HTML页面内容进行挖掘(包括文本挖掘及多媒体信息挖掘)。
(2)WWW访问信息挖掘:对用户访问Web时在服务器上留下的访问记录进行挖掘,包括路径分析、关联规则和序列模型的发现、聚类和分类等。
(3)WWW结构挖掘:对Web页面之间的结构进行挖掘,如发现某个论文页面经常被引用,由此可以确定其是重要的。
1.3.2 自然语言处理与文本挖掘
自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言(如中文、英文、法文、德文等)是人类交流的重要方式之一,人类的逻辑思维以语言为形式,人类的绝大部分知识以语言文字的形式记载和流传下来。用自然语言与计算机进行通信,一直是人们的愿望,因为这样就可以用自己最习惯的语言来使用计算机,自然语言处理正是以此为目的的。
自然语言处理包括自然语言理解与自然语言生成两部分。前者是指计算机能够理解自然语言文本的意义,后者是指计算机能以自然语言文本来表达给定的意图、思想等。中文信息处理是自然语言处理的一部分,是研究如何用中文与计算机进行通信的,它与其他语言处理有共同之处,但由于中文自身的特点,所以也有其独特的处理方式[29]。
人们在WWW上检索、获取最多的信息数据就是文本数据,而且随着中文信息在网络上的不断增加,对处理Internet上的中文信息提出了要求。由于这种数据类型缺乏结构化,并且随意地存放在Internet上的各个角落,人们不能有效地利用这些丰富的信息资源[30]。因此,对于文本信息处理的研究是一个很有实际意义的课题。
文本挖掘也称文本数据挖掘、文本数据库中的知识发现,它是从非结构化的文本文档中抽取有趣的和非平凡模式或知识的过程,它可以看成数据挖掘或数据库中的知识发现的扩展。
文本挖掘涉及自然语言处理、文本处理技术、网络技术、数据挖掘技术、人工智能技术等多个领域和方向。目前研究的主要方面包括文本的表示和特征提取、文本内容的挖掘、特征匹配等。