计算机信息检索
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 技术基础——信息技术

地球上,迄今为止还没有哪种技术能够像信息技术这样对人类社会产生如此广泛而深远的影响。环顾当代世界,几乎每一个国家都把信息技术视为促进经济增长、维护国家利益和实现社会可持续发展的最重要手段,信息技术已成为衡量一个国家的综合国力和国家竞争实力的关键因素。它既是现代人类文明的技术基础,也是人们开发利用信息资源的主要手段。

1.2.1 信息技术概述

1.现代信息技术的基础——微电子技术

1947年,AT&T公司研制出了世界上第一个晶体三极管,因其体积小,功耗低,所以很快被应用到电子技术领域中代替了电子管,从而为电子设备的小型化打下了坚实的基础,这是微电子技术的开始。

20世纪50年代初,空间技术开始发展,急需电子设备的进一步小型化、轻量化和节能化,人们便开始致力于将许多晶体管同时做在一块芯片上,这就是单片半导体集成电路。1958年,美国德州仪器公司首先生产出了使用的集成电路,并于1961年开始批量生产,这是微电子技术的重大突破。集成电路把器件和元件(电阻和电容等)做在一片芯片上,因此,它的出现,打破了器件和电路分离的状态,使得大批量生产高品质的产品成为可能。微电子技术由此开始突飞猛进,进而推动整个世界发生了重大的变化。

目前,微电子技术被广泛应用于计算机中。由于集成电路集成度的提高,增强了计算机的运算能力,提高了运算速度。同时,微电子技术和计算机技术相辅相成,推动了信息技术的高速发展。目前,以Intel为代表的多家公司正在开发“极端紫外”光刻技术,用氙灯将波长降至0.01 μm;IBM公司则致力于0.005 μm波长的X射线光刻技术研究工作。人们正在向微米工艺的极限挑战。

2.信息技术的概念

概括地说,信息技术是指扩展人类信息器官功能的一类技术。

广义上,凡是涉及信息的产生、获取、检测、识别、变换、传递、处理、存储、显示、控制、利用和反馈等与信息活动有关的,以增强人类信息功能为目的的技术都可以称为信息技术。信息技术中比较典型的代表,就是信息处理技术、感测技术、通信技术和控制技术,它们大体上相当于人的思维器官、感觉器官、神经系统和效应器官。未来最重要的技术趋势,就是要求将以计算机技术为核心的现代信息处理与通信技术、感测技术和控制技术融合在一起,形成具有信息化、智能化和综合化特征的智能信息环境系统,以有效地扩展人类的信息功能。

3.计算机的产生、发展和应用

计算机是一种具有快速计算和逻辑运算能力,依据一定程序自动处理信息,存储并且输出处理结果的电子设备。

电子计算机的发展阶段通常以构成计算机的电子器件来划分,至今经历了五个发展阶段。每一个发展阶段在技术上都是一次新的突破,在性能上都是一次质的飞跃。

计算机的应用已涉及人类社会的各个方面。特别是Internet的诞生和发展,使计算机的应用范围日益扩大,并改变着人们传统的工作、学习和生活方式。归纳起来,计算机的应用主要有科学计算、数据和信息处理、过程控制和人工智能及通信和网络。

4.数据库技术

数据库是指为满足多个用户的多种应用需要,按一定的数据模型在计算机中组织、存储和使用的相互联系的数据集合。它由相关数据集合以及对该数据集合进行统一控制和管理的数据库管理系统DBMS构成。

数据库的实现依赖于计算机的超高速运算能力和大容量存储能力。随着社会的发展,人们已不再满足于简单的数据操作,而是进一步产生了使用数据的需要,即充分利用现有的数据进行分析推理,从而为决策提供依据。为此,数据仓库(Data Warehouse)、联机分析处理(On-Line Analytical Processing,OLAP)和数据挖掘(Data Mining)等概念应运而生。

5.数据通信技术

通信是人体信息传递机能的延伸,是人类赖以生存和发展的基本意义要素之一。如果说以计算机技术为核心的现代信息处理技术是社会的“大脑”,那么网络通信技术就是现代社会的“中枢神经系统”。传递信息的通信网络已经成为社会经济发展的生命线。

人类社会通信技术的发展源远流长。从古代的烽火、信鸽和驿站,近代的邮政、电报和电话,到现代的卫星、光纤和计算机网络,其主要任务是通过一定媒介将承载一定信息的信号从一点快速准确地传输到另一点,人类总是在不停地开发越来越先进的信息传递技术手段,以便能够更加充分地利用信息资源。

数据通信是指信息以一定的形式,如语言、数据、文本和影像,使用电或光等传递介质,从一个地方发送到另一个地方。数据通信是一个更专门的项目,它的数据传送与接收遍及一个或多个计算机与多种输入/输出终端之间的通信连接。由于数据通信反映了数据通信以及以计算机为基础的信息处理技术的整体,并主要是依赖计算机与计算机化的设备。

数据通信的基本原理:发送者通过由某种介质组成的通道将信息传送给接收者,如图1-3所示。

图1-3 数据通信系统的组成

通信系统是实现通信过程的系统。其基本组成包括信源、信宿、变换器和反变换器、信道以及噪声源。

信源:信息的发出者,它把各种可能的信息(如语言、文字、图形和图像等)转换成原始电信号,这个原始的电信号如果不适合在信道上传输,就必须通过某种变换器将其转换成适合在信道上传输的电信号。例如,利用模拟传输系统传输数字信息就需要调制解调器(Modem)这种变换器。接收端则进行反变换。

信宿:信号的接收者,它将接收到的信号转换成信息。

信道:信息传输的通道。

噪声:信号在传输过程中受到的干扰。噪声过大将影响被传送信号的真实性或正确性。

数据进入计算机,首先要通过发送设备转换为适合通过传输信道的信号波形,这一转换过程称为调制。经过调制的数据信号通过传输信道,到达另一端的终端,接收设备从调制过的数据信号中恢复出数据,这一转换过程称为解调。

形象地描述为:某一学生A在计算机上通过家里电话线路向远在美国留学的同学B发送电子邮件,A作为数据源,公用电话网为数据通信网,计算机终端B为接收方。A发出的电子邮件先通过自己计算机上的调制解调器(发送设备)调制为可以在公用电话网上传输的模拟信号,在通过公用电话网的传输,最后B计算机的调制解调器(接收设备)解调为原始的数据,最后传送到B的计算机显示屏上。

6.多媒体技术

近年来,多媒体技术的应用已遍及社会生活的各个方面,日益成为人们关注的热点。它将继电视,电话之后,对人们生活产生又一次深刻的影响。众多的多媒体产品及其令人目不暇接的产品更新,以其悦耳的声音、丰富的图像,使人眼花缭乱的动画改变着用户获取信息和娱乐的方式,应用多媒体技术已是新世纪计算机时代的特征和要求。

多媒体技术就是将文字、声音、图形、静态图像、动态图像等信息媒体与计算集成在一起,使计算机应用由单纯的文字处理进入文、图、声、影集成处理的技术,其核心特性是信息媒体的多样性、集成性和交互性。

由于多媒体技术提供了更多的交互手段,给人类信息交流以更多的方便,所以它有着极其广阔的应用前景,如可视电话、电视会议、商业宣传、电子出版、多媒体教学和电子游戏等。

1.2.2 信息检索的关键技术——数据库技术

1.数据库技术的基本理解

数据库(Database)简称DB。顾名思义,数据库是计算机中存放数据的仓库,该仓库可以建立在计算机硬盘中,也可以建立在外存储媒介中,如磁盘、光盘等存储器中。

在日常生活中,有各种各样的仓库,如书库、粮库、汽车配件库等。这些仓库都具有这样几个特点:仓库由一到几个库房组成,可以存放现实世界中一定的东西,这些东西有条理、有组织、合理地存放在仓库中某个库房的货位或货架上,且这些东西由仓库管理人员进行管理,有一套管理体制,即系统,人们到仓库去取货必须通过仓库管理员。

数据库系统实质上就是一个记录保存系统。它可以将各种数据很方便地保存到数据库中,数据库中的数据由一个称为数据库管理系统的软件进行管理,对数据库的访问必须通过数据库管理系统。

例如,有一个学生情况数据库(STUDENT)。记录学生信息。现在如果想查询有关管理系学生的学号、姓名、性别、年龄情况的信息,可输入下面的命令:

SELECT 学号、姓名、年龄 FROM STUDENT WHERE 系名 = “信息管理系”

于是,在计算机屏幕上就会显示所需要的学生信息库中信息管理系全部学生的信息:

学号 姓 名 性别 所在系 年龄

020001 刘牧之 男 信息管理系 19

020002 史兢桢 女 信息管理系 19

020003 郭 青 女 信息管理系 20

020004 张晓磊 男 信息管理系 20

…… …… …… …… ……

当记录的数据发生变化时,就要对数据库中的数据进行更新(使用SQL语句)。

更新记录操作:UPDATE STUDENT SET 年龄 = 年龄 + 1

删除记录操作:DELETE FROM SELECT WHERE 学号 =“020002”

插入记录操作:INSERT INTO STUDENT

(学号,姓名,性别,所在系,宿舍,年龄,家庭住址)

VALUES(“020005”,“男”,“计算机”,“学2202”,16,“上海虹口”)

在上述例子中,对数据库进行了四种基本操作:检索、更新、删除和插入。这四种操作通常称为数据库操作,它们是数据库最常用的操作。

一个数据库系统的主要功能之一就是允许数据操作,但是数据库系统绝非仅此而已,还需要有许多的附加功能(如屏幕格式定义、菜单定义、打印输出控制等)和数据定义(即建库功能)功能。上述这些功能,说准确一点,是支持一种数据库语言,学生可以用这种语言编写程序去处理数据。例如,数据库标准查询语言SQL。

每一种数据库系统都有它自己支持的语言(命令)来实现对数据的操作,这有点类似于地球上不同的国家和民族使用各自的语言来表达各自的思想。但是,语言不同给不同民族之间的交流带来了困难。数据库的语言同样如此,因而国际标准化组织(ISO)选定了SQL语言作为数据库的标准语言。

从上述例子中可以看出,数据库看起来就像一张大二维表,对数据库的各种操作就像在表上按条件插入几行或删除几行,或从表中选取几行和几列组成新的表。可以看出,数据库中的存取不一定以记录为单位(文件系统对数据的存取是以记录为单位的),也可以是字段。事实上,今天用的数据库就是一个或几个彼此相关表的集合,数据记录就是以表中行的形式存放在数据库中的。

由此可见,用数据库对数据管理比之传统的手工对数据管理优越得多,主要表现在紧凑、迅速、简洁和及时。

由于数据库是一个很复杂的系统,涉及面很广,因而许多专家从不同角度给数据库下过定义。总体来说,数据库是存储在一起的相关数据集合,数据被结构化。这些数据去掉了有害的或不必要的冗余,为多种应用服务,数据的存储独立于使用它的程序;对数据库插入新的数据,修改和检索原有的数据,均可按一种公用的可控制方式进行。

2.数据库的特点

(1)数据共享。这是数据库系统区别于文件系统的最大特点之一,也是数据库系统技术先进性的重要体现。共享是指多用户、多种应用、多种语言互相覆盖地共享数据集合,所有用户可同时存取数据库中的数据。

(2)面向全组织的数据结构化。在数据库中,数据不再像文件系统那样从属于特定的应用,而是按照某种数据模型组织成为一个结构化的整体。它不仅描述了数据本身的特性,而且也描述了数据与数据之间的种种联系,这使数据库具备复杂的结构。

数据结构化,有利于实现数据共享。例如,一个学校,可以把学校所有的各个应用(人事、学籍、科研、财务、后勤等)的数据组织到一个数据库中,并且结构化。数据实现集中、统一地存储与管理,各种应用存取各自相关的数据子集,满足各种应用要求,实现数据共享。

(3)数据独立性。文件系统管理中,应用程序严重依赖于数据文件,如果把应用程序使用的磁带顺序文件改成磁盘索引文件,则必须对应用程序进行修改。而数据库技术的重要特征就是数据独立于应用程序而存在,数据与程序相互独立,互不依赖,不因一方的改变而改变另一方,这大大简化了应用程序的设计与维护的工作量。

数据库是面向整个系统的,以最优的方式服务于一个或多个应用程序(用户),实现数据共享。

(4)可控数据冗余度。数据共享、结构化和数据独立性的优点可使数据存储不必重复,不仅可以节省存储空间,而且从根本上保证了数据的一致性,这也是有别于文件系统的重要特征。

从理论上讲,数据存储完全不必重复,即冗余度为零,但有时为了提高检索速度,常有意安排若干冗余,这种冗余由用户控制,称为可控冗余度。可控冗余要求任何一个冗余的改变都能自动地对其冗余加以改变,这个过程称为传播更新。

(5)统一数据控制功能。数据库是系统中各用户的共享资源,因而计算机的共享一般是并发的,即多个用户同时使用数据库。因此,数据库管理系统必须提供以下四个方面的数据控制功能,保证整个系统的正常运转。

① 数据安全性控制。采取一定安全保密措施确保数据库中的数据不被非法用户存取而造成数据的泄密和破坏。

② 数据完整性控制。数据的正确性、有效性与相容性。系统要提供必要的功能,保证数据库中的数据在输入、修改过程中始终符合原来的定义和规定。

③ 并发控制。当多个用户并发进程同时存取,修改数据库中的数据时,可能会发生互相干扰而得到错误结果,并使数据库完整性遭到破坏,因此必须对多用户的并发操作加以控制和协调。

④ 数据恢复。当系统发生故障造成数据错误或当对数据库数据的操作发生错误时,系统能进行应急处理,把数据库恢复到正确状态。

3.数据库的构成

从计算机信息检索的观点来看,数据库主要由“文档—字段—记录—数据项”四个层次构成。

(1)文档。从数据库内部结构来看,文档的概念是指数据库内容组成的基本形式,是由若干逻辑记录构成的信息集合。

(2)字段。字段是记录的基本单元。它是对实体的具体属性进行描述的结果。在各类数据库中字段的内容都是不相同的,一般字段与信息的著录项目相对应。如在OPAC中,记录中含有题名、著者、出版年、主题词、文摘等字段。另外,根据与文献内容相关与否,信息数据库的字段通常分为基本字段和辅助字段两类(见表1-1)。

需要指出的是,尽管各种信息数据库所设的基本字段大致相同,所设的辅助字段却有很大的差别。不仅设立的辅助字段有多少之分,段码名称区别很大,使用方法也不尽相同。

(3)记录。记录是文档的基本单元。它是对某一实体的全部属性进行描述的结果。在全文数据库中,一个记录相当于一条完整的信息;在书目数据库中,一个记录相当于一条文摘或题录,或者相当于图书目录中的一个款目。

表1-1 信息数据库中常见的字段

(4)数据项。数据项是依据字段内容所做的描述,是组成记录的最小单位。

总之,一个文档中设有若干字段,根据字段的定义包含有大量的相对字段的记录,而每个记录又有具体的数据内容组成,它们之间存在一种层次关系。

1.2.3 网络时代对信息存储与检索技术的挑战

1.网络环境下信息数据特点

信息社会的信息大体可以分为两类:一类信息能够用数据或统一的结构加以表示,我们称为结构化数据,如数字、符号等;另一类信息根本无法用数字或者统一的结构表示,如图像、声音乃至网页等,我们称为非结构化数据。随着网络和软件技术的飞速发展,网络时代的数据越来越显示出两个最主要的特点,即非结构化数据大量涌现和海量数据的产生。

非结构化数据的大量涌现和海量数据的产生,对数据存储和检索技术提出了完全不同的新需求,集中表现在数据库管理系统本身的存储和检索技术上。特别是随着非结构化数据应用领域的不断拓展,擅长于处理结构化数据的关系数据库开始暴露出越来越多的局限性,这些局限性也集中表现在对海量信息的存储和检索方面。

比如,以前的硬盘空间很小,而信息量很大,人们多考虑采用数据压缩技术。而数据压缩技术的采用同时也带来一个问题,那就是导致系统执行效率的降低。随着硬件技术的不断发展,大容量存储设备的出现使存储空间问题得到一定解决,但由于系统本身的局限,造成了存储空间的浪费。例如,关系数据库对数据存储和管理是基于表结构的,数据库的每个字段是定长的,如果我们按照最大的长度定义,势必会造成空间浪费和字段浪费的问题。这些特点对存储与检索技术提出新的要求。

在数据检索方面,海量信息对查询速度有较高的要求,查全率、查准率则是衡量检索效率的标准。我们知道,关系数据库的索引是基于B+树的方法,这种方法对海量数据的检索效率是非常低的,甚至几乎是不可行的。而产生于20世纪70年代的主要针对数值和字符处理的关系数据库模型由于当时应用的局限,在设计时几乎没有考虑到多媒体、网页等非结构化数据处理的问题,没有料到网络会发展得如此迅速,没有料到会出现数据急速膨胀的局面。所以,关系数据库在网络时代的非结构化数据和海量信息数据的处理方面存在着许多问题,特别是关系数据库对数据类型的处理只局限于数字、字符,对非结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不能适应用户从原先数据的简单存储上升为对数据的识别、检索和深入加工的要求,而基于网络内容的应用尤其使关系数据库相形见绌,因此有人说,数据库技术将进入“后关系数据库时代”,进入基于网络应用和内容管理的非结构化数据库时代,数据的存储管理技术和检索技术也会随之发生相应的变化。

2.非结构化数据存储管理技术的变化

由于海量的非结构化数据的出现,可以发现在早期数据库产品的设计中存在着一些问题。因此,现在提出了一种字段级数据的变长存储格式,既满足了国际上文献处理标准的需要,又解决了磁盘空间问题。在我们提出的非结构化数据库中,字段内容是可重复(多值)的。这表现在两个方面:一是允许有两个以上同名的字段,即字段在列级别上是可重复的,如一条记录中有两个地址字段;而在同一个字段内部,允许出现不同的子字段,即在同一字段内部,内容是可重复的。例如,在关系数据库中建立一个人事档案库,其结构为:身份证号、姓名、性别、电话、家庭地址、邮编。专家们注意到,就关系数据库的管理技术而言,在电话中只能填入一个号码,如果有两个家庭住址或两个以上电话号码,如何处理呢?在非结构化数据库中的人事档案库中,可定义其结构为:身份证、姓名、性别、电话(可重复子字段)、地址(可重复子字段)。显然,非结构化数据库在处理重复数据和变长数据方面比关系数据库要灵活得多,它可直接管理各种外部文件(网页、表格或多媒体信息),这也是非结构化数据库管理系统的主要特征。

3.数据库的检索技术的演变

数据库最核心的技术之一就是数据的检索技术。非结构化数据库对数据的索引功能又进行了极大的扩充。在现有的关系数据库中,支持的索引只限于单字段索引、复合索引(多字段索引)等几种方式,在非结构化数据库中支持的索引则有很多种,可以满足极其复杂的数据检索的需要。非结构化数据库中的字段索引兼容关系数据库的索引,并在此基础上增加了子字段索引和全文索引(英文单词索引和中文单汉字索引),甚至可以支持人工标引索引、中文英文混合索引等方式,还可以对同一字段进行若干不同的索引,以满足特殊检索的需求。

提高查询速度是建立索引首要考虑的因素,关系数据库的索引是采用B+树方式,为每一个字段建立一个索引。随着检索词的增加,深度也在增加。检索速度与被检索词的多少有关,信息量大,比较次数也会增多,这就势必会影响其检索效率。此外,在查询过程中有很多时候要求多字段的组配查询,涉及2个B+树的运算问题。关系数据库中,进行2个字段以上的组配查询时,速度下降非常明显,显然不能满足海量信息处理的需要。因此我们意识到检索是比存储更重要的一个环节,于是国信贝斯公司提出了B*树的概念,区别于通常的B+树。

由于计算机存储容量和运算速度的大大提高,使得将大量原始信息全部转入检索系统成为可能。于是,以全文检索为代表的自然语言检索系统受到普遍的关注。全文检索技术和自动标引技术已经成为了自然语言检索系统发展的两大特点。B*树在单汉字索引的前提下解决了中文全文检索的难题,在中文信息处理方面获得重大的突破。它支持简单检索、字段检索、布尔检索、限定检索和相关检索等各种复杂的检索。

4.全文检索技术的进展

全文检索技术目前最常用的算法主要是采用自动标引的办法。自动标引涉及切分技术,国内的TRS和天宇是这方面比较有特点的两种产品。另外一种典型的方法是单汉字抽词方法,以国信贝斯的iBASE数据库系列产品为代表。我们知道,自动抽词技术是全文检索中非常关键的技术,自动抽词技术对于英文来说是非常简单的,因为我们可以通过逗号或空格将词抽取出来,但对于中文来说则是非常麻烦的一个问题。例如,用户输入“中华人民共和国”,那么,做抽词时是按“中华”还是“中华人民”来做呢?这就涉及汉语的自动切分和自然语言理解的问题,我们试图从内容管理角度用未知组配的算法来实现全文检索,采用单汉字抽词的办法来解决中文的全文检索问题。

值得一提的是,检索还涉及语法解析器,关键是解决查全、查准率的问题。对于查全率来说,一方面要靠前期加工,即前控处理,通过主题词来标引,这种标引耗费大量的人力,也很难保证检索的准确性。为什么现在国内的很多网站会成为“垃圾网站”,人们上网检索信息,得到的结果往往是一大堆毫不相关的垃圾?就是因为这些网站的内容都没有经过专业的前期加工处理,只是将数据简单地堆放进去,自然无法保证查准率。正是基于这样的情况,目前出现了全文检索系统新的控制思路——后控制模式,通过后控制词表的等同和等级语义控制,减轻用户选取检索词、构造检索式的困难,提高了检索效率和系统易用性。

目前,为提高全文检索的效率,各个大学的情报学院和计算机学院以及一些研究机构,开始探讨后控制词表检索机制。一些信息服务机构和软件开发公司也开始研制和开发一些实验性的和实用性的网上词表辅助全文检索系统。国外比较成功的有美国国防技术信息中心研发的科技报告全文检索系统(http://www.dtic.mil)、美国教育资源信息中心研发的数据库全文检索系统等。应该说,在提供网上专业数据库的全文检索服务方面,国内相对落后一些,目前在网络上提供专业数据库检索服务的信息服务机构非常少,而且其全文检索体系很不完善。至于在全文检索中增加后控词表机制的,目前不论国际还是国内几乎还没有人进行这方面的研究工作。

5.数据库存储与检索技术的研究方向

随着新一代高速互联网的发展,越来越多的应用采用分布式结构,这种结构对存储技术的要求越来越低,但是对检索技术的要求却越来越高。数据量、信息量不断膨胀,在网上查询时如何提高基于内容管理的内容提取的准确性,是网络环境下检索技术要解决的一个最重要的问题。网上海量的信息对系统的查全、查准率也提出了越来越高的要求。真正意义上的全文检索应该是从数据库级字段的检索,涉及多语种的查询,如中英文、中文繁体、简体混合查询等,要将查全、查准率紧密地结合起来。目前只能解决基于内码级的匹配,而没有涉及语意概念,这取决于自然语言理解技术或人工智能等其他学科的发展,要靠一系列知识库、推理库来管理。语意概念的匹配是今后发展的一个方向。

另外,查询的速度问题也亟待解决。目前带宽问题仍存在一定的局限,从某种程度上掩盖了查询的速度问题,一旦带宽问题解决了之后,查询的速度将会成为人们关注的焦点。这里的瓶颈在于底层数据库技术问题,例如,如何建立均衡索引。我们提出的B*树算法,可以有效地解决主文件检索的速度问题。

此外,数据库网络技术是电子商务的基石。随着电子商务应用的发展,会出现新的数据库结构,即更加简单易管理、速度更为线性化的数据库,基于内容管理的查全、查准率的要求也将更加凸现出来。