计算机信息检索
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 计算机信息检索基本概念

当人类社会发展到今天,特别是进入20世纪以来,信息随着知识的增长而激剧增长,这就是人们常说的“知识爆炸”。信息的广泛和信息需要的特定及专指,越来越需要依靠一种对巨量知识便捷提取的手段和方法,来完成某一范围知识的收集和利用。这种手段和方法的现代含义就是信息检索。在当今的信息社会中,信息检索已经普及到各个学科领域,甚至渗透到了普通民众的日常生活之中,为工作、生活、科研等获取信息已是人们基本的信息素质。

2.1.1 计算机信息检索的发展、条件和类型

从事任何一件工作和事业,事半功倍还是事倍功半取决于正确方法的选择。17世纪法国杰出的数学家、哲学家和科学方法论者笛卡儿(Rene Descartes)在《方法谈》中曾经说过:“最有价值的知识是关于方法的知识。”早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。由此看来,有无获取知识的本领是区别文盲与非文盲的界限。尽管人的大脑具有一定的储存和检索知识的本能,但是往往由于可靠性差,加之因人而异,真正准确地获取知识仍然要靠信息系统。因此提高信息检索能力,是获取社会科学知识的最可靠的捷径。德国柏林图书馆大门上醒目地写着这样一句话:“这里是人类知识的宝库,如果你掌握了它的钥匙的话,那么全部知识都是你的。”这里所说的钥匙,就是信息检索的方法。

1.计算机信息检索的发展历史

从计算机信息检索系统的发展历史来看,美国海军军械试验中心(NOTS)于1954年利用IBM-701型计算机建立的科技文献检索系统应是世界上第一个计算机信息检索系统。从那时起,随着计算机技术、通信技术和检索技术的发展,计算机信息检索经历了四个主要的发展阶段。

(1)脱机批处理检索阶段

初期的计算机信息检索系统,受当时计算机的技术条件限制,主要的运算部件是电子管,主要的存储介质是磁带、磁鼓,只能做信息收藏号之类的连续的顺序检索方式。系统由一台计算机、几个相关文件构成,它由一位专职操作员上机操作,分批输入用户的检索要求和输出检索结果(这种操作称为批量检索),然后把检索结果通知各个用户,用户不直接接触计算机。这种检索方式更适合大批量的定题信息检索,所以也叫定题情报服务。值得注意的是,当初运用布尔逻辑等原理至今仍然是最先进的计算机检索系统的基本原理。

(2)联机检索阶段

20世纪60年代中期以半导体为主要器件的计算机出现,促使人们将一台主机利用通信手段和多台计算机连接起来,实现了联机检索。这种系统具有分时的操作能力,能够使许多相互独立的终端,通过国际卫星通信网,与世界大型计算机检索系统进行直接“人-机对话”。检索结果由终端输出,用户还可根据输出情况随时修改检索策略,从而大大改善了检索结果。20世纪80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信网络和计算机专用终端,在世界范围内提供联机信息检索服务,形成国际联机检索服务业。联机检索服务是计算机检索走向实用化、规模化、产业化的重要标志。世界上比较著名的联机检索系统有美国OCLC的FirstSearch检索系统、美国洛克希德公司的DIALOG系统、欧洲科技信息联机检索网络EURONET、欧洲空间组织的ESA/IRS系统、美国系统开发公司的ORBIT系统、美国医学图书馆的MEDLINE系统、日本科技信息中心的JICST系统等。远程实时检索多种数据库是联机检索主要的优点,但是检索费用的昂贵阻碍了国际联机的普遍使用。

(3)光盘检索阶段

20世纪80年代中后期出现了光盘数据库系统,CD-ROM技术利用激光束在光盘上记录和读取数据库信息,用户以较低的价格购买或租用光盘,不受时间限制地在带有光盘驱动器的计算机上实现信息检索。20世纪80年代末出现了光盘塔和局域网技术为核心的光盘网络,它使多个用户能同时检索同一大型数据库,共享信息资源,检索效率得到了很大的提高。

(4)网络化检索阶段

进入20世纪90年代,Internet的应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,信息中心、图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入Internet,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容无所不包,几乎涉及所有知识领域。

Internet为我们获取信息提供了前所未有的方便,它彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的信息,而且信息的形式图文并茂,有声有景。Internet的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索扩展了一个更广阔的领域。

2.计算机信息检索的条件

(1)物质条件

从检索的过程来看,计算机检索的物质条件由数据库、通信系统和检索终端三部分组成。数据库是计算机信息检索的基本操作对象。近年来,数据库的发展十分迅速。全世界数据库的数量每年递增10%以上。数据库的专业覆盖面几乎涉及所有的科技门类。仅以DAILOG系统为例,1979年它拥有数据库109个,总记录数3500万条,到2006年,它已拥有近700个数据库,记录超过5亿条。另外,近年以光盘形式出版的数据库也越来越多。目前几乎所有常用的大型数据库都以光盘形式出版过。

通信系统对现代计算机信息检索系统的作用变得越来越重要,除了单用户版的光盘检索系统外,现在几乎所有的计算机信息检索系统都要求通信系统的支持。从通信手段来说,原来多数国际联机系统采用的TELENET公共数据网连接,现在已发展到采用光缆、卫星通信等多种连接手段并举的阶段,通信速度有了极大的提高。

检索终端包括微型计算机(PC)、电话线、Modem或ISDN(ADSL)、打印机等。用于检索的微机应具较高的运算速度和较强的逻辑运算功能,有较大的外存空间,有连接计算机网络的功能,另外通常还应提供汉字信息处理功能。

(2)人员条件

计算机信息检索的效果与检索人员的素质有着密切的关系。人员的素质主要包括:

① 对检索课题的了解程度。

② 对检索系统(包括计算机和数据库)的掌握程度。

③ 语言(包括检索语言、检索策略调整以及外语水平)的掌握程度。

提高这三方面的素质不仅有赖于本课程以及相关课程的学习,更主要的是要靠课题检索的实践、比较和总结,才能达到运用自如的程度。

3.计算机信息检索的类型

(1)数据检索(Numerical Retrieval)。以查找某一数据为目的,利用各类检索系统查出包含在信息中的某一数据、参数、公式、图表或化学分子式等的检索,其检索结果为数据信息。例如,“长江有多长,洪水期最高水位有多高?”、“我国近二十年来全国人口的增长率”等。

(2)事实检索(Fact Retrieval)。事实检索是以事实为检索对象,是从存储事实信息系统中查找出指定的事实的行为。从广义上讲,事实也是一种全文,只是内容特殊、比较简短的全文。例如,什么是管理会计学?它的产生背景、发展沿革及其影响如何?使用中国大百科全书数据库能获取这类信息。其检索结果为事实。例如,从《中国科技名人数据库》中查询某一位科学家的生平与业绩。

(3)文献检索(Document Retrieval)。其检索结果是能够满足用户需求的文献线索或文献全文,例如,从《中国学位论文数据库(CDDB)》中检索学位论文。

检索类型的综合分析如下。

检索课题:循证医学信息管理系统的实践运用分析

关键词:循证医学 信息系统 循证医学应用

a.利用“中国大百科全书”数据库,查询“循证医学”的概念;(事实检索)

b.利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较;(数据检索)

c.利用Springer Link数据库检索“循证医学”的论文情况。(文献检索)

2.1.2 计算机信息检索的原理

计算机信息检索是指利用计算机存储信息和检索信息。具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。为实现计算机信息检索,必须事先将大量的原始信息加工处理,并以数据库的形式存储在计算机中,所以计算机信息检索广义上包括信息的存储和检索两个方面。

计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工。具体做法是:将收集到的原始信息进行主题概念分析,根据一定的检索语言抽取出能反映信息内容的主题词、关键词、分类号以及能反映信息外部特征的作者、题名、出版事项等,分别对这些内容进行标识或者编写出信息的内容摘要。然后再把这些经过“前期处理”的信息按一定格式输入计算机存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,并存储在存储介质上,完成信息的加工存储过程。

计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,并输入计算机进行检索。计算机按照用户的要求将检索策略转换成一系列的提问,在专用程序的控制下进行高速逻辑运算,选出符号要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。计算机原理如图2-1所示。

图2-1 计算机信息检索过程图

由此可知,信息检索的本质就是读者(用户)的信息需求与存储在信息集合体中的信息进行比较和选择,即匹配(match)的过程。也就是对一定的信息集合体(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)相关的信息。存储是为了检索,没有存储就无所谓检索。信息的存储与检索存在着相辅相成、相互依存的辩证关系。可以看到,在用户输入检索词后,计算机信息检索系统主要操作的对象是顺排文档和倒排文档。

在用户输入单个检索词的情况下,例如,输入“软件”一词时,系统首先查找索引词典倒排文档,并在显示器上响应,给出含有“软件”一词的记录数,同时,系统将这些记录的地址调入内存。在系统接到用户显示命中记录的指令后,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内容。

在用户输入两个以上检索词的情况下,计算机信息检索系统除了进行上述操作以外,还要对记录号集合之间进行逻辑运算,包括逻辑“与”、“或”、“非”运算。需要指出的是,用户在检索过程中,如果发现以下三种情况:① 对所输入的检索词,系统响应为“0”,即检索词与索引词典中标识词不匹配;② 对所输入的检索词,系统响应的篇数或者太多,或者太少;③ 对所输入的检索词,系统最后给出的记录并不合乎课题要求。可以通过换用其他数据库,或者重新输入检索词,又或者调整检索策略的办法予以解决。数据库数据读取过程示意图如图2-2所示。

图2-2 数据库数据读取过程示意图

2.1.3 计算机信息检索系统

所谓信息检索系统,是指按某种方式、方法建立起来的供用户检索信息的一种有层次的信息体系,是表征有序的信息特征的集合体。在这个集合体中,对所收录信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。其中二次信息或三次信息是信息检索系统的核心和概括。

1.检索系统的功能

(1)报道职能。通过报道的方式来揭示信息,方便用户及时了解和掌握信息的内容。

(2)存储职能。把大量分散的和不同形式的信息集中起来,依据一定规则组成系统,使信息由分散到集中,由无序到系统化。这是由一次信息转化为二次信息的过程。

(3)检索职能。通过对信息的报道和存储,把大量的带有外表特征和内容特征的信息有系统地集中起来,并按某一组织方式排列,使用户可很快检索到自己需求的信息。

2.检索系统的评估标准

(1)信息的收录范围。指信息系统所覆盖的学科面、所收录的信息源类型及数量是否广泛、全面。

(2)信息特征标识的详略。检索系统对信息的外表特征和内容特征标识或描述的详略程度。例如中国期刊网收录的学术论文的外表和内容特征的描述十分详细,为用户提供了多种检索途径。

(3)信息摘录及标识的质量。指在编制检索系统的过程中,分析信息内容所达到的深度。它还包括标识是否能反映信息的内容特征,标识项目是否完全,标识是否符合标准化等方面。

(4)信息报道的时效。报道时差是指从原始信息发表到相应的索引或文摘在信息系统中报道的时间间隔,这也是国际信息咨询服务所追求的目标之一。

(5)检索功能的完善。信息检索系统的使用方法是否简单易学、一目了然;系统组织是否科学;各种辅助检索方法是否完善、实用;是否有历史检索记录;各种标识项目是否容易识别。

总之,衡量一种信息系统质量的高低应将上述诸方面标准综合起来进行评价。但上述的评估标准不是一成不变的,它将会随着数据库编制技术水平和客观需要的提高而改变。

3.检索系统类型

从检索服务的角度出发,再以数据库所含信息内容的表现形式作为分类标准,可以将信息数据库划分为三大类:参考数据库、源数据库、混合型数据库。

(1)参考数据库(Reference Database)。这是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。

(2)源数据库(Source Database)。在欧洲也被称为数据银行(Data Bank)。它是能够直接为用户提供原始资料或具体数据的一类数据库。它包括数值型数据库、术语数据库、图像数据库、全文数据库、超文本数据库、新闻型数据库。

(3)混合型数据库(Mixed Database)。这类数据库综合了上述两大类数据的数据。

4.检索系统的构成模式

信息检索系统是由若干个互相关联的子系统共同构成的。

(1)信息数据的选择、处理、录入、维护子系统

这个子系统是对原始信息选择、处理录入、追加修改和索引组织。系统的工作结果是形成各种数据库。例如,处理的是全文型数据则为全文数据库,处理的是索引、题录或文摘型数据为书目数据库,处理的是百科全书、年鉴、手册型数据则为事实数据数据库。

(2)词表和标引子系统

数据库中的信息需要通过检索语言加以表征和组织,检索者需要借助检索语言表达检索提问,系统的词表由通过程序自动地予以更新维护。由于存储容量和处理速度的提高,计算机信息检索系统不仅采用主题词和分类号,还大量采用关键词(或称自由词)由计算机通过剔除禁用词自动产生或识别词(准主题词,由计算机通过统计使用情况自动产生)标引信息,以提高信息揭示深度,增加检索入口,同时方便检索者以近乎自然语言的词汇检索所需的信息。

(3)检索子系统

检索子系统接受用户从键盘等入口向系统提出的检索要求,编译转换成系统语言词汇,并输出检索结果。检索策略的质量直接影响着检索子系统的功能发挥。

(4)用户接口子系统

这个子系统包括检索者同系统之间的通信方式、检索指令及交互能力等。

5.检索系统的组织

(1)组织的要求

① 信息内容有序化。从各类信息源采集到的信息大部分属于零散的、孤立的信息,因此需要对信息内容进行有序化整理。具体说,一是要将内容相同或相关的信息集中在一起,将内容无关的信息区别开来;二是集中在一起的信息要有系统、有条理,按一定标识呈现出某种秩序,并能表达出某种意义;三是相关信息单元之间的关系要明确化,并能产生某种关联效应,或能给人以某种新的启示。

② 信息流向明确化。信息作用力的大小取决于信息流动的方向。信息检索系统组织要做到信息流向明确化,首先要认真研究用户的信息需要和信息行为,按照不同用户的信息活动特征确定信息的传递方向。其次要注意根据信息环境的发展变化不断调整信息流动的方向,尽量形成信息合力。

③ 信息流速适度化。信息流速的不断加快使人们感受到了巨大的信息压力,眼花缭乱的信息流可能会降低决策的效率。同时,人们面对的问题在不断地发展变化,信息也需要不断地更新,为此必须适当控制信息的流动速度,把握住信息传递时机,即用户在决策活动中遇到某种问题而产生与解决该问题有关的信息时需要这一时机,以提高信息的效用。

④ 信息质量最优化。由于社会信息污染现象日益严重,从信息源中采集到的常常是新旧并存、真假混杂、优劣兼有信息。信息组织要求优化信息的质量,提高信息的精确度,就必须对信息进行鉴别、分析和评价,剔除陈旧过时、错误无用甚至自相矛盾的信息,提高信息检索系统的可靠性和先进性。

(2)组织的方法

所谓信息检索系统的组织方法是指对每一信息的各种外表特征和内容特征进行描述并确定其标识,然后按一定方式或规则将其内容组织起来以供检索的方法。从编辑者的角度,称之为组织法;从检索使用者的角度,称其为检索法。

① 传统组织方法

(a)分类组织法。这是一种把知识、信息单元,按学科内容、事物性质分门别类加以组织排序的方法,它把性质相同的内容集中在一起,以反映学科知识的系统性、完整性,符合人类的认知习惯,如《辞海》各学科分卷、《人大报刊复印资料》等。

(b)主题组织法。这是用信息的主题特征来组织排列信息的方法,给人们提供了一种直接面向具体对象、事实或概念的信息检索途径。即首先分析标引对象,从中抽取能够代表主题特征的词语,如关键词,然后再按照一定的排序规则,把标引过的信息按照主题的异同组织起来。

(c)字顺组织法。这是一种完全采用语词符号的发音与结构特征作为排序依据的方法,大致可分为形序法和音序法,操作简单。

形序法是根据汉字形体结构中的某些共同之处加以排序,比较适合汉字的特点,并符合人们从汉字的形体结构出发求音求义的检索要求。其中较常用的有部首法(如《辞海》)、号码法(如《四角号码字典》)、笔画笔顺法(如《中国诗词名句鉴赏大辞典》)等。

音序法是按照汉字读音及表示读音符号的顺序组织信息的方法。常用的有以下三种:汉语拼音字母顺序、韵部顺序和注音字母顺序。如《新华字典》、《佩文韵府》等。

(d)号码组织法。这是按照每件信息被赋予的号码次序或大小顺序排列的方法。某些特殊的信息,如科技报告、标准文献、专利说明书等,在生产发布时都编有一定的号码。该方法对信息组织排列十分简单易行,尤其适用于计算机信息处理、存储与检索。国际有关组织和我国有关部门已经发布了许多标准化代码表。

(e)自然组织法

A:时序组织法。按照信息发生、发展的时间顺序进行组织的一种方法,如《中国历史纪年表》等是严格按照年、月、日的顺序组织的。记载历史事件的大事年表《中外历史年表》、《中华人民共和国大事记》等则是按照事件发生、发展的时间顺序编年组织的。此外,一些查找人物资料的检索工具也采用时序组织法,按照人物的生卒年依次组织,如《历代人物年里碑传综表》等。

B:地域组织法。也称地序法。这是按照地域、区划等地理顺序组织的一种方法。它能把同一地区不同学科的各种信息全部集中起来,便于人们按照信息所在的地理位置、行政区划准确地检索某一地域的信息,如《世界地图法》、《中国名胜词典》、《中国地方志综录》等。

② 现代组织方法

数据库的出现使得文档记录中所有的数据项目都可以成为字段,并以字段组织所有信息,在数据库的记录中,字段与信息的著录项目相对应。通常可以分为基本字段和辅助字段。每个字段都可以作为检索入口,为用户提供多途径的检索入口。

(a)字段组织法:就是将所有获得的信息资源按照固定的记录格式存储组织,用户通过关键词及其组配查询就可以找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。数据库技术是对大量的规范化数据进行管理的技术,它可以大大提高信息管理的效率,因为数据库的最小存取单位是字段,所以可根据用户需求灵活地改变查询结果集的大小,从而大大降低了网络数据传输的负载。数据库方式对于信息处理也更加规范化,特别是在大数据量的环境下,其优点更为突出,但它对用户提出了一定的要求,要求用户掌握一定的检索技巧,包括关键词及其组配的选择。

(b)网络组织方法:在网络环境下,信息资源在其数量的巨大、分布和传播范围的广泛、信息内涵的扩大、信息类型的多样以及信息传递的快速等方面,远远超出了传统的非网络信息资源组织管理方式和技术所能覆盖的范围。网络环境为信息资源的管理制造了空前复杂的环境,对信息资源的组织与管理提出了更高的要求。

目前对网络信息资源进行组织使用得较多的方式主要有:

A:文件组织方式。以文件为单位共享和传输信息。以文件方式组织网络信息资源简单方便,但随着网络信息资源利用的不断普及和信息量的不断增多,以文件为单位共享和传输信息会使网络负载越来越大;而且当信息结构较为复杂时,文件系统难以实现有效的控制和管理。因此,文件方式只能是组织网络信息资源的辅助形式。

B:主题树组织方式。将所有获得的信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织。用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。该方式具有严密的系统性和良好的可扩充性,但它不适合建立大型的综合性的网络资源系统。因为该方式要求体系结构不能过于复杂,每一类目下的索引条目也不宜过多,而且只有在建立专业性或示范性的网络信息资源体系时才显出其结构清晰,使用方便的优点。

C:超文本组织法。超文本(hypertext)是一种非线性的信息组织方法,它的基本结构由节点(node)的链(link)组成。节点用户存储各种信息,链表示各节点(即各知识单元)之间的关联。通常的文本信息是用字符串来表达,以线性方式顺序进行组织的。这种组织方式并不完全符合人们的思维习惯,因为人类的思维很少是线性的,更多是联想式、跳跃式的,是在多角度、多层次上同时展开的过程。利用迅速发展的计算机信息处理技术,把文本信息中若干可产生联想的内容(通常称为知识单元或节点)以非线性的方式组合在一起,即通过建立各节点间的超文本链接(hypertext link)来构成相关信息的语义网络,就可以实现超文本的信息组织方式。并且,随着多媒体技术的发展,人们还可将文字、图形、图像、声音和影像等多种媒体形式的信息集成在一起,由计算机实现交互控制和综合利用,超文本的信息组织方法也将逐步走向超媒体(hypermedia)的信息组织方法。

D:超媒体组织方式。就是将超文本与多媒体技术结合起来。它将文字、表格、声音、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库自由航行,找到所需要的信息。这种方式符合人们思维联想和跳跃的习惯,加上通过浏览的方式搜寻所需信息,避免了检索语言的复杂性。但当超媒体网络过于庞大时,就难以避免地会造成用户“迷航”的现象。

E:元数据组织法。在网上信息检索时,信息量浩如烟海,搜索引擎的出现,使用户在迷漫之中有了导航灯。在搜索引擎的检索中,输入一个检索词瞬间能得到相关的网页,其搜索能力固然是非常强的,检索结果往往是站点很多。然而,在精确地返回用户所需信息方面还远远不能满足要求。一个重要的原因是信息资源的提供者只重视信息资源的内容,而忽视了信息资源的描述。

元数据又称为“描述数据”。简单说来,就是关于数据的数据(data about data),它是对数据内容的描述。元数据日趋重要的主要原因是网络信息量的激增,给网络数据的管理、数据的使用、数据的共享、数据的检索带来一系列的问题,而通过元数据,可以在一定程度上解决上述问题。

元数据中具有代表性的是都柏林核心集(Dublin Core),它作为电子信息资源描述的解决方案,通过电子资源提供者对Web资源属性信息的描述,粗略地对资源内容进行编目,帮助人们尽快地在网上发现所需要的资源,因此可以把都柏林核心集资源描述方案称为网上资源的编目(详见第4章的4.2节网络信息资源的组织)。