信息检索导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 信息与信息资源的概念与类型

信息(information)、信息资源(information resource or information resources)这两个术语多年来在国内外文献中被广泛使用,然而有关信息与信息资源的定义,国内外尚有多种观点,尽管目前各学科学者从不同角度出发仍有不同理解,但是经过近几年的研究,有关信息与信息资源的概念与类型大体上已有相对的共识。

1.1.1 信息与信息资源的概念

信息与信息资源,二者既有密切的联系,又有些许不同之处。因此,有必要先简要介绍信息的概念,再讲述信息资源的概念。

1.信息的概念

信息无时无处不在,但信息本身却看不见也摸不到,我们能够看得见摸得着的只是信息的物质载体。信息与人类发展历史须臾不离,从结绳记事到人上月球,从日常生活到科学研究,人们都在自觉不自觉地利用信息,然而,有关信息的确切定义,目前不下数十种。各个学科的学者从自身学科的角度出发,对信息作出不同的定义,尽管这些定义说法各异,但对理解信息的概念均有参考价值。

汉语中的“信息”一词中,“信”与“息”两字的意思相近,前者侧重于消息、征兆,后者强调情况、音讯。据考证,两字连成一词使用,最早见于《三国志》中“正数欲来,信息甚大”的记载。唐代诗人李中《暮春怀故人》中的“梦断美人沉信息”、宋代诗人王庭《题辰州壁》中的“每望长安信息希”诗句里均有“信息”一词,其意为消息。英文“information”一词起源于拉丁文中的informare,原意为陈述、解释。在西方早期文献中,信息(information)与消息(message)也常互通,但这与当代信息的含义并不完全相同。

英文“information”一词,有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,建议该词一律译成信息。在我国台湾、香港地区,该词被译为“资讯”。

哲学家认为信息是事物普遍联系的方式,或者认为信息既是客观存在的,又是人的主观认识的产物,它不同于客观世界(世界1),也不同于精神世界(世界2),而是物质世界与精神世界的中介(世界3)。

信息论创始人美国数学家C. E. 香农(Claude E. Shannon)从科学的概念入手,把信息定义为“用来清除随机事件的形式的不定性的东西”,信息就是不定性减少的量,是两次不定性之差。“负熵”可用来描述信息属性及其运动规律。信息量的大小可用被其消除的不定性的多少来衡量,即等于信宿消除的不定性的数量。信宿收到信息后,不定性消除得越多,获得的信息量就越大。而事物不定性的大小又可用概率分布来描述,即概率越小,所提供的准确信息能在较大程度上消除对事物认识的不确定性,那么,这一准确信息的信息量就越大。反之,概率越大,所消除的对事物认识的不确定性较小,其信息量就越小。概率为1或0的事件,信息量均为0。

控制论的创立者美国数学家N. 维纳(Norbert Wiener)则认为,信息“不是物质,也不是能量”,“是人与外部世界相互作用的过程中所交换的内容的名称”。

图书情报学家则认为信息可以定义为事物或记录(record),记录所包含的信息是读者通过阅读或其他认知方法处理而获得的。此处引入了读者这一变量,从而将认识论上的信息定义推广至本体论上的信息定义,更有利于信息测度服务。

心理学家认为信息不是知识。信息是存在于我们意识之外的东西,它存在于自然界、印刷品、硬盘及空气之中;知识则存在于我们的大脑之中,它是与不确定性(uncertainty)相伴而生的,我们一般用知识而不是用信息来减少不确定性。此处将信息与知识截然分开,不认同二者有密切联系的一面。

信息资源管理学家和计算机专家认为,信息是数据处理的最终产品,是经过收集、记录、处理,以能检索的形式储存的事实或数据。原始数据中产生信息,信息中产生知识。

我国的通信和信息科学家钟义信认为,可以从本体论层次和认识论层次来定义信息。所谓本体论信息是指事物运动的状态及其变化方式的自我表述。这里的“事物”泛指一切可能的研究对象,包括外部世界的物质客体,也包括主观世界的精神现象;“运动”泛指一切意义上的变化,包括机械运动、物理运动、化学运动、生物运动、思维运动和社会运动等;“运动状态”是指事物运动在空间上所展示的性态和形态;“运动状态的变化方式”是指事物运动状态随时间而变化的过程样式。所谓认识论信息是指主体所感知(或所表述)的关于该事物的运动状态及其变化方式,包括这种状态(方式)的形式、含义和效用。信息是物质的一种属性,它不同于消息,也不同于信号、数据、情报和知识。信号是信息的载体,数据是记录信息的一种形式,情报通常是秘密的、专门的、新颖的信息,知识是认识主体所表述的有序化的信息。信息的外在形式、内在含义和价值效用3个因素应有机地进行统一处理,否则就不可能理解信息的本质。香农的贡献在于用概率熵(负熵原理)描述通信信号波形的复制,建立相应的信息的度量,进而建立信息论的第一、第二和第三编码定理,揭示了信息在通信系统中有效和可靠传输的基本规律。但其局限性也在于此,只研究信息信号波形的复制,舍去了信息的内容和信息的价值,而信息内容和信息价值是远比通信更复杂的信息活动(如推理、思维和决策)中最重要的因素。在通信以外的许多场合,信息不一定符合概率统计规律。概率熵必须推广到非概率的情形,以便能够有效而统一地描述和度量信息的形式、内容和价值。综合地考虑信息的形式因素(语法信息)、含义因素(语义信息)和效用因素(语用信息)即为“全信息”。研究全信息的本质、全信息的度量方法及全信息的运动(变换)规律的理论被称为“全信息理论”。该理论引入主观因素、非形式化的因素和模糊、混沌因素,重视主观与客观相互作用、非形式化和形式化有效结合,强调用新的科学观、新的方法论和新的数学工具研究信息的本质。

从本体和主体的层次定义信息简明清晰,且较有意义。因为引入了主体这一要素,认识论信息概念的内涵比本体论信息概念更丰富了。从认识论信息角度看,“事物的运动状态及其变化方式”就不像在本体论层次上那样简单了,它必须同时考虑到信息的形式、含义和效用3个方面的因素。换言之,如果获得了足够的认识论信息,就可以根据形式、含义和效用(价值)做出恰当的判断和决策。

综合各家定义的合理内核,我们认为,信息(information)是所有事物的存在方式和运动状态的反映,我们通常能够通过声音、语言、体态、符号、文字、信号、数据、图形、视频等载体形式和传播渠道感觉到这种反映。信息具有客观性、普遍性、价值型、再生性、时效性、无限性、相对性、抽象性、依附性、动态性、共享性、传递性等特点,信息量的大小是可以测量的。从不同的角度对信息进行划分,可分为不同的类型。例如,从信息性质分,可有语法信息、语义信息和语用信息;从信息应用部门分,可有工业信息、农业信息、政治信息、科技信息、文化信息、经济信息等;从信息的记录符号分,可有语音信息、图像信息、文字信息和数据信息等。

知识(knowledge)是人类通过信息对自然界、人类社会及思维方式与运动规律的认识与概括,或者是主体关于事物的运动状态和状态变化规律的抽象化描述。知识是人的大脑通过思维重新组合的系统化了的信息,是特殊的信息,是信息中最有价值的部分。“旭日东升”是知识,而“太阳出来了”则仅是信息。知识有主观知识(又称为隐性知识,tacit knowledge)和客观知识(又称为显性知识,explicit knowledge)。主观知识是存在于人脑之中的,很难表达,不易传递和管理。如果它被某种载体记录下来,那就成为打破时空的、可传递的客观知识。从认识论看,与认识论信息类似,知识也可分成形态性知识、内容性知识和效用性知识。

被誉为“20世纪最伟大的哲学家之一”的英国哲学家波普尔早在1972年出版的《客观知识:一个进化论的研究》一书中,就提出了客观主义知识论,进而提出了著名的世界3理论。他认为,世界1是物质世界,世界2是精神世界,世界3是知识世界。知识世界包括理论、问题和论据,它具有真实性(与物质对象一样真实地存在,并作用于物质)、部分自主性(世界3本身可自主产生一个理论)和永恒性(由人心(世界2)创造,并反作用于人心)等特征。

波普尔的三个世界理论,尤其是关于世界3的理论,在20世纪80年代曾受到中国学者的重视,在90年代初期,一度冷清。90年代中后期以来,随着中国信息化进程的加快、网络的迅速发展和知识经济的到来,对世界3 理论研究的兴趣骤然提高。近年来,中国学者对波普尔的世界3 理论进行了较深入的探讨,并结合近年来信息化、网络化、计算机化的实际,对世界3 理论进行了修正,用“编码”、“文本”的概念限定对世界3 的有关表述,以计算机能够做出一些人脑做不出的发现为依据,提出赛伯空间和虚拟现实既不是单纯的世界1,也不是单纯的世界3,它们是一个动态过程的体现,是这两个世界相互作用的体现。对世界3 理论的深入研究,对于找出理解信息时代的理论平台、对于建立和完善知识理论体系,具有积极意义。

情报(intelligence)是有特定传递对象的特定知识或有价值的信息,是受众第一次接触的对形成决策有用的信息。其一部分在知识之内,另一部分则在知识之外、信息之内。信息、知识与情报的逻辑关系见示意图如图1.1所示。

图1.1 信息、知识与情报的逻辑关系示意图

智能是一种具有内在逻辑性的综合能力,包括在给定问题、环境和目标的情况下,获取相关信息的能力;把这些信息加工成情报或知识以实现认知的能力;针对给定目标把知识激活成为策略的能力;按照策略在给定环境下解决问题达到目标的能力。信息、知识(情报)、策略和行为是组成智能的四大要素。这四种能力被称为“完整智能”或“广义智能”。由于策略是智能的集中体现,因此策略被称为“狭义智能”。

2.信息资源的概念

信息资源的定义与信息的定义一样,目前仍是众说纷纭,其核心是对“信息”、“资源”二词的理解及对二词语法结构的理解(是偏正结构,还是并列结构,何为中心词)不同,是信息化的资源,还是资源化的信息,还是“资源”一词仅为“信息”的同位语,可有可无?一般说来,在大多数情况下,信息与信息资源可视为同义词,在英文中,“资源”一词为单数(information resource)时则指信息本身。但在有些场合,尤其是二词同时出现时,需要严格辨异,二者还是有区别的。信息是普遍存在的,但并非所有的信息都是信息资源,只有经过人类加工、可被利用的信息才可称为信息资源。在英文中,“资源”一词为复数时,常指信息及与信息管理有关的设备、技术、资金和人员等的集合体,多指网络信息资源。

为了便于本书的学习和理解,我们对信息资源做出如下简明扼要的定义:信息资源是可供人们直接或间接开发和利用的各种信息集合的总称。信息中的载体信息和主体信息是信息资源的最基本的组成部分。

3.信息资源的特点

由于信息是信息资源中最核心的部分,因此信息资源的特点与信息的特点有相同之处。下列8个特点主要是信息资源中核心部分载体信息和主体信息的特点。

1)客观性

信息既不是物质,也不是能量,信息就是信息。不论你是否认识到,信息总是存在着的。

2)寄载性

信息必须借助于一定的符号储存于一定的载体(包括人脑)中,才能被表现。没有载体就没有信息。信息与载体如同内容与形式的关系一样,既不能将二者混为一谈,也不能将二者割裂开来。

3)传递性

信息可以通过一定的载体在空间、时间上传递,不受地域、时间的限制,从近到远、从古到今,均能传递。

4)动态性

信息是对事物存在方式及其运动方式的反映,随着事物的变化,信息也将变化。信息的动态性是指信息的时效性。信息如果不能及时反映事物的最新变化,其时效性就会降低。信息的价值与信息反映事物的时间成反比,即反映的时间越快,信息的价值越大。

5)相对性

由于人们认识能力与认识条件的不同,信息接收者(信宿)获得的信息及信息量的多寡亦不同,从这个意义上说,信息的价值具有相对性。

6)增长性

物质资源与能量资源的使用具有消耗性,而信息资源的使用,不但不使信息资源数量减少,而且在利用后,会产生更多的信息。

7)共享性

不同的用户可在同一时间或地点,或者不同的时间或地点共同利用同一种信息资源,而不需要任何的限制条件。与信息资源的增长性特点一样,信息资源共享的双方或多方均不会损失信息内容,相反还会产生新的信息。

8)规模性

信息资源作为整体要求具有一定的量,分散、片面的信息不能较好地反映事物的情况,极易产生虚假的“垃圾”信息,不能构成信息资源。

1.1.2 信息资源的类型

信息资源的主体是信息,按照不同的标准,可以将信息资源划分为不同的类型。从本体论和认识论来区分,信息资源可分为“生信息资源”和“熟信息资源”;按信息所描述的对象分,可划分为自然信息资源、生物信息资源、人工信息资源、社会信息资源和文化信息资源;按表现的形式分,可有文字信息资源、图像信息资源、声音信息资源和数据信息资源;按照信息资源的开发程度来区分,信息资源可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源和文献信息资源。文献信息资源又包括印刷型信息资源、缩微声像型信息资源和数字化信息资源(原为机读型信息资源或电子信息资源)。数字化信息资源则包括网络信息资源(含多媒体信息资源)和单机信息资源。由于网络信息资源发展迅速、数量庞大、作用益增,且有许多“未优化”、“无保存和流传价值”的资料,如BBS、MSN、QQ等,已超出 “文献”的范围,因此有必要将网络信息资源从文献信息资源中分离出来,单独列类,加以突出。

近几年国内外流行“记录信息资源”这一术语,指记录和存储在传统介质和现代介质上的信息和知识,包括图书、期刊、数据库、网络等。如果将“文献”定义为“记录知识的一切载体”,那么“记录信息资源”的外延比“文献信息资源”要大些;但如果加上“信息”二字,文献被定义为“记录信息和知识的一切载体”的话,那么“记录信息资源”与“文献信息资源”的含义就差不多了。但一般说来,记录信息资源外延广泛、含义明确、不易误解,而文献信息资源则有历史感。记录信息资源包括非数字化信息资源和数字化信息资源。下面对信息资源的一些主要类型,尤其是目前常用的文献信息资源和网络信息资源作一介绍。

1.口语信息资源(亦称零次信息资源)

以口头语言(如交谈、聊天、授课、讨论等)方式获得的信息资源。它是没有记录下来的仅靠口口相传的信息,其特点是传递迅速、互动性强,但稍纵即逝、久传易出差异。代代相传的口碑、传说、口述回忆等虽然包含着极有价值的信息,但是许多信息并不十分准确与可靠。因此,通过会议、讲演、电视、广播、聊天等方式了解到的信息,应该立即记录下来,并加以证实。

2.体语信息资源

以手势、表情、姿势(如舞蹈、体育比赛、杂技等)方式所传递的信息资源。中国人翘大拇指表示称赞,点头表示同意;美国人耸肩表示无可奈何,手指做成“V”状表示“必胜”;暗送秋波、喜上眉梢都是指以眼、眉传达信息的例子。这类信息直观性强、生动丰富、印象深刻、极富感染力,往往起到“此时无声胜有声”之效,但此类信息的容量有限。

3.实物信息资源

以实物(如文物、产品样本、模型、碑刻、雕塑等)形式表述的信息资源。秦始皇兵马俑、维纳斯雕像、人造卫星包含着大量信息。其特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘隐含的大量信息。

4.文献信息资源

以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源,包括图书、连续出版物(期刊、报纸等)、小册子及学位论文、专利、标准、会议录、政府出版物等。它记录着无数有用的事实、数据、理论、方法、假说、经验和教训,是人类进行跨时空交流、认识和改造世界的基本工具。这类信息经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后、部分信息尚待证实的情况。从整体上说,这类信息是当前数量最大、利用率最高的信息资源。按照各种标准,可以划分出文献的各种类型。按加工情况分,可有一次文献、二次文献和三次文献;按载体形式分,可有书写文献、印刷文献、缩微文献、音像文献、机读文献等;按内容的学科范围分,则有社科文献、科技文献等。一种具体的文献可能具有两种或两种以上文献类型的特征,如《南京大学学报(社科版)》既是期刊,又是一次文献,也是印刷文献和社科文献。国家标准《文献类型与文献载体代码》(GB 3469—83)根据实用标准,将文献分成26个类型,即专著、报纸、期刊、会议录、汇编、学位论文、科技报告、技术标准、专利文献、产品样本、中译本、手稿、参考工具、检索工具、档案、图表、古籍、乐谱、缩微胶卷、缩微平片、录音带、唱片、录像带、电影片、幻灯片、其他(盲文等)。下面介绍一些主要类型的文献。

1)图书

国家标准《情报与文献工作词汇·传统文献》(GB 13143—91)对图书(book)的解释是:一般不少于49页并构成一个书目单元的文献。按照联合国教科文组织(UNESCO)和国际标准化组织(ISO)规定,49 页不包括封面与扉页,48 页或少于48 页的小书被称为小册子(pamphlet)。图书是文献中最古老、最重要的类型。按文种可分为中文图书、日文图书、西文(英、法、德等拉丁文字)图书等;按作用范围可分为通俗图书、教科书(教材)、工具书等;按写作方式可分为专著、编著、汇编、翻译、编译等;按出版卷帙可分为单卷本、多卷本等;按刊行情况可分为单行本、丛书、抽印本等;按版次情况可分为初版本、重版本、修订本等。据报道,2007年我国出版图书已达248283 种,其中新书136226种,世界各国出版图书约百万种。

专著(monograph):对某学科专门主题进行较全面、系统论述的图书。内容广博、论述系统、观点成熟是其特点。书后一般有引文注释、参考文献和主题索引。专著是科学研究成果的体现,具有较高的学术价值。

教科书(textbook):系统归纳和阐述某学科现有知识和成果的教学用书。材料精选、释义清晰、归纳系统、分析准确、段落分明、文字易懂、循序渐进是其特点。通常书中有章节内容提要、思考题、作业、推荐书目、参考文献等。

丛书(series):汇集多种图书、冠以总书名的成套图书。它通常是为了某一特定用途或特定读者对象,或围绕某一主题而编撰的。一套丛书内的各子书一般有相同的版式、书型、装帧形式,各子书均可独立存在,并有独立的书名。有整套丛书的编者,亦有各子书自己的编者或著者。可以一次出齐,也可陆续出版。

工具书(reference book):供查找和检索信息和知识用的图书。它是求知治学的得力工具,也是《信息检索导论》课程要掌握的重点出版物。内容概括、信息量大、排列有序、查检快捷是其特点。它包括指示线索型和资料型工具书两大类,前者有书目、索引、文摘等;后者有字词典、类书、政书、百科全书、年鉴、手册、名录、图谱、传记资料等。

2)连续出版物

连续出版物(serial publication):具有统一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献,包括期刊、报纸、年度出版物及其他连续性报告、会议录、专著性丛刊等。连续出版物是与图书并列的最主要的文献类型,内容新颖、报道及时、出版连续、信息密集、形式一致是其主要特点。据统计,目前世界上的连续出版物约有130万种,现期连续出版物约有50万种,是极其重要的信息来源。

期刊(periodical):通常每年至少出两期、每周至多出一期(包括一期)的连续出版物,包括周刊、旬刊、半月刊、月刊、双月刊、季刊、半年刊等。它是连续出版物的主体和信息源的主体。由于期刊具有广、灵、快等特点,因此期刊上载有大量的、原始性的第一手资料和原创性的观点和成果。尽管有些成果不够成熟和全面,但正是由于欠成熟和全面,其信息含量才大、参考性才强。期刊中既有一次文献,亦有二次文献和三次文献。刊载以第一手资料形成的学术论文、会议记录等为主的期刊是一次文献期刊;在一次文献基础上经过加工排序、专供检索资料的期刊为二次文献期刊,主要指期刊性目录、索引、文摘等;在二次文献基础上,浓缩大量一次文献中有价值信息与知识的综述、评述性期刊为三次文献期刊。二次文献期刊和三次文献期刊亦称检索期刊。检索期刊所收录的对象90%以上是期刊信息资源。在目前出版的电子出版物或检索工具中,绝大部分是期刊或检索期刊。2007年我国正式出版的各类型期刊约有9468 种,世界各国出版期刊约有18万种。目前,我国各类图书情报单位共引进外文期刊约3万种,其中著名、常用的检索期刊均有收藏。掌握期刊,尤其是检索期刊的有关知识,对学好信息检索课程意义重大。

报纸(newspaper):以报道新闻及其评论为主、出版周期比期刊更频繁、多为活页的连续出版物。它包括日报、隔日报、三日报、周报、旬报等。其特点是内容丰富、信息量大、出版迅速、发行面广、读者众多,但资料较庞杂零散,不易积累与保存,利用目录、索引等检索工具查找与利用报纸信息往往能起到事半功倍之效。2007年我国正式出版的报纸有1938种。世界上共有报纸10万余种,现期报纸6万余种。

年度出版物(annual; yearbook):汇辑年内重要资料、每年出版一次的连续出版物。它包括年报、年鉴、年度进展、年度指南与手册、按年修订的百科全书等。内容较为系统、资料性强、便于查检是其特点。

其他连续出版物:除报刊、年度出版物以外的连续出版物。通常不定期连续出版,或大多有一总名、各分册又有单独题名的连续出版物。它包括不定期或每一年以上定期出版的会议录、报告、专著性丛刊(monographic series)、期刊性图书(mook; magazine-book)等。丛刊与丛书的不同之处主要在于是否“计划无限期出版下去”。有限期的集合为丛书,从属于图书;计划无限期的集合则为丛刊,从属于连续出版物。

3)特种文献

特种文献:有特定内容、特定用途、特定读者范围、特定出版发行方式的文献。包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。在这类文献中,有些文献根据需要,可以作为图书或连续出版物或期刊论文正式出版或发表;而更多文献则非正式出版,在内部发行,国内外同行称这些文献为“灰色文献(gray literature)”。尽管这类文献有的并非很成熟、可靠,但是它们内容新颖专深、实用性强、信息量大、参考性高、利用率多,是极为重要的信息资源。

学位论文(dissertation;thesis):为获得学位,在导师指导下完成的研究与成果的学术论文。它包括学士论文、硕士论文和博士论文。较高层次的学位论文要求作者系统掌握某学科的理论知识,并运用这些知识研究、解决有关问题,以表明自己的专业研究能力。通过专家答辩委员会通过的硕、博士论文,一般说来,都具有较高的专业水平和一定的独特性、系统性。有的论文答辩通过后正式出版或发表,有的则不公开发表。每年全世界有成千上万的论文通过答辩。2002年中国在校硕士研究生37万人、博士研究生12万人,每年的硕、博士论文有16万份之多。2003年全国计划招收研究生27万人,比2002年招生多7万人,预计到2005年,在校研究生人数将突破100万大关。2002年美国在校博士生的数量位居世界第1,德国次之,中国位居第3。2007全国招收研究生42.4万人,其中博士人数已超过5万人,已位居世界第1位。

研究报告(research report):表述实验、研究、鉴定等工作成果的报告。它包括社科报告、科技报告、咨询报告等。反映最新研究成果、应用价值高是其特点。按发行范围可分为绝密报告(top secret report)、机密报告(secret report)、秘密报告(confidential report)、非密报告(unclassified report)、解密报告(declassified report)。解密后或根据需要,研究报告可以正式发表,但多数不公开发表,仅供有关部门使用或参考。

专利(patent):由政府专利机构出版的、有创造发明的设计、制造工艺的详细说明,表明在一定年限内发明所有者享有制造、使用、销售占有权的法律性文献。它包括专利申请书、专利说明书、专利公报等。其内容新颖详尽、先进实用、准确可靠、数量庞大,全世界90%以上的新技术是通过专利文献发表的。据报道,截至2002年7月底,我国共受理专利申请1502 479 件,突破150万件大关,其中国内申请1244 832件。从趋势上看,国内职务和非职务发明专利申请的数量呈逐年上升的势头,这表明中国企业和个人更加重视原始性创新和对核心技术的拥有。

标准(standard):由权威机构批准、颁布的、可供人们执行的技术规格的规范性文献。它包括文献标准、产品标准等。标准是为社会获得最佳效益,根据科技和经验的坚实成果,经所有有关人士的合作、协商或一致同意而起草的,它具有约束性、针对性、时间性,是了解国家经济、文化和科技水平的重要信息资源。

产品样本(trade catalogue):厂商为介绍、推销其产品而印发的文献。它包括产品说明书、产品目录、企业介绍等。其内容详尽、可靠性好、直观性强,虽新颖性不如专利文献,但成熟性较之更强。

会议录(proceedings):含有在会议上交流的论文,一般还有有关会议报道的文献。会前经过专家评审、修改过的会议文献,质量较高。有的会议录作为图书出版,有的在期刊上发表,有的则不公开发表,仅在一定的专业领域里发行。

档案(archives):国家、机构和个人从事社会活动留下的具有历史价值的文献。它包括信件、日记、备忘录、会议纪要、照片、报告、协议、证书等。档案是历史的原始记录,具有重要的凭证价值、参考价值和情报价值。按内容分,可有政治档案、经济档案、科技档案等;按表现形式分,可有书面档案、形象档案、声音档案等。

政府出版物(government publication):由政府机构制作出版或政府机构制作并指定出版社出版的文献。它包括法律、法令、议案、决议、通知、统计资料等行政性文献和科技文献。这类文献出版发行形式多种多样,或以图书、小册子、期刊的形式正式出版,或内部出版;或为印刷型,或为机读型。其数量庞大、内容广泛、资料可靠,是极重要的信息资源。西方国家对政府出版物极为重视,大多设有专门出版机构和图书馆管理机构,加强对其管理和利用。

5.网络信息资源

网络信息资源是一种新型的数字化信息资源,是以电子形式存储于世界上成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。

因特网(Internet)20世纪70年代起源于美国,80年代后期得到迅速发展,1992年因特网主机已超过100万台。1995年以后,因特网的用户猛增,截至2000年年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新户的惊人速度递增。据美国因特网监测公司“网器”(Netcraft)2008年3月28日宣布,截至2月底,全球互联网网站数量超过1.6亿,达162662 053,较一个月前增加了450万。2008年5月,全球网民数量从4月份的7.66亿增至7.72亿。

表1.1是摩根斯坦利添惠公司于2001年1月3日发布的《全球TMT市场状况和互联网发展趋势研究报告》中的数据,我们可以看到1997年以来互联网用户数在全球的发展情况。

表1.1 互联网用户数量分析数据(用户数量单位为百万)

表7.2是该公司2006年4月7日发布的《全球互联网发展趋势报告》中的数据,亚太地区的互联网用户数已经跃居第一。另据2008年3月18日发布的报告数据显示,中国互联网用户数占全球总用户数的比例已经从1995年的不到1%增长到2007年的16%。

表1.2 全球互联网用户地区分布(用户数量单位为百万)

我国从1994年开始发展因特网,近几年发展极快,根据中国互联网络信息中心(CNNIC,China Internet Network Information Center)发布的《中国互联网络发展状况统计报告》报道,截至2002年6月30日,中国上网计算机总数已超过1613万台(计算机社会拥有量已接近3000万台),上网用户总数达到4580万;CN下域名注册数量达到126146个;WWW站点数(包括CN、COM、NET、ORG下的网站)约293213个;中国国际出口带宽的总量为10576.5 Mbps。截至2007年12月,我国网民数已达到2.1 亿人。2007年一年增加了7300万,年增长率为53.3%。我国网页总量已达84.7 亿个,按照网民平均每分钟看完一个网页计算,如果一个人不眠不休地阅读,那么读完这些网页需要1.6万年还多;假如按照每个网页都打印成一张普通的A4 纸计算,那么它们摞起来的高度大致相当于从北京到长春的路途。截至2008年6月30日,我国网民数量达到2.53 亿,首次大幅度超过美国,网民规模跃居世界第一位。但是普及率只有19.1%,仍然低于全球平均水平(21.1%)。目前,全球互联网普及率最高的国家是冰岛,85.4%的居民是网民。其次是美国,为71.9%。中国的邻国韩国、日本的普及率分别为71.2%和68.4%。与中国经济发展历程有相似性的俄罗斯的互联网普及率则是20.8%。我国的域名注册总量为1485万个,同比增长61.8%。目前的人均域名拥有量为587个/万网民。中国CN域名数量为1190万个,同比增长93.5%,已占我国域名数量的80.1%。中国网站数量为191.9万个,年增长率为46.3%。其中,CN下网站数达到137万个,占总网站数71.4%。目前我国拥有个人博客/个人空间的网民比例达到42.3%,用户规模已经突破1 亿人关口,达到1.07 亿人。半年内更新过博客/个人空间的网民比例为28%,半年内更新过的用户规模超过7000万人,半年更新用户增长率高达43.7%。此外,我国开发数据库数万个,数千种电子期刊、数十万电子图书已经上网,网上中文信息也将越来越多。

因特网信息不仅量大,而且传递迅速、交流自由、形式多样、内容更新更快,它将世界各地的信息资源连成一气、形成内容丰富、包罗万象的信息海洋。但海量的信息中,重复交叉较多,垃圾信息不少。据2004年美国一项研究报告称,因特网上每天有5000万网页是新添加或被修改过的。所有网络信息中有30%内容淫秽,30%内容重复。

根据不同标准,可将网络信息资源划分成各种类型。按交流方式分,可分成非正式出版信息资源(电子邮件、电子会议等)、半正式出版的信息资源(各单位的信息等)和正式信息资源(电子期刊、电子图书等)。从加工程度上分,可有一次信息资源、二次信息资源和三次信息资源。从利用性质上分,可有开发性信息、注册式信息、交流式信息;从存取方式分,可有邮件型、电话型、揭示板型、广播型、图书馆型、书目型信息;从内容上分,则有商务、科技、社科、教育、娱乐信息等。

6.多媒体信息资源

多媒体信息资源是将电信、电视、计算机三网相互融合、集图、文、声于一体的信息资源。它包括网上广播电视、专题论坛、网上广告等。多媒体信息打破了报刊、图书、广播、电视单向媒体的界限,形成交互式媒体信息。多媒体信息资源使人们对各种信息的收集、加工、处理、存取和利用更接近自然,更接近人的生活习惯和工作方式,代表今后发展的方向。通过主题、文本、模板匹配、视频检索等方式可以对其进行检索。

本书主要论述记录信息资源(即文献信息资源、网络信息资源)的检索。