2.1 电子文献的不同分类法
2.1.1 按照结构形式分类
按照结构形式划分,电子文献可分为文本文献、超文本文献、超媒体文献、图像图形文献、音频文献、视频文献、数据库文献。图像图形文献通过扫描或照相的方式输入计算机,以真实的图像存储形式而形成,如PDF存在的形式。超媒体数字文献就是文本、图像、声音、视频相结合的、具有较强功能的文献。
文本文献和图像文献不仅存在方式有别,而且其生成方式也不同,导致在文献的开发与利用上也各自表现出不同的优势。文本文献可以随意编辑,快速检索、查阅、排序,使用非常方便。图像图形文献则具有高度保真的特性,尤其适合对各种古籍善本的复制和存储,大凡古籍的字体墨色、行款格式、纸质的优劣、书写的工拙、刊刻的精细、文字的错讹等文献学属性莫不妍媸毕现,但不能像文本文献那样可以任意检索,只能像传统的文献那样按页阅读查检。
电子音像文献的发行光盘形式主要有CD、VCD、DVD,另外,还有数以万计的电影、电视节目被转化成数字形式放在网络上,倘若用MP3、MP4下载,还可以随身携带。
数据库是信息整流的重要手段,是数字化资源的主体,其内容极其丰富,各种类型的数据库也可谓不计其数。按数据库性质,数据库可分为文献数据库、数值数据库、事实数据库和多媒体数据库。因特网上有大量大型数据库供读者使用,方便读者查找相关资料,如台湾“中央研究院史语所”文物图像研究室建立的简帛金石资料库。网络上的数据库的访问设有两种方式:授权访问和开放访问。
文献数据库是指存储各类文献及文献信息的数据库,包括书目数据库和全文数据库。书目数据库是只存储有关主题领域各类文献资料的书目信息,以二次文献的形式存储文献的数据库,如题录数据库、文摘数据库、引文数据库、期刊数据库及图书馆馆藏目录数据库。全文数据库是存储文献全文或其中主要部分,以一次文献的形式直接提供文献的源数据库。用户可以从中直接检出所需的原始文献。全文数据库成为文献数据库重要的发展方向。
2.1.2 按载体形态分类
按照载体形态划分,电子文献可以划分为实体电子文献与虚拟网络文献。实体电子文献是指以社会普遍信息化为基础,用电子数据的形式把文字、图像、声音、动画等多种形式的信息存放在光、磁等介质中,并通过计算机或网络通信等方式表现出来,如磁盘(硬盘、软盘)、光盘等。这些磁盘、光盘、集成电路卡等电子文献又可统称为制品型(或封装型)电子文献。虚拟网络文献是指在因特网上存储、检索、利用或传递信息的过程中,依附于网络计算机存储设备并且以在线存在的信息单元或信息集合。网络文献很多,汗牛充栋已不足以形容其量,如大量的电子邮件、电子图书、电子杂志、电子报纸、在线电影、在线音乐和终端可下载的各种程序及各种文档。从某种意义上说,网络文献也属于光盘文献或磁盘文献,因为它们不是存储在光盘上就是存储在硬盘中。虽然如此,但网络文献具有“动态性”特征,实现了网上传输与使用,而制品型文献则具有的“确定性”特征,需要在计算机上阅读与使用。从发行上说,制品型文献进入物流系统,然后到用户手上,而网络文献则通过网络运行,在数量上成为电子文献的主体。因此,“网络文献”独立成为电子文献的一大类型,与制品型实体电子文献并列,是非常必要的。
从电子文献资源角度来说,实体电子文献属于集中型电子文献资源,而虚拟网络文献属于分散型电子文献资源。集中型电子文献资源是指文献信息内容都集中放在某一文献资源站点的主机或服务器上,或集中存储于其他专门的媒体,诸如光盘、磁盘。而分散型电子文献资源是指某电子文献标题所在的网页只是将相应文献信息标题目录、索引或摘要等内容分类罗列于该标题下,具体的文献信息内容则分散存储在各个不同的站点,标题目录、索引或文摘与具体文献内容则是通过该站点标题与具体信息内容所在站点间的网页地址(URL,Uniform Resource Locator)链接来维系,像众多的网上搜索站点、数字图书馆和某些网上期刊都属该类电子文献资源。
2.1.3 按照传媒体系分类
按照传媒体系划分,电子文献资源可分为电子图书(Electronic Book)、电子杂志(Electronic Journal/Magazine/Series)、电子报纸(Electronic Newspaper)、电子邮件(Electronic Mail)、电子新闻(Electronic:News/Newsletter)等多种类型。从出版发行的角度看,这些电子文献又可分为电子出版物与非电子出版物两类。国家新闻出版署颁发的《电子出版物管理暂行规定》(1996年3月14日新闻出版署令第6号发布)的第一章“总则”的第二条对电子出版物所下的定义是:“电子出版物系指以数字代码方式将图、文、声、像等信息存储在磁光电介质上,通过计算机或具有类似功能的设备阅读使用,用以表达思想,普及知识和积累文化,并可复制发行的大众传播媒体。”从这个定义中可以看出,电子出版物具有三个缺一不可的本质限定:一是以电子方式存储在载体上,即以数字代码方式将图、文、声、像等信息存储在磁光介质上;二是属于文献的范畴,因为它具有文献的三要素——载体、知识和记录;三是进入出版发行系统的出版物,即属于复制发行的大众传播媒体。如果电子出版物有且只有前两个特征———既是电子的,又是文献的(这两个特征恰好是电子文献不可分割的两个本质特征),那么电子出版物的外延就等同于电子文献的外延,进而电子出版物就等同于电子文献了。但问题是,电子出版物并非只有这两个特征,它还有一个不可分割的第三特征——“出版物”的限定,这就使得电子出版物属于电子文献,而电子文献未必属于电子出版物。事实上,只有当电子文献是出版物时,它才是电子出版物,反之,它就是非正式出版的电子文献。换句话说,电子文献既包括正式出版的电子文献(即电子出版物),如电子图书、电子期刊、电子报纸,也包括不属于电子出版物的非正式出版的电子文献,如网上的各类行政报告、电子会议资料、内部电子刊物等。另外,从存取方式和收费角度看,这些电子文献还可分为有偿访问资源和开放存取资源(即免费资源)两类。
1.电子图书
电子书籍应该包括两种:一是已有的纸质书籍在电子化之后的电子文献。近些年古籍电子化成绩卓著,四库全书已经制作成为电子化文献,大部分历史文献都可以在网络上搜索得到网络版,供读者分享。二是采用电子化方式直接生成的电子文献。美国1994年出版了2000种交互式电子书籍,1995年增加到10,000种。1995年10月,美国发明了一种可以阅读和存储任何文本的袖珍装置——“软书”(Softbook)。1999年,世界上首批手持电子书阅读器——“火箭书”(Rocket Book)由美国的诺瓦梅地亚公司(Nuvo Media)推出。我国于1994年4月正式出版了第一本拥有独立书号和版权的电子图书——《邓小平文选》第三卷,并具有单一词汇和相关词汇等检索功能。这两种电子书籍同时向读者提供,读者已经习惯于各种电子书籍,因此不再过于关注其生成方式,而只是关注文献自身了。
电子图书大抵有三种形式:一是只读光盘型,即CD-ROM(Compact Disc Read-Only Memory)。只读光盘是一种在计算机上使用的光碟,而这种光碟只能写入数据一次,信息将长久保存在光碟上,使用时通过光碟驱动器读出信息。早期的电子图书内容基本是百科全书或词典,形式为CD-ROM型。例如,《美国学术百科全书》于1985年发行CD-ROM版,1992年发展为多媒体光盘;《不列颠百科全书》于1994年推出光盘版。二是网络型,在因特网上发行,分为收费与免费阅读、下载两种。三是阅读器型(E-Book),读者将电子版的图书下载在个人的阅读器上进行阅读,皆可谓阅读器型。便携式的电子书就是一台微型的存储阅读器,台湾文化传信公司研制了全球首部便携式彩色中文E-Book。美国著名作家斯蒂芬·金于2000年3月14日将新作《子弹顺风车》(Riding the Bullet)首次通过因特网以E-Book形式发售。
因特网上的图书主要来源于下列几个方面:一是作者将自己的作品或其他没有版权的作品上传网络发表。这些作品有的有印刷版,有的可能只有网络版。二是出版单位发行印刷型图书的网上的电子版,或同时出版印刷版和网络版。三是单位或个人在网上建立网上图书馆,方便读者利用。四是一些从事网络出版的网站专门发布网络版图书。
2.电子报刊
电子报刊是指出版发行电子化的一种连续性出版物。电子报刊包括两种形式,一种是完全以计算机技术、网络技术为依托而编辑、出版和发行的报刊;另一种是把已经发行的印刷型期刊再次电子化或网络化,提供给读者电子版或网络版的报刊。据统计,在因特网上,1991年有电子期刊110种,1993年240种,1994年400种,1995年700种,1996年千余种,1998年万余种。中国则建立了网上“中国期刊网”。报纸电子化与网络化是当今世界报刊业的发展趋势。国内外各大报纸无不如此,要么将过旧的报纸电子化,要么出版网络版。同传统的报纸相比,网络版报纸不但发行方式发生了“革命”性的变化,而且在检索、复印、传送、收藏等方面具有明显的优势,方便读者。
电子报刊有两种。一是单位或个人专门在因特网上创办的报刊。例如,联想(北京)有限公司的网站FM365.com,创办FM365电子杂志,分新闻、生活、股市、FM365论坛等版,每版下再分成若干栏目,新闻版又分国内要闻、科教IT要闻、体育新闻等栏目。用户进入该站点后可选择栏目订阅。二是原来的印刷型报刊在因特网上发行的电子版。国内外著名的印刷型报刊都发行了电子版,如美国的《纽约时报》、《华尔街日报》、《新闻周刊》,以及我国的《中国电子报》、《中国计算机报》、《新华日报》、《人民日报》、《新民晚报》、《经济日报》、《光明日报》、《扬子晚报》。这些电子报刊在内容上与正版报刊一样,但早于纸介质报刊数小时出版。因特网上的电子报刊因其快速、易于查检的特色而受到人们的欢迎。
2.1.4 按信息加工层次分类
按信息加工层次的不同。电子文献可分为一次电子文献,即原始文献,如事实数据库、电子期刊、电子图书;二次电子文献,如参考数据库、网络资源学科导航、搜索引擎/分类指南;三次电子文献,如专门用于检索搜索引擎的搜索工具指南,比较典型的是WebCrawler,被称为“元搜索引擎”。
2.1.5 按文献格式分类
文件格式是指计算机为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。每一类信息,都可以以一种或多种文件格式存储在计算机中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名是可以帮助应用程序识别的文件格式。同一个文件格式,用不同的程序处理可能产生截然不同的结果。一种文件格式对某些软件会产生有意义的结果,对另一些软件,就像是毫无用途的数字垃圾。因此,电子文献存在的特殊格式决定了电子文献的特殊阅读方式。电子文献按文献格式可以划分为许多格式,现举例如下。
1.EXE文件格式
这是一种在操作系统存储空间中浮动定位的可执行程序运作下的可执行文件,此类文件扩展名分两种:一种是.com;另一种是.exe。部分电子文献采用这种可执行文件格式,其原理就是把多个HTML文件用专门的工具打包合成一个可执行文件。这也是一种比较流行且受人青睐的电子读物文件格式,其最大的特点就是阅读方便,制作简单,制作出来的电子读物相当精美,无须专门的阅读器支持就可以阅读,即对运行环境没有很高的要求。但是,这种格式的电子文档也有一些不足之处,如多数相关制作软件制作出来的EXE文件都不支持Flash、Java及常见的音频、视频文件,需要IE浏览器支持。
2.CHM文件格式
CHM文件格式是微软1998年推出的基于HTML文件特性的帮助文件系统,以替代之前的WinHelp帮助系统,在Windows 98中把CHM类型文件称做“已编译的HTML帮助文件”。CHM支持被IE浏览器支持的JavaScript、VBScript、ActiveX、Java Applet、Flash、常见图形文件(GIF、JPEG、PNG)、音频视频文件(MID、WAV、AVI)等,并可以通过URL与Internet联系在一起。作为一种超文本标识语言,由于它增加了索引、查找、书签等功能,所以使用起来更方便,用浏览器即可阅读。其缺点是:这种格式在Windows 95和Windows 97下不能运行,因而要求读者的操作系统必须是Windows 98或Windows NT及以上版本。如果读者的操作系统是Windows 95,还需要安装一个被称做CHM文件阅读升级包。
3.HLP文件格式
HLP文件格式是早期的操作系统所使用的帮助文件系统。这种格式对读者的操作系统没有太多要求,Windows 95及以后的版本都可以运行。现在很多运行于Windows平台的软件,其帮助文件几乎都是HLP格式的。如果读者一直使用MS操作系统,一般对这两种格式不会感到陌生,两种格式的支持文件在用户安装MS操作系统时已经安装。从Windows 3.0到Windows95,系统使用的帮助文件一直是.hlp格式。现在很多运行于Windows平台的软件,其帮助文件几乎都是HLP格式。当然,随着微软CHM帮助文件系统的推出和操作系统的发展,HLP文件格式很可能会被CHM所替代。
HLP文件格式可以加书签和注解,带索引,允许全文检索。特别是HLP文件格式的全文检索最令读者喜爱,因为它的实现是在HLP编译后,也就是说用户拿到一个HLP格式的帮助文档后,可以自定义全文检索的方式及全文数据库的大小等,这样就无形中使HLP更适合网络传播。HLP文件格式的另一个特点是,所有与用户的交互资料都保存在用户硬盘上的一个隐藏文件.gid中,不需要时可以删除,如果要保留自己的书签、批注等资料,需要保留这个隐藏文件。
HLP文件格式的不足之处是对图形支持不好,仅支持BMP格式。如果HLP中带插图,文件体积会膨胀,因而美观程度不够好。
4.PDF文件格式
PDF文件格式是美国Adobe公司开发的电子读物文件格式。这种文件格式的电子读物需要该公司的PDF文件阅读器Adobe Acrobat Reader来阅读,所以要求读者的计算机安装有这个阅读器。该阅读器完全免费,可以到Adobe的站点下载。PDF的优点在于这种格式的电子读物美观、便于浏览、安全性很高。
PDF文件是网络上非常流行的格式,无论在何种机器、何种操作系统上都可以用做者所希望的形式显示和打印出来,表现出跨平台的一致性,效果非常理想。PDF文件中可包含图形、声音等多媒体信息,还可建立主题间的跳转、注释,并且PDF文件的信息是“内含”的,甚至可以把字体“嵌入”文件中,从而使得PDF文件成为完全“自足”的电子文档。许多“高档”的电子图书都采用此类格式。此外,PDF格式的电子文献还可以用Apabi Reader来阅读,这款软件是由北大方正电子有限公司开发的,软件界面极其豪华气派,功能强大,可以读取多种文件格式,加以本土化的批注、划线、圈注、加亮、书签、全文查找功能,大大方便了读者,是一款不可多得的优秀国产软件。但是这种格式不支持CSS、Flash、Java、JavaScript等基于HTML的各种技术,所以它只适合于浏览静态电子文献。
5.WDL文件格式
WDL是北京华康公司开发的一种电子读物文件格式,国内很多大型电子出版物都使用这种格式。这种文件格式表现出如下几个特点:
一是可以显示文本,并且还可以插入图片,是一个图文并茂的文件格式。采用图文混排方式,一个文件就是一本电子图书,使阅读携带都十分方便。
二是对中文的支持非常好,可以在任何一个非简体中文系统上正确地显示汉字,应用范围非常广泛。
三是可以较好地保留原来的版面设计,可以通过在线阅读,也可以将电子读物下载到本地阅读,但是需要使用该公司专门的阅读器DynaDoc Free Reader来阅读。该阅读器可以从该公司的网站免费下载。
6.HTML格式
这是万维网上最为流行的文件显示格式,支持图像、动画、视频等多媒体形式,所以具有较强的表现力,尤其显示出超链接的功能,可以随意跳转,方便读者阅读。要阅读这种格式的文献,必须首先安装浏览器Internet Explorer、Netscape Communicator或Opera等。
7.图像格式
图像格式是用扫描仪把原有的印刷书籍扫描到计算机中,然后采用图像方式保存下来,但是读者必须借助于图形浏览软件(ACDSEE)才能进行阅读,使用不太方便。此外,采用图形格式还有一个明显的缺点,就是需要的存储空间较大,显示效果较差。尽管如此,该格式在处理古籍及图片较多的技术类书籍时还是具有其特定的优势。
8.TXT格式
这是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别,但不能插入图片,不能做超链接。在众多格式当中,其“个头”无疑是最小的。用Windows所带“附件”中的“记事本”程序可以打开阅读。
9.DOC格式
为解决插入图片等复杂的应用问题,使用的另外一种文本方式就是DOC格式。这种文件格式比较通用,用Windows“附件”中的“写字板”程序或者Word即可打开,它突破了TXT文件的64KB限制,可以包含更多的内容。这种格式的电子文献由于对打印和复制进行了限制,所以可适当保护作者和出版商的利益。DOC格式支持图片的导入,对文件图像文字质量和最后成品大小之间的平衡做了较好的处理。采用该格式的文件一般压缩率都比较高,对大中小电子读物都是很好的选择。
10.CAJ文件格式
该文件格式(CAJ,Chinese Academic Journal)由清华大学光盘国家工程研究中心学术电子出版物编辑部和北京清华信息系统工程公司编辑制作。对于读者来说,访问“中国期刊网”的“全文数据库”,在查找到特定的文章后可以下载相应的CAJ文件。可以使用CAJ文件阅读器CAJViewer在本机阅读和打印通过“全文数据库”获得的CAJ文件。
11.MP3文件格式
MP3文件是由帧(Frame)构成的,帧是MP3文件最小的组成单位。MP3的全称应为MPEG Layer-3音频文件,MPEG(Moving Picture Experts Group)译为活动图像专家组,特指活动影音压缩标准,MPEG音频文件是MPEG1标准中的语音部分,也叫MPEG音频层。它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer-2和Layer-3,且分别对应MP1、MP2和MP3这三种语音文件,并根据不同的用途,使用不同层次的编码。MPEG音频编码的层次越高。编码器越复杂,压缩率也就越高。MP1和MP2的压缩率分别为4:1和6:1~8:1,而MP3的压缩率则高达10:1~12:1,即一分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有1MB左右。不过MP3对音频信号采用的是有损压缩方式。为了降低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分,然后用过滤器滤掉噪音电频,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。
除上述分类外,按数据类型划分,电子文献可分为检索型,参考型,全文型,多媒体型;按记载的表现形式可分为单一媒体型和多媒体型;按功能可分为程序型和非程序型;按公文方式又可划分为电子文件、电子档案。