电子文件长期保存:理论与实践
上QQ阅读APP看书,第一时间看更新

第三节 数字保存的发展历史及现状

一 欧美数字保存的发展历史及现状

1994年RLG(研究图书馆组织)对企业、博物馆、档案馆、图书馆、出版社、学术团体和政府机构等各类组织机构的数字信息保存状况展开全面调研,完成了《数字信息归档报告》并于1996年发布,该报告揭示了数字信息长期保存所面临的组织、技术、法律、经济等关键问题,分析在解决每一类问题时所遇到的主要障碍,并对消除每一种障碍因素提出了行动建议,研究技术更新的替代方案。[6]该报告对于数字信息长期保存各种问题的揭示引起了政府及文化遗产部门的广泛关注,使人们深刻认识到数字信息的脆弱性及难以持久保存,报告还首次提出了数字信息长期保存的核心概念和术语,如“可信数字保存系统的认证”、“格式登记”、“成本模型”,以及“完整性”和“真实性”等基本术语,为数字信息长期保存理论与实践的进一步发展奠定了十分重要的基础。

从1996年至2014年,数字保存领域的发展十分活跃。数字保存理论及标准是基础,而在实践中不断变化的保存策略及保存工具又使理论及标准得到了进一步的拓展。国际标准OAIS参考模型在数字信息长期保存领域发挥了重要作用。OAIS最初由美国空间数据系统咨询委员会(CCSDS)于20世纪90年代开始研制,1996年发布了建议草案并作为业内标准得到迅速广泛的应用,最终于2003年正式成为一项国际标准(ISO 14721:2003),并于2012年更新。OAIS不仅提出了数字信息长期保存的功能模型和信息模型,为构建可信数字保存系统的基本框架及研制数字保存元数据方案提供了重要的参考,而且还构建了一套概念模型,规范了数字保存的基本术语,比如,OAIS对于“数字迁移”的规定与很多人对“迁移”的理解有所不同。OAIS认为,由于技术发展和存储介质物理性能的老化,无论今天数字资源维护得多好,随着时间的推移,最终都会将大部分的资源转移到不同的媒体或不同的硬件或软件环境中去,以维持它们的可存取性,即“数字迁移”。按照信息丢失风险依次增加的顺序,OAIS将数字迁移划分为更新、复制、重新包装和转化4种方式。在数字保存标准体系中的另一类重要标准是元数据标准。数字保存元数据标准在被广泛采用的元数据标准框架如METS(2001)和PREMIS(2003)的基础上得以研制,而OAIS所提出的“信息包”概念及对提交信息包、档案信息包和分发信息包的不同分类,为数字保存元数据标准的制定提供了重要的依据和参考。

组织机构通过构建自己的数字保存方案及其合作研究积极地推动了数字保存实践的发展。例如,CEDARS项目和丹麦国家档案数字保存测试平台(Dutch National Archief’s Digital Preservation Testbed)都运用了严格的科学原则发展和测试了多种数字保存策略。最早的可信数字仓储一般由国家文化遗产机构建立,如:澳大利亚国家图书馆、荷兰国家图书馆和英国国家档案馆相继在21世纪初建立了数字库。随着高质量的数字保存系统软件的出现,数字保存不再局限于国家机构层面,也使中小规模的机构如大学图书馆、地方档案馆及企业档案馆建立自己的数字保存库成为可能。大量的开源软件如Fedora(1997)、EPints(2000)、DSpase(2000)不断涌现,商业软件如Safety Deposit Box(2003)和Rosetta(2008)也进入了市场,最新的基于云计算的DuraCloud(2011)和Preservica(2012)提供了基于云服务的数字保存模式,这些都为小型机构建设数字保存系统提供了条件。同时,可信数字保存库管理软件和开发工具如PRONOM technical registy(2002),JHOVE characterization tool(2003)以及DROID format identification tool(2005)在很多组织机构的数字保存系统开发中发挥了重要的作用。另外,对于网页的长期保存实践几乎与网络相伴而生,从1996年Internet Archive和1997年Nordic Web Archive的最早建立到地方、国家和国际的Web档案馆项目都推动了网页信息长期保存的实践发展。

2000年以来许多数字保存研究项目得到了发展,如美国著名的NDIIPP(2000)和欧盟委员会的各类数字保存研究项目包括ERPANET(2001)、DELOS(2004)、Digital Preservation Europe(2006)和Planet(2006)等。数字保存领域的联盟和基金会在数字保存中发挥了重要的推动作用,如英国的数字保存联盟Digital Preservation Coalion(DPC)和数字管理中心Digital Curation Centre,丹麦国家数字保存联盟Dutch Nationale Coalitie Digitale Duurzaamheid,以及国际开放星球基金会Open Planets Foundation。上述联盟组织和研究项目的开展标志着以数字保存业界联盟为基础的、在国家层面和国际范围内的合作得到了深入发展。

在数字保存早期,人们对数字信息的长期保存常常依赖于对实物的保存,着眼于媒介储存,强调发展更多耐用的媒介以及复制更多耐用的存储媒介,将数字信息打印在纸上就是一个显著的例子。而新的保存模式强调覆盖文件生命周期整个过程,在数字信息产生之时就应该主动保存,而且与更多的信息保管者进行合作并获得其支持尤为重要。2000年以后,转换、更新和技术保存等依然是最基本的保存策略,但是具体实现方式更为丰富而且不断发展,如:数字考古、文件格式标准化、保存大量复印件和发展可长期保存的元数据、比特流复制、通用虚拟计算机的运用、大容量存储系统,甚至包括所谓的“无作为”策略等等,上述数字保存策略的结合使用比单独使用其中的一种更为有效。近些年来,数字保存的关注点已经由技术角度转换到数字保存的可持续性问题上。其中,两种关键的认识使人们开始转换新的保存模式并建立新的保存策略和实践:一种认识是,将数字内容与技术分离;另一种认识是,应当使更多的机构和组织参与数字保存过程,并在相关政策的引导下协调它们的活动。

2004年,联机计算机图书馆中心和图书馆研究组织(OCLC/RLG)公布了一项覆盖13个国家的国家图书馆、大学图书馆、研究性图书馆、企业、档案馆、博物馆等各类机构数字保存实践的国际调查。在48个被调查者中,92%正在实现(或准备实现)标准化、迁移或升级,同时,大多数被调查者表示他们拥有多种保存策略。最受欢迎的策略就是比特流(位流)保存,有85%的被调查者实施了该策略,紧随其后的策略是限制访问和标准化(这两种都是控制版本过多的方式)以及迁移。[7]2011年,ARL(研究图书馆协会)对其72个成员的数字保存情况调查表明,人们对于数字保存政策重要性的认识增强了,超过50%的受访者表示他们已经有了相关政策。在这项调查中,主要的数字保存策略包括:备份(93%的实施率),存储于安全系统中(76%),校验(63%),迁移(50%),更新(47%)以及升级(7%)。许多机构在数字保存过程中采用了相关软件,而DSpace是最为流行的一种。[8]

2008年9月,Boyle,Eveleigh和Needham 对英国地方的档案数字保存状况展开了一项较为全面的调查,共收到38个机构的反馈问卷。[9]调查结果表明,绝大多数英国地方档案馆对数字保存的重要性有基本认识,74%的档案馆了解一些基本的数字保存资源如英国数字保存联盟DPC,50%左右的档案馆知道数字信息长期保存国际标准OAIS以及大英图书馆和英国国家档案馆在数字保存领域的重要举措。但是,有三分之二的档案馆不知道其他国际标准如PREMIS和METS以及重要的数字保存项目如“东英格兰数字档案馆区域试点(East of England Digital Archive Regional Pilot)”项目和Paradigm项目。在所有被调查对象中,约47%的档案馆已经制定了数字保存政策,但是,只有极少数档案馆在此基础上引进了相关标准及采取实际行动。大多数(79%)档案馆认为自己是被动地满足数字保存的需求,而不是主动地加强自己的数字保存能力。虽然档案馆都拥有接收进馆的原始数字资源,但是它们通常缺乏对这部分数字资源的详细了解,比如具体的案卷或文件规模,而且普遍存在各种已经过时的文件格式。由于缺乏对馆藏数字资源基本状况的调查和信息集中,大多数档案馆无法执行任何形式的数字保存计划。多数档案馆采取了备份、服务器存储等数字保存方式,87%的档案馆拥有一些存储在CD或DVD等光学介质上的数字信息。42%的档案馆只是简单地将数字信息存储在其原来的介质上,只有极少数档案馆实行了更为复杂的操作,如生成校验或者转换成标准格式。在所有的调查对象中,只有一个档案馆应用了内容管理系统,一个档案馆采用了外包存储,接近一半的档案馆使用了电子文件管理系统。此外,三分之二的地方档案馆在数字信息的利用方面不尽如人意,它们没有开发规范高效的用户检索系统,只能在线提供图像浏览而不支持对其他类型数字资源的在线利用。

数字保存的最主要障碍是此次调查的核心问题。调查结果在意料之中:资金不足是最主要的障碍,其次是缺乏IT支持和技术准备,再次是缺少政策上的支持。除了上述三种主要障碍因素以外,档案馆工作人员的动力、领导能力、时间、战略合作伙伴缺乏等也是阻碍数字保存的次要因素。总体上,档案馆对于数字保存具有积极的愿望,但是资金和技术不足是最大的障碍,而加大财政投入和加强对档案人员的技术培训被认为是解决之道。总之,根据2008年的此次调查,英国地方档案馆在数字保存中的问题主要是资金和技术能力不足的问题,而不是缺乏数字保存意识和愿望。因此,在数字保存中试图采取一种完美的、一步到位的解决方案是不现实的,只有逐步积累实践经验才能有所突破。

二 中国大陆地区的数字保存状况

2006年,武汉大学刘家真教授课题组对我国57个机构的数字资源保存状况进行了一次调查。[10]调查对象为高校图书馆、城建档案馆和综合性档案馆,调查主要针对数字资源类型、数字资源保存状况和数字资源的灾备措施三个方面。调查结果表明:第一,我国馆藏数字资源构成复杂,表现为数字资源类型较多、格式多样、存储介质复杂。从资源类型来看,数据库、数字图片和多媒体三种数字资源在档案馆、图书馆和信息中心都有收藏,但它们在不同类型机构所占比例存在差异性,总体上档案馆的数字资源少于图书馆和信息中心。在档案馆系统内部,75%的档案馆拥有数字图片,60.71%的档案馆拥有数据库,46.43%的档案馆拥有多媒体资源,而100%的图书馆和信息中心都拥有数据库。此外,在同一单位内部,所有被调查的图书馆同时拥有数据库、数字图片和多媒体三种数字资源,超过60%的信息中心拥有上述三种数字馆藏,而档案馆的数字馆藏类型相对少,近一半的档案馆只拥有两类数字馆藏。第二,数字资源存储的主流格式开始浮现。虽然数字资源的储存格式复杂,但主流格式已经初见端倪,如图片用jpg、tif、pdf格式,数据库用Sql-server,多媒体选用mp3、avi、wav的居多。第三,存储介质多样化,光盘所占比重很大。图书馆和档案馆的数据储存在多种介质上,包括光盘、软盘、磁带、硬盘等,其中,约95%的图书馆和89%的档案馆都保存了大量光盘,这与前述87%的英国地方档案馆拥有光盘存储介质的情况甚为相似。第四,保管状况不容乐观。第五,数据存储介质的物理损伤严重。71.40%的图书馆、32.10%的档案馆和25%的信息中心都存在介质的物理损伤情况。第六,数据无法读出现象在图书馆(47.60%)和档案馆(14.30%)都存在。第七,数据备份环节较弱。

该调查报告进一步分析了我国数字资源保管不善的三大隐患:大多数的数据在无控制状态下产生,忽视对数据读出的维护,欠缺数据维护的相关知识。不少机构对数字资源的脆弱性认识不足,尽管大多数被调查对象都很注意改善数字资源的存储环境和保管条件,但是因为操作、保管及日常维护不当,使得载体受损较为严重,而针对技术过时和载体受损没有及时采取更新和迁移或其他技术策略。这与前述42%的英国地方档案馆将数字信息简单地存储于原有介质,没有主动采取更新和迁移的情形甚为相似。可见,我国图书馆和档案馆等文化机构虽然对馆藏数字资源有长期保存的意识,存储环境和保管条件也有保障,但是对数字信息的脆弱性还是认识不足,欠缺数据维护的知识和技能,而且缺乏必要的数字保存规划和制度,不能及时应对技术过时和载体老化及受损状况。

综上所述,从1996年RLG的数字信息归档工作组发布的《数字信息归档报告》率先揭示数字保存中的种种问题,2006、2008年中英两国在数字保存领域的基本状况调查,以及RLG先后在2004年和2011年对众多成员数字保存状况的调查中,我们可以发现,人们已经普遍意识到了技术过时和载体老化对数字信息长期保存的威胁,数字保存的原则、政策、标准和技术策略也在实践中不断发生变化:从早期着重依赖于实物保存和媒介储存的被动保存模式,发展到覆盖整个数字信息生命周期、从数字信息形成之初就开始的主动保存模式;数字保存的关注点由单纯的技术角度转移到了数字保存的可持续性问题,数字内容与技术相分离的观点和由此而形成的新的保存模式受到关注;越来越多的组织机构开始制定和实施数字保存政策;区域、国家和国际范围内的数字保存合作得到了较大发展,更多的机构和组织以业界联盟的形式参与到了数字保存中,并在政策和合作协议的框架下协调其活动;数字保存的技术策略趋于多样化并处于不断发展之中,诸如:数字考古、比特流复制、采用大容量存储器、备份、存储于安全系统中、迁移、更新、限制访问、标准化格式等,而多种技术策略的结合使用成为业内共识;载体和保存格式一直是数字信息长期保存关注的核心内容,对于数字信息长期保存载体性能的探讨,以及文本、图形、图像、音频、视频、数据库、超文本、多媒体等不同类型数字信息的标准化格式的演进和发展十分活跃。