WARC格式是网络资源存档中使用的文件格式,由互联网保存联盟(International
Internet Preservation Consortium,IIPC)资助,互联网档案馆(Internet
Archive)等机构负责开发,于2009年5月成为正式国际标准,标准号为ISO 28500:2009 Information and
documentation — WARC file format,并于2017年被采标为中国国家标准:GB/T
33994-2017《信息和文献WARC文件格式》。有关WARC格式的详细介绍参见本公众号文章《网络资源归档标准WARC介绍》。
可以说,WARC格式是面向网络资源长期保存的最佳资源保存格式,具有软件生态环境完善、内容丰富、便于管理、易于扩展、支持大容量文件保存等突出优点,在世界各国的图书馆和档案馆等机构中得到了广泛应用。
OFD格式在电子文件管理和档案信息化领域已经深入人心,基本上不需要介绍,国标GB/T
33190-2016《电子文件存储与交换格式 文书类版式文档》奠定了OFD格式的地位。
从GB/T
33190-2016标准名称上就可以看出,OFD格式主要用于电子文件的存储和交换,是一种电子文件的版式格式。当然,OFD格式作为一种“固化”的版式格式,也可以被用来“固化”政府网站上的拟归档网页。为此,国家档案局、中国标准化研究院等单位先后出台了一个行标DA/T
80-2019《政府网站网页归档指南》和一个国标GB/T 39677-2020《OFD在政府网站网页归档中的应用指南》:
两者都是针对“政府网站网页归档”,DA/T
80-2019虽然没有直接出现“OFD”字样,但标准6.3“归档文件格式”中明确指出:“应以符合GB/T 33190-2016或DA/T
47-2009要求的版式文件格式保存页面”。
讲到这里,读者可能会产生疑问:明明WARC格式是面向网络资源长期保存的最佳资源保存格式,并且也已经被采标为国标GB/T
33994-2017,为什么还要去制定并出台以OFD为保存格式的DA/T 80-2019和GB/T
39677-2020呢?况且OFD格式只能保存网页,无法保存形式多样的网络资源乃至整个网站。
事实上,WARC在国内的推广应用情况并不理想,除了国家图书馆早在2007年就已经加入了IIPC,是国内最早使用WARC标准开展大规模网络资源归档工作的单位之外,档案部门只有零星的应用实践(比如郑州市档案局馆在2015年应用WARC格式开展过政府网站归档工作试点),相比较而言,反而是OFD格式在政府网站网页归档中应用更多,这又是什么原因呢?
笔者认为,这主要是由于我们把应用范围限定在了“政府网站网页归档”上的原因。如果是企业或者个人创建的网站,或者大家喜闻乐见的各种形式多样、内容丰富的互联网网站,要进行网站内容的归档,OFD格式显然无法满足要求,只能进行格式转换并归档其中的部分网页,而这恰恰正是WARC格式的优势。那么,“政府网站网页归档”和普通互联网网站归档有什么不同之处呢?
首先:既然是政府网站,肯定要考虑归档格式的自主可控性,OFD是自主可控的版式格式,而WARC格式尽管被采标为国标,但显然不是自主可控的格式。这就如同PDF格式被采标为国标GB/T
23286.1-2009《文献管理 长期保存的电子文档文件格式
第1部分:PDF1.4(PDF/A-1)的使用》,但依然不是自主可控的格式是一个道理。
其次:本文讨论的是“网页归档”,而不是“网站归档”,根据DA/T
80-2019中的定义,网页归档是“将网站中对国家和社会具有保存价值的网页信息进行收集、整理、移交接收的过程”。也就是说归档的目标对象是“具有保存价值的网页信息”,而对于网页归档而言,OFD和WARC都可以满足要求,相对而言,OFD更加适合,WARC反而有些“杀鸡用牛刀”的感觉。
再次:网页归档工作技术性较强,需要选择合适的技术手段来保障归档网页的真实性、完整性、可用性和安全性。其中网页可用性问题最为复杂,采用的文件格式是其核心问题之一。通常各类网页格式,如静态的html、shtml或动态的cgi、asp、aspx、php、jsp等在不同时期或不同版本的浏览器上会出现明显的显示差异,甚至无法正常显示。WARC格式可以被理解为存储HTML语言网页的“容器”,具备与原网页良好兼容性的同时,也继承了其浏览器兼容性不佳的问题,因此严格意义上来说不能确保网页信息在长期保存过程中的可用性。而OFD格式则采用版式固化的方式直接保存归档时间点的网页镜像,有效避免了这方面的问题。
最后
政府网站的建设有明确的要求,不管是网页结构还是网页元素都有规定,便于后续归档操作。国办发〔2017〕47号《国务院办公厅关于印发政府网站发展指引的通知》中明确指出:“政府网站是指各级人民政府及其部门、派出机构和承担行政职能的事业单位在互联网上开办的,具备信息发布、解读回应、办事服务、互动交流等功能的网站”;要求“政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理”;并且在附件中给出了《网页设计规范》。
可以说,国办发〔2017〕47号文件为政府网站的网页归档工作指明了方向,也为OFD格式对政府网站网页进行归档保存扫清了障碍。
当然,对于包含网页在内的所有网络资源而言,采用OFD格式进行归档保存显然无法满足,WARC才是资源保存格式的最佳选择。因此,在国家档案局发表的DA/T
80-2019的标准解读文章《<政府网站网页归档指南>解读》(《中国档案》2020年第6期)中指出:“《指南》在选择网页归档格式时选择了更符合档案工作习惯的版式文件格式,因为,版式文件格式在如实保存网页视觉效果、使用的便捷性和长期保存过程中的可用性上更具优势。《指南》并不排斥在政府网站网页归档工作中对WARC格式的使用,以版式文件格式保存归档网页的同时,以WARC格式对网站的整体内容进行打包保存,可以提升网页档案的整体应用效果。”
这就是WARC格式保存+OFD格式归档的组合方式,发挥两种格式各自的优势,以在政府网站网页归档中取得组合应用、取长补短的效果。如下图所示: