加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关于电子文件元数据,忍不住想说几句

(2023-03-01 10:17:42)
标签:

鸿翼

档案

在近30年档案信息化的发展历程中,要说国内哪几个档案行业标准的发布标志着档案信息化进入了一个全新的阶段,或者说起到了转折点的重要推动作用,那一定是安徽省档案局主导的DA/T 46-2009《文书类电子文件元数据方案》、DA/T 47-2009《版式电子文件长期保存格式需求》、DA/T 48-2009《基于XML的电子文件封装规范》电子文件系列标准。尽管用现在的眼光去看待这三个标准,由于业务和技术都发生了很大变化,已经或多或少凸显出一些历史局限性问题。但在当时,那绝对是档案信息化圣经一般的存在,笔者正是在这三个标准的熏陶下一步一步走过来的,对此深有体会。

 

前面笔者已经写了两篇文章分别针对DA/T 47-2009和DA/T 48-2009,即《我们需要什么样的电子文件格式标准?》《EEP封装?METS封装?还是ZIP封装?》,今天我们再来聊聊DA/T 46-2009对应的电子文件元数据问题。

图片

 

相关重量级标准

首先,笔者想说的是,尽管电子文件元数据的争议很大,但元数据的定义本身没有任何争议。笔者列举三个业界重量级标准中的定义如下:

元数据是指描述文件的内容、结构、背景及其整个管理过程的数据(DA/T 46-2009,术语和定义3.5;ISO15489-1:2001,定义3.12)

元数据是指描述电子档案的内容、结构、背景及其整个管理过程的数据(DA/T 58-2014,一般概念2.16)

元数据是指描述电子文件和电子档案的内容、背景、结构及其管理过程的数据(GB/T 18894-2016,术语和定义3.3)

以上定义除了主语略有不同(文件、电子文件或者电子档案)之外,关于元数据的定义高度一致,都是由四部分组成:内容、结构、背景和管理过程。

图片

我们再来分析一下DA/T 46-2009中的元数据构成:共88项,其中核心元数据45项(必选20项,条件选25项)。构成如下图所示:

图片

这里面存在两个方面的问题,导致DA/T 46-2009在后续推行落地过程中出现很大争议,最终造成雷声大、雨点小的实施效果。

 

问题一

明明电子文件元数据的定义没有任何争议,就是内容元数据+结构元数据+背景元数据+管理过程元数据,为什么还要按照文件实体、机构人员实体、业务实体、实体关系四部分来组织?兜了一圈岂非多此一举?

 

当然,笔者理解DA/T 46-2009起草组是参考了电子文件元数据的殿堂级标准《ISO 23081-1:2006 信息与文献 文件管理过程 文件元数据 第1部分 原则》(后被采标为GB/T 26163.1-2010)中提出的“法规三元组”模型。该模型因其适用于电子文件管理领域,反映了电子文件管理一体化的流程与阶段,也反映了建立具有真实性、可靠性、完整性和可用性电子文件管理元数据所必须具有的法规、人员、文件和业务元数据类别,而成为电子文件元数据标准制定的主要参考模型。

图片

该模型能够得到业界的一致认可,自有其逻辑严密性和理论完美性,但同时也把简单问题复杂化了。为了使标准能够真正落地,具有可操作性,一线档案部门更需要的是简单、易用,好理解。

 

问题二

88项元数据肯定是多了,但45项核心元数据显然更加多了,特别是必选20项,条件选25项(“条件选”表示在特定环境和条件下必须采用)。在实际操作过程中,按照从严原则,往往条件选就被视作为必选,这样45项核心元数据就相当于全部是必选项,而且有很多是无法用计算机系统直接捕获的,这给基层档案部门造成了极大的困难,带来巨大的工作量。

 

DA/T 46-2009是针对文书类电子文件的,简单的理解可以认为基本等同于“电子公文”,作为对比,我们来看一下GB/T 33480-2016《党政机关电子公文元数据规范》中的元数据项,一共18项核心元数据,只有公文标识、密级和保密期限、标题、成文日期四项必选项。毫无疑问,GB/T 33480-2016的可操作性要比DA/T 46-2009强太多了。这后来也被GB/T 39362-2020《党政机关电子公文归档规范》所借鉴。

 

如果说GB/T 33480-2016是电子公文,而DA/T 46-2009实际上是电子档案,两者不是一回事,不能简单的直接对比;那我们可以拿同样是电子档案的GB/T 39362-2020进行对比。GB/T 39362-2020首先继承了GB/T 33480-2016的所有18项元数据(属于背景元数据),并且通过档案管理系统和电子公文系统的对接,可以直接捕获这18项元数据;其次在此基础上增加了部分电子档案背景、内容、结构和管理过程元数据,总共32项元数据,其中10项必选。如下图所示:

图片

其中固化信息是用于维护电子档案结构的,比如可以采用数字摘要比对的方式来校验电子档案结构是否发生改变。当然,这还不足以确定电子档案的信息包结构,还需要有相应的结构模型(相当于DA/T 48-2009之于DA/T 46-2009的EEP封装格式),如下图所示:

图片

 

总结

至此,DA/T 46-2009存在的两大问题基本得到了解决:

 

#1

 

 GB/T 39362-2020给出的元数据模型完全是根据元数据的定义来的,由内容(电子属性)元数据、结构(信息包结构+固化)元数据、背景元数据、管理过程元数据四部分组成,非常好理解,也便于实际操作;

元数据项共计32项,其中必选10项,而且绝大多数都可以通过计算机系统自动捕获,大大方便了基层档案部门的操作,减轻了一线档案人员的工作量。

 

2

 

笔者有幸全程参与了GB/T 39362-2020《党政机关电子公文归档规范》标准的起草工作,也亲身经历了业界大佬们对于电子文件(电子档案)元数据的争论过程。在笔者看来,关于元数据的各种观点实际上不存在对与错的问题,只要我们站在一线档案部门的立场就只有合不合适的问题。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有