加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]以人物为中心——数据库技术在传记研究中的应用问题

(2015-08-25 10:29:37)
标签:

转载

李旻(本文为2013年4月13日首届沪港“人物传记研究与数据库技术”会议应会论文)


在传统的历史学研究中,是绝不会与计算机技术领域中的数据库技术有所关联的。对于绝大多数社会科学研究者,甚至包括其它非计算机专业领域的自然科学研究者来说,数据库只是一种制作数据表格的技术,或者,数据库的运用就是表格的应用。

在中国传统的历史载体中,很早就有接近于表格的内容出现。《史记》一百三十卷中,就有十卷为表,在名称上区分为世表、年表、月表三种,但实际上,从其内容组织上产看,《三代世表》至《汉兴以来诸侯王年表》五卷,与《高祖功臣侯者年表》以下五卷,在体例上存在着根本的不同。前五卷中,表中记事,是以时间的先后顺序,记录于各个时间单位之下,只是根据事实的多寡,时间单位或以世,或以年,或以月;而《高祖功臣侯者年表》以下五卷,虽然在内容的编排上仍然具有时间的先后关系,但它所记录的内容,则是以具体的条目(一个封爵的世系信息)为单位,而不再是时间单位了。

此后中国史家对于表这一体裁的应用,或以年(月日)为经,以事为纬;或以条目为纲,以事为纬。前者有各正史宰辅大臣表,后者有世系表、诸王功臣世表等。

表这种体裁,相对于其它体裁,尤其是传记而言,在很多方面具有特殊的优势。一方面它具有简明、直观的特点,另一方面,它具有信息集中的优点。表的编制,多为按类排比,辅以年经月纬,故仅对其作一浏览,便可掌握其节要;表中的内容,信息密度大,为传递相同的内容信息,所需文字较少,可避免繁冗。

同样也有观点,认为表具有其自身的缺点,例如,表中记事可能只能反映表象,而不能揭示深层次的内容,此点上,表不如传;因果关系不明显,信息割裂,此一点上,表不如纪事本末、志。

事实上,我们所看到的不同体裁,也只是史书著者根据他自身的意图对历史事实编排的结果。本纪,则以时间为序,拣取著者认为的重要事件而记录;志书,则以专题为区划,将相关事件以主题、时间顺序记录;传记的自由度更大,著者可因其喜好,拣选与传主相关事件,组织编排,并体现出著者的主观态度。

而表,在这些体裁中,除了对内容的选择以外,可以说上是最客观的一种形式了。只需将所选取的信息,按照表所预先制定的体例,置于应有的位置即可,除在文字上,较少地带有主观性。也正由于此,非专业读史者多认为表文多不具可读性,除对史实探究者,多忽略之。例如,早些年出版的大众本《史记》,甚至有将十卷表省略而不印的,可见其端倪。近年对各种文献所做的数字化、电子化的努力,也有对表轻视的体现,如以《二十四史》的数字化为例,这一工作,基本上可以说是完工了,但是《宋史·宗室世系表》,仍付阙如。《中国古籍库》电子版,虽然其校对质量一般,但毕竟提供了很多文献的一个最基础的电子文本,但其中涉及到的各文献的表部分,仍未真正地数字化,而只是以扫描图像塞责,这一方面反应了对表的数字化的困难和乏味之处,另一方面也反映了研究者对其的轻视。

而另一方面,作为历史研究的基础工作,历来又有大量的重要研究成果,是以表的不同形式呈现的。远如清初万斯同的《二十四史补表》,对读史来说,大有助益;近如郁贤皓的《唐刺史考》,几搜尽一代地方宦迹。

表的体例不论如何设计,如何改进,如何地推陈出新,必竟只能够在纸面上以二维的形式进行展现。前此比较其它体裁相对于表的优势,也正是因为这种二维的局限性的体现。如果史表继续止步于二维的构造,那么这些局限性也将永远不能打破。

计算机技术的发展,为我们构造多维的“表”提供了一种可能,但是由于学科的距离,这一方面长期以来都只有一些浅层次的应用。多数历史数据库只是延续纸面二维表的方式,作简单的数字化,而没有挖掘出其深层次应用的潜力。数据库与其它计算机相关技术在历史研究中的应用,不应仅是简单地内容复制与拷贝,或是简单地检索,而应是历史书写的重新构造,未来的历史著作,将不再停留于二维的纸面,而是包含立体(三维)乃至多维的呈现。

历史记录的重新解构

从某种观点来看,历史只是历史记录的汇集。历史研究所谓的史实,就是这种历史记录的体现,而这一类史实,是以一种记述来体现的。历史文献,是这些历史记录的来源。历史学家对历史的研究,无不建立于对这些记录的拥有和分析基础之上。使用信息化手段重构历史记录,是数据库应用于历史研究的基础。

来看一个例子,《史记·高祖本纪》的第一句话:

高祖,沛丰邑中阳里人,姓刘氏,字季,父曰太公,母曰刘媪。

对于传统的历史阅读者来说,这句话的意思就是这句话的内容,但对于信息化角度来说,这句话中包含了以下的信息:

人:A,B,C

A:名称:①汉高祖②刘季(还可进一步拆为姓、名等,此处从简)

B:名称:①刘太公

C:名称:①刘媪

地:A,B,C

A:名称:①沛

B:名称:①丰邑

C:名称:①中阳里

关系:

①人B是人A的父亲,人A是人B的儿子

②人C是人A的母亲,人A是人C的儿子

③地B隶属于地A

④地C隶属于地B

⑤人A的籍贯是地C

经过这样的解构,原文的信息就完整了,任何一个历史阅读者都无法从中获取出更多的新的内容来。应用一些固有的信息规则,我们还可以得出其它的结果:

由关系①②可推出人B是人C的丈夫,人C是人B的妻子,记为关系⑥

由关系①⑤可推出人B的籍贯是地C,记为关系⑦

…………

由此,我们将对历史记录的解读,转化为一条条简单的信息主体(人、地)和它的属性,以及信息主体之间的关系(也是一种信息,但关系信息依赖于多个信息主体)。下一步的工作就是设计合适的数据库结构,用于储存不同的信息主体、信息主体间关系。新一代的读史者,如果仅是为了了解这类信息,就可以不用去阅读原始文献的历史记录本身,而可以直接到数据库中根据需要去检索这些信息。辅以计算机的快速检索能力、海量存储能力,我们便可以建设一个历史信息数据库,使得应用这些信息异常得方便。

例如,我们需要了解刘季其人时,便可首先通过在数据库中检索其名称属性为“刘邦”的所有的人,最终找到我们所要找的人的唯一ID,此处为“人A”(实际应用中是更长的无直接意义的编号)。

随后我们便可检索A的全部属性,全部有“人A”参与的关系,及这些关系的属性。进一步我们可以检索参与这些关系的其它人,并展开检索其信息。

如果按此方式,我们将《二十四史》进行一次全方面的处理,形成了相应的信息库的话,我们不旦可以完全丢掉类似于《二十四史人名索引》这类的工具书,对于只需要了解信息的情况下,我们甚至不必去看原始文献,直接通过该信息库就可获得。

不同领域的历史研究者,可以根据不同的研究对象运用不同的信息主体类型。甚至原文本,也可处理为新的形式,而与信息库连成有机的整体:

<person id=A>高祖</person>,<loc id=A></loc><loc id=B>丰邑</loc><loc id=C>中阳里</loc>人,姓刘氏,字季,父曰<person id=B>太公</person>,母曰<person id=C>刘媪</person>。

通过这种方式处理过的数字化后的原始文献,在检索能力和相关能力上,与原先的“裸文本”其高下陡见。

以人物为中心的信息结构相关问题

按照前述的信息解构方式,历史研究的信息的细节,被划分为信息主体与信息主体之间的关系。对于一般的传统的历史研究而言,可设计出这样的基本信息结构。

信息主体:人

属性:名称(可进一步细分),性别,出生日期,死亡日期

信息主体:人群(王朝、国家、组织、团体、机构、党派或其它)

属性:名称,创建日期,消亡日期

关系:人与人之间的关系(如血亲、姻亲、其它社会关系)

属性:人ID甲,人ID乙,关系描述

关系:人与人群之间的关系(如党派,职务担任……)

属性:人ID,人群ID,加入日期,退出日期,人在人群中的头衔(如职位名称)

关系:人群与人群之间的关系(如隶属关系,沿革演变关系等)

属性:人群ID甲,人群ID乙,关系开始日期,关系结束日期,关系描述

关系:多人、多人群之间的复杂关系(不包含于以上的复杂事件)

属性:零至多个人ID,零至多个人群ID,事件描述,事件发生日期,事件结束日期

以这些基本结构为基础,就可以将所有感兴趣的内容根据其关系的实质加入到合适的表结构中去,并为所利用。

笔者以此理论为基础,主要针对政治史研究所感兴趣的各个方面,自2002年起至今,不断探索并独力建设了一个信息库,截止至2013年4月,收录历史上的“人”74000余条,“人群”近27000条,各类“关系”近400000条,并记录其属性,已初具规模。

此一建设过程,同时也是对史料的解构过程,并在这一过程中,取得数量庞大的考证结论,其结果亦均直接体现于信息库中。信息整理过程中,至少具有以下的一些好处:

1. 易于发现普通文献阅读过程中一般不易发现的问题,如

中华书局本《后汉书·列女传卷84》鲍宣妻传中一句“宣、哀帝时官至司隶校尉。”,处理中发现,汉宣帝、汉哀帝之间并不相连,中间还有元帝、成帝两朝,达数十年,故可知此处“宣”字,不是“汉宣帝”,而是指“鲍宣”,中华书局本的顿号衍,应删。

2. 易于发现不同来源文献中的互相矛盾的问题,如

《晋书·安帝纪卷10》记义熙十一年“八月丁未,尚书左仆射谢裕卒,以尚书右仆射刘穆之为尚书左仆射。”,处理中发现义熙十一年八月没有丁未。处理《晋书》、《南史》谢裕本传时,都记其卒于义熙十二年,《南史》中同样记载刘穆之转尚书左仆射是在义熙十二年。知《晋书·安帝纪》此条误系入十一年内。

此类例子比比皆是,到现在为止,仅在现行中华书局版《二十四史》中,笔者就已经发现此类问题达600多条,且其中绝大多数结果未经正式发表,足证这一信息处理方法,仅就其对史实的订正校勘而言,其有效性亦是不言而喻的。

20世纪人物传记索引与数据库应用

作为国家社会科学重点项目《20世纪中国人物传记资源整理与数据库建设研究》(以下简称《20》)中数据库建设子课题的负责人,主要工作是设计合理、有效的数据库建设目标,并提供技术支持,以完成资源整理的目标。

课题所依托的《20世纪人物传记索引》(以下简称《索引》)一书,是项目组制定数据库建设的最重要的参考依据,但宥于纸质索引的局限,仅仅依靠《索引》一书中的内容来设计数据库建设目标,是不够的。

原《索引》至少存在着以下的不足:

1. 原书由于历史原因,被分为两部分,而两部分中的体例不尽相同。由于两个部分划分的依据,是以索引资料的出版日期划分的,而《索引》本身则是以传主为主要顺序的。虽然在数据库系统中,有着充分的检索手段,以何顺序并不重要,但是,以《索引》为基础,至少需要将两个部分重新整合成一个完全的整体。原《索引》以人名为依据编排,至少存在着一人多名误为多人,多人一名误为一人,前后两个部分分别编制,更增加了这种可能性。

2. 原《索引》编制过程中,部分索引信息存在着不规范、不准确的情况。这有几个原因,一是依据的其它目录本身就是不准确的,二是索引出处时存在着随意改名的情况,三是抄写录入时出现的错误。

因此,建设目标中,要求对所涉及传主按照“人”,而不是“人名”作出重新区分,“人”必然依赖于其本属性的完整,否则亦无从谈起对“人”的区分。仅有两个相同的名字,谁也不能判断是不是同一个人的,必须对于“人”增加其如生卒年、性别等基本属性,方可以资区别。

《20》项目的建设目标,应不局限于简单地提供简单的出版、题头等信息,并提供相应的全文文本及图像。基于这一目标,数据库建设中,对于信息主体,我在前述“以人物为中心的信息结构”基础上,增加了如下的结构:

信息主体:传主(引用“人”,保持ID一致)

属性:同前述的信息主体“人”

信息主体:出版物(包括书籍、专著、连续期刊、报纸)

属性:题名,出版日期,分类主息,标准书号、期刊号,著作者信息

信息主体:文章

属性:题名,文章责任者信息,数字图像数据(PDF格式),数字文本数据(TXT、XML格式)

关系:传主关系

属性:文章ID,传主ID

关系:文章出版情况

属性:出版物ID,文章ID,出版信息(报纸的日期、版号,书籍、专著的页码,期刊的刊号、页码)

进一步的工作,可以将著作者信息作为“人”与“出版物”之间的关系,单独再抽出来。项目建设至今,基本已经完成了目录建设、架构建设工作,现包含传主57595条(仍有重复条目需进一步合并),出版物18741条,文章(含出版情况信息)163317条。随后的工作,将是更进一步的纠错、增加新发现条目等。但海量的工作量,仍集中于数字化的图像数据、文本数据的产生和处理,尤以后者为剧。

无论如何,数据库的建设与传统社会科研项目的工作相比,有其独特性。传统的社会科学研究一般包含三个阶段,资料的收集,资料的整理,结论的作出。这三个阶段几乎是线性的关系,在结论没有作出前,资料工作做得再多,也看不到直接的效益。而数据库的建设,取决于前期正确的设计、合理的目标,而其数据整理过程,同时也是结论作出的过程,因此,具有进行长效性工作的基础,而且对于特定个人的依赖也有所减少。

全文类数据库的建设与应用

近年来,历史文献类数据库的建设已经初具规模。早期的全文数据库,多通过人力基于底本输入,其质量除受到底本的限制以外,最大的局限性是输入者的个人素养。但由于此类早期的尝试中,输入的量一般都不大,因此校勘工作也较容易进行,质量较能得到保证。

大型的文献全文数据库建设中,如以台湾中研院的“瀚典”系统为例,则由于被作为一项长期工作来进行,且有一定的项目经费来保证,也投入了较多的校勘努力,因此其质量也较一般地要好,错误率较低。

近年来,尤其是在大陆,大型文献类全文数据库的建设不断涌现,典型的以《中国基本古籍库》为例,包含了约几万种古籍,可以说基本覆盖了一般意义上的“中国基本古籍”,但在这种建设中,也存在着一些严重的问题,主要包括:

1.电子化基本上依靠OCR(光学字符识别)以降低工作强度,但带来的形近致讹问题非常严重,错误率较高,远达不到一般出版对错误率的要求。

2.电子化过程中存在着避繁就简的倾向,例如对文档中的表,也一概使用扫描图像来代替数字化,大大降低了其使用价值。

3.对于文献基于繁体/简体的基本选择,存在着矛盾意识。从面向大众化的角度,要求使用简体;从面向研究人员的角度,要求保留繁体。处理的结果往往是号称提供一个简繁皆可用的版本,最终却包含了许多误繁误简的字样。

4.计算机专业人员参与不够,尤其是汉字编码专家参与不足。在此类文献数据库建设中,计算机专业人员的职责并不仅仅是提供一个使用界面那样简单。早期数字化过程中,受到BIG5(台湾)、GB2312(大陆)等编码字符集容易的影响,大量字符无法正确表示,这为对古籍的数字化带来了巨大的影响。随着Unicode 4.0以及更新的统一汉字编码方案推出后,该问题已经获得了巨大的进步,但仍有少量非标准汉字需要通过一种标准的方式来进行处理。

为此,文献全文数据库的建设目标,究竟是什么样的?是提供一个基本完全的文本,但其中存在着大量的错误,以至于研究者在使用时仍然必须去核对原文,还是宁肯暂时不要先求全求美,但是每次建设完成一部分内容时,都能够提供一个足够好的文本,甚至今后正规文献引用可以直接引用电子文献的网络链接?另外,就是总体上要对文献全文数据库的建设要有一个统筹规划,避免重复建设,你做过了我再做一遍。

也正是如此,由于现在的全文类文献数据库,存在着错误较多的问题,很多会附上原文献图像以作参考。对于有着版本研究价值的古籍文献来说,文献图像本身就有着自身的价值及意义,但全文数据库的建设,不能因为附有了图像,就降低了对文本校对质量的要求。

《20》项目中所涉及到的文献,自1900年至2000年为断限,其文献中绝大多数的属于各种印刷类版本。因此其文献原图像的价值,仅当文本不能提供正确的内容时,才是至关重要的。提供正确内容的数字文本,需要大量的校对工作投入,这一工作内容,仍无法使用其它技术手段加以改进,大量的仍然依赖于人力(以及相应的财力),因此,对于这一问题的解决,只能仍然是停留在一个美好的期望之上。

文献数字化中还有的一个问题,就是版式的问题。文献的原始版式各有不同,非常复杂,有直排横排之分,有正文夹注的区别,从文献的使用角度来说,版式,归根到底是由纸的二维空间强加给其内容的一种限制,除了版本上的研究意义以外,既然在系统中保留了文献的原始图像内容,那么数字文本中就不应该也不需要再保留与版式相关的内容了。有些文献数据库(如《中国基本古籍库》)试图做到图、文两种版本的显示版式完全一致,为处理过程带来了大量的额外工作,其实际意义是不大的,实在不如将这些额外的工作量投入到校对中去,以提高全文文本的可使用性。

文献类数据库的开放式维护

无论投入多少的工作和资金,我们都无法保证文献的质量达到完美。即仍以《二十四史》为例,中华书局近年来展开的新校《二十四史》工程,仍只能将其质量向前推上一步,而非完善。这是因为,首先,主持校对者,可能看不到有些新的校勘意见,即使这些意见被学术界所认可;另外,新的校对工作,必然有一个计划,不可能无限制地进行,必须等待书籍的再版方可展开。对于绝大多数的古籍文献而言,已经不再有他们的著作权人(虽然仍有版权方存在),因此一旦版权方不再决定对其进行新的校订,那么即使出现了新的正确的校订意见,这个世界上流传的也将永远是有着缺憾的本子了。

为什么我们的古籍文献的“定本”不能是一个电子版本呢?电子版本具有广泛的成为定本的优势:

1. 易于修改,校订可随时进行。

2. 公开的方式,使得校订意见能为众人所见,为众人所评。

3. 不会产生源自于再版而新产生的排印等错误。

4. 具有可检索、统计性,可用性远较印刷本强。

据报导,美国很多报纸由于纸媒方式的盈利下降,都有计划今后可能只发行电子版本,少发行甚至不发行纸质印刷物了。因此,古籍文献最终以“电子书”(或网络书)的形式为学术界提供最优的定本,并不仅是一个想象,而是可以预见得到的未来。

即使在这种理想还不能成为现实的今天,以网络为核心的文献的开放性维护模式,仍然具有非常的重要性和现实性。前文述及的台湾中研院“瀚典”系统,其文本可靠性较高,笔者仍然在数年前使用过程中发现其《史记·夏本纪》在录入中漏了整整一行,便通过其系统反映了此一问题,并得到了正面的答复,系统也补上了这一行。

由此看来,前面提出的文献数据库全与精的矛盾,仍然存在着解决的方式。从效率角度而言,后期修改错误,远比通过精校来达到相应质量要容易。印刷类不能采取这种方式,是由于代价太大,而对于网络、数据库来说,这样的代价是完全可以接受的。

因此,并不用太担心早期提供了一个仍然存在着错误的电子文本文献数据库,必竟我们信奉“有比没有好”,只需要保证它同样也是一个质量在不断改进(而且也永远不会倒退)的数据库,就一定能够成功。

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有