加载中…
个人资料
@打鱼的
@打鱼的
  • 博客等级:
  • 博客积分:0
  • 博客访问:3,911
  • 关注人气:6
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

[转载]古籍数字化的历程和数码文献学的成立(一)

(2015-03-29 19:16:43)
标签:

转载

 

    古籍数字化(古籍数码化)是数码文献学的内容基础。只有当古籍数字化已经达到一定的水平和相当的数量,同时,在数码文献学的技术基础(电脑汉字处理和检索技术,图像扫描压缩和图像—汉字转换技术等)也达到相应的水平之时,数码文献学才有条件得以成立。

 

    为此,让我们简短回顾一下中国古籍数字化的历程。

 

    古籍数字化是从电脑技术比较发达的西方开始的。1978年,美国的P. J. Ivanhoe等人运用计算机编制了OCLC(联机数据库)《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学问索引》、《王阳明传习录索引》和《戴震孟子字义疏证索引》等,这是中国古籍数字化的开端,也是中国数码文献学的开端。此前,1975年,当时在联邦德国汉堡大学任职的吴用彤编制出版了用电脑编制的英译本《诗经索引》,这是首次运用电脑编制关于中国古籍的索引,但它并非对汉字的中国古籍的电脑处理,而且其成果是用纸质媒介而非数码媒介,所以只能算是有渊源关系,却非真正的起源。30年来,美国、欧洲、日本和韩国等地的汉学家以及华裔华人中的古代文化爱好者,一直都有人在进行古籍数字化的工作,但规模不大,有机会时我们再专文介绍。

 

    国内的古籍数字化工作,现有记载最早的是80年代初彭昆仑先生开发的“《红楼梦》检索系统”,该系统据称1983年11月初步建成,1987年宣布,但似乎仅在开发者手中,并未流传到社会。真正成规模的古籍数字化建设,起步较早的是台湾地区。从1984年7月起开始“数位典藏”计划,1993年起陆续上网。台湾“中研院”历史语言研究所先后开发了汉籍电子文献全文数据库(“瀚典”网站):

     http://www.sinica.edu.tw/ftms-bin/ftmsw3

 

    文物图象研究室资料库检索系统(简帛金石资料库检索系统):

     http://saturn.ihp.sinica.edu.tw/~wenwu/search.htm

 

    史语所藏内阁大库档案,多数为内部使用:

     http://archive.ihp.sinica.edu.tw/mct/index.htm

    其中“人名权威资料查询系统”(以清人为主,兼及少量明人,共一万余笔)对外开放:

     http://archive.ihp.sinica.edu.tw/ttscgi/v2/ttsweb?@0:0:1:mctauac@@0.30188007972440467

    这个查询系统的智能化程度很高我特别喜欢。例如,我们在“人名权威资料查询”网页,键入要查询的人名“纪昀”(用繁体字)后,点击“执行检索”,就显示出纪昀的姓名字号、生卒年、籍贯、相关人物传记资料索引中的结果、史料引文、专长、出身、历任职衔、任期及史籍出处,最后是著述和关连(亲属、师生等)。特别是职衔、任期及出处这一栏,按年份排列,俨然一部简略年谱,最具智能化的特征,这说明他们事先在文本素材中已经作了大量的学术标记,跟一般的全文自动通检或者模糊通检不可同日而语。从某种角度说,这代表了今后数码文献数据库和数码文献网站的努力方向。

 

    宋元明清数据库(可查“历代名人奏疏”,现已不通——大陆地区现已不通,台湾和其他地方是否可通,未知。下同):

     http://www.ihp.sinica.edu.tw/database/index.htm

 

    台湾大学开发了中华电子佛典线上藏经阁大正藏全文检索系统:

     http://www.cbeta.org/result/search.htm

 

    元智大学则有“网络展书读”中华典籍数据库,现已不通:

     http://cls.hs.yzu.edu.tw/

 

    台北故宫博物院有古典文献全文检索数据库(寒泉网站),现均已不通:

     http://libnt.npm.gov.tw/s25/index.htm,又

     http://140.122.127.253/dragon

 

    罗凤珠先生个人开发了《红楼梦》网络教学研究数据中心《全唐诗》《全宋词》《宋代名家诗》网络版等,这个网站可能是最早搬上互联网的古籍数字化成果,可惜现已不通:

     http://cls.admin.yzu.edu.tw/

 

    此外,有未知主办者的“中华文化网”,很可能是网友利用“瀚典”、“寒泉”、“网路展书读”等的成果构建的,但8个栏目中只通诸子百家、历史传记、文学艺术3个栏目,倒是颇便浏览,只是速度不快:

http://ef.cdpa.nsysu.edu.tw/ccw/

 

    还有一些在线数据库,如《古今图书集成》、《台湾文献丛刊》等,《丛刊》能在“瀚典”中检索,但其能够同时对勘图版的主站现已不通;《集成》见:

     http://192.192.13.178/bookc/ttsweb?@0:0:1:book1@@0.6067305296151295

 

    粗粗列举一些网站为例。其中部分网站,我们有机会时再细细介绍其特色和优缺点。总的说来,台湾地区的古籍数字化有如下四个特点
 
    一,文献选择有目的性、有计划性。所取典籍一为外界较罕见的文献,如简帛金石文献,大内档案资料等;二为中国传统文化中有代表性的著作,三为有关台湾的重要文献。很多都是大部头的,成系列的。
 
    二,注重选择底本版本,校勘较为精审。“数位典藏”计划有很多高水平的学者参与其事,尤其是其最高研究机构“中研院”为主,故做事认真,带有强烈的学者整理文献的风格。所取底本多数有所交代,有些文献如二十五史不但经四五个校次,而且参校过不同的版本。
 
    三,第一期“数位典藏”经费充足,故以学术的态度而非商业的方式做事情,事后也不以这些成果来化公帑为私财,很多成果供公众共享(尽管不是全部,有些是只提供给研究机构内部使用)。但似乎经费用完以后就不再继续干活,很多网站上的内容近十年来未曾增加,很多网站都已不通(也许只是大陆接不通,待考)。
 
    四,大五码字库以外的字,采用自造字,使用者需要下载安装其“中研院”自造字库,不利于文本的广泛流传。
   

0

  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有