加载中…
个人资料
如舸斋王依民
如舸斋王依民 新浪个人认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:295,059
  • 关注人气:448
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

亂碼缺字拼字對照表

(2009-09-19 01:52:50)
标签:

数字文献学

古籍数字化

纯文本古籍

分类: 数字文献学

 

附件:亂碼缺字拼字對照表 V.1208

下载地址:

http://1000eb.com/bujl

 

 

在本文上面的鏈接中,我將提供一部史上最牛的“字典”——亂碼缺字拼字對照表。當您在純文本數字古籍中看到亂碼、缺字和拼合字的時候,您可以查這本“字典”,馬上就能知道它究為何字,快捷地解決問題。附帶說明一下,本“字典”使用CJK大字符集,建議您也安裝使用該字符集(可從本博首頁右側“工具和軟件”欄下載Unifonts.exe)。

 

在使用純文本古籍的過程中,最頭痛的事莫過於文本中的大量亂碼和缺字。不過,這些亂碼和缺字卻也并非完全“雜亂無章”的,它們本身其實是攜帶著信息的;換句話說,亂碼也是字,缺字還是字,別拿豆包不當乾糧。比如我們讀到這樣的文字:“洪波汨流川陆连涛原隰通望弥漫不已滥为灾”,或者:“不须石上尤磨折长在佳人в髻傍”,我們用百度硬盤搜索(也可以用google硬盤搜索等等硬盤搜索工具)搜索一下“”和“в就可以得到類似下列結果:

 

亂碼缺字拼字對照表

 

亂碼缺字拼字對照表

 

拿其中某個句子與相應的可靠文本對比,我們可以得到結果:“”是“”字,而“в”則是“”字,那么,在很多(不是全部,詳下)文本中,它們所代表的是相同的字。我在校補某一文本的亂碼缺字時(比如《全唐文》),總是把發現的亂碼缺字順帶在百度硬盤搜索上搜索,同時校補硬盤中的其他文本。這樣一來,一個晚上只能校補兩三卷,但改動過的文檔卻高達數百個(次),一周可以達到一兩千個(次)。

 

但要注意,這并不意味著在你硬盤的所有文本中都是一一對應的,比如圖2中的最後一條,“в”就是俄文字母,而不是亂碼。因此,我們在打開一個個文件進行替換時,需要根據上下文確認該文本中的亂碼是否與我們心中認定的字構成對應關系。背樹諼草君曾經制作過一個軟件,將這種亂碼自動地批量替換,但這是很危險的,它可能把沒有構成對應關系的也錯誤地替換掉,造成新的混亂——事實上在“國學導航”網上確有少量這種“不當替換”的例子。

 

根據我的觀察,這些亂碼缺字分成三大“幫派”,外加一定數量的散兵游勇。

 

第一大幫派是尹小林博士門下的國學公司國學寶典系列產品,特別是早期產品。這一幫派中又有正規軍和雜牌軍。正規軍是“增補碼”,如“”之為“祐”、“”之為“旸”(晹)、“”之為“喆”等等,前總理朱公名諱中的“镕”,也在增補碼之列。增補碼是與“MS-DOS”系統相對應的編碼,而基于Windows的微軟Word等文字處理軟件和IE不能直接讀增補碼,這就造成了現在我們所看到的亂碼或者窟窿。增補碼似應屬於國標區位碼的組成部分,在高考、職稱考試等等國家正式考試中,考生的名字中如有“喆”、“堃”等GB2312以外的字,就是用增補區位碼來解決的。所以,這部分亂碼缺字,對應嚴格,適用廣泛,不但見諸國學產品中,也廣泛地出現在其他來源的文本中,特別是從出版單位流出的用早期方正排版系統錄入的文本。雜牌軍則是國學公司自己造的(這雜牌軍倒是嫡係——國學公司自家的子弟兵),但在國學產品中相當統一,有很高的對應度。

 

第二大幫派是臺灣的“瀚典”系列。“瀚典”是由學界開發的,非常嚴謹,迻錄原文時,字體字形上一點點的細微差別都要忠於原件,用大五碼不能錄入的文字,都不憚麻煩,自行造字。但有時不免過分拘泥和瑣細。早先使用“瀚典”時,還要先下載它的插件才能看到這些自造的字。“瀚典”的總體設計者似乎一開始思路就囿於內部使用,而沒有考慮到文本的廣泛使用和傳播,他們似乎一開始就沒有想這些文本可以讓普天下的電腦都能使用,所以不必考慮普天下的電腦是否安裝它的插件,也不考慮大五碼和國標碼的兼容問題。很多字雖然不能用大五碼輸入,但在國標碼中卻是最常用的字,比如“着”、“却”等等(這些字不僅僅是“簡體字”,而且廣泛存在於宋元明清的出版物和手寫稿中),都啃哧啃哧地去造字,真是吃力不討好。所以,“瀚典”的亂碼缺字,其中很大一部分不是難字僻字,而是最常見的字。

 

第三大幫派是香港“漢達”系列,特別是唐以前的文獻,其中最有代表性的是《全上古三代秦漢三國六朝文》。跟“瀚典”一樣,“漢達”也喜歡自己造字,因而引起大量的亂碼缺字。“漢達”在網上可以有限制地(需要申請賬號)搜索,也可以在一些搜索引擎中搜索到,我常常發現搜索引擎中“漢達”文本中的難字僻字是一個不正確的字,大約是它的內碼跟國標碼或者大五碼恰好重復,因而被系統誤讀為另一個字。內碼重復就是自造字庫帶來的最要命的問題。比如“”,簡體系列為“郃”,繁體系列為“飈”;“”簡體系列對應“鸘”,繁體系列為“璹”,等等。迪志公司的《四庫全書》也用自造字,但它本來是光盤傳播(網絡傳播非其本意),顯示的時候不跟別人打架;復制下來,則其自造字幹脆就是一個問號,不帶信息,還是不跟人打架。

 

所謂“散兵游勇”是指非批量生產的文本,使用臨時造字的方法,適用於特定的輸出條件,如出版社書稿的小樣,又如日本學者錄入的漢籍,等等。一些金甲簡牘帛書敦煌學者自錄或者自著的文獻,因其學科關系,字形復雜多變,而字形的每一個細微差別又特別重要,所以多采用自造字的方法,而且各自為政,不同文本之間絕少通用之例(不是沒有)。我們這個亂碼“字典”,基本上不適用這些文本。

 

由上述觀察可知,替換亂碼時一定要搞清楚它屬於哪個“幫派”,根據上下文斟別確認(容我在此再重復強調一遍)。我在這個“字典”里有時會加注“非唯一對應”,或者說明繁體字作某字,簡體字又作某字,這部分字就得格外小心斟別。

 

當您在數字化古籍文本中看到亂碼時,不妨嘗試查一下這個“字典”,我保證您多半會有驚喜的感覺。

 

這個亂碼缺字拼字對照表,其創意和基礎部分來自“國學導航”網(www.guoxue123.com)的背樹諼草君,我在使用過程中續有增補和訂正。背樹諼草君的“缺字對照表”,原本還包括部分內碼和例句,都被我刪除了。附件中的這個表,格式上還很不規整,因為我祇是在最近才開始留意格式,并且祇在使用某個亂碼替換文字時才順手把它做成表格的樣子。亂碼的數量每天都在增添,我每隔一陣子會更新它,有興趣的朋友可以稍加留意,隨時下載更新。

 

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有