加载中…
个人资料
榊蔝
榊蔝
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,208
  • 关注人气:1
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

档案扫描需要的扫描仪推荐

(2019-12-29 00:07:46)
搜索“OCR高天浩  133 7162 1226

目前大 部分档案 息形态 主要 以纸质 、照 片等载体 为主 要形式的传统档案存在 ,经过扫描处 理后把这些档案进行 数字存储是实现纸质档案全文数字化 的重要 途径。扫描和存储就 是运 用影像扫描仪将纸质档 案文件转化 电子 图像文件存储 进计算机,建立起完 整、规范和安全 的电子档 案全 文数据库 ,以实现 在计算机上检索 、查询、浏览和利用档案

一,

目前,大部分档案 资料 都是通过各种扫描 设备输 入到 电脑 ,再进行后期处理 的。档案 数字 化实现全文文 本的输入,主要是采用扫 描方式将纸质的文件与档 案转换为数字化 的形式 ,是通过 中高速扫描 仪和专用扫描软件将整理和 分检好的档案 资料批 量转化成 图像文件 ,并 自动 实现 图像 压缩存储 的过程 。具体的馆藏档案扫描工 作如果没有一整套规 范化和 科学化的工作程 序与方法,会导致计算机 因数据准备不足而无法 实现 电子文件 的利用 。所 以,在档案管理 中应 如何应用和提 高图像扫 描技术 ,应 引起 每一位档案 工作者 的重视

( ) 扫描 技术 行档 全文 数字 转换 优点应用扫 描技术进行档 案全文数字 化转换有 以下几种优

1 、保持文件原貌,彩色扫描图像可 以非常真实地再现文件的原貌;

2、所见即所得,在计算机上看到 电子图像文件用打 印机打 印出来就是 的复

3 、提高工作效率,在计算机上查找、浏览 电子文件 比查找、翻阅纸质 几倍 、甚 几十

4 、扫描后 的电子 图像文件 可与档案管 理软件配合 使用 ,更高效高质地 提供 档案 的利用

5 、大量 调阅 档案 次数 ,有 利于 质档 的保

6、保存条件 宽松,扫描后 的电子 图像文件保 存在 计算机硬盘或光盘 里对保 环境 的要求 宽松

7 、通过扫 描的 电子文 件的质量 不会 损耗 ,电子 文件在计算机 上反复利 用,文件质量不会像录像带、缩微胶片等载体那样产生 图像信号损耗。理论上电子文件可以无限次数地使用。

( ) 档案全文扫描方式的选择

档案全文数字化扫描方式一般有两种:第一种是通过扫描仪扫描档案 ,由字符识别软件 (OCR) 识别,生成可编辑的文本文件;第二种是将档案原文的每一页看成是一张图片,不管上面 具体 是什么 内容 ,由扫描仪 按页扫入计算机制成 图形文件 。第一种方式 占据空间小 ,是一种真正 意义 上的全文数字化 ,与人工单字符输入法相 比,工作效率提高近十倍 ,工作强度成倍减少 。但 纸质 档案信息的记录 方式是多种多样 的,有 的是手写体、繁体字 ,有 的字 迹褪化及非文字 形式等 ,此时采用第一种方式就会暴露 出如下 致命弱 点:用 OCR 字符识 别的准 确率低,差错率大且核对 困难 ,投入大 ,收效低 。这种扫描方式适合 页面清晰 、需要 高速快捷 、批量 处理的档案 扫描

= ,扫   择为了便于理解 ,我们先对 规范 中所 列的几种格式 作一简单介绍

( ) T lF F 图像格式 T IF F T a g 1m a ge F i le F or m at 的缩写,文件扩展名是.Tif,现 在已成 为跨平 台应用最为广泛的图像文件格式 。除 了双色调 图像 ,其他 位图、灰度 图、RGB 彩色图像、CMYK 彩色 图像、CIEIab 彩色图像 的存储都不成问题 。在 Photoshop 中,TIFF

格式能够支持 24 个通道 ,可以支持 CMYK 彩色 图像的印刷分色,它是除 Phot0shop 自身格式 (即.Psd 和.Pdd)外惟一能够存储多个通道的文件格式。T IFF 有压缩和非压缩二种形式,其中压缩可采用 LZW 无损压缩方案存储 ,这种压缩是文件本 身的压缩 ,即把文件 中某些重复的信息采用 一种特 殊的方式记录 。这种存储格式 的优 点是文件可完全还原,能保持原有图颜色和层次,图像质量好 ,缺点是占用空 间大。对于精 度要求较 高的印刷 ( ) 图像文件 ,扫描后一般都选择 T I FF 存储

() JPEG 图像格式。

IJPEG 30 i ntP h ot og ra ph iC Ex P ert sG rO UP缩写扩展名是 JP g jP e g J PE G 是面向连续色调静止 图像的一种高效 格式 ,是最 常见 的一 压缩 图像 格式  点是J P E G 压缩技 术十分先进 ,它用 有损压缩 方式去 除冗 的图像 数据 ,在获得 极高 的压缩 的同时能展 现十分丰 富生动 的图像 ,换句 话说 ,就是可 以用最 少的磁 盘空间得 到较好 图像 品质 。而且 JP EG 是一种很灵 的格式 ,具有 调节 图像质 的功 能,允许用 同的压缩 比例对文件 进行压 ,支持 多种压 缩级 别。但 J P EG 是一种有 损压缩文 件格式 ,在存盘 时会有 一个压缩 ( 图像质 量等级) 的选择 ,若 要求 图像质量高请选择高质量 (Hi gh8 以上)图像 压缩方式,图像容 量会相 对较 反之 文件 ,但 图像质 会大 ,在JP EG 压缩过程 中丢掉 的原始 图像 的部 分数据是无法 恢复 的,这种 存储格 式对 图像精 度要 求不 ,需要 存储 大量 图像 文件 的场 (网站 ) J P E G   t

() PDF 格式。PD F POrtabl eDoCumen tForma t 的缩写扩展名是 P d f ,属 于电子文档格 ,并在 I n t em e t 电子文件 的传 送、保存上被广泛使用 PDF 采用 的是 CCITT 无损压 缩算法,通过 PDF 扫描 的文档 其尺寸至少会和相 T I F 文档一样大 ,可 以实现 多页存储及双层 PD F 。所谓 多页就是在一份 PD F 图像文件 中可 以存放 多页 图像 PDF 文件 格式优点是用户在阅读 PDF 文件时看到 的是扫 描图像 ,可 1 00%保留原始版面效果 (包括 公章 、签名 ),在需要 的时候 ,又可 以通过下层的文字信息持选择、复制 、检索等功能。它可 以将文字 、字型 、格式 、颜 色及独立 于设 备和分辨率 的图形 图像等封装在一个文件中。该格 式文件还 可以包含超 文本链接 、声音和动态影像等 电子信息,支持特长 文件 ,集成度 和安全可靠 性都较高

() 0EB 格式 CEB Ch ine se eBo0k ,扩展 名是 c eb 是完全高保真 的中文电子书的格式 CEB 由国内开发的拥有 自主知 识产权的一种版式复合文件格式,通过转换模块把DOCWPSTXTPDF等多种文件格式转换成 CEB 版式文件格式,并同步转换成标准的XML 式,可将文件 印刷 过程中的版式保 留,与纸质文件保持 同一性。它的优 点是 能够保 留原文 件的字符、字体 、版 式和色彩的所有信息 ,包括 图片、数字公式、化 学公式、表格 、棋牌 以及 乐谱等,同时 ,该格式对文字 图象等进行很好 的压缩 ,文件 的数据量 小。转换方便 ,几乎所有格式都可 以转换成 CE13格式 ,包括 XML S2PS PDFTIFFDOCWPS 等;CEB 文件 占用空间小,在排版 比较 复杂情况下 ,只有原 ·来 DOC 文件的十分之一 CEB 式文件技术主要广泛应用 于电子书、电子公文 、电子期刊 、数 字报 纸等数 字出版物 中。

总之 ,档 的全文 数字 化可 以节省 档案存 贮空 ,缓解 库房 压力 ,减少 因对档案 原件 频繁使用而造 成的磨损 ,妥善解 决珍贵档案文献 的利用 问题 ,已成 为档案工作发展 的必然趋势 。它是一 项长期而又复杂的任务 。随着 扫描技术的不断发 展和存储格式 的创新 ,在 实践过程 中会不断地涌现 新的情况 、新 的问题、新 的技术 ,数字 化工 作不可能一 步到位 。这就要求我们必须具备发展 的眼光 ,将学习到的新知识 、新技术 应用到实 际工作 中去 ,推动档案事业 不断地 向前发展

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有