[转]ABBYY FineReader使用指南

标签:
扫描校对书籍ocr分享杂谈 |
分类: 他山之石 |
首先,什么是 OCR
技术?OCR (Optical Character
Recognition,光学字符识别)传统上是指,电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
本文所述 OCR,特指将 PDF 文档,拆分为一幅幅图像文件,用 OCR 技术通过相应软件,将图片中文字转换成文本,便于下一步操作(例如导入书苑的 epubBuilder 制作软件)。传说中一步到位的 PDF 转换成 EPUB ,并不在本文的讨论范畴内。。。
一、准备工作:
1. 准备
PDF 源文件,并将 PDF
按页拆分成图像文件。方法有很多,不一一赘述了,如图例1; http://www.cnepub.com/discuz/data/attachment/forum/201209/19/11272108wrvqfq1rz1sed8.jpg
2. 准备
OCR 软件,本人用的是 ABBYY
FineReader 10,如图例2;
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/1146406lpclpwls9r9rpll.jpg
二、初始工作:
1. 新建
FineReader 文档,如图例3;
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/120630eo284gvgpe6gfpv2.jpg
2. 点击上栏“打开”图标,打开图像,打开后,软件处理图像添加进文档,如图例4、5;
提示:在新建的 FineReader 文档中,添加若干图像文件,可以合理安排工作量,例如:按章节分派,每个文档就是一个章节的图像文件;平均分派,每个文档取一个固定值的图像文件,便于均衡校对的工作量。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/122029flgbxfd1b9tlmufb.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/125124l6j8oejaqh909qvj.jpg
3. 保存
FineReader 文档,如图例6;
提示:建立并保存 FineReader 文档后,下次可以打开未完成的文档,继续校对工作。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/125832v7vzsvsnvqswvzvv.jpg
三、设置工作:
1. 将输出设置为“另存为TXT”,如图例7;
提示:个人认为无格式的TXT文档便于后期编辑,具体喜好因人而宜。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/132608tti6nv2ixn2y6676.jpg
2. 点击“选项”图标,设置“文档语言”,这个很重要,如图例8;
提示:简体中文书籍,繁体书籍,英文书籍请按相应语言设置,也可按右侧“编辑语言”,设置你要的语言,不要添加过多选项,否则将影响准确率。如图例9。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/134259bxfbe2x0vgpza7vo.jpg
3. 在“选项”内选“查看”标签,设置软件显示待校对文字的字体,如图例10;
提示:我选“楷体”,并不是说我喜欢这个字体,而是因为,很多生僻字在楷体字库下显示不出,例如“事”和“亊”,识别为“亊”,在宋体下能显示,楷体不显示,便于纠错。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/135244zrzxraopirr8r5dp.jpg
四、校对工作:
1. 打开
FineReader
文档(类似一个专辑),调出一组图像文件;
2. 一般情况打开左右两栏,左侧原图,右侧待校对文字;
3. 调整好两栏显示大小;
4. 打开右上角“显示不可打印字符”按钮,便于将不规则字符去除 ;如图例11
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/143259u6uyp8yejnvn1zkz.jpg
5. 遇到书源不好的PDF,字迹比较模糊,也可调整为上下俩栏(共4栏),识别校对,如图例12;
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/145151pl6so3ttm6zfv5o3.jpg
6. 软件会将可能错误的字符以背景颜色显示出来,便于校对更正,更正时可以手动输入,也可以鼠标移动待修改字,右键以显示待选字符,再选择正确字符。如图例13;
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/1503135s4huwfhu255w5sp.jpg
7. 将此档校对完毕,保存输出,如图例14;
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/151246hsx4kxlkeyokszow.jpg
8. 其他一些情况,如中英文混编的书籍,更复杂一些。建议分别选择识别区域,分别识别,如图例15。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/155131gying1ea1dyiisq4.jpg
9. OCR
技术的扩展应用,一份小女的卷子,手机拍下,分别识别校对。。。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160156ekvckgpzchorhhrg.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160207bzubhs02hnn1s8rs.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160217v7ekvzg7xejj91a7.jpg
五、总结:
本文所述 OCR,特指将 PDF 文档,拆分为一幅幅图像文件,用 OCR 技术通过相应软件,将图片中文字转换成文本,便于下一步操作(例如导入书苑的 epubBuilder 制作软件)。传说中一步到位的 PDF 转换成 EPUB ,并不在本文的讨论范畴内。。。
一、准备工作:
1.
2.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/1146406lpclpwls9r9rpll.jpg
二、初始工作:
1.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/120630eo284gvgpe6gfpv2.jpg
2.
提示:在新建的 FineReader 文档中,添加若干图像文件,可以合理安排工作量,例如:按章节分派,每个文档就是一个章节的图像文件;平均分派,每个文档取一个固定值的图像文件,便于均衡校对的工作量。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/122029flgbxfd1b9tlmufb.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/125124l6j8oejaqh909qvj.jpg
3.
提示:建立并保存 FineReader 文档后,下次可以打开未完成的文档,继续校对工作。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/125832v7vzsvsnvqswvzvv.jpg
三、设置工作:
1.
提示:个人认为无格式的TXT文档便于后期编辑,具体喜好因人而宜。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/132608tti6nv2ixn2y6676.jpg
2.
提示:简体中文书籍,繁体书籍,英文书籍请按相应语言设置,也可按右侧“编辑语言”,设置你要的语言,不要添加过多选项,否则将影响准确率。如图例9。
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/134259bxfbe2x0vgpza7vo.jpg
3.
提示:我选“楷体”,并不是说我喜欢这个字体,而是因为,很多生僻字在楷体字库下显示不出,例如“事”和“亊”,识别为“亊
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/135244zrzxraopirr8r5dp.jpg
四、校对工作:
1.
2.
3.
4.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/143259u6uyp8yejnvn1zkz.jpg
5.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/145151pl6so3ttm6zfv5o3.jpg
6.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/1503135s4huwfhu255w5sp.jpg
7.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/151246hsx4kxlkeyokszow.jpg
8.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/155131gying1ea1dyiisq4.jpg
9.
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160156ekvckgpzchorhhrg.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160207bzubhs02hnn1s8rs.jpg
http://www.cnepub.com/discuz/data/attachment/forum/201209/19/160217v7ekvzg7xejj91a7.jpg
五、总结: