加载中…
个人资料
majian
majian
  • 博客等级:
  • 博客积分:0
  • 博客访问:30,915
  • 关注人气:2
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文
标签:

ocr

tesseract

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://code.google.com/p/tesseract-ocr



 

Windows cmd命令行使用Tesseract-OCR引擎识别验证码:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

 tesseract-ocr-setup-3.01-1.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有