加载中…
  
博文
标签:

aspose.pdf

ocr

pdf

杂谈

分类: 软件/控件技术文档

  从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。

  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。

  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。

  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有