加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

PDFlibTET5-功能

(2022-06-25 11:15:12)
标签:

哲想

软件

办公

解决方案

杂谈

分类: 软件

PDFlib文本和图像提取工具包(TET) 旨在从PDF文档中提取文本和图像,但也可用于从PDF中检索其他信息。


PDFlibTET 专为独立使用而设计,不需要任何第三方软件。它是健壮的,适合多线程服务器使用;看看如何使用TET。


PDFlibTET 提供以下强大的功能,并为文本提取提供独特的优势以及图像提取的独特优势。

PDFlibTET5-功能

接受的PDF输入

TET支持所有类型的PDF 输入:

  • 最高至 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 -2 (PDF 2.0)

  • 无需密码即可打开或提供密码的受保护 PDF

  • 修复损坏的 PDF 文档



世界上所有的书写系统

TET处理全球所有书写系统中的PDF文档,并实现某些脚本所需的特殊处理:

  • 拉丁文、希腊文和西里尔文脚本

  • 阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语演示表格的规范化

  • 简繁体中文、日文、韩文,不分编码;水平和垂直文本

  • 印度语脚本(没有字形重新排序)

  • Unicode 输出支持的所有其他语言和脚本


统一码

由于PDF中的文本通常不以Unicode编码,因此PDFlibTET 将PDF文档中的文本标准化为Unicode:

  • TET 将所有文本内容转换为 Unicode,而不管 PDF 文档中使用的编码方法。

  • 连字和其他多字符字形被分解为相应的 Unicode 字符序列。

  • 没有适当的 Unicode 映射的字形被识别为这样,并被映射到可配置的替换字符以避免误解。

  • TET 针对特定文档创建包(例如 InDesign 和 TeX 文档或在大型机系统上生成的 PDF)的问题实施了各种解决方法。


内容分析和单词检测

TET 包括获得专利的内容分析算法:

  • 确定检索正确单词所需的单词边界

  • 组合连字符的部分(去连字符)

  • 删除重复的文本实例,例如阴影和人工加粗的文本

  • 按阅读顺序重新组合段落

  • 正确排序分散在页面上的文本


页面布局、表格和列表检测

分析页面内容以确定文本列。检测到表格,包括跨越多行或多列的单元格。这提高了提取文本的顺序。可以识别表格行和每个表格单元格的内容。项目符号和编号列表被识别。


几何学

TET为文本提供精确的度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中,例如忽略页眉和页脚或页边距。


文字颜色

TET 分析PDF页面描述中的颜色信息并返回每个字形的精确颜色信息。例如,这可用于识别标题或其他突出显示的文本。可以选择在更简单的备用颜色空间中提取高级颜色空间Separation和DeviceN。


图像提取

PDF 页面上的图像可以提取为TIFF、JPEG、JBIG2或JPEG 2000文件。为每个图像报告精确的几何信息(位置、大小和角度)。将碎片图像组合成更大的图像以方便重新调整用途。图像保真度得到保证,因为不会发生下采样或颜色转换。这确保了尽可能高的图像质量。


忽略已标记PDF中的伪影

在标记的PDF,尤其是PDF/UA中,不相关的内容可能被标记为工件,例如页眉和页脚。TET可选择忽略工件文本和图像。


使用pCOS界面进行PDF分析

TET 库包括用于查询PDF文档详细信息的pCOS界面,例如文档信息和XMP元数据、字体列表、页面大小等等。


Unicode 后处理

TET 支持各种Unicode后处理步骤,可用于改进提取的文本:

  • 折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。

  • 分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。

  • 文本可以转换为所有 Unicode 规范化形式,例如发出 NFC 形式以满足 Web 文本或数据库的要求。


文档域

PDF文档可能在页面内容之外的其他位置包含文本。虽然大多数应用程序只处理页面内容,但在许多情况下,其他文档域也可能是相关的。TET从以下所有文档域中提取文本:

  • 页面内容

  • 预定义和自定义文档信息条目

  • 文档和图像级别的 XMP 元数据

  • 书签

  • 递归处理文件附件和 PDF 组合

  • 表单域

  • 评论(注解)

  • 可以查询一般的 PDF 属性,例如页数、是否符合 PDF/A 或 PDF/X 等标准。


XMP 元数据

TET 以多种方式支持XMP 元数据:

  • 使用集成的 pCOS 接口,可以通过编程方式提取文档、单个页面、图像或文档其他部分的 XMP 元数据。

  • TETML 输出包含 XMP 文档和图像元数据。

  • 以 TIFF 或 JPEG 格式提取的图像包含图像元数据(如果存在于 PDF 中)。


TETML PDF内容表示为XML

TET 可以选择以称为TETML 的XML 风格表示PDF内容。它包含各种格式的PDF信息,可以使用常见的XML工具进行处理。TETML包含文本以及可选的字体和位置信息、资源详细信息(字体、图像、色彩空间)和元数据。


TETML还包括交互式元素,例如表单字段、注释、书签等。它甚至可以用于分析JavaScript或色彩空间细节、ICC配置文件或输出意图。


TETML 可以使用XSLT样式表进行处理,例如应用过滤器或将TETML转换为其他格式。用于处理TETML 的示例XSLT样式表包含在TET 分发中。


以下片段显示了带有字形详细信息的TETML 输出:


<单词>

<文本>PDFlib</文本>

 

<字形字体="F1"size="18" x="111.48" y="636.33"width="9.65">P

D

F

l

i

b

</框>

</字>



TETML可以包括关于单词和段落分组以及关于表格和列表、图像放置和注释以及这些元素的几何信息的信息。


TET 连接器

TET 连接器将TET与其他软件连接起来。它们使PDF文本提取功能可用于各种环境:

  • Lucene 搜索引擎的 TET 连接器

  • Solr 搜索服务器的 TET 连接器

  • TIKA 工具包的 TET 连接器

  • 用于 Oracle Text 的 TET 连接器

  • MediaWiki 的 TET 连接器

  • 适用于 Microsoft 产品的TET PDF IFilter作为单独的产品提供。它从 PDF 文档中提取文本和元数据,并使其可用于 Windows 上的搜索和检索软件。


TET食谱

TET Cookbook是一组编程示例,演示了如何使用TET完成各种文本和图像提取任务。几个Cookbook示例展示了如何结合TET 和PDFlib PDI产品以增强PDF文档,例如根据页面上的文本添加书签或链接。


公司名称:北京哲想软件有限公司

北京哲想软件官方网站:cogitosoft.com

北京哲想软件微信公众平台账号:cogitosoftware

北京哲想软件微博:哲想软件

北京哲想软件邮箱:sales@ cogitosoft.com

销售(俞先生)联系方式: 86(010)68421378

微信:18610247936     QQ:368531638

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有