PDFlibTET5-功能

标签:
哲想软件办公解决方案杂谈 |
分类: 软件 |
PDFlib文本和图像提取工具包(TET) 旨在从PDF文档中提取文本和图像,但也可用于从PDF中检索其他信息。
PDFlibTET 专为独立使用而设计,不需要任何第三方软件。它是健壮的,适合多线程服务器使用;看看如何使用TET。
PDFlibTET 提供以下强大的功能,并为文本提取提供独特的优势以及图像提取的独特优势。
接受的PDF输入
TET支持所有类型的PDF 输入:
-
最高至 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 -2 (PDF 2.0)
-
无需密码即可打开或提供密码的受保护 PDF
-
修复损坏的 PDF 文档
世界上所有的书写系统
TET处理全球所有书写系统中的PDF文档,并实现某些脚本所需的特殊处理:
-
拉丁文、希腊文和西里尔文脚本
-
阿拉伯语和希伯来语,包括从右到左和双向文本的逻辑重新排序;阿拉伯语演示表格的规范化
-
简繁体中文、日文、韩文,不分编码;水平和垂直文本
-
印度语脚本(没有字形重新排序)
-
Unicode 输出支持的所有其他语言和脚本
统一码
由于PDF中的文本通常不以Unicode编码,因此PDFlibTET 将PDF文档中的文本标准化为Unicode:
-
TET 将所有文本内容转换为 Unicode,而不管 PDF 文档中使用的编码方法。
-
连字和其他多字符字形被分解为相应的 Unicode 字符序列。
-
没有适当的 Unicode 映射的字形被识别为这样,并被映射到可配置的替换字符以避免误解。
-
TET 针对特定文档创建包(例如 InDesign 和 TeX 文档或在大型机系统上生成的 PDF)的问题实施了各种解决方法。
内容分析和单词检测
TET 包括获得专利的内容分析算法:
-
确定检索正确单词所需的单词边界
-
组合连字符的部分(去连字符)
-
删除重复的文本实例,例如阴影和人工加粗的文本
-
按阅读顺序重新组合段落
-
正确排序分散在页面上的文本
页面布局、表格和列表检测
分析页面内容以确定文本列。检测到表格,包括跨越多行或多列的单元格。这提高了提取文本的顺序。可以识别表格行和每个表格单元格的内容。项目符号和编号列表被识别。
几何学
TET为文本提供精确的度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中,例如忽略页眉和页脚或页边距。
文字颜色
TET 分析PDF页面描述中的颜色信息并返回每个字形的精确颜色信息。例如,这可用于识别标题或其他突出显示的文本。可以选择在更简单的备用颜色空间中提取高级颜色空间Separation和DeviceN。
图像提取
PDF 页面上的图像可以提取为TIFF、JPEG、JBIG2或JPEG 2000文件。为每个图像报告精确的几何信息(位置、大小和角度)。将碎片图像组合成更大的图像以方便重新调整用途。图像保真度得到保证,因为不会发生下采样或颜色转换。这确保了尽可能高的图像质量。
忽略已标记PDF中的伪影
在标记的PDF,尤其是PDF/UA中,不相关的内容可能被标记为工件,例如页眉和页脚。TET可选择忽略工件文本和图像。
使用pCOS界面进行PDF分析
TET 库包括用于查询PDF文档详细信息的pCOS界面,例如文档信息和XMP元数据、字体列表、页面大小等等。
Unicode 后处理
TET 支持各种Unicode后处理步骤,可用于改进提取的文本:
-
折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。
-
分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
-
文本可以转换为所有 Unicode 规范化形式,例如发出 NFC 形式以满足 Web 文本或数据库的要求。
文档域
PDF文档可能在页面内容之外的其他位置包含文本。虽然大多数应用程序只处理页面内容,但在许多情况下,其他文档域也可能是相关的。TET从以下所有文档域中提取文本:
-
页面内容
-
预定义和自定义文档信息条目
-
文档和图像级别的 XMP 元数据
-
书签
-
递归处理文件附件和 PDF 组合
-
表单域
-
评论(注解)
-
可以查询一般的 PDF 属性,例如页数、是否符合 PDF/A 或 PDF/X 等标准。
XMP 元数据
TET 以多种方式支持XMP 元数据:
-
使用集成的 pCOS 接口,可以通过编程方式提取文档、单个页面、图像或文档其他部分的 XMP 元数据。
-
TETML 输出包含 XMP 文档和图像元数据。
-
以 TIFF 或 JPEG 格式提取的图像包含图像元数据(如果存在于 PDF 中)。
TETML 将PDF内容表示为XML
TET 可以选择以称为TETML 的XML 风格表示PDF内容。它包含各种格式的PDF信息,可以使用常见的XML工具进行处理。TETML包含文本以及可选的字体和位置信息、资源详细信息(字体、图像、色彩空间)和元数据。
TETML还包括交互式元素,例如表单字段、注释、书签等。它甚至可以用于分析JavaScript或色彩空间细节、ICC配置文件或输出意图。
TETML 可以使用XSLT样式表进行处理,例如应用过滤器或将TETML转换为其他格式。用于处理TETML 的示例XSLT样式表包含在TET 分发中。
以下片段显示了带有字形详细信息的TETML 输出:
<单词>
<文本>PDFlib</文本>
<字形字体="F1"size="18" x="111.48" y="636.33"width="9.65">P
D
F
l
i
b
</框>
</字>
TETML可以包括关于单词和段落分组以及关于表格和列表、图像放置和注释以及这些元素的几何信息的信息。
TET 连接器
TET 连接器将TET与其他软件连接起来。它们使PDF文本提取功能可用于各种环境:
-
Lucene 搜索引擎的 TET 连接器
-
Solr 搜索服务器的 TET 连接器
-
TIKA 工具包的 TET 连接器
-
用于 Oracle Text 的 TET 连接器
-
MediaWiki 的 TET 连接器
-
适用于 Microsoft 产品的TET PDF IFilter作为单独的产品提供。它从 PDF 文档中提取文本和元数据,并使其可用于 Windows 上的搜索和检索软件。
TET食谱
TET Cookbook是一组编程示例,演示了如何使用TET完成各种文本和图像提取任务。几个Cookbook示例展示了如何结合TET 和PDFlib PDI产品以增强PDF文档,例如根据页面上的文本添加书签或链接。
公司名称:北京哲想软件有限公司
北京哲想软件官方网站:cogitosoft.com
北京哲想软件微信公众平台账号:cogitosoftware
北京哲想软件微博:哲想软件
北京哲想软件邮箱:sales@ cogitosoft.com
销售(俞先生)联系方式: 86(010)68421378
微信:18610247936