PDFlibTET5-功能_哲想软件

http://blog.sina.com.cn/u/5662844557

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

PDFlibTET5-功能

(2022-06-25 11:15:12)

标签：

哲想

软件

办公

解决方案

杂谈

分类：软件

PDFlib文本和图像提取工具包(TET) 旨在从PDF文档中提取文本和图像，但也可用于从PDF中检索其他信息。

PDFlibTET 专为独立使用而设计，不需要任何第三方软件。它是健壮的，适合多线程服务器使用；看看如何使用TET。

PDFlibTET 提供以下强大的功能，并为文本提取提供独特的优势以及图像提取的独特优势。

接受的PDF输入

TET支持所有类型的PDF 输入：

最高至 Acrobat DC 的所有 PDF 版本，包括 ISO 32000-1 和 -2 (PDF 2.0)
无需密码即可打开或提供密码的受保护 PDF
修复损坏的 PDF 文档

世界上所有的书写系统

TET处理全球所有书写系统中的PDF文档，并实现某些脚本所需的特殊处理：

拉丁文、希腊文和西里尔文脚本
阿拉伯语和希伯来语，包括从右到左和双向文本的逻辑重新排序；阿拉伯语演示表格的规范化
简繁体中文、日文、韩文，不分编码；水平和垂直文本
印度语脚本（没有字形重新排序）
Unicode 输出支持的所有其他语言和脚本

统一码

由于PDF中的文本通常不以Unicode编码，因此PDFlibTET 将PDF文档中的文本标准化为Unicode：

TET 将所有文本内容转换为 Unicode，而不管 PDF 文档中使用的编码方法。
连字和其他多字符字形被分解为相应的 Unicode 字符序列。
没有适当的 Unicode 映射的字形被识别为这样，并被映射到可配置的替换字符以避免误解。
TET 针对特定文档创建包（例如 InDesign 和 TeX 文档或在大型机系统上生成的 PDF）的问题实施了各种解决方法。

内容分析和单词检测

TET 包括获得专利的内容分析算法：

确定检索正确单词所需的单词边界
组合连字符的部分（去连字符）
删除重复的文本实例，例如阴影和人工加粗的文本
按阅读顺序重新组合段落
正确排序分散在页面上的文本

页面布局、表格和列表检测

分析页面内容以确定文本列。检测到表格，包括跨越多行或多列的单元格。这提高了提取文本的顺序。可以识别表格行和每个表格单元格的内容。项目符号和编号列表被识别。

几何学

TET为文本提供精确的度量，例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中，例如忽略页眉和页脚或页边距。

文字颜色

TET 分析PDF页面描述中的颜色信息并返回每个字形的精确颜色信息。例如，这可用于识别标题或其他突出显示的文本。可以选择在更简单的备用颜色空间中提取高级颜色空间Separation和DeviceN。

图像提取

PDF 页面上的图像可以提取为TIFF、JPEG、JBIG2或JPEG 2000文件。为每个图像报告精确的几何信息（位置、大小和角度）。将碎片图像组合成更大的图像以方便重新调整用途。图像保真度得到保证，因为不会发生下采样或颜色转换。这确保了尽可能高的图像质量。

忽略已标记PDF中的伪影

在标记的PDF，尤其是PDF/UA中，不相关的内容可能被标记为工件，例如页眉和页脚。TET可选择忽略工件文本和图像。

使用pCOS界面进行PDF分析

TET 库包括用于查询PDF文档详细信息的pCOS界面，例如文档信息和XMP元数据、字体列表、页面大小等等。

Unicode 后处理

TET 支持各种Unicode后处理步骤，可用于改进提取的文本：

折叠保留、删除或替换字符，例如从不相关的脚本中删除标点符号或字符。
分解用一个或多个其他字符的等效序列替换一个字符，例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
文本可以转换为所有 Unicode 规范化形式，例如发出 NFC 形式以满足 Web 文本或数据库的要求。

文档域

PDF文档可能在页面内容之外的其他位置包含文本。虽然大多数应用程序只处理页面内容，但在许多情况下，其他文档域也可能是相关的。TET从以下所有文档域中提取文本：

页面内容
预定义和自定义文档信息条目
文档和图像级别的 XMP 元数据
书签
递归处理文件附件和 PDF 组合
表单域
评论（注解）
可以查询一般的 PDF 属性，例如页数、是否符合 PDF/A 或 PDF/X 等标准。

XMP 元数据

TET 以多种方式支持XMP 元数据：

使用集成的 pCOS 接口，可以通过编程方式提取文档、单个页面、图像或文档其他部分的 XMP 元数据。
TETML 输出包含 XMP 文档和图像元数据。
以 TIFF 或 JPEG 格式提取的图像包含图像元数据（如果存在于 PDF 中）。

TETML 将PDF内容表示为XML

TET 可以选择以称为TETML 的XML 风格表示PDF内容。它包含各种格式的PDF信息，可以使用常见的XML工具进行处理。TETML包含文本以及可选的字体和位置信息、资源详细信息（字体、图像、色彩空间）和元数据。

TETML还包括交互式元素，例如表单字段、注释、书签等。它甚至可以用于分析JavaScript或色彩空间细节、ICC配置文件或输出意图。

TETML 可以使用XSLT样式表进行处理，例如应用过滤器或将TETML转换为其他格式。用于处理TETML 的示例XSLT样式表包含在TET 分发中。

以下片段显示了带有字形详细信息的TETML 输出：

<单词>

<文本>PDFlib</文本>

<字形字体="F1"size="18" x="111.48" y="636.33"width="9.65">P

</框>

</字>

TETML可以包括关于单词和段落分组以及关于表格和列表、图像放置和注释以及这些元素的几何信息的信息。

TET 连接器

TET 连接器将TET与其他软件连接起来。它们使PDF文本提取功能可用于各种环境：

Lucene 搜索引擎的 TET 连接器
Solr 搜索服务器的 TET 连接器
TIKA 工具包的 TET 连接器
用于 Oracle Text 的 TET 连接器
MediaWiki 的 TET 连接器
适用于 Microsoft 产品的TET PDF IFilter作为单独的产品提供。它从 PDF 文档中提取文本和元数据，并使其可用于 Windows 上的搜索和检索软件。

TET食谱

TET Cookbook是一组编程示例，演示了如何使用TET完成各种文本和图像提取任务。几个Cookbook示例展示了如何结合TET 和PDFlib PDI产品以增强PDF文档，例如根据页面上的文本添加书签或链接。

公司名称：北京哲想软件有限公司

北京哲想软件官方网站：cogitosoft.com

北京哲想软件微信公众平台账号：cogitosoftware

北京哲想软件微博：哲想软件

北京哲想软件邮箱：sales@ cogitosoft.com

销售（俞先生）联系方式： 86（010）68421378

微信：18610247936 QQ：368531638

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：iSlide主要功能模块（1）

后一篇：SafeBreach-studio：首个无代码红队平台

新浪BLOG意见反馈留言板　欢迎批评指正