PDF文件的结构?

时间:2020-03-06 14:19:23  来源:igfitidea点击:

对于一个小型项目,我必须解析pdf文件并采用其中的特定部分(一个简单的字符链)。我想使用python做到这一点,并且我发现了一些能够以某种方式实现我想要的功能的库。

但是现在经过一些研究,我想知道pdf文件的真实结构是什么,有人知道在线上是否有任何规格或者解释吗?我在adobe上找到了一个链接,但看来这是一个无效的链接:(

解决方案

这是Adobe参考资料的链接

http://www.adobe.com/devnet/pdf/pdf_reference.html

我们应该知道,PDF仅是表示形式,而不是结构。解析起来并不容易。

这是PDF 1.7的原始参考,这是描述PDF文件结构的文章。如果我们使用Vim,则pdftk插件是一种以很少的原始格式浏览文档的好方法,而pdftk实用程序本身(及其GPL源代码)是一种将文档分开的好方法。

刚开始使用PDF时,我发现很难浏览PDF参考。
它可能会了解在语法中找到了文件结构的概述,并且Adobe称其为文档结构是对象结构而不是文件结构。在语法中也可以找到。附录A中隐藏了运算符的描述,对于理解内容流中正在发生的事情非常有用。如果我们有使用色彩空间的烦恼,我们会发现它隐藏在图形中!希望这些指针可以比我更快地找到事物。

如果我们使用的是Windows,则pdftron CosEdit允许我们浏览对象结构以了解它。有一个免费的演示程序,可让我们检查文件但不保存。

从PDF提取文本是一个难题,因为PDF具有这种面向布局的结构。我们可以看到我在CPAN上尝试失败的文档和源代码(我的实现在Perl中)。 PDF数据结构非常酷,而且设计合理,但是写起来比读起来容易。

我正在尝试做几乎相同的事情。 PDF参考是很难阅读的文档。我认为本教程是一个更好的开始。

获得一些线索的一种方法是创建由空白页组成的PDF文件。我的计算机上装有CutePDF Writer,并制作了一页空白的Wordpad文档。打印到.pdf文件,然后使用记事本打开.pdf文件。

接下来,使用该文件的副本并消除可能感兴趣的行或者文本块,然后将其重新加载到Acrobat Reader中。我们会惊讶地制作出一页有效的PDF文档所需的信息很少。

我正在尝试组成一个电子表格,以通过代码创建PDF表单。