PDF文件的结构？-IGI

时间：2020-03-06 14:19:23 　来源:igfitidea点击:

对于一个小型项目，我必须解析pdf文件并采用其中的特定部分(一个简单的字符链)。我想使用python做到这一点，并且我发现了一些能够以某种方式实现我想要的功能的库。

但是现在经过一些研究，我想知道pdf文件的真实结构是什么，有人知道在线上是否有任何规格或者解释吗？我在adobe上找到了一个链接，但看来这是一个无效的链接:(

解决方案

这是Adobe参考资料的链接

http://www.adobe.com/devnet/pdf/pdf_reference.html

我们应该知道，PDF仅是表示形式，而不是结构。解析起来并不容易。

这是PDF 1.7的原始参考，这是描述PDF文件结构的文章。如果我们使用Vim，则pdftk插件是一种以很少的原始格式浏览文档的好方法，而pdftk实用程序本身(及其GPL源代码)是一种将文档分开的好方法。

刚开始使用PDF时，我发现很难浏览PDF参考。
它可能会了解在语法中找到了文件结构的概述，并且Adobe称其为文档结构是对象结构而不是文件结构。在语法中也可以找到。附录A中隐藏了运算符的描述，对于理解内容流中正在发生的事情非常有用。如果我们有使用色彩空间的烦恼，我们会发现它隐藏在图形中！希望这些指针可以比我更快地找到事物。

如果我们使用的是Windows，则pdftron CosEdit允许我们浏览对象结构以了解它。有一个免费的演示程序，可让我们检查文件但不保存。

从PDF提取文本是一个难题，因为PDF具有这种面向布局的结构。我们可以看到我在CPAN上尝试失败的文档和源代码(我的实现在Perl中)。 PDF数据结构非常酷，而且设计合理，但是写起来比读起来容易。

我正在尝试做几乎相同的事情。 PDF参考是很难阅读的文档。我认为本教程是一个更好的开始。

获得一些线索的一种方法是创建由空白页组成的PDF文件。我的计算机上装有CutePDF Writer，并制作了一页空白的Wordpad文档。打印到.pdf文件，然后使用记事本打开.pdf文件。

接下来，使用该文件的副本并消除可能感兴趣的行或者文本块，然后将其重新加载到Acrobat Reader中。我们会惊讶地制作出一页有效的PDF文档所需的信息很少。

我正在尝试组成一个电子表格，以通过代码创建PDF表单。

PDF文件的结构？

解决方案

相关推荐

最近更新

标签

PDF文件的结构？

解决方案

相关推荐

SQLServer tempDB无限增长

我从哪里开始学习GUI编程？

如何在Emacs中复制整行？

ISS错误CS0433：名称冲突

相关推荐

最近更新

标签