使用C#或者经典ASP(VBScript)从PDF提取文本的好方法是什么?

时间:2020-03-05 18:48:31  来源:igfitidea点击:

是否有一个好的库可以从PDF中提取文本?我愿意为此付出代价。

可以与Cor经典ASP(VBScript)一起使用的东西非常理想,我还需要能够将页面与PDF分开。

这个问题有一些有趣的东西,尤其是pdftotext,但是我想避免调用外部命令行应用程序。

解决方案

回答

这是一个很好的清单:
PDF / C#的开源库

这些中的大多数都适合于创建PDF,但是它们也应该具有读取功能。

也有一个:iText

我以前只玩过iText。没什么大不了的。

回答

我们可以使用Windows内置的IFilter接口从任何受支持的文件类型提取文本和属性(作者,标题等)。这是一个COM接口,因此我们将使用.NET互操作工具。

我们还必须从Adobe下载免费的PDF IFilter驱动程序。

回答

我们使用Aspose取得了不错的效果。