pdf,chm和djvu文件的桌面搜索实用程序
时间:2020-03-05 18:45:22 来源:igfitidea点击:
我想写一个工具来帮助我在Linux中搜索pdf / chm / djvu文件。关于如何进行操作的任何指示?
主要问题是从所有这些文件读取/导入数据。可以使用C和Shell脚本来完成吗?
解决方案
回答
Beagle的插件怎么样?
它已经搜索了PDF,但是我们可以添加其他文件类型。
这是相关的维基百科页面:http://en.wikipedia.org/wiki/Beagle_(软件)
回答
Tracker随Ubuntu 8.04一起提供-这是Beagle的一个重大转变,用户认为Beagle占用的资源(CPU)过多,并且无法产生足够好的结果。它同时对pdf和chm进行索引,并且根据此错误报告,还对djvu进行索引。
回答
请注意,djvu是图像压缩格式(已优化为压缩"文本图片",通常是扫描结果)。这样,我们将无法搜索文本,除非在元数据中(这是cdleary发送的链接所指的内容),或者我们首先在文档上使用OCR将其转换为文本。
对于内容是扫描的文章/书籍的PDF,也是如此。