轻量级搜索索引API /库

时间:2020-03-06 14:20:14  来源:igfitidea点击:

我正在寻找一个开源搜索索引库。它将用于嵌入式Web应用程序,因此它应具有较小的代码大小。优选地,用C,C ++或者PHP编写,并且不需要安装任何数据库来存储索引。索引应改为存储在文件中(例如xml,txt)。我试图查看一些著名的搜索库,例如xapian和clucene,它们虽然很好,但是对于嵌入式系统来说却具有相对较大的代码量。

这将在Linux平台上运行,并将用于索引HTML文件。

对使用什么优质搜索库/ API有任何想法吗?

谢谢。

解决方案

第一:我们必须将索引存储在某个地方。因此,除非我们只需要内存索引,否则将需要一个数据文件。

要为通用项目编制索引,我建议我们使用sqlite:http://www.sqlite.org/。当我有大量数据并且需要使用多个索引来处理它时,我什至在仅内存模式下使用它。

超级Estraier。

天啊。有几个。为了使模糊程度降序。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

  • FT搜索
  • 泽塔尔
  • 狮身人面像
  • 雪貂
  • Solr(尽管基于lucene,可能太重了)

我敢肯定那里还有更多,但是这些都是我头顶上的问题。祝你好运 :)

这取决于要求。 Lucene(Java)的完整发行版最多可包含3MB JAR文件,但实际上可以简化为1MB以下。实际上,CLucene可能要小得多。我们需要走多低?

Swish-E用C编写,可能会做我们想要的。不需要数据库,使用自己的二进制索引文件格式。

我还使用了ht:// Dig,但自维护该软件以来似乎已经很长时间了。

两者都可以在Linux上编译,并且可以很好地索引HTML。

第三种选择是AustLII使用的SINO。与那里的团队联系,以确保我们获得最新版本。应该可以在Linux上编译而没有太多麻烦。它并不是真正为嵌入式系统设计的(SINO代表Size No No Object),但我最后看到的是一个不错的API,并且它相对较小(因此,它不是为它设计的,但可能效果也不错)。定位于HTML。快速索引。我认为值得一看。 (披露:很久以前在那里工作过)

最后,我们使用基于Lucene的Solr。 Solr使用基于将XML文档发布到服务器的简单API。无论我们使用哪种语言,界面都很简单。