Lucene和Lucene.Net中的俄语分析器

时间:2020-03-05 18:53:43  来源:igfitidea点击:

Lucene对俄语的支持很差。

RussianAnalyzer(lucene-contrib的一部分)的质量非常低。

Snowball的RussianStemmer模块甚至更糟。它不能识别Unicode字符串中的俄语文本,显然是假定必须使用Unicode和KOI8-R的某种奇怪组合。

我们知道更好的解决方案吗?

解决方案

回答

如果所有其他方法均失败,请使用Sphinx

回答

这就是开源的美。我们拥有源代码,因此,如果当前的实现对我们不起作用,则可以始终创建自己的甚至更好的扩展现有的实现。
一个好的开始将是《 Lucene in Action》一书。

回答

我的回答可能为时已晚,但根据记录,我发现AOT项目的分析仪要比Lucene随附的分析仪好得多。